Chatboty medyczne pod ostrzałem naukowców: AI daje gorsze porady niż klasyczna wyszukiwarka

itreseller.com.pl 6 miesięcy temu

Według badania naukowców z Oxfordu, użytkownicy chatbotów napotykają trudności w otrzymywaniu wartościowych porad zdrowotnych. Wydaje się, iż osoby korzystające z AI nie podejmują trafniejszych decyzji niż te, które stosują konwencjonalne metody wyszukiwania informacji.

Coraz liczniejsza grupa osób konsultuje się z chatbotami AI w kwestiach zdrowotnych. Najnowsze dane wskazują, iż około 1/6 dorosłych Amerykanów przynajmniej raz w miesiącu zasięga porad zdrowotnych dzięki narzędzi takich jak ChatGPT. Ten trend wynika głównie z długiego czasu oczekiwania na wizyty lekarskie i wzrastających kosztów w przeciążonych systemach opieki zdrowotnej.

Niestety badanie przeprowadzone przez Oxford Internet Institute ujawniło istotne problemy także w dialogu między użytkownikami a chatbotami doradzającymi w kwestiach medycznych:

„Zaobserwowaliśmy wyraźny problem w dwukierunkowej komunikacji” – powiedział dr Adam Mahdi, dyrektor badań w Oxford Internet Institute. „Użytkownicy chatbotów nie dokonują bardziej świadomych wyborów niż osoby korzystające z tradycyjnych metod, jak wyszukiwanie internetowe czy chociażby własna intuicja.”

W przeprowadzonym eksperymencie wzięło udział około 1300 osób. Uczestnikom przedstawiono fikcyjne przypadki medyczne, które zostały wcześniej opracowane przez zespół lekarzy. Głównym zadaniem badanych było rozpoznanie potencjalnych problemów zdrowotnych opisanych w tych scenariuszach oraz podjęcie decyzji odnośnie dalszego postępowania – czy należy udać się do lekarza pierwszego kontaktu, czy też bezpośrednio do szpitala. Podczas podejmowania tych decyzji uczestnicy mieli możliwość skorzystania z różnych narzędzi: mogli polegać na chatbotach, własnej intuicji i wiedzy lub przeprowadzić standardowe wyszukiwanie informacji w internecie.

W przeprowadzonym eksperymencie badawczym wykorzystano trzy zaawansowane modele sztucznej inteligencji: najnowocześniejszy ChatGPT-4o opracowany przez OpenAI, Command R+ stworzony przez firmę Cohere oraz model Llama 3 zaprojektowany przez Metę. Rezultaty badania okazały się alarmujące – korzystanie z tych systemów AI faktycznie obniżało skuteczność identyfikacji kluczowych stanów chorobowych. Co więcej, chatboty miały tendencję do umniejszania powagi rozpoznanych chorób, co mogło prowadzić do niewłaściwych decyzji diagnostycznych.

Warto zauważyć, iż wyniki te stoją w sprzeczności z niektórymi wcześniejszymi badaniami, które sugerowały, iż modele AI mogą przewyższać lekarzy w precyzji diagnozowania. Na przykład badanie przeprowadzone przez zespół naukowców ze Stanford University pod kierownictwem dr Jonathana H. Chena wykazało, iż chatboty samodzielnie analizujące przypadki medyczne osiągały lepsze wyniki niż lekarze korzystający tylko z wyszukiwarek internetowych i literatury medycznej.

Dlaczego występują tak znaczące różnice w wynikach przytoczonych badań? Jak wyjaśnił dr Mahdi, problem często tkwi w sposobie, w jaki internauci formułują zapytania do systemów AI. Badani często nie uwzględniali istotnych danych podczas zadawania pytań chatbotom lub mieli trudności ze zrozumieniem otrzymanych odpowiedzi.

„Odpowiedzi generowane przez chatboty stanowiły często mieszankę racjonalnych wskazówek i nieodpowiednich rekomendacji. Stosowane w tej chwili metody oceny skuteczności chatbotów nie uwzględniają w pełni skomplikowanej natury interakcji między sztuczną inteligencją a ludźmi.” – podkreślił dr Mahdi.

Idź do oryginalnego materiału