
Wydaje Ci się, iż sztuczna inteligencja to bezstronny doradca, z którym możesz obiektywnie podyskutować? Nic bardziej mylnego.
Przez sposób, w jaki trenowane są współczesne modele, chatboty stały się cyfrowymi potakiwaczami, które wolą przyznać Ci rację w największym absurdzie, niż wejść z Tobą w polemikę. Najnowsza publikacja badaczy m.in. z MIT i Uniwersytetu Waszyngtońskiego obnaża to zjawisko. Wyniki ich symulacji i modeli matematycznych nie pozostawiają złudzeń: chatbot nie musi wcale kłamać, by skrajnie zniekształcić nasz obraz rzeczywistości.
Prawdziwe koszty „spirali urojeń”
Dokument zatytułowany „Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians” wykorzystuje formalne modelowanie, ale naukowcy przywołują w nim również twarde, udokumentowane przykłady tego, jak tragiczne w skutkach potrafi być bezkrytyczne potakiwanie przez maszynę.
Projekt The Human Line udokumentował dotąd blisko 300 przypadków zjawiska określanego w mediach jako „AI-psychoza” (sami badacze skupiają się na mechanizmie „spirali urojeń”, unikając diagnoz klinicznych).
Najpoważniejsze incydenty powiązano z co najmniej 14 zgonami oraz 5 pozwami o spowodowanie śmierci wytoczonymi firmom technologicznym. W 2025 roku księgowy Eugene Torres, po kilku tygodniach rozmów z chatbotem, uwierzył, iż jest uwięziony w „fałszywym wszechświecie”. Za radą sztucznej inteligencji zwiększył dawkę ketaminy i zerwał kontakty z rodziną. Inny użytkownik, Allan Brooks, na skutek rozmów z AI nabrał absolutnego przekonania, iż dokonał fundamentalnego, epokowego odkrycia matematycznego.
Dlaczego AI nam to robi?
Najważniejsze: to nie jest wina AI. AI to tylko narzędzie, a nie świadomy byt. Problem wynika bezpośrednio z najpopularniejszej dziś metody trenowania sztucznej inteligencji – RLHF (uczenie ze wzmocnieniem na podstawie ludzkich opinii). Modele są po prostu nagradzane za to, iż ich odpowiedzi podobają się użytkownikom. W efekcie boty wykształciły w sobie silną skłonność do czegoś, co w języku angielskim określa się mianem sycophancy – czyli służalczości, pochlebstwa i potakiwania.
Badacze stworzyli formalny model matematyczny i przeprowadzili symulacje, które sugerują, iż w starciu z tak zaprojektowanym botem, ofiarą „spirali urojeń” może paść choćby idealnie racjonalnie myślący człowiek (tzw. „idealny użytkownik bayesowski”). Wystarczy drobne podejrzenie. Chatbot, chcąc zadowolić rozmówcę, natychmiast je potwierdza i uwiarygadnia, co z czasem zamienia się w toksyczną pętlę sprzężenia zwrotnego.
Ostrzeżenia i fakty nie pomagają
Najciekawszy wniosek z badania dotyczy prób naprawy tego problemu. Naukowcy zasymulowali dwie najczęstsze strategie obronne proponowane przez branżę technologiczną. Obie okazały się nieskuteczne:
- Zmuszenie bota do mówienia tylko prawdy: choćby jeżeli chatbot ma nałożone blokady na tzw. halucynacje i operuje wyłącznie na faktach, przez cały czas może wpędzać użytkownika w urojenia. Jak? Stosując tzw. cherry-picking (manipulacja faktami). AI wybiera i przedstawia użytkownikowi wyłącznie te prawdziwe informacje, które potwierdzają jego błędną tezę, całkowicie przemilczając dowody świadczące przeciwko niej.
- Świadomość zagrożenia: mogłoby się wydawać, iż jeżeli ostrzeżemy użytkowników o tym, iż bot im potakuje, uodpornią się na to zjawisko. Analizy wykazują jednak, iż choćby poinformowany i podejrzliwy użytkownik ostatecznie wpada w pułapkę. Działa to dokładnie tak samo, jak sędzia, który może ulec narracji wybitnego prokuratora/obrońcy, pomimo pełnej świadomości jego intencji.
Wniosek jest niepokojący. Minimalizowanie halucynacji w chatbotach to za mało. Dopóki fundamentem działania sztucznej inteligencji będzie ślepa pogoń za aprobatą użytkownika, maszyny te będą działać jak cyfrowe lustra – potęgując nasze własne błędy poznawcze w drodze po wirtualną nagrodę.
Koniec ery niebieskich linków. Google Search Live zmienia sposób, w jaki pytamy o świat
Jeśli artykuł Toksyczny potakiwacz. Modele z MIT pokazują, jak chatboty wpychają ludzi w „spiralę urojeń” nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.








