Duże modele językowe zbyt łatwo zmieniają zdanie pod presją – badanie Google

itreseller.com.pl 3 miesięcy temu

Badanie Google DeepMind i UCL pokazuje, iż duże modele językowe rezygnują z poprawnych odpowiedzi po otrzymaniu sprzecznych informacji zwrotnych.

Najnowsze badanie Google DeepMind i University College London ujawniło niepokojący problem w działaniu systemów sztucznej inteligencji. Modele językowe takie jak GPT-4, Gemma 3 czy o1-preview wykazują skrajnie niespójne reakcje na krytykę swoich odpowiedzi. Systemy potrafią rozpocząć z wysoką pewnością siebie, by następnie całkowicie porzucić swoje stanowisko po otrzymaniu sprzecznych informacji.

Badacze przeprowadzili kontrolowany eksperyment, w którym zadawali modelom pytania wielokrotnego wyboru. Następnie konfrontowali je ze sztucznymi radami od fikcyjnego “AI-doradcy”. Każda rada była opatrzona oceną dokładności i albo wspierała, albo przeczyła pierwotnej odpowiedzi modelu. najważniejsze odkrycie pokazało dramatyczny wzrost skłonności do zmiany zdania – z 13,1% do 32,5% – gdy model nie widział swojej wcześniejszej odpowiedzi.

Szczególnie niepokojący jest fakt asymetrycznej reakcji na różne typy informacji zwrotnej. Sprzeczne rady powodują zbyt gwałtowne obniżenie pewności siebie, podczas gdy potwierdzające informacje prawie nie wpływają na poziom pewności. To oznacza, iż AI może być manipulowane przez przeciwstawne argumenty, choćby jeżeli są one słabsze od jego oryginalnego rozumowania.

Badanie ujawniło także zjawisko “uprzedzenia wspierającego wybór”. Otóż gdy system myśli, iż odpowiedź pochodzi od innego AI, to uprzedzenie całkowicie znika. Naukowcy ostrzegają, iż te problemy mogą prowadzić do niespójnych i mylących odpowiedzi pojawiających się w popularnych czatbotach.

Idź do oryginalnego materiału