
Czy benchmarki nas mylą, jeżeli chodzi o umiejętności AI? Tak twierdzą naukowcy z trzech amerykańskich uniwersytetów, którzy odnotowują, iż tak naprawdę modele AI często nie rozumieją koncepcji, choćby jeżeli je znają. Badacze zaproponowali dla tego zjawiska nową nazwę – „zrozumienie potiomkinowskie”. Tymczasem obecne benchmarki nie są w stanie takiego potiomkinowskiego zrozumienia wychwycić.
Czemu „zrozumienie potiomkinowskie”? To odniesienie do wiosek potiomkinowskich, czyli określenia używanego w odniesieniu do mistyfikacji mającej na celu wywarcie dobrego wrażenia. Tak jak, rzekomo, Grigorij Potiomkin zmontował kilka przenośnych wiosek, żeby podczas objazdu carycy Katarzyny po Krymie pokazać, jak wielki sukces odniósł jego wysiłek na rzecz kolonizacji świeżo podbitej prowincji.
Badacze z Harvardu, MIT i University of Chicago sugerują, iż świetne wyniki modeli AI w benchmarkach to właśnie takie wioski potiomkinowskie. Ładna fasada mająca ukryć fundamentalny brak zrozumienia koncepcji przez sztuczną inteligencję.
AI wie, ale nie rozumie
Badacze podają prosty przykład: jeżeli zapytamy model AI, co to jest rym ABAB, to model prawidłowo odpowie, iż to taki rym, w którym rymuje się pierwszy wers z trzecim i drugi z czwartym, ale poproszony o uzupełnienie wiersza o słowo, które taki rym by dopełniło, podaje… nieprawidłową odpowiedź.
Takich przykładów jest o wiele więcej. Badacze przebadali modele pod kątem trzech obszarów – technik literackich, teorii gier i błędów psychologicznych. O ile modele świetnie sobie radziły ze zdefiniowaniem pojęć – robiły to prawidłowo w przeszło 94% przypadków, to już istotnie gorzej im szło w zastosowaniu tych pojęć – przy zadaniach związanych z klasyfikacją, generowaniem i edycją.
Naukowcy stworzyli „wskaźnik potiomkinowski”, który przybiera wartości od 0 – w pełni prawidłowe odpowiedzi – do 1 – czyli prawidłowość odpowiedzi na poziomie losowym. Dla zadań z klasyfikacji przebadane modele uzyskały wskaźnik potiomkinowski na poziomie 0,55, dla generowania i edycji było nieco lepiej, bo te wskaźniki wypadły na poziomie 0,40. Żaden z przebadanych modeli w żadnym rodzaju zadania nie uzyskał wyniku poniżej 0,2.
Co więcej, DeepSeek-R1, jedyny „rozumujący” model w zestawieniu, niekoniecznie radził sobie lepiej niż tradycyjne modele językowe. To może świadczyć, iż dodanie „rozumowania” do modeli niekoniecznie zwiększa ich rozumienie koncepcji.
Benchmarki nas mylą. Czemu?
Pojawia się pytanie – jeżeli jest tak słabo w zrozumieniu pojęć przez sztuczną inteligencję, to czemu tak świetnie dają sobie radę z benchmarkami? Tutaj badacze sugerują, iż dzieje się tak, bo konstruujemy benchmarki jak dla ludzi.
„Rodzi to pewne zastrzeżenie: te benchmarki są miarodajne tylko wtedy, gdy LLM-y błędnie rozumieją pojęcia w sposób, który odzwierciedla ludzki brak zrozumienia. W przeciwnym razie sukces w testach dowodzi jedynie rozumienia pozornego (potiomkinowskiego). Czyli – iluzji zrozumienia, opartej na odpowiedziach niemożliwych do pogodzenia z tym, jak jakikolwiek człowiek zinterpretowałby daną koncepcję” – piszą w artykule badacze.
Nie jest to pierwszy sygnał sugerujący, iż duże modele językowe tak naprawdę nie mają fundamentalnego zrozumienia koncepcji stanowiących część ich wiedzy. Swego czasu przywoływano inny tego przykład – o relacji syn-matka, dość oczywistej. jeżeli model pytano o matkę sławnej osoby, to model AI odpowiadał prawidłowo, ale jak był pytany na odwrót, kto jest synem tej (mniej sławnej) matki, to już nie był w stanie odpowiedzieć.
Czemu? Bo model uczył się na danych, w których matka sławnej osoby była tak właśnie definiowana – jako matka sławnej osoby, a sławny syn nie był definiowany jak syn swojej matki. Model nie potrafił odwrócić prostej relacji syn-matka do podania prawidłowej odpowiedzi, choć posiadał niezbędną do tego wiedzę.
Już w 2021 roku Emily Bender ukuła dla LLM-ów określenie „stochastycznych papug„. Jak widać choćby zupełnie niedawno zbudowane modele wciąż nie uwolniły się w pełni od tego określenia.
Źródło grafiki: Sztuczna inteligencja, model Dall-E 3