Duże modele językowe mogą robić imponujące rzeczy, na przykład pisać wiersze lub generować realne programy komputerowe, mimo iż modele te są przeszkolone do przewidywania słów, które będą następne w fragmencie tekstu.
Takie zaskakujące możliwości mogą sprawiać wrażenie, jakby modele w sposób ukryty poznawały pewne ogólne prawdy o świecie.
Jednak według nowego badania niekoniecznie tak jest. Naukowcy odkryli, iż popularny typ generatywnego modelu sztucznej inteligencji może zapewniać szczegółowe wskazówki dojazdu po Nowym Jorku z niemal idealną dokładnością – bez konieczności tworzenia dokładnej wewnętrznej mapy miasta.
Pomimo niesamowitych zdolności modelu do skutecznej nawigacji, gdy badacze zamknęli niektóre ulice i dodali objazdy, jego wydajność gwałtownie spadła.
Kiedy kopali głębiej, badacze odkryli, iż mapy Nowego Jorku wygenerowane w sposób pośredni modelu zawierały wiele nieistniejących ulic wijących się pomiędzy siatką i łączących odległe skrzyżowania.
Może to mieć poważne konsekwencje dla generatywnych modeli sztucznej inteligencji wdrażanych w świecie rzeczywistym, ponieważ model, który wydaje się dobrze działać w jednym kontekście, może się załamać, jeżeli zadanie lub środowisko nieznacznie się zmienią.
„Jedna z nadziei jest taka, iż ponieważ studia LLM mogą dokonać tych wszystkich niesamowitych rzeczy w języku, być może moglibyśmy użyć tych samych narzędzi także w innych dziedzinach nauki. Jednak pytanie, czy LLM uczą się spójnych modeli świata, jest bardzo ważne, jeżeli chcemy wykorzystać te techniki do dokonywania nowych odkryć” – mówi starszy autor Ashesh Rambachan, adiunkt ekonomii i główny badacz w Laboratorium Systemów Informacji i Decyzji (LIDS) MIT.
Rambachanowi towarzyszy artykuł na temat pracy głównego autora Keyona Vafy, postdoktora na Uniwersytecie Harvarda; Justin Y. Chen, absolwent inżynierii elektrycznej i informatyki (EECS) na MIT; Jon Kleinberg, profesor informatyki i informatyki na Uniwersytecie Tisch na Uniwersytecie Cornell; oraz Sendhil Mullainathan, profesor MIT na wydziałach EECS i Ekonomii oraz członek LIDS. Wyniki badań zostaną zaprezentowane na Konferencji poświęconej systemom przetwarzania informacji neuronowych.
Nowe wskaźniki
Naukowcy skupili się na rodzaju generatywnego modelu sztucznej inteligencji, zwanego transformatorem, który stanowi szkielet LLM, takich jak GPT-4. Transformatory są szkolone na ogromnej ilości danych językowych, aby przewidzieć następny element w sekwencji, na przykład następne słowo w zdaniu.
Jeśli jednak naukowcy chcą ustalić, czy LLM stworzył dokładny model świata, pomiar dokładności jego przewidywań nie jest wystarczający, twierdzą naukowcy.
Odkryli na przykład, iż transformator może przewidzieć prawidłowe ruchy w grze Connect 4 niemal za każdym razem, nie rozumiejąc żadnych zasad.
Dlatego zespół opracował dwie nowe metryki, które mogą przetestować światowy model transformatora. Naukowcy skupili się w swoich ocenach na klasie problemów zwanych deterministycznymi automatyzacjami skończonymi (DFA).
DFA to problem z sekwencją stanów, takimi jak skrzyżowania, które należy pokonać, aby dotrzeć do celu, oraz konkretnym sposobem opisu zasad, których należy przestrzegać po drodze.
Wybrali dwa problemy, które sformułowali jako DFA: poruszanie się po ulicach Nowego Jorku i gra w grę planszową Othello.
„Potrzebowaliśmy stanowisk testowych, na których wiemy, jaki jest model świata. Teraz możemy rygorystycznie zastanowić się, co to znaczy odzyskać ten model świata” – wyjaśnia Vafa.
Pierwsza opracowana przez nich metryka, zwana rozróżnieniem sekwencji, mówi, iż model utworzył spójny model świata, jeżeli widzi dwa różne stany, jak dwie różne tablice Othello, i rozpoznaje, czym się różnią. Sekwencje, czyli uporządkowane listy punktów danych, są tym, czego transformatory używają do generowania wyników.
Druga metryka, zwana kompresją sekwencji, mówi, iż transformator ze spójnym modelem świata powinien wiedzieć, iż dwa identyczne stany, podobnie jak dwie identyczne płytki Othello, mają tę samą sekwencję możliwych kolejnych kroków.
Wykorzystali te metryki do przetestowania dwóch powszechnych klas transformatorów, jednej szkolonej na danych generowanych z losowo generowanych sekwencji, a drugiej na danych generowanych w wyniku następujących strategii.
Niespójne modele świata
Co zaskakujące, naukowcy odkryli, iż transformatory dokonujące losowych wyborów tworzyły dokładniejsze modele świata, być może dlatego, iż podczas szkolenia dostrzegły szerszą gamę potencjalnych kolejnych kroków.
„W Othello, jeżeli zobaczysz grające dwa losowe komputery, a nie graczy z mistrzostw, teoretycznie zobaczysz pełny zestaw możliwych ruchów, choćby te złe, których nie wykonaliby mistrzowie” – wyjaśnia Vafa.
Mimo iż transformatory generowały dokładne wskazówki i prawidłowe ruchy Othello w prawie każdym przypadku, te dwie metryki wykazały, iż tylko jeden wygenerował spójny model świata dla ruchów Othello, a żaden nie radził sobie dobrze z tworzeniem spójnych modeli świata w przykładzie znajdowania drogi.
Naukowcy wykazali konsekwencje tego, dodając objazdy do mapy Nowego Jorku, co spowodowało awarię wszystkich modeli nawigacji.
„Byłem zaskoczony, jak gwałtownie wydajność spadła po dodaniu objazdu. jeżeli zamkniemy zaledwie 1 procent możliwych ulic, dokładność natychmiast spada z prawie 100 procent do zaledwie 67 procent” – mówi Vafa.
Kiedy odzyskali plany miast wygenerowane przez modele, wyglądały jak wyimaginowany Nowy Jork z setkami przecinających się ulic nałożonych na siatkę. Mapy często zawierały przypadkowe wiadukty nad innymi ulicami lub wiele ulic o niemożliwej orientacji.
Wyniki te pokazują, iż transformatory mogą zaskakująco dobrze wykonywać określone zadania bez zrozumienia zasad. jeżeli naukowcy chcą zbudować LLM, które będą w stanie uchwycić dokładne modele świata, muszą przyjąć inne podejście – twierdzą naukowcy.
„Często widzimy, jak te modelki robią imponujące rzeczy i wydaje nam się, iż musiały coś zrozumieć o świecie. Mam nadzieję, iż uda nam się przekonać ludzi, iż jest to kwestia, którą należy bardzo dokładnie przemyśleć i iż nie musimy polegać na własnej intuicji odpowiedzieć na to pytanie” – mówi Rambachan.
W przyszłości badacze chcą zająć się bardziej zróżnicowanym zestawem problemów, na przykład tymi, w przypadku których niektóre zasady są znane tylko częściowo. Chcą także zastosować swoje mierniki oceny do rzeczywistych problemów naukowych.
Praca ta jest częściowo finansowana przez Harvard Data Science Initiative, stypendium National Science Foundation Graduate Research Fellowship, stypendium Vannevar Bush Faculty Fellowship, grant Simons Collaboration oraz grant Fundacji MacArthur.