Czy obecna generatywna sztuczna inteligencja (GenAI) nie myśli? Tak twierdzą badacze od Apple. Ma to wynikać z prostych testów przeprowadzonych na najnowszych dużych modelach językowych (LLM). Testy dotyczą też najnowszych modeli GPT-o1 od OpenAI, które miały charakteryzować się zaawansowanym myśleniem logicznym i matematycznym.
Błędy, których nie popełniłby dziesięciolatek
Co konkretnie skłoniło badaczy od Apple do wyciągnięcia takiego wniosku? Wzięli zestaw pytań z matematyki dla szkół podstawowych (tak zwany GSM8k), czyli zestaw, na którym „uczy się” wiele modeli i na którym modele są testowane. Te testy przeprowadzane są z dobrym skutkiem, bo większość modeli uzyskuje tutaj 80 punktów lub więcej na 100 możliwych. Następnie wprowadzili w nim pewne modyfikacje, by zobaczyć, czy modele radzą sobie ze zmodyfikowanymi zadaniami.
Jaki uzyskali wynik? Po pierwsze pogorszenie średnich wyników, po drugie – ich istotną zmienność. Jak pisze na portalu X Mehrdad Farajtabar, jeden z autorów badania, „modele językowe (LLM) są wrażliwe na zmiany nazw własnych (np. osób, jedzenia, przedmiotów), a tym bardziej, jeżeli zmieniane są liczby.”
Modele były szczególnie podatne na dodanie do testu zdania, które z pozoru – tak się wydaje – może mieć znaczenie dla treści zadania, ale tak naprawdę nie wnosi nic do zagadnienia. Np. w zadaniu sumowania liczby zebranych owoców w ciągu trzech dni dodano zdanie, iż pięć owoców zebranych w niedzielę było „nieco mniejszych niż przeciętnie”. I modele – włącznie z GPT-o1-mini – odjęły je od sumy.
Błąd, którego nie popełniłby przeciętny dziesięciolatek. choćby dla najlepszego z modeli – GPT-o1 preview – przy tego typu pytaniach liczba prawidłowych odpowiedzi spadła o jedną szóstą. Dla sporej grupy modeli było to ponad 50%.
Obecna GenAI nie myśli. LLM-y to ślepa uliczka?
Przez ostatnie lata w środowisku AI trwała dyskusja, czy zwiększając możliwości modeli językowych, czy to przez zwiększenie liczby parametrów tych modeli, czy to przez zwiększenie ilości danych użytych do trenowania, jesteśmy w stanie osiągnąć AGI. To tzw. ogólna sztuczna inteligencja, która byłaby w stanie sprostać ludzkiej, a choćby nad nią zapanować. Badacze od Apple twierdzą, iż nie tędy droga.
Zachowanie LLM-ów „lepiej tłumaczy zaawansowane dopasowywanie wzorców—tak kruche, iż zmiana nazw może zmieniać wyniki o ok. 10%! Możemy skalować dane, parametry i moc obliczeniową—lub używać lepszych danych treningowych dla Phi-4, Llama-4, GPT-5. Ale wierzymy, iż to doprowadzi do 'lepszych dopasowywaczy wzorców’, a niekoniecznie 'lepszych myślicieli’, pisze Farajtabar.
Podobną opinię – o niedających się usunąć ograniczenia modeli językowych – od lat wyrażał Yann LeCun, jeden z najbardziej znanych sceptyków AGI. W niedawnym wywiadzie dla”The Wall Street Journal” odnotował on, iż „można manipulować językiem i nie być mądrym, i to właśnie zasadniczo pokazują modele LLM.”
Czy to oznacza, iż nie doczekamy się AGI? prawdopodobnie kiedyś tak. Ale będziemy potrzebowali czegoś więcej niż stare (mają już 7 lat), dobre transformery, na których oparte są LLM-y.
Źródło grafiki: Sztuczna inteligencja, model Dall-E 3