
Artykuły stricte naukowe rzadko przebijają się do mainstreamu. Jednak praca naukowa, którą podrzucił mi kolega z redakcji (dzięki Napoleon!) zdecydowanie powinna być nagłośniona. Badacze pracujący dla Apple stawiają w swojej pracy śmiałą tezę: praktycznie wszystkie współczesne modele AI są wciąż bardzo daleko od tego, co nazywamy myśleniem, a to, co w naszych oczach za taki proces uchodzi to wyłącznie iluzja.
Najnowsza generacja modeli sztucznej inteligencji, określana mianem Wielkich Modeli Rozumujących (LRM; Large Reasoning Models), zaimponowała światu, generując szczegółowe „procesy myślowe” przed udzieleniem odpowiedzi. Modele takie jak GPT-4o, Claude 3.7 Sonnet czy Gemini z serii 2.5, dzięki tej umiejętności „myślenia na głos”, osiągają lepsze wyniki w standardowych testach. Jednak badacze z Apple postanowili zajrzeć za kurtynę tej imponującej fasady. Ich najnowsza praca, zatytułowana „Iluzja myślenia”, stawia fundamentalne pytanie: czy te systemy naprawdę rozumują, czy tylko tworzą niezwykle przekonującą iluzję myślenia?
Poza standardowe testy: kontrolowany eksperyment z łamigłówkami
Naukowcy z Apple zwrócili uwagę, iż obecne metody oceny AI, opierające się głównie na testach matematycznych i programistycznych, mają poważne wady. Często cierpią z powodu „zanieczyszczenia danych” (model mógł widzieć podobne zadania podczas treningu) i nie pozwalają na precyzyjne kontrolowanie złożoności problemu. Co więcej, skupiają się one na ocenie ostatecznej odpowiedzi, ignorując jakość samego procesu „myślenia”. Z pewnością domyślacie się o co chodzi. Na przykład jakiś czas temu wiele mediów technologicznych zachłystywało się informacją, jak to jakiś nowy model (nie ma znaczenia jaki) uzyskał świetny wynik w rozwiązywaniu zadań z jakiejś olimpiady matematycznej i na dodatek jak gwałtownie rozwiązał zadania. Jednak mało kto zwrócił uwagę, iż zadania te pochodziły z wydarzenia przeszłego, zarówno ich treść, jak i rozwiązania mogły być podane niejako „na tacy” w danych treningowych konkretnego modelu. Umówmy się, trudno uznać za kreatywne myślenie rozwiązanie zadania, gdy… znasz to rozwiązanie wcześniej.
Aby ominąć te pułapki, badacze Apple stworzyli kontrolowane środowisko testowe oparte na klasycznych łamigłówkach logicznych, takich jak Wieża z Hanoi, czy skaczące warcaby (i inne tego typu gry). Taki zabieg pozwolił im precyzyjnie manipulować złożonością problemu (np. poprzez dodawanie kolejnych dysków w Wieży z Hanoi), zachowując przy tym tę samą, fundamentalną strukturę logiczną. Dzięki temu mogli nie tylko ocenić, czy model znalazł poprawną odpowiedź, ale także przeanalizować krok po kroku jego „myśli” i zidentyfikować, w którym momencie popełnia błędy.
Kruchy próg złożoności: kiedy rozumowanie się załamuje
Pierwsze odkrycie jest druzgocące dla mitu o nieograniczonych zdolnościach AI. Okazało się, iż wszystkie badane, najnowocześniejsze modele LRM, w konfrontacji z rosnącą złożonością, w pewnym momencie ulegają całkowitemu załamaniu – ich skuteczność spada do zera. Oznacza to, iż mimo zaawansowanych mechanizmów „myślenia”, nie są one w stanie wykształcić ogólnych, skalowalnych zdolności rozwiązywania problemów!
Co ciekawe, porównanie „myślących” modeli LRM z ich standardowymi odpowiednikami (które od razu podają odpowiedź) ujawniło trzy różne reżimy wydajności:
- Niska złożoność: przy prostych zadaniach, standardowe modele LLM (bez „myślenia”) okazywały się zaskakująco skuteczniejsze i bardziej wydajne.
- Średnia złożoność: w tej strefie modele „myślące” (LRM) zyskiwały przewagę, a ich dodatkowy wysiłek obliczeniowy przekładał się na lepsze wyniki.
- Wysoka złożoność: w przypadku naprawdę trudnych problemów, oba typy modeli ponosiły całkowitą porażkę.
Paradoks wysiłku: im trudniej, tym… mniej myślenia?
Jednym z najbardziej zaskakujących i sprzecznych z intuicją odkryć jest to, jak modele LRM zarządzają swoim „wysiłkiem myślowym”. Okazało się, iż ilość zasobów obliczeniowych (mierzona w tokenach) poświęcanych na „myślenie” rośnie wraz ze złożonością problemu, ale tylko do pewnego momentu.
Gdy zadanie zbliża się do progu, przy którym model i tak poniesie porażkę, zaczyna on wbrew logice… myśleć mniej, mimo iż ma do dyspozycji duży zapas mocy obliczeniowej. Sugeruje to istnienie fundamentalnego limitu w zdolności tych systemów do skalowania swojego „rozumowania”.
Algorytm na tacy to za mało
Być może najbardziej demaskatorski eksperyment polegał na podaniu modelom AI dokładnego, krok po kroku algorytmu rozwiązania łamigłówki. Teoretycznie, zadanie modelu powinno było sprowadzić się do prostego wykonania podanych instrukcji, co wymaga znacznie mniej wysiłku niż samodzielne wymyślenie strategii. Ba, przy zdefiniowaniu pełnego algorytmu z zadaniem powinien poradzić sobie każdy klasyczny program, w którego kodzie jest zaimplementowany dany algorytm. Rozumiecie? Każdy program pozbawiony w ogóle jakiejkolwiek sieci neuronowej, maszynowego uczenia i tego całego sztafażu technologicznego wymaganego przez AI.
A jak poradziły sobie superzaawansowane modele „rozumujące”, kosztujące krocie, spalające megawaty energii i drenujące zasoby wody do chłodzenia centrów danych? Cóż, podanie algorytmu krok po kroku w ogóle nie pomogło! Tak, dobrze czytacie: wydajność modeli wcale się nie poprawiła. przez cały czas ponosiły porażkę przy tym samym progu złożoności.
To odkrycie podważa tezę, iż modele te rozumują w sposób zbliżony do ludzkiego lub wykonują operacje logiczne jak klasycznie, deterministycznie zaprogramowany komputer. Sugeruje raczej, iż ich działanie wciąż opiera się na zaawansowanym rozpoznawaniu wzorców, a nie na prawdziwej, symbolicznej manipulacji i rozumieniu reguł. Potwierdza to również fakt, iż modele potrafiły rozwiązać Wieżę z Hanoi wymagającą ponad 100 ruchów, a jednocześnie ponosiły porażkę w łamigłówce „przeprawa przez rzekę”, która ma rozwiązanie w 11 ruchach. Dostrzegacie ten paradoks? choćby dla człowieka nie mającego nigdy do czynienia z tymi łamigłówkami rozwiązanie tej drugiej byłoby znacznie łatwiejsze. Dlaczego zatem zaawansowane LRM-y poniosły porażkę w prostej „przeprawie przez rzekę”? Prawdopodobnie dlatego, iż przykłady tego drugiego są znacznie rzadsze w danych treningowych.
Wnioski: miraż rozumu zamiast cyfrowego intelektu
Badanie zespołu Apple pokazuje, iż choć najnowsze modele AI potrafią tworzyć imponującą iluzję myślenia, ich fundamentalne zdolności rozumowania są wciąż kruche. Ich procesy są nieefektywne (zjawisko „nadmyślania”, czyli eksplorowania błędnych ścieżek po znalezieniu prawidłowego rozwiązania), niekonsekwentne i załamują się w obliczu prawdziwej, abstrakcyjnej złożoności. Zrozumienie tych granic jest najważniejsze dla realistycznej oceny obecnego stanu sztucznej inteligencji i wyznaczenia kierunku dla przyszłych badań, które być może pozwolą przejść od iluzji do autentycznego rozumowania.
Jeżeli mielibyście ochotę sami zagłębić się w treść tej interesującej pracy naukowej (ostrzegam, iż próg wejścia jest dość wysoki) to podrzucam link do rzeczonej publikacji (format PDF, język angielski).
Laureat Nagrody Turinga ostrzega przed zagrożeniami AI i zakłada fundację LawZero
Jeśli artykuł Iluzja myślenia: nowe badanie Apple podważa prawdziwe zdolności „rozumowania” AI nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.