Czy rzeczywiście możemy ufać sztucznej inteligencji, gdy chodzi o rozwiązywanie prostych matematycznych problemów rodem ze szkoły podstawowej? Okazuje się, iż niekoniecznie. Badania przeprowadzone przez zespół Apple rzucają nowe światło na tę kwestię. Według raportu zatytułowanego GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, duże modele językowe (LLM), takie jak te stosowane w sztucznej inteligencji, mają poważne luki w logice, zwłaszcza jeżeli zmieni się sposób, w jaki problem zostanie przedstawiony.
Wyboista droga matematycznego myślenia AI
Naukowcy bazowali na zestawie GSM8K, który obejmuje 8000 zadań tekstowych na poziomie szkoły podstawowej. Są one wykorzystywane jako standardowy test dla LLM. Wprowadzenie drobnych zmian w treści tych zadań, choć bez modyfikacji samej logiki matematycznej, poskutkowało znacznie gorszymi wynikami testów modelu oznaczonego jako GSM-Symbolic. Wyniki okazały się zaskakująco niskie, z obniżeniem wydajności od 0,3% do 9,2%. W przypadku dodania zdania, którego treść nie wpływała na odpowiedź, wyniki były jeszcze gorsze, spadając od 17,5% choćby do 65,7%.
Dlaczego sztuczna inteligencja sobie nie radzi
To niepokój na miarę XXI wieku. Modele te zdają się nie rozwiązywać rzeczywistych problemów matematycznych, a jedynie stosują dopasowywanie wzorców, które przekładają na operacje. Takie podejście jest płytkie i delikatne, bo wystarczy drobna zmiana w zadaniu, a cały system się sypie. Mimo tego, iż LLM próbują naśladować ludzkie myślenie, nie dysponują jednak żadnym modelem logicznym czy zrozumieniem świata, które by to wspierało. I to właśnie jest ich największa słabość.
Jeśli zaś wyobraźmy sobie przyszłość sztucznej inteligencji, to czy naprawdę o to nam chodziło? Komputery są przecież stworzone do rozwiązywania złożonych matematycznych problemów. A tutaj okazuje się, iż proste zmiany są dla AI jak bariera nie do przeskoczenia.
Zamiast pokładać nadzieję w obecnych możliwościach AI, które ograniczają się głównie do gromadzenia i przetwarzania ogromnych ilości danych, może warto sięgnąć po kalkulator?
Prowadzone badania, w tym te przeprowadzone przez Apple, pokazują brutalną prawdę – obecne systemy AI nie są zdolne do prawdziwego zrozumienia i manipulacji symbolami, co jest przecież najważniejsze w zaawansowanych dziedzinach jak algebra czy programowanie komputerowe. Stąd pytanie, na które musimy sobie odpowiedzieć: jaki cel ma rozwój AI, skoro nie spełnia ona swoich podstawowych założeń? Kwestia ta budzi wiele wątpliwości.
Źródło: techradar.com: Apple’s latest study proves that AI can’t even solve basic grade-school math problems.