Nawet GPT-4.5, Claude 3.7 czy Gemini 2.0 oblewają nowy test. Czym jest ARC-AGI-2?

itreseller.com.pl 3 dni temu

Naukowcy z Fundacji Arc Prize stworzyli niezwykle wymagający test, który weryfikuje możliwości współczesnych systemów sztucznej inteligencji. Najnowsza wersja testu – ARC-AGI-2 – obnażyła poważne ograniczenia czołowych modeli AI, które w zderzeniu z nowymi wyzwaniami praktycznie nie radzą sobie z prostymi zadaniami.

Podczas gdy ludzie biorący udział w badaniach rozwiązywali średnio 60% zagadek, czołowe modele AI, w tym GPT-4.5, Claude 3.7 Sonnet oraz Gemini 2.0 Flash, osiągały zaledwie około 1% poprawnych odpowiedzi. Modele specjalizowane, takie jak o1-pro czy R1, radziły sobie z wizualnymi łamigłówkami wymagającymi prawdziwego rozumienia i adaptacji tylko kilka lepiej. Poniżej zamieszczamy przykładową planszę testową z ARC-AGI-2:

Test, stworzony przez François Cholleta, różni się od poprzednich wersji tym, iż całkowicie eliminuje możliwość rozwiązywania problemów poprzez czystą moc obliczeniową. Kładzie nacisk na prawdziwe rozumowanie i efektywność, a nie tylko na osiąganie wysokich wyników. Co więcej, choćby wcześniej znakomicie oceniany model o3 od OpenAI, który w poprzedniej wersji testu dorównywał ludziom, tym razem uzyskał zaledwie 4% poprawnych odpowiedzi, generując przy tym koszt 200 dolarów za zadanie.

Porównanie wydajności modeli AI w testach ARC-AGI-1 i ARC-AGI-2

Stworzenie AI, która potrafiłaby nie tylko rozpoznawać wzorce, ale także myśleć kreatywnie (niczym człowiek) jest dla naukowców prawdziwym wyzwaniem. Obecne modele AI są w dużej mierze zależne od danych, na których zostały wytrenowane, i mają trudności z innowacyjnym podejściem do nowych problemów, co obnaża test ARC-AGI-2. Według ekspertów, dopiero gdy AI zacznie wykazywać zdolność do spontanicznego tworzenia nowych idei, możemy mówić o rzeczywistej sztucznej inteligencji na ludzkim poziomie.

Idź do oryginalnego materiału