Humanity’s Last Exam czyli najtrudniejszy egzamin AI

sztucznainteligencjablog.pl 6 miesięcy temu

Czy kiedykolwiek zastanawialiście się, jak wysoko zawieszona jest poprzeczka dla sztucznej inteligencji w kwestii naśladowania ludzkiej inteligencji? Otóż specjaliści w dziedzinie AI od dawna tworzą benchmarki, które mają pozwolić na ocenę możliwości różnych modeli sztucznej inteligencji. I co tu dużo mówić — obecne modele AI, takie jak GPT-4 od OpenAI, Google Gemini czy najnowszy o3-mini, radzą sobie z nimi zaskakująco dobrze.

Jednak wszystko zmieniło się wraz z „Humanity’s Last Exam” — testem przygotowanym przez Scale AI i Center for AI Safety (CAIS). To zupełnie nowy benchmark, który, jak określają twórcy, testuje granice wiedzy AI w najbardziej wymagających dziedzinach ludzkiej ekspertyzy. Jak sama nazwa wskazuje, nie będzie łatwo… i naprawdę nie jest.

Co to adekwatnie jest Humanity’s Last Exam?

Pomysł na test był prosty: stworzyć zestaw pytań tak trudnych, iż tylko najtęższe ludzkie umysły byłyby w stanie sobie z nimi poradzić. I tak powstało Humanity’s Last Exam, pierwotnie ochrzczone jako „Humanity’s Last Stand”. Nazwa została później złagodzona — w końcu nie chcemy straszyć nikogo wizjami apokalipsy.

Zbiór pytań powstał dzięki współpracy ekspertów z ponad 500 instytucji z 50 różnych krajów. Wynik? Aż 3000 pytań, które sprawdzają zdolności myślenia, wnioskowania i głębokiego rozumienia w skrajnie niszowych i skomplikowanych obszarach wiedzy. Oto kilka przykładów, z którymi możesz spróbować się zmierzyć:

Kolibry w rzędzie Apodiformes mają specyficzną kość, zwaną sesamoidem, zlokalizowaną w aponeurozie m. depressor caudae. Ile par ścięgien podtrzymuje tę kość? (Odpowiedz liczbą.)
Analizując tekst Psalmu 104:7 z „Biblia Hebraica Stuttgartensia”, wyróżnij sylaby zamknięte (kończące się na spółgłoskę) w kontekście tradycji tiberiadzkiej wymowy hebrajskiej.
Kim był pradziadek macierzysty Jasona z mitologii greckiej?

Nie czuj się źle, jeżeli nie umiesz odpowiedzieć. To naprawdę ekstremalny poziom trudności, a choćby nie wszystkie pytania tutaj zmieściły się w przykładach.

Jak AI radzi sobie z Humanity’s Last Exam?

Na początek dobra wiadomość: AI też ma spore problemy z tym testem. Najlepsze modele osiągają wyniki poniżej 10% poprawnych odpowiedzi. Oto szczegóły:

GPT-4o (OpenAI): 3,3%
Grok-2: 3,8%
Claude 3.5: 3,5%
Google Gemini: 6,2%
o1: 9,1%
DeepSeek-R1 (model czysto tekstowy): 9,4%

Jak widać, teoretycznie zaawansowane systemy AI muszą jeszcze sporo popracować nad umiejętnością rozumienia i analizowania informacji na poziomie eksperckim. Dla porównania, inne benchmarki, takie jak GPQA, MATH czy MMLU, wydają się być dziecinnie proste.

Co oznaczają te wyniki dla przyszłości?

Humanity’s Last Exam pokazuje nam jedno — modele AI, mimo iż robią ogromne postępy, dopiero zaczynają rozumieć złożoność ludzkiego myślenia. Choć na horyzoncie pojawiają się coraz to nowsze rozwiązania, jak Operator od OpenAI, pierwszy agent AI, cały czas mamy kontrolę nad tym, co AI może, a czego jeszcze nie potrafi.

Na razie możemy być spokojni. Jednak warto pamiętać, iż AI rozwija się w zawrotnym tempie. Czy nadejdzie dzień, kiedy takie testy przestaną być wyzwaniem dla maszyn? Czas pokaże, ale na razie mamy jeszcze sporo czasu, by cieszyć się przewagą niepowtarzalnej ludzkiej kreatywności.

Idź do oryginalnego materiału