Najnowsze systemy AI, takie jak GPT-5, osiągają imponujące wyniki w testach porównawczych, ale eksperci słusznie ostrzegają, iż te syntetyczne benchmarki kilka mówią o ich rzeczywistej wydajności i bezpieczeństwie. Rośnie potrzeba stworzenia nowego, holistycznego systemu oceny, który uwzględni realne interakcje z człowiekiem i wpływ na społeczeństwo.
Gdy firmy technologiczne, takie jak OpenAI, wypuszczają nowe modele sztucznej inteligencji, zwykle chwalą się ich wynikami w testach porównawczych, zwanych benchmarkami. Te testy sprawdzają zdolności AI w konkretnych dziedzinach, od pisania kodu po wiedzę medyczną. Problem polega na tym, iż wysoki wynik w takim syntetycznym teście nie gwarantuje, iż system będzie działał dobrze i bezpiecznie w realnym świecie, na przykład w szpitalu, szkole czy w systemie prawnym. Brakuje w nich kluczowego elementu: kontekstu i interakcji z człowiekiem.
Co gorsza, benchmarki stały się dla firm narzędziem do przyciągania inwestorów, co prowadzi do niezdrowej presji i manipulacji. Dobrym przykładem jest startup Cognition AI, który po opublikowaniu imponujących wyników w teście inżynierii oprogramowania, niemal natychmiast pozyskał 175 milionów dolarów finansowania. Pojawiły się również zarzuty, iż Meta specjalnie modyfikowała swoje modele Llama-4, aby lepiej wypadały w popularnym rankingu chatbotów, a OpenAI miało dostęp do danych testowych benchmarku FrontierMath, zanim ich model uzyskał w nim wysoki wynik.
Zjawisko to doskonale opisuje prawo Goodharta, które mówi, iż “gdy wskaźnik staje się celem, przestaje być dobrym wskaźnikiem”. Rumman Chowdhury, ekspertka w dziedzinie etyki algorytmicznej, ostrzega, iż nadmierne skupienie na metrykach prowadzi do manipulacji i ignorowania długoterminowych konsekwencji. Zamiast budować lepszą i bezpieczniejszą technologię, firmy mogą skupiać się wyłącznie na pokonaniu kolejnego testu, co jest drogą donikąd.
Dlatego naukowcy i eksperci od metrologii – czyli nauki o pomiarach – pracują nad nowymi, bardziej kompleksowymi metodami oceny AI. Np. w medycynie powstają już zaawansowane ramy oceny, takie jak MedHELM, które testują modele w znacznie bardziej realistycznych zadaniach klinicznych. To jednak wciąż za mało. Potrzebny jest cały ekosystem oceny, który będzie obejmował takie metody jak “red-teaming”, gdzie testerzy celowo próbują “złamać” system i wywołać w nim niepożądane reakcje, oraz testy w realnych warunkach, gdzie AI jest wdrażana na próbę w swoim docelowym środowisku.