Wspólne Centrum Badawczego ostrzega, iż prywatne testy porównawcze AI łatwo zmanipulować, a ich wyniki mogą wprowadzać w błąd organy regulacyjne. Czy benchmarki to iluzja?
Firmy rozwijające modele AI chętnie publikują wyniki benchmarków, aby pokazać przewagę swoich produktów. Przykładem jest OpenAI, które wskazywało, iż GPT-5 lepiej niż poprzednik odmawia odpowiedzi na pytania niemożliwe do jednoznacznego rozstrzygnięcia. Choć takie komunikaty budują narrację o postępie technologicznym, naukowcy z UE podkreślają, iż nie oddają one pełnych możliwości systemów.
Raport JRC zauważa, iż wiele benchmarków mierzy zdolność modeli do wykonywania pojedynczych, wąskich zadań, co nie przekłada się na funkcjonowanie w złożonych, realnych scenariuszach. Dodatkowo testy te bywają zamknięte, pozbawione transparentności i podatne na manipulacje wynikami.
Problem jest istotny w kontekście prawa UE o sztucznej inteligencji, gdzie klasyfikacja modeli jako „wysokiego ryzyka” może opierać się na wynikach testów. Komisja Europejska wciąż nie doprecyzowała wymagań w aktach delegowanych, co pozostawia lukę w praktycznym egzekwowaniu regulacji.
Transatlantycka asymetria
Podczas gdy USA w sierpniu uruchomiły zestaw narzędzi ewaluacyjnych dla agencji federalnych, UE pozostaje w fazie dyskusji o kryteriach i metodach oceny. To rodzi pytanie, czy Europa – aspirująca do roli globalnego regulatora technologii – nie zostaje w tyle w praktycznej kontroli AI.
Kontrast z sytuacją w Europie jest wyraźny. Podczas gdy w Waszyngtonie pojawiają się konkretne narzędzia operacyjne, w Brukseli wciąż trwa dyskusja o kryteriach i metodach oceny. To rodzi pytanie, czy Unia – która chętnie kreuje się na globalnego regulatora technologii – nie zostaje w tyle w praktycznym wymiarze wdrażania swoich regulacji.
JRC wskazuje, iż benchmarki powinny mierzyć faktyczne zdolności modeli, a nie ograniczać się do wąskich, niszowych umiejętności, być w pełni udokumentowane i przejrzyste, jasno określać, co i w jaki sposób oceniono, oraz uwzględniać różnorodność kulturową i językową. Ten ostatni aspekt jest szczególnie istotny w Unii Europejskiej, gdzie funkcjonuje 24 języków urzędowych – modele dobrze wypadające w benchmarkach anglojęzycznych mogą bowiem gorzej radzić sobie w innych kontekstach językowych i kulturowych.
Głos ekspertów i ryzyko „efektu brukselskiego”
Zdaniem Risto Uuka z Future of Life Institute, unijne obawy są uzasadnione. Ekspert podkreśla, iż nie wystarczy opierać się na „anegdotach i wibracjach”, a konieczne są rzetelne, niezależne oceny prowadzone przez zewnętrznych ewaluatorów. Co więcej, wskazuje on na potrzebę finansowania rozwoju całego ekosystemu oceny sztucznej inteligencji – od laboratoriów testowych po standardy dokumentacji.
Jeżeli UE wypracuje solidne benchmarki, może dojść do tzw. efektu brukselskiego – europejskie standardy stają się punktem odniesienia także poza jej granicami. Wymaga to jednak jasnych kryteriów i determinacji politycznej, a nie tylko zapisów w aktach prawnych.
Odpowiedź Komisji – wystarczająca czy spóźniona?
Rzecznik KE wskazał, iż Biuro ds. AI dysponuje „najnowocześniejszymi możliwościami oceny modeli” i prowadzi wewnętrzne analizy. Przypomniano też o Kodeksie Postępowania w zakresie AI i ogłoszonym w lipcu 2025 r. przetargu wartym 9 mln euro na wsparcie techniczne w ocenie modeli. Pytanie pozostaje, czy te działania nie są reaktywne i czy odpowiadają tempu rozwoju rynku.
Dziś testy AI są nie tylko narzędziem technicznym, ale też elementem gry regulacyjnej i konkurencyjnej. Firmy chcą pokazać swoje modele w jak najlepszym świetle, co bez niezależnej weryfikacji zwiększa ryzyko asymetrii informacyjnej. Z drugiej strony nadmierna biurokracja może hamować innowacyjność i utrudniać europejskim firmom konkurowanie z globalnymi gigantami.
W tym napięciu kryje się najważniejsze pytanie: jak pogodzić rzetelną ocenę ryzyka z potrzebą wspierania rozwoju technologii? Brak odpowiedzi oznacza oddanie pola prywatnym podmiotom i regulatorom spoza Europy.