"Wszystkie języki są równe, ale polski jest najrówniejszy"
Grupka uczonych napisała w swoim abstrakcie tak:
Przedstawiamy OneRuler1, wielojęzyczny test porównawczy zaprojektowany do oceny modeli języka długiego kontekstu w 26 językach. OneRuler adaptuje test porównawczy Ruler wyłącznie dla języka angielskiego (Hsieh i in., 2024), uwzględniając siedem zadań syntetycznych, które testują zarówno wyszukiwanie, jak i agregację, w tym nowe warianty zadania „igły w stogu siana”, dopuszczające możliwość nieistnienia igły. Tworzymy OneRuler w dwuetapowym procesie, najpierw pisząc instrukcje w języku angielskim dla wszystkich zadania, a następnie współpracując z native speakerami w celu przetłumaczenia ich na 25 dodatkowych języków. Eksperymenty z otwartymi i zamkniętymi modelami LLM ujawniają rosnącą różnicę w wydajności między językami o niskim i wysokim zasobie zasobów, wraz ze wzrostem długości kontekstu z 8 tys. do 128 tys. tokenów. Co zaskakujące, język angielski nie jest językiem o najwyższej wydajności w zadaniach długiego kontekstu (zajmując 6. miejsce na 26), a na szczycie listy wyłania się język polski. Nasze eksperymenty pokazują również, iż wiele programów LLM (szczególnie o3-mini-high firmy OpenAI) niepoprawnie przewiduje brak odpowiedzi, choćby w językach o dużych zasobach.









