W październiku 2025 roku media obiegła sensacyjna informacja: język polski okazał się najskuteczniejszym językiem do promptowania sztucznej inteligencji, wyprzedzając angielski, chiński i 23 inne języki. Badanie zespołu naukowców z University of Maryland i Microsoftu wykazało, iż polski osiągnął 88% skuteczności, podczas gdy angielski – tradycyjnie dominujący w AI – uplasował się dopiero na szóstym miejscu z wynikiem 83,9%. Jednak współautorka badania, dr Marzena Karpińska, ostrzega przed nadinterpretacją wyników i podkreśla, iż medialna narracja o “polskim jako najlepszym języku do promptowania” to uproszczenie, które nie oddaje złożoności zjawiska.
Badanie zatytułowane “OneRuler: Benchmarking multilingual long-context language models“, opublikowane w marcu 2025 roku na platformie arXiv przez zespół naukowców z University of Maryland (Yekyung Kim, Jenna Russell, Marzena Karpińska) oraz Microsoftu (Mohit Iyyer), miało na celu sprawdzenie, jak różne modele językowe radzą sobie z przetwarzaniem bardzo długich kontekstów w różnych językach. Kluczowym aspektem eksperymentu było testowanie nie krótkich, zdawkowych zapytań, ale wyjątkowo obszernych promptów liczących od 8 tysięcy do choćby 128 tysięcy tokenów (co odpowiada dziesiątkom stron tekstu). Naukowcy przeprowadzili siedem syntetycznych zadań w dwóch kategoriach: wyszukiwanie informacji (tzw. “igła w stogu siana” – szukanie konkretnej informacji w ogromnej ilości tekstu) oraz agregacja danych (np. ekstrakcja najczęściej występujących słów z długiej listy).
Wyniki rzeczywiście były zaskakujące. W najdłuższych kontekstach (64-128 tysięcy tokenów) język polski osiągnął najwyższą średnią skuteczność 88%, wyprzedzając francuski (87%), włoski (86%), hiszpański (85%) i rosyjski (84%). Angielski zajął szóste miejsce z wynikiem 83,9%, a chiński – pomimo ogromnej ilości danych treningowych w tym języku – uplasował się na czwartym miejscu od końca z zaledwie 62%. Co istotne, badacze zaobserwowali, iż różnica w wydajności między językami “nisko- i wysokozasobowymi” (czyli takimi, dla których jest mniej lub więcej danych treningowych) powiększa się wraz ze wzrostem długości kontekstu – z 11% przy 8 tysiącach tokenów do aż 34% przy 128 tysiącach tokenów.
Jednak Marzena Karpińska, współautorka badania, w wywiadzie dla Nauki w Polsce z 9 listopada 2025 roku zdecydowanie dementuje medialne uproszczenia. “Media obiegła niedawno wiadomość, iż ‘język polski jest najlepszy do promptowania’. To nie jest wniosek z naszych badań” – podkreśla badaczka. Karpińska tłumaczy, iż wyniki są specyficzne dla konkretnego typu zadań (bardzo długie konteksty, syntetyczne benchmarki) i nie powinny być uogólniane na wszystkie przypadki użycia AI. Według analiz MIT SMR, gdy język instrukcji różni się od języka kontekstu, skuteczność może się zmieniać choćby o 20 punktów procentowych, co dodatkowo komplikuje obraz. Niemniej, badanie dostarcza fascynującego wglądu w to, jak różne języki – choćby te z mniejszymi zasobami treningowymi – mogą radzić sobie w specyficznych zadaniach AI, a polski wypadł w nich wyjątkowo dobrze.








