Rodzime modele AI mają sporą wadę. Nie radzą sobie z polskim

instalki.pl 1 tydzień temu

Polskie modele AI wzięły udział w kompleksowym teście wydajności. Wypadły dosyć blado, zwłaszcza pod względem znajomości rodzimej kultury czy języka. Tutaj wygrana przypadła zagranicznym tworom, co raczej nie jest przesadnym powodem do euforii i dumy.

Czy polskie modele AI są powodem do dumy? Chcielibyśmy, by tak było

Na naszym rodzimym poletku mamy do dyspozycji chociażby PLLuM oraz Bielika. Projekty są bardzo wychwalane i promowane przez rząd czy największe korporacje (m.in. InPost). Test przeprowadzony przez firmę Oxido działa jednak jak kubeł zimnej wody udowadniając, iż czeka nas jeszcze sporo pracy.

Badanie wzięło pod lupę 12 dużych modeli językowych, które stoczyły walkę w zakresie posługiwania się językiem polskim, a także znajomości jego zasad czy obycia kulturowego. Test składał się z 10 kategorii, każda z nich zawierała po dwa zadania. Sztuczna inteligencja musiała chociażby udzielić porad zgodnie z obowiązującymi przepisami prawnymi/podatkowymi, napisać maila i wykazać się znajomością historii naszego kraju.

Interfejs webowej wersji chatbota Bielik / Źródło zdjęcia: zrzut ekranu (chat.bielik.ai)

Większość pytań tak naprawdę brzmiała jak skrojona pod rodzime modele językowe. Trudno sądzić bowiem, iż chiński chatbot poprawi tekst pełen błędów i przytoczy inwokację „Pana Tadeusza”. Cóż, rezultaty okazały się szokujące. Wygrał bowiem Gemini zgarniając 8,13 punktów (10-stopniowa skala), kolejne miejsce należy do Lllama 4 (Meta) oraz Qwen 3.5 Plus od chińskiej firmy Alibaba.

Czy taki wynik jest jednak jakkolwiek szokujący?

Wspomniane na początku PLLuM oraz Bielik niezbyt dobrze poprawiły tekst, wykazały się też słabą znajomością polskiej kultury czy historii. Oczywiście trudno przejść obojętnie obok istotnego aspektu, czyli… liczby oferowanych parametrów. Najpopularniejsze i najpotężniejsze modele dysponują choćby kilkunastokrotnie większą mocą niż lokalne rozwiązania.

Interfejs webowej wersji chatbota PLLuM / Żródło zdjęcia: zrzut ekranu (pllum.clarin-pl.eu)

Dla niektórych zadań do jednak plus, gdyż obecność zaledwie 11 miliardów parametrów skutkuje brakiem problemów przy próbie lokalnego wdrożenia modelu językowego. To właśnie dlatego PLLuM czy Bielik mogą funkcjonować w apkach pokroju InPost czy mObywatel, a do tego działać wewnątrz administracji publicznej.

Czy takie tłumaczenie jakkolwiek obchodzi jednak przeciętnych użytkowników? Oczywiście, iż nie. przez cały czas będą oni sięgać po konkurencyjne rozwiązania odpowiadające dokładniej i skuteczniej. Polskie pochodzenie nie gra roli dopóki coś innego działa znacznie lepiej. Pozostaje mimo wszystko trzymać kciuki, by w przyszłości udało się pozyskać inwestorów wierzących w potencjał rodzimych modeli i chcących sypnąć kasą dla szybszego rozwoju.

Źródło tekstu: Oxido, Rzeczpospolita / Zdjęcie otwierające: unsplash.com (@zulfugarkarimov)

AIciekawostkipolskasztuczna inteligencja
Idź do oryginalnego materiału