Potrzebujemy polskojęzycznych modeli
– Zdecydowanie warto budować i rozwijać polskie LLM-y. Sprawdzają się one lepiej dla tekstów opublikowanych w naszym języku – mówi dr hab. inż. Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB).
Odpowiedniki anglojęzyczne, choćby te najbardziej zaawansowane, nie radzą sobie równie dobrze z analizą polskich danych, języka prawniczego czy technicznego. Właśnie dlatego powstał model PLLuM – efekt współpracy sześciu instytucji naukowych, w tym OPI PIB, który dowodzi, iż polska nauka jest w stanie tworzyć własne narzędzia AI na wysokim poziomie.
Duży model? Niekoniecznie
Rozwój modeli porównywalnych z DeepSeek, który liczy 700 miliardów parametrów, wymaga ogromnych inwestycji. Sam sprzęt to koszt rzędu milionów złotych – 16 kart H100 to wydatek ok. 3 mln zł. Należy do tego dodać koszty infrastruktury, energii i zespołu specjalistów. Czy taki wysiłek ma sens w polskich realiach?
– Tam, gdzie występuje ryzyko utraty przewagi konkurencyjnej bazującej na prywatnych danych, będziemy szli w dużo mniejsze modele szyte na miarę konkretnych firm lub instytucji – uważa dr inż. Marek Kozłowski, kierownik AI Labu w OPI PIB.
Co to oznacza w praktyce? Lepszym rozwiązaniem mogą być średniej wielkości modele, wyspecjalizowane w konkretnych branżach, jak np. finanse, prawo czy energetyka. W efekcie wyszkolenie ich na lokalnych danych będzie szybsze i tańsze.
LLM-y dla wszystkich języków Unii
OPI PIB uczestniczy także w ambitnym, europejskim projekcie LLMs4EU, którego celem jest zapewnienie dostępności dużych modeli językowych dla wszystkich języków Unii Europejskiej. Wspierany przez Komisję Europejską program ma zapobiec marginalizacji języków narodowych w erze dominacji anglojęzycznych modeli AI.
Projekt LLMs4EU ma charakter praktyczny. Oprócz trenowania modeli powstaną narzędzia do ich wdrażania zgodnie z europejskimi regulacjami (AI Act, RODO), a także studia przypadków dla konkretnych branż.
Rozwój sztucznej inteligencji to nie tylko wyścig na liczbę parametrów. To także kwestia dostępności, lokalnych potrzeb i bezpieczeństwa danych. Eksperci są zgodni: Polska powinna rozwijać własne modele językowe – niekoniecznie największe, ale na pewno najlepiej dopasowane do rzeczywistych potrzeb użytkowników.
Polecamy również:
- Polska AI wspiera diagnozowanie chorób płuc i wyjaśnia swoje decyzje
- Z kosmosu na Ziemię. Polska konstelacja CAMILA pomoże w monitoringu klimatu
- Czy papierosy będą luksusem? Unia Europejska szykuje rewolucję w akcyzie
- Rekordowe tempo pomocy po powodzi. UE zmienia podejście i upraszcza procedury