Nowy PLLuM do użytku komercyjnego. Podbije polskie firmy?

homodigital.pl 7 godzin temu

Otrzymaliśmy nowe modele PLLuM do użytku komercyjnego. Konsorcjum HIVE AI udostępniło trzy zaktualizowane modele o różnych wielkościach. Niestety, tylko największy z nich, o 70 mld parametrów, jest dostępny w wersjach instruct i chat, a więc nadających się do w miarę szybkiej i bezbolesnej implementacji w firmach. Dodatkowo, jeżeli chodzi o polskie konteksty kulturowe i językowe, nie jest lepszy od poprzednika.

PLLuM od ponad 1,5 roku był nadzieją – dotychczas chyba niespełnioną – na model generatywnej AI, który świetnie mówiłby po polsku a jednocześnie nadawałby się do zaimplementowania w polskiej administracji publicznej, instytucjach czy firmach. gwałtownie też zyskał konkurencję w postaci dobrze przyjętego Bielika, tworzonego przez grupę entuzjastów.

Kiedy PLLuM w końcu został udostępniony w lutym bieżącego roku, okazało się, iż dostaliśmy całą rodzinę modeli, z podziałem na modele nieprzeznaczone do użytku komercyjnego, zbudowane na większej ilości danych oraz te, z których można było korzystać również komercyjnie. I takie właśnie zaktualizowane modele do użytku komercyjnego dostaliśmy teraz.

Nowy PLLuM do użytku komercyjnego. Nieco gorszy?

Trudno jednak nie przecierać oczu ze zdziwienia, jeżeli czytamy, iż nowy model był wytrenowany na zbiorze danych zawierającym 18 mld tokenów, a więc znacznie mniej niż poprzednie ich wersje, zawierające 30 mld tokenów. choćby jeśli, jak zapewnia twórca modeli, czyli konsorcjum HIVE AI, nowy zbiór danych jest starannie wyselekcjonowany i wysokiej jakości, to generalnie im większy zbiór tym lepszy model.

I to niestety widać. W benchmarku PLCC stworzonym przez OPI-PIB, jednego z członków konsorcjum HIVE AI, nowy model z 70 mld tokenów wypada odrobinę gorzej od swojego poprzednika. Wypada również sporo gorzej od dużo mniejszych modeli niekomercyjnych wydanych przez HIVE AI w zeszłym miesiącu.

Możemy tylko spekulować, co stało za decyzją o zmniejszeniu zestawu danych do trenowania nowych modeli. Czy chęć polepszenia jakości tych danych, czy wątpliwości co do kwestii licencyjnych przy danych użytych do trenowania poprzednich modeli. Niezależnie od powodów, trudno uznać to za postęp.

Problemem jest również to, iż mniejsze z nowych modeli są dostępne tylko w dość bezużytecznej dla użytkowników końcowych wersji base – a więc takiej, która nie umie choćby odpowiadać na pytania. Tę umiejętność modele nabywają dopiero w fazie dostrajania, a więc tworzenia wersji instruct, przystosowanej do użytku programistycznego, czy chat – przystosowanej do interakcji z człowiekiem. Miejmy nadzieje, iż takie wersje dla mniejszych modeli HIVE AI niedługo wyda.

Czy nowe modele trafią do polskich firm?

Czy więc jest szansa, iż nowe modele trafią do polskich firm? w tej chwili nic na to nie wskazuje. Jedyny model, które już teraz nadaje się do takiej implementacji jest dość duży (70 mld tokenów) i nie osiąga szczególnie dobrych rezultatów, jeżeli chodzi o polskie kompetencje kulturowo-językowe. Jest gorszy nie tylko do znacznie mniejszych, ale wytrenowanych na większym zbiorze danych modeli niekomercyjnych od PLLuM, ale również od sporo mniejszego (11 mld parametrów) i dostępnego na liberalnej licencji Bielika.

Można sobie wyobrazić jego użycie w firmach, gdzie „urzędnicze” źródła PLLuM-a mają znaczenie. Kancelariach prawnych, firmach księgowych czy doradczych oraz w firmach IT budujących systemy informatyczne dla takich firm. Nie przez przypadek użytkownikiem PLLuM-a jest Comarch.

Jednak w innych firmach Bielik, jeżeli zapewni mu się do odpowiedniego zbioru danych specjalistycznych przez tzw. RAG, a więc dostęp do specjalnej bazy danych, prawdopodobnie jest lepszym wyborem. Podobno model ten jest już wykorzystywany przez wiele polskich banków.

A kto najlepiej mówi po polsku?

A jak w ogóle jest ze znajomością polskiego języka i kontekstów kulturowych wśród modeli AI? jeżeli wierzyć wspomnianemu benchmarkowi PLCC, to nie do przebicia są tu czołowe modele językowe największych amerykańskich firm AI. Najwyższą notę otrzymał Gemini-2.5-Pro od Google, który zajmuje czołowe miejsce w ogólnym indeksie, jak również znajomości polskiej kultury i geografii. jeżeli chodzi o umiejętności stricte językowe, to w słownictwie najlepszy jest najnowszy produkt OpenAI, czyli GPT-5 a w gramatyce Grok 4 od firmy Elona Muska xAI.

Te czołowe miejsca największych modeli amerykańskich nie dziwią. Są to nie tylko olbrzymie modele językowe z bilionami parametrów, ale są one też trenowane na olbrzymich ilościach danych – po części dzięki nieco luźniejszemu podejściu do kwestii licencyjnych.

Skutek jest taki, iż te największe modele zza oceanu mają w PLCC wyniki około 90%, za to najlepszy model polski, dostępny na licencji niekomercyjnej PLLuM-12B, uzyskuje około 70%. Z kolei najlepszy polski model do użytku komercyjnego, czyli Bielik 2.6 jeszcze nieco mniej, bo około 65%. Najnowszy PLLuM 70B uzyskał raptem 58%.

A co, jeżeli polska firma chciałaby model uruchomić na własnej infrastrukturze, więc nie interesują jej zamknięte modele amerykańskich firm? Tu opcją są otwarte modele chińskie. DeepSeek-R1 osiąga w PLCC 76%. Firma, która by się na to zdecydowała musi jednak pamiętać, iż to liczące przeszło 800 mld parametrów monstrum.

Wygląda więc na to, iż polskie firmy będą najczęściej korzystać z modeli amerykańskich, tym bardziej, iż ceny istotnie spadają. A tam, gdzie potrzebna jest większa dbałość o to, by dane nie wypłynęły na zewnątrz – służbie zdrowia, bankowości, czy bezpieczeństwie – najlepszym wyborem wydaje się Bielik. Przy swoich 11 mld parametrów nigdy raczej nie dogoni amerykańskich gigantów, ale w połączeniu z RAG-iem może być dobrą i tanią opcją dla wielu polskich firm.

Źródło grafiki: Sztuczna inteligencja, model Dall-E 3

Idź do oryginalnego materiału