Europa ma rozumujący model AI. Ale wciąż jest w tyle za liderami

homodigital.pl 1 dzień temu

Europa w końcu ma rozumujący model AI z prawdziwego zdarzenia. Francuski startup Mistral udostępnił dwa takie modele, które nazwał Magistral. Niestety, przegląd benchmarków pokazuje, iż nowe modele ustępują czołowym modelom amerykańskim i chińskim. Dobra wiadomość jest taka, iż mniejszy z modeli Mistrala jest dostępny zupełnie za darmo.

Jak dotąd w wyścigu na modele „rozumujące”, a więc takie, które analizują swoje odpowiedzi i je poprawiają, uczestniczyły tylko firmy amerykańskie i chińskie. Pierwszy taki model, o1 od OpenAI, pojawił się we wrześniu ubiegłego roku. A w styczniu dostaliśmy chiński model DeepSeek-R1, który pokazał, iż chińska AI kilka ustępuje amerykańskiej i wstrząsnął rynkami finansowymi.

Potem, w marcu, Qwen, czyli lab AI należący do giganta e-commerce Alibaby, udostępnił model QwQ, który pokazał, iż choćby model o względnie małym rozmiarze (ma zaledwie 32 mld parametrów w porównaniu do 671 mld parametrów DeepSeeka-R1) może dorównywać umiejętnościami dużo większym konkurentom.

W tym całym wyścigu na modele rozumujące brakowało – jak dotąd – Europy. Teraz się pojawiła. Niestety, raczej pod koniec stawki.

Europa ma rozumujący model AI. choćby dwa…

Cóż więc dostaliśmy teraz od Mistrala, ulubieńca europejskiego (a zwłaszcza francuskiego) rynku venture capital?

Po pierwsze dostajemy model Magistral Medium, który powstał na podstawie tradycyjnego modelu Mistral Medium 3. Nie wiemy jak duży to model – Mistral konsekwentnie milczy na ten temat – ale biorąc pod uwagę fakt, iż firma porównuje go do Llamy Maverick, to możemy zgadywać, iż ma podobną, liczoną w setkach miliardów, liczbę parametrów.

Drugi model jest zdecydowanie mniejszy. Magistral Small ma 24 mld parametrów i został opublikowany na Hugging Face na liberalnej licencji Apache 2.0, co oznacza, iż można z niego korzystać za darmo również do celów komercyjnych. Jak odnotowuje Mistral, jest to model na tyle mały, iż po kwantyzacji (czyli zmniejszeniu precyzji parametrów, dzięki czemu model staje się mniejszy) można go uruchomić na karcie Nvidii RTX 4090 czy na MacBooku z 32 GB RAM.

… ale jest i tak w tyle za USA i Chinami

A jak sobie radzą te dwie europejskie nowości. Cóż, tak sobie. Wystarczy spojrzeć na wykres porównujący umiejętności Magistrala Medium z DeepSeekiem-R1.

Źródło: Mistral

Jak widzimy, bazowe wyniki dla Magistral Medium są gorsze od tych dla modelu chińskiego, zwłaszcza w dziedzinie programowania. A te wyższe wyniki dla benchmarków AIME są tylko dla prób, w których modelowi pozwolono dłużej „myśleć”.

Jest jeszcze gorzej, jeżeli porównamy francuski model z QwQ, który – przypomnijmy – ma jedynie 32 mld parametrów. Okazuje się, iż choćby niewielki (i darmowy) chiński model jest lepszy od większego z Magistrali. Amerykańskich modeli od OpenAI, Google czy Anthropica w ogóle nie ma na wykresie od Mistrala. Nie bez powodu – są dużo lepsze.

A jak radzi sobie darmowy „maluch” od Mistrala? W porównaniu do większego kolegi – zaskakująco dobrze. Jego benchmarki są o jakieś 2-3,5 pkt. poniżej Magistrala Medium.

Czy nowe europejskie modele mają szanse w konkurencji z rywalami z USA i Chin? Będzie im trudno. Magistral Small jest darmowy, ale darmowy jest też chiński QwQ, który ma lepsze wyniki benchmarków. Z kolei większy z modeli nie jest wystarczająco tani, by usprawiedliwić jego gorsze benchmarki. Zwłaszcza, iż DeepSeek-Reasoner jest istotnie tańszy – i wyraźnie lepszy.

A my czekamy na rozumującego Bielika 11B

My z kolei wyczekujemy na rozumującego Bielika w większej wersji na 11 mld parametrów. Co prawda już model 2.5 ma, jak sugerował techniczny guru projektu Bielik Remigiusz Kinas, zaszyte w sobie rozumowanie „w wersji pre-alfa” (a więc bardzo wczesnej), ale działa ono „tak sobie.” Mamy jednak jego obietnicę, iż będzie oddzielny Bielik-R.

Kiedy się pojawi rozumujący duży Bielik? Nie wiemy, wiemy tylko, iż prace już trwają. Ale wiemy również, iż w odróżnieniu od większości innych modeli, będzie „rozumował” po polsku.

Źródło zdjęcia: Solen Feyissa/Unsplash

Idź do oryginalnego materiału