„Rozumujący” model za grosze? UC Berkeley pokazuje, iż można

homodigital.pl 12 godzin temu

Czy można zbudować „rozumujący” model AI za grosze? Może nie dosłownie, ale w świecie AI 450 dolarów to drobne z portmonetki. A za tyle właśnie swój rozumujący model stworzyli naukowcy z UC Berkeley. Nie w milionach, nie w tysiącach, po prostu 450 dolarów.

Oczywiście trochę oszukuję. Za taką kwotę nie powstałby żaden sensowny model budowany od podstaw. Ale kwota ta wystarczyła, żeby przekształcić otwarty i dostępny za darmo model Qwen od Alibaby w model „rozumujący,” który przynajmniej pod pewnymi względami dorównuje pierwszej publicznej wersji modelu o1 od OpenAI, czyli o1-preview.

„Rozumujący” model za grosze? Ze zwykłego…

Jak się okazuje, modelu „rozumującego” wcale nie musimy trenować od podstaw, wystarczy wziąć nieźle funkcjonujący duży model językowy i go dotrenować w myśleniu.

Tak więc naukowcy z Kalifornii wzięli model Qwen-2.5-32B-Instruct. Następnie stworzyli syntetyczne dane – w większości dotyczące matematyki i programowania – przy użyciu również „rozumującego” modelu QwQ-32B-Preview od Alibaby. Po przetworzeniu tych danych na lepiej sformatowaną wersję zostały one użyte do wytrenowania „rozumującego” modelu.

Trenowanie na 8 kartach H100 trwało raptem 19 godzin. Koszt, według cennika dostawcy chmurowego Lambda Cloud, to wspomniane wyżej 450 dolarów.

A jak sobie radzi Sky-T1-32B-Preview – bo tak nazwano nowy model? Całkiem nieźle jak na tak tani model.

Jak widać, w zadaniach z matematyki, zwłaszcza tych trudniejszych (AIME2024), widać dramatyczną poprawę w stosunku do modelu Qwen, na którym Sky-T1 był oparty i otrzymano wynik przynajmniej nieco lepszy niż ten dla o1-preview. Podobnie w kodowaniu – im trudniejsze zadania tym większa poprawa w stosunku do Qwen-2.5 i tym lepiej model z Berkeley wypada na tle o1-preview.

Oczywiście ktoś może powiedzieć, iż OpenAI już udostępniło pełną, dużo lepszą wersję o1, a niedługo pokaże się pewnie jeszcze dużo lepsze o3. Tylko pamiętajmy o dramatycznym wzroście kosztów używania tych „jeszcze bardziej rozumujących” modeli. A w przypadku Sky-T1 choćby trenowanie jest tanie.

Dodatkowo chętni mogą sobie poeksperymentować z nowym modelem – dostępne jest dosłownie wszystko, na czym jest oparty, włącznie z kodem, zestawem danych, na których był oparty czy wagami (parametrami) modelu.

… byle nie za małego

Nie jest jednak tak, iż możemy wziąć dowolny LLM i przetrenować go na model rozumujący. Jak pokazały testy naukowców z Berkeley, użycie mniejszych modeli, rzędu 7 i 14 mld parametrów, nie daje porównywalnie dobrych rezultatów. Odnotowano pewną poprawę w stosunku do bazowych modeli Qwen, jednak „często generowały powtarzającą się zawartość, co ogranicza ich użyteczność.” To zła wiadomość dla nas Polaków, przynajmniej w kontekście naszego polskojęzycznego LLM-a Bielika – ma on tylko 11 mld parametrów.

Jednak fakt, iż możemy wziąć relatywnie niewielki model (a takim jest model z 32 mld parametrów) i niskim kosztem dotrenować go do poziomu modelu „rozumującego”, otwiera zupełnie nowe możliwości, zwłaszcza jeżeli połączymy go w system agentów AI. W systemach wieloagentowych często mamy agentów wyspecjalizowanych w konkretnych dziedzinach.

Można do tego oczywiście używać modeli dużych takich jak GPT-4o czy Gemini, które mają obszerną wiedzę w wielu dziedzinach i po prostu ukształtować ich odpowiedzi odpowiednimi promptami. Jednak korzystanie z mniejszych specjalizowanych „rozumujących” agentów może być i szybsze, i tańsze. Tym bardziej iż dotrenowanie takich agentów w odpowiedniej dziedzinie nie jest, jak widać, ani czasochłonne, ani drogie. No i zyska się niezależność od OpenAI, Google czy Anthropic.

Źródło grafiki: Sztuczna inteligencja, model Dall-E 3

Idź do oryginalnego materiału