Skuteczniejsza AI za mniejsze pieniądze? Moment „aha”, czyli jak DeepSeek wyprzedził konkurencję

news.5v.pl 1 dzień temu

Chińskie laboratorium AI DeepSeek napisało artykuł badawczy dotyczący działania modelu „rozumowania” R1 DeepSeek. Tekst ujawnia, w jaki sposób grupa kierowana przez miliardera Lianga Wenfenga osiągnęła imponujące wyniki, usuwając wąskie gardła w rozwoju sztucznej inteligencji.

Autorzy artykułu pokazali, w jaki sposób chińskie laboratorium AI DeepSeek zastosowało szereg bardziej wydajnych technik w celu opracowania modelu R1, który, podobnie jak konkurencyjny o1 firmy OpenAI generuje dokładne odpowiedzi, „myśląc” krok po kroku o swoich reakcjach dłużej niż większość dużych modeli językowych.

Przełomowe osiągnięcia DeepSeek wynikają z zastosowania „uczenia przez wzmacnianie”, co ma zmniejszyć zaangażowanie człowieka w tworzenie odpowiedzi. Firma zbudowała również modele z mniejszą liczbą parametrów używanych do trenowania systemu sztucznej inteligencji i kształtowania jego wyników. Mają one potężne możliwości rozumowania poprzez modyfikowanie dużych modeli wyszkolonych przez konkurentów, takich jak Meta i Alibaba.

To wszystko pozwoliło wywołać falę szoku w całej Dolinie Krzemowej, ponieważ w niektórych zadaniach R1 osiąga lepsze wyniki niż niedawno wypuszczone modele OpenAI, Anthropic i Meta, a mimo to jego rozwój pochłonął ułamek kwot wydanych przez konkurencję.

EPA/CAROLINE BREHMAN / PAP

Aplikacja DeepSeek. Zdjęcie ilustracyjne

We wtorek OpenAI stwierdziło, iż znalazło dowody na to, iż DeepSeek korzystał z jego technologii, wykorzystując dane wyjściowe z jego dużych modeli językowych do szkolenia własnych po niższych kosztach. To powszechna praktyka wśród naukowców i słabiej finansowanych start-upów.

Pomimo tych kontrowersji eksperci twierdzą, iż DeepSeek wykazał się prawdziwą innowacyjnością. Naukowcy zajmujący się sztuczną inteligencją pochwalili również chęć Chińczyków do opublikowania szczegółowego raportu technicznego opisującego, w jaki sposób zbudowali swój model.

— Myślę, iż to tylko wierzchołek góry lodowej, jeżeli chodzi o rodzaj innowacji, jakich możemy się spodziewać po tych modelach — mówi Neil Lawrence, profesor uczenia maszynowego na Uniwersytecie Cambridge. — Historia pokazuje, iż duże firmy mają trudności z wprowadzaniem innowacji w miarę ich rozrastania się. To, co widzieliśmy w wielu z tych dużych firm, to zastąpienie inwestycji obliczeniowych ciężką pracą intelektualną.

Kciuki w górę i do przodu

Tzw. duże modele językowe budowane są w dwóch etapach. Pierwszy z nich nazywany jest „szkoleniem wstępnym”. Programiści wykorzystują w nim ogromne zbiory danych, które pomagają modelom przewidzieć następne słowo w zdaniu. Drugi etap nazywany jest „posttreningiem” — w jego ramach programiści uczą model wykonywania różnych instrukcji, takich jak rozwiązywanie problemów matematycznych lub kodowanie.

Jednym ze sposobów na skłonienie chatbotów do generowania bardziej użytecznych odpowiedzi jest „uczenie przez wzmacnianie na podstawie informacji zwrotnych od ludzi” (RLHF). To technika zapoczątkowana przez OpenAI dla ulepszenia ChatGPT.

RLHF działa w ten sposób, iż ludzcy anotatorzy etykietują reakcje modelu AI na podpowiedzi i wybierają te, które są najlepsze. Ten krok bywa pracochłonny, kosztowny i czasochłonny. Często wymaga całej rzeszy ludzi etykietujących dane.

Dużą innowacją DeepSeek jest zautomatyzowanie tego ostatniego kroku przy użyciu techniki zwanej uczeniem przez wzmacnianie (RL) — w jej ramach model AI jest nagradzany za robienie adekwatnych rzeczy.

Dalszy ciąg materiału pod wideo

DeepSeek najpierw opracował potężny model przewidywania tekstu o nazwie V3. Następnie użył RL do „nagradzania” modelu, na przykład pokazując mu „kciuki w górę” za wygenerowanie prawidłowej odpowiedzi. Chińska firma odkryła, iż przy powtarzaniu tego procesu wystarczająco wiele razy model był w stanie spontanicznie rozwiązywać problemy bez nadzoru człowieka.

Technika ta została również wykorzystana przez Google DeepMind do zbudowania AlphaGo — systemu sztucznej inteligencji, który pokonał ludzi w starożytnej grze planszowej Go i zapoczątkował obecny boom na techniki głębokiego uczenia się prawie dekadę temu. Specjalistom z DeepSeek udało się odkryć, iż ich model ma coś, co nazywają „momentem aha”, kiedy ponownie ocenił swoje odpowiedzi i dostosował czas przetwarzania, aby rozwiązać różne problemy.

„Moment »aha« służy jako potężne przypomnienie potencjału do odblokowania nowych poziomów inteligencji w sztucznych systemach, torując drogę do opracowania bardziej autonomicznych i adaptacyjnych modeli w przyszłości” — napisali twórcy DeepSeek w swoim artykule badawczym.

Lewis Tunstall, badacz w Hugging Face, firmie zajmującej się badaniami nad sztuczną inteligencją, mówi: — Wydaje się, iż tajemnicą stojącą za skutecznym działaniem jest po prostu posiadanie bardzo, bardzo silnego wstępnie wytrenowanego modelu, a następnie posiadanie bardzo, bardzo dobrej infrastruktury do przeprowadzenia procesu uczenia się przez wzmacnianie na dużą skalę.

Małe modele wydestylowane z większych

Podczas gdy OpenAI i Google inwestują miliardy dolarów w tworzenie dużych modeli językowych, DeepSeek stworzył również mniejsze modele. Można je uruchamiać na telefonach lub przeglądarkach internetowych, „destylując” możliwości rozumowania większych modeli.

DeepSeek wykorzystał swój model R1 do wygenerowania stosunkowo niewielkiego zestawu 800 tys. punktów danych, a następnie dostosował modele stworzone przez konkurentów, takich jak Qwen Alibaby i Llama Mety, wykorzystując dane wygenerowane przez sztuczną inteligencję.

DeepSeek odkrył, iż te „destylowane” modele były szczególnie silne we wnioskowaniu, w niektórych przypadkach przewyższając flagowe modele, takie jak Claude firmy Anthropic. — Zasadniczo może rozwiązać większość problemów matematycznych, które rozwiązywałem na studiach licencjackich — mówi Tunstall.

Rozwój ten może być dobrodziejstwem dla twórców aplikacji, którzy mają tani i wydajny sposób tworzenia produktów. Według Lennarta Heima, badacza z think tanku Rand, uczenie modeli sztucznej inteligencji rozumowania podczas „wnioskowania” — gdy model sam generuje odpowiedzi — jest znacznie bardziej wydajne niż proces wstępnego szkolenia, który wymaga dużej mocy obliczeniowej.

PATRICK PLEUL / DPA / PAP

Logo DeepSeek. Zdjęcie ilustracyjne

Ten nowy paradygmat może pozwolić konkurentom na tworzenie konkurencyjnych modeli przy znacznie mniejszej mocy obliczeniowej i kosztach, dodaje Heim. Jednak bez pieniędzy na chipy Chińczycy „po prostu nie mogą ich wdrożyć na taką samą skalę”.

DeepSeek nie zdradza, ile wydał na zbudowanie R1, ale twierdzi, iż wyszkolił swój model V3, na którym opiera się R1, za jedyne 5,6 mln dol (ok. 22,6 mln zł). Heim zwraca jednak uwagę na to, iż suma ta nie obejmuje innych kosztów, takich jak prawdopodobne nabycie tysięcy procesorów graficznych do trenowania modelu lub wynagrodzeń, eksperymentów, szkoleń i wdrażania. I chociaż DeepSeek jako pierwszy zastosował swoje konkretne techniki, można się spodziewać, że inne laboratoria AI pójdą w jego ślady, a Hugging Face już pracuje nad replikacją R1.

Amerykańskie firmy zajmujące się sztuczną inteligencją pracowały również nad wykorzystaniem możliwości swoich dużych, najnowocześniejszych modeli w mniejszych, bardziej zwinnych modelach. Google wprowadził w zeszłym roku Gemmę, która jest lżejszym modelem opartym na modelu Gemini.

— Przepis na inteligencję jest dość prosty — mówi Thomas Wolf, współzałożyciel i dyrektor naukowy w Hugging Face, dodając, iż techniki DeepSeek są dobrze zrozumiane przez innych w tej dziedzinie. — Dlatego spodziewam się, iż wiele zespołów może to powtórzyć.

Idź do oryginalnego materiału