Chain-of-Draft – czy nowa technika zapytań zmniejszy koszty AI?

homodigital.pl 1 miesiąc temu

Zoom wielu z nas kojarzy się z pandemią i długimi sesjami zdalnej pracy lub nauki. Jak się jednak okazuje, pracownicy Zoom zajmują się również sztuczną inteligencją. Właśnie ogłosili światu nową technikę zadawania zapytań modelom AI. Chain-of-Draft, bo tak się ta nowa technika zapytań nazywa, daje szanse na zmniejszenie kosztów AI. Zwłaszcza w zaawansowanych zastosowaniach. Jak działa i czemu jest dobra? Wyjaśniamy.

Duże modele językowe (LLM) znane są z tego, iż nie zawsze działają idealnie. Czasami halucynują, często są na bakier z logiką świata fizycznego. Czasem z matematyką nie zawsze sobie radzą szczególnie dobrze, choćby na poziomie prostych działań matematycznych.

Jednym z najlepszych znanych dotąd sposobów na polepszenie jakości odpowiedzi było skłonienie LLM-u do generowania odpowiedzi na bardziej złożone pytania krok po kroku. Dzięki temu zmniejszała się szansa, iż model AI pójdzie na skróty i poczęstuje nas nieprawidłową odpowiedzią. Technika ta, zwana Chain-of-Thought (łańcuch myśli) ma jednak swoje wady. Jest powolna i jeżeli płacimy dostawcy AI za długość odpowiedz, to generuje spore koszty. Wynika to z faktu, iż tak zapytany model często udziela odpowiedzi na absurdalnym poziomie szczegółowości.

Nowa technika zapytań daje krótsze, tańsze odpowiedzi

Jak piszą badacze Zooma, te ograniczenia można obejść, wzorując się na tym, jak funkcjonuje ludzki mózg. Kiedy planujemy bardziej skomplikowane zadania, to tworzymy sobie w głowie ogólne szkice rozwiązania, nie zagłębiając się w zbędne szczegóły. Stąd też technika ta, skłaniająca model do krótszych odpowiedzi, uzyskała nazwą Chain-of-Drafts (COD), czyli łańcuch szkiców.

Jak ona z grubsza działa? Zadajemy zapytanie niemal identyczne jak w Chain-of-Thoughts, czyli prosząc model językowy, by udzielił odpowiedzi krok po kroku. Dodajemy jednak, iż każdy z tych kroków myślenia powinien być sformułowany w co najwyżej 5 słowach.

Efekt? Mierzone w tokenach odpowiedzi są kilkukrotnie krótsze (a więc i tańsze) a i szybkość udzielania odpowiedzi jest istotnie mniejsza, choć tu zyski nie są aż tak duże. A przy tym jakość odpowiedzi jest zasadniczo identyczna jak w przypadku Chain-of-Thought.

Chain-of-Draft ma jednak jedną wadę. Do adekwatnego działania wymaga kilku przykładów tego, jak model może sobie ukształtować takie krótkie odpowiedzi. Jak przypuszczają badacze, wynika to prawdopodobnie z tego, iż w danych treningowych modeli kilka było przykładów takiego skrótowego myślenia stosowanego przez COD. Nie jest to jednak ograniczenie, którego nie byłoby w stanie rozwiązać tak zwane „dostrojenie” modelu.

Chain-of-Draft zmniejszy koszty modeli rozumujących?

Konieczność dostarczania przykładów nieco utrudnia korzystanie z tej nowej techniki przeciętnemu użytkownikowi. Jednak jest zupełnie niezłym rozwiązaniem dla firm budujących rozwiązania AI.

Po pierwsze mamy firmy, które wykorzystują LLM-y jako kręgosłup zaawansowanych rozwiązań AI. jeżeli w tej chwili używają w swoich rozwiązaniach Chain-of-Thought, to zamiana na Chain-of-Draft z odpowiednią liczbą przykładów powinna zwiększyć szybkość działania ich systemów, jednocześnie zmniejszając koszty działania.To ostatnie oczywiście jest już mniej dobre dla dostawców chmurowych, którzy, przynajmniej w krótszym terminie, mogą zarobić mniej.

Jeszcze więcej można sobie obiecywać po wbudowaniu Chain-of-Draft w modele „rozumujące”, jakie jak o1 czy DeepSeek R1. Modele te mają włączony w siebie mechanizm Chain-of-Thought, za pomocą którego ich odpowiedzi są istotnie wyższej jakości niż te udzielane przez tradycyjne LLM-y. Ale jest to też jeden z podstawowych powodów, dla których są to modele wolne i obliczeniowo drogie. Być może więc wprowadzenie techniki ograniczającej „gadulstwo” modelu poprawiłoby i czas działania i koszty działania takich modeli.

Jak już swego czasu pisałem, najnowszy model o3 od OpenAI w swoim najgłębiej myślącym trybie potrafi zużyć do wytworzenia jednej odpowiedzi moc obliczeniową za dobrze ponad 1000 dolarów. Zastosowanie Chain-of-Draft mogłoby ten koszt zmniejszyć choćby ponad 10-krotnie.

Źródło grafiki: sztuczna inteligencja, model Dall-E 3

Idź do oryginalnego materiału