
Czy darmowe modele AI są… droższe? Jak sugerują badacze z Nous Research, może tak być przynajmniej w przypadku modeli rozumujących. Żeby udzielić nam odpowiedzi na proste pytanie na przykład z geografii, darmowe modele generują często długie „łańcuchy myśli”, zanim odpowiedzą. A jeżeli model jest w chmurze a nie na naszej infrastrukturze, to te długie łańcuchy myśli nas kosztują – w postaci opłat za moc obliczeniową.
Do niedawna sytuacja wydawała się prosta. jeżeli firma chciała obniżyć koszty AI, to po prostu wybierała darmowy model. Mógł to być model od Mety, Mistrala czy, jeżeli firma chciała używać modelu dobrze mówiącego po polsku – Bielika od Fundacji Speakleash. choćby jeżeli firmy korzystały z tych modeli w chmurze, to opłaty za nie były generalnie sporo niższe niż za największe modele zamknięte.
A potem ukazały się modele rozumujące i, jak się okazuje, rachunki nieco się zmieniły.
Czy darmowe modele AI są droższe?
Jak wynika z badania Nous Research, twórcy zamkniętych modeli AI, zwłaszcza OpenAI i Anthropic, wykonali świetną robotę, optymalizując długość rozumowania do miary skomplikowania zapytania. Tak więc modele rozumujące tych firm zużywają małą liczbę tokenów rozumując o prostych zadaniach. Poświęcają za to więcej czasu i mocy obliczeniowych zadaniom bardziej złożonym.
Tak dobrze nie jest w przypadku niemal wszystkich modeli otwartych i w przypadku Gemini-2.5-Pro. Ale mniejszy model Gemini-2.5-Flash radzi sobie z tym nieźle. O ile najbardziej efektywne modele zużywają mniej niż 100 tokenów na odpowiedź na proste pytanie z wiedzy, o tyle większość modeli otwartych zużywa ponad 400 tokenów. Magistral-Medium, rozumujący model francuskiego Mistrala, zużywa wręcz ponad 1000 tokenów.
Wyjątkiem wśród modeli otwartych jest niedawno zaprezentowany darmowy model OpenAI, czyli gpt-oss-120b, który jest tutaj liderem efektywności, zużywając średnio raptem 76 tokenów na odpowiedź. Cóż, jak już wspominałem, w tej dziedzinie firma Sama Altmana należy do najlepszych.

Sytuacja nie jest aż tak zła dla modeli otwartych, jeżeli chodzi o pytania matematyczne czy logiczne. Czyli takie, w przypadku których rozwinięte „łańcuchy myśli” (chain of thought) są jak najbardziej wskazane. Tu różnice między najbardziej efektywnymi i najmniej efektywnymi modelami są zdecydowanie mniejsze.
W przypadku łamigłówek logicznych różnice między modelami otwartymi a zamkniętymi są jeszcze mniejsze. Zarówno w przypadku zadań matematycznych jak i logicznych modele Magistrala pozostają najmniej efektywne.
Skłonność otwartych modeli rozumujących do nadmiernej „gadatliwości” przy prostych pytaniach nie jest być może aż tak wielkim zaskoczeniem. O problemie tym wspominał na przykład Remigiusz Kinas z Fundacji Speakleash w kontekście budowy rozumujących Bielików.
Rozwiązaniem ruter modeli AI?
Co mogą więc zrobić firmy, które chcą przez cały czas korzystać z modeli otwartych a nie chcą wydawać wielkich pieniędzy na moc obliczeniową? I to wydawać tylko dlatego iż otwarte modele rozumujące są mało efektywne przy prostych pytaniach?
Odpowiedzią wydaje się ruter modeli AI, czyli system, który wybiera odpowiedni model dla danego zapytania. Taki ruter, zamiast wysyłać do modelu rozumującego proste zapytanie z wiedzy – na przykład o to, jaka jest stolica Australii – wyśle je do małego, szybkiego i taniego tradycyjnego modelu językowego. Ten bez trudu odpowie na to pytanie, zużywając może kilkanaście zamiast setek tokenów.
Takie rozwiązania już istnieją – oferują je na przykład dostawcy chmurowi. Ale istnieje również otwarte rozwiązanie zwane RouteLLM. I to rozwiązanie firmy mogą zaimplementować na swojej infrastrukturze. Pozwala to na zaoszczędzenie sporych pieniędzy. Na czym? – nie tylko na gadatliwości otwartych modeli rozumujących, ale i na wysokich kosztach korzystania z czołowych modeli zamkniętych. Po co używać GPT-5, jeżeli odpowiedzi może udzielić zainstalowany na firmowym serwerze Bielik?
Źródło grafiki: Sztuczna inteligencja, model Dall-E 3