Nowa fala modeli AI. Które są najlepsze? I co się najbardziej opłaca?

homodigital.pl 2 godzin temu

Nadpłynęła nowa fala modeli AI – w przeciągu niecałych dwóch tygodni dostaliśmy nowe flagowe modele od (w kolejności chronologicznej) OpenAI, Google, xAI i Anthropica. Które z tych modeli są najlepsze – i w jakich dziedzinach? I które najbardziej nam się opłacają – czyli oferują dobrą równowagę między ceną a jakością, zwłaszcza po ostatnich nowych ofertach? Sprawdzamy.

Cały rynek AI od tygodni szykował się na premierę nowej wersji Gemini. AI od Google nie była w znaczący sposób uaktualniana od wielu miesięcy i jej wersja 2.5, choć świetna w dniu premiery, coraz bardziej odstawała od produktów konkurentów, którzy w międzyczasie opublikowali nowe modele.

Nowa fala modeli AI. Wszyscy szykowali się na Gemini?

Oczekiwania w stosunku do Gemini 3 były tak wysokie (i jak się okazało – słusznie), iż konkurenci przygotowali swoje odpowiedzi. Jeszcze przed debiutem nowego modelu Google OpenAI udostępnił GPT-5.1, czyli zaktualizowaną wersję GPT-5. W dniu debiutu Gemini xAI opublikował model Grok 4.1, a parę dni później, już w bieżącym tygodniu, Anthropic udostępnił Claude Opus 4.5, najnowszą wersję swojego największego i najmocniejszego modelu.

Niestety, fakt, iż modele zostały opublikowane ostatnio oznacza, iż nie zawsze jesteśmy kompleksowo podsumować ich umiejętności – różne laby AI podają wyniki różnych benchmarków, zwykle tych, w których wypadają lepiej. Ale i tak spróbujemy.

Vox populi? Tu wygrywa Gemini

Pierwszą miarą, jakiej się przyjrzymy jest swoisty vox populi, czyli to, jak głosowali użytkownicy AI na LM Arena.

LM Arena to dość szczególny benchmark, który jest budowany w oparciu o opinie użytkowników – każdy może tam wejść i poprosić o zaserwowanie sobie odpowiedzi dwóch, nieznanych mu modeli. Następnie ocenia, która z tych odpowiedzi jest w jego ocenie lepsza. Po odpowiednich przekształceniach matematycznych z wyników takich pojedynków powstaje ranking – im częściej model wygrywał w pojedynkach, tym wyżej jest w rankingu.

W tym rankingu, w kategorii odpowiedzi tekstowych, obecnie prowadzi Gemini-3-Pro z 1495 pkt, wyraźnie wyprzedzając Groka 4.1, zarówno w wersji rozumującej (thinking), jak i zwykłej.

Ta dobra pozycja modelu Google nie jest specjalnym zaskoczeniem – świetnie przez ostatnie miesiące radziło sobie Gemini-2.5-Pro, czyli poprzedni model firmy. I mimo iż jest to model jak na świat AI dość leciwy – zadebiutował w marcu – to wciąż jest na piątym miejscu LM Areny, nieznacznie wyprzedzony przez GPT-5.1, za to sam nieznacznie wyprzedza Claude Sonnet 4.5.

Claude Opus 4.5 – prawdopodobnie dlatego, iż zadebiutował dopiero w tym tygodniu – wciąż nie jest obecny w tabeli wyników LM Areny.

W benchmarkach – zależy gdzie spojrzymy. I jak głęboko

Jeszcze w dniu debiutu Gemini 3 sytuacja wydawała się dość jasna: nowy model Google bił, często na głowę, modele innych labów AI, z wyjątkiem jednego obszaru – programowania, w którym przewagę utrzymał Claude Sonnet. Teraz, po premierze Claude Opus 4.5, obraz jest nieco bardziej zniuansowany.

Spójrzmy, co zaserwował nam Anthropic:

Po pierwsze widzimy zdecydowaną przewagę nowego modelu Opus nad konkurencją w programowaniu i systemach agentowych. SWE-bench Verified jest zdecydowanie lepszy niż dla innych modeli (ale nie jest to przepaść), także w przypadku agentowego programowania w terminalu Opus wysunął się na przód, a w przypadku agentowego wykorzystania narzędzi utrzymały się na prowadzeniu.

Dalej już nie jest tak dobrze – w benchmarku z nauk ścisłych, czyli czyli GPQA Diamond i w wielojęzycznym MMMLU dał się wyprzedzić Gemini 3 i, w mniejszym stopniu, GPT-5.1. Z kolei w mierzącym zrozumienie wizualne MMMU lepszy był GPT-5.1. Tu jednak wybór benchmarku budzi wątpliwości – ma on swoją bardziej wymagającą wersję MMMU-Pro, w której ze sporym zapasem wygrywa Gemini 3. Wygląda na to, iż Anthropic wybrał benchmark, w którym aż tak nie odstaje od lidera, bo w MMMU Gemini 3 po prostu nie występuje…

No i wreszcie mamy ARC-AGI-2, czyli benchmark mierzący umiejętność rozwiązywania zagadek graficznych, dość trywialnych dla ludzi, ale bardzo trudnych dla modeli językowych. Jak widać w tabelce, tutaj prowadzi Opus 4.5 wyraźnie przed Gemini 3. Ale tu pojawiają się niuanse.

Jak spojrzymy na stronę projektu ARC-AGI, to okazuje się, iż Opus 4.5 ma tam aż… sześć wyników, w zależności od budżetu obliczeniowego, od 7,8% do 37,6%. Podany przez Anthropic wynik jest dla wyniku z największym budżetem obliczeniowym. Jak się okazuje, koszt obliczenia jednego rozwiązania jest trzykrotnie większy niż dla Gemini 3. Przy podobnym koszcie rozwiązywania zadań, Opus 4.5 uzyskuje już wynik 22,8%, a więc sporo niższy niż Gemini 3.

To oczywiście rodzi pytanie o pozostałe benchmarki – czy przypadkiem nie jest tak, iż te bardzo dobre wyniki w testach są osiągane dzięki temu, iż Opusowi pozwolono bardzo długo myśleć. jeżeli tak, to należy postawić pytanie, jaka jest cena tak dobrych wyników. Opus to jeden z najdroższych modeli na rynku o ile chodzi o koszt na milion tokenów i jeżeli dodatkowo tych tokenów w „budżecie” na myślenie jest dużo, to koszt używania modelu może się okazać dramatycznie wysoki.

Najmniej wiemy o Groku – jego modele są dość systematycznie ignorowane przez konkurencje w tabelach porównawczych a i sam xAI nie jest specjalnie wylewny jeżeli chodzi o niezależne miary inteligencji modelu. Najwyraźniej optymistyczne przewidywania Elona Muska powinny nam wystarczyć.

Nowe modele – gdzie są dostępne za darmo?

Z nowych modeli w większości możemy korzystać za darmo w chatbotach firm tworzących te modele – choć z tak zwanymi limitami, po których przekroczeniu jesteśmy degradowani do starszych lub słabszych modeli.

Sytuacja jest prosta w przypadku Gemini i Groka – tutaj po prostu wybieramy odpowiedni model z listy rozwijanej w chatbocie (w przypadku Groka 4.1, jest on oznaczony jako model testowy – tak zwana beta). Sytuacja nieco się komplikuje w przypadku darmowego planu ChatGPT – tutaj nie mamy kontroli nad tym jaki model odpowie na nasze zapytanie, wszystko zależy od tak zwanego rutera ChatGPT.

Jedynym modelem z ostatnio ogłoszonych, którego nie wypróbujemy za darmo jest Opus 4.5 od Anthropica – darmowa wersja chatbota Claude nie oferuje choćby ograniczonego dostępu do modelu.

Nowa fala modeli AI. I tańszych subskrypcji

Oprócz nowych modeli, miłośnicy AI dostali również inną nowość – budżetowe subskrypcje płatne. Zarówno OpenAI, jak i Google oferują je teraz w Polsce i wielu innych krajach świata – choć nie wszędzie – za trochę ponad 1/3 ceny dotychczasowych najtańszych planów. W Polsce jest to niespełna 35 zł miesięcznie.

Co nam oferują nowe plany? Przede wszystkim więcej tego samego, co plan darmowy. Google AI Plus daje nam choćby pięciokrotnie wyższe limity na dostęp do Gemini 3 Pro, większe okno kontekstowe (więc są większe szanse, iż nie zgubi wątku w dłuższym czacie), Deep Research oparty o lepszy, rozumujący model. Mamy jednak również dostęp do opcji niedostępnych w planie darmowym – w szczególności do generowania filmów.

Dodatkowym bonusem jest większy limit na Dysku Google na maile czy zdjęcia – 200 GB zamiast zaledwie 15 GB w planie darmowym. Plus inteligencja Google działa również w aplikacjach Google, co jest być może najbardziej przydatne w Arkuszach Google, gdzie możemy używać AI w formułach – podobnie jak w przypadku Copilota w Microsoft Excel.

W odróżnieniu od konkurencji, najtańsza subskrypcja Google nie daje nam dostępu do żadnego narzędzia do kodowania, ale być może nie jest to wielki problem, biorąc pod uwagę fakt, iż firma dopiero co udostępniła Google Antigravity, darmowe narzędzie do agentowego kodowania z, jak to określiła, „hojnymi” limitami darmowego korzystania z modeli AI.

Z kolei ChatGPT Go, oprócz rozszerzonego dostępu do modeli GPT-5.1 daje nam możliwość skorzystania z niektórych starszych modeli firmy – taki ukłon dla miłośników GPT4o. Dostajemy też wreszcie kontrolę nad tym, z jakiego modelu korzystamy.

Co ponadto? Dostajemy dostęp do zaawansowanego trybu głosowego, w tym z wideo, dostęp do Agenta Codex (programowanie), plus rozszerzony dostęp do takich funkcji jak analiza danych, wizja, czy przesyłanie plików. Plus w Deep Research możemy podać linki do źródeł, które chcielibyśmy by były uwzględnione w analizie. Tego w wersji darmowej brakowało.

A Anthropic? Firma rodzeństwa Amodei została w tyle, z najtańszym planem kosztującym przeszło 80 zł i to tylko w przypadku zapłaty za cały rok. Dla firmy może to nie mieć aż tak dużego znaczenia – chatbot Claude nie należy dla najpopularniejszych a wśród klientów dominują przedsiębiorstwa zainteresowane przede wszystkim umiejętnościami modeli Claude w programowaniu. A tu, jak już pisaliśmy, wciąż jest dobrze.

Co wybrać?

Co z tego jest najbardziej opłacalne? To zależy, czego potrzebujemy. Na pewno najtańsze plany Google i OpenAI są dużo atrakcyjniejsze cenowo od Claude Pro i chyba jedynym dobrym powodem, by skorzystać z tego planu jest chęć skorzystania z Claude Code.

W przypadku tanich planów Google i OpenAI sytuacja jest bardziej skomplikowana. Każdy z nich daje nam korzyści, jakich nie ma ten drugi – w przypadku Google AI Pro to integracja z aplikacjami Google, większy limit Dysku Google czy generowanie wideo z w miarę świeżym modelu Voe 3.1 (w przypadku planu OpenAI jest to dostęp do leciwej Sory 1).

ChatGPT Go oferuje nam przede wszystkim dostęp do Agenta Codex oraz znacznie rozszerzony dostęp do innych funkcji. Plus możliwość tworzenia własnych spersonalizowanych modeli GPT.

Pytanie oczywiście, czy w ogóle potrzebujemy tych wszystkich udogodnień. Może nie korzystamy z AI aż tak często, by limity użycia lepszych modeli miały dla nas znaczenie? A choćby jeżeli się na nie natkniemy, to możemy je sobie ominąć, zmieniając chatbota? Może wszystkie Veo i Sory tego świata nie budzą w nas dreszczu emocji? W takim wypadku poprzestanie na planach darmowych jest prawdopodobnie atrakcyjną opcją. No i po roku będziemy mieli gotowe 420 zł do wydania na to, co faktycznie rozpali nasz entuzjazm.

Idź do oryginalnego materiału