GPT-5 w końcu jest – dla wszystkich. Zmiażdży konkurencję?

homodigital.pl 1 dzień temu

GPT-5 w końcu jest – model, który okazał się godnym następcą mającego już ponad dwa lata GPT-4, jest dostępny dla wszystkich, zarówno poprzez ChatGPT jak i dostęp przez API. I jak się wydaje, w końcu dostajemy od OpenAI model, który wyprzedza konkurencję, choć tylko nieznacznie. I pytanie – na jak długo.

To było długie oczekiwanie. W czasie, gdy konkurencja zalewała nas nowymi, coraz lepszymi modelami, postępy w OpenAI były o wiele wolniejsze. W rok od wydania GPT-4 dostaliśmy GPT-4o, wydajniejszą i nieco poprawioną wersję flagowego modelu. Potem miał być wielki przełom Oriona, który przełomem się nie okazał i z numerkiem 4.5 gwałtownie popadł w zapomnienie. A jeszcze później, dla zwiększenia konfuzji w nazewnictwie, OpenAI wydał GPT-4.1, skierowany głównie do programistów.

W międzyczasie ukazały się „rozumujące” modele z serii o, czyli o1, o3 i o4. Teraz, niemal 2,5 roku od wydania GPT-4, w końcu dostajemy GPT-5. Nie jeden model, ale całą serię modeli.

GPT-5 w końcu jest. I jest ich sześć

Tak naprawdę GPT to cała rodzina modeli. Mamy dwa tradycyjne modele GPT-5main i GPT-5-mini oraz cztery modele rozumujące, od najmniejszego gpt-5-thinking-nano, przez gpt-5-thinking-mini, po główny gpt-5-thinking i wreszcie po dostępny tylko dla użytkowników 200-dolarówej subskrypcji Pro najmocniejszy model gpt-5-thinking-pro.

System sam będzie wybierał model, który będzie generował odpowiedź, w zależności od złożoności zapytania. Użytkownicy planów płatnych będą mogli wymusić użycie modelu rozumującego, czy to zaznaczając odpowiednią opcję w ChatGPT, czy to wpisując w prompcie prośbę, by chatbot dobrze przemyślał swoją odpowiedź.

Takiego wyboru nie będą mieli użytkownicy subskrypcji darmowej. Na razie mogą w ogóle nie dostać dostępu do modelu rozumującego, bo jak zaznacza OpenAI, w ich przypadku umiejętność rozumowania będzie wprowadzana dopiero w najbliższych dniach. Dodatkowo, mają oni narzucone limity użycia GPT-5, po których zostaną zdegradowani do GPT-5-mini. Limity, choć znacznie wyższe i umożliwiające „komfortowe” korzystanie z pełnej wersji modelu w życiu codziennym, dotyczą również użytkowników płatnego planu Plus.

Głównym założeniem rodziny GPT-5 jest to, by użytkownik w ogóle nie musiał myśleć o tym, z jakiego modelu tak naprawdę korzysta. W pewnym sensie jest to przeniesienie zasady w tej chwili dotyczącej niepłacących użytkowników ChatGPT na tych, którzy płacą, a którzy dotąd sami wybierali, z którego modelu chcą korzystać. Teraz wyboru będzie dokonywać za nich specjalny system przekierowujący pytania do odpowiedniego modelu AI.

Miażdży konkurencję? Niekoniecznie

Czy nowe modele miażdżą konkurencję? jeżeli spojrzymy na wyniki testów benchmarkowych, to raczej nie można dojść do takiego wniosku. Modele OpenAI od pewnego już czasu pod niektórymi względami odbiegały in minus od konkurencji w rodzaju Gemini czy Claude i teraz ten dystans nadgoniły, czasem uzyskując lekką przewagę.

Jedyną dziedziną, w której udało się zdecydowanie pobić konkurencję jest matematyka. W mierzącym umiejętności w tej dziedzinie teście AIME 2025 GPT-5 uzyskał imponujące 94,6%, istotnie lepiej niż o3 (86,4%) czy Gemini 2.5 Pro (88%). Jest to jednak wynik tylko nieznacznie lepszy, niż ten, który uzyskał… niedawno wydany otwarty model OpenAI, czyli gpt-oss (92.5%).

Gdzie indziej takiej przewagi nad konkurencją już nie ma. W GPQA-Diamond, teście z dziedziny nauk ścisłych, wynik dla GPT-5 (85,7%) jest nieco gorszy niż ten dla Gemini 2.5 Pro (86,4%), a w obsłudze multimodalności tylko nieznacznie wyprzedza model od Google.

Podobnie jest w programowaniu, choć tu z kolei głównym konkurentem OpenAI jest Anthropic. W kluczowym w tej dziedzinie benchmarku SWE-bench Verified, GPT-5 uzyskał 74,9%, tylko nieznacznie lepiej od dopiero co udostępnionego Claude Opus 4.1 (74,5%). Tak jak zgadywałem, Anthropic nową wersją modelu postanowił nieco podbić swoje benchmarki, by wyglądały korzystniej w momencie debiutu flagowca konkurencji.

W innym jeszcze benchmarku, istotnym w budowie systemów agentowych, czyli Tau-bench, nowy flagowiec od OpenAI wypada porównywalnie z modelami Anthropica.

Mamy więc sytuację, w której nowe modele firmy Sama Altmana są co najwyżej porównywalne z produktami konkurencji – w programowaniu z modelami Anthropica, w innych dziedzinach z flagowcem Google. Postęp OpenAI jest na tyle duży, iż prawdopodobnie zastopuje odpływ klientów do konkurencji, ale należy wątpić, by na przykład programiści, dziś masowo korzystający z modeli Anthropica chcieli się przesiąść na GPT-5.

OpenAI ma więc prawdopodobnie nadzieję, iż uda mu się przekonać do siebie zwłaszcza dużych klientów kompletną ofertą. Przy pewnej słabości Claude’a w naukach ścisłych i nieco gorszych na tle konkurencji benchmarkach Gemini w kodowaniu, firmy decydujące się na jeden system AI do pełnej gamy zadań mogą wybrać GPT-5 po prostu dlatego, iż jest to w tej chwili system bez większych słabości.

To ważne dla OpenAI – jak pisałem niedawno, w przypadku klientów korporacyjnych wykorzystujących modele AI przez tzw. API, Anthropic ostatnio wyprzedził OpenAI a i Gemini od Google poczyniło znaczne postępy. O ile ChatGPT pozostaje niekwestionowanym królem chatbotów, to firma Sama Altmana do niedawna przegrywała walkę o deweloperów produktów AI. Zobaczymy, czy GPT-5 odwróci te niekorzystne trendy.

Bez przełomu, czyli co dalej z AI?

Jeśli ktoś spodziewał się przełomu w rozwoju AI, to debiut GPT-5 mógł go rozczarować. Mamy postępy, ale raczej nie za duże, w niektórych dziedzinach, w innych zaś OpenAI po prostu dogonił konkurencję. O ile GPT-4 był przełomem, to jego wyższy o numerek sukcesor już nim nie jest. Czy to oznacza, iż rozwój AI spowolnił?

Na pewno doszliśmy do kresu tego, co efektywnie mogły uzyskać tradycyjne LLM-y. Porażka Oriona, czyli GPT-4.5 w zrobieniu jakiegokolwiek większego wrażenia na świecie pokazała, iż budowanie jeszcze większych modeli po prostu nie ma sensu.

Na szczęście w międzyczasie pojawił się pomysł stworzenia modeli „rozumujących”, wykorzystujących przy wnioskowaniu znaną z inżynierii promptów technikę łańcucha myśli (chain-of-thoght). W dotychczasowych modelach rozumujących do dostrojenia modelu stosowano technikę RLVR – uczenia ze wzmocnieniem na weryfikowalnych rezultatach. W tej technice modelowi daje się do rozwiązania zadanie z matematyki, programowania czy nauk ścisłych i sprawdza się, czy model podał prawidłową odpowiedź. jeżeli tak, to model dostaje nagrodę, a jeżeli nie, to albo nie dostaje nagrody, albo wręcz dostaje karę.

Przy prostszych zadaniach to się sprawdza, bo komputer łatwo może sprawdzić prawidłowość odpowiedzi, więc proces trenowania można łatwo zautomatyzować. Jednak w przypadku bardzo złożonych zaawansowanych zadań ten system nie działa już tak dobrze – tutaj wymagane jest nowe podejście.

I, jak pisze The Information, OpenAI udało się stworzyć takie nowe podejście w postaci „uniwersalnego weryfikatora”. System ten polega na tym, iż odpowiedzi modelu są sprawdzane i oceniane przez inny model AI, który w tym celu przeprowadza własną analizę z użyciem takich narzędzi, jak wyszukiwanie internetowe.

Pierwsze rezultaty nowego podejścia widzieliśmy niedawno w postaci osiągnięcia przez jeden ze specjalizowanych modeli OpenAI poziomu złotych medalistów w olimpiadzie matematycznej. Podobno zastosowano je już w przypadku GPT-5. Można mieć nadzieję, iż to nowe podejście trochę przyspieszy rozwój AI, który ostatnio jakby trochę zwolnił.

Źródło grafiki: Zrzut ekranu ze strony chatgpt.com

Idź do oryginalnego materiału