
Mamy GPT-5.2, czyli odpowiedź OpenAI na sukces modelu Gemini 3 Pro od Google. jeżeli ktoś spodziewał się nokautu, to chyba powinien być nieco zawiedziony. Choć nowy model spółki Sama Altmana gdzieniegdzie wyprzedza konkurencję, to w większości benchmarków daje się wyprzedzić – a to modelowi Google, a to Sonnet 4.5 Opus od Anthropica. Jednego jeszcze nie wiemy – jak zostanie przyjęty przez publikę.
W pewnym sensie można odczuwać déjà vu. Kiedy w sierpniu debiutował GPT-5, to obserwatorzy spodziewali się czegoś spektakularnego. Tymczasem dostaliśmy model, który tylko w niektórych obszarach nieco wyprzedzał konkurencję, a w pozostałych po prostu tę konkurencję doganiał. Dostaliśmy więc AI, która plasowała się wśród najlepszych na rynku, ale niczym specjalnie się od rywali nie wyróżniała.
Podobnie jest teraz. Dostajemy model, który w paru benchmarkach wyprzedza konkurencję, ale w wielu z nich tylko zmniejsza zapóźnienia wobec rywali. Bo GPT-5.2 i owszem jest istotnie mocniejszy – ale przede wszystkim od GPT-5 i GPT 5.1.
GPT-5.2 nadgania, ale Opus w kodowaniu wciąż (nieco) lepszy
Jednym z obszarów, w którym OpenAI miała nieco do nadgonienia, było kodowanie. Tutaj od wielu już miesięcy prowadził Anthropic ze swoimi modelami Claude.
W tym zakresie GPT-5 udało się w dużej mierze dogonić konkurencję – model od OpenAI był niemal równie dobry, jak najlepsze modele Anthropica.
I podobnie jest teraz – GPT-5.2 zbliża się do najlepszego modelu Anthropica, czyli Claude 4.5 Opus, ale go nie wyprzedza w większości benchmarków. W przypadku bodaj najpopularniejszego testu, czyli SWE-bench Verified, nowy model OpenAI dostaje 80,0%. Opus ma 80,6%.
W przypadku zastosowań programistycznych istotne są również umiejętności wykorzystywania narzędzi. Tutaj mamy dwa popularne benchmarki – Tau-2-bench Telecom i Tau-2-bech Retail. W przypadku pierwszego GPT-5.2 dogonił Opusa, ale jeżeli chodzi o ten drugi, to tylko częściowo zmniejszył zaległości.
Czy to wystarczy, by przyciągnąć firmy szukające rozwiązań wspomagających ich programistów? Jak już kiedyś pisałem, w tym obszarze dominuje Anthropic, który ma większą liczbę klientów wśród dużych korporacji niż OpenAI. Programiści pewnie nie porzucą Anthropica tylko dlatego, iż OpenAI odrobił sporą część zaległości. Ale ich księgowi mogą ich do tego skłonić – pomimo ze GPT-5.2 jest 40% droższy od poprzednika, to jest istotnie tańszy od czołowych modeli Anthropica. Jak ujął to prezes Windsurfa Jeff Wang, GPT-5.2 jest „najlepszym w klasie modelem kodującym w tym zakresie cenowym.”
W nauce remis z Gemini
Tylko trochę lepiej jest w zastosowaniach akademickich. Tutaj w mierzącym umiejętności z nauk ścisłych benchmarku GPQA modelowi OpenAI udało się nieznacznie wyprzedzić przodujące dotąd Gemini 3 a GPT-5.2 stał się bodaj pierwszym modelem, który bez użycia narzędzi (w szczególności Pythona) uzyskał 100% w matematycznym AIME 2025.
Gdzie indziej już tak dobrze nie jest. Gemini wciąż wyprzedza model spółki Altmana w wymagającym Humanity’s Last Exam i wielojęzykowym MMMLU. Możemy więc uznać, iż w tej dziedzinie mamy remis.
W rozpoznawaniu obrazu Gemini wciąż z przodu
Kolejnym obszarem, w którym OpenAI poczyniło spore postępy jest rozpoznawanie obrazu i wnioskowanie na jego podstawie. Postępy w takich benchmarkach jak CharXiv (wnioskowanie ze skomplikowanych diagramów) czy ScreenSpot Pro są imponujące.
Jednak jeżeli chodzi o dogonienie Gemini już tak dobrze nie jest. Co prawda na pierwszy rzut oka GPT-5.2 wyprzedza konkurenta, ale po dokładniejszym przyjrzeniu się wychodzi, iż model OpenAI radzi sobie lepiej tylko wtedy, jeżeli jest wspomagany przez Pythona. Bez tej pomocy nie dogania Gemini.
Oznacza to, iż w tym obszarze, szczególnie ważnym na przykład w przypadku umiejętności NotebookLM, Google wciąż jest przed konkurencją.
Fakty, ach te fakty
Jednym z powodów, dla których adopcja AI w firmach nie idzie zbyt gwałtownie jest to, iż modelom zdarza się popełniać błędy. I tutaj postęp – przynajmniej w stosunku do poprzedniego modelu GPT-5.1 – nie jest olbrzymi.
Według danych OpenAI, 88% odpowiedzi udzielanych przez najnowszy model nie zawiera błędów faktycznych. A to oznacza, iż mniej więcej co ósma odpowiedź taki błąd zawiera. Trochę za dużo na pozostawienie losów przedsiębiorstwa w rękach AI. I na dodatek kilka lepiej niż w przypadku GPT-5.1 – on popełniał błędy w przypadku niecałych 13% odpowiedzi.
Nieco lepiej, ale wciąż nieidealnie jest jeżeli model może skorzystać z wyszukiwania internetowego. Wtedy liczba odpowiedzi z błędami spada o połowę – do 6.1%.
Co ludzie powiedzą…
Benchmarki mają oczywiście swoją wagę, ale jeżeli chodzi o przeciętnego użytkownika chatbota, to najbardziej chodzi o to, by chatbot był miły, pomocny i pożyteczny.
GPT-5 miał zwłaszcza z tą pierwszą cechą istotne problemy – użytkownicy narzekali na jego oschłość. Nic więc dziwnego, iż ChatGPT, dotąd rosnący bardzo dynamicznie pod względem liczby użytkowników istotnie spowolnił. Według danych SensorTower wizyty na stronie chatbota wzrosły między sierpniem (debiut GPT-5) a listopadem raptem o 1%. W tym samym czasie wizyty na stronie Gemini się podwoiły… To skłoniło Sama Altmana do ogłoszenia „czerwonego alertu” dla ChatGPT.
Jakąś miarą popularności modelu wśród szerszej publiki jest LM Arena – dość szczególny ranking, nie koncentrujący się na obiektywnych miarach umiejętności modelu, tak jak większość benchmarków używanych przez laby AI, a na wyborach użytkowników. Po prostu użytkownikom prezentowane są odpowiedzi dwóch modeli (bez podawania ich nazwy), a oni wybierają, która bardziej im się podoba. Więc dość dobrze wskazuje nam jakie są preferencje użytkowników.
Na razie wyniki dla GPT-5.2 poznaliśmy tylko w jednej kategorii LM Areny – programowaniu aplikacji webowych. Tutaj nieodmiennie io z wyraźną przewagą przoduje Claude 4.5 Opus, a najnowszy model OpenAI jest drugi – ale tylko minimalnie lepszy niż Gemini 3 Pro.
W obszarach takich jak generowanie tekstu czy rozpoznawanie obrazu wyników dla najnowszego modelu jeszcze nie mamy. W obu kategoriach lideruje Gemini 3 Pro i GPT-5.2 musiałby być znacząco lepszy od swoich poprzedników by dogonić (a tym bardziej przegonić) konkurenta od Google.
My sami będziemy się mogli przekonać o tym, czy nowy GPT nam się podoba prawdopodobnie dopiero za jakiś czas. Model jest w pełni dostępny jedynie przez API, a do ChatGPT będzie wprowadzany stopniowo, z pierwszeństwem dla płacących użytkowników.
Co po GPT-5.2? OpenAI wciąż ma asy w rękawie?
O ile wyniki GPT-5.2 trudno uznać za szczególnie imponujące – w dużej mierze jest to nadrabianie dystansu do konkurencji – to podobno firma Altmana ma asa w rękawie.
OpenAI w końcu udało się to, czego ta firma nie była w stanie osiągnąć około rok temu, gdy pracowała nad projektem Orion, uzyskać znaczącej poprawy umiejętności modelu na etapie wstępnego treningu (pretraining). Praktycznie wszystkie postępy, jakich dokonywały modele przez tych ostatnich kilkanaście miesięcy dokonywały się w późniejszych fazach trenowania modelu, zwłaszcza z użyciem uczenia ze wzmacnianiem.
Pierwsza jaskółka, iż coś się tutaj zmienia przyszła od Google – przedstawiciele firmy zasygnalizowali, iż ogromne postępy Gemini 3 Pro wynikają między innymi z ulepszenia etapu wstępnego treningu.
Teraz podobne sygnały dochodzą z OpenAI. Firmie udało się osiągnąć postępy w tej dziedzinie, które umożliwią zbudowanie mniejszych modeli o możliwościach porównywalnych z tymi w tej chwili najlepszymi. Taki właśnie model, o nazwie kodowej Garlic, został już podobno wstępnie wytrenowany. Jest jednak jeszcze przed kolejnymi etapami treningu, więc prawdopodobnie ujrzymy go w 2026 roku. Ale podobno raczej bliżej początku roku.
Dalsze plany OpenAI obejmują zastosowanie tej nowej techniki wstępnego treningu do większego modelu, w nadziei na to, iż będzie on zdecydowanie inteligentniejszy niż dotychczasowe. Czy to wystarczy, by odeprzeć natarcie Google i wrócić na pozycję niekwestionowanego lidera AI? Zobaczymy. Bo Demis Hassabis też na pewno nie próżnuje.
Źródło grafiki: Sztuczna inteligencja, model Nano Banana Pro







