OpenAI wciąż walczy o programistów. Nowy Codex umie więcej

homodigital.pl 3 godzin temu

OpenAI wciąż walczy o programistów, czyli o jedną z największych grup użytkowników AI. Startup właśnie udostępnił nowy model GPT-5-Codex, który stał się modelem podstawowym dla wszystkich narzędzi Codex – czy to w terminalu, IDE, GitHubie, czy w chmurze. jeżeli wierzyć pierwszym reakcjom, nowy Codex umie więcej niż poprzednik. Czy będzie godnym konkurentem Claude Code?

O ile ChatGPT jest niewątpliwym królem chatbotów, zwłaszcza w przestrzeni konsumenckiej, to produkty OpenAI od wielu już miesięcy nie są w stanie nawiązać równej walki z konkurentami od Anthropica. Modele Claude uważane są za najlepsze modele do programowania. I choć firma Sama Altmana chwaliła się osiągnięciami w dziedzinie programowania jej niedawno wydanego modelu (czy też rodziny modeli) GPT-5, to wielu programistów pozostało nieprzekonanych.

Teraz OpenAI podbija stawkę z GPT-5 Codex, wersją najnowszego modelu, który został dotrenowany specjalnie do wykonywania zadań z zakresu programowania.

Nowy Codex umie więcej

Jak nietrudno się domyślić, nowy model wyprzedza w benchmarkach „zwykłego” GPT-5. I tak w SWE-bench Verified, jednym z najpopularniejszych benchmarków z inżynierii programowania, Codex uzyskuje 74,5%. Dla zwykłego GPT-5 jest to 72,6% (pamiętacie wyższą liczbę z dnia debiutu GPT-5? Słusznie, OpenAI uzupełnił wyniki o niedostępne wcześniej testy i wskaźnik wyszedł nieco niższy). A więc podobnie jak Claude Opus 4.1.

Są jednak obszary, w których postęp w stosunku do 'zwykłego’ GPT-5 jest istotny. W benchmarku badającym umiejętności refaktoryzacji kodu, a więc takiej optymalizacji programu, która przyspiesza jego działanie, ale nie zmienia funkcji, nowy model uzyskał 51,3%, podczas gdy model bazowy zaledwie 33,9%.

Jedną z podstawowych zalet nowego modelu jest to, iż potrafi dostosowywać ilość „myślenia” do złożoności zadania. Jest więc trochę tak, jak w ChatGPT, w którym mamy specjalny router, który deleguje zapytania do mniej lub bardziej złożonych modeli w zależności od trudności zadania. Różnica polega na tym, iż o tym, ile czasu poświęcić na myślenie, decyduje sam model, a nie zewnętrzny router.

Pomyśleć więcej, by rozwiązać trudne zadanie

Skutek? Dla zadań trywialnych GPT-5 Codex używa o 93,7% mniej (jakieś 16x mniej) tokenów niż porównywalny model GPT-5. Z kolei dla szczególnie trudnych zadań Codex używa przeszło 2x więcej tokenów – bo wie, iż powinien pomyśleć więcej, by rozwiązać trudne zadanie.

Liczba tokenów w zależności od stopnia skomplikowania zadania. Źródło: OpenAI

A ten czas poświęcany na najbardziej skomplikowane zadania może być bardzo długi – choćby ponad 7 godzin. Przypomnijmy, iż podobnej długości zadania były już wykonywane przez Claude 4.0.

Jakie są pierwsze reakcje? Model dopiero co się ukazał, więc komentarzy nie ma wielu, ale kilku programistów, którzy zaprzęgli nowy model do działania, dawało pozytywne recenzje – jak na przykład w komentarzach do tego wideo. Na to nakładały się narzekania na spadającą jakość działania Claude, sugerujące, iż Codex być może wchodzi na rynek we adekwatnym momencie i ma szansę podgryźć model Anthropica. No ale to oczywiście tylko pojedyncze komentarze.

Nowy model jest dostępny przez Codex CLI, IDE, chmurę i na GitHubie. Dostęp przez API dla klientów Codex CLI powinien być uruchomiony wkrótce.

W programowaniu OpenAI goni, w tekście daje się przeganiać…

O ile w programowaniu nowy Codex może być krokiem w kierunku dogonienia Anthropica, o tyle w innych dziedzinach sytuacja już nie wygląda tak dobrze. jeżeli wierzyć wynikom LM Areny – tworzonym w końcu przez użytkowników wybierających między anonimowymi modelami – w zastosowaniach graficznych modele graficzne Google – a konkretnie nano banana – radzą sobie sporo lepiej niż produkty firmy Sama Altmana.

Nawet w generowaniu tekstu, gdzie w momencie swojego debiutu GPT-5 wyprzedzało wyraźnie Gemini-2.5-Pro, to teraz… spadło na trzecie miejsce, wyprzedzone jeszcze przez… GPT-4o. Trudno mi wyjaśnić ten fenomen, być może jest to wynik zmiany działania wspomnianego routera, ale fakt jest faktem, iż jak na „przełomowy” model, to GPT-5 nie radzi sobie najlepiej.

Źródło zdjęcia: Fotis Fotopoulos/Unsplash

Idź do oryginalnego materiału