
Wszyscy czekaliśmy na GPT-5, kolejny z flagowych modeli GPT, tymczasem OpenAI udostępnił otwarte modele gpt-oss, pierwsze modele o otwartych wagach od czasu wydania GPT-2. Z kolei Anthropic zaprezentował nową wersję swojego największego modelu – Claude Opus 4.1. A tydzień się jeszcze nie skończył.
OpenAI udostępnił otwarte modele gpt-oss
Po miesiącach czekania w końcu dostaliśmy zapowiadane przez OpenAI otwarte modele językowe. Większy ma 120 mld a mniejszy 20 mld parametrów, oba mają architekturę mixture-of-experts i oba są natywnie skawantyzowane (czyli wagi modelu mają niższą precyzję) do zaledwie czterech bitów. To pozwala uruchomienie większego z modeli na pojedynczej karcie H100, a więc raczej wymaga korporacyjnej infrastruktury obliczeniowej, za to mniejszy można wydajnie uruchomić na konsumenckiej karcie graficznej z pamięcią co najmniej 16 GB.
Nowe modele OpenAI należą do modeli rozumujących, takich jak o3 czy o4-mini. Mają również możliwość używania narzędzi i są przystosowane do wykorzystywania w systemach agentowych.
„Zostały zaprojektowane do stosowania w agentowych przepływach pracy i cechują się wyjątkową zdolnością do wykonywania instrukcji, używania narzędzi, na przykład wyszukiwania w sieci i wykonywania kodu w języku Python, oraz zdolnościami rozumowania — w tym zdolnością dostosowywania wysiłku związanego z rozumowaniem do zadań, które nie wymagają złożonego rozumowania i/lub wymagają końcowych danych wyjściowych o bardzo niskim opóźnieniu” – napisało OpenAI w opisie modeli.
Jak radzą sobie modele w testach?
Jak radzą sobie modele w testach? Większy z nich świetnie sobie radzi w testach matematycznych (AIME 2024 i AIME 2025) i bardzo dobrze w matematyczno-przyrodniczym GPQA Diamond, w przypadku tych testów dorównując zamkniętym modelom o3 i o4-mini. Nieco gorzej jest w przypadku benchmarków z inżynierii oprogramowania, takich jak SWE-bench, gdzie wypada słabiej od tych dwóch modeli zamkniętych. Nieco lepiej jest w zastosowaniach agentowych – wyniki testu Tau-Bench Retail są pomiędzy o3 i o4-mini. Mniejszy z otwartych modeli jest porównywalny z o3-mini.
A jak sobie radzą nowe modele z językiem polskim? Testowałem tylko ten większy i muszę powiedzieć, iż jest dość słabo. O ile na pytanie techniczne dostajemy prawidłową odpowiedź, choćby jeżeli polskie słownictwo jest nieco kulawe, o tyle już na pytanie z dziedzin humanistycznych dostajemy bełkot z licznymi błędami gramatycznymi i bogatym słowotwórstwem. Oto fragment odpowiedzi gpt-oss na prośbę o charakterystykę postaci Kmicica:

Cóż, samo OpenAI przyznaje, iż modele wytrenowano na tekście „głównie w języku angielskim, który przede wszystkim dotyczył nauk ścisłych, technologii, inżynierii i matematyki (STEM)”. To widać.
Jeśli chcecie wypróbować nowe modele, to są dostępne w testowym chatbocie. Chętni mogą je sobie pobrać na własny sprzęt ze strony na Hugging Face.
Anthropic udostępnia nowy Opus
Nowy model dostaliśmy również od Anthropica. Startup opublikował nową wersję swojego największego modelu Claude Opus. Nowy model, Opus 4.1, oferuje jeszcze lepsze wyniki w benchmarkach, z postępami widocznymi zwłaszcza w programowaniu agentowym.
Nowy model jeszcze powiększa przewagę nad konkurencją w dziedzinie programowania, jednak w przypadku matematyki i nauk ścisłych pozostaje w tyle za konkurencją, czyli modelami o3 od OpenAI i Gemini 2.5 Pro od Google. choćby otwarty gpt-oss-120b jest sporo lepszy od nowego Opusa w matematyce (AIME 2025) i porównywalny w naukach ścisłych (GPQA Diamond). Widać, iż swoich przewag konkurencyjnych Anthropic szuka głównie w kodowaniu.
„Wrzutka” nowego modelu od Anthropica nie dziwi – prawdopodobnie w tym tygodniu zobaczymy GPT-5, który podobno też świetnie koduje. Najwyraźniej Anthropic postanowił nieco podbić swoje benchmarki, by wyglądały korzystniej w momencie debiutu flagowca konkurencji.
Źródło zdjęcia: Andrew Neel/Unsplash