Anthropic wprowadza Claude’a 4, a dokładniej modele Opus 4 i Sonnet 4, które wyznaczają nowe standardy w kodowaniu, rozumowaniu i pracy agentów AI. Te najnowsze osiągnięcia technologiczne mają potencjał, aby zmienić sposób, w jaki programiści i specjaliści biznesowi podchodzą do swoich codziennych zadań. Sprawdź, jak wypadają na tle konkurencji i jakie możliwości otwierają przed użytkownikami.
Anthropic ogłosił premierę modeli Claude Opus 4 i Claude Sonnet 4. Technologia została zaprojektowana z myślą o całkowitej transformacji sposobu pracy programistów i użytkowników biznesowych. Najważniejszą innowacją, która wyróżnia te modele spośród poprzedników, jest znacznie lepsza wydajność w zadaniach wymagających długotrwałego skupienia oraz zaawansowana obsługa rozbudowanego workflow agentów, które mogą pracować autonomicznie przez dłuższe okresy czasu.
Claude Opus 4 został oficjalnie określony przez Anthropic jako najlepszy model do kodowania dostępny w tej chwili na świecie. W rygorystycznych testach SWE-bench model osiąga imponujący wynik 72,5%, podczas gdy w Terminal-bench uzyskuje 43,2%. Szczególną cechą tego modelu jest jego zdolność do pracy nieprzerwanie przez wiele godzin bez spadku wydajności. W bezpośrednim porównaniu, Opus 4 przewyższa starsze modele Sonnet w każdym aspekcie funkcjonalności – od zaawansowanego rozumowania logicznego, przez ulepszoną pamięć roboczą, aż po znacznie lepszą umiejętność pracy z plikami przechowywanymi lokalnie.
Sonnet 4 wykazuje się również znacznie lepszymi umiejętnościami w radzeniu sobie z wieloetapowymi zadaniami oraz głębszym rozumieniem złożonych instrukcji, które wymagają analizy kontekstu i logicznego myślenia. Uznanie dla tych możliwości znalazło swoje odbicie w decyzji GitHuba, który zapowiedział już, iż Sonnet 4 będzie napędzał nowego agenta kodującego w platformie Copilot. Użytkownicy biznesowi, tacy jak przedstawiciele firm Manus czy iGent, podkreślają wyraźną i namacalną poprawę w nawigacji po skomplikowanych strukturach kodu oraz w rozwiązywaniu złożonych problemów programistycznych.
Przełomową nowością wprowadzoną w modelach Claude 4 jest rozszerzone „myślenie z użyciem narzędzi” – oba modele posiadają zdolność do inteligentnego korzystania z wyszukiwarki internetowej i innych zewnętrznych narzędzi podczas rozwiązywania zadań. Ta funkcjonalność pozwala im na dostęp do aktualnych informacji i zasobów, co znacznie rozszerza ich możliwości operacyjne. Dodatkowo, modele mogą działać w zaawansowanym trybie równoległym, który umożliwia jednoczesne wykonywanie wielu zadań, lepiej zapamiętują kontekst poprzednich interakcji i są aż 65% mniej podatne na stosowanie niebezpiecznych skrótów podczas realizacji złożonych poleceń.
Claude 4 jest dostępny dla użytkowników w różnych planach subskrypcyjnych: Pro, Max, Team i Enterprise, zapewniając elastyczność wyboru odpowiednią dla różnych potrzeb i budżetów. Sonnet 4 został udostępniony również dla użytkowników bezpłatnych. Modele można wykorzystywać poprzez API Anthropic, Amazon Bedrock oraz Google Cloud Vertex AI. Struktura cenowa pozostała stabilna względem poprzednich wersji: Opus 4 kosztuje 15 dolarów za milion tokenów wejściowych i 75 dolarów za milion tokenów wyjściowych, podczas gdy Sonnet 4 jest dostępny w cenie 3 dolarów za milion tokenów wejściowych i 15 dolarów za milion tokenów wyjściowych.
Na tle konkurencji, Claude Opus 4 i Sonnet 4 wypadają wyjątkowo mocno, ustanawiając nowe standardy w branży sztucznej inteligencji. W szczegółowych testach rozumowania i kodowania oba modele zdecydowanie przewyższają GPT-4.1 od OpenAI oraz Gemini 2.5 Pro od Google, szczególnie w zadaniach wymagających długotrwałego skupienia i efektywnej pracy z dużymi zbiorami danych. Przykładowo, model Opus 4 osiąga imponujący wynik 87,4% w testach MMMLU oraz 74,9% w wymagających testach GPQA Diamond, i to bez korzystania z rozszerzonego myślenia, co definitywnie plasuje go w ścisłej czołówce najlepszych systemów sztucznej inteligencji dostępnych w tej chwili na świecie.
