Anthropic kontratakuje. Claude 4 świetnie koduje i pamięta

homodigital.pl 5 miesięcy temu

Anthropic kontratakuje. Według twierdzeń firmy, nowy model Claude 4 świetnie koduje, tak świetnie, iż jest pod tym względem najlepszy na świecie. Ponadto nowe modele mogą zachowywać informacje, co przynajmniej częściowo rozwiązuje jeden z problemów obecnych systemów AI – brak pamięci.

W ciągu ostatnich miesięcy wydawało się, iż Anthropic stracił inicjatywę. Claude 3.7 Sonnet, pomimo swojej nowatorskiej hybrydowej architektury łączącej szybkość tradycyjnych LLM-ów z „głębią” modeli rozumujących, przeszedł bez większego echa. W tym czasie konkurenci opublikowali kilka modeli, w tym GPT-4.1 od OpenAI i Gemini 2.5 Pro od Google, które świetnie spisywały się w zadaniach związanych z programowaniem. A to obszar, w którym modele Claude były dotychczas wyjątkowo mocne.

Jak się okazuje, Anthropic nie próżnował. Jego najnowsze modele Claude 4, mniejszy Sonnet i większy Opus, mają pozwolić firmie odzyskać czołową pozycję, zwłaszcza na rynku modeli używanych przez programistów. Rynku, na którym w ostatnich dniach zrobiło się bardzo tłoczno – przypomnijmy, iż swoje systemy agentowe dla programistów dopiero co ogłosiły OpenAI i Google.

Claude 4 świetnie koduje – wyprzedza Codex

Co więc dostajemy wraz z nowymi modelami od Anthropica? Przede wszystkim świetne umiejętności związane z inżynierią oprogramowania. Co pokazują wyniki mającego niezłą reputację benchmarku SWE-bench? Oba modele firmy wyprzedzają nie tylko – skierowanego głównie do programistów – GPT-4.1, ale i najnowsze modele „rozumujące” o3 i Gemini 2.5 Pro. Są choćby lepsze – choć o włos – od dopiero co ogłoszonego Codeksa, programującego modelu od OpenAI.

Jest jeszcze lepiej, jeżeli modele wykorzystują tak zwane równoległe rozumowanie, czyli tryb podobny do dopiero co ogłoszonego przez Google trybu Deep Think. Przy jego zastosowaniu modele Anthropica zupełnie „odjeżdżają” konkurencji.

Nowe modele nie są wyłączne „pomocnikami” programisty, jakimi przede wszystkim było wiele poprzednich modeli. Claude 4 Opus został użyty do złożonego, trwającego aż siedem godzin projektu refaktoryzacji kodu dla firmy Rakuten. To pokazuje jego możliwości w utrzymywaniu uwagi przez długie okresy czasu.

W tym utrzymywaniu uwagi prawdopodobnie pomaga modelom Anthropica nowa funkcjonalność – pamięć. jeżeli modelom umożliwi się zapisywanie i odczytywanie plików na lokalnym dysku, to tworzą one sobie podsumowania analizowanych wcześniej treści. Zapisują też je lokalnie, by następnie je odczytać, kiedy taki kontekst jest im potrzebny. To jest o tyle istotne, iż okno kontekstowe obu modeli to 200 tysięcy tokenów, czyli 5 razy mniej niż dla Gemini 2.5 Pro.

Uzupełnieniem dla nowych modeli jest Claude Code, agentowe narzędzie wiersza poleceń. Pozwala ono programistom delegować zadania kodowania bezpośrednio do modeli Claude z ich terminala. System ten, dotąd dostępny tylko w programie testowym, jest teraz dostępny dla wszystkich.

Gdzie i za ile?

Oba modele są już dostępne. Claude 4 Sonnet jest standardowym modelem chatbota Claude.ai i jest dostępny również dla użytkowników kont darmowych. Użycie modelu Opus wymaga subskrypcji Pro kosztującej nieco ponad 22 euro miesięcznie.

Oba te modele są również dostępne przez API. Tutaj za dostęp do Sonneta zapłacimy 3 dolary za milion tokenów wejściowych i 15 dolarów za milion wyjściowy. Opus jest o wiele droższy – kosztuje 15 dolarów za milion tokenów wejściowych i 75 dolarów za milion wyjściowych, co czyni go jednym z najdroższych modeli na rynku. Różnica jest o tyle zastanawiająca, o ile Sonnet w większości benchmarków nie ustępuje wyraźnie swojemu większemu koledze.

Zapraszamy do komentowania naszych artykułów pod tekstem!

Źródło zdjęcia: Solen Feyissa/Unsplash

Idź do oryginalnego materiału