Claude Sonnet 4.5 – model AI, który ma zrewolucjonizować kodowanie

instalki.pl 1 tydzień temu

Anthropic właśnie zaprezentował Claude Sonnet 4.5, model AI, który ma zrewolucjonizować kodowanie i autonomiczne zadania. Ten „hybrydowy” system bije rekordy w benchmarkach jak SWE-bench, gdzie osiąga 77,2% skuteczności, przewyższając rywali w realnych zadaniach programistycznych. Firma chwali się, iż stworzyła najlepszy na świecie model do programowania.

Jednak nie wszystko lśni – Sonnet 4.5 wypada słabo w wizualnym rozumowaniu (MMMU) i angażujących rozmowach, gdzie unika kontrowersyjnych tematów jak duchowość. Mimo to, przy cenie 3$ za milion tokenów wejściowych i 15$ za milion tokenów wyjściowych, Claude Sonnet 4.5 to atrakcyjny wybór dla developerów.

Przełom w kodowaniu i automatyzacji

Claude Sonnet 4.5 wyróżnia się w zadaniach programistycznych, osiągając 77,2% skuteczności w benchmarku SWE-bench, który testuje realne umiejętności kodowania. Przy większej mocy obliczeniowej wynik rośnie do 82%. W benchmarku OSWorld, Sonnet 4.5 osiągnął 61,4% skuteczności, znacząco poprawiając wynik poprzednika (42,2%). Anthropic wprowadziło wsparcie dla edytora VS Code oraz funkcję checkpointów w Claude Code, umożliwiającą zapisywanie postępów i cofanie zmian.

Dzięki integracji z przeglądarką Chrome model nawiguje po stronach internetowych, wypełnia tabele i wykonuje zadania, co z pewnością przyda się deweloperom i testerom webówek. Anthropic, wspierane inwestycjami od Amazon i Google, umacnia pozycję na rynku AI, konkurując z OpenAI.

Firma chwali się, iż stworzyła najlepszy model do programowania. Źródło: Anthropic.
Porównania wyników benchmarków w różnych kategoriach, udostępnione przez Anthropic.

Ograniczenia w rozmowach i analizie wizualnej

Choć Sonnet 4.5 błyszczy w kodowaniu, w innych obszarach ma braki. W dziedzinach takich jak finanse, prawo czy medycyna model uzyskuje oceny na poziomie C-D, co oznacza poprawę względem poprzedników, ale wciąż pozostawia wiele do życzenia. W teście MMMU, sprawdzającym rozumowanie wizualne, wypada słabiej od konkurentów, co ogranicza jego skuteczność w analizie wykresów czy schematów.

W rozmowach model jest według testów „mniej angażujący” – rzadziej porusza tematy jak duchowość i unika nadmiernego entuzjazmu. To ostatnie, mi osobiście, odpowiada – największy przytakiwacz, GPT-4o, bywał w tej kwestii denerwujący.

Anthropic poprawiło bezpieczeństwo, minimalizując ryzyko ataków typu prompt injection, a filtry ASL-3 chronią przed treściami związanymi z bronią chemiczną czy biologiczną. Jednak filtry te czasem błędnie blokują neutralne treści, choć liczba takich przypadków podobno zmalała dziesięciokrotnie od pierwszych wersji.

Nowe narzędzia i dostępność

Sonnet 4.5 jest dostępny w API Anthropic (oznaczenie: claude-sonnet-4-5), aplikacjach mobilnych oraz w narzędziu Claude Code, z nowymi funkcjami jak edycja kontekstu i pamięć dla długich sesji. Cena wynosi 3 USD za milion tokenów wejściowych i 15 USD za milion tokenów wyjściowych. Anthropic udostępnia Claude Agent SDK, zestaw narzędzi do tworzenia własnych agentów AI, oparty na tej samej infrastrukturze co Claude Code.

Dodatkowo, przez pięć dni dla subskrybentów Max dostępny jest tryb „Imagine with Claude”, w którym model generuje oprogramowanie w czasie rzeczywistym, bez wcześniej przygotowanego kodu.

Co dalej?

Sonnet 4.5 to krok w stronę bardziej autonomicznych i efektywnych narzędzi AI, szczególnie dla programistów. Opinia, iż Anthropic musi popracować nad wszechstronnością (w związku z ograniczeniami w rozmowach i analizie wizualnej) do mnie nie trafia. Nie miałbym nic przeciwko, gdyby Claude specjalizował się w zagadnieniach programistycznych – szukając angażującego chatbota do pogawędki, mogę wybrać inne rozwiązania. Chyba, iż ulepszenia szłyby w parze z zachowaniem takich samych osiągów w programowaniu.

Czekamy na kolejne kroki Anthropic w walce o rynek AI.

AIClaudeprogramowanie
Idź do oryginalnego materiału