Najnowszy model AI Claude 3.5 Sonnet AI firmy Anthropic ma nową funkcję w publicznej wersji beta, która to umożliwia sterować komputerem, patrząc na ekranprzesuwanie kursora, klikanie przycisków i wpisywanie tekstu. Nowa funkcja o nazwie „Korzystanie z komputera” jest już dostępna w interfejsie API, umożliwiając programistom kierowanie Claude’a tak, aby pracował na komputerze tak, jak robi to człowiek, jak pokazano na komputerze Mac w poniższym filmie.
Microsoftu Wizja drugiego pilota funkcja i OpenAI aplikacja komputerowa dla ChatGPT pokazali, co potrafią ich narzędzia AI na podstawie widoku ekranu komputera, a Google ma podobne możliwości w aplikacji Gemini na telefonach z Androidem. Ale nie przeszli jeszcze do następnego kroku, jakim jest szerokie udostępnienie narzędzi gotowych do klikania i wykonywania takich zadań za Ciebie. Rabbit obiecał podobne możliwości swojemu R1, który to jeszcze nie dostarczył.
Anthropic ostrzega, iż korzystanie z komputera ma przez cały czas charakter eksperymentalny i może być „uciążliwe i podatne na błędy”. Firma twierdzi: „Wcześnie udostępniamy możliwości korzystania z komputerów, aby uzyskać opinie od programistów i oczekujemy, iż z biegiem czasu możliwości te będą gwałtownie się poprawiać”.
Jest wiele czynności, które ludzie rutynowo wykonują na komputerach (przeciąganie, powiększanie itd.), a których Claude nie może jeszcze podjąć. „Flipbookowy” charakter widoku ekranu Claude’a – robienie zrzutów ekranu i składanie ich w całość zamiast obserwowania bardziej szczegółowego strumienia wideo – oznacza, iż może on przegapić krótkotrwałe działania lub powiadomienia.
Ponadto tej wersji Claude najwyraźniej powiedziano, aby trzymała się z daleka od mediów społecznościowych, wprowadzając „środki monitorowania, kiedy Claude jest proszony o zaangażowanie się w działalność związaną z wyborami, a także systemy mające na celu odciągnięcie Claude’a od działań takich jak generowanie i publikowanie treści na mediów społecznościowych, rejestrowania domen internetowych lub interakcji z witrynami rządowymi”.
Tymczasem Anthropic twierdzi, iż nowy model Claude 3.5 Sonnet ma ulepszenia w wielu testach porównawczych i jest oferowany klientom w tej samej cenie i szybkości, co jego poprzednik:
Zaktualizowany Klaudiusz 3.5 Sonet wykazuje daleko idącą poprawę w porównaniu z wzorcami branżowymi, ze szczególnie dużym wzrostem w zakresie kodowania agentowego i zadań związanych z wykorzystaniem narzędzi. Podczas kodowania poprawia wydajność Zweryfikowano na ławce SWE z 33,4% do 49,0%, uzyskując wynik wyższy niż wszystkie publicznie dostępne modele – w tym modele wnioskowania, takie jak OpenAI o1-preview i wyspecjalizowane systemy przeznaczone do kodowania agentycznego. Poprawia także wydajność Ławka TAUzadanie polegające na użyciu narzędzia agentowego, z 62,6% do 69,2% w domenie handlu detalicznego i od 36,0% do 46,0% w trudniejszej domenie linii lotniczych.