Istnieje punkt odniesienia, który ocenia zdolność modelu sztucznej inteligencji do korzystania z komputerów w taki sam sposób, w jaki robi to człowiek, w systemie operacyjnym skupionym na człowieku. Model Claude 3.5 Sonnet, nazwany OSWorld, uzyskał 14,9% w kategorii „tylko zrzuty ekranu” i 22,0% w niektórych innych zadaniach wymagających większej liczby kroków. Typowy człowiek osiąga w tym teście około 72,36%, co okazuje się trudne choćby dla naturalnej inteligencji. Jednak to dopiero początek, ponieważ modele te gwałtownie się rozwijają. Zwykle modele te współpracują z innymi typami danych, takimi jak tekst i obrazy statyczne, gdzie je przetwarzają i na ich podstawie wykonują obliczenia. Praca na komputerach zaprojektowanych przede wszystkim z myślą o interakcji międzyludzkiej to ogromny skok w możliwościach modeli AI.
Wreszcie firma Anthropic wprowadziła aktualizację swoich modeli Claude 3.5 Sonnet i Hauiku, które są teraz bardziej niż kiedykolwiek zdolne do wykonywania różnych zadań. Poniżej znajdują się oceny firmy porównujące ją do starszych modeli, a także do najnowocześniejszych projektów AI OpenAI i Google.
W porównaniu brakuje modeli OpenAI o1, ponieważ opierają się one na innych technikach w porównaniu z LLM.