Jeśli chodzi o badania odniesienia, Openai wydał wiele interesujących porównań i ocen. W porównaniu ze wszystkimi poprzednimi modelami, głębokie badania nadają te modele dodatkowy kontekst, aby pomóc AI z dodatkowymi informacjami. Zatem w testach testowych, takich jak ostatni egzamin ludzkości, głębokie badania uzyskały 26,6%, podczas gdy O1 i O3-Mini uzyskały odpowiednio 9,1 i 13%. Inne oceny wykazały niewielką poprawę, podczas gdy w badaniach UX, biznesowych i medycznych dokonywano konkretnych porównań. Zakładając funkcję głębokich badań dotyczących dostarczania więcej informacji za każdym razem i możesz je zobaczyć tutaj.
Jednak, podobnie jak w przypadku każdego modelu AI opartego na transformatorze, jest on podatny na halucynacje. W szczególności może tworzyć fałszywe odniesienia, odbierać plotki i traktować je jako fakty, i nie odróżniać informacji na temat informacji. Jednak podobno jest to znacznie lepiej w porównaniu ze średnim modelem AI w Chatgpt. Co ciekawe, Openai spodziewa się, iż zostanie to unieważnione z większym wykorzystaniem, ponieważ głębokie badania badań i dowiaduje się więcej o przetwarzaniu informacji na temat monitów użytkowników. To oficjalnie oznacza trzeci poziom AGI na poziomie Openai. Poziom pierwszy to chatboty, które otrzymaliśmy z Chatgpt; Poziom drugi to modele rozumujące, czyli O1/O3; a na poziomie trzecim byli agenci, którzy mogą teraz wykonywać własne zadania. Kolejny poziom czwarty jest następny: model AI, który może pomóc w rozwoju człowieka i wynalazku.