Ostatniego dnia mas statków OpenAI zaprezentowało nowy zestaw granicznych modeli „rozumowania” nazwanych o3 i o3-mini. Krawędź pierwszy zgłoszony iż podczas tego wydarzenia pojawi się nowy model rozumowania.
Firma nie wypuszcza w tej chwili tych modeli (i przyznaje, iż ostateczne wyniki mogą ewoluować po dłuższym szkoleniu). Jednakże OpenAI przyjmuje wnioski od społeczności badawczej w celu przetestowania tych systemów przed publikacją (której daty nie ustalono jeszcze). OpenAI uruchomiło o1 (nazwa kodowa Strawberry) we wrześniu i przeskakuje bezpośrednio do o3, pomijając o2, aby uniknąć zamieszania (lub konflikty dotyczące znaków towarowych) z brytyjską firmą telekomunikacyjną O2.
Termin rozumowanie stało się ostatnio popularnym hasłem w branży sztucznej inteligencji, ale zasadniczo oznacza to, iż maszyna dzieli instrukcje na mniejsze zadania, które mogą dać lepsze wyniki. Modele te często pokazują, w jaki sposób uzyskano odpowiedź, zamiast po prostu podawać ostateczną odpowiedź bez wyjaśnienia.
Według firmy o3 przewyższa dotychczasowe rekordy wydajności we wszystkich obszarach. Pobija swojego poprzednika w testach kodowania (zwanych SWE-Bench Verified) o 22,8 procent i przewyższa głównego naukowca OpenAI w konkurencyjnym programowaniu. Model prawie zwyciężył w jednym z najtrudniejszych konkursów matematycznych (zwanym AIME 2024), pomijając jedno pytanie i osiągnął 87,7% w teście porównawczym dotyczącym problemów naukowych na poziomie eksperckim (zwanym Diamentem GPQA). W przypadku najtrudniejszych wyzwań matematycznych i rozumowania, które zwykle utrudniają sztuczną inteligencję, o3 rozwiązało 25,2 procent problemów (gdzie żaden inny model nie przekracza 2 procent).
OpenAI twierdzi, iż o3 radzi sobie lepiej niż inne modele rozumowania w testach porównawczych kodowania.OpenAI
Firma ogłosiła także nowe badania nad dostosowaniem deliberatywnym, które wymaga, aby model sztucznej inteligencji krok po kroku przetwarzał decyzje dotyczące bezpieczeństwa. Zatem zamiast po prostu dawać modelowi sztucznej inteligencji reguły „tak/nie”, ten paradygmat wymaga, aby aktywnie rozważał, czy żądanie użytkownika jest zgodne z polityką bezpieczeństwa OpenAI. Firma twierdzi, iż testując to na o1, znacznie lepiej przestrzegała wytycznych dotyczących bezpieczeństwa niż poprzednie modele, w tym GPT-4.