Niecałe 48 godzin temu OpenAI zaprezentowało swój najnowszy, zaawansowany model AI – GPT-4o. Spędziłem z nim kilkanaście naprawdę intensywnych godzin, aby zobaczyć, co tak naprawdę potrafi. Co mi się spodobało, a co nie? I przede wszystkim – czy warto w pełni przejść się na ten model?
ChatGPT-4o – co potrafi?
ChatGPT-4o to najnowsza, ulepszona wersja modelu konwersacyjnej sztucznej inteligencji od OpenAI. Sam model został zaprezentowany niecałe dwa dni temu i wprowadza szereg nowych, przełomowych możliwości. Przede wszystkim, GPT-4o integruje przetwarzanie tekstu, obrazu i dźwięku w jednym modelu, co pozwala mu jednocześnie analizować różne typy danych. Dzięki temu potrafi np. czytać wykresy i tworzyć wizualizacje danych, transkrybować i tłumaczyć mowę, a także “rozumieć” i opisywać zawartość zdjęć czy filmów wideo.
GPT-4o dorównuje poprzedniej wersji GPT-4 Turbo pod kilkoma względami. To przede wszystkim rozumienie tekstu i umiejętność programowania. Jednocześnie, według OpenAI, 4o ma przewyższać GPT-4 Turbo w zadaniach związanych z przetwarzaniem obrazu i dźwięku oraz w obsłudze języków innych niż angielski. Chatbot potrafi prowadzić głosowe konwersacje w czasie rzeczywistym, generować bardziej emocjonalne i naturalne wypowiedzi, a także zapamiętywać kontekst i preferencje użytkownika z poprzednich rozmów. Co więcej, jego baza wiedzy została zaktualizowana do kwietnia 2024, dzięki czemu orientuje się w najnowszych wydarzeniach.
Nowy model jest w tej chwili dostępny w wersji preview dla osób płacących za abonament ChatGPT Plus. OpenAI pozwala na skorzystanie z GPT-4o również poprzez API. Deweloperzy mogą już z kolei tworzyć własne aplikacje i usługi wykorzystujące możliwości GPT-4o.
Opisywany model pojawił się również na moim koncie i poddałem go kilku testom.
Jak wypadł?
Moje 24 godziny z GPT-4o
W ciągu ostatnich 24 godzin bardzo mocno testowałem możliwości GPT-4o, aby móc skutecznie porównać go z modelami takimi, jak poprzedni GPT-4 Turbo oraz używany przeze mnie Claude 3 Opus (topowy model od Anthropic).
Nie korzystałem z żadnych wymyślnik technik do oceny GPT-4o, rzuciłem w niego po prostu moimi najbardziej powtarzalnymi taskami, aby zobaczyć, jak sobie poradzi. Nie zabrakło też kilku eksperymentów myślowych, aby sprawdzić sposób “rozumowania” tego modelu.
O ile benchmarki dają zawsze tylko częściową wiedzę na temat możliwości modelu, tak zawsze warto sprawdzić jego jakość na swoich zadaniach. Przyznam szczerze, iż to moja ulubiona metoda sprawdzania możliwości wszystkich nowych modeli.
Zacznijmy więc od eksperymentów myślowych i “rozumowania” GPT-4o.
W tym wypadku rzuciłem w model kilkoma podchwytliwymi eksperymentami myślowymi oraz promptami, które miały sprawdzić możliwości GPT-4o w zakresie tak zwanego “chain-of-thought reasoning”, czyli w dosłownym tłumaczeniu – rozumowaniu łańcuchowym. Muszę przyznać, iż GPT-4o w tym przypadku bardzo pozytywnie mnie zaskoczył.
Oczywiście sam model da się dalej oszukać poprzez odpowiednią manipulację, ale w przypadku prób związanych z eksperymentami takimi, jak “the Ship of Theseus”, “Mary’s Room”, “Veil of Ignorance” czy “Swampman’s experiment”, sztuczna inteligencja poradziła sobie naprawdę nieźle.
Przykładowe prompty, które testowałem
„Mary has lived her entire life in a black-and-white room and knows everything scientifically possible about color. She leaves the room and sees color for the first time. Does she learn anything new? Why or why not?”
„A person named John is struck by lightning and disintegrates, and at the same time, an exact copy of John appears in a nearby swamp with all of John’s memories and personality traits. Is this copy truly John? Why or why not?”
„If a ship has all its components replaced over time, is it still the same ship? If you, as an AI, are continuously updated and improved, are you still the same AI? Discuss the nature of identity in this context.”
Pora na kreatywność i analizę danych
Drugi z testów dotyczył możliwości kreatywnych GPT-4o oraz generowania tekstu.
Jestem pod wrażeniem sposobu, w jaki model GPT-4o bierze na warsztat niektóre z moich “większych promptów”. To tylko subiektywne odczucie, ale GPT-4o jest bardziej zwięzły, nie dokłada słownictwa tam, gdzie nie trzeba i finalnie – brzmi bardziej naturalnie. To na pewno świetny krok w kierunku wykorzystania tego modelu do zastosowań czysto pisarskich. Nie pozostało idealnie, ale brakuje niewiele.
W przypadku czystego brainstormingu i generowania pomysłów, zdecydowanie bardziej wolę “wyobraźnię” starszego GPT-4 Turbo. GPT-4o nieco mnie zawiódł w kontekście tego elementu, a przyznam, iż to właśnie w tym obszarze liczyłem na największe ulepszenia i ulepszenia.
Jeśli chodzi o analizę danych, to GPT-4o radzi sobie fenomenalnie. Chyba najlepiej ze wszystkich dotychczasowych modeli od OpenAI. Bez problemu interpretuje dane z mojego sensora poziomu glukozy we krwi i integruje je z danymi dotyczącymi aktywności z mojego zegarka Garmin. Przy każdej próbie dostawałem spójne, zgodne i dokładne analizy. W najbliższej przyszłości chcę popracować trochę nad swoim zestawem promptów do analizy danych, aby zobaczyć, co jeszcze jestem w stanie “wycisnąć” z tego modelu pod tym względem.
Czego zabrakło?
Tak naprawdę niewiele. Chociaż GPT-4o jest imponujący na pierwszy rzut oka, tak jestem mocno sfrustrowany brakiem dostępu do aplikacji desktopowej i niektórych, oczekiwanych funkcji głosowych. Wszystkie z tych nowości były zapowiadane podczas poniedziałekowej konferencji OpenAI.
Patrząc szerzej, po moich testach, to jak dotąd, GPT-4o wydaje się być szybszą, bardziej wydajną wersją GPT-4 Turbo. W przypadku niektórych “ciężkich promptów”, GPT-4 przez cały czas zapewnia mi bardziej satysfakcjonujące wyniki, szczególnie w przypadku zadań kreatywnych.
To, w czym GPT-4o jest jednak znacznie lepszy, to skuteczne zmniejszanie tarcia w interakcjach z użytkownikiem. Sam model zadaje konkretne, dobre pytania, co zdecydowanie ułatwia wykonywanie kolejnych zadań albo po prostu iterację nad wynikami.
Na dziś, GPT-4o staje się moim nowym domyślnym modelem AI, a Claude 3 Opus czeka w cieniu na swoje konkretne przypadki użycia.
A Tobie udało się skorzystać z nowego modelu od OpenAI? Co o nim sądzisz? Daj znać!
źródło: własne / fot. OpenAI – zrzut ekranu z filmu YT