ChatGPT ma nową supermoc. Jedno hasło i zakupy zrobione

konto.spidersweb.pl 3 miesięcy temu

To nie jest już tylko gadatliwy bot – to cyfrowy asystent, który potrafi samodzielnie wykonywać skomplikowane zadania w Internecie, jakby miał własny komputer z zainstalowanymi aplikacjami.

ChatGPT Agent łączy w sobie możliwości dwóch wcześniejszych narzędzi OpenAI: Operatora oraz Deep Research. Ta fuzja technologii oznacza przejście od prostych odpowiedzi tekstowych do aktywnego wykonywania złożonych zadań online.

Nowa funkcja wykorzystuje własny wirtualny komputer z przeglądarką, dzięki czemu może nawigować po stronach internetowych, klikać, przewijać, wypełniać formularze i filtrować wyniki. W praktyce oznacza to, iż użytkownik może wydać polecenie typu sprawdź mój kalendarz i przygotuj briefing o nadchodzących spotkaniach klientów na podstawie najnowszych wiadomości albo zaprojektuj menu japońskiego śniadania dla czterech osób i choćby kup potrzebne produkty.

Technologiczne serce nowego agenta

Pod maską ChatGPT Agent pracuje model Computer-Using Agent (CUA), który łączy zdolności wizualne GPT-4o z zaawansowanym rozumowaniem opartym na uczeniu przez wzmocnienie. System został wytrenowany do interakcji z graficznymi interfejsami użytkownika – przyciskami, menu i polami tekstowymi widocznymi na ekranie.

Agent widzi ekran poprzez analizę zrzutów i wchodzi w interakcje, symulując używanie myszki i klawiatury. Gdy napotka trudności lub popełni błąd może wykorzystać zdolności rozumowania do zmiany zachowania, a jeżeli nie poradzi sobie samodzielnie po prostu oddaje kontrolę użytkownikowi.

Deep Research – gdy AI staje się analitykiem

Funkcja Deep Research stanowi drugi filar nowego agenta. To zaawansowane narzędzie pozwala ChatGPT na autonomiczne przeszukiwanie Internetu, analizowanie informacji z różnorodnych źródeł i syntezowanie kompleksowych raportów na złożone tematy. System wykorzystuje wyspecjalizowaną wersję modelu o3 zoptymalizowaną do przeglądania stron i analizy danych.

Deep Research może interpretować i analizować tekst, obrazy oraz pliki PDF, a zadania wykonuje w czasie od 5 do 30 minut, dokumentując postęp i cytowania w panelu bocznym. Według OpenAI agent wykonuje w dziesiątki minut to, co człowiekowi zajęłoby wiele godzin. W testach porównawczych Deep Research osiągnął wynik 26,6 proc. w benchmarku Humanity’s Last Exam, znacząco przewyższając wynik DeepSeeka (9,4 proc.).

Bezpieczeństwo na pierwszym miejscu

OpenAI nie zapomniało o kwestiach bezpieczeństwa nowego agenta. System został wyposażony w mechanizmy kontroli, które zabezpieczają przed niepożądanymi działaniami. Agent pauzuje przy wrażliwych zadaniach, prosi o zgodę użytkownika przed podjęciem nieodwracalnych działań i całkowicie unika zadań związanych z finansami.

Dodatkowo użytkownik zachowuje pełną kontrolę nad procesem – może przerwać zadanie w dowolnym momencie, przejąć kontrolę nad przeglądarką lub zatrzymać wykonywanie operacji. To szczególnie ważne w przypadku zadań wymagających wprowadzenia wrażliwych danych, gdzie system prosi użytkownika o zalogowanie się.

Dostępność i ograniczenia

ChatGPT Agent jest w tej chwili dostępny dla subskrybentów planów Pro, Plus i Team. Użytkownicy Pro mają dostęp do 400 wiadomości miesięcznie, podczas gdy użytkownicy Plus i Team otrzymują 40 wiadomości z możliwością dokupienia dodatkowych dzięki elastycznego systemu kredytowego.

Aby aktywować nową funkcję, wystarczy wybrać agent mode z menu narzędzi w interfejsie ChatGPT. OpenAI planuje rozszerzenie dostępu na użytkowników Enterprise i Education w nadchodzących tygodniach.

Praktyczne zastosowania w rzeczywistym świecie

ChatGPT Agent otwiera drzwi do automatyzacji zadań, które dotychczas wymagały żmudnej manualnej pracy. Agent może zarezerwować stolik w restauracji, zaplanować podróż, porównać oferty konkurencji i stworzyć prezentację, kupić składniki na określony posiłek czy choćby pomóc w przygotowaniach do ślubu.

W demonstracyjnym nagraniu OpenAI pokazało, jak ChatGPT pomaga użytkownikowi w organizacji wesela, wyszukując strój zgodny z dress codem i proponując pięć opcji hoteli umożliwiających przyjazd z kilkudniowym wyprzedzeniem. Firmy jak Instacart już współpracują z OpenAI, umożliwiając klientom składanie zamówień na zakupy spożywcze przez agenta.

Chief Product Officer OpenAI, Kevin Weil, określa bieżący rok jako przełomowy moment, w którym ChatGPT przechodzi od odpowiadania na pytania do wykonywania rzeczywistych zadań. To nie przypadek – branża technologiczna coraz śmielej stawia na agentów AI jako następny krok w ewolucji sztucznej inteligencji.

Sam Altman wielokrotnie podkreślał, iż rozwój agentów AI stanowi najważniejszy element strategii OpenAI. Firma już pracuje nad OpenAI Agents SDK – zestawem narzędzi programistycznych, który umożliwi deweloperom tworzenie własnych aplikacji agentowych.

Ograniczenia obecnej wersji

Mimo imponujących możliwości ChatGPT Agent wciąż ma swoje ograniczenia. OpenAI otwarcie przyznaje, iż system może czasami generować halucynacje faktów lub wyciągać niepoprawne wnioski podczas przeprowadzania Deep Research, choć w znacznie mniejszym stopniu niż inne modele. Agent może również mieć problemy z odróżnianiem autorytarnych informacji od plotek i może nie zawsze dokładnie przekazywać niepewność. Dodatkowo funkcja Tasks (zaplanowane zadania) pozwala w tej chwili na maksymalnie 10 aktywnych zadań jednocześnie i nie obsługuje plików i rozmów głosowych.

ChatGPT Agent to zdecydowanie krok w stronę przyszłości, w której AI przestaje być pasywnym narzędziem, a staje się aktywnym partnerem w codziennej pracy. Choć technologia ma jeszcze swoje ograniczenia, to potencjał jest ogromny. Pozostaje pytanie czy użytkownicy będą gotowi powierzyć tak daleko idącą kontrolę sztucznej inteligencji – ale pierwsze reakcje sugerują, iż przyszłość cyfrowych asystentów właśnie się rozpoczęła.

Idź do oryginalnego materiału