Gemini przestaje „rzucać okiem”. Nowy tryb Agentic Vision sprawia, iż AI aktywnie bada zdjęcia, używając do tego… Pythona

imagazine.pl 1 miesiąc temu

Większość modeli AI przetwarza obrazy w jeden sposób: robi „statyczny rzut oka” na całość i próbuje wygenerować opis. To mało precyzyjne, ale jest duża zmiana.

Dotychczas (przynajmniej w Gemini) było tak, iż jeżeli detal jest mały lub niewyraźny – model zgaduje (i często się myli). Google właśnie zmienia zasady gry. Gemini 3 Flash zyskał funkcję „Agentic Vision”, która pozwala mu traktować analizę zdjęcia jak śledztwo.

Aktywne patrzenie zamiast zgadywania

Google oficjalnie zaprezentowało nową mechanikę dla modelu Gemini 3 Flash. Nazywa się ona „Agentic Vision”.

Kluczowa różnica polega na tym, iż AI nie jest już pasywnym obserwatorem. Gdy model dostanie zdjęcie, zamiast od razu wypluwać odpowiedź, wchodzi w pętlę decyzyjną: Myśl -> Działaj -> Obserwuj.

Python jako cyfrowa lupa

Najciekawszy jest element „Działaj”. Gemini 3 Flash otrzymał dostęp do środowiska uruchomieniowego Pythona, którego używa do… manipulacji obrazem w czasie rzeczywistym. jeżeli zapytasz o numer seryjny na małym chipie albo znak drogowy w tle:

  • Model „zauważy”, iż detal jest niewyraźny.
  • Samodzielnie napisze i wykona kod w Pythonie, by przyciąć zdjęcie (crop), obrócić je lub cyfrowo przybliżyć (zoom).
  • Dopiero ten „przetworzony” fragment podda ponownej analizie.

Koniec z liczeniem palców „na oko”

Świetnym przykładem podanym przez Google jest liczenie obiektów (np. palców dłoni czy elementów na stole). Tradycyjne LLM-y mają tendencję do halucynowania liczb (tzw. probabilistyczne zgadywanie).

Gemini z „Agentic Vision” robi to inaczej: używa Pythona, by narysować wirtualne ramki (bounding boxes) na każdym wykrytym obiekcie i fizycznie je zliczyć. Dzięki temu odpowiedź jest wynikiem deterministycznego obliczenia, a nie statystycznym strzałem. Wynik? Wzrost skuteczności w benchmarkach o 5-10%, co w tej branży jest skokiem generacyjnym.

Kiedy to dostaniemy?

Google wdraża tę funkcję dwutorowo:

  • Dla deweloperów: zmiana jest już dostępna w Google AI Studio i Vertex AI (przez API).
  • Dla użytkowników: funkcja zaczyna trafiać do aplikacji Gemini (jako część modeli „Thinking”).

To kolejny dowód na to, iż przyszłość AI nie leży tylko w coraz większych modelach, ale w dawaniu im narzędzi, by mogły weryfikować swoje „halucynacje”.

Google AI Plus wchodzi do Polski. Gemini 3 Pro i 200 GB chmury za połowę dotychczasowej ceny

Jeśli artykuł Gemini przestaje „rzucać okiem”. Nowy tryb Agentic Vision sprawia, iż AI aktywnie bada zdjęcia, używając do tego… Pythona nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.

Idź do oryginalnego materiału