Gigant z Mountain View znów poszerza możliwości swojej sztucznej inteligencji, tym razem w obszarze, który do tej pory pozostawał poza jej zasięgiem. Nowa funkcja analizy obrazów w Dysku Google budzi zarówno ciekawość, jak i pewne obawy dotyczące praktycznego wykorzystania. Dla wielu użytkowników praca z dokumentami wizualnymi to codzienność pełna manualnych, czasochłonnych zadań. Wyobraźmy sobie, iż ten proces mógłby wyglądać zupełnie inaczej – wystarczy kilka kliknięć, by wydobyć najważniejsze informacje ze skanów czy zdjęć. Czy nowa funkcja Gemini spełni te oczekiwania?
Praktyczne zastosowania nowej funkcji Gemini w Dysku Google
Sztuczna inteligencja giganta zyskała teraz możliwość odpowiadania na pytania dotyczące obrazów przechowywanych w chmurze. Najciekawiej zapowiadają się zastosowania biznesowe – automatyczne wyodrębnianie tekstu z faktur i paragonów bezpośrednio do arkuszy kalkulacyjnych może rzeczywiście oszczędzić godziny monotonnej pracy. Funkcja radzi sobie też z tworzeniem alternatywnych opisów czy choćby generowaniem treści na podstawie analizy wizualnej.
Oczywiście brzmi to wszystko pięknie, ale jak zwykle rozwiązanie najlepiej sprawdza się ze skanowanymi dokumentami w języku angielskim, co dla polskich użytkowników stanowi poważne ograniczenie. Google wyraźnie skupiło się na korporacyjnych zastosowaniach, pomijając na razie potrzeby mniejszych firm i użytkowników indywidualnych. Jest to jednak dopiero początek i można się spodziewać, iż z czasem funkcjonalność zostanie rozbudowana i wszelkie braki zostaną wyeliminowane lub przynajmniej złagodzone.
Czytaj też: Huawei znów przyćmi konkurencję. Nadchodzi kolejny podwójnie składany telefon
Jeśli chodzi o aktywację, tu wszystko przebiega bardzo prosto – po dwukrotnym kliknięciu na plik graficzny w Dysku pojawia się przycisk „Zapytaj Gemini” w prawym górnym rogu. Można też użyć prawego przycisku myszy i wybrać opcję Summarize this file. Warunkiem koniecznym jest wcześniejsze włączenie inteligentnych funkcji i personalizacji w ustawieniach Workspace.
Nowa funkcja trafiła do użytkowników 25 sierpnia 2025 roku, ale nie dla wszystkich jednocześnie. Użytkownicy domen Rapid Release otrzymają ją w ciągu 15 dni, podczas gdy ci z Scheduled Release muszą poczekać do 9 września. Dostęp ograniczony jest do płatnych planów Google Workspace (Business Standard/Plus, Enterprise Standard/Plus) oraz subskrybentów Google One AI Premium. To dość typowe dla Google – najpierw testują nowości na płacących klientach, zanim udostępnią je szerszemu gronu.
Czytaj też: Gmail z nowymi funkcjami. Czy niedługo zastąpi tradycyjne komunikatory?
Przy okazji warto jeszcze wspomnieć o bardzo istotnej rzeczy, a mianowicie bezpieczeństwie. Badacze odkryli już metody wykorzystania ukrytego tekstu w obrazach do ataków na Kalendarz Google, co powinno skłonić do ostrożności. Nieznane pliki graficzne mogą zawierać złośliwe instrukcje w metadanych lub samej treści wizualnej. Google zaleca rozwagę w dodawaniu obcych obrazów do analizy, co brzmi rozsądnie, ale też trochę jak przerzucanie odpowiedzialności na użytkownika. W końcu to platforma powinna zapewniać ochronę, a nie tylko ostrzegać przed zagrożeniami.
Czytaj też: Google Quick Share na iPhone’ach? To może być rewolucja w udostępnianiu plików między platformami
Mimo wyraźnych ograniczeń językowych i subskrypcyjnych, nowa funkcja Gemini może znacząco usprawnić pracę z dokumentami wizualnymi. Szczególnie w środowiskach biznesowych, gdzie przetwarzanie skanowanych umów i faktur stanowi codzienność, automatyzacja tych procesów przyniesie realne korzyści.