Najnowszy model AI Google’a ma przed sobą mnóstwo pracy. Tak jak każda inna firma w wyścigu o sztuczną inteligencję Google gorączkowo wbudowuje sztuczną inteligencję w praktycznie każdy swój produkt, próbując tworzyć produkty, z których chcą korzystać inni programiści, i ściga się, aby stworzyć całą infrastrukturę, która umożliwi to osiągnięcie tych rzeczy, nie będąc tak kosztownym, iż wykończy firmę biznes. Tymczasem Amazon, Microsoft, Anthropic i OpenAI są wylewając własne miliardy w prawie dokładnie ten sam zestaw problemów.
To może wyjaśniać, dlaczego Demis Hassabis, dyrektor generalny Google DeepMind i szef wszystkich działań firmy w zakresie sztucznej inteligencji, jest tak podekscytowany wszechstronnością nowego modelu Gemini 2.0. Google wypuszcza Gemini 2.0 w środę, około 10 miesięcy po spółce po raz pierwszy uruchomiono wersję 1.5. przez cały czas znajduje się w fazie, którą Google nazywa „eksperymentalną zapowiedzią” i wypuszczana jest tylko jedna wersja modelu — mniejsza, tańsza wersja Flash 2.0. Ale Hassabis twierdzi, iż to wciąż istotny dzień.
„W praktyce” – mówi Hassabis – „jest tak samo dobry, jak obecny model Pro. Można więc o nim myśleć jak o cały poziom lepszy, przy tej samej efektywności kosztowej, wydajności i szybkości. Jesteśmy z tego naprawdę zadowoleni.” I nie tylko jest lepszy w robieniu starych rzeczy, które potrafiły zrobić Gemini, ale może także robić nowe rzeczy. Gemini 2.0 może teraz natywnie generować dźwięk i obrazy oraz zapewnia nowe możliwości multimodalne, które według Hassabisa stanowią podstawę dla kolejnej wielkiej rzeczy w sztucznej inteligencji: agentów.
Agentyczna sztuczna inteligencja, jak wszyscy ją nazywają, odnosi się do botów AI, które mogą faktycznie działać i wykonywać zadania w Twoim imieniu. Google demonstruje jeden, Project Astra, od tej wiosny — to system wizualny, który potrafi identyfikować obiekty, ułatwia poruszanie się po świecie i informuje, gdzie zostawiłeś okulary. Hassabis twierdzi, iż Gemini 2.0 stanowi dla Astry ogromne ulepszenie.
Google jest uruchamia także Project Marinernowe, eksperymentalne rozszerzenie do przeglądarki Chrome, które dosłownie może używać Twojej przeglądarki internetowej za Ciebie. Jest też Julesagent pomagający programistom w znajdowaniu i naprawianiu błędnego kodu oraz nowy agent oparty na Gemini 2.0, który może spojrzeć na Twój ekran i pomóc lepiej graj w gry wideo. Hassabis nazywa agenta gry „jajkiem wielkanocnym”, ale wskazuje też na to, co naprawdę multimodalny, wbudowany model może dla Ciebie zrobić.
„Naprawdę postrzegamy rok 2025 jako prawdziwy początek ery agentów” – mówi Hassabis, „a podstawą tego jest Gemini 2.0”. Uważnie zauważa, iż wydajność nie jest tutaj jedyną poprawą; Ponieważ w dalszym ciągu mówi się o spowolnieniu w całej branży udoskonalania modeli, twierdzi, iż Google w dalszym ciągu widzi zyski w miarę opracowywania nowych modeli, ale jest równie podekscytowany poprawą wydajności i szybkości.
Plan Google dotyczący Gemini 2.0 zakłada używanie go absolutnie wszędzie
To Cię nie zdziwi, ale plan Google dotyczący Gemini 2.0 zakłada używanie go absolutnie wszędzie. Będzie zasilać przeglądy sztucznej inteligencji w wyszukiwarce Google, które według Google docierają w tej chwili do 1 miliarda ludzi i które według firmy będą teraz bardziej dopracowane i złożone dzięki Gemini 2.0. Będzie oczywiście dostępna w bocie i aplikacji Gemini, a ostatecznie będzie obsługiwać funkcje sztucznej inteligencji w Workspace i innych miejscach w Google. Google pracowało nad wprowadzeniem jak największej liczby funkcji do samego modelu, zamiast uruchamiać kilka pojedynczych i odizolowanych produktów, aby móc zrobić więcej dzięki Gemini w większej liczbie miejsc. Multimodalność, różne rodzaje wyników, funkcje — celem jest umieszczenie tego wszystkiego w podstawowym modelu Gemini. „Próbujemy zbudować możliwie najbardziej ogólny model” – mówi Hassabis.
Hassabis twierdzi, iż wraz z rozpoczęciem ery agentycznej sztucznej inteligencji pojawiają się zarówno nowe, jak i stare problemy do rozwiązania. Stare są wieczne i dotyczą wydajności, wydajności i kosztów wnioskowania. Nowe są pod wieloma względami nieznane. Wymienię tylko jedno: jakie ryzyko dla bezpieczeństwa będą stwarzać ci agenci w świecie, działając z własnej woli? Google podejmuje pewne środki ostrożności w przypadku Marinera i Astry, ale Hassabis twierdzi, iż należy przeprowadzić dalsze badania. „Będziemy potrzebować nowych rozwiązań w zakresie bezpieczeństwa” – mówi – „takich jak testowanie w utwardzonych piaskownicach. Myślę, iż będzie to dość ważne w przypadku testowania agentów, a nie w środowisku naturalnym… będą bardziej przydatne, ale będzie też większe ryzyko”.
Gemini 2.0 może na razie jest w fazie eksperymentalnej, ale już można z niego korzystać, wybierając nowy model w aplikacji internetowej Gemini. (Nie wiadomo jeszcze, kiedy będzie można wypróbować modele inne niż Flash). Hassabis twierdzi, iż na początku przyszłego roku będzie ona dostępna na innych platformach Gemini, wszystkim innym, co produkuje Google, i całym Internecie.