
Jeszcze rok temu wydawało się, iż Google nieco przespał rewolucję generatywnej AI, teraz jednak wygląda na to, iż kolos z Mountain View wyprzedził wszystkich. jego najnowsze modele przodują na LM Arenie, a firma już zapowiada kolejne nowości: ulepszone rozumowanie, nowy system wspomagający programistów, nowe modele multimedialne czy prace nad inteligentnymi okularami.
Konkurenci Google na polu AI wydają się dostawać lekkiej zadyszki. Anthropic nie pokazał żadnej większej nowości od lutego, gdy zadebiutował Claude 3.7 Sonnet a model ten nie okazał się wielkim sukcesem – choćby w trybie „rozumującym” okupuje miejsce w trzeciej dziesiątce LM Areny.
Jeśli chodzi o Metę, to ostatnio pojawiły się wieści, iż Behemoth, największy model z serii Llama 4 jest opóźniony i ukaże się nie wcześniej niż na jesieni, bo firma ma problemy z poprawieniem jego jakości. Przypomnijmy, iż na podobne problemy z największymi modelami natknęły się wcześniej Google, OpenAI czy Anthropic.
Nawet OpenAI, pionier generatywnej AI, nie wszędzie dotrzymuje kroku Google. Co prawda firmie Sama Altmana udało się ogłosić Codex, system wspomagający pracę programistów, dosłownie kilka dni przed tym, jak podobny system zaprezentował Google (o czym poniżej), ale na LM Arenie najlepszy w tej chwili model od OpenAI czyli o3 jest na niższym miejscu nie tylko od flagowego Gemini 2.5 Pro, ale również od mniejszego i szybszego Gemini 2.5 Flash. A teraz te dwa modele od Google zostaną ulepszone.
Google wyprzedził wszystkich
Najbardziej chyba obiecującą zapowiedzią jest wprowadzenie do modelu Gemini 2.5 Pro nowego trybu „Deep Think”, w którym procesy rozumowania prowadzone są równolegle, co pozwala analizować jednocześnie wiele możliwych wariantów. Rezultat? Używające nowego trybu Gemini wyraźnie wyprzedza konkurencję w programowaniu i bije ją na głowę w trudnych zadaniach matematycznych.

Ze względu na duży potencjał trybu DeepThink, zostanie on najpierw przetestowany przez wąskie grono zaufanych klientów zanim zostanie udostępniony szerszej publice.
Inne nowości w modelach Gemini to ulepszenie ich umiejętności czy dodanie natywnego trybu głosowego, który będzie pozwalał nam „porozmawiać” z modelem.
Poza ulepszonymi modelami językowymi dostaliśmy również nowe modele multimedialne: model wideo Veo3 i model graficzny Imagen 4. Z kolei programiści dostali dostęp do Jules, agentowego systemu wspomagającego programowanie, czyli konkurenta wspomnianego wyżej Codeksa od OpenAI.
AI, AI wszędzie…
Nie wszystkie z zapowiedzi Google były aż tak znaczące, ale niektóre z nich mogą zainteresować przynajmniej niektórych użytkowników serwisów i systemu giganta z Mountain View. Oto kilka z nich:
- NotebooLM doczekał się aplikacji mobilnych, zarówno na Androida i iOS. Teraz bez trudu można stworzyć sobie podsumowania audio, zachować je na telefonie i odsłuchać choćby wtedy, gdy nie jesteśmy w zasięgu sieci komórkowej – na przykład na wycieczce w górach. Dodatkowo, będziemy mogli teraz wybrać, czy chcemy standardowego podsumowania audio, czy też jego bardziej rozbudowanej lub skróconej wersji.
- Narzędzie Deep Research będzie teraz mogło skorzystać z plików, które do niego wgramy a nie tylko tych, które samo znajdzie w Internecie. Pod tym względem zbliży się trochę funkcjonalnością do NotebookLM.
- Google zapowiada wprowadzenie w najbliższej przyszłości do swojej wyszukiwarki trybu Deep Search, który będzie używał sztucznej inteligencji do poszukiwania potrzebnej nam informacji.
- Dla osób lubiących kupowanie online, a zwłaszcza kupowanie odzieży, Google oferuje „wirtualną przymierzalnię”, w której po wgraniu naszego zdjęcia będziemy mogli zobaczyć, jak dany produkt by na nas wyglądał.
- Firma zapowiedziała również zainwestowanie 150 mln dolarów w opracowanie okularów AI we współpracy z firmą Warby Parker. Drżyj, Meto.
Zapraszamy do komentowania naszych artykułów.
Źródło grafiki: Google