Jeszcze dobrze nie opadł kurz wzniesiony przez rozentuzjazmowany tłum obserwatorów poczynań OpenAI (nowy i to dostępny za darmo dla wszystkich model GPT-4o), a tu konkurent z Mountain View, Google, wytoczył swoje AI. Oto w reporterskim skrócie, co pokazało Google na tegorocznej prezentacji otwierającej konferencję programistyczną Google I/O 2024.
Zacznę od pewnego disclaimera. Wszystko, co dziś ogłosiło Google, dotyczy przede wszystkim użytkowników ze Stanów Zjednoczonych. Jak nie od dziś wiadomo, wszelkie innowacje trafiają najpierw na lokalny dla technologicznego giganta, amerykański rynek, ale z czasem ogłoszone nowości (przynajmniej niektóre) powinny trafić również do nas. OK, startujemy:
Na początek ciekawostka. Wszystkich, którzy oczekiwali na prezentację keynote Google I/O 2024 witała muzyka generowana algorytmicznie przez AI, dzięki autorskich rozwiązań Google, dokładniej czegoś, co sama firma określa jako Google MusicFX DJ tool. o ile chcecie ją usłyszeć, odtwórzcie sobie kilka pierwszych minut poniższej relacji z prezentacji otwierającej tegoroczną konferencję:
Jeżeli muzyka was nie interesuje spokojnie możecie pominąć ponad godzinę powyższego wideo, a o ile nie macie czasu w oglądanie reszty, to – tak jak zapowiedziałem – poniżej skrót nowości.
Gemini 1.5 Flash
Google ogłosiło wprowadzenie do swojego portfolio nowego, szybszego modelu AI: Gemini 1.5 Flash. Ten model jest ponoć równie wydajny jak Gemini 1.5 Pro, ale jest zoptymalizowany pod kątem wykonywania zadań wymagających wysokiej częstotliwości i małych opóźnień. Ponadto samo okno kontekstowe Gemini 1.5 Pro wzrosło z 1 miliona do 2 milionów tokenów, co w praktyce oznacza znacznie głębsze “rozumienie” kontekstu. Ponadto Gemini 1.5 Pro pojawi się na pasku bocznym Google Workspace na kontach płatnych subskrybentów tej usługi i dzięki temu ma ułatwić inteligentne zarządzanie wszystkimi danymi z Dysku Google, np. AI może sama pisać maile na podstawie wskazanych przez użytkownika np. danych z arkusza czy innych dokumentów. Na razie rozwiązanie uruchomione jest testowo ograniczonej liczbie użytkowników, w przyszłym miesiącu ma zostać udostępnione subskrybentom płatnej wersji Gemini.
Imponujący Astra Google
Projekt Astra Google to prezentacja multimodalnego asystenta AI, który „rozumie” to, co widzi np. przez kamerę telefona. Choć bardziej pasuje określenie asystenta to przyszłych smart-okularów. Wówczas przydatność tego typu rozwiązania znacznie wzrośnie. Zapomniałeś gdzie schowałeś klucze? Asystent Astra Google ci podpowie, gdzie leżą, bo przecież widział jak je kładłeś. Przydatne? Owszem, ale ja i tak mam skojarzenia z mroczną wizją rejestratorów tego co widzi użytkownik z jednego z odcinków serialu “Black Mirror”. Kto wie, ten wie.
Gemini i Zdjęcia Google
Masz dużo zdjęć w chmurze Google’a? Tego lata firma ma wprowadzić rozumienie przez Gemini całej biblioteki zdjęć danego użytkownika. Na prezentacji Sundar Pichai, CEO Google, zaprezentował to pytając Gemini o własny numer rejestracyjny. AI nie tylko udzieliła poprawnej odpowiedzi, ale też wyświetliła zdjęcie samochodu szefa Google z widoczną tablicą.
Wyszukiwanie w Google Lens
Google Lens samo w sobie nowością nie jest, ale usługa otrzyma nowe funkcje. Umożliwi ona wyszukiwanie danych nie tylko na podstawie wskazanych przez użytkownika zdjęć, ale również wideoklipów.
Veo, konkurent Sory
Kolejna nowość to Veo, generatywny model AI zdolnej do generowania wideo Full HD (1080p) na podstawie wskazówek tekstowych, graficznych lub innego wideo, dostępne różne tryby tworzenia (np. nagranie lotnicze, tryb poklatkowy etc.). Tak Google odpowiada na rozwiązanie OpenAI o nazwie Sora.
Google Gems, czyli stwórz sobie czatbota
Google Gems to rozwiązanie, które pozwala nauczyć Gemini specyficznego zachowania AI. o ile na przykład chcesz, by sztuczna inteligencja zachowywała się jak np. dietetyk pilnujący twojego jadłospisu, proponującego przepisy i motywującego do zmiany złych nawyków żywieniowych, Gems pozwoli to zrobić.
Gemini Live – odpowiedź na GPT-4o z kamerą
Wczoraj świat zachwycił się OpenAI i ChatGPT z nowym GPT-4o rozmawiającym z użytkownikiem za pośrednictwem kamery w telefonie (reagując na emocje wyrażane mimiką). Google odpowiedziało prezentując Gemini Live. To konwersacyjny czatbot, który nie tylko może cię obserwować przez kamerę urządzenia (smartfon/laptop), ale również dostosowuje głos emocjonalnie, by dialog z maszyną był bardziej naturalny.
Gemini Nano ochroni telefony z Androidem przed spamem i dołączy do przeglądarki Chrome
Gemini Nano, lekka wersja modelu Gemini, trafi do Androida i będzie m.in. chronić użytkowników przed prawdopodobnym spamem i próbami ataków phishingowych, ponadto ten lekki model ma zostać zintegrowany z przeglądarką Google Chrome na komputerze.
Zakreśl by wyszukać lepiej rozumie matematykę
Wyszukiwanie obrazkowe typu Circle to find (po polsku: zakreśl by wyszukać) nowością samo w sobie nie jest, ale Google ogłosiło, iż teraz algorytm analizujący zaznaczony przez użytkownika fragment np. zdjęcia, rozumie matematykę. Przy czym wyraźnie zaznaczono, iż nie odrobi on prac domowych uczniom, którzy zamiast samodzielnie rozwiązać zadanie spróbują iść na łatwiznę, ale AI wyświetli proponowane kroki prowadzące do rozwiązania danego problemu matematycznego.