Google DeepMind demonstruje Gemini – AI lepsza od GPT-4

imagazine.pl 1 rok temu

Google już podczas tegorocznej konferencji Google I/O 2023 zapowiadało nowy multimodalny duży model AI o nazwie Gemini. Teraz firma zademonstrowała możliwości tego narzędzia. Uch, to warto zobaczyć.

Google chwali się, iż Gemini jest modelem, który nie tylko przewyższa GPT-4 od OpenAI (zatem również opartego na GPT-4 Copilota Microsoftu). Google pochwaliło się czymś więcej. Gemini podobno wygrywa w 30 z 32 akademickich testach porównawczych dużych wielomodalnych modeli AI. Firma zaznacza jednak, iż taki wynik uzyskała najbardziej rozwinięta wersja Gemini.

Tymczasem to, co dziś trafiło do ponad 170 państw świata (choć na razie tylko w wersji anglojęzycznej) to średni model Gemini. Gemini został w tej chwili udostępniony jako część znanego już na naszym rynku rozwiązania, czyli Google Bard. o ile w tym momencie spieszycie się by odpalić Barda i poznać jego nowy potencjał wynikający z Gemini, to muszę Was zmartwić. W UE jeszcze to nie działa. Dlaczego? Ze względu na potencjalne problemy z przepisami o ochronie prywatności i ochronie danych osobowych.

Jak widać z powyższej demonstracji na filmie, Gemini świetnie radzi sobie z rozpoznawaniem danych wejściowych w najróżniejszej postaci. Może to być mowa, tekst wprowadzany z klawiatury, tekst pisany manualnie, odręczny rysunek, zdjęcie, przedmiot przed kamerą, dźwięk, cokolwiek.

Google planuje wdrożenie Gemini na trzech poziomach. Topowa wersja Gemini Ultra ma być wykorzystywana do najbardziej złożonych zadań, wersja średnia, czyli tzw. Gemini Pro to właśnie ta, którą w tej chwili udostępniono (choć jeszcze nie w UE), oraz wersja Gemini Nano. Ten ostatni model ma być dostosowany do mocy obliczeniowych urządzeń mobilnych. Chodzi o to, by można było go uruchamiać z wykorzystaniem zasobów jakimi dysponuje samo urządzenie, bez chmury i połączenia z internetem. Oczywiście Google jako przykład współpracującego sprzętu podaje własny model urządzenia, czyli telefon Google Pixel 8.

Co więcej, Google na razie deklaruje, iż topowy model nie będzie udostępniony publicznie. Jednym z wariantów gemini jest odmiana AlphaCode 2, która podobno ma fenomenalnie radzić sobie z kodowaniem. Przy czym nie chodzi tylko o poprawność składniową kodu napisanego w jakimś języku programowania, ale o rozwiązywanie konkretnych problemów programistycznych obejmujących złożoną matematykę czy teorię informatyki.

Wyniki testów porównawczych Gemini Ultra i GPT-4 (źr. Google)

Czy faktycznie Gemini jest tak rewolucyjny, jak przekonuje Google? Wyniki testów są imponujące, ale jednocześnie pokazują, iż przewaga Gemini Ultra (topowej wersji) nad GPT-4 to nie jest jakaś totalna deklasacja modelu OpenAI. Co więcej, Google w zamieszczonych wynikach (w powyższej tabeli) porównuje Gemini Ultra z GPT-4, a nie ostatnią odsłoną OpenAI, czyli GPT-4 Turbo.

Warto jednak zwrócić uwagę na inną kwestię podkreślaną przez Google’a. Fakt, iż Gemini Ultra uzyskał ponad 90-procentowy wynik w teście MMLU (pierwszy rezultat w powyższej tabeli), który sprawdza wiedzę z 57. przedmiotów takich jak fizyka, matematyka, medycyna, etyka, prawo, biologia, historia, geografia i wiele więcej, oznacza, iż Gemini Ultra w teście MMLU przewyższa ludzi o wiedzy eksperckiej w tym teście.

Google ogłosiło też, iż w nadchodzących miesiącach Gemini zostanie zintegrowane z wieloma innymi usługami Google: wyszukiwarką, przeglądarką Google Chrome, czy Duet AI. Programiści i klienci korporacyjni będą mogli korzystać z Gemini Pro za pośrednictwem Gemini API (w narzędziach takich jak Google AI Studio czy Google Cloud Vertex AI) od 13 grudnia br.

Idź do oryginalnego materiału