Świat zachwyca się generatywnym modelem kreacji wideo od Open AI, mam na myśli opisywany również u nas model Sora, tymczasem Google bez specjalnego rozgłosu poinformowało o nowej generacji modelu Gemini, oznaczonej Gemini 1.5.
Kiedy informowałem was o udostępnieniu publicznie (i odpłatnie) modelu Gemini Ultra 1.0 w formie usługi Gemini Advanced już wówczas podpowiadałem wam, byście poczekali i przedwcześnie nie rejestrowali się w Gemini Advanced, które wymaga wykupu płatnej za blisko 100 zł miesięcznie subskrypcji Google One.
Żegnaj Bard, niech żyje Gemini, a także Gemini Advanced
Minął tydzień, a Google ogłosiło wprowadzenie modelu Gemini 1.5, który nie dość, iż według samego Google jest niemal równie wydajny jak Gemini 1.0 Ultra, to jeszcze jest bardziej efektywny energetycznie (wykonanie tego samego zadania przez nowszy model wymaga mniejszych zasobów energetycznych). Najważniejsze jest jednak to, iż Gemini 1.5 prawdopodobnie nie będzie wymagać od użytkownika wykupu płatnej subskrypcji Google One, co jest wymagane w przypadku Gemini Advanced. Piszę „prawdopodobnie”, bo póki co, ogłoszony Gemini 1.5 nie pozostało dostępny publicznie. Model udostępniono jedynie wąskiej grupie klientów korporacyjnych, specjalistom i deweloperów. Co potrafi?
Odpowiedzi na to pytanie udziela nam obszerny wpis na blogu Google, ale szanuję wasz czas, więc tutaj przytoczę najbardziej istotne moim zdaniem informacje dotyczące nowej wersji Gemini.
Nowa generacja Gemini ma stanowić przełom w rozumieniu kontekstu. Model ten jest w stanie zrozumieć znacznie głębszy kontekst w porównaniu nie tylko z Gemini 1.0. Gemini 1.5 jest w stanie przetwarzać okno kontekstowe uruchamiając do miliona tokenów. Dla porównania Gemini 1.0 było zdolne do przetwarzania okna kontekstowego z 32 tysiącami tokenów, a w przypadku modelu GPT-4 Turbo od OpenAI było to 128 tysięcy tokenów. Oczywiście w przypadku rzeczy tak złożonej jak model AI sama liczba tokenów nie wskazuje na liniowy przyrost wydajności czy potencjału, niemniej różnica na korzyść Gemini 1.5 powinna być widoczna.
Co to adekwatnie oznacza, iż model jest w stanie przetworzyć milion tokenów, w końcu prawdopodobnie wielu z was nic to nie mówi. Google wyjaśnia to w ten sposób, iż „okno kontekstowe” modelu sztucznej inteligencji składa się z tokenów, które są blokami konstrukcyjnymi używanymi do przetwarzania informacji. Tokeny mogą być całymi częściami lub podsekcjami słów, obrazów, filmów, audio lub kodu. Przekładając to na zrozumiały dla wszystkich język, zdolność przetworzenia miliona tokenów oznacza zdolność modelu do kontekstowego przetworzenia 30 tysięcy linii kodu lub 60-minutowego wideo, lub 11-godzinnego nagrania audio, czy tekstu składającego się z 700 tysięcy słów. Gdy np. wrzucisz w zapytaniu do Gemini 1.5 Pro 402-stronicową transkrypcję z misji Apollo 11, AI z jednorazowo zassanej takiej ilości informacji jest w stanie wnioskować o rozmowach, wydarzeniach i szczegółach znalezionych w całym dokumencie. Jednocześnie Google zdradza, iż realizowane są prace nad modelem zdolnym do przetworzenia 10 milionów tokenów. Wyjaśnia to poniższe wideo:
Gemini 1.5 wykorzystuje nową architekturę zwaną Mix-of-Experts (praca naukowa na ten temat), w uproszczeniu chodzi o skokowy wzrost wydajności modelu w szkoleniu i obsłudze. Google udostępnia teraz ograniczonej liczbie użytkowników średniej wielkości multimodalny model Gemini 1.5 Pro, który ma działać na poziomie podobnym do Gemini 1.0 Ultra.
Gemini nie jest może tak urzekający jak model Sora od OpenAI, zdolny do generowania klipów wideo z opisów tekstowych. Jednak to właśnie Gemini wydaje się być modelem realnie przydatnym. Sora, szczerze pisząc, mnie trochę martwi, jednak tym podzielę się z wami odrębnym materiale.