W bitwie na LLM-y Google wytacza nowe działo – konkurencję dla… własnego Gemini Ultra

homodigital.pl 1 rok temu

Google wypuścił nowy LLM, czyli duży model językowy – Gemini 1.5 Pro. Zakoczeniem może być to, iż minął zaledwie tydzień od udostępnienia szerszej publice swojego najpotężniejszego modelu Gemini Ultra. Trudno nie odnieść wrażenia, iż w bitwie tej Google trochę walczy sam ze sobą…

Gemini 1.5 Pro, nowy duży model językowy (LLM) na razie będzie dostępny dla wybranych deweloperów i klientów korporacyjnych. Jak podaje Google ma on osiągi porównywalne z Gemini Ultra. Bardziej dokładne porównanie obu modeli udostępnione w artykule opublikowanym przez zespół Gemini pokazuje, iż co prawda nowy model jest lepszy w zadaniach tekstowych od Gemini Ultra, ale gorzej sobie radzi z treściami multimedialnymi – zwłaszcza wideo i dźwiękiem.

Niedawno pisaliśmy o zmianie nazwy Barda na Gemini i udostępnieniu Gemini Ultra.

Nowości w Gemini Pro 1.5

Co nowego wnosi Gemini Pro 1.5 w stosunku do wersji 1.0, udostępnionej w grudniu? Po pierwsze, nowy model jest zbudowany w architekturze Mixture-of-Experts, czyli takiej, w której model nie jest monolitem, ale składa się z kilku-kilkunastu podmodeli. Podczas generowania odpowiedzi na prompt użytkownika, wykorzystuje tylko 1-2 z tych podmodeli, a nie cały model, co istotnie skraca czas operacji. Nie jest to architektura nowa – w oparciu o nią zbudowany jest GPT-4 (podobno, bo OpenAI nie podała tego oficjalnie) i Mistral 8x7B (na pewno). Ta technologia po raz pierwszy użyta przez Google dla modeli Gemini.

Kolejnym usprawnieniem w modelu 1.5 jest szersze tzw. okno kontekstowe, a więc to, ile treści model jest w stanie przyjąć w pojedynczym zapytaniu. W modelu 1.0 miało ono wielkość 32 tysiące tokenów (w języku angielskim średnio przypada nieco ponad jeden token na słowo tekstu, ale w niektórych innych językach jest to bliżej jednego tokenu na literę). W nowym Gemini 1.5 Pro będzie to 128 tysięcy tokenów (a więc 4x więcej). Google udostępni wąskiej grupie klientów do testowania okno kontekstowe wielkości 1 miliona tokenów (a więc około 30x większe).

Czemu ma to znaczenie? Większe okno kontekstowe pozwala modelowi „przetrawić” większą liczbę dokumentów i na ich podstawie udzielić odpowiedzi. I to choćby jeżeli dokumenty te nie były dostępne w czasie trenowania modelu. Po za tym, jeżeli mamy z modelem długą i bogatą „pogawędkę”, to przy większym oknie kontekstowym cała treść takiego chata może być umieszczona w kontekście. Przy mniejszym okienku kontekstu, LLM-y są bardziej podatne na odchodzenie od tematu wcześniejszych zapytań. Większe okno poprawia również możliwości modelu, jeżeli chodzi o treści multimedialne, takie jak wideo czy dźwięk.

Niestety, tak duże okno kontekstowe ma również swoje wady. Jak informuje TechCrunch, podczas demonstracji Google okna kontekstowego na 1 milion tokenów, generacja odpowiedzi trwała od 20 sekund do choćby minuty. Używanie go wymaga zatem cierpliwości. Przedstawiciele Google zapewnili, iż pracują nad poprawą szybkości działania modelu przy dużym kontekście.

Krótka historia wyścigu o AI

Po co Google kolejny model, skoro swój „najlepszy” wydali zaledwie tydzień wcześniej? Cóż, Google ma wciąż wiele do nadrobienia. Choć Google rozwijał generatywną inteligencję już od dłuższego czasu, to nie spieszył się specjalnie z jej upublicznianiem. Dał się wyprzedzić, i to o parę długości, rozwiązaniom od OpenAI.

Kierowana przez Sama Altmana firma udostępniła swój ChatGPT w listopadzie 2022 roku i gwałtownie pozyskała miliony użytkowników. A także rozpaliła wyobraźnię inżynierów, biznesmenów i innowatorów. Nakręciła także oczekiwania inwestorów.

Wymusiło to na Google opracowanie własnego chatbota (pod nazwą Bard), który został uruchomiony w marcu 2023 r. Jakość jednak nie zachwyciła, skłaniając komentatorów do spekulacji, iż Google upublicznił niedopracowany produkt ze względu na plany ogłoszenia (również w lutym 2023 r.) integracji wyszukiwarki Bing od Microsoftu z ChatGPT.

Jakość Barda poprawiła się nieco po zmianie technologii na której się opierał – Google przeprowadził się ze starszego modelu LaMDA na mocniejszy PaLM 2, ale choćby wtedy porównania Barda z ChatGPT zwykle wypadały lepiej dla tego drugiego.

Kolejna salwa w tej (jak dotąd nierównej) bitwie przyszła w grudniu 2023 r. Google ogłosił przesiadkę Barda na Gemini Pro 1.0 i zapewniał, iż według jego testów model ten jest lepszy niż GPT-3.5, a więc LLM, na którym oparta była darmowa wersja ChatGPT. Jednak nie wszystkie niezależne testy potwierdziły dominację nowego modelu Google nad – przypomnijmy – już jak na LLM wiekowym, bo wydanym w 2022 roku, modelu od OpenAI.

Również w grudniu Google ogłosił, iż jego najlepszy model Gemini Ultra jest lepszy od GPT-4, wciąż najnowszego (choć z marca 2023 roku) modelu od OpenAI. Gemini Ultra został udostępniony dopiero 8 lutego i wciąż czekamy na niezależne potwierdzenie tych twierdzeń.

Czekamy również na nowy model od OpenAI zamiast kolejnych usprawnień dla serii GPT-4. Póki nie wiemy jakie postępy poczynił przez ostatni rok OpenAI, póty kolejne modele od Google są jak walka z cieniem. Albo wręcz – z samym sobą. Można bowiem oczekiwać kanibalizacji Gemini Ultra przez Gemini Pro 1.5 – zwłaszcza jeżeli ten drugi okaże się tańszy.

Źródło grafiki: Google

Idź do oryginalnego materiału