Gemini staje się jeszcze lepsze. Google aktualizuje swoją SI i dodaje jej nowych cech

ittechblog.pl 3 miesięcy temu

Google w w grudniu zaprezentowało światu pierwszy model sztucznej inteligencji Gemini, a niecałe trzy miesiące później otrzymuje ona poważną aktualizację. Znacznie zwiększa jej możliwości, otwierając przed użytkownikami nowe obszary działania.

Rywalizacja na rynku SI trwa w najlepsze. ChatGPT na przodzie, a za nim… wszyscy inni. Jednak biorąc pod uwagę, iż zarówno Google, jak i Apple oraz Meta również działają na tym polu, kolejne miesiące przyniosą nam szybki rozwój wraz z nowymi możliwościami. Z jednej strony to świetne, z drugiej – czy nie pogubimy się w tym wszystkim?

Gemini 1.5 – co się polepszyło?

Aktualizacja podnosząca Gemini do wersji 1.5 to kolejna inkarnacja modelu językowego, które znacznie usprawnia “okienko kontekstowe”. Jest ono zbudowane z tokenów tworzących bloki używane do procesowania informacji. Takie tokeny to całe słowa, obrazy, kod lub nagrania wideo, mogą być to również ich fragmenty. Im większe okienko, tym więcej informacji można obrobić i używać bardziej złożonych promptów. To z kolei przekłada się na jakość otrzymanego wyniku.

Gemini 1.5 Pro pozwala na zbudowanie okienka kontekstowego ze 128 000 tokenów. W poprzedniej wersji było to 32 000. Nowa możliwość pozwala wprowadzić 700 000 słów, 30 tys. linii kodu, 11 godzin nagrań audio lub 60 minut nagrań wideo. Otrzymane informacje solidnie analizuje, klasyfikuje, a następnie obrabia według wskazań. O co chodzi z klasyfikacją? Na przykład gdy dać jej 402-stronnicową transkrypcję z misji Apollo 11, odróżni dialogi od zdarzeń oraz wyciągnie detale techniczne.

Czytaj też: Sztuczna inteligencja odsłoni przed nami tajemnice historii. GPT 5 rozszyfruje starożytne pisma

Jeśli chodzi o materiały wideo, posłużono się przykładem. Wprowadzono do Gemini 1.5 niemy, 44-minutyowy film z Busterem Keatonem. Model potrafił określić i opisać wszystkie jego przeżycia, a choćby ich przyczyny! Można by tu przez cały czas żonglować wielkimi cyframi, ale zamiast tego podsumuję, iż możliwości SI stały się po prostu kolosalne. W chwili obecnej Google rozpuściło do testerów ponad 10 mln tokenów, które są w tej chwili sprawdzane na niezliczone ilości sposobów.

Gemini 1.5 działa w architekturze Mixture-of-Experts (MoE). Polega to na stworzeniu mniejszych, wyspecjalizowanych sieci neuronowych, które nie tylko obrabiają informacje, ale zarazem szkolą się na nich. A to prowadzi do jeszcze lepszych wyników. Z możliwości nowego modelu mogą korzystać nie tylko testerzy, ale – poprzez AI Studio oraz Vertej AI – również wybrani deweloperzy i firmy.

Idź do oryginalnego materiału