Google twierdzi, iż sztuczna inteligencja rozwija się dzięki Gemini LLM

cyberfeed.pl 3 miesięcy temu

Dyrektor generalny Google DeepMind Demis Hassabis zaprezentował kolejną wersję Model dużego języka Google Gemini (LLM). Nowa wersja LLM, wcześniej znana jako Bard, to najnowsza próba Google, aby zwrócić uwagę na zaawansowaną sztuczną inteligencję (AI) z dala od konkurencyjnego rozwiązania ChatGPT OpenAI do nowej technologii, którą opracował.

W dyskusji na blogu w wersji Gemini 1.5 Hassabis mówił o „znacznie zwiększonej wydajności” i stwierdził, iż stanowi to krok w stronę zmiany podejścia Google do rozwoju sztucznej inteligencji. Według Hassabisa wersja Pro, która jest teraz dostępna jako wersja zapoznawcza dla programistów, jest zoptymalizowana pod kątem „zrozumienia długiego kontekstu”. Na jego blogu pojawił się film pokazujący, jak Gemini 1.5 poradził sobie ze streszczeniem 402-stronicowego zapisu misji lądowania Apollo 11 na Księżycu.

Kolejny film przedstawia analizę 44-minutowego filmu Bustera Keatona, w którym Gemini 1.5 proszony jest o zidentyfikowanie sceny, w której główny bohater podnosi kartkę papieru.

W tweecie opublikowanym na X inżynier Google omówił, w jaki sposób trzy programy JavaScript, zawierające łącznie ponad 100 000 linii kodu, zostały przesłane jako dane wejściowe do Gemini 1.5. „Kiedy poprosiliśmy Gemini o znalezienie trzech najważniejszych przykładów w bazie kodu, które pomogą nam nauczyć się określonej umiejętności, przejrzeliśmy setki możliwych przykładów i otrzymaliśmy bardzo trafne opcje” – powiedzieli.

Wykorzystując jedynie zrzut ekranu z jednej z wersji demonstracyjnych w bazie kodu, test wykazał, iż Gemini był w stanie znaleźć odpowiednią wersję demonstracyjną – a następnie wyjaśnić, jak zmodyfikować kod, aby uzyskać konkretną zmianę w obrazie.

W innym przykładzie Gemini zostało użyte do zlokalizowania konkretnego fragmentu animacji, a następnie wyjaśnienia, jaki kod służy do jego sterowania. Inżynier powiedział, iż Gemini 1.5 był w stanie dokładnie pokazać, jak dostosować ten kod, aby wprowadzić określone zmiany w animacji.

Poproszeni o zmianę tekstu i stylu w przykładowym kodzie, twierdzili, iż Gemini 1.5 jest w stanie dokładnie zidentyfikować wiersze kodu, które należy zmienić, i pokazał programistom, jak to zmienić. Wyjaśniono także, co i dlaczego zostało zrobione.

W innym tweecie Jeff Dean, główny naukowiec w Google DeepMind, omówił, w jaki sposób Gemini 1.5 był w stanie przyjąć język, którego nigdy wcześniej nie widział, Kalamang, którym posługują się mieszkańcy zachodniej Nowej Gwinei, i nauczyć się go przetłumaczyć na angielski. Modelka została przeszkolona przy użyciu 573-stronicowej książki, Gramatyka Kalamang autorstwa Eline Visser oraz dwujęzyczną listę słów. Na podstawie badań ilościowych stwierdził, iż Bliźnięta 1,5 uzyskały 4,36 na 6 w porównaniu z człowiekiem uczącym się języka Kalamang, który uzyskał 5,52.

– powiedział Hasabis Gemini 1.5 wykorzystuje nową architekturę Mixture-of-Experts (MoE). W zależności od rodzaju danych wejściowych modele MoE uczą się selektywnie aktywować tylko najbardziej odpowiednie ścieżki eksperckie w sieci neuronowej. „Ta specjalizacja znacznie zwiększa wydajność modelu” – powiedział Hassabis.

Source link

Idź do oryginalnego materiału