Google w końcu też ma „rozumujący” model AI

homodigital.pl 1 dzień temu

No i doczekaliśmy się. Trzy miesiące po debiucie o1, zaawansowanego modelu od OpenAI, Google w końcu też ma „rozumujący” model AI. Oparty na najnowszym Gemini Flash 2.0, nowy model został udostępniony – głównie deweloperom, ale każdy może go sobie wypróbować w AI Studio.

Google w wyścigu na modele AI od jakiegoś czasu nieco odstaje od czołówki. jeżeli przejrzycie recenzje chatbotów, to jako najlepszy zwykle wskazuje się Claude Sonnet od Anthropica czy ewentualnie GPT-4o od OpenAI. O Gemini od Google raczej się nie wspomina. Nieco za konkurencją został też w modelach rozumujących – eksperymentalna wersja o1 pokazała się we wrześniu. A w ostatnich tygodniach pojawiły się „rozumujące” modele od kilku chińskich zespołów badawczych.

W końcu jednak jest – „rozumujący” model AI od Google. Nazwany Gemini 2.0 Flash Thinking.

„Rozumujący” model AI – co to w ogóle znaczy?

A co to w ogóle znaczy, iż model AI jest „rozumujący”? W tradycyjnych modelach LLM generowanie odpowiedzi polega na dodawaniu do pytania odpowiedzi słowo po słowie. Każde kolejne słowo jest dobudowywane do wygenerowanego już ciągu słów na podstawie pewnych reguł prawdopodobieństwa. Model nigdy nie sprawdza, czy wygenerowana przez niego odpowiedź ma sens.

Z modelami „rozumującymi” jest inaczej – taki model po wygenerowaniu odpowiedzi sprawdza, czy ma ona sens. Może też wygenerować kilka odpowiedzi i następnie sprawdzić, która z nich jest najlepsza. Zaleta? Większa szansa na sensowną odpowiedź – czyli mniejsze prawdopodobieństwo tzw. halucynacji. Wada? Generowanie odpowiedzi trwa długo i zużywa sporo mocy obliczeniowych, o wiele więcej niż w modelach tradycyjnych.

Zapewne dlatego do zbudowania swojego modelu rozumującego Google użył Gemini 2.0 Flash, swojego mniejszego i szybszego modelu z rodziny Gemini.

Gemini Flash Thinking – gdzie spróbować

Model nie jest dostępny w standardowym chatbocie Gemini, więc jeżeli chcielibyście go wypróbować, to najlepiej udać się do Google AI Studio, czyli serwisu do prototypowania rozwiązań AI. Model możemy sobie wybrać po prawej stronie ekranu.

Według Google, model najlepiej nadaje się do przetwarzania multimodalnego (na przykład do interpretacji wykresów), rozumowania i programowania.

Programiści mogą wypróbować model również przez API.

Źródło grafiki: Sztuczna inteligencja, model DallE-3

Idź do oryginalnego materiału