Gemini 3 miażdży konkurencję – przynajmniej w benchmarkach. Czas zmienić chatbota?

homodigital.pl 4 miesięcy temu

Gemini 3 miażdży konkurencję – właśnie wydany topowy model AI od Google wyprzedził konkurencję w niemal wszystkich benchmarkach. A na dodatek wraz z tym modelem zadebiutowało sporo nowych usług i usprawnień. Na dodatek, dostęp do części z tych nowinek będzie tańszy. Google właśnie wprowadza tańszy plan Plus, podobny do ChatGPT Go od OpenAI. Czas zmienić chatbota?

Kiedy parę miesięcy temu debiutował GPT-5 od OpenAI, nie kryliśmy lekkiego rozczarowania. Model był kilka lepszy od starszego o kilka miesięcy o3, konkurencję wyprzedzał tylko w kilku benchmarkach a w większości zaledwie ją doganiał – bo OpenAI na kilku polach miało już spore zaległości. Dostaliśmy więc model, który w ogólnej ocenie był lepszy od innych, ale… tylko trochę. W większości dziedzin podobny do innych czołowych AI, a tylko w niektórych nieco lepszy.

Teraz Google pokazuje, iż można inaczej. Od premiery poprzedniego – i wciąż pod wieloma względami mocnego – Gemini 2.5 Pro minęło już osiem miesięcy, ale warto było czekać. Gemini 3 Pro po prostu wymiata konkurencję.

Gemini 3 miażdży konkurencję – zwłaszcza w trudnych testach

Już pierwsze spojrzenie na tabelkę z wynikami benchmarków robi spore wrażenie. W tabeli najlepsze wyniki dla danej kategorii są wydrukowane pogrubioną czcionką. Tylko w jednej kategorii – benchmarku inżynierii programowania SWE-Bench Verified – najnowszy model od Google jest gorszy od modeli Anthropica i OpenAI, i to na dodatek tylko trochę. W jeszcze jednej kategorii – matematycznego testu AIME 2025 z użyciem kodu – Claude Sonnet 4.5 dorównuje nowej Gemini.

Przewaga w niektórych benchmarkach, zwłaszcza tych, w których najnowsze modele już osiągają wyniki zbliżone do 100% nie jest oczywiście duża. Tak jest na przykład w matematycznym AIME 2025 czy mierzącym wiedzę z nauk ścisłych GPQA Diamond.

Jednak są pola, na których Gemini 3 zupełnie „odjechało” konkurencji. Tak jest w przypadku puzzli geometrycznych ARC-AGI-2 czy zaawansowanych zadań matematycznych mierzonych przez benchmark MathArena Apex. Zwłaszcza w tym ostatnim model Google dosłownie miażdży konkurencję.

Gemini 3 jest też świetny w rozumieniu multimodalnym. Ma sporą przewagę nad konkurencją w standardowym na tym polu benchmarku MMMU-Pro, jeszcze większą w mierzącym rozumienie skomplikowanych wykresów i diagramów CharXiv Reasonioning, a zupełnie odjechał konkurencji pod względem rozumienia ekranu (benchmark ScreenSpot Pro), co jest szczególnie istotne w systemach agentowych korzystających z komputera w sposób podobny do użytkownika.

Jedynym obszarem, gdzie Google’owi nie udało się aż tak odjechać konkurencji jest programowanie – w przypadku podstawowego w tej dziedzinie benchmarku SWE-Bench Verified wciąż przoduje Claude Sonnet 4.5 od Anthropica, choć tylko trochę wyprzedza znajdujące się ex aequo na drugim miejscu GPT-5.1 i Gemini 3. Lepiej model Google radzi sobie w kodowaniu agentowym w terminalu – tu wyprzedza nieco GPT-5.1 i – całkiem już solidnie – model Anthropica. Z kolei w przypadku agentowego wykorzystania narzędzi Gemini 3 jest pierwsza, ale tylko trochę lepsza od modelu Anthropica.

To oczywiście tylko benchmarki. Ale również pod względem preferencji użytkowników nowy model Google radzi sobie świetnie – zajmuje pierwsze miejsca w trzech kategoriach LM Areny: tekście, programowaniu i rozumieniu obrazów.

Gemini 3 Pro jest już dostępny w chatbocie Gemini – wystarczy w okienku chatbota zmienić model z Szybki na Myślę (tłumaczenie interfejsu na polski było chyba wykonywane przez któryś z poprzednich modeli Google, pewnie Berta…).

Zmiany również w apce Gemini – generatywne interfejsy i nie tylko

Gemini 3 to bynajmniej niejedyna nowość od Google. Teraz model AI będzie nie tylko generował nam treści – czy to tekst czy obrazy, czy wideo, ale również kształtował to, jak wygląda interfejs użytkownika. Firma nazwała to „generatywnym interfejsem„.

Jak ma to działać? Model przeanalizuje nasze zapytanie i na tej podstawie stworzy w pełni spersonalizowaną, interaktywną odpowiedź dla wszystkich polecenia, wykorzystując możliwości kodowania agentowego Gemini.

Aplikacja Gemini – na razie jak się wydaje tylko ta na telefony – została również wyposażona w folder Moje rzeczy, w którym łatwiej znajdziecie stworzone przez AI grafiki, widea czy raporty.

Nowości dla programistów

Google najwyraźniej postanowił skorzystać z lepszych umiejętności kodowania swojego modelu i stworzył nowe narzędzie dla programistów – agentowe IDE (taki edytor kodu na sterydach) Google Antigravity.

Choć AI jest dostępna w edytorach systemu już od dłuższego czasu, na przykład w formie Github Copilota w VS Code czy w edytorze Cursor, to, jak pisze Google, „Antigravity ewoluuje w kierunku IDE zorientowanego na agenty, wyposażonego w możliwości kontroli przeglądarki, które umożliwia agentom autonomiczne planowanie i wykonywanie złożonych, całościowych zadań związanych z oprogramowaniem.”

Jak więc widać, w swoim nowym produkcie Google chce wykorzystać nie tylko świetne możliwości tworzenia kodu, w tym agentowego pisania kodu, przez Gemini 3, ale również jej najlepsze na rynku wspomniane już wyżej umiejętności rozumienia zawartości ekranu.

Skąd tylko ta dziwna nazwa? Jak pisze Google, celem firmy „jest umożliwienie każdemu, kto ma pomysł, doświadczenia „wzniesienia się” (ang. liftoff) i przekształcenia tego pomysłu w rzeczywistość”.

I pisząc „każdemu” Google nie jest gołosłowny – Antigravity jest dostępny dla użytkowników indywidualnych za darmo z, jak to określił Google, „hojnymi” limitami na wykorzystanie modelu Gemini 3. Z poziomu edytora mamy również dostęp do modeli Sonnet 4.5 i gpt-oss.

A jak w praktyce działają umiejętności programistyczne Gemini 3? Jak już wspomniałem, nowy model Google zajmuje pierwsze miejsce na LM Arenie pod względem programowania aplikacji internetowych. Również sygnały od firm testujących rozwiązanie Google w ostatnich tygodniach są zachęcające: choć model wydawał się nieco wolniejszy od modeli konkurencji, to jego odpowiedzi były wyższej jakości, co pozwalało na zbudowanie aplikacji w mniejszej liczbie iteracji.

Potężna odpowiedź Google. Czy wystarczy?

Od pewnego już czasu, przynajmniej od wprowadzenia SearchGPT, OpenAI wyraźnie starało się podgryzać Google w obszarach podstawowych biznesów giganta z Mountain View. Najpierw było właśnie wyszukiwanie informacji w internecie, potem rekomendacje zakupowe, potem wręcz zakupy wewnątrz ChatGPT, wreszcie ostatnio aplikacje w tym chatbocie no i przeglądarka Atlas, która stała się bezpośrednim konkurentem Google Chrome.

Można się było spodziewać potężnej odpowiedzi Google i ta nadeszła – i to uderzając z najbardziej bolesnej, przynajmniej pod względem prestiżu, dla OpenAI strony, czyli jakości modelu AI. Gemini 3 jest w tej chwili najlepszym modelem na rynku i to z istotną przewagą nad resztą.

Pytanie, czy to będzie miało znaczenie. To, iż wyniki benchmarków są dla Gemini 3 świetne ma mniejsze znaczenie pod względem rynkowym niż to, który z chatbotów radzi sobie lepiej. Na razie przewagę ma tu OpenAI z przeszło 800 milionami aktywnych użytkowników tygodniowo. Danych tygodniowych dla Gemini nie mamy, ale w zeszłym miesiącu firma mówiła o 650 mln użytkowników miesięcznie – czyli prawdopodobnie jakieś 500 mln, może trochę mniej tygodniowo.

To oznacza, iż czasy absolutnej dominacji ChatGPT się skończyły, ale wciąż ma on istotną przewagę nad konkurencją. Jakość modelu Gemini 3 pewnie trochę pomoże zmniejszyć ten dystans, ale dla większości użytkowników, przy obecnej już dość wysokiej jakości modeli w codziennych zastosowaniach, większą rolę będzie odgrywać wygoda korzystania z chatbota. A tu OpenAI wciąż może jeszcze sporo namieszać. choćby niespecjalnie polepszając osiągi swoich modeli.

A co pojawienie się Gemini 3 oznacza dla nas? Na pewno większy wybór wśród najbardziej zaawansowanych modeli. Co więcej, inaczej niż ma to miejsce w przypadku ChatGPT, który sam decyduje czy potrzebuje „pomyśleć” czy nie, w Gemini możemy sobie po prostu wybrać bardziej zaawansowany model.

A jeżeli z czasem przekroczymy limit wykorzystywania modelu, to możemy skorzystać z dopiero co wprowadzonego planu Google AI Plus – takiego odpowiednika ChatGPT Go, a więc bardziej budżetowego niż dotychczasowy plan Pro. Przez pierwsze 2 miesiące kosztuje niecałe 17 zł, potem niecałe 35 zł, a w zamian dostajemy większe limity na Gemini 3, możliwość korzystania z AI wewnątrz aplikacji Google, czy dostęp do modelu wideo.

Jak widać, konkurencja Google-OpenAI służy nam jako użytkownikom. Więc niech walczą – w końcu… walczą o nas.

Źródło grafiki: Google

Idź do oryginalnego materiału