Zajrzeli pod maskę nowej wyszukiwarki Google. „Mówi miliony kłamstw na minutę”

konto.spidersweb.pl 1 godzina temu

Przeglądy od AI w wyszukiwarce Google miały uprościć dostęp do wiedzy. Analiza wykazała jednak, iż funkcja przez cały czas namiętnie generuje błędy.

Przeglądy od AI w wyszukiwarce Google zadebiutowały w bardzo niechlubny dla Google’a sposób, sugerując użytkownikom zastosowanie kleju jako dodatku do pizzy. Rok później, gdy Przeglądy od AI w wyszukiwarce Google zadebiutowały w Polsce, funkcja była już bardziej dopracowana. Ale jak jest obecnie?

Przeglądy od AI w wyszukiwarce Google są dalekie od ideału

Na to pytanie postanowił odpowiedzieć The New York Times, którego dziennikarze – we współpracy ze startupem Oumi – przeanalizowali dokładność automatycznych podsumowań generowanych przez Google. Wyniki są jednocześnie uspokajające i niepokojące: system odpowiada poprawnie w około 90 proc. przypadków. Problem w tym, iż przy skali działania wyszukiwarki to przez cały czas oznacza setki tysięcy błędnych odpowiedzi na minutę.

Badanie oparto na benchmarku SimpleQA, czyli zestawie ponad 4 tys. pytań o jednoznacznych, możliwych do zweryfikowania odpowiedziach. To narzędzie, opracowane przez OpenAI, jest powszechnie używane do oceny „faktograficzności” modeli językowych. W październiku, gdy Przeglądy od AI opierały się na modelu Gemini 2, trafność wynosiła około 85 proc. Po wdrożeniu Gemini 3 wzrosła do 91 proc.

Na papierze to wyraźny postęp. W praktyce jednak 90 proc. skuteczności przy pięciu bilionach zapytań wysyłanych do Google’a każdego roku przekłada się na około 500 mld. odpowiedzi zawierających błędy. Co więcej, jak zaznacza „NYT”, ponad połowa poprawnych odpowiedzi była tzw. „nieugruntowana” – pomimo poprawności linkowała do źródeł, które nie potwierdzały w pełni przedstawionych informacji.

Przykłady wskazywane w analizie pokazują naturę problemu. W jednym przypadku system miał podać datę przekształcenia domu Boba Marleya w muzeum. Odpowiedź była błędna, mimo iż AI wskazało kilka źródeł – żadne z nich nie zawierało jednoznacznej daty lub zawierało sprzeczne informacje. W innym zapytaniu, dotyczącym dołączenia światowej sławy wiolonczelisty Yo-Yo Ma do Galerii Sław Muzyki Klasycznej system jednocześnie linkował do adekwatnej strony i twierdził, iż dana instytucja nie istnieje.

Analiza pokazała, iż Przeglądy od AI często nadzwyczaj często korzystają z wątpliwych źródeł – takich jak Facebook, Reddit czy fora dyskusyjne. Wśród wszystkich obiektywnie błędnych Przeglądów od AI, najczęściej linkowane były właśnie tego typu źródła.

Google w odpowiedzi na artykuł zakwestionował metodologię badania. Przedstawiciel firmy, Ned Adriance, stwierdził, iż test zawiera „poważne luki” i nie odzwierciedla rzeczywistych zapytań użytkowników. Firma podkreśla też, iż korzysta z własnych wariantów benchmarków, opartych na dokładniej zweryfikowanych pytaniach.

Problem w tym, iż ocena modeli generatywnych pozostaje niejednoznaczna. Te same zapytania mogą zwracać różne odpowiedzi w zależności od momentu ich zadania, a choćby narzędzia wykorzystywane do testowania AI – również oparte na sztucznej inteligencji – mogą popełniać błędy. Dodatkowym czynnikiem wpływającym na trafność odpowiedzi jest architektura samej usługi. Przeglądy od AI nie opierają się na jednym modelu, ale dynamicznie dobierają warianty – od bardziej zaawansowanych i wolniejszych dla bardziej skomplikowanych zapytań, po szybsze i tańsze dla „błahych” kwestii.

No i nie zapominajmy o ostatniej kwestii: „NYT” zajęło się jedynie zapytaniami w języku angielskim, dla postaci, obiektów i zjawisk dobrze udokumentowanych w tym języku. Gdyby pokusić się o sprawdzenie skuteczności w innych językach, prawdopodobnie wynik byłby mniej pozytywny.

Czym adekwatnie jest „wystarczająca” dokładność dla systemów AI?

Idąc przez życie, nauczyliśmy się, iż 90 proc. to wystarczający wynik na sprawdzianie, egzaminie czy teście. Jednak ciężko uznać te same wyniki za zadowalające dla systemu, który w wizji Google’a ma być pierwszym źródłem informacji na dany temat. I niestety stanowczo zbyt często jest również ostatnim źródłem informacji dla wielu internautów.

Oczywiście Google ma na to kartę wyjścia z więzienia pod postacią dopisku „Odpowiedzi generowane przez sztuczną inteligencję mogą zawierać błędy.” umieszczoną pod każdą odpowiedzią. Jednak trudno oczekiwać, by użytkownicy traktowali to ostrzeżenie poważnie, gdy cała konstrukcja interfejsu zachęca raczej do bezrefleksyjnego przyjęcia gotowej odpowiedzi niż do jej weryfikacji.

BuyboxFast

Zdjęcie główne: Thaspol Sangsee / Shutterstock

Idź do oryginalnego materiału