AI już dawno przestało się ograniczać do generowania treści czy grafik – narzędzia typu ChatGPT, Grok czy Perplexity stały się pełnoprawnymi wyszukiwarkami, które prawdopodobnie mogą w przyszłości zagrozić pozycji Google. Jednak badania pokazują, że wyszukiwane i cytowane przez nie treści informacyjne są pełne błędów i spekulacji.
Co więcej, wszystkie narzędzia bazujące na dużych modelach językowych konsekwentnie częściej udzielały nieprawidłowej odpowiedzi niż przyznawały się do ograniczeń.
Tradycyjne wyszukiwarki a narzędzia AI
Tradycyjne wyszukiwarki zazwyczaj pośredniczą między użytkownikiem i docelową stroną – kierują użytkowników do witryn informacyjnych i innych treści wysokiej jakości, generując na nich ruch.
Narzędzia wyszukiwania generatywnego działają zupełnie inaczej – same analizują strony i zawarte na nich informacje, a następnie „przepakowują” je, tworzą na ich podstawie treść podawaną użytkownikowi, odcinając przepływ ruchu do oryginalnych źródeł.
Niewiele osób pewnie sprawdza, czy to, co zaprezentowało AI, jest wiarygodne. Badania pokazują, że najczęściej… nie jest. Przede wszystkim chatboty starają się odpowiedzieć na pytanie, nawet jeśli nie potrafią zrobić tego poprawnie.
Dlatego zamiast napisać, że czegoś nie potrafią, wymyślają lub spekulują. Co więcej, przedstawiają niedokładne odpowiedzi z alarmującą pewnością siebie, rzadko używając fraz takich jak „wydaje się”, „to możliwe”, „może” itp.
Na czym polegało badanie?
Naukowcy z Uniwersytetu Columbia wybrali dziesięć artykułów od każdego wydawcy, a następnie wyznaczyli określone fragmenty tych artykułów do wykorzystania w zapytaniach.
Po dostarczeniu każdemu chatbotowi wybranych fragmentów poprosili go o zidentyfikowanie odpowiedniego nagłówka artykułu, oryginalnego wydawcy, daty publikacji i adresu URL. Wybrano takie fragmenty, które po wklejeniu w Google zwracają oryginalne źródło w pierwszych trzech wynikach.

Łącznie uruchomiono 1600 zapytań – okazało się, że chatboty udzieliły nieprawidłowych odpowiedzi na ponad 60 procent zapytań. Na różnych platformach poziom niedokładności był różny. O ile w przypadku Perplexity było 37% błędnych odpowiedzi, to Grok 3 miał znacznie wyższy wskaźnik błędów (94%).
Problemem są też adresy URL – ponad połowa odpowiedzi z Gemini i Grok 3 powoływała się na sfabrykowane lub uszkodzone adresy URL.
Premium nie oznacza większej wiarygodności
Co więcej, te modele, które oferowane są w wersjach premium, udzielały błędnych odpowiedzi częściej niż ich darmowe odpowiedniki. Porównano tutaj Perplexity Pro i Grok 3 – okazało się, że oba odpowiedziały poprawnie na więcej pytań niż ich darmowe odpowiedniki, paradoksalnie wykazały również wyższy wskaźnik błędów.

Blokowanie nie zawsze daje efekt
Naukowcy spodziewali się, że chatboty będą poprawnie odpowiadać na zapytania dotyczące wydawców, do których miały dostęp ich crawlery, i odmawiać odpowiedzi na zapytania dotyczące witryn, które zablokowały dostęp do ich treści. Tymczasem okazało się, że potrafiły poprawnie odpowiadać na pytania dotyczące wydawców, do których treści nie powinny mieć dostępu.
Wyróżniono tu zwłaszcza narzędzie Perplexity Pro, które prawidłowo zidentyfikowało prawie jedną trzecią z dziewięćdziesięciu fragmentów artykułów, do których nie powinno mieć dostępu. Z kolei darmowa wersja Perplexity poprawnie zidentyfikowała wszystkie dziesięć fragmentów artykułów z płatnym dostępem z National Geographic, mimo że wydawca zakazał indeksowania Perplexity i nie ma formalnych powiązań z firmą AI.
Źródło: Columbia Journalism Review. Zdjęcie otwierające: Fot. mindea / Shutterstock
Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.