Sztuczna inteligencja wygenerowała aż 57 procent tekstów dostępnych w sieci

itbiznes.pl 1 miesiąc temu
Zdjęcie: ChatGPT Bing paywall


Naukowcy z Uniwersytetów w Cambridge i Oksfordzie opublikowali niepokojące wyniki badań, które mogą mieć dalekosiężne konsekwencje dla przyszłości, w której otaczać nas będzie sztuczna inteligencja (AI). W badaniu opublikowanym w renomowanym czasopiśmie Nature dr Ilia Shumailov i jego zespół odkryli zjawisko nazwane „kolapsem modelu” (ang. model collapse). Pojawia się ono, gdy generatywne modele AI, takie jak duże modele językowe (LLM), uczą się na danych wyprodukowanych przez inne AI, zamiast na oryginalnych treściach stworzonych przez ludzi.

Kolaps modelu to proces degeneracyjny, w którym modele AI, ucząc się na danych, które wytworzyła inna sztuczna inteligencja, stopniowo tracą zdolność do poprawnego odwzorowania rzeczywistości. W miarę jak AI w kolejnych cyklach uczy się na treściach generowanych przez poprzednie wersje siebie samej, jej odpowiedzi stają się coraz mniej precyzyjne, a ostatecznie zupełnie oderwane od rzeczywistości.

Badacze zwracają uwagę, iż zjawisko to jest szczególnie niebezpieczne w kontekście rosnącej ilości treści generowanych przez AI w internecie. w tej chwili szacuje się, iż około 57% tekstów dostępnych w sieci powstało przy użyciu algorytmów AI, a prognozy wskazują, iż do 2025 roku liczba ta może wzrosnąć do 90%. jeżeli ta tendencja się utrzyma, przyszłe modele AI będą miały coraz trudniejszy dostęp do autentycznych danych stworzonych przez ludzi, co może przyspieszyć proces kolapsu modeli.

Sztuczna inteligencja może zacząć „oszukiwać sama siebie”.

W ramach badania zespół Shumailova przetestował swoje teorie na przykładzie pretrenowanego modelu AI, który następnie był aktualizowany na podstawie własnych wygenerowanych danych. Wyniki eksperymentów były alarmujące – już po kilku cyklach model zaczynał generować odpowiedzi, które były zupełnie niezgodne z rzeczywistością. Jeden z przykładów pokazuje proces, w którym fragment artykułu na temat średniowiecznych kościołów w Anglii został przekształcony w nonsensowny tekst o królikach.

Naukowcy zauważają, iż kolaps modelu rozpoczyna się od utraty informacji o rzadziej występujących danych, a z czasem prowadzi do całkowitej utraty zdolności modelu do generowania sensownych odpowiedzi. Co więcej, ten proces może być trudny do wykrycia, ponieważ sztuczna inteligencja na początku może nieznacznie poprawiać jakość odpowiedzi na bardziej popularne tematy, maskując jednocześnie degradację w innych obszarach.

Zjawisko to ma daleko idące implikacje. W miarę jak treści generowane przez AI dominować będą zawartość internetu, może dojść do sytuacji, w której AI zacznie „oszukiwać sama siebie”, a jakość generowanych odpowiedzi będzie systematycznie spadać. Shumailov podkreśla, iż jedynym sposobem na zapobieżenie temu zjawisku jest zapewnienie stałego dostępu do danych stworzonych przez ludzi oraz kontynuowanie tworzenia nowych treści.

Obecnie realizowane są dyskusje na temat potencjalnych rozwiązań, jednak jak na razie brak jest jasnych strategii zapobiegających kolapsowi modelu. jeżeli problem ten nie zostanie rozwiązany, może on doprowadzić do poważnych zniekształceń w funkcjonowaniu przyszłych AI, a co za tym idzie, do erozji jakości informacji dostępnych w internecie.

Idź do oryginalnego materiału