Wikipedia ma problem z AI. Boty przeciążają jej serwery

instalki.pl 7 miesięcy temu

Wzrost aktywności botów AI, który stopniowo postępuje od początku 2024 roku, zaczyna poważnie obciążać infrastrukturę internetową projektów Wikimedia, na czele z Wikipedią i Wikimedia Commons. Fundacja Wikimedia ostrzega, iż nadmierne skanowanie i pobieranie treści przez boty zbierające dane do treningu modeli AI prowadzi do przeciążenia serwerów i realnych problemów z dostępnością treści.

Wikipedia pod oblężeniem botów AI

W ciągu ostatnich miesięcy fundacja Wikimedia odnotowała gwałtowny wzrost ruchu na swoich stronach – głównie z powodu automatycznych botów AI należących do gigantów technologicznych takich jak OpenAI. Noty te masowo pobierają teksty, obrazy i inne zasoby multimedialne, by zasilać nimi modele sztucznej inteligencji. Problem dotyczy nie tylko Wikipedii, ale także Wikimedia Commons – repozytorium zawierającego ponad 144 miliony plików multimedialnych.

Ogólnie rzecz biorąc, od początku 2024 roku fundacja Wikimedia odnotowała aż ponad 50-procentowy wzrost zużycia przepustowości związanej z pobieraniem multimediów. Większość tego ruchu tworzą właśnie niekontrolowane boty, które omijają cache i bezpośrednio obciążają główne centra danych fundacji.

Wikipedia w formie TikToka? Powstał projekt WikiTok

Punktem kulminacyjnym w historii omawianego problemu był grudzień 2024 roku, kiedy po śmierci byłego prezydenta USA, Jimmy’ego Cartera, miliony użytkowników odwiedziły jego stronę na angielskiej Wikipedii. Sam ruch generowany przez ludzi był jeszcze do opanowania, ale jako iż dodatkowe boty AI masowo strumieniowały archiwalne nagrania, takie jak 1,5-godzinny zapis debaty Cartera z Reaganem z 1980 roku, doszło do zatoru w niektórych punktach połączenia Wikipedii z Internetem. Zespół odpowiedzialny za infrastrukturę strony został zatem zmuszony do manualnego przekierowywania ruchu.

Apel o odpowiedzialność i współpracę

Fundacja Wikimedia zauważa, iż zjawisko niekontrolowanego zbierania danych przez boty z myślą o AI wpływa dziś na cały Internet, a nie tylko na jej własne serwery. W odpowiedzi organizacja pracuje więc nad rozwiązaniami, które pozwolą lepiej kontrolować dostęp do treści. Mają należeć do nich dedykowane API dla firm AI, które miałyby zmniejszyć obciążenie sieci i ułatwić identyfikację nadużyć.

Jednocześnie Wikimedia nawołuje firmy opracowujące modele AI do współpracy i ku temu, by zaczęły rozsądniej i bardziej odpowiedzialnie podchodzić do kwestii pozyskiwania treści z Internetu. Jak sama wskazuje, „jej treści są darmowe, infrastruktura nie”. Tak samo jest w przypadku wielu innych miejsc w sieci.

Wikipedia ma poważny problem: bełkot AI. Ruszył specjalny projekt

Źródło: Wikimedia, fot. tyt. Canva

AIsztuczna inteligencjaWikipedia

Idź do oryginalnego materiału