Meta oskarżona o trenowanie sztucznej inteligencji przy użyciu pirackich treści z torrentów

cyberfeed.pl 17 godzin temu

Nowy dzień, nowe kontrowersje wokół sztucznej inteligencji. Tym razem Meta została oskarżona o wykorzystywanie pirackich treści z torrentów do uczenia swojego dużego modelu językowego (LLM) Llama, który napędza Meta AI. Sprawa była jednym z pierwszych pozwów dotyczących praw autorskich wniesionych przeciwko firmie technologicznej w celu szkolenia sztucznej inteligencji.

Dokumenty ujawniają, iż Meta AI została przeszkolona przy użyciu pirackich treści

Jak informuje PrzewodowyW 2023 r. Meta została postawiona przed sądem w związku z rzekomym szkoleniem Llamy, spółki LLM, dzięki pirackich treści. Sprawa stała się znana jako „Kadrey et al. v. Meta Platforms” i został złożony przez pisarzy Richarda Kadreya i Christophera Goldena, którzy twierdzili, iż Meta wykorzystywała treści chronione prawem autorskim bez zezwolenia.

Do tej pory Meta przekazywała sądowi dokumenty ze zredagowanymi informacjami, ale sędzia Vince Chhabria z Sądu Okręgowego Stanów Zjednoczonych dla Północnego Okręgu Kalifornii nakazał upublicznienie oryginałów dokumentów – i tak się stało.

Dokumenty ujawniają rozmowy pracowników Meta na temat Meta AI i Lamy. W jednej z rozmów inżynier mówi, iż „torrentowanie z pliku [Meta-owned] laptop firmowy nie wydaje się odpowiedni”, co potwierdza, iż firma wykorzystywała pirackie treści do szkolenia swojej sztucznej inteligencji. Z innej rozmowy wynika, iż „MZ” (Mark Zuckeberg) wyraził zgodę na wykorzystanie pirackich materiałów.

Dowody wskazują, iż Meta korzystała z treści LibGen – ogromnej biblioteki pirackich książek, czasopism i artykułów akademickich. LibGen powstał w Rosji w 2008 roku i od tego czasu był przedmiotem wielu procesów sądowych dotyczących praw autorskich, mimo iż nikt nie wie, kto faktycznie zarządza „centrum piractwa”. Meta podobno wykorzystywała także treści z innych „bibliotek cieni” do szkolenia sztucznej inteligencji.

Spółka argumentuje, iż korzystała z materiałów publicznych w ramach doktryny prawnej „dozwolonego użytku”, która w określonych okolicznościach, które są analizowane indywidualnie, pozwala na wykorzystanie treści chronionych prawem autorskim bez pozwolenia. Meta twierdzi również, iż to po prostu „używanie tekstu do statystycznego modelowania języka i generowania oryginalnych wyrażeń”.

A co z inteligencją Apple?

To nie pierwszy raz, gdy wielkie technologie są oskarżane o trenowanie modeli sztucznej inteligencji przy użyciu treści chronionych prawem autorskim. Wykazało to śledztwo z ubiegłego roku model OpenELM stworzony przez Apple zawierał napisy z ponad 170 000 filmów na YouTube.

Chociaż początkowo ludzie wierzyli, iż Apple wykorzystuje treści chronione prawem autorskim do szkolenia Apple Intelligence, firma wyjaśniła później, iż OpenELM to model open source stworzony do celów badawczych i iż jego baza danych nie jest wykorzystywana do zasilania Apple Intelligence.

Według Apple funkcje sztucznej inteligencji dostępne w systemach iOS i macOS są szkolone „na licencjonowanych danych, w tym danych wybranych w celu ulepszenia określonych funkcji, a także publicznie dostępnych danych zebranych przez nasz robot indeksujący”.

Warto dodać, iż wielu dużych wydawców jak np New York Timesa I Atlantyk zdecydowali się nie udostępniać swoich treści szkoleniom Apple Intelligence.

FTC: Korzystamy z automatycznych linków partnerskich generujących dochód. Więcej.