Poważny pozew dotyczący praw autorskich przeciwko Meta ujawnił mnóstwo wewnętrznych komunikatów na temat planów firmy dotyczących opracowania modeli sztucznej inteligencji o otwartym kodzie źródłowym, Llama, które obejmują dyskusje na temat unikania „doniesień medialnych sugerujących, iż wykorzystaliśmy zbiór danych, o którym wiemy, iż jest piracki”.
Wiadomości, które były częścią serii dowodów ujawnionych przez kalifornijski sąd, sugerują, iż Meta wykorzystywała dane chronione prawem autorskim podczas szkolenia swoich systemów sztucznej inteligencji i pracowała nad ich ukryciem, ścigając się z rywalami takimi jak OpenAI i Mistral. Części wiadomości zostały ujawnione po raz pierwszy ostatni tydzień.
W e-mailu z października 2023 r. skierowanym do badacza Meta AI, Hugo Touvrona, Ahmad Al-Dahle, wiceprezes Meta ds. generatywnej sztucznej inteligencji: napisał, iż celem firmy „musi być GPT4”, odnosząc się do dużego modelu językowego OpenAI ogłoszony w marcu 2023 r. Meta musiała „nauczyć się, jak budować granice i wygrywać ten wyścig” – dodał Al-Dahle. Plany te najwyraźniej obejmowały witryna poświęcona piractwu książek Library Genesis (LibGen) do szkolenia swoich systemów sztucznej inteligencji.
Jakiś niedatowany e-mail od dyrektora Meta produktu Sony Theakanathwysłane do wiceprezes ds. badań nad sztuczną inteligencją, Joelle Pineau, rozważało, czy używać LibGen wyłącznie wewnętrznie, na potrzeby testów porównawczych zawartych w poście na blogu, czy też stworzyć model przeszkolony na stronie. W e-mailu Theakanath pisze, iż „GenAI zostało zatwierdzone do używania LibGen dla Llama3… z szeregiem uzgodnionych ograniczeń” po przekazaniu informacji do „MZ” – prawdopodobnie dyrektora generalnego Meta, Marka Zuckerberga. Jak zauważono w e-mailu, Theakanath uważał, iż „Libgen jest niezbędny, aby spełnić wymagania SOTA [state-of-the-art] liczby”, dodając: „Wiadomo, iż OpenAI i Mistral korzystają z biblioteki w swoich modelach (poprzez pocztę pantoflową)”. Mistral i OpenAI nie podały, czy korzystają z LibGen. (Krawędź skontaktowałem się z obydwoma, aby uzyskać więcej informacji).
Theakanath z Meta pisze, iż LibGen jest „niezbędny” do osiągnięcia „liczb SOTA we wszystkich kategoriach”.Zrzut ekranu: Krawędź
The dokumenty sądowe pochodzą z pozwu zbiorowego autor ten Richard Kadrey, komik Sarah Silverman i inni złożyli skargę przeciwko Meta, oskarżając ją o wykorzystywanie nielegalnie uzyskanych treści chronionych prawem autorskim do szkolenia modeli sztucznej inteligencji z naruszeniem praw własności intelektualnej. Meta, podobnie jak inne firmy zajmujące się sztuczną inteligencją, argumentowała, iż wykorzystywanie materiałów chronionych prawem autorskim w danych szkoleniowych powinno stanowić legalny dozwolony użytek. Krawędź skontaktował się z Metą z prośbą o komentarz, ale nie otrzymał odpowiedzi od razu.
Niektóre z „ograniczeń” związanych z korzystaniem z LibGen obejmowały zastrzeżenia, iż Meta musi „usunąć dane wyraźnie oznaczone jako pirackie/skradzione”, unikając jednocześnie zewnętrznego cytowania „wykorzystania jakichkolwiek danych szkoleniowych” ze strony. W e-mailu Theakanatha napisano również, iż firma będzie musiała „zestawić zespół” swoich modeli „w zakresie broni biologicznej i CBRNE” [Chemical, Biological, Radiological, Nuclear, and Explosives]”ryzyka.
W e-mailu omówiono także niektóre „ryzyka polityczne” wynikające z korzystania z LibGen, w tym sposób, w jaki organy regulacyjne mogą zareagować na doniesienia medialne sugerujące wykorzystanie przez Meta pirackich treści. „Może to podważyć nasze stanowisko negocjacyjne z organami regulacyjnymi w tych kwestiach” – napisano w e-mailu. Rozmowa z kwietnia 2023 r pomiędzy badaczem Meta Nikołajem Bashlykowem a członkiem zespołu AI Davidem Esiobu pokazał również Bashlykovowi, jak przyznaje, iż „nie jest pewien, czy możemy używać adresów IP meta do ładowania przez torrenty [of] treści pirackie.”
Inne dokumenty wewnętrzne pokaż, jakie kroki podjęła Meta, aby ukryć informacje o prawach autorskich w danych szkoleniowych LibGen. Dokument zatytułowany „Obserwacje dotyczące LibGen-SciMag” przedstawia komentarze pozostawione przez pracowników na temat sposobów udoskonalenia zbioru danych. Jedną z sugestii jest „usunięcie większej liczby nagłówków praw autorskich i identyfikatorów dokumentów”, co obejmuje wszelkie wiersze zawierające „ISBN”, „Prawa autorskie”, „Wszelkie prawa zastrzeżone” lub symbol praw autorskich. Inne notatki wspominają o usunięciu większej liczby metadanych „w celu uniknięcia potencjalnych komplikacji prawnych”, a także rozważeniu, czy usunąć listę autorów artykułu „w celu zmniejszenia odpowiedzialności”.
W dokumencie omówiono usuwanie „nagłówków praw autorskich i identyfikatorów dokumentów”.Zrzut ekranu: Krawędź
W czerwcu ubiegłego roku New York Timesa zgłoszone o szalonym wyścigu w Meta po debiucie ChatGPT, ujawniając, iż firma uderzyła w mur: zużyła prawie wszystkie dostępne książki, artykuły i wiersze w języku angielskim, jakie można było znaleźć w Internecie. Zdesperowani dyrektorzy, chcący uzyskać więcej danych, podobno od razu dyskutowali o zakupie firmy Simon & Schuster i rozważali zatrudnienie wykonawców w Afryce do streszczania ksiąg bez pozwolenia.
W raporcie niektórzy dyrektorzy uzasadnili swoje podejście wskazaniem na „precedens rynkowy” OpenAI dotyczący wykorzystywania dzieł chronionych prawem autorskim, podczas gdy inni argumentowali, iż Zwycięstwo Google w sądzie w 2015 r. ustanawiające jego prawo do skanowania książek mógłby zapewnić ochronę prawną. „Jedyną rzeczą, która powstrzymuje nas od bycia tak dobrym jak ChatGPT, jest dosłownie sama ilość danych” – powiedział na spotkaniu jeden z dyrektorów, per New York Timesa.
Donoszono, iż pionierskie laboratoria, takie jak OpenAI i Anthropic, natknęły się na ścianę danych, co oznacza, iż nie mają wystarczającej liczby nowych danych, aby wytrenować swoje duże modele językowe. Wielu liderów temu zaprzeczyło, dyrektor generalny OpenAI Sam Altman powiedział wyraźnie: „Nie ma ściany”. Współzałożyciel OpenAI Ilya Sutskever, który opuścił firmę w maju ubiegłego roku rozpoczęcia nowego laboratorium granicznego, w prostszy sposób przedstawił potencjał ściany danych. Na w zeszłym miesiącu odbyła się najważniejsza konferencja dotycząca sztucznej inteligencjiSutskever powiedział: „Osiągnęliśmy szczytowe dane i nie będzie ich więcej. Musimy sobie radzić z danymi, które mamy. Internet jest tylko jeden.”
Ten niedobór danych doprowadził do powstania wielu dziwnych, nowych sposobów uzyskiwania unikalnych danych. Bloomberga zgłoszone iż pionierskie laboratoria, takie jak OpenAI i Google, płacą twórcom treści cyfrowych od 1 do 4 dolarów za minutę za niewykorzystany materiał wideo za pośrednictwem strony trzeciej w celu szkolenia LLM (obie te firmy mają konkurencyjne produkty do generowania wideo AI).
Ponieważ firmy takie jak Meta i OpenAI chcą jak najszybciej rozwijać swoje systemy AI, sprawy z pewnością staną się nieco niejasne. Chociaż sędzia częściowo oddalił pozew zbiorowy Kadreya i Silvermana w zeszłym roku pozew, przedstawione tutaj dowody mogą wzmocnić część ich sprawy w miarę toczenia się sprawy w sądzie.