Wewnątrz wyścigu Meta o pokonanie OpenAI: „Musimy nauczyć się budować granice i wygrać ten wyścig”

cyberfeed.pl 20 godzin temu


Poważny pozew dotyczący praw autorskich przeciwko Meta ujawnił mnóstwo wewnętrznych komunikatów na temat planów firmy dotyczących opracowania modeli sztucznej inteligencji o otwartym kodzie źródłowym, Llama, które obejmują dyskusje na temat unikania „doniesień medialnych sugerujących, iż wykorzystaliśmy zbiór danych, o którym wiemy, iż jest piracki”.

Wiadomości, które były częścią serii dowodów ujawnionych przez kalifornijski sąd, sugerują, iż Meta wykorzystywała dane chronione prawem autorskim podczas szkolenia swoich systemów sztucznej inteligencji i pracowała nad ich ukryciem, ścigając się z rywalami takimi jak OpenAI i Mistral. Części wiadomości zostały ujawnione po raz pierwszy ostatni tydzień.

W e-mailu z października 2023 r. skierowanym do badacza Meta AI, Hugo Touvrona, Ahmad Al-Dahle, wiceprezes Meta ds. generatywnej sztucznej inteligencji: napisał, iż celem firmy „musi być GPT4”, odnosząc się do dużego modelu językowego OpenAI ogłoszony w marcu 2023 r. Meta musiała „nauczyć się, jak budować granice i wygrywać ten wyścig” – dodał Al-Dahle. Plany te najwyraźniej obejmowały witryna poświęcona piractwu książek Library Genesis (LibGen) do szkolenia swoich systemów sztucznej inteligencji.

Jakiś niedatowany e-mail od dyrektora Meta produktu Sony Theakanathwysłane do wiceprezes ds. badań nad sztuczną inteligencją, Joelle Pineau, rozważało, czy używać LibGen wyłącznie wewnętrznie, na potrzeby testów porównawczych zawartych w poście na blogu, czy też stworzyć model przeszkolony na stronie. W e-mailu Theakanath pisze, iż „GenAI zostało zatwierdzone do używania LibGen dla Llama3… z szeregiem uzgodnionych ograniczeń” po przekazaniu informacji do „MZ” – prawdopodobnie dyrektora generalnego Meta, Marka Zuckerberga. Jak zauważono w e-mailu, Theakanath uważał, iż „Libgen jest niezbędny, aby spełnić wymagania SOTA [state-of-the-art] liczby”, dodając: „Wiadomo, iż OpenAI i Mistral korzystają z biblioteki w swoich modelach (poprzez pocztę pantoflową)”. Mistral i OpenAI nie podały, czy korzystają z LibGen. (Krawędź skontaktowałem się z obydwoma, aby uzyskać więcej informacji).

Theakanath z Meta pisze, iż LibGen jest „niezbędny” do osiągnięcia „liczb SOTA we wszystkich kategoriach”.Zrzut ekranu: Krawędź

The dokumenty sądowe pochodzą z pozwu zbiorowego autor ten Richard Kadrey, komik Sarah Silverman i inni złożyli skargę przeciwko Meta, oskarżając ją o wykorzystywanie nielegalnie uzyskanych treści chronionych prawem autorskim do szkolenia modeli sztucznej inteligencji z naruszeniem praw własności intelektualnej. Meta, podobnie jak inne firmy zajmujące się sztuczną inteligencją, argumentowała, iż ​​wykorzystywanie materiałów chronionych prawem autorskim w danych szkoleniowych powinno stanowić legalny dozwolony użytek. Krawędź skontaktował się z Metą z prośbą o komentarz, ale nie otrzymał odpowiedzi od razu.

Niektóre z „ograniczeń” związanych z korzystaniem z LibGen obejmowały zastrzeżenia, iż ​​Meta musi „usunąć dane wyraźnie oznaczone jako pirackie/skradzione”, unikając jednocześnie zewnętrznego cytowania „wykorzystania jakichkolwiek danych szkoleniowych” ze strony. W e-mailu Theakanatha napisano również, iż firma będzie musiała „zestawić zespół” swoich modeli „w zakresie broni biologicznej i CBRNE” [Chemical, Biological, Radiological, Nuclear, and Explosives]”ryzyka.

W e-mailu omówiono także niektóre „ryzyka polityczne” wynikające z korzystania z LibGen, w tym sposób, w jaki organy regulacyjne mogą zareagować na doniesienia medialne sugerujące wykorzystanie przez Meta pirackich treści. „Może to podważyć nasze stanowisko negocjacyjne z organami regulacyjnymi w tych kwestiach” – napisano w e-mailu. Rozmowa z kwietnia 2023 r pomiędzy badaczem Meta Nikołajem Bashlykowem a członkiem zespołu AI Davidem Esiobu pokazał również Bashlykovowi, jak przyznaje, iż „nie jest pewien, czy możemy używać adresów IP meta do ładowania przez torrenty [of] treści pirackie.”

Inne dokumenty wewnętrzne pokaż, jakie kroki podjęła Meta, aby ukryć informacje o prawach autorskich w danych szkoleniowych LibGen. Dokument zatytułowany „Obserwacje dotyczące LibGen-SciMag” przedstawia komentarze pozostawione przez pracowników na temat sposobów udoskonalenia zbioru danych. Jedną z sugestii jest „usunięcie większej liczby nagłówków praw autorskich i identyfikatorów dokumentów”, co obejmuje wszelkie wiersze zawierające „ISBN”, „Prawa autorskie”, „Wszelkie prawa zastrzeżone” lub symbol praw autorskich. Inne notatki wspominają o usunięciu większej liczby metadanych „w celu uniknięcia potencjalnych komplikacji prawnych”, a także rozważeniu, czy usunąć listę autorów artykułu „w celu zmniejszenia odpowiedzialności”.

W dokumencie omówiono usuwanie „nagłówków praw autorskich i identyfikatorów dokumentów”.Zrzut ekranu: Krawędź

W czerwcu ubiegłego roku New York Timesa zgłoszone o szalonym wyścigu w Meta po debiucie ChatGPT, ujawniając, iż firma uderzyła w mur: zużyła prawie wszystkie dostępne książki, artykuły i wiersze w języku angielskim, jakie można było znaleźć w Internecie. Zdesperowani dyrektorzy, chcący uzyskać więcej danych, podobno od razu dyskutowali o zakupie firmy Simon & Schuster i rozważali zatrudnienie wykonawców w Afryce do streszczania ksiąg bez pozwolenia.

W raporcie niektórzy dyrektorzy uzasadnili swoje podejście wskazaniem na „precedens rynkowy” OpenAI dotyczący wykorzystywania dzieł chronionych prawem autorskim, podczas gdy inni argumentowali, iż Zwycięstwo Google w sądzie w 2015 r. ustanawiające jego prawo do skanowania książek mógłby zapewnić ochronę prawną. „Jedyną rzeczą, która powstrzymuje nas od bycia tak dobrym jak ChatGPT, jest dosłownie sama ilość danych” – powiedział na spotkaniu jeden z dyrektorów, per New York Timesa.

Donoszono, iż pionierskie laboratoria, takie jak OpenAI i Anthropic, natknęły się na ścianę danych, co oznacza, iż ​​nie mają wystarczającej liczby nowych danych, aby wytrenować swoje duże modele językowe. Wielu liderów temu zaprzeczyło, dyrektor generalny OpenAI Sam Altman powiedział wyraźnie: „Nie ma ściany”. Współzałożyciel OpenAI Ilya Sutskever, który opuścił firmę w maju ubiegłego roku rozpoczęcia nowego laboratorium granicznego, w prostszy sposób przedstawił potencjał ściany danych. Na w zeszłym miesiącu odbyła się najważniejsza konferencja dotycząca sztucznej inteligencjiSutskever powiedział: „Osiągnęliśmy szczytowe dane i nie będzie ich więcej. Musimy sobie radzić z danymi, które mamy. Internet jest tylko jeden.”

Ten niedobór danych doprowadził do powstania wielu dziwnych, nowych sposobów uzyskiwania unikalnych danych. Bloomberga zgłoszone iż pionierskie laboratoria, takie jak OpenAI i Google, płacą twórcom treści cyfrowych od 1 do 4 dolarów za minutę za niewykorzystany materiał wideo za pośrednictwem strony trzeciej w celu szkolenia LLM (obie te firmy mają konkurencyjne produkty do generowania wideo AI).

Ponieważ firmy takie jak Meta i OpenAI chcą jak najszybciej rozwijać swoje systemy AI, sprawy z pewnością staną się nieco niejasne. Chociaż sędzia częściowo oddalił pozew zbiorowy Kadreya i Silvermana w zeszłym roku pozew, przedstawione tutaj dowody mogą wzmocnić część ich sprawy w miarę toczenia się sprawy w sądzie.



Source link

Idź do oryginalnego materiału