Apple, Anthropic i inne firmy wykorzystały filmy z YouTube do trenowania sztucznej inteligencji

cyberfeed.pl 2 miesięcy temu

Ponad 170 000 filmów z serwisu YouTube stanowi część ogromnego zbioru danych, który został wykorzystany do szkolenia systemów sztucznej inteligencji w niektórych z największych firm technologicznych, zgodnie z dochodzeniem przeprowadzonym przez Dowód Wiadomości i współpublikował z Przewodowy. Apple, Anthropic, Nvidia i Salesforce to niektóre z firm technologicznych, które wykorzystały dane „YouTube Subtitles”, które zostały zerwane z platformy wideo bez pozwolenia. Zestaw danych szkoleniowych to zbiór napisów pobranych z filmów YouTube należących do ponad 48 000 kanałów — nie obejmuje on obrazów z filmów.

W zestawie danych pojawiają się filmy popularnych twórców, takich jak MrBeast i Marques Brownlee, a także klipy z takich serwisów informacyjnych, jak ABC News, BBC i New York Times. Ponad 100 filmów z Skraj pojawiają się w zestawie danych wraz z wieloma innymi filmami z Głos.

„Firma Apple pozyskała dane do swojej sztucznej inteligencji od kilku firm, Brownlee, znany pod pseudonimem MKBHD, napisał w poście na X„Jeden z nich wyciągnął tony danych/transkrypcji z filmów na YouTube, w tym z moich”. Dodał: „To będzie rozwijający się problem przez długi czas”.

YouTube nie odpowiedział natychmiast Skraj‘S prośba o komentarz.

W ramach prowadzonego śledztwa Proof News opublikował także interaktywne narzędzie wyszukiwania. Możesz użyć funkcji wyszukiwania, aby sprawdzić, czy Twoja treść — lub treść Twojego ulubionego YouTubera — pojawia się w zestawie danych.

Zestaw danych napisów jest częścią większej kolekcji materiałów z non-profit EleutherAI o nazwie The Pile. Kolekcja open-source znana jako Pile zawiera również zestawy danych książek, artykułów z Wikipedii i innych. W zeszłym roku analiza jednego zestawu danych o nazwie Books3 ujawniono, których autorów prace wykorzystano do trenowania systemów AI, a zbiór danych został zacytowany w pozwy sądowe autorów przeciwko firmom, które wykorzystywały ją do szkolenia sztucznej inteligencji.

Firmy AI rzadko chętnie ujawniają dane, które trafiają do ich systemów AI; to, w jaki sposób konkretnie wykorzystywane są treści z YouTube, było kluczowym pytaniem w ostatnich miesiącach. W marcu kiedy OpenAI zaprezentowało swoje potężne narzędzie do generowania wideo, SoraCTO Mira Murati wielokrotnie unikała pytań o to, czy system został wytrenowany na filmach z YouTube.

„Nie będę wchodzić w szczegóły wykorzystanych danych, ale były to dane publicznie dostępne lub objęte licencją” – powiedziała Dziennik Wall Street w tym czasie. Gdy naciskany przez Dziennik konkretnie o treściach na YouTube, Murati powiedziała, iż „nie była tego pewna”.

W poprzednich wywiadachDyrektor generalny YouTube’a, Neal Mohan, stwierdził, iż wykorzystanie treści wideo do trenowania sztucznej inteligencji — w tym transkrypcji — naruszałoby warunki platformy.

Source link

Idź do oryginalnego materiału