Zgodnie z nową definicją OSI sztuczna inteligencja typu open source musi ujawniać swoje dane szkoleniowe

cyberfeed.pl 2 miesięcy temu

Inicjatywa Open Source (OSI) ma opublikowało oficjalną definicję „otwartej” sztucznej inteligencjiprzygotowując grunt pod starcie z gigantami technologicznymi, takimi jak Meta, których modele nie odpowiadają regułom.

OSI od dawna wyznacza standardy branżowe w zakresie systemu typu open source, ale systemy sztucznej inteligencji zawierają elementy, które nie są objęte konwencjonalnymi licencjami, takie jak dane szkoleniowe modeli. Aby system AI można było uznać za prawdziwie open source, musi zapewniać:

Dostęp do szczegółowych informacji na temat danych wykorzystywanych do uczenia sztucznej inteligencji, aby inni mogli ją zrozumieć i odtworzyć
Kompletny kod używany do budowania i uruchamiania sztucznej inteligencji
Ustawienia i ciężary z treningu, które pomagają AI osiągać wyniki

Definicja ta bezpośrednio podważa lamę Meta, szeroko promowaną jako największy model sztucznej inteligencji typu open source. Lama jest publicznie dostępna do pobrania i używania, ale ma ograniczenia dotyczące użytku komercyjnego (w przypadku aplikacji z ponad 700 milionami użytkowników) i nie zapewnia dostępu do danych szkoleniowych, przez co nie spełniają one standardów OSI dotyczących nieograniczonej wolności użytkowania, modyfikowania i udostępniania.

– powiedziała rzeczniczka Meta, Faith Eischen Krawędź iż chociaż „w wielu kwestiach zgadzamy się z naszym partnerem OSI”, firma nie zgadza się z tą definicją. „Nie ma jednej definicji sztucznej inteligencji typu open source, a zdefiniowanie jej stanowi wyzwanie, ponieważ poprzednie definicje open source nie obejmują złożoności dzisiejszych gwałtownie rozwijających się modeli sztucznej inteligencji”.

„Będziemy kontynuować współpracę z OSI i innymi grupami branżowymi, aby sztuczna inteligencja była bardziej dostępna i bezpłatna w sposób odpowiedzialny, niezależnie od definicji technicznych” – dodał Eischen.

Od 25 lat definicja systemu typu open source opracowana przez firmę OSI jest powszechnie akceptowana przez programistów, którzy chcą opierać się na swojej pracy bez obawy przed procesami sądowymi lub pułapkami licencyjnymi. Teraz, gdy sztuczna inteligencja zmienia krajobraz, giganci technologiczni stają przed kluczowym wyborem: przyjąć ustalone zasady lub je odrzucić. Fundacja Linuksa również to zrobiła podjął niedawną próbę zdefiniowanie „sztucznej inteligencji typu open source”, sygnalizując rosnącą debatę na temat tego, jak tradycyjne wartości open source dostosują się do ery sztucznej inteligencji.

„Teraz, gdy mamy solidną definicję, być może będziemy mogli bardziej agresywnie przeciwstawić się firmom, które „otwarcie prasują” i deklarują, iż ich praca jest oprogramowaniem typu open source, podczas gdy w rzeczywistości tak nie jest” – Simon Willison, niezależny badacz i twórca otwartego środowiska -source zestaw danych wielu narzędzi, powiedział Krawędź.

Dyrektor generalny Hugging Face Clément Delangue nazwał definicję OSI „ogromną pomocą w kształtowaniu rozmowy na temat otwartości w sztucznej inteligencji, szczególnie jeżeli chodzi o kluczową rolę danych szkoleniowych”.

Dyrektor wykonawczy OSI, Stefano Maffulli, twierdzi, iż udoskonalenie tej definicji w procesie współpracy zajęło dwa lata, konsultując się z ekspertami na całym świecie. Wymagało to współpracy ze środowiskiem akademickim, ekspertami w dziedzinie uczenia maszynowego i przetwarzania języka naturalnego, filozofami, twórcami treści ze świata Creative Commons i nie tylko.

Choć Meta powołuje się na obawy związane z bezpieczeństwem w związku z ograniczaniem dostępu do swoich danych szkoleniowych, krytycy widzą prostszy motyw: minimalizację odpowiedzialności prawnej i zabezpieczenie przewagi konkurencyjnej. Wiele modeli sztucznej inteligencji prawie na pewno szkoli się na materiałach chronionych prawem autorskim; w kwietniu, New York Timesa zgłoszone iż Meta wewnętrznie przyznała, iż w jej danych szkoleniowych znajdują się treści chronione prawem autorskim, „ponieważ nie możemy tego nie zebrać”. Istnieje cała litania pozwów przeciwko Meta, OpenAI, Perplexity, Anthropic i innym podmiotom w związku z rzekomymi naruszeniami. Jednak z nielicznymi wyjątkami – takimi jak Stable Diffusion, które ujawnia swoje dane szkoleniowe – powodowie muszą w tej chwili opierać się na poszlakach, aby wykazać, iż ich praca została zmarnowana.

Tymczasem Maffulli widzi, iż historia open source się powtarza. „Meta przedstawia te same argumenty”, co Microsoft w latach 90., kiedy postrzegał oprogramowanie open source jako zagrożenie dla swojego modelu biznesowego, powiedział Maffulli Krawędź. Przypomina sobie, jak Meta opowiadała mu o intensywnych inwestycjach w Lamę i pytała: „Jak myślisz, kto będzie w stanie zrobić to samo?” Maffulli dostrzegł znajomy schemat: gigant technologiczny wykorzystujący koszty i złożoność, aby uzasadnić trzymanie swojej technologii w tajemnicy. „Wracamy do początków” – powiedział.

„To ich sekretny sos” – powiedział Maffulli o danych szkoleniowych. „To cenne IP.”

Source link

Idź do oryginalnego materiału