Wywiad z dyrektorem: Otwarte modele, zalety i wady

cyberfeed.pl 3 miesięcy temu

Dział badawczy Meta udostępnił szerszej społeczności badawczej szereg swoich wewnętrznych projektów związanych ze sztuczną inteligencją (AI), próbując pomóc jej ulepszyć modele sztucznej inteligencji.

Fundamental AI Research (Fair) to grupa badawcza o otwartej nauce w firmie zajmującej się mediami społecznościowymi. Liczy od 500 do 600 osób w Europie i Ameryce Północnej i koncentruje się na rozwiązywaniu podstawowych problemów związanych ze sztuczną inteligencją.

Firma Fair opublikowała niedawno kilka nowych artefaktów badawczych, które, jak ma nadzieję, umożliwią społeczności badawczej wprowadzanie innowacji, eksplorowanie i odkrywanie nowych sposobów stosowania sztucznej inteligencji na dużą skalę.

Należą do nich Chameleon, który zapewnia ujednoliconą architekturę wprowadzania i wyprowadzania tekstu i obrazów; przewidywanie wielu tokenów do trenowania modeli językowych w celu przewidywania wielu przyszłych słów jednocześnie; oraz AudioSeal, technika znakowania wodnego dźwięku.

Patrząc na rolę Fair w biznesie giganta mediów społecznościowych, Joëlle Pineau, wiceprezes Meta ds. badań nad sztuczną inteligencją, mówi: „Niekoniecznie jesteśmy zespołem, który wprowadza te innowacje do produktu. Jesteśmy całkowicie skupieni na rozwiązywaniu problemów związanych ze sztuczną inteligencją.”

Fair udostępnia publicznie badania wraz z bazami kodów, zbiorami danych, modelami, recepturami szkoleniowymi i przewodnikami bezpieczeństwa. Chociaż grupa koncentruje się na fundamentalnych innowacjach, wyniki badań są udostępniane wewnętrznie zespołowi ds. badań stosowanych Meta, który według niej przyjmuje model i zastanawia się, jak przejść od koncepcji takiej jak nowy Chameleon, a następnie współpracuje z zespołami ds. produktów Meta, aby przekształcić go w produkt.

„Na przestrzeni lat wiele naszych innowacji przekształciło się w produkty” – mówi Pineau. „Jeśli widziałeś okulary Meta – inteligentne okulary – model sztucznej inteligencji, na którym działają, powstał w wyniku naszych badań. Z naszego laboratorium badawczego wyszedł pierwszy model Lamy. Ale jako Lamy 2 i 3 skupiają się na produkciesą opracowywane przez generatywną sztuczną inteligencję Meta [GenAI] zespół, który jest raczej zespołem zajmującym się badaniami stosowanymi.”

Nowe otwarte modele

Meta Chameleon wykorzystuje tokenizację tekstu i obrazów. Zdaniem firmy umożliwia to bardziej ujednolicone podejście i ułatwia projektowanie, konserwację i skalowanie modelu. Obszary zastosowań obejmują generowanie kreatywnych podpisów do obrazów lub wykorzystanie kombinacji podpowiedzi tekstowych i obrazów w celu stworzenia zupełnie nowej sceny.

Pineau twierdzi, iż w przypadku Chameleon model wykorzystuje tekst i obrazy, aby uzasadnić określone adekwatności. „Wytrenowaliśmy Chameleona do około 30 miliardów parametrów, czyli znacznie mniej niż na przykład modele takie jak Lama, GPT i tak dalej” – mówi. „Mamy jednak dowód koncepcji, który sprawdza się w określonych rozmiarach.

„Zespoły zajmujące się badaniami stosowanymi mogą albo zwiększyć skalę rozwiązania, albo sprawić, iż będzie działać z różnymi typami danych i przy różnych ograniczeniach” – mówi Pineau.

Drugie badanie, które Meta upubliczniła, dotyczy nowego podejścia do tokenizacji. Większość współczesnych dużych modeli językowych (LLM) ma prosty cel szkoleniowy: przewidywanie następnego słowa. Chociaż takie podejście jest proste i skalowalne, Meta twierdzi, iż jest również nieefektywne. Wymaga to o kilka rzędów wielkości więcej tekstu, niż dzieci potrzebują, aby nauczyć się tego samego stopnia płynności językowej.

– mówi Pineau przewidywanie wielu tokenów został bezpośrednio zainspirowany pracą nad generowaniem kodu. „Istnieje możliwość wygenerowania wielu tokenów w sposób ustrukturyzowany, a nie tylko liniowy” – mówi.

„Podczas gdy klasyczne LLM po prostu generują jedno słowo po drugim i linearyzują produkt tokeny wyjściowe, w przypadku kodu wiele osób nie pisze jednego tokena na raz. Piszesz strukturę kodu, następnie piszesz niektóre podstruktury, a następnie rozwiązujesz szczegóły w kategoriach struktur, a podczas budowania kodu przechodzisz tam i z powrotem na różnych poziomach abstrakcji.

Dodaje, iż jest to znacznie bardziej złożone niż podejście liniowe stosowane w LLM.

Debata zamknięta kontra otwarta

Zapytany o to, czy jest miejsce na zamknięte modele sztucznej inteligencji, Pineau uważa, iż model sztucznej inteligencji powinien zostać otwarty, jeżeli istnieją zabezpieczenia zapewniające, iż nie spowoduje on nadmiernego ryzyka.

„W przypadku naszego modelu Chameleon po przeprowadzeniu analizy ryzyka zdecydowaliśmy, iż nie udostępnimy możliwości generowania obrazu” – mówi. „Model jest w stanie generować obrazy, ale uznaliśmy, iż środki bezpieczeństwa nie są wystarczająco dojrzałe”.

Innym modelem opracowanym przez Fair, który został opublikowany, ale nie został wydany, jest model syntezy głosu. „W ciągu kilku sekund od nagrania głosu danej osoby jesteśmy w stanie w zasadzie wygenerować mowę naśladuje czyjś głos do tego stopnia, iż wprowadza w błąd” – mówi Pineau.

Jej zdaniem w tym przypadku nie istnieją narzędzia uwierzytelniające, które potrafiłyby rozróżnić głos wygenerowany przez sztuczną inteligencję od prawdziwego nagrania głosu. Jednakże Meta badała kwestię uwierzytelniania i twierdzi, iż technika znakowania wodnego AudioSeal została udostępniona małej grupie badaczy akademickich w celu sprawdzenia modelu przez osoby trzecie. Chociaż techniki znakowania wodnego dźwięku nie są na tyle zaawansowane, aby dać badaczom Meta pewność, iż mają wystarczające bezpieczeństwo, aby udostępnić publicznie model syntezy głosu, AudioSeal został zaprojektowany specjalnie do lokalnego wykrywania mowy generowanej przez sztuczną inteligencję.

Czy zatem warto dać im szansę? Chociaż nowe modele sztucznej inteligencji udostępnione przez Meta są otwarte, Pineau twierdzi, iż istnieje rozsądna krzywa uczenia się, aby dowiedzieć się, jak zmusić je do działania – ale osoby rutynowo korzystające z modeli, takich jak te dostępne za pośrednictwem Hugging Face, powinny być w stanie wstać i działać stosunkowo łatwo.

„Mamy ludzi, którzy biorą model taki jak Lama i dopracowują go, a w ciągu 48 godzin dostępna jest dopracowana wersja, która pojawia się na niektórych [AI model] rankingach” – mówi. „To naprawdę zależy od twojego poziomu biegłości”.

Rozpoczęcie pracy nie wymaga sprzętu najwyższej klasy. Mówi, iż w niektórych przypadkach modele są dostępne w różnych rozmiarach: mniejsze modele mogą działać na jednym procesorze graficznym i łatwiej jest z nimi zacząć. „Większe modele wymagają większej wiedzy na temat systemów rozproszonych, aby uzyskać wymagany poziom wydajności” – mówi Pineau.

Source link

Idź do oryginalnego materiału