VASA-1 AI Microsoftu zamienia zdjęcia w realistyczne filmy z rozmawiającymi ludźmi

mobirank.pl 1 tydzień temu

Sami twórcy przyznają jednak, iż kryje się w nim potencjał do niewłaściwego wykorzystania – model VASA-1 AI może generować realistyczny materiał wideo z „gadającą głową” z pojedynczego zdjęcia.

Firma Microsoft Research Asia ujawniła model sztucznej inteligencji VASA-1 AI, który może generować przerażająco realistyczne filmy typu deepfake z jednego obrazu i ścieżki dźwiękowej. Jak odtąd będziemy mogli ufać temu, co widzimy i słyszymy w internecie? W ciągu ostatnich kilku lat systemy sztucznej inteligencji pokonały nas w kluczowych testach i już wielu ludzi bardzo martwi się, iż zostaną przedwcześnie wyrzuceni z pracy i zostaną zastąpieni przez algorytmy.

Niedawno byliśmy świadkami przemiany dość ograniczonej liczby inteligentnych gadżetów w potężnych asystentów codziennego użytku i niezbędne narzędzia zwiększające produktywność. Istnieją modele, które potrafią generować realistyczne efekty dźwiękowe do niemych klipów wideo, a choćby tworzyć oszałamiający materiał na podstawie komunikatów tekstowych. Framework VASA-1 firmy Microsoft wydaje się być kolejnym ogromnym krokiem naprzód.

Po przeszkoleniu modelu na materiale około 6000 prawdziwych „gadających twarzy” ze zbioru danych VoxCeleb2, technologia jest w stanie wygenerować przerażający, prawdziwy film, w którym nowo animowany obiekt nie tylko jest w stanie dokładnie zsynchronizować ruch warg ze ścieżką dźwiękową głosu, ale także różnorodne wyrazy twarzy i naturalne ruchy głowy – wszystko z jednego statycznego zdjęcia głowy.

Jest on całkiem podobny do Audio2Video Difusion Model opracowanego przez Alibaba Institute for Intelligent Computer, który pojawił się kilka miesięcy temu, ale pozostało bardziej fotorealistyczny i dokładny. Według doniesień VASA-1 jest w stanie generować zsynchronizowane filmy w rozdzielczości 512 x 512 pikseli przy 40 klatkach na sekundę „ze znikomym opóźnieniem początkowym”.

Chociaż wszystkie zdjęcia referencyjne użyte w demonstracjach projektu zostały wygenerowane przez sztuczną inteligencję StyleGAN2 lub DALL-E, istnieje jeden wyróżniający się przykład ze świata rzeczywistego, który pokazuje zdolność frameworka do wychodzenia poza zestaw treningowy – rapowanie Mona Lisy!

Na stronie projektu znajduje się wiele przykładów filmów zawierających rozmowy i śpiew wygenerowane na podstawie statycznych obrazów i dopasowanych do ścieżki dźwiękowej, ale narzędzie posiada również opcjonalne elementy sterujące umożliwiające ustawienie „dynamiki twarzy i pozycji głowy”, takich jak emocje, mimikę, odległość od wirtualnej kamery wideo i kierunek patrzenia. To bardzo potężna, ale i niebezpieczna rzecz.

Pojawienie się gadających twarzy generowanych przez sztuczną inteligencję otwiera okno na przyszłość, w której technologia wzmacnia bogactwo interakcji człowiek-człowiek i człowiek-AI. Taka technologia może wzbogacić komunikację cyfrową, zwiększyć dostępność dla osób z zaburzeniami komunikacyjnymi, zmienić metody edukacji dzięki interaktywnemu nauczaniu opartemu na sztucznej inteligencji oraz zapewnić wsparcie terapeutyczne i interakcje społeczne w opiece zdrowotnej”.

– czytamy we wstępie do artykułu szczegółowo opisującego nowe osiągnięcie

Wszystko to jest godne pochwały, ale badacze dostrzegają również możliwość niewłaściwego użycia. Chociaż już teraz wydaje się, iż wyeliminowanie faktów z czystej fabrykacji podczas analizowania naszej codziennej dawki wiadomości internetowych jest zadaniem niemożliwym do wykonania, wyobraź sobie, iż masz do dyspozycji narzędzie, które może sprawić, iż prawie każdy będzie sprawiał wrażenie, iż mówi to, co ty chcesz.

Może to przerodzić się w nieszkodliwy żart krewny dzięki FaceTime’a od ulubionego hollywoodzkiego aktora lub gwiazdy popu, wplątanie niewinnej osoby w poważne przestępstwo poprzez opublikowanie zeznań w internecie lub oszukanie kogoś na pieniądze poprzez przyjęcie osobowości ukochanego wnuka, który ma kłopoty, poparcie kluczowych polityków dla skrajnych i kontrowersyjnych programów i tak dalej. Realistycznie i przekonująco.

Jednak treści generowane przez model VASA-1 „zawierają możliwe do zidentyfikowania artefakty”, a badacze nie zamierzają udostępniać platformy publicznie, „dopóki nie będziemy pewni, iż technologia będzie używana w sposób odpowiedzialny i zgodny z odpowiednimi przepisami”.

Artykuł szczegółowo opisujący projekt został opublikowany na serwerze arXiv.

źródło: Microsoft Research – VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time | New Atlas

Idź do oryginalnego materiału