
YouTube pracuje nad rewolucyjną, ale i trochę kontrowersyjną funkcją, która ma na celu ostateczne przełamanie barier językowych w treściach wideo.
Bazując na wprowadzonym w zeszłym roku automatycznym dubbingu, platforma idzie o krok dalej – nowa technologia, napędzana przez AI, będzie w czasie rzeczywistym synchronizować ruch ust twórcy z przetłumaczonym dźwiękiem, sprawiając wrażenie, iż mówi on płynnie w języku, którego nie zna.
Problem z automatycznie dubbingowanymi filmami polegał do tej pory na dysonansie poznawczym – słyszeliśmy tłumaczenie, ale widzieliśmy oryginalny, niedopasowany ruch warg, co było nienaturalne i rozpraszające dla wielu użytkowników z krajów, w których tak popularny w Polsce lektor jest kompletnie nieznany.
Nowe narzędzie YouTube’a ma ten problem wyeliminować. Z udostępnionych próbek wynika, iż efekt jest zaskakująco realistyczny. Platforma chce w ten sposób zwiększyć dostępność treści i umożliwić twórcom dotarcie do globalnej widowni bez konieczności kosztownej, manualnej edycji. Poniżej udostępniony przez platformę efekt działań takiego algorytmicznego dubbingu nakładanego niejako dosłownie na usta twórcy:
Jak to działa i dla kogo?
Od strony technicznej, system „modyfikuje piksele na ekranie, aby dopasować je do przetłumaczonych słów”, jak wyjaśnia Buddhika Kottahachchi, odpowiedzialny w YouTube za projekt. Wymagało to opracowania technologii rozumiejącej trójwymiarowy model twarzy, kształt ust, a choćby zębów. Na razie funkcja działa najlepiej w rozdzielczości Full HD (1080p) i wspiera pięć języków: angielski, hiszpański, niemiecki, portugalski i francuski, ale docelowo ma objąć wszystkie języki obsługiwane przez automatyczny dubbing, co by oznaczało również wsparcie dla języka polskiego.
Choć podobne narzędzia oferują już np. Adobe czy platforma HeyGen, skala działania YouTube’a jest nieporównywalna – mówimy o wbudowanym systemie dla platformy, na którą każdego dnia trafia 20 milionów nowych filmów (!). Na razie funkcja jest w fazie pilotażu z udziałem niewielkiej grupy twórców, a firma analizuje koszty obliczeniowe, które zadecydują o ewentualnych opłatach za jej używanie w przyszłości.
Adobe Premiere trafia na iPhone’a. Potężny edytor wideo jest darmowy, ale z pewnymi „ale”
Dylemat autentyczności i zabezpieczenia
Wprowadzenie tak zaawansowanej technologii rodzi jednak poważne pytania o autentyczność i potencjalne nadużycia. W dobie dezinformacji i deepfake’ów, możliwość idealnego zsynchronizowania dowolnego dźwięku z obrazem twarzy to potężne, ale i ryzykowne narzędzie. Google zdaje sobie z tego sprawę i planuje konkretne zabezpieczenia. Filmy wykorzystujące nową funkcję będą musiały być wyraźnie oznaczone. W opisie pojawi się informacja, iż „dźwięk i obraz w tym filmie zostały syntetycznie stworzone lub zmienione”. Dodatkowo, sama treść wideo ma być znakowana cyfrowo dzięki systemu SynthID, co pozwoli na weryfikację jej pochodzenia.
YouTube idzie w ślady Netfliksa. Rusza weryfikacja planów rodzinnych Premium
Jeśli artykuł YouTube „nauczy cię” mówić w każdym języku. AI nie tylko przetłumaczy głos, ale i dopasuje ruch ust nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.