AI, które widzi i słyszy – łączy obraz z dźwiękiem bez pomocy człowieka

instalki.pl 1 tydzień temu

Ludzie naturalnie łączą informacje wzrokowe i słuchowe – widząc osobę grającą na skrzypcach, rozumiemy, iż ruch ręki jest źródłem dźwięku. Teraz sztuczna inteligencja również może nauczyć się tej umiejętności bez pomocy człowieka.

Zespół naukowców z MIT i Goethe University opracował nową wersję modelu uczenia maszynowego, który samodzielnie uczy się synchronizacji dźwięku i obrazu z filmów wideo. System nosi nazwę CAV-MAE Sync i jest dużo dokładniejszy niż poprzednie technologie tego typu.

Jak działa system CAV-MAE Sync?

Nowe podejście opiera się na treningu bez nadzoru. Model otrzymuje surowe klipy wideo i samodzielnie uczy się rozpoznawać, które obrazy i dźwięki występują jednocześnie. W przeciwieństwie do poprzednich wersji, system nie analizuje całych dziesięciosekundowych fragmentów wideo jako jednej jednostki. Zamiast tego, dźwięk dzielony jest na mniejsze okna czasowe, a każde okno dopasowywane jest do odpowiednich klatek wideo.

Dzięki temu CAV-MAE Sync uczy się bardziej szczegółowych powiązań, np. iż odgłos zamykanych drzwi pasuje do momentu, w którym drzwi się zamykają, a nie do całego filmu. Taka precyzja przydaje się np. przy wyszukiwaniu konkretnych scen w archiwach wideo.

Proste zmiany, wielkie efekty

Nowy model wprowadza też drobne, ale istotne zmiany architektoniczne. Dodano dwa rodzaje tzw. tokenów: globalne, które pomagają w kojarzeniu podobnych dźwięków i obrazów, oraz rejestrujące, które skupiają się na dokładnym odwzorowaniu konkretnych danych.

To pozwala mu lepiej radzić sobie z dwoma celami naraz: po pierwsze, nauczyć się łączenia dźwięku i obrazu, a po drugie, być w stanie odtworzyć szukany fragment na podstawie dźwięku lub obrazu. Dodanie tych funkcji znacznie poprawiło jakość wyszukiwania i klasyfikowania scen.

Model przetwarza klatki wideo i segmenty audio równolegle dzięki oddzielnych koderów Ea i Ev / Źródło: arxiv.org

W testach system CAV-MAE Sync wypada lepiej niż bardziej złożone modele, które potrzebują więcej danych treningowych. Potrafi np. trafnie wyszukać film wideo na podstawie nagrania dźwiękowego psa szczekającego albo poprawnie sklasyfikować scenę z instrumentem muzycznym. Co więcej, działa szybciej i efektywniej, bo wykorzystuje prostsze algorytmy i mniej zasobożerne metody uczenia się.

Przyszłość: roboty, media, aplikacje

Rozwiązanie ma ogromny potencjał praktyczny. Może zostać wykorzystane np. do organizacji zasobów audio-wideo w dziennikarstwie czy produkcji filmowej. W przyszłości technologia może trafić do robotów, które lepiej rozumieją świat, bo łączą dźwięki i obrazy – tak jak robi to człowiek.

Zespół badawczy z MIT zapowiada, iż kolejnym krokiem będzie integracja tego systemu z danymi tekstowymi. To umożliwi stworzenie wielomodalnego modelu językowego – takiego, który rozumie obraz, dźwięk i tekst jednocześnie.

Sztuczna inteligencja potrafi wykryć zawczasu, czy pokłócisz się podczas rozmowy online
AInaukasztuczna inteligencjatechnika
Idź do oryginalnego materiału