Czy specjaliści od efektów dźwiękowych będą następnymi ofiarami sztucznej inteligencji? Tak się może zdarzyć. Nvidia właśnie zaprezentowała możliwości modelu Fugatto, który nie tylko generuje dźwięki, ale potrafi też je edytować i ze sobą łączyć. Dla deweloperów gier czy twórców wideo może to być bezcenne narzędzie – jeżeli Nvidia zdecyduje się je upublicznić.
Modele AI generujące dźwięki nie są niczym nowym. Od jakiegoś już czasu dostępne są serwisy, tworzące muzykę, takie jak Suno, czy generujące głos, takie jak stworzone przez Polaków ElevenLabs. Meta już w zeszłym roku udostępniła otwarty model AudioCraft generujący dźwięki z promptu tekstowego.
Fugatto. Do muzyki, wideo, gier
Nvidia poszła o krok dalej. Jej nowy model Fugatto nie tylko potrafi generować dźwięki, ale i mieszać je ze sobą. Jest więc w stanie na przykład usunąć z utworu muzycznego instrument lub dodać nowy, zmienić akcent albo emocję głosu, czy choćby wytworzyć dźwięki nigdy wcześniej nie słyszane.
Model może znaleźć zastosowanie w studiu muzycznym do testowania różnych pomysłów na instrumentalizację utworu. Może też posłużyć twórcom wideo do tworzenia podkładu dźwiękowego. Lub do dostosowania istniejącego podkładu do lokalnych preferencji odbiorców w różnych regionach świata.
Nvidia zachwala również możliwość użycia modelu w uczeniu języków – model może stworzyć mowę w ulubionym przez nas głosie. A deweloperzy gier będą mogli dostosować dźwięki gry do preferencji gracza.
Specjaliści od efektów dźwiękowych – ofiary Fugatto?
Model jest również w stanie tworzyć dźwięki zmieniające się w czasie. Np. dźwięki gwałtownej burzy, które następnie zanikają w oddali. Oraz mieszać dźwięki – na przykład burzę ze śpiewem ptaków.
Jak twierdzą twórcy modelu, jeżeli użytkownik jest w stanie opisać dźwięk w prompcie tekstowym, to Fugatto będzie w stanie taki dźwięk stworzyć.
Te ostatnie możliwości skłoniły mnie do tytułowej refleksji na temat przyszłości zawodu specjalisty od efektów dźwiękowych. prawdopodobnie – podobnie jak to ma miejsce na przykład w przypadku tłumaczy – prawdopodobnie nie odbiorą pracy wirtuozom zawodu. Ale średniej jakości wyrobnikom? Kto wie.
Tym bardziej, iż model jest jak na generatywną AI raczej mały – 2,5 mld parametrów – więc powinno się go dać uruchomić na średniej klasy komputerze biurkowym z kartą graficzną. Oczywiście jeżeli Nvidia go kiedyś udostępni – chwilowo Nvidia choćby nie zadeklarowała, czy model udostępni szerszej publiczności. A historia modelu wideo Sora od OpenAI – którego możliwości zaprezentowano prawie rok temu, ale który do dziś nie jest dostępny – pokazuje, iż czasem firmy się chwalą osiągnięciami, ale potem ich nie udostępniają.
Źródło grafiki: Sztuczna inteligencja, model Dall-E 3