Jak dotąd większość z nas korzystała z dużych modeli językowych do rozmowy z chatbotem. Z kolei generatywna sztuczna inteligencja wykorzystywana do tworzenia obrazów czy wideo korzystała z tzw. modeli dyfuzyjnych. Teraz Google pokazuje, iż model językowy może stworzyć wideo. I to imponujące.
W niedawnym raporcie, badacze z Google Research pokazali możliwości swojego najnowszego modelu, VideoPoet. Model, wytrenowany na infrastrukturze znanej z dużych modeli językowych (LLM), ale z użyciem plików wideo i dźwiękowych, potrafi stworzyć wideo z zapytania tekstowego, stworzyć dźwięk do wideo, stworzyć wideo z pliku graficznego (jeśli do obrazu doda się tekst, wyjaśniający co wideo ma przedstawiać) oraz dokonać stylizacji wytworzonego wideo na podstawie zapytania tekstowego.
Google zastosował nowe podejście: użył istniejące tekenizery dla dźwięku i wideo, by zamienić pliki dźwiękowe i wideo w serię tzw. tokenów, czyli indeksów w postaci liczb całkowitych. W taki sam sposób kodowany jest tekst, więc model taki jest w stanie skorzystać bezproblemowo z architektury dotychczas używanej do trenowania modeli tworzących treści językowe. A na wyjściu z modelu tokeny są z powrotem zamienianie w obraz lub dźwięk.
Według badaczy Google’a, takie podejście pozwala na stworzenie jednolitego modelu multimodalnego (a więc potrafiącego przetwarzać różne rodzaje treści, takie jak tekst, wideo czy dźwięk). To oznacza, iż nie trzeba modelu sklejać z kilku niezależnych od siebie części (jak ma to miejsce w modelach dyfuzyjnych) i sprzyja spójności powstałych klipów. Pozwala to mieć również nadzieję, iż po rozbudowaniu model taki pozwoli na stworzenie w pełni multimodalnego systemu, który na przykład umożliwi generację treści wideo z pliku dźwiękowego.
Jak długie wideo jest w stanie stworzyć VideoPoet? Cóż, pojedyncze klip wytworzony przez model nie ma może zbyt imponującej długości: to raptem 2 sekundy. Ale jak odnotowują badacze, druga sekunda takiej animacji może posłużyć do stworzenia następnych 2 sekund wideo, przy zachowaniu spójności wizualnej tak powstałego filmiku. Pozwala to na łańcuchowe zlepianie dłuższych sekwencji. To prawdopodobnie nie wystarczy na stworzenie pełnometrażowego filmu, ale może posłużyć do produkcji klipu reklamowego.
I tu dochodzimy do podstawowej wady VideoPoet. Niestety, na razie mogą się nim pobawić tylko badacze Google’a – nie został on udostępniony szerszej publice. Więc twórcy reklam muszą jeszcze poczekać.
Więcej przykładów, jak model językowy może stworzyć wideo, czyli twórczości VideoPoet, dostępnych jest na tej stronie.
Jeśli chcesz skorzystać z generatywnej sztucznej inteligencji do wytwarzania grafik, z naszego poradnika dowiesz się, w jakich zastosowaniach możesz je wykorzystać.
Źródło obrazka: sztuczna inteligencja, model Dall-E 3