OpenAI wprowadza Sora, model sztucznej inteligencji przekształcający tekst na wideo

cyberfeed.pl 3 miesięcy temu

OpenAI wprowadza nowy model generowania wideo i nazywa się Sora. The Firma AI twierdzi, iż Sora „potrafi tworzyć realistyczne i pomysłowe sceny na podstawie instrukcji tekstowych.” Model zamiany tekstu na wideo umożliwia użytkownikom tworzenie fotorealistycznych filmów o długości do minuty — a wszystko to na podstawie napisanych przez nich podpowiedzi.

Sora jest w stanie tworzyć „złożone sceny z wieloma postaciami, określonymi rodzajami ruchu oraz dokładnymi szczegółami tematu i tła” – wynika ze wstępnego wpisu na blogu OpenAI. Firma zauważa również, iż model potrafi zrozumieć, w jaki sposób obiekty „istnieją w świecie fizycznym”, a także „dokładnie interpretować rekwizyty i tworzyć fascynujące postacie wyrażające żywe emocje”.

Model może także wygenerować wideo na podstawie nieruchomego obrazu, a także uzupełnić brakujące klatki na istniejącym filmie lub go rozbudować. Wygenerowane przez Sorę dema zawarte w poście na blogu OpenAI obejmują scenę lotniczą Kalifornii podczas gorączki złota, wideo, które wygląda, jakby zostało nakręcone z wnętrza tokijskiego pociągu i inne. Wiele z nich ma pewne charakterystyczne oznaki sztucznej inteligencji – jak podejrzanie poruszająca się podłoga na filmie przedstawiającym muzeum – a OpenAI twierdzi, iż model „może mieć problemy z dokładnym symulowaniem fizyki złożonej sceny”, ale ogólnie wyniki są całkiem imponujące.

Kilka lat temu były to generatory zamiany tekstu na obraz jak Midjourney które przodowały w zdolności modeli do przekształcania słów w obrazy. Ale ostatnio jakość wideo zaczęła się poprawiać w niezwykłym tempie: firmy takie jak Pas startowy i Pika pokazali własne, imponujące modele zamiany tekstu na wideo, oraz Dane Google Lumiere być jednym z głównych konkurentów OpenAI także w tej przestrzeni. Podobnie jak Sora, Lumiere zapewnia użytkownikom narzędzia do zamiany tekstu na wideo, a także pozwala im tworzyć filmy z nieruchomego obrazu.

Sora jest w tej chwili dostępna tylko dla „czerwonych drużyn”, którzy oceniają model pod kątem potencjalnych szkód i ryzyka. OpenAI oferuje także dostęp do niektórych artystów wizualnych, projektantów i filmowców, aby uzyskać opinie. Zauważa, iż istniejący model może nie symulować dokładnie fizyki złożonej sceny i może nieprawidłowo interpretować pewne przypadki przyczyny i skutku.

Source link

Idź do oryginalnego materiału