Zachwyty nad nowym generatorem filmów AI od twórców ChatGPT. Wkraczamy w zupełnie nowy świat

cryps.pl 3 miesięcy temu

Amerykańska firma OpenAI, która stoi za słynnym ChatGPT, zaprezentowała w tym tygodniu swoje nowe narzędzie. Jest to dodatek do ich generatora obrazów Dall-e, który otrzymał nazwę Sora i potrafi wygenerować krótki filmik przy pomocy sztucznej inteligencji. Pierwsze opinie internautów oraz ekspertów są naprawdę pozytywne, a wielu z nich nie kryło swojego entuzjazmu.


  • OpenAI zaprezentowało w czwartek wersję demo swojego nowego generatora filmów, które są tworzone przy pomocy sztucznej inteligencji,
  • Firma sama przyznaje, iż ten produkt wymaga jeszcze sporo modyfikacji, by działał sprawnie zgodnie z oczekiwaniami twórców, aczkolwiek zaprezentowane już teraz efekty spotkały się z dobrymi opiniami ze strony internautów.

Sora to kolejny przełom na rynku AI?

Wyścig o to, która z firm technologicznych dostarczy na rynek najlepszy generator filmów zasilany sztuczną inteligencją, trwa w najlepsze. Kilka miesięcy temu informowaliśmy Was o tym, iż Meta zaprezentowała pierwsze efekty swoich badań nad cyfrowym tworzeniem animacji przy pomocy AI, aczkolwiek na tym rynku nikt nie może się jednak równać z dowodzoną przez Sama Altmana firmą OpenAI.

Ta natomiast przedstawiła wczoraj światu swój nowy model generatywnej sztucznej inteligencji, która zamienia tekst w 60-sekundowy film. Narzędzie o nazwie Sora ma działać jako rozszerzenie płatnej wersji ChatGPT, która już teraz pozwala na korzystanie z Dall-E, czyli generatora obrazków.

Jak wyjaśniono na blogu tego przedsiębiorstwa, Sora ma umożliwiać tworzenie kontynuacji danych filmów, generowania animacji na podstawie danego zdjęcia czy zupełnie od zera krótkiego filmiku na podstawie wpisanego we wskazanym polu polecenia tekstowego.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Na dany moment udało się opracować system tworzenia filmów w rozdzielczości 1080 p. Nie podano jednak szczegółów dotyczących czasu, jaki AI potrzebuje do wygenerowania minutowego filmiku na podstawie wskazanej rekomendacji.

Z tego, co wiadomo, to testy nad dalszym rozwojem tego rozwiązania mają być prowadzone przez najbliższych partnerów firmy OpenAI, czyli m.in. Microsoft. Nie ujawniono także przewidywanej daty wdrożenia Sory do publicznego użytku.

Trzeba jednak przyznać, iż sztuczna inteligencja potrafi naprawdę dobrze oddać na ekranie to, co zawiera podsunięty jej opis. Poniżej treść prompta, który wpisano w dedykowanym polu dla komend:

Stylowa kobieta idzie ulicą Tokio wypełnioną ciepłymi i świecącymi neonami. Nosi czarną skórzaną kurtkę, długą czerwoną sukienkę i czarne buty i nosi czarną torebkę. Nosi okulary przeciwsłoneczne i czerwoną szminkę. Chodzi pewnie i swobodnie. Ulica jest wilgotna i odblaskowa, tworząc lustrzany efekt kolorowych świateł. Przechadza się wielu pieszych.

Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG

— Greg Brockman (@gdb) February 15, 2024

Jeszcze wiele do poprawy, ale Sora już teraz budzi zachwyt

OpenAI pokornie stwierdziło, iż w dalszym ciągu ich najnowszy model generatywnej sztucznej inteligencji posiada pewne wady, które utrudniają mu idealne wykonywanie pewnych poleceń. Wskazano m.in. na gubienie się chatbota we właściwym zachowaniu ciągu przyczynowo-skutkowego. Oto przykład:

Na przykład osoba może ugryźć ciasteczko, ale potem ciasteczko może nie mieć śladu ugryzienia

AI miewa także wciąż pewne problemy z dokładnym przelaniem na ekran odpowiedniej statyki wskazanych elementów ruchomego obrazu, jak na poniższym przykładzie.

Wideo wygenerowane przez AI przedstawiające mężczyznę na bieżni, który stoi po złej stronie w stosunku do ruchu taśmy. Źródło: OpenAI

Jednakże to, co zaprezentowało amerykański gigant z branży AI, już teraz wzbudza entuzjazm społeczności platformy X.

Mckay Wrigley, który również zajmuje się tworzeniem narzędzi działających w oparciu o sztuczną inteligencję, stwierdził iż nowy produkt od Sama Altmana i spółki „wprowadza nas do zupełnie nowego świata”.

I don’t even know what to say…

These clips generated by OpenAI’s Sora model have me speechless.

We knew good AI text-to-video would come, but this quickly? Unreal.

We’re stepping into a new world.

Buckle up. pic.twitter.com/zP7b5fKw5x

— Mckay Wrigley (@mckaywrigley) February 15, 2024

W pozytywnym tonie o Sorze wypowiedział się jeden z badaczy firmy Nvidia – Jim Fan – który stwierdził, iż jest to coś więcej, niż tylko kolejna „zabawka AI”.

If you think OpenAI Sora is a creative toy like DALLE, … think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR

— Jim Fan (@DrJimFan) February 15, 2024

Idź do oryginalnego materiału