NVIDIA uruchamia platformę modelową Cosmos World Foundation, aby przyspieszyć rozwój fizycznej sztucznej inteligencji

cyberfeed.pl 2 dni temu


Firma NVIDIA ogłosiła dzisiaj NVIDIA Cosmos, platformę obejmującą najnowocześniejsze, podstawowe modele świata generatywnego, zaawansowane tokenizatory, poręcze i potok przyspieszonego przetwarzania wideo, stworzony w celu przyspieszenia rozwoju fizycznych systemów sztucznej inteligencji, takich jak pojazdy autonomiczne (AV) i roboty.

Opracowanie fizycznych modeli sztucznej inteligencji jest kosztowne i wymaga ogromnych ilości danych i testów ze świata rzeczywistego. Podstawowe modele świata Cosmos (WFM) oferują programistom łatwy sposób generowania ogromnych ilości fotorealistycznych, syntetycznych danych opartych na fizyce w celu szkolenia i oceny istniejących modeli. Programiści mogą także tworzyć niestandardowe modele, dostrajając Cosmos WFM. Modele Cosmos będą dostępne w ramach otwartej licencji modelowej, aby przyspieszyć pracę społeczności robotyki i AV. Programiści mogą wyświetlić podgląd pierwszych modeli w katalogu API NVIDIA lub pobrać rodzinę modeli i środowisko dostrajające z katalogu NVIDIA NGC lub Hugging Face.

Wiodące firmy z branży robotyki i motoryzacji, w tym 1X, Agile Robots, Agility, Rysunek AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi i XPENG, a także gigant w zakresie wspólnych przejazdów Uber, należą do pierwszych przyjąć Kosmos.

„Nadchodzi moment ChatGPT dla robotyki. Podobnie jak duże modele językowe, światowe modele podstawowe mają fundamentalne znaczenie dla postępu w rozwoju robotów i AV, jednak nie wszyscy programiści mają wiedzę i zasoby, aby szkolić własne” – powiedział Jensen Huang, założyciel i dyrektor generalny NVIDIA . „Stworzyliśmy Cosmos, aby zdemokratyzować fizyczną sztuczną inteligencję i udostępnić ogólną robotykę każdemu programiście”.

Modele fundamentów otwartego świata przyspieszające następną falę sztucznej inteligencji
Zestaw otwartych modeli NVIDIA Cosmos oznacza, iż ​​programiści mogą dostosowywać WFM dzięki zbiorów danych, takich jak nagrania wideo z podróży AV lub roboty poruszające się po magazynie, zgodnie z potrzebami docelowej aplikacji.

Cosmos WFM zostały zaprojektowane specjalnie do badań i rozwoju fizycznej sztucznej inteligencji i mogą generować filmy oparte na fizyce na podstawie kombinacji danych wejściowych, takich jak tekst, obraz i wideo, a także danych z czujnika robota lub ruchu. Modele są budowane z myślą o interakcjach opartych na fizyce, trwałości obiektów i wysokiej jakości generowaniu symulowanych środowisk przemysłowych, takich jak magazyny lub fabryki, oraz środowisk jazdy, w tym różnych warunków drogowych.

W swoim przemówieniu otwierającym targi CES założyciel i dyrektor generalny firmy NVIDIA, Jensen Huang, zaprezentował, w jaki sposób twórcy fizycznej sztucznej inteligencji mogą wykorzystywać modele Cosmos, w tym do:

  • Wyszukiwanie i zrozumienie wideo, umożliwiające programistom łatwe znajdowanie konkretnych scenariuszy szkoleniowych, takich jak zaśnieżone drogi lub natężenie ruchu w magazynach, na podstawie danych wideo.
  • Oparte na fizyce fotorealistyczne generowanie syntetycznych danych z wykorzystaniem modeli Cosmos do generowania fotorealistycznych filmów na podstawie kontrolowanych scenariuszy 3D opracowanych na platformie NVIDIA Omniverse.
  • Opracowywanie i ocena fizycznego modelu sztucznej inteligencji, czy to budowanie niestandardowego modelu na modelach podstawowych, ulepszanie modeli przy użyciu Cosmos do uczenia się przez wzmacnianie, czy też testowanie ich działania w konkretnym symulowanym scenariuszu.
  • Foresight i symulacja „wieloświatowa” z wykorzystaniem Cosmos i Omniverse do generowania wszelkich możliwych przyszłych wyników, jakie może przyjąć model sztucznej inteligencji, aby pomóc mu wybrać najlepszą i najdokładniejszą ścieżkę.

Zaawansowane narzędzia do opracowywania modeli świata

Budowanie fizycznych modeli sztucznej inteligencji wymaga petabajtów danych wideo i dziesiątek tysięcy godzin obliczeniowych na przetwarzanie, selekcjonowanie i oznaczanie tych danych. Aby pomóc zaoszczędzić ogromne koszty związane z przechowywaniem danych, szkoleniem i dostosowywaniem modelu, Cosmos oferuje:

  • Proces przetwarzania danych akcelerowany przez NVIDIA AI i CUDA, obsługiwany przez NVIDIA NeMo Curator, który umożliwia programistom przetwarzanie, selekcjonowanie i oznaczanie 20 milionów godzin filmów w 14 dni przy użyciu platformy NVIDIA Blackwell zamiast przez ponad trzy lata przy użyciu wyłącznie procesora rurociąg.
  • NVIDIA Cosmos Tokenizer, najnowocześniejszy tokenizator wizualny do konwersji obrazów i filmów na tokeny. Zapewnia 8x większą całkowitą kompresję i 12x szybsze przetwarzanie niż dzisiejsze wiodące tokenizery.
  • Framework NVIDIA NeMo do wysoce wydajnego uczenia, dostosowywania i optymalizacji modeli.
  • Największe na świecie branże zajmujące się fizyczną sztuczną inteligencją wdrażają kosmos
  • Pionierzy z branży fizycznej sztucznej inteligencji już wdrażają technologie Cosmos.

1X, firma zajmująca się sztuczną inteligencją i robotami humanoidalnymi, uruchomiła zbiór danych 1X World Model Challenge dzięki Cosmos Tokenizer. XPENG wykorzysta Cosmos do przyspieszenia rozwoju swojego humanoidalnego robota. Hillbot i Skild AI wykorzystują Cosmos do przyspieszenia rozwoju swoich robotów ogólnego przeznaczenia.

„Niedobór i zmienność danych to najważniejsze wyzwania dla skutecznego uczenia się w środowiskach robotów” – powiedział Pras Velagapudi, dyrektor ds. technologii w Agility. „Możliwości Cosmos polegające na przetwarzaniu tekstu, obrazów i wideo na świat pozwalają nam generować i rozszerzać fotorealistyczne scenariusze do różnych zadań, których możemy używać do uczenia modeli bez konieczności przechwytywania tak kosztownych danych ze świata rzeczywistego”.

Liderzy transportu również wykorzystują Cosmos do tworzenia fizycznej sztucznej inteligencji dla AV:

  • Waabi, firma pionierska w zakresie generatywnej sztucznej inteligencji dla świata fizycznego, począwszy od pojazdów autonomicznych, ocenia Cosmos w kontekście przechowywania danych na potrzeby tworzenia i symulacji systemu AV.
  • Wayve, które opracowuje podstawowe modele sztucznej inteligencji do jazdy autonomicznej, ocenia Cosmos jako narzędzie do wyszukiwania scenariuszy jazdy na krawędziach i w zakrętach wykorzystywanych do celów bezpieczeństwa i walidacji.
  • Dostawca zestawu narzędzi AV, Foretellix, wykorzysta Cosmos wraz z interfejsami API NVIDIA Omniverse Sensor RTX do oceny i generowania scenariuszy testowych o wysokiej wierności oraz danych szkoleniowych na dużą skalę.
  • Globalny gigant w zakresie wspólnych przejazdów, Uber, współpracuje z firmą NVIDIA, aby przyspieszyć mobilność autonomiczną. Bogate zestawy danych dotyczące jazdy od Ubera w połączeniu z funkcjami platformy Cosmos i chmury NVIDIA DGX mogą pomóc partnerom AV w jeszcze wydajniejszym tworzeniu silniejszych modeli sztucznej inteligencji.

„Generatywna sztuczna inteligencja będzie napędzać przyszłość mobilności, wymagając zarówno dużej ilości danych, jak i bardzo wydajnych obliczeń” – powiedziała Dara Khosrowshahi, dyrektor generalna Ubera. „Współpracując z firmą NVIDIA, jesteśmy pewni, iż możemy pomóc w przyspieszeniu harmonogramu tworzenia bezpiecznych i skalowalnych rozwiązań w zakresie autonomicznej jazdy dla branży”.

Rozwój otwartej, bezpiecznej i odpowiedzialnej sztucznej inteligencji
NVIDIA Cosmos została opracowana zgodnie z godnymi zaufania zasadami sztucznej inteligencji firmy NVIDIA, które traktują priorytetowo prywatność, bezpieczeństwo, ochronę, przejrzystość i redukcję niepożądanych stronniczości.

Godna zaufania sztuczna inteligencja jest niezbędna do wspierania innowacji w społeczności programistów i utrzymywania zaufania użytkowników. NVIDIA angażuje się w bezpieczną i godną zaufania sztuczną inteligencję, zgodnie z dobrowolnymi zobowiązaniami Białego Domu dotyczącymi sztucznej inteligencji i innymi globalnymi inicjatywami w zakresie bezpieczeństwa sztucznej inteligencji.

Otwarta platforma Cosmos zawiera poręcze zaprojektowane w celu ograniczenia szkodliwego tekstu i obrazów oraz zawiera narzędzie zwiększające dokładność podpowiedzi tekstowych. Filmy wygenerowane dzięki modeli autoregresji i rozpowszechniania Cosmos w katalogu API NVIDIA zawierają niewidoczne znaki wodne umożliwiające identyfikację treści generowanych przez sztuczną inteligencję, co pomaga zmniejszyć ryzyko dezinformacji i błędnego przypisania.

NVIDIA zachęca programistów do stosowania godnych zaufania praktyk sztucznej inteligencji i dalszego ulepszania rozwiązań w zakresie poręczy i znaków wodnych w swoich aplikacjach.

Dostępność
Cosmos WFM są teraz dostępne w ramach otwartej licencji modelu NVIDIA w Hugging Face i katalogu NVIDIA NGC. Modele Cosmos będą niedługo dostępne jako w pełni zoptymalizowane mikrousługi NVIDIA NIM.

Programiści mogą uzyskać dostęp do NVIDIA NeMo Curator w celu przyspieszenia przetwarzania wideo i dostosowywania własnych modeli świata dzięki NVIDIA NeMo. NVIDIA DGX Cloud oferuje szybki i łatwy sposób wdrażania tych modeli, a wsparcie dla przedsiębiorstw jest dostępne za pośrednictwem platformy systemu NVIDIA AI Enterprise.

Firma NVIDIA ogłosiła także nowe modele języków wielkojęzykowych NVIDIA Llama Nemotron i modele języka wizyjnego NVIDIA Cosmos Nemotron, których programiści mogą używać w przypadkach wykorzystania sztucznej inteligencji w przedsiębiorstwach w służbie zdrowia, usługach finansowych, produkcji i nie tylko.



Source link

Idź do oryginalnego materiału