NVIDIA prezentuje układ Rubin CPX, który ma znacznie przyspieszyć inferencję w zadaniach z długim kontekstem

itreseller.com.pl 1 miesiąc temu

NVIDIA zaprezentowała Rubin CPX, nowy układ GPU zaprojektowany specjalnie z myślą o obsłudze obciążeń sztucznej inteligencji wymagających przetwarzania długiego kontekstu. Rozwiązanie to otwiera drogę do bardziej wydajnej inferencji w modelach z kontekstem sięgającym ponad miliona tokenów i zapowiada przełom w ekonomice generatywnej AI.

Rubin CPX, czyli odpowiedź na rosnące wymagania inferencji

Rosnące znaczenie fazy inferencji w generatywnej sztucznej inteligencji sprawia, iż klasyczne podejście do budowy infrastruktury przestaje wystarczać. Modele językowe nowej generacji, które potrafią przechowywać pamięć, prowadzić wieloetapowe rozumowanie i utrzymywać spójność w bardzo długich interakcjach, wymagają nowego typu akceleracji. Szczególnie obciążająca jest faza kontekstowa, w której systemy AI muszą przetwarzać ogromne wolumeny danych przed wygenerowaniem pierwszego tokena odpowiedzi.

Nowy procesor graficzny Rubin CPX zaprojektowano właśnie pod kątem tej fazy. Oferuje 30 petaFLOPS mocy obliczeniowej w precyzji NVFP4, 128 GB pamięci GDDR7, sprzętowe wsparcie dla dekodowania i kodowania wideo oraz trzykrotne przyspieszenie operacji attention w porównaniu do generacji GB300 NVL72. To pozwala na skuteczne przetwarzanie długich sekwencji w takich zastosowaniach jak rozwój oprogramowania, analiza dużych repozytoriów kodu czy generowanie wideo wysokiej rozdzielczości.

Disaggregated inference – nowa architektura obsługi AI

Architektura inferencji w ujęciu NVIDII została podzielona na dwa etapy: kontekstowy (compute-bound) i generacyjny (memory-bound). Rubin CPX odpowiada za pierwszy z nich, podczas gdy Rubin GPU obsługuje fazę generacyjną. Koordynację zapewnia platforma Dynamo, odpowiedzialna za routing, zarządzanie pamięcią i transfery cache.

Takie podejście pozwala efektywnie rozdzielić zasoby obliczeniowe i pamięciowe, zwiększając przepustowość, obniżając opóźnienia i poprawiając wykorzystanie infrastruktury. Według NVIDII rozwiązanie to zapewnia nie tylko wzrost wydajności, ale też znaczące oszczędności kosztowe.

Vera Rubin NVL144 CPX

Nowa karta Rubin CPX jest kluczowym elementem większej platformy Vera Rubin NVL144 CPX. W pojedynczym racku mieści się 144 GPU Rubin CPX, 144 Rubin GPU i 36 procesorów Vera CPU. Konfiguracja ta zapewnia 8 eksaFLOPS mocy obliczeniowej w NVFP4, 100 TB szybkiej pamięci i przepustowość 1,7 PB/s.

To oznacza 7,5-krotny wzrost wydajności względem GB300 NVL72, przy czym NVIDIA twierdzi, iż takie rozwiązanie pozwala osiągnąć 30–50-krotny zwrot z inwestycji, a przy nakładzie rzędu 100 mln USD potencjalne przychody mogą sięgnąć choćby 5 mld USD.

Idź do oryginalnego materiału