Colossus, największy na świecie superkomputer AI, jest używany do uczenia rodziny dużych modeli językowych Grok firmy xAI, przy czym chatboty są oferowane jako funkcja dla abonentów X Premium. xAI jest w trakcie podwajania rozmiaru Colossusa do łącznej liczby 200 000 procesorów graficznych NVIDIA Hopper.
Obiekt pomocniczy i najnowocześniejszy superkomputer zostały zbudowane przez xAI i NVIDIA w zaledwie 122 dni, zamiast typowych ram czasowych dla systemów tej wielkości, które mogą zająć wiele miesięcy lub lat. Od momentu wtoczenia się pierwszego stojaka na podłogę do rozpoczęcia treningu minęło 19 dni.
Trenując niezwykle duży model Groka, Colossus osiąga niespotykaną dotąd wydajność sieci. We wszystkich trzech warstwach sieci szkieletowej system nie doświadczył pogorszenia opóźnień aplikacji ani utraty pakietów z powodu kolizji przepływu. Utrzymał 95% przepustowości danych dzięki kontroli przeciążenia Spectrum-X.
Takiego poziomu wydajności nie można osiągnąć na dużą skalę w przypadku standardowej sieci Ethernet, która powoduje tysiące kolizji przepływów, zapewniając jednocześnie przepustowość danych wynoszącą jedynie 60%.
„Sztuczna inteligencja staje się krytyczna dla misji i wymaga zwiększonej wydajności, bezpieczeństwa, skalowalności i efektywności kosztowej” – powiedział Gilad Shainer, starszy wiceprezes ds. sieci w firmie NVIDIA. „Platforma sieciowa NVIDIA Spectrum-X Ethernet została zaprojektowana, aby zapewnić innowatorom, takim jak xAI, szybsze przetwarzanie, analizę i wykonywanie obciążeń AI, co z kolei przyspiesza rozwój, wdrażanie i czas wprowadzenia rozwiązań AI na rynek”.
„Colossus to najpotężniejszy system szkoleniowy na świecie” – powiedział Elon Musk w X. „Dobra robota zespołu xAI, firmy NVIDIA i naszych licznych partnerów/dostawców”.
„xAI zbudowało największy i najpotężniejszy superkomputer na świecie” – powiedział rzecznik xAI. „Procesory graficzne NVIDIA Hopper i Spectrum-X pozwalają nam przesuwać granice modeli szkoleniowych AI na masową skalę, tworząc superszybką i zoptymalizowaną fabrykę sztucznej inteligencji opartą na standardzie Ethernet”.
Sercem platformy Spectrum-X jest przełącznik Ethernet Spectrum SN5600, który obsługuje prędkości portów do 800 Gb/s i jest oparty na przełączniku Spectrum-4 ASIC. xAI zdecydowało się połączyć przełącznik Spectrum-X SN5600 z kartami NVIDIA BlueField-3 SuperNIC, aby uzyskać niespotykaną wydajność.
Sieć Spectrum-X Ethernet dla sztucznej inteligencji oferuje zaawansowane funkcje, które zapewniają wysoce efektywną i skalowalną przepustowość przy niskim opóźnieniu i krótkim opóźnieniu, dostępne wcześniej wyłącznie dla InfiniBand. Funkcje te obejmują routing adaptacyjny z technologią NVIDIA Direct Data Placement, kontrolę zatorów, a także lepszą widoczność struktury AI i izolację wydajności – wszystkie najważniejsze wymagania dla generatywnych chmur AI z wieloma dzierżawcami i dużych środowisk korporacyjnych.