AWS stworzył nową architekturę sieciową dla systemów GB300

itreseller.com.pl 1 tydzień temu

Amazon Web Services znalazł sposób, by zachować niezależność od rozwiązań sieciowych Nvidii w najnowszej generacji infrastruktury AI. Zamiast modyfikować serwery, inżynierowie AWS zbudowali osobną szafę pełną kart sieciowych, które łączą się z systemami GPU przez specjalnie opracowane kable.

AWS stawia na własne rozwiązania sieciowe

Według analizy SemiAnalysis, nowa architektura serwerowa Nvidia NVL72, oparta na układach GB300 Blackwell, wykorzystuje cieńsze moduły 1U, co uniemożliwiło AWS fizyczne zamontowanie swoich niestandardowych kart sieciowych. Dla poprzedniej generacji GB200 Amazon stosował konstrukcję NVL36x2, łączącą dwa klastry 36-GPU w system 72-GPU, jednak takie obejście powodowało problemy z kompatybilnością i stabilnością.

Aby uniknąć powtórki, inżynierowie AWS opracowali koncepcję JBOK (Just a Bunch of K2v6 – humorystyczne nawiązanie do pojęcia JBOD). Zamiast upychać karty w ograniczonych przestrzennie szafach Nvidii, AWS zaprojektował dodatkową szafę sieciową, w której umieszczono 18 modułów 2U z własnymi kartami K2v6. Te połączono z głównym rackiem GPU aktywnymi kablami elektrycznymi (AEC), tworząc elastyczną strukturę boczną, tzw. sidecar.

Rozwiązanie to pozwoliło zachować kompatybilność z własnym ekosystemem sieciowym AWS, obejmującym Elastic Fabric Adapter (EFAv4) oraz kontrolery Nitro, które usprawniają przetwarzanie pakietów i minimalizują opóźnienia w aplikacjach o dużej przepustowości.

Alternatywa dla Nvidii i walka o niezależność

AWS od lat projektuje własny sprzęt centrów danych. Współpracował wcześniej z Broadcomem przy budowie przełączników sieciowych, a każda z jego serwerowni wyposażona jest w tzw. „bricks”, moduły sieciowe łączące setki serwerów w jeden klaster lub międzyregionalną strukturę.

SemiAnalysis zauważa, iż decyzja o utrzymaniu własnych kart sieciowych wynika z przekonania AWS, iż ConnectX-8 RoCEv2 Nvidii oferują zbyt niską wydajność w porównaniu z autorskimi rozwiązaniami EFA. Zdaniem analityków AWS chce w ten sposób unikać uzależnienia od zamkniętego ekosystemu Nvidii, zwłaszcza iż gigant GPU coraz mocniej kontroluje cały łańcuch infrastruktury AI, od akceleratorów po sieć i oprogramowanie.

Nowa konstrukcja AWS eliminuje też tzw. pojedynczy punkt awarii. W standardowym projekcie Nvidii każdy GPU komunikuje się z jednym interfejsem sieciowym ConnectX-8. W wersji AWS każdy procesor graficzny współpracuje z dwiema kartami K2v6, co pozwala utrzymać działanie choćby w razie awarii jednej z nich.

Jak podkreślają eksperci SemiAnalysis, Amazon „mocno wierzy”, iż jego własna architektura EFA stanie się standardem przyszłości. W praktyce jednak Nvidia przez cały czas utrzymuje przewagę wydajności, bo systemy GB200 oparte na oryginalnym projekcie producenta wciąż osiągają lepsze wyniki w testach przepustowości, efektywności energetycznej i kosztu przetwarzania niż konkurencyjne układy.

Idź do oryginalnego materiału