Meta przedstawia system NVIDIA „Blackwell” GB200 o otwartej architekturze dla centrów danych

cyberfeed.pl 1 miesiąc temu


Podczas szczytu Open Compute Project (OCP) Summit 2024 firma Meta, jeden z głównych członków projektu OCP, zaprezentowała systemy NVIDIA „Blackwell” GB200 do swoich ogromnych centrów danych. Wcześniej omawialiśmy platformę Azure firmy Microsoft szafa serwerowa z procesorami graficznymi GB200 obejmujący jedną trzecią przestrzeni w szafie do celów obliczeniowych i dwie trzecie do chłodzenia. Kilka dni później Google się pochwaliło jego mniejszy system GB200a dzisiaj Meta prezentuje swój system GB200 — najmniejszy z całej gamy. Aby wytrenować gęsty model transformatora w dużym języku z parametrami 405B i oknem kontekstowym zawierającym do 128 tys. tokenów, taki jak Llama 3.1 405B, Meta musi przeprojektować infrastrukturę swojego centrum danych, aby uruchamiać rozproszone zadanie szkoleniowe na dwóch klastrach 24 000 GPU. Oznacza to, iż do szkolenia pojedynczego modelu AI wykorzystano 48 000 procesorów graficznych.

Nazywa się „Catalina” i jest zbudowana na platformie NVIDIA Blackwell, kładąc nacisk na modułowość i możliwości adaptacji, jednocześnie wykorzystując najnowszy superchip NVIDIA GB200 Grace Blackwell. Aby sprostać rosnącym wymaganiom procesorów graficznych w zakresie zasilania, Catalina wprowadza Orv3, szafę rack o dużej mocy, która może dostarczyć do 140 kW. Kompleksowa konfiguracja chłodzona cieczą obejmuje półkę zasilającą obsługującą różne komponenty, w tym tacę obliczeniową, tacę przełączników, Orv3 HPR, przełącznik tkaninowy Wedge 400 o wydajności przełączania 12,8 Tb/s, przełącznik zarządzający, podtrzymanie bateryjne i kontroler zarządzania szafą. Co ciekawe, Meta zaktualizowała także swój system „Grand Teton” do użytku wewnętrznego, na przykład do modeli rekomendacji głębokiego uczenia się (DLRM) i rozumienia treści dzięki AMD Instinct MI300X. Są one używane do wnioskowania o modelach wewnętrznych, a MI300X wydaje się zapewniać najlepszą wydajność w przeliczeniu na dolara w zakresie wnioskowania. Według Meta zapotrzebowanie obliczeniowe wynikające ze sztucznej inteligencji będzie przez cały czas rosnąć wykładniczo, dlatego potrzeba więcej procesorów graficznych NVIDIA i AMD i nie możemy się doczekać, aby zobaczyć, co firma stworzy.



Source link

Idź do oryginalnego materiału