Wysokie zużycie energii przez NVIDIA Blackwell zwiększa zapotrzebowanie na chłodzenie; oczekuje się, iż penetracja chłodzenia cieczą osiągnie 10% do końca 2024 r.

cyberfeed.pl 2 miesięcy temu

Wraz ze wzrostem zapotrzebowania na szybkie przetwarzanie, bardziej efektywne rozwiązania chłodzące dla serwerów AI zyskują znaczną uwagę. Najnowszy raport TrendForce na temat serwerów AI ujawnia, iż NVIDIA ma wprowadzić na rynek swoją platformę Blackwell nowej generacji do końca 2024 r. Oczekuje się, iż główni dostawcy usług komunikacyjnych zaczną budować centra danych serwerów AI oparte na tej nowej platformie, co potencjalnie zwiększy wskaźnik penetracji rozwiązań chłodzenia cieczą do 10%.

Systemy chłodzenia powietrzem i cieczą, które spełniają wyższe wymagania dotyczące chłodzenia
TrendForce informuje, iż platforma NVIDIA Blackwell zostanie oficjalnie uruchomiona w 2025 r., zastępując obecną platformę Hopper i stając się dominującym rozwiązaniem dla procesorów graficznych NVIDIA klasy high-end, stanowiących prawie 83% wszystkich produktów klasy high-end. Wysokowydajne modele serwerów AI, takie jak B200 i GB200, zostały zaprojektowane z myślą o maksymalnej wydajności, przy czym poszczególne procesory graficzne zużywają ponad 1000 W. Modele HGX będą zawierać po 8 procesorów graficznych, podczas gdy modele NVL będą obsługiwać 36 lub 72 procesory graficzne na szafę, co znacznie zwiększy wzrost łańcucha dostaw chłodzenia cieczą dla serwerów AI.

TrendForce podkreśla rosnący TDP układów serwerowych, przy czym TDP układu B200 osiąga 1000 W, co sprawia, iż tradycyjne rozwiązania chłodzenia powietrzem są niewystarczające. Przewiduje się, iż TDP kompletnych systemów rack GB200 NVL36 i NVL72 osiągnie odpowiednio 70 kW i prawie 140 kW, co wymaga zaawansowanych rozwiązań chłodzenia cieczą w celu efektywnego zarządzania ciepłem.

TrendForce zauważa, iż architektura GB200 NVL36 będzie początkowo wykorzystywać kombinację rozwiązań chłodzenia powietrzem i cieczą, natomiast NVL72, ze względu na większe zapotrzebowanie na chłodzenie, będzie korzystał przede wszystkim z chłodzenia cieczą.

TrendForce identyfikuje pięć głównych komponentów obecnego łańcucha dostaw chłodzenia cieczą dla systemów regałowych GB200: płyty chłodzące, jednostki dystrybucji chłodziwa (CDU), kolektory, szybkozłącza (QD) i wymienniki ciepła tylnych drzwi (RDHx).

CDU to krytyczny system odpowiedzialny za regulację przepływu chłodziwa w celu utrzymania temperatur w szafie w wyznaczonym zakresie TDP, zapobiegając uszkodzeniom komponentów. Vertiv jest w tej chwili głównym dostawcą CDU dla rozwiązań NVIDIA AI, a Chicony, Auras, Delta i CoolIT przechodzą ciągłe testy.

Oczekuje się, iż sprzedaż GB200 osiągnie 60 000 sztuk w 2025 r., co uczyni Blackwell platformą wiodącą i będzie stanowić ponad 80% najnowocześniejszych procesorów graficznych firmy NVIDIA
W 2025 r. NVIDIA będzie kierować swoją ofertę do CSP i klientów korporacyjnych z różnymi konfiguracjami serwerów AI, w tym HGX, GB200 Rack i MGX, z oczekiwanymi współczynnikami dostaw 5:4:1. Platforma HGX płynnie przejdzie z istniejącej platformy Hopper, umożliwiając CSP i dużym klientom korporacyjnym szybkie jej przyjęcie. Rozwiązanie serwera GB200 Rack AI będzie skierowane przede wszystkim do rynku CSP o dużej skali. TrendForce przewiduje, iż NVIDIA wprowadzi konfigurację NVL36 pod koniec 2024 r., aby gwałtownie wejść na rynek, a bardziej złożony NVL72 ma zostać wprowadzony na rynek w 2025 r.

TrendForce prognozuje, iż w 2025 r. liczba sprzedanych układów GB200 NVL36 osiągnie 60 000 szaf, a wykorzystanie procesorów graficznych Blackwell wyniesie od 2,1 do 2,2 miliona sztuk.

Istnieje jednak kilka zmiennych w adopcji GB200 Rack przez klientów końcowych. TrendForce wskazuje, iż pobór mocy NVL72 wynoszący około 140 kW na szafę wymaga zaawansowanych rozwiązań chłodzenia cieczą, co stanowi wyzwanie. Ponadto projekty szaf chłodzonych cieczą są bardziej odpowiednie dla nowych centrów danych CSP, ale wymagają złożonych procesów planowania. CSP mogą również unikać przywiązania do specyfikacji jednego dostawcy i zdecydować się na modele HGX lub MGX z architekturą procesora x86 lub rozszerzyć samodzielnie opracowaną infrastrukturę serwera ASIC AI w celu obniżenia kosztów lub konkretnych zastosowań AI.

Source link

Idź do oryginalnego materiału