Chińska alternatywa dla HBM: Huawei udostępnia narzędzie UCM

itreseller.com.pl 2 tygodni temu

Huawei prezentuje Unified Cache Manager (UCM) – narzędzie programowe “obchodzące” amerykańskie sankcje na pamięci HBM. UCM zwiększa mianowicie wydajność AI o 2200% i redukuje opóźnienia o 90% bez kosztownych chipów pamięci. Firma udostępni kod w formie open source już we wrześniu 2025, wzmacniając chińską niezależność technologiczną w sektorze sztucznej inteligencji.

Huawei Technologies zaprezentowało narzędzie Unified Cache Manager (UCM) podczas Forum Rozwoju Aplikacji Finansowych AI w Szanghaju. To przełomowe narzędzie programowe ma pomóc chińskim firmom ominąć amerykańskie ograniczenia eksportowe dotyczące pamięci HBM (high-bandwidth memory), kluczowych dla treningu i wnioskowania AI. Zhou Yuefeng, wiceprezes działu produktów pamięci masowych Huawei, ogłosił, iż UCM osiągnął spektakularne wyniki podczas testów – do 90% redukcji opóźnień i 22-krotny wzrost przepustowości systemu w porównaniu z tradycyjnymi hierarchiami pamięci podręcznej.

UCM wykorzystuje inteligentny algorytm zarządzania pamięcią podręczną Key-Value (KV Cache), rozdzielając dane AI pomiędzy różne typy pamięci według charakterystyk opóźnień. System automatycznie dystrybuuje dane między ultraszybką pamięć HBM, standardową DRAM i dyski SSD, optymalizując wydajność według dostępnych zasobów. W praktyce oznacza to, iż chińskie firmy mogą osiągnąć wysoką wydajność AI bez konieczności importu kosztownych chipów HBM, które są niemal wyłącznie produkowane przez SK Hynix, Samsunga i Microna – firmy objęte amerykańskimi sankcjami.

Technologia została już przetestowana w rzeczywistych warunkach w China UnionPay, jednym z największych chińskich banków, w zastosowaniach takich jak analiza głosu klientów, planowanie marketingowe i asystenci biurowi. W scenariuszach długich sekwencji UCM osiąga 2-22-krotny wzrost liczby tokenów na sekundę (TPS), jednocześnie obniżając koszty przetwarzania pojedynczego tokena. System wykorzystuje kombinację rzadkich algorytmów uwagi (sparse attention algorithms) do optymalizacji koordynacji między obliczeniami a pamięcią masową, co w aplikacjach wieloturowych konwersacji (multi-turn conversations) i wyszukiwania wiedzy redukuje początkowe opóźnienia odpowiedzi choćby o 90%.

Idź do oryginalnego materiału