Firma Huawei ogłosiła premierę najnowszego modelu AI – Pangu Ultra MoE o imponującej liczbie 718 miliardów parametrów. Nowe rozwiązanie trenowano w całości na chińskiej platformie sprzętowej Ascend i stanowi jeden z największych kroków w rozwoju dużych modeli językowych typu Mixture-of-Experts (MoE) na świecie. To sygnał wzmacniający pozycję Chin w globalnym wyścigu o najbardziej zaawansowaną sztuczną inteligencję.
Przełomowy model AI trenowany w całości na układach Ascend
Huawei od lat buduje własny ekosystem AI oparty na platformie Ascend, rywalizując z zachodnimi potentatami takimi jak Nvidia czy Google, a najnowszy model Pangu Ultra MoE (Mixture-of-Experts) z 718 miliardami parametrów należy dziś do światowej czołówki pod względem skali. Cały proces treningu został zrealizowany wyłącznie z użyciem chińskich układów Ascend, bez wsparcia zachodnich rozwiązań sprzętowych, co stanowi istotny krok ku suwerenności technologicznej.
Do stworzenia Pangu Ultra MoE Huawei wykorzystał innowacyjne rozwiązania inżynierskie. Zespół opracował m.in. architekturę Depth-Scaled Sandwich-Norm (DSSN) zapewniającą stabilność uczenia oraz nową metodę inicjalizacji TinyInit. Pozwoliło to na wielotygodniowe trenowanie modelu na rekordowej ilości ponad 18 TB danych, co odpowiada dziesiątkom miliardów tekstów.

Dodatkowo po raz pierwszy zaprezentowano skalowalny system uczenia z wykorzystaniem dużego współczynnika rzadkości (sparsity ratio) w modelu MoE oraz ulepszone uczenie przez wzmacnianie (RL) w klastrze 384 węzłów Ascend CloudMatrix. Według Huawei, otwiera to drogę do budowy jeszcze większych modeli AI w infrastrukturze krajowej.
Optymalizacje sprzętowe i programowe dla dużych klastrów
Kluczowe innowacje w Pangu Ultra MoE obejmują również kompleksową optymalizację przepływu danych, zarządzania pamięcią oraz równoważenia obciążeń. Inżynierowie Huawei wdrożyli zaawansowane strategie adaptacyjne dla architektury Ascend – od optymalizacji kolejności operacji i usprawnień komunikacji między węzłami, po nowe metody zarządzania pamięcią i dynamiczną reorganizację danych pomiędzy procesami uczenia (DP Attention Load Balancing).
Te ulepszenia przyniosły wyraźny wzrost efektywności – wskaźnik MFU (Model Flop Utilization), czyli miara wykorzystania mocy obliczeniowej klastra, wzrósł z 30% do 41%. Jest to jeden z najlepszych wyników dla tak dużych rozproszonych środowisk uczenia modeli AI.