Chiński DeepSeek prezentuje model V3.2-Exp – stawia na „sparse attention”

itreseller.com.pl 1 tydzień temu

Chiński startup DeepSeek ogłosił premierę eksperymentalnego modelu V3.2-Exp, który ma radykalnie obniżyć koszty działania sztucznej inteligencji i zwiększyć jej zdolność do pracy z dużą ilością danych. Nowa architektura, bazująca na tzw. „sparse attention”, budzi jednak pytania o bezpieczeństwo i niezawodność systemu.

Nowa generacja chińskiego AI

DeepSeek, jeden z najbardziej znanych chińskich startupów technologicznych, zaprezentował model DeepSeek-V3.2-Exp. To rozwinięcie wcześniejszej wersji V3.1-Terminus, udostępnione na platformie Hugging Face. Celem jest zwiększenie efektywności i obniżenie kosztów eksploatacji dużych modeli językowych (LLM). Według Adiny Yakefu z Hugging Face, kluczową nowością jest mechanizm DeepSeek Sparse Attention (DSA), który pozwala szybciej analizować długie dokumenty i rozmowy przy dwukrotnie niższych kosztach obliczeń w porównaniu z poprzednią wersją.

Nick Patience, wiceprezes The Futurum Group, ocenił, iż takie podejście może upowszechnić dostęp do AI.

„To znaczący krok, bo model staje się szybszy i tańszy, bez zauważalnej utraty jakości. Dzięki temu zyska na tym społeczność badaczy, mniejsze firmy i deweloperzy” – skomentował ekspert.

„Sparse attention” – efektywność kontra ryzyko

Nowa architektura polega na selekcjonowaniu danych, które model uznaje za istotne. Zamiast analizować cały zbiór informacji, jak w tradycyjnych LLM, DSA filtruje mniej ważne fragmenty, koncentrując moc obliczeniową na najważniejszych elementach. W teorii oznacza to oszczędność czasu i energii, podobnie jak linia lotnicza wybierająca tylko najbardziej opłacalne trasy między miastami.

Ekaterina Almasque, współzałożycielka funduszu BlankPage Capital, ostrzega jednak, iż taka strategia może mieć ciemne strony.

„Modele tracą w ten sposób wiele niuansów. Pytanie brzmi, czy mechanizm dobrze odróżnia informacje mniej istotne od naprawdę kluczowych. jeżeli nie, wynik może być znacznie mniej trafny” – podkreśla inwestorka.

Jej zdaniem może to mieć konsekwencje dla bezpieczeństwa i inkluzywności rozwiązań AI.

DeepSeek ujawnia koszt treningu modelu R1 – zaledwie 294 tys. USD

Perspektywy

DeepSeek przyznaje, iż V3.2-Exp to jedynie krok pośredni w drodze do zupełnie nowej architektury, która ma zostać ujawniona w kolejnych etapach. Dla firmy najważniejsze jest utrzymanie zainteresowania społeczności deweloperów i badaczy. Jak zauważa Yakefu, „ludzie zawsze wybiorą to, co jest tanie, niezawodne i skuteczne”.

Eksperci podkreślają, iż w świecie AI, gdzie przez ostatnie lata dominowała logika „więcej mocy obliczeniowej oznacza lepszy model”, coraz większego znaczenia nabiera właśnie efektywność. DeepSeek stara się udowodnić, iż sztuczna inteligencja nie musi być gigantycznym pochłaniaczem energii, by była przydatna.

Idź do oryginalnego materiału