DeepSeek ujawnia koszt treningu modelu R1 – zaledwie 294 tys. USD

itreseller.com.pl 3 dni temu

Chiński startup DeepSeek ujawnił dane o kosztach treningu swojego modelu R1. Według publikacji w „Nature” proces pochłonął jedynie 294 tys. USD i trwał 80 godzin na klastrze 512 układów Nvidia H800. Tak niskie koszty, w porównaniu z amerykańskimi konkurentami, budzą podziw, ale i wątpliwości ekspertów.

Rekordowo niskie koszty według DeepSeek

DeepSeek, firma, która od stycznia 2025 roku budzi ogromne emocje w globalnym wyścigu AI, po raz pierwszy ujawniła szczegółowe dane dotyczące kosztów szkolenia swojego modelu R1. W publikacji naukowej w „Nature” założyciel Liang Wenfeng i jego zespół podali, iż trening trwał zaledwie 80 godzin, a łączny koszt wyniósł 294 tys. USD. Wykorzystano do tego 512 układów Nvidia H800, zaprojektowanych specjalnie na rynek chiński w warunkach amerykańskich restrykcji eksportowych.

Dla porównania, w 2023 roku Sam Altman, szef OpenAI, przyznał, iż koszty trenowania modeli bazowych jego firmy sięgały „znacznie powyżej 100 mln USD”. Dokładnych kwot nigdy jednak nie podano. W tym kontekście deklaracja DeepSeek jawi się jako przełomm albo jako sygnał, iż oficjalne dane nie oddają pełnego obrazu.

Wątpliwości ekspertów

Niezależni analitycy podchodzą do tych liczb z dużą ostrożnością. SemiAnalysis, firma badawcza zajmująca się półprzewodnikami i infrastrukturą AI, ocenia, iż realna skala działalności DeepSeek jest znacznie większa. Według ich raportu startup zainwestował około 1,6 mld USD w serwery, 944 mln USD w koszty operacyjne i ponad 500 mln USD w zakup procesorów. W sumie może dysponować choćby 50 tys. układów z rodziny Hopper, w tym 10 tys. H800 i 10 tys. H100.

W tym świetle oficjalne 294 tys. USD wydają się dotyczyć jedynie wycinka działań badawczych, a nie całości procesu budowy modelu. To zresztą nie pierwszy raz, gdy w przypadku chińskich firm pojawia się rozbieżność między oficjalną narracją a szacunkami rynku.

Kontrowersje wokół metod

DeepSeek mierzy się także z oskarżeniami o szerokie stosowanie technik destylacji, czyli trenowania nowych modeli na podstawie wyników generowanych przez inne systemy. Metoda ta pozwala obniżyć koszty i przyspieszyć rozwój, ale rodzi pytania o oryginalność i etykę.

Firma przyznała, iż w przypadku wcześniejszych modeli korzystała m.in. z otwarto-źródłowego Llama od Meta. Z kolei w najnowszym artykule w „Nature” badacze ujawnili, iż dane treningowe dla modelu V3 zawierały „znaczącą liczbę” odpowiedzi wygenerowanych przez systemy OpenAI. Jak tłumaczą, było to efektem zbierania materiałów z sieci, a nie świadomym kopiowaniem.

Idź do oryginalnego materiału