Deepseek zaskoczeni wszystkimi W zeszłym miesiącu z twierdzeniem, iż jego model AI wykorzystuje mniej więcej jedną dziesiątą ilości siły obliczeniowej jako model Lamy 3.1 Meta, zwiększając cały światopogląd na to, ile energii i zasobów potrzeba, aby rozwinąć sztuczną inteligencję.
Przyjmując się do wartości nominalnej, twierdzenie to może mieć ogromne implikacje dla wpływu AI na środowisko. Giganci technologiczni spieszą się, aby zbudować ogromne centra danych AI, z planami wykorzystania tyle samo energii elektrycznej jako małe miasta. Generowanie tak dużej ilości energii elektrycznej powoduje zanieczyszczenie, podnoszenie obaw o to, w jaki sposób infrastruktura fizyczna podlegająca nowym generatywnym narzędziom AI może zaostrzyć zmiany klimatu i pogorszyć jakość powietrza.
Zmniejszenie, ile energii potrzeba, aby szkolenie i uruchomienie generatywnych modeli AI może złagodzić wiele tego stresu. Ale pozostało za wcześnie, aby ocenić, czy Deepseek będzie zmieniający grę, jeżeli chodzi o ślad środowiskowy AI. Wiele będzie zależeć od tego, jak inni główni gracze reagują na przełom chińskiego startupu, zwłaszcza biorąc pod uwagę planuje zbudować nowe centra danych.
„W tej sprawie jest wybór”.
„To tylko pokazuje, iż AI nie musi być wieprzem energetycznym”, mówi Madalsa Singh. „W tej sprawie jest wybór”.
W grudniu zamieszanie w Deepseek rozpoczęło się od wydania swojego modelu V3, który kosztował tylko 5,6 miliona dolarów za ostateczny trening i 2,78 miliona godzin GPU na trening na starszych układach H800 NVIDIA, zgodnie z A Raport techniczny od firmy. Dla porównania, META LAMA 3.1 405B – pomimo użycia nowszych, bardziej wydajnych układów H100 – przyjął 30,8 miliona godzin GPU trenować. (Nie znamy dokładnych kosztów, ale szacunki dla LAMA 3.1 405B były w pobliżu 60 milionów dolarów i pomiędzy 100 milionów dolarów i 1 miliard dolarów dla porównywalnych modeli.)
Następnie Deepseek wydał swój model R1 w zeszłym tygodniu, który zwrócił się do kapitalizacji Marc Andreessen „nazwał„Głęboki prezent dla świata. ” gwałtownie asystent AI firmy strzał na górę Apple i Google’s App Stores. A w poniedziałek wysłał ceny akcji konkurentów w nosedive na Założenie Deepseek był w stanie stworzyć alternatywę dla Lamy, Gemini i Chatgpt za ułamek budżetu. Nvidia, której żetony umożliwiają wszystkie te technologie, zaobserwowano, iż cena akcji spadła w wiadomościach V3 Deepseek potrzebowało tylko 2000 żetonów do trenowaniaw porównaniu do 16 000 żetonów lub więcej potrzebnych konkurentom.
Deepseek twierdzi, iż był w stanie ograniczyć, ile energii elektrycznej zużywa, stosując bardziej wydajne metody szkolenia. Pod względem technicznym używa strategia beztroska. Singh mówi, iż sprowadza się to do bardziej selektywnego, z jakim częścią modelu są szkolone; Nie musisz jednocześnie szkolić całego modelu. Singh twierdzi, iż jeżeli uważasz, iż model AI jako wielkiej firmy obsługi klienta z wieloma ekspertami jest bardziej selektywna w wyborze ekspertów.
Model oszczędza również energię, jeżeli chodzi o wnioskowanie, czyli wtedy, gdy model ma za zadanie zrobić, poprzez tak zwane Buforowanie wartości kluczowej i kompresja. jeżeli piszesz historię, która wymaga badań, możesz pomyśleć o tej metodzie jako o możliwości referencji kart indeksowych z podsumowaniami na wysokim poziomie podczas pisania, a nie konieczności czytania całego raportu, który został podsumowany, wyjaśnia Singh .
Singh jest szczególnie optymistycznie optymistycznie, iż modele Deepseek są w większości open source, bez danych treningowych. Dzięki temu podejściu naukowcy mogą uczyć się od siebie szybciej i otwiera drzwi dla mniejszych graczy, aby wejść do branży. Stanowi to również precedens dla większej przejrzystości i odpowiedzialności, aby inwestorzy i konsumenci mogli być bardziej krytyczne wobec tego, jakie zasoby zajmują się opracowaniem modelu.
Do rozważenia jest podwójny miecz
„Jeśli wykazaliśmy, iż te zaawansowane możliwości sztucznej inteligencji nie wymagają tak ogromnego zużycia zasobów, otworzy się nieco bardziej oddychającą dla bardziej zrównoważonego planowania infrastruktury”, mówi Singh. „Może to również zachęcać do tych ustalonych laboratoriów AI, takich jak Open AI, AITropic, Google Gemini, do opracowania bardziej wydajnych algorytmów i technik oraz wyjścia poza rodzaj brutalnej siły po prostu dodawanie większej liczby danych i mocy obliczeniowej na te modele”.
Z pewnością przez cały czas jest sceptycyzm w sprawie Deepseek. „Zrobiliśmy trochę kopania w Deepseek, ale w e -mailu trudno jest znaleźć konkretne fakty dotyczące zużycia energii” – powiedział Carlos Torres Diaz, szef badań nad energią w Rystad Energy.
Jeśli firma twierdzi o jej zużyciu energii, może to zmniejszyć całkowite zużycie energii centrum danych, pisze Torres Diaz. I podczas gdy duże firmy technologiczne podpisały mnóstwo transakcji w celu zdobycia energii odnawialnej, szybkie zapotrzebowanie na energię elektryczną z centrów danych przez cały czas ryzykuje wyrzucanie ograniczonych zasobów słonecznych i wiatrowych z sieci energetycznych. Zmniejszenie zużycia energii elektrycznej AI „z kolei udostępniłaby bardziej energię odnawialną dla innych sektorów, pomagając wypierać szybciej stosowanie paliw kopalnych”, według Torresa Diaza. „Ogólnie rzecz biorąc, mniejsze zapotrzebowanie na energię ze strony dowolnego sektora jest korzystne dla globalnego przejścia energii, ponieważ w perspektywie długoterminowej potrzebne byłoby mniejsze wytwarzanie energii napędzanej kopalami”.
Istnieje obosieczny miecz do rozważenia dzięki bardziej energooszczędnych modeli AI. Satya Nadella, dyrektor generalny Microsoft napisał na x o Jevons Paradoxw którym bardziej wydajna staje się technologia, tym większe prawdopodobieństwo jej użycia. Szkody środowiskowe rosną w wyniku wzrostu wydajności.
„Pytanie brzmi: Gee, jeżeli moglibyśmy porzucić zużycie energii AI o współczynnik 100, oznacza to, iż przybyło 1000 dostawców danych i mówi:„ Wow, to świetnie. Zamierzamy budować, budować, budować 1000 razy więcej niż planowaliśmy „?” Mówi Philip Kerin, profesor badań inżynierii elektrycznej i komputerowej na University of Illinois Urbana-Champaign. „Przez następne 10 lat będzie naprawdę interesującą rzeczą”. Torres Diaz powiedział również, iż ten problem sprawia, iż jest zbyt wcześnie, aby zrewidować prognozy zużycia energii „znacznie spadają”.
Bez względu na to, ile energii elektrycznej korzysta z centrum danych, ważne jest, aby spojrzeć na to, skąd ta energia elektryczna pochodzi, aby zrozumieć, ile powoduje zanieczyszczenie. Chiny wciąż dostają Ponad 60 procent energii elektrycznej z węglai inny 3 procent pochodzi z gazu. Stany Zjednoczone również się ożywiają 60 procent energii elektrycznej z paliw kopalnychale większość pochodzi z gazu – który tworzy mniej zanieczyszczenia dwutlenku węgla Po spaleniu niż węgiel.
Co gorsza, firmy energetyczne są Opóźnienie emerytury elektrowni paliwowych w USA częściowo w celu zaspokojenia gwałtownego popytu ze strony centrów danych. Niektórzy choćby planują Zbuduj nowe rośliny gazowe. Spalanie większej liczby paliw kopalnych nieuchronnie prowadzi do większej ilości zanieczyszczenia, które powoduje zmiany klimatu, a także Lokalne zanieczyszczenia powietrza które zwiększają zagrożenie dla zdrowia do pobliskich społeczności. Centra danych również Rozbij dużo wody Utrzymywanie sprzętu przed przegrzaniem, co może prowadzić do większego stresu w regionach podatnych na suszę.
Są to wszystkie problemy, które deweloperzy AI mogą zminimalizować, ograniczając ogólne zużycie energii. Tradycyjne centra danych były w stanie to zrobić w przeszłości. Pomimo obciążeń prawie trzykrotnie w latach 2015–2019, zapotrzebowanie na zasilanie udało się pozostać stosunkowo płaskie w tym okresie, Według Goldman Sachs Research. Następnie centra danych stały się znacznie bardziej głodne mocy około 2020 r. Z postępami w sztucznej inteligencji. W 2023 r. Zużyli ponad 4 procent energii elektrycznej w USA w 2023 r. Raport grudnia z Lawrence Berkeley National Laboratory. Nie ma teraz większej niepewności co do tego rodzaju projekcji, ale w tym momencie nazywanie wszelkich strzałów opartych na Deepseek jest przez cały czas strzałem w ciemności.