DeepSeek-V3 debiutuje. To gigant, który kolejny raz może zagrozić ChatGPT

geekpedia.pl 3 dni temu

Chcesz porozmawiać z zaawansowanym chatbotem, ale nie stać cię na drogi abonament? W takim razie najnowsze dziecko chińczyków może być dokładnie tym, czego szukasz.

DeepSeek, czyli chińska firma skupiająca się na rozwoju sztucznej inteligencji, wypuściła właśnie nową odsłonę swojego dużego modelu językowego (tzw. LLM) znanego jako DeepSeek-V3-0324. Rozwiązanie o oszałamiającym rozmiarze 641 GB zostało publicznie udostępnione na platformie dla wszelkiej maści narzędzi i projektów AI – Hugging Face – bez wcześniejszego rozgłosu, co zaskoczyło wielu użytkowników.

Dzięki nowej licencji, LLM można wykorzystać komercyjnie

DeepSeek-V3-0324 is out now!

Major boost in reasoning performance
Stronger front-end development skills
Smarter tool-use capabilities

For non-complex reasoning tasks, we recommend using V3 — just turn off “DeepThink”
API usage remains unchanged
Models are… pic.twitter.com/QVuPwCODne

— DeepSeek (@deepseek_ai) March 25, 2025

Model wyróżnia się na tle innych wykorzystaniem licencji MIT. Pozwala ona na darmowe, komercyjne wykorzystanie sztucznej inteligencji przez użytkowników. Warto też zaznaczyć, iż DeepSeek V3 możemy uruchamiać lokalnie, choćby na sprzęcie Apple. Podobno w przypadku Apple Mac Studio z układem Apple M3 Ultra możemy osiągnąć prędkość przetwarzania przekraczającą choćby 20 tokenów na sekundę.

Według samego DeepSeek, przeprowadzone przez nich benchmarki wykazały znaczną poprawę w stosunku do poprzednich wersji. Model przeszedł rygorystyczne testy wewnętrzne i osiągnął doskonałe wyniki, prawdopodobnie przewyższając wszystkie konkurencyjne modele. W przeciwieństwie jednak do swoich odpowiedników, DeepSeek-V3-0324 dostępny jest do pobrania i użytkowania całkowicie za darmo.

Pod względem technicznym, model opiera się na architekturze mixture-of-experts (MoE). Wykorzystuje on selektywnie około 37 miliardów z 685 miliardów parametrów na jedno zadanie, co zwiększa efektywność poprzez ograniczenie zapotrzebowania na moc obliczeniową, jednocześnie zachowując wysoką wydajność. Model korzysta także z technologii Multi-Head Latent Attention (MLA) i Multi-Token Prediction (MTP), które poprawiają retencję kontekstu oraz przyspieszają generowanie odpowiedzi.

Idź do oryginalnego materiału