Układ wnioskowania AI Groq LPU może konkurować z głównymi graczami, takimi jak NVIDIA, AMD i Intel

cyberfeed.pl 2 miesięcy temu

Obciążenia AI dzielą się na dwie różne kategorie: szkolenie i wnioskowanie. Chociaż szkolenie wymaga dużej mocy obliczeniowej i pamięci, prędkości dostępu nie odgrywają znaczącego znaczenia; wnioskowanie to inna historia. Podsumowując, model sztucznej inteligencji musi działać niezwykle szybko, aby zapewnić użytkownikowi końcowemu jak najwięcej tokenów (słów), a tym samym szybciej udzielać mu odpowiedzi na pytania. Groq, startup zajmujący się chipami AI, który przez długi czas działał w trybie ukrytym, poczynił duże postępy, zapewniając ultraszybkie prędkości wnioskowania, korzystając z jednostki przetwarzania języka (LPU) zaprojektowanej dla dużych modeli językowych (LLM), takich jak GPT, Lama, i Mistral LLM. Groq LPU to jednordzeniowa jednostka oparta na architekturze Tensor-Streaming Processor (TSP), która osiąga 750 TOPS przy INT8 i 188 TeraFLOPS przy FP16, z mnożeniem matrycy iloczynowej 320×320, a także 5120 wektorowych jednostek ALU.

Dzięki ogromnej współbieżności z przepustowością 80 TB/s, Groq LPU ma 230 MB pojemności lokalnej pamięci SRAM. Wszystko to razem zapewnia Groqowi fantastyczną wydajność, o której w ciągu ostatnich kilku dni zrobiło się głośno w Internecie. Serwowanie Model Mixtral 8x7B przy 480 znacznikach na sekundę Groq LPU zapewnia jedną z wiodących liczb wnioskowania w branży. W modelach takich jak Llama 2 70B z długością kontekstu 4096 tokenów Groq może obsłużyć 300 tokenów/s, podczas gdy w mniejszych Llama 2 7B z 2048 tokenami kontekstu Groq LPU może generować 750 tokenów/s. Według Tablica liderów LLMPerf, Groq LPU pokonuje dostawców usług chmurowych opartych na procesorach graficznych w zakresie wnioskowania LLM Llama w konfiguracjach obejmujących od 7 do 70 miliardów parametrów. Pod względem przepustowości tokena (wyjścia) i czasu do pierwszego tokenu (opóźnienia) Groq przoduje w grupie, osiągając najwyższą przepustowość i drugie najniższe opóźnienie.

Aby spojrzeć na to z innej perspektywy, ChatGPT, działający w darmowej wersji z GPT-3.5, może generować około 40 tokenów/s. Obecne rozwiązania LLM typu open source, takie jak Mixtral 8x7B może pokonać GPT 3.5 w większości testów porównawczych, a teraz te rozwiązania LLM typu open source mogą działać z szybkością prawie 500 tokenów/s. Wygląda na to, iż czasy oczekiwania na powolne chatboty powoli zaczynają odchodzić w niepamięć, w miarę jak chipy szybkiego wnioskowania, takie jak LPU firmy Groq, stają się coraz bardziej powszechne. Ten start-up AI bezpośrednio zagraża sprzętowi wnioskowującemu dostarczanemu przez NVIDIA, AMD i Intel. Pozostaje pytanie, czy branża zastosuje LPU, ale dostarczona wydajność jest zdecydowanie tam. Wypróbowaliśmy również wnioskowanie Groqa i możesz to zrobić Tutaj.

Source link

Idź do oryginalnego materiału