Dzięki ogromnej współbieżności z przepustowością 80 TB/s, Groq LPU ma 230 MB pojemności lokalnej pamięci SRAM. Wszystko to razem zapewnia Groqowi fantastyczną wydajność, o której w ciągu ostatnich kilku dni zrobiło się głośno w Internecie. Serwowanie Model Mixtral 8x7B przy 480 znacznikach na sekundę Groq LPU zapewnia jedną z wiodących liczb wnioskowania w branży. W modelach takich jak Llama 2 70B z długością kontekstu 4096 tokenów Groq może obsłużyć 300 tokenów/s, podczas gdy w mniejszych Llama 2 7B z 2048 tokenami kontekstu Groq LPU może generować 750 tokenów/s. Według Tablica liderów LLMPerf, Groq LPU pokonuje dostawców usług chmurowych opartych na procesorach graficznych w zakresie wnioskowania LLM Llama w konfiguracjach obejmujących od 7 do 70 miliardów parametrów. Pod względem przepustowości tokena (wyjścia) i czasu do pierwszego tokenu (opóźnienia) Groq przoduje w grupie, osiągając najwyższą przepustowość i drugie najniższe opóźnienie.
Aby spojrzeć na to z innej perspektywy, ChatGPT, działający w darmowej wersji z GPT-3.5, może generować około 40 tokenów/s. Obecne rozwiązania LLM typu open source, takie jak Mixtral 8x7B może pokonać GPT 3.5 w większości testów porównawczych, a teraz te rozwiązania LLM typu open source mogą działać z szybkością prawie 500 tokenów/s. Wygląda na to, iż czasy oczekiwania na powolne chatboty powoli zaczynają odchodzić w niepamięć, w miarę jak chipy szybkiego wnioskowania, takie jak LPU firmy Groq, stają się coraz bardziej powszechne. Ten start-up AI bezpośrednio zagraża sprzętowi wnioskowującemu dostarczanemu przez NVIDIA, AMD i Intel. Pozostaje pytanie, czy branża zastosuje LPU, ale dostarczona wydajność jest zdecydowanie tam. Wypróbowaliśmy również wnioskowanie Groqa i możesz to zrobić Tutaj.