Mistral udostępnia Voxtrala – otwarty model do transkrypcji mowy

homodigital.pl 5 miesięcy temu

Whisper ma teraz darmową konkurencję – Mistral udostępnił Voxtrala, nowy otwarty model AI do transkrypcji mowy, ale nie tylko. Model potrafi również na przykład podsumować plik audio. Co potrafi, jak z niego skorzystać, jakie są jego ograniczenia? Wyjaśniamy.

Od kilku lat jednym z najlepszych narzędzi do transkrypcji, zwłaszcza języka polskiego, był Whisper od OpenAI. Whisper, a zwłaszcza jego łatwiejsze w użyciu klony w rodzaju Faster Whisper pozwalają dokonać transkrypcji na własnym sprzęcie – pod warunkiem, iż jest on wystarczająco mocny. Dla tych, którzy nie mają wystarczająco dobrego sprzętu zostawał dostęp przez API – przy koszcie na poziomie 36 centów za godzinę transkrypcji nie była to droga opcja.

Jednak od dłuższego już czasu brakowało dobrej otwartej alternatywy dla Whispera. Można było wybrać albo dobrej jakości rozwiązania zamknięte, takie jak Scribe od ElevenLabs, albo gorszej jakości rozwiązania otwarte. To w końcu się zmienia wraz z pojawieniem się Voxtrala.

Mamy w końcu nowy otwarty model do transkrypcji mowy

Cóż więc dostajemy od Mistrala, gwiazdy wśród europejskich startupów AI? Tak naprawdę dwa modele. Większy, liczący 24 mld parametrów Voxtral Small jest przeznaczony głównie dla użytkowników korporacyjnych. Dla przeciętnych zjadaczy chleba bardziej interesujący jest Voxtral Mini z 3 mld parametrów – wystarczająco mały, by można go było uruchomić na sprzęcie konsumenckim.

Model ten jest dostępny w serwisie Hugging Face i, niestety, procedura instalacji jest dość skomplikowana. O wiele prościej jest korzystać z Faster Whisper. Zwłaszcza, iż mały Voxtral ma spore wymagania sprzętowe – jeżeli chcemy go uruchomić na karcie graficznej (na której będzie działał dużo szybciej), to musimy mieć GPU z pamięcią niemal 10 GB.

Dla tych, którzy nie chcą instalować Voxtrala na własnym sprzęcie, ale są dość techniczni, istnieje możliwość dostępu przez API. Niestety, dokumentacja jak na razie dotyczy dostępu wyłącznie przez narzędzie curl a i w tym przypadku jest niepełna. Dokumentacja dla dostęp przez Pythona i Typescript jest opisana jako „Coming soon…”. Plus trzeba zapłacić – jednak kilkakrotnie mniej niż za dostęp API do Whispera.

Dla innych, którzy nie chcą grzebać w wierszu poleceń, żeby dostać dostęp do Voxtrala, pozostaje poczekanie kilku tygodni – Mistral obiecuje, iż w takim właśnie czasie powinien uruchomić dostęp do modelu przez swojego chatbota Le Chat.

Jak zapewnia Mistral, jego model potrafi nie tylko dokonać transkrypcji mowy, ale również ją podsumować a choćby można będzie go odpytać z zawartości danego pliku dźwiękowego. Wynika to z faktu, iż został on zbudowany w oparciu o Mistrala Small 3.1, a więc ma możliwości modeli językowych. Pod tym względem jego potencjał istotnie wykracza poza to, co potrafi Whisper.

Dodatkowo, według testów przeprowadzonych przez Mistral, Voxtral trafniej niż Whisper transkrybuje mowę. Nie wiemy tylko, czy również w języku polskim – Mistral nie wymienia polszczyzny wśród obsługiwanych czy testowanych języków. Istotną zaletą Whispera było to, iż polski był wśród języków najlepiej obsługiwanych przez ten model. Czy tak będzie z Voxtralem – dopiero się przekonamy.

Pewnym ograniczeniem Voxtrala jest to, iż potrafi jednorazowo dokonać transkrypcji mowy o długości do 30 minut, więc jeżeli mamy dłuższy plik dźwiękowy, to będziemy musieli go sobie podzielić na krótsze fragmenty. O tym jak to zrobić, pisałem w tym tekście.

A będzie jeszcze lepszy

Mistral zapowiada, iż to nie ostatnie jego słowo w rozwoju Voxtrala. Firma pracuje nad nowymi funkcjonalnościami modelu, takimi jak wykrywanie i oznaczanie rozmówców czy komentarze do tekstu zawierające na przykład wiek rozmówcy czy emocje w jego głosie. Model będzie też w stanie rozpoznać dźwięki niebędące mową.

Źródło zdjęcia: Solen Feyissa/Unsplash

Idź do oryginalnego materiału