
Dostaliśmy nową, darmową AI do transkrypcji mowy. Nowy model Nvidia Canary-1b-v2 należy do najlepszych w swojej klasie a dodatkowo umie rozpoznawać mowę w 25 językach europejskich. Dodatkowo dostaliśmy model Nvidia Parakeet-tdt-0.6b-v3, który jest z kolei najszybszym modelem do transkrypcji mowy. Oba są dostępne całkowicie za darmo, choć do ich użycia potrzebne jest pewne obeznanie z programowaniem.
Systemy AI do transkrypcji mowy są niezwykle użyteczne. Studentom pozwalają na spisanie wykładów (a następnie wrzucenie ich treści na przykład do NotebookLM. Pozwala to stworzyć ich podsumowanie czy zestaw pytań kontrolnych). Dziennikarzom pozwalają na szybkie spisanie wywiadów, a pracownikom korporacji na stworzenie podsumowania spotkania biznesowego.
Nic więc dziwnego, iż takich systemów jest sporo. Od darmowego Whispera od OpenAI po rozwiązania komercyjne, takie jak Scribe od ElevenLabs, jednorożca dwóch Polaków specjalizującego się w rozwiązaniach AI w dziedzinie głosu i dźwięku.
Nowa AI do transkrypcji mowy – od Nvidii
Teraz dostaliśmy nowe modele od Nvidii – nie za duże, szybkie i specjalizujące się w językach europejskich. Dobre narzędzie dla osób interesujących się językami naszych europejskich sąsiadów, a zwłaszcza dla firm, które posiadają oddziały w różnych europejskich krajach.
Pierwszy z dwóch modeli, canary-1b-v2, ma raptem 1 mld parametrów i najlepiej będzie działał na kartach graficznych Nvidii z co najmniej 6 GB pamięci. Zapewnia automatyczną interpunkcję i jest w stanie dokonywać tłumaczenia transkrybowanego tekstu w parach angielski-inny język i inny język-angielski. Ma tu więc przewagę nad Whisperem (i jego klonami), bo model OpenAI potrafi dokonać tłumaczenia tylko w parze inny język – angielski.
Inną przewagą nad Whisperem jest to, iż według testów jest kilkukrotnie szybszy od modelu OpenAI.
A jak nowy model Nvidii radzi sobie z polskim? Według benchmarków nieźle, tak jak można by się spodziewać. Czyli – nieco gorzej niż z „większymi” językami, takimi jak angielski, niemiecki, francuski, hiszpański, włoski czy portugalski, porównywalnie z niderlandzkim i lepiej od większości innych języków europejskich.
Jeśli chodzi o obsługiwane języki, to Canary obsługuje wszystkie języki oficjalne UE z wyjątkiem irlandzkiego, za to z dodatkiem rosyjskiego i ukraińskiego.
Oprócz Canary dostaliśmy także również darmowy model parakeet-tdt-0.6b-v3, nieco tylko słabszy pod względem jakości transkrypcji, za to około 3x szybszy. Jest to najszybszy model wielojęzyczny w rankingu Hugging Face.
Jeśli chcecie spróbować Canary, to możecie to zrobić na tej stronie. Pamiętajcie jednak, iż macie tu dość ograniczoną ilość darmowych mocy obliczeniowych, więc wgrywajcie raczej krótkie nagrania. jeżeli chcecie spróbować szczęścia na swoim sprzęcie, to instrukcje znajdziecie na stronie projektu na Hugging Face. Ale w tym wypadku będzie lepiej jeżeli macie jakieś pojęcie o Pythonie.
I wielka kolekcja darmowych danych
Oprócz dwóch nowych modeli, Nvidia udostępniła również olbrzymi zbiór danych mowy w różnych językach, obejmujący około miliona godzin nagrań. Z tego 650 tysięcy godzin jest przeznaczonych do treningu rozpoznawania mowy a 350 tysięcy godzin do zadań związanych z tłumaczeniem.
To dobra wiadomość przede wszystkim dla zespołów deweloperów AI, które chciałyby wbudować umiejętność rozpoznawania tekstu w swoje modele. Zespół budujący polski modeli AI Bielik sugerował ostatnio, iż jedna z kolejnych wersji modelu, większa od dotychczasowych Bielików 11B, będzie multimodalna, a więc będzie obsługiwać nie tylko prompty tekstowe. Choć prawdopodobnie na pierwszy ogień pójdą umiejętności rozpoznawania obrazu, to może w którejś iteracji pojawi się umiejętność rozpoznawania mowy. W tym przypadku zbiór danych od Nvidii byłby jak znalazł.
Źródło zdjęcia: Matt Botsford/Unsplash