VALL-E – nadeszła rewolucja w podejściu do syntezowania mowy

bulldogjob.pl 1 rok temu

VALL-E ma potencjał, by wywrócić nasze rozumienie przetwarzania mowy na tekst do góry nogami.

Microsoft, który najszybciej z wielkiej internetowej czwórki zareagował na gigantyczny sukces ChatGPT, śmiało idzie za ciosem. Do Azure dopiero co trafiły pierwsze silniki opracowane przez OpenAI (choć akurat na dostępność w microsoftowej chmurze ChatGPT będziemy jeszcze musieli zaczekać), a już mamy do czynienia z kolejną ofensywą korporacji szefowanej przez Satyę Nadellę. Chodzi o nowy model przetwarzania tekstu na mowę VALL-E.

VALL-E – czym jest?W ojczyźnie Ivony prawdopodobnie nie trzeba zbyt wiele nikomu wyjaśniać, czym są silniki przetwarzania tekstu na mowę (TTS). Niemniej z opublikowanych już przez badaczy Microsoftu prac wiadomo już, iż VALL-E to coś znacznie więcej niż modele wykorzystywane dotychczas. Dotychczas do syntezy potrzebne były żmudne i długotrwałe sesje z lektorami, którzy musieli nagrywać pojedyncze głoski w wielu różnych wariantach i kombinacjach, tak aby wpisany przez użytkownika tekst brzmiał po przetworzeniu naturalnie i uwzględniał choćby pozycję danej głoski w słowie, a słowa w wyrażeniu.
Idź do oryginalnego materiału