Chciałaś/eś się nauczyć chińskiego, ale nie starczyło Ci wytrwałości? Niedługo, jeżeli zechcesz, będziesz mieć taką możliwość. Wystarczy, iż mówisz na przykład po angielsku. AI od Microsoftu sprawi, iż przemówisz w języku obcym – i to swoim głosem. Podczas chatu w Microsoft Teams.
Wyobraź teraz sobie inną sytuację. Męczysz się, usiłując zrozumieć co próbują ci powiedzieć podczas zdalnego spotkania koledzy z japońskiego oddziału firmy, których co prawda doskonale rozumiesz w piśmie, ale w mowie już niespecjalnie. Już za parę miesięcy będzie można im pozwolić mówić po prostu po japońsku. Nowa funkcjonalność Teams przetłumaczy ich na żywo na język Szekspira. Przy czym może zachować ich barwę głosu. System jest w stanie sklonować głos, by przetłumaczony brzmiał podobnie do oryginalnego.
Przemówisz w języku obcym – jeżeli jeden już znasz
To niestety nie oznacza, iż możesz nie mówić w żadnym języku obcym. Chwilowo funkcjonalność związana z tłumaczeniem mowy w czasie rzeczywistym ograniczy się do raptem kilku języków: angielskiego, chińskiego, francuskiego, hiszpańskiego, japońskiego, koreańskiego, niemieckiego, portugalskiego i włoskiego.
Nowa funkcja ma się pojawić w Teams w tak zwanym public preview, a więc testach beta dostępnych dla wszystkich klientów, w pierwszych miesiącach 2025 roku. Będzie oferowana tylko klientom biznesowym z subskrypcją Microsoft 365, więc raczej nie skorzystamy z niej do celów prywatnych.
Nowością oczywiście nie jest tu umiejętność tłumaczenia. To akurat systemy generatywnej sztucznej inteligencji umieją od dawna. Tak naprawdę to architektura transformerów, na której oparte są dzisiejsze duże modele językowe została stworzona właśnie do tłumaczeń. System tłumaczący z użyciem powszechnie dostępnych narzędzi może stworzyć przeciętnie zdolny programista. Może wykorzystać Whispera do transkrypcji mowy, potem np. GPT-4o czy Gemini do tłumaczenia i następnie system ElevenLabs do generowania głosu z przetłumaczonego tekstu.
Nawet umiejętność klonowania głosu nie jest nowością. ElevenLabs oferuje taką funkcję, wykorzystaną zresztą przez telefonicznego oszusta do podszywania się pod prezydenta Joego Bidena.
Nowością jest to, iż tłumaczenie będzie w czasie rzeczywistym. To prawdopodobnie oznacza, iż jest wykonywane przez pojedynczy model językowy. System Whisper/GPT/ElevenLabs byłby o wiele wolniejszy.
Nie tylko tłumaczenie. Nowi agenci od Microsoftu
Nowa funkcjonalność jest częścią nowej oferty Microsoftu dla klientów biznesowych – oferty tak zwanych agentów AI. Jednym z nich jest opisany powyżej tłumacz, ale takich agentów – wyspecjalizowanych systemów AI – będzie więcej. Jeden będzie wspierał pracowników w wykonywaniu podstawowych zadań, inny będzie robił notatki w czasie rzeczywistym ze spotkań w Microsoft Teams, jeszcze inne znajdą nam potrzebny dokument czy streszczą specyfikację produktu.
Grafika: Pieter Bruegel/Wikipedia/Google Art Project