Nowe narzędzie od ElevenLabs – dla firm międzynarodowych

homodigital.pl 1 dzień temu

Pojawiło się nowe narzędzie od ElevenLabs, startupu AI dwóch Polaków. Tym razem firma znana z narzędzi do dubbingu, czy klonowania głosu oferuje Conversational AI 2.0. To platforma AI, która może płynnie rozmawiać z człowiekiem i reagować na wtrącenia rozmówcy. A ponieważ modele mogą rozmawiać w dziesiątkach języków, to doskonale będą się nadawać dla firm z międzynarodową bazą klientów.

ElevenLabs to cały ekosystem produktów związanych z generowaniem mowy, a choćby dźwięków niewerbalnych. Mamy więc model speech-to-speech, pozwalający na transformację jednego głosu w inny, przy zachowaniu oryginalnej intonacji i emocji. Mamy klonowanie głosu, mamy automatyczne tłumaczenie i dubbing materiałów wideo na różne języki, z zachowaniem charakterystyki głosu oryginalnego mówcy. ElevenLabs oferuje również model generujący dźwięki do klipów wideo.

Teraz dostaliśmy kolejne modele – ulepszone wersje konwersacyjnej AI. Już cztery miesiące po pojawieniu się pierwszej wersji systemu, ElevenLabs udostępnia nową, stanowiącą jakościowy skok, który może otworzyć dla firmy nową grupę klientów – korporacje międzynarodowe.

Nowe narzędzie od ElevenLabs – przyda się firmom międzynarodowym?

Czym jest i co umie Conversational AI 2.0? Przede wszystkim jest to AI głosowe, które potrafi przeprowadzać konwersacje z człowiekiem.

Nowa platforma umożliwia prowadzenie naturalnych rozmów np. z klientem, bo system odnotowuje, kiedy rozmówca chce przerwać wypowiedź AI i gwałtownie kończy swój wywód. Nie jest to nowość na rynku – podobną umiejętność posiada zaawansowany tryb głosowy OpenAI, ale wiele innych modeli jej nie posiada.

System ElevenLabs automatycznie rozpoznaje język rozmówcy i dostosowuje się do niego, co pozwala na zastosowania tego narzędzia w ekosystemach wielojęzycznych. Chodzi np. o kraje mające kilka języków oficjalnych czy jako jednolite rozwiązanie dla firm międzynarodowych mających klientów na całym świecie.

Klienci mogą dołączyć swoją bazę wiedzy do systemu dzięki tzw. RAG (Retrieval Augmented Generation), co pozwala zbudować chatboty głosowe operujące bazą wiedzy korporacyjnej. To pozwalałoby np. chatbotowi medycznemu zaoferować zalecenia danej instytucji służby zdrowia a w przypadku chatbota pomocy technicznej skorzystać z wewnętrznej dokumentacji dla produktów firmy.

Dodatkowo Conversational AI 2.0 może generować również tekst lub mieszankę tekstu i głosu, co pozwala zbudować jednolite rozwiązanie obsługujące również na przykład osoby niedosłyszące.

Nowy system można wypróbować za darmo, ale w tym wypadku jesteśmy ograniczeni do raptem 15 minut miesięcznie. Plany płatne oferują ceny w granicach 10-12 centów za minutę, czyli od o. 6 do nieco ponad 7 dolarów za godzinę. To mniej niż polska płaca minimalna brutto za godzinę. A klient uzyskuje chatbota operującego kilkudziesięcioma językami, pracującego jeżeli trzeba 24 godziny na dobę, bez przerw w pracy i urlopów.

Głosowa AI to przyszłość?

Conversational AI 2.0 pozwala startupowi Polaków wejść w bardzo obiecujący rynek. Głosowa AI, zwłaszcza taka, która potrafi naturalnie rozmawiać z człowiekiem, będzie prawdopodobnie stopniowo wypierać chatboty tekstowe. Po prostu porozumiewanie się mową jest dla nas bardziej naturalne. Na dodatek często jesteśmy zabiegani, mamy mało czasu i chętnie przepytamy AI, np. prowadząc samochód. Wpisywanie tekstu nie jest w tych warunkach ani wygodne, ani bezpieczne, w odróżnieniu od pogaduszki z AI.

Nowe narzędzie jest też odpowiedzią na konkurencję – jak pisaliśmy niedawno, pojawiły się darmowe narzędzia mogące zastąpić niektóre z produktów firmy Piotra Dąbkowskiego i Mateusz Staniszewskiego. Ale jak widać ElevenLabs cały czas jest w stanie uciekać do przodu.

Dajcie znać w komentarzach pod tekstem, czy podoba Wam się to narzędzie.

Źródło grafiki: Sztuczna inteligencja, model Dall-E 3

Idź do oryginalnego materiału