Rozwiązania sztucznej inteligencji dla AV i broadcastu. Jacek Szoka i Marek Górecki | Studiotech Poland |

avintegracje.pl 10 miesięcy temu

AI to termin, który jest dzisiaj odmieniany przez wszystkie przypadki. Chociaż czasami nie zdajemy sobie z tego sprawy, sztuczna inteligencja pomoże nam w zlokalizowaniu przesyłki, dobierze już nie tylko najbardziej adekwatny rozmiar, ale także fason kupowanej online odzieży, stworzy coraz bardziej wiarygodne zdjęcie bez potrzeby wychodzenia z domu, przygotuje prosty tekst i podpowie, czy idąc na spacer, warto sięgnąć po parasol.
To oczywiście tylko nieliczne przykłady zastosowania AI, która tak naprawdę jest już obecna w naszych telefonach, telewizorach i coraz większej liczbie samochodów.
W ostatnich latach sztuczna inteligencja śmiało wkroczyła również do instalacji AV i systemów broadcastowych. O tym, jakie daje możliwości, jakie są dzisiaj jej wyzwania i o praktycznych scenariuszach zastosowania tej technologii, rozmawialiśmy z przedstawicielami firmy Studiotech Poland, jednego z liderów tego obszaru rynku w Polsce.

Studiotech Poland to firma, która już od blisko trzydziestu lat dostarcza różne rozwiązania i systemy dedykowane dla klientów z rynków medialnych. Specjalizuje się miedzy innymi w wyposażaniu studiów telewizyjnych i radiowych , dostawie sprzętu filmowego i zaawansowanych, rozbudowanych systemów związanych z rejestracją i transmisją dla instalacji AV, a także budowie wozów transmisyjnych.
Gdy spojrzymy w przeszłość, instalacje te bazowały przede wszystkim na taśmach, analogowych kamerach, transmisji SDI oraz przesyłaniu sygnałów audio w postaci analogowej i złączach XLR, TRS oraz rozbudowanych krosownicach ułatwiających dystrybucję poszczególnych źródeł w odpowiednie miejsca.
Wszystko zmieniło się wraz z ucyfrowieniem instalacji. Pokoje wypełnione po brzegi taśmami zastąpiły wydajne macierze dyskowe i biblioteki LTO do tworzenia archiwów danych , w każdym pomieszczeniu pojawiło się kilka komputerów, a cała transmisja przeniosła się do sieci IP.
Gdy już pojawiły się odpowiednie rozwiązania sprzętowe, w kolejnym kroku bardzo dynamicznie rozwinęło się oprogramowanie, wpierające systemy i przyniosło coraz nowsze funkcje i możliwości.
Obecnie najgorętszym tematem branż AV i broadcastowej jest wykorzystanie sztucznej inteligencji czyli tak mocno nagłaśnianego AI. Ciągły rozwój, kolejne funkcje narzędzi i systemu wykorzystującego sztuczną inteligencję zwiększają możliwości digitalizacji i cyfryzacji całego segmentu rynku.
Już dzisiaj w instalacjach audiowizualnych AI jest w stanie śledzić osobę mówiącą, automatycznie przełączać mikrofony i miksować dźwięk, wyświetlić na żywo transkrypcję mowy, wygenerować tłumaczenie, automatycznie dopasować wyświetlany content do pory dnia, pogody czy samego odbiorcy, a choćby pozwala na sterowanie całym systemem AV przy pomocy głosu.
Ta jedna z najnowocześniejszych na rynku technologii, daje również przeogromne możliwości również dla broadcastu.
Jak już wspomniano, komputer z dużą mocą obliczeniową i mocnymi kartami graficznymi, pracujący pod kontrolą odpowiedniego oprogramowania, pomoże w stworzeniu i zarządzaniu rozbudowanym archiwum materiałów, będzie w stanie przeanalizować całe nagranie wideo, wykryć w nim konkretne osoby, przedmioty, wydarzenia czy logotypy i tym samym w automatyczny sposób stworzyć cały opis materiału wraz z tagami ułatwiającymi późniejsze wyszukiwanie interesującego użytkownika wideo.
Ale to nie wszystko! Sztuczna inteligencja daje także olbrzymie możliwości w trakcie transmisji live. Może np. zbierać informacje na temat problemów technicznych występujących na konkretnych wyświetlaczach, tworzyć automatyczne belki, wyświetlać opisy zawodników i statystyki w trakcie transmisji sportowych, automatycznie przełączać kamery na tę, która w danym momencie pokazuje najbardziej interesujące wydarzenia, automatycznie dobierać reklamy i wyświetlać je w momencie, gdy na boisku nie dzieje się nic ciekawego, a także tworzyć i odtwarzać powtórki.
W bardzo interesujący sposób technologię AI, a ściślej, rozpoznawanie twarzy, wykorzystał jeden z potentatów rynku nadawczego, telewizja Sky News. W trakcie słynnego książęcego ślubu Harry’ego i Meghan Markle, system automatycznie rozpoznawał gości w drodze na ceremonię, wyświetlał ich imiona nazwiska i funkcje oraz biogramy!
Systemy AI mogą również znacząco poprawić bezpieczeństwo całego systemu. Uczenie maszynowe jest w stanie przeanalizować ogromne ilości danych, wskazać wzorce i anomalie, które dla człowieka mogłyby pozostać niezauważone. Dzięki temu jesteśmy w stanie przewidywać potencjalne zagrożenia, na jakie możemy być narażeni w przyszłości i zapobiegać przestępczości czy cyberatakom.
Bardzo interesującym polem zastosowania sztucznej inteligencji jest również tworzenie archiwów zawierających duże ilości danych, katalogowanie zbiorów i późniejsze ich złożone przeszukiwanie i analiza, a także automatyczne tworzenie transkrypcji wygłaszanych treści, symultaniczne tłumaczenia czy tworzenie wiarygodnie brzmiącej narracji, przy pomocy generatorów mowy.
O tym, jak istotną technologią, w tworzonych dzisiaj systemach jest AI, świadczyć może fakt, iż w trakcie organizowanego corocznie przez Studiotech Poland spotkania IT Day, ta właśnie tematyka zaczyna zajmować coraz więcej miejsca.
Dlatego o sztucznej inteligencji w systemach AV, radiu i telewizji, rozmawialiśmy z przedstawicielami Studiotech Poland Jackiem Szoką – business development managerem i Markiem Góreckim – dyrektorem ds. informatyki. Firma już od wielu lat zgłębia możliwości AI i dzięki swojemu doświadczeniu dostarcza swoim klientom korzystające z niej kompletne systemy.

Łukasz Kornafel, „AVIntegracje”: AI, czyli sztuczna inteligencja to termin, który dociera do nas w tej chwili niemal z każdej strony. Jak Waszym zdaniem, z punktu widzenia broadcastu i systemów AV, można wykorzystać tę technologię?
Marek Górecki, Studiotech Poland: Pól eksploatacji sztucznej inteligencji jest wiele. o ile chodzi o branżę broadcastową i audiowizualną, powiedziałbym, iż ta technologia dopiero się rozwija i nie pokazała jeszcze pełni swoich możliwości. o ile spojrzymy np. na przeszukiwanie plików czy dokumentów, jest ona już mocno rozwinięta.
Jednak na wielu polach już dzisiaj AI jest bardzo pomocna. Weźmy na przykład kwestię analizy i przeszukiwania archiwów posiadanych przez różne instytucje. Sztuczna inteligencja jest w stanie m.in. przeanalizować materiał i go opisać. Dzięki temu klient, użytkownik końcowy, będzie mógł w łatwy sposób wyszukać interesujący go materiał.
Dzisiaj jednym z głównych problemów większości archiwów jest to, iż są one przepastne, źle opisane i trudno jest gwałtownie wyszukać materiał, który jest nam potrzebny. Co z tego, iż mamy ogromne pojemności naszych archiwów, o ile nie jesteśmy w stanie nic w nich gwałtownie odszukać.
Choć wiele różnej wielkości instytucji w głównej mierze wciąż bazuje na archiwach przechowywanych na taśmach, to równocześnie cały czas wiele z nich nieustannie digitalizuje swoje zbiory i przechowuje je w formie plików, na dużych macierzach dyskowych. Czasami są to pliki o mniejszych rozdzielczościach, nie nadające się do nadawania, ale ułatwiają one przeszukiwanie najbardziej przepastnych archiwów. Przy wykorzystaniu rozwiązań, które wdrażamy, jesteśmy w stanie nie tylko wyszukać w archiwum danego aktora czy prezentera, to, w co był ubrany, gdzie się znajdował, ale także odnaleźć np. to, co powiedział. Należy podkreślić, iż dostępne dzisiaj rozwiązania są w stanie nie tylko analizować obraz, ale również ścieżkę dźwiękową.

Jacek Szoka – business development manager

Jacek Szoka, Studiotech Poland: Proszę pamiętać, iż Studiotech Poland to nie tylko broadcast i tematyka związana z tym segmentem rynkowym. Jako firma specjalizujemy się również w IT. Dzięki temu wiemy, w jaki sposób budować wydajne i bezpieczne archiwa cyfrowe. Oczywiście współpracujemy w tych tematach z wiodącymi producentami platform storage, macierzy czy bibliotek, tak aby móc zaoferować klientowi stworzenie najbardziej dopasowanych do jego potrzeb środowisk IT.
Odnosząc się zatem jeszcze do analizy i przeszukiwania archiwów w branży broadcastowej, można zatem powiedzieć, iż technologia znacząco przyspiesza cały proces organizacji archiwum, opisywania treści ułatwiając szybkie wyszukiwanie, bez konieczności długotrwałego, uciążliwego i czasochłonnego oglądania każdego z materiałów 1:1.
Określenie sztuczna inteligencja jest oczywiście dzisiaj bardzo modne i wszyscy dookoła go używają, jednak podstawą do budowy efektywnych narzędzi jest przede wszystkim wytrenowanie sztucznej inteligencji. To narzędzie, które tworzymy, musi wiedzieć, czego szuka, jak szuka oraz jaki powinien być efekt takiego działania. Póki co, dzisiaj, na obecnym etapie rozwoju technologii, nie możemy jeszcze powiedzieć, iż AI będzie w pełni samodzielna. Zawsze na końcu jest człowiek, który powinien zrobić ostateczną korektę czy zweryfikować poprawność przygotowanego materiału. Wszyscy znamy przykłady, gdy AI miała np. za zadanie stworzenie obrazku, na którym byłyby widoczne osoby ściskające sobie dłonie, a w efekcie powstawała jedna osoba z wieloma rękami.
Rzecz jasna już dzisiaj oferujemy rozwiązania, które potrafią usprawnić lub przyspieszyć działania naszych obecnych oraz potencjalnie nowych klientów. To właśnie wspominane wcześniej funkcje sprawiają, iż osoby, które jeszcze kilka lat temu musiały poświęcać się jakiemuś zadaniu, dzisiaj mogą pracować w tym samym czasie już nad czymś innym, a sama firma może przesunąć danego pracownika do innych rzeczy, które mogą być równie ważne, ważniejsze lub mogą przynieść firmie dodatkowe lub większe zyski. Nie można pominąć faktu, iż dzisiaj kluczem do sukcesu jest czas. Im szybciej możemy zareagować na zmiany, dostosować systemy do najnowszych rozwiązań czy po prostu przygotować, usprawnić ofertę firmy, tym większe możemy wygenerować przychody i zyski.

Są na rynku gotowe aplikacje, dostępne z półki, jednak wielokrotnie, gdy do głosu dochodzą kwestie bezpieczeństwa, organizacje nie chcą po nie sięgać i to w każdym segmencie: wojskowym, energetycznym, paliwowym, medycznym. Klienci nie chcą, aby ich dane były gromadzone i przechowywane przez inne podmioty. Trzeba podkreślić jeszcze jeden aspekt. Praktycznie żadna z polskich firm czy organizacji, choćby tych największych, nie ma szans w negocjacjach z Big Techami. I to jest właśnie przewaga firmy Studiotech Poland, która jest w stanie dostarczać rozwiązanie skrojone dla potrzeb dla konkretnego odbiorcy.

Czy wdrażając rozwiązanie, które ma pomóc w przeszukiwaniu archiwów, kupujemy „czyste” narzędzie, które dopiero trzeba nauczyć we własnych zakresie, w oparciu o własne bazy danych i materiały, czy są już powszechnie dostępne zbiory danych, których możemy użyć do uczenia AI?
To zależy od konkretnego przypadku. Oczywiście możemy wykorzystywać ogólnodostępne, już wytrenowane modele AI. Rzecz jasna pod warunkiem, iż są one trenowane zgodnie z przepisami i nie naruszają praw autorskich. Zwracam tutaj uwagę na nowe ustawy i nowe zasady wykorzystania AI. Jako Studiotech tworzymy teraz kilka naszych narzędzi, które częściowo korzystają już z gotowych modeli językowych, bo są one ogólnodostępne, a równocześnie staramy się współpracować z różnymi dużymi developerami czy uczelniami, które udostępniają już gotowe, wytrenowane modele. W oparciu o nie, zgodnie z prawem, jesteśmy w stanie zaoferować naszemu klientowi określoną specyficzną funkcjonalność sztucznej inteligencji, dostosowaną do potrzeb klienta.

Czy tworząc narzędzie do analizy i wyszukiwania bazujące na sztucznej inteligencji dla ściśle branżowych odbiorców np. dla instytucji medycznych, technicznych czy np. przyrodniczych będzie ono przygotowywane w inny sposób, niż ma to miejsce w systemach dla broadcastu?
Firma Studiotech działając na rynku broadcastowym już od wielu lat, oczywiście doskonale zna tę branżę i jej potrzeby. Dzięki temu raz stworzone narzędzie jesteśmy w stanie adaptować dla potrzeb wielu klientów. Te standardy będą bardzo podobne do siebie. Natomiast sztuczna inteligencja i analiza obrazu będzie różna dla różnych segmentów rynkowych. Rynek medyczny, uczelniany, gminny będą wymagały troszeczkę innej analizy obrazu, więc będzie ona wtedy związana z koniecznością wprowadzenia pewnych modyfikacji.

Marek Górecki – dyrektor ds. informatyki

Powiedzieliśmy o możliwościach wyszukiwania konkretnych treści w materiałach wideo czy audio, ale bardzo ciekawym wątkiem jest również rozbudowana, automatyczna analiza innych plików. Jakie możliwości przynosi w tym zakresie AI?
Wszystko zależy przede wszystkim od tego z czego korzystamy jako podstawy, jakie dane są na wejściu. My, na bazie doświadczeń firmy Studiotech mówimy z jednej strony np. o współpracy z firmą IBM systemem watsonx.ai i generatywnej inteligencji, gdzie mamy gotowe, wytrenowane modele, z których możemy korzystać. Technologie te dają możliwość szybkiej analizy dokumentów, wyszukiwania kontekstów w dokumentach.
Równocześnie, kończymy już pracę nad systemami tłumaczeń bazującymi właśnie na AI. Mówimy również o analizie tzw. speech to text i text to speech. Poza tym mamy także np. analizę mimiki i rozpoznawanie twarzy. Tak naprawdę, tematyka AI jest bardzo szeroka i nie skupiamy się tylko na jej jednym aspekcie.

MG: Powiedziałbym, iż właśnie na analizie dokumentów rozwinęła się cała sztuczna inteligencja i dzisiaj mamy już bardzo dobrze dopracowane silniki umożliwiające np. przeszukiwanie baz wiedzy związanych z instrukcjami.

JSZ: Mówiąc o analizie tekstu czy dokumentów warto zwrócić tutaj uwagę, na to, iż polski język jest dużo trudniejszy dla AI niż np. angielski czy niemiecki. Od kilku lat wnikliwie analizujemy i sprawdzamy narzędzia, które bazują na AI. Nasi klienci, którzy w przeszłości korzystali ze standardowych rozwiązań Big Techów, dzisiaj szukają już narzędzi, które dobrze będą pracowały z językiem polskim. My już dzisiaj możemy się pochwalić, iż to mamy. Współpracujemy m.in. z Fundacją Bielik, a więc pierwszym polskim Large Language Modelem, który wykorzystuje techniki deep learningu i ogromne zbiory danych do zrozumienia, podsumowania, generowania i przewidywania nowych treści. Narzędzia speech to text, które oferujemy również mają zdolność analizy języka polskiego.
Zatem działając na rynku polskim, dostarczamy narzędzia, które świetnie sprawdzają się z językiem polskim, rozumieją go, potrafią czytać tekst w języku polskim i dobrze rozpoznawać słowa czy akcenty.
AI to nie tylko analiza dużych baz danych i archiwów, ale to także możliwość automatycznego tworzenia contentu. Zarówno tekstu, automatycznie tworzonego ze ścieżki audio, jak i głosu, który przeczyta przygotowaną treść pisaną.
Tych rozwiązań jest dostępnych na rynku bardzo wiele. Mamy te wspominane już rozwiązania dostarczane przez największe amerykańskie firmy, bazujące na kilku najpopularniejszych językach, ale w naszej ofercie są również specjalistyczne rozwiązania.
Warto tutaj pamiętać, iż mówiąc o takim rozwiązaniu, musimy pamiętać o ludziach, którzy tworzą bazy danych czyli promptują, o odpowiednio dużej mocy obliczeniowej, która musi to wszystko przeliczyć.
W zależności od wymagań samego zamawiającego, konfiguracje systemów AI możemy ulokować na zasobach chmury publicznej lub też możemy skorzystać z rozwiązań tzw. on premise, czyli sytuacji, w której komputer czy serwer jest zainstalowany bezpośrednio u klienta. Niestety, nie wszyscy wiedzą lub pamiętają, iż rozwiązania obliczeniowe mogą być kosztowne. Sztuczna inteligencja wymaga mocy. W przypadku chmury publicznej należy liczyć się z tym, iż poza wydajnością środowiska zapłacimy dodatkowo za przesyłane do chmury i pozyskiwane z niej dane. Dlatego coraz więcej klientów, którzy spróbowali działania w chmurze publicznej, myśli o powrocie do rozwiązań on premise. W ogólnym rozliczeniu tego typu podejście jest po prostu tańsze.
Chcielibyśmy zatem podkreślić, iż narzędzia, które posiadamy w ofercie mogą działać zarówno w chmurze, jak i na miejscu u klienta. Wychodzimy jednak z założenia, iż chmura publiczna wciąż jest niestety mniej bezpieczna, czego przykładem może być sytuacja, która niedawno miała miejsce na świecie i dotyczyła największych graczy rynku IT. Dlatego właśnie podkreślamy, iż zasoby obliczeniowe on premise mają wiele zalet. Takie rozwiązanie jest bezpieczne, ponieważ klient sam wie, jakie dane w jakich lokalizacjach przetrzymuje, zna zabezpieczenia swojej sieci, dostęp do niej i całą otoczkę swojego środowiska IT i wie kto dokładnie ma dostęp do danych. Oczywiście nie chcemy nikogo zniechęcać do platform chmury publicznej, bo obydwa opisane powyżej modele dostępu IT mają swoje zalety i wady. Jednak, zgodnie z naszym doświadczeniem, kupując platformę sprzętową on premise, która ma odpowiadać za AI w organizacji, będziemy mogli z niej korzystać cały czas, bez konieczności płacenia za koszty transmisji i odbioru danych, ponieważ wszystko mamy „u siebie”. Jesteśmy również w stanie, zgodnie z potrzebami klienta, stworzyć rozwiązanie hybrydowe, gdzie cały rdzeń systemu jest u nas, a w zależności od potrzeb, możemy również wesprzeć się chmurą publiczną.
Jako Studiotech współpracujemy np. z Cyfronetem, a więc jednym z największych i najstarszych centrów komputerowych w Polsce, dostarczającym zasoby dla największych instytucji w naszym kraju.

Na rynku europejskim pojawiają się już pierwsze stacje radiowe z programami, w których lektorem jest sztuczna inteligencja.

Jakie są dzisiaj przykładowe scenariusze wdrożenia rozwiązań speech to text i text to speech oraz jacy klienci korzystają zwykle z dostarczanych przez państwa rozwiązań?
Zasadniczo nie ma tutaj ograniczeń. Oczywiście mówimy o takim standardowym przesłuchaniu dźwięku i przerzuceniu go na tekst. W przypadku oferowania takich systemów nie ograniczamy ich tylko do jednego, konkretnego segmentu rynkowego. Korzystają z nich organizacje, które są zobowiązane przez ustawy do tego, aby tworzone materiały wideo miały również skrypt. Również firmy z rynku public i komercyjnego szukają narzędzi, które będą mogły tłumaczyć i przenosić treści wygłaszane w innych językach na język polski. Jest to szczególna odmiana rozwiązania speech to text.
Są na rynku, rzecz jasna, gotowe aplikacje, dostępne z półki, jednak wielokrotnie, gdy do głosu dochodzą kwestie bezpieczeństwa, organizacje nie chcą po nie sięgać i to w każdym segmencie: wojskowym, energetycznym, paliwowym, medycznym. Klienci nie chcą, aby ich dane były gromadzone i przechowywane przez inne podmioty.
Trzeba podkreślić jeszcze jeden aspekt. Praktycznie żadna z polskich firm czy organizacji, choćby tych największych, nie ma szans w negocjacjach z Big Techami. I to jest właśnie przewaga firmy Studiotech Poland. Jesteśmy w stanie stworzyć rozwiązanie dopasowane i uwzględniające potrzeby i wymagań poszczególnych klientów.
Możliwość transkrypcji mowy na tekst pisany może być też znakomitym rozwiązaniem dla wszelkiego rodzaju potrzeb eventowych, konferencji, spotkań biznesowych, prezentacji, szkoleń. Na świecie coraz częściej spotyka się komentarz wyświetlany w formie tekstu, co ułatwia np. uczestniczenie w spotkaniu sportowym osób z niedoborami słyszenia.
Testowaliśmy te rozwiązania już kilka lat temu. Jednak wtedy, na tamtym etapie rozwoju technologii, oprogramowanie często nie radziło sobie z językiem polskim. Na przykład słowo „flaki” nie zawsze oznaczało dokładnie to, czego byśmy sobie życzyli (śmiech).
Dzisiaj jest to już znacznie prostsze, lepiej dostosowane i bardziej efektywne. Programy rozumieją, co oznacza ta polska specyfika mowy.

Dzisiaj siłą napędową coraz większej liczby systemów AV i rozwiązań dla broadcastu nie jest już sprzęt, ale odpowiednie oprogramowanie, często wykorzystujące również możliwości sztucznej inteligencji.

Czy Waszym zdaniem te technologie są już na tyle zaawansowane i na tyle dobrze realizują swoje zadania, iż z tych rozwiązań AI można już korzystać w przypadku transmisji na żywo?
Moim zdaniem tak. Oczywiście pojawia nam się tutaj problem dokładności. Im większe zrobimy opóźnienie względem kanału live, tym większą będziemy mieli dokładność. Im dłuższy odcinek wypowiedzi będzie analizowany, tym lepiej z kontekstu będziemy w stanie przetłumaczyć daną treść. o ile będą to krótkie fragmenty, może się zdarzyć, iż pojawią się wyrwane z kontekstu słowa, które będą powodem do śmiechu.
Jednak gdy policzymy sobie wszystkie opóźnienia, które wprowadza sam sprzęt broadcastowy, otrzymamy wystarczającą ilość czasu, aby przygotować bardzo dobrą jakość i tłumaczenia czy transkrypcji.

W realizacji jakich zadań może pomóc sztuczna inteligencja w telewizji newsowej czy w newsroomie radiowym?
Oprócz wspomnianej już możliwości przeszukiwania archiwum posiadanego przez daną instytucję, mamy również sztuczną inteligencję, która szuka newsów, analizuje je, analizuje ich popularność, ale także rzetelność źródła, z którego pochodzi wiadomość. Już dzisiaj pokazujemy gotowe rozwiązania, dzięki którym sztuczna inteligencja jest w stanie nie tylko korzystać z jednego portalu, ale na przykład z dziesięciu różnych źródeł i sprawdzić czy dana informacja jest prawdziwa, czy ma odpowiednio dużo odniesień czy np. została tylko wrzucona w jedno miejsce i może być fake’owa.

Studiotech Poland współpracuje m.in. z Fundacją Bielik, a więc pierwszym polskim Large Language Modelem, który wykorzystuje techniki deep learningu i ogromne zbiory danych do zrozumienia, podsumowania, generowania i przewidywania nowych treści.

Czy rozwiązania, które dostarczacie Waszym klientom, potrafią sobie poradzić również z nienajlepszymi jakościowo materiałami? Na przykład są w stanie przeanalizować archiwalne nagranie wideo słabej jakości lub stworzyć automatyczną transkrypcję tekstu wygłaszanego przez osobę o słabej dykcji lub posiadającą specyficzny akcent?
To trochę zależy od wytrenowania modelu. Sposób mówienia danej osoby, w określonym języku będzie różny. o ile weźmiemy pod lupę np. trening języka polskiego, mogą pojawić się naleciałości wschodnie, kaszubskie, śląskie itd. Dane narzędzie musi się tego nauczyć. Jakiś czas temu robiliśmy testy, w trakcie których wykorzystaliśmy film krótkometrażowy, w którym był użyty język polski z przepiękną naleciałością wymowy i akcentu litewskiego. Początkowo, zastosowane przez nas narzędzie miało problem, odczytując głos jako język obcy. Po wprowadzeniu kilku drobnych korekt udało się stworzyć tekstowe tłumaczenie tego filmu 1:1. Mieliśmy 99% trafności.

Dostępne dzisiaj technologie dają możliwość szybkiej analizy dokumentów, wyszukiwania kontekstów w dokumentach, a także analizy speech to text i text to speech. Przy wykorzystaniu rozwiązań, które wdraża firma Studiotech Poland, jesteśmy w stanie nie tylko wyszukać w archiwum danego aktora czy prezentera, to, w co był ubrany, gdzie się znajdował, ale także to, co powiedział. Należy podkreślić, iż dostępne dzisiaj rozwiązania są w stanie nie tylko analizować obraz, ale również samą ścieżkę dźwiękową!

Odnosząc się do technologii text to speech i generatorów mowy, czy możemy już dzisiaj powiedzieć, iż AI jest realnym zagrożeniem dla osób czytających teksty? Np. dla lektorów?
JSZ: Jest to kwestia pewnej etyki i jaki efekt potrzebuje uzyskać dany klient. Pamiętamy słynny już dzisiaj przypadek, gdy jedna z firm z sektora sztucznej inteligencji, zaoferowała Scarlett Johansson kilkadziesiąt milionów dolarów za prawa do tego, aby generator mógł mówić jej głosem. Oczywiście, dzisiaj narzędzia z obszaru sztucznej inteligencji są w stanie skopiować czyjś głos, poczynając od jego brzmienia, a kończąc na sposobie mówienia. Znów jednak wracamy do tego, iż na szczęście mamy określone ograniczenia prawne i nie wszystkie rzeczy można zrobić, stosując wolną amerykankę.
Czy sztuczna inteligencja mogłaby zastąpić lektora? Myślę, iż nie do końca o to chodzi. Rzecz jasna AI może przygotować materiał, to, co jest najważniejsze dla lektora, ale nie wydaje mi się, żeby było to narzędzie służące do zastępowania prawdziwych osób.

MG: Pojawiają się już na rynku europejskim stacje radiowe z programami, w których lektorem jest sztuczna inteligencja. Znów odnosząc się do przeprowadzonych przez nas testów, wielu osobom nie odpowiada taki perfekcyjny, nieco sztuczny sposób mówienia.
To, czy takie rozwiązania się przyjmą, zależy od samych słuchaczy, od tego, czego będą oni oczekiwali.

Podsumowując, jakie rozwiązania mamy dostępne dzisiaj, jakie są ich największe zalety i wady oraz jakie wyzwania przynosi ich użycie?
MG: Podstawową wadą jest to, iż zbudowanie jednego, uniwersalnego silnika, który będzie w stanie odpowiedzieć na wszystkie potrzeby, spowoduje, iż będzie miał on mnóstwo błędów i mnóstwo wad. Im bardziej zawęzimy te silniki, na przykład poprzez poprawną wcześniejszą segmentację tych materiałów i dzięki temu ograniczymy bazę danych, tym lepszą otrzymamy trafność i jakość materiału np. opis AI będzie lepszy i bardziej dokładny. Ktoś musi zrobić tę preselekcję. To nie jest tak, iż już dzisiaj możemy wyeliminować człowieka z tego całego procesu. On wciąż będzie pracował on w archiwum, ale będzie również miał czas na sprawowanie inne funkcji. Jego praca będzie polegała bardziej na nadzorowaniu i sprawdzaniu.

JSZ: Po raz kolejny zwracam tutaj również uwagę na to, iż wiele osób, które chciałoby sięgnąć po rozwiązania AI, nie zdaje sobie sprawy, iż aby móc z nich skorzystać, potrzebna jest platforma z odpowiednią mocą obliczeniową. Przede wszystkim mówimy tutaj o klasie kart GPU, a więc mocnych akceleratorach graficznych, które będą w stanie obsługiwać zlecone zadania dla AI.
Dzisiaj kończy się np. finansowanie słynnego już ChatGPT, więc zobaczymy jak będą wyglądały dalsze losy tego rozwiązania, ale już widzimy, iż platforma ta jest pewnym ograniczeniem. Oczywiście możemy podkreślić, iż sprzęt nie jest już barierą wejścia w AI i jej wdrożenie w firmie. Oferujemy naszym klientom serwery do AI między innymi firmy IBM lub Hewlett Packard, zarówno w modelu Capex, jak i Opex. Na koniec pozostaje nam zaprosić zainteresowanych do kontaktu ze Studiotech Poland.

Rozmawiał: Łukasz Kornafel, „AVIntegracje”
zdjęcia: Studiotech Poland

Idź do oryginalnego materiału