Równo tydzień temu media społecznościowe wybuchły po publikacji nietypowego materiału przez oficjalne konto Platformy Obywatelskiej. W dość standardowym spocie uwagę przykuł jednak jeden szczegół – autorzy wykorzystali algorytmy AI do wygenerowania głosu premiera Mateusza Morawieckiego.
Niedługo potem poseł Solidarnej Polski Piotr Sak ponownie wykorzystał sztuczną inteligencję, tym razem generując głos lidera PO Donalda Tuska. Oba incydenty wywołały ogromną burzę komentarzy i podstawowe pytanie – czy „wkładanie w usta” polityków słów, których nigdy nie powiedzieli na głos, nie jest krokiem za daleko?
Na to i inne pytania dotyczące rosnącego problemu deepfake'ów w próbujemy odpowiedzieć w rozmowie z doktorem Leonem Ciechanowskim – programistą i ekspertem w obszarze nowych technologii z Akademii Leona Koźmińskiego oraz Massachusetts Institute of Technology.
Krzysztof Sobiepan, Wprost.pl: Koncepcja deepfake'ów nie jest nowa, prawda?
Dr Leon Ciechanowski, ALK: Nie jest. Deepfake'i powstawały już parę dobrych lat temu. Co ciekawe, gdy zaczęły się pojawiać, także wywołały ogromny niepokój. One miały oczywiście dużo gorszą jakość, ale wielu komentatorów w mediach społecznościowych i mainstreamowych mówiło wtedy, iż już lada moment fake'i nas zaleją i nie będzie można odróżnić prawdy od fałszu. Tak się jednak nie stało.
Także teraz, zamiast ponownie bić na alarm „na ślepo”, ja polecałbym poczekać i się zastanowić. Jak się okazuje, mechanizmy społeczne i reakcje internautów dość dobrze dopasowały się do nowego wyzwania, jakim jest wykrywanie fałszywych treści w sieci.
Słuchałem ostatnich nagrań z podrobionym głosem Mateusza Morawieckiego czy Donalda Tuska. Prawdę mówiąc, nie jestem pod wielkim wrażeniem. Czy ktoś faktycznie mógłby się nabrać na tworzone dziś deepfake'i głosowe?
Z wykorzystaniem głosu premiera Morawieckiego mieliśmy interesujący przypadek. Momentalnie po publikacji materiału pojawiły się informacje, iż jest to deepfake. Więc jako szersza społeczność dość dobrze radzimy sobie z takim wykryciem. Co innego pojedyncze osoby.
Pracownicy mediów jak Pan, specjaliści, osoby obeznane z technologiami są naturalne lepsze i potrafią wskazać fałszywki palcem. Przeciętni Kowalscy czy osoby starsze mogą z tym mieć coraz większy problem. Myślę, iż przynajmniej połowa ogólnych odbiorców mogłaby się nabrać na dobrze przygotowanego deepfake'a.
Inną sprawą jest fakt, iż autorzy spotu nie oznaczyli tego głosu jako wygenerowanego przez AI. To absolutnie nie powinno mieć miejsca – niezależnie czy to niedopatrzenie, czy chęć ukrycia tego faktu z premedytacją.
Po czym więc poznaliśmy, iż głos premiera wyprodukowało AI?
Słuchając nagrania od razu, niemal podświadomie, można było wychwycić pewną nienaturalność. Gdy zastanowimy się, co nas tam razi, sprawa staje się prostsza.
Głos ten jest bardzo monotonny, mówi cały czas tak samo. Z jednym wyjątkiem nie znajdziemy w nagraniu zbyt wielkich emocji czy intonacji. Wydaje się, jakby fałszywy Morawiecki czytał z kartki. To zupełnie odmienne brzmienie od wypowiedzi, które regularnie słyszymy w mediach. Niedługo wykrycie deepfake'a po monotonii stanie się jednak trudniejsze.
Technologia deepfake'ów głosu idzie do przodu?
Owszem, choćby duże korporacje pracują w tej chwili nad coraz bardziej zaawansowanymi systemami przekładania tekstu na mowę. Kolejnym kamieniem milowym są właśnie emocje w głosie.
Słuchając deepfake'a premiera raz zauważyłem moment, gdzie AI prawidłowo zamodulowało głosem i prawidłowo dopasowało ton do wypowiadanych słów. Było to ciekawe, pod względem czysto technologicznym.
Już niedługo cała wypowiedź AI może brzmieć właśnie tak – dobrze odwzorowywać emocje, wypowiadając się smutno, wesoło, poważnie, z przejęciem lub znudzeniem. Będziemy to zlecać sztucznej inteligencji wprost w poleceniu, zawierającym też treść danej wypowiedzi.
Jak proste jest dziś zrobienie deepfake'a podrabiającego głos?
Tu znów można powiedzieć o dużych postępach. Z tego co wiem, w tej chwili wystarczy jedynie około minuta nagrania, by system AI mógł dość wiernie odtworzyć brzmienie głosu danej osoby. w tej chwili realizowane są prace nad tym, by skrócić ten czas do zaledwie paru sekund.
Oczywiście, wypowiedzi premiera w mediach to długie dziesiątki godzin, więc stworzenie modelu głosowego nie jest najmniejszym problemem. W przypadku parosekundowych próbek zmagamy się jednak z nowym wyzwaniem, czyli podrabianiem głosu osób prywatnych. Wystarczy parę sekund naszej wypowiedzi w internecie, jeden telefon do nas. To może stać się polem do nadużyć, m.in. dla oszustów.
Inny aspekt to bariera technologiczna, która po prostu runęła. By stworzyć deepfake'a nie trzeba już być programistą czy korzystać z zaawansowanych aplikacji, które mogą być płatne bądź trudno dostępne. Dziś wystarczy bardzo podstawowa wiedza, dostęp do internetu i odpowiedniej witryny oraz wspomniana minuta nagrania głosu. Dobrego deepfake'a może dziś stworzyć każdy.
Jeśli ludziom będzie coraz trudniej wykrywać deepfake'i, a powstaje ich coraz więcej – może zatrudnić do wykrywania fałszu maszyny?
Już od dawna powstają systemy, których zadaniem jest właśnie odróżnienie realnej treści od zawartości wytworzonej przez sztuczną inteligencję. Uważam jednak, iż zawsze będzie to nierówna walka, jeżeli nie walka z wiatrakami.
Za systemami generatywnymi, czyli stroną udoskonalającą deepfake'i, stoją bowiem wielkie korporacje. Ogromna liczba firm inwestuje znaczne środki, by systemy generacji treści były jak najlepsze i dynamicznie się rozwijały. Powód jest prosty – firmy te liczą na zyski z takich usług, ponieważ ostatnio znacznie zyskały one na popularności.
Obecnie nie ma jednak podobnego zapotrzebowania na systemy wykrywające coraz bardziej zaawansowane deepfake'i. W tym momencie po prostu nie jest to opłacalne, więc mało kto się tym zajmuje. Równowaga sił jest wyraźnie zachwiana i wydaje się, iż systemy wykrywające fake'i długo nie dogonią jeszcze algorytmów tworzących fałszywe treści.
Czy powinniśmy więc wprowadzić regulacje prawne? Odgórnie zakazać deepfake'ów?
Specjaliści i eksperci w dziedzinie AI są za tym, by wprowadzić dość silne regulacje sztucznej inteligencji. To nowa technologia i tradycyjnie litera prawa za nią nie nadąża. Takie zapisy nie mogą jednak powstać z dnia na dzień, bo powinny być opracowane we współpracy z licznymi firmami, organizacjami pozarządowymi, ekspertami i tak dalej.
Unia Europejska w ramach AI Act głowi się dziś nad tym, jaki systemowy poziom ryzyka nadać modelom generatywnym. Czy to ryzyko średnie, a może wysokie? Oczywiście to ogromnie ważna kwestia dla wielu korporacji technologicznych, które lobbują za minimalizacją ograniczeń wobec ich systemów.
Wydaje się, iż część odpowiedzialności może spaść na same platformy internetowe. Przykładowo, mogłyby one być zobowiązane do wykrywania i oznaczania treści AI w ramach swego rodzaju ostrzeżeń dla użytkowników.
Trudno sobie jednak wyobrazić, iż duże firmy same wprowadzą takie narzędzia, jeżeli nie będą do tego przymuszone prawnie. Z drugiej strony, mówiliśmy już o tym, iż wykrywanie deepfake'ów będzie coraz trudniejsze, a w niektórych przypadkach niemożliwe. Czy zrzucanie pełnej odpowiedzialności na marki byłoby więc fair? To kolejne z wielu pytań.
Nie jestem prawnikiem, więc trudno mi określić jak powinny wyglądać konkretne regulacje i ustawy. Wyobrażam sobie jednak, iż dobrym podejściem mogłoby być uzależnienie zakazów od dziedziny wykorzystania AI. Inaczej moglibyśmy ograniczyć wykorzystanie AI w wojsku, bezpieczeństwie, systemie sprawiedliwości, ochronie zdrowia, edukacji i tak dalej.
Prawo AI to jednak dalsza przyszłość, a kampania wyborcza odbywa się tu i teraz. Deepfake'i wydają się niemałym zagrożeniem dla demokracji. Czy to uzasadnione obawy?
Obecnie żyjemy w przysłowiowych „interesujących czasach”. Cały czas trwa wojna w Ukrainie, w tej chwili mamy w Polsce rok wyborczy, a w 2024 roku Amerykanie będą wybierać prezydenta. Zwłaszcza w tym ostatnim przypadku jestem pesymistą.
Sądzę, iż kampania prezydencka w USA będzie masakrą jeżeli chodzi o AI. Nie mówię tu tylko o deepfake'ach, ale też całej gamie algorytmów sztucznej inteligencji drobiazgowo analizujących zachowanie wyborców w internecie. Tak by ich wystraszyć, podsunąć odpowiednie reklamy, kierować dyskursem publicznym. Wszystko, by wpłynąć na to, na kogo oddadzą głos.
Co można robić, by tu i teraz „uczulić się” na deepfake'i? Nie dać się na nie nabrać?
Badacze zauważyli dość ciekawą zależność. Już nasze podejście podczas przeglądania social mediów wpływa na to, jak bardzo jesteśmy podatni na fałszywki i inne próby manipulacji. jeżeli przyjmujemy kolejne wpisy bez refleksji – łatwiej jest nam się nabrać.
Gdy jednak z tyłu głowy mamy tę czerwoną lampkę, mówiącą nam, iż nie wszystkie treści są prawdziwe, iż coś może być podróbką, przejaskrawieniem, ma wpłynąć na nasze emocje? Wtedy zaczynamy bardziej ważyć każdą przeglądaną treść i mniej ufamy fałszywkom.
Oczywiście ten stan kwestionowania treści jest bardzo trudny do utrzymania na stałe. Nie sposób bowiem zastanawiać się, czy każde zdanie przeczytane w sieci to aby nie kłamstwo. Jest to po prostu wyczerpujące umysłowo, a social media często przeglądamy, by się odprężyć. Czemuś musimy przecież ufać.
Ważne jest także stałe informowanie o deepfake'ach. Stają się one coraz bardziej popularne, więc w to zagadnienie trzeba wprowadzić całe społeczeństwo. Moim zdaniem przez cały czas dużo osób nie wie, iż istnieje już technologia pozwalająca na przekonujące podrabianie zdjęć, głosu, materiałów wideo. Gdy zostaną uświadomieni, będą się bardziej pilnować w sieci.
Fake'i rozprzestrzeniają się w mediach społecznościowych jak burza – to kolejny problem. Czy możemy coś zrobić, by ograniczyć ich wpływ?
Gdy zapytamy internautów, co jest dla nich najważniejsze we wpisach, które podają dalej lub powielają w sieci – na pierwszym miejscu jest dla nich autentyczność, prawdziwość danej informacji. W teorii znanej z badań każdy z nas powiela więc prawdę. Gdyby tak było, deepfake'i dość gwałtownie umierałyby na portalach społecznościowych.
Stałą zależnością we wszelkich badaniach jest jednak rozbieżność między tym, co badani deklarują, a co tak naprawdę potem robią. Social media z założenia są stworzone tak, by lepiej rozprzestrzeniać informacje szokujące, emocjonalne i tak dalej.
To takie treści dają najwięcej like'ów, serduszek i zapewniają największą oglądalność i zasięgi. Właśnie to sprawia, iż wirusowo roznoszą się informacje obrazoburcze, kontrowersyjne, a choćby fałszywe. Algorytmy nie zwracają bowiem zbytniej uwagi na to, czy coś jest faktycznie prawdą.
Rozwiązanie tego problemu jest oddolne i wymaga od internautów większej uwagi na co dzień. Przed każdym podaniem informacji dalej dobrze byłoby się zastanowić, czemu to robimy.
Czy informacja, którą się dzielimy, ma faktyczną wartość? A może ma jedynie zaszokować ludzi, spolaryzować społeczność danej strony? jeżeli jest to zagrywka na emocjach a może fake news czy deepfake – może nie powinniśmy tego podawać dalej? To dość trudna decyzja, bo każdy chciałby, by jego wpisy były popularne, like'owane przez znajomych i tak dalej. W dążeniu do klików możemy jednak powielać dezinformację w sieci.
Jak podsumować obecny boom na AI? Czy na ten moment generatywna sztuczna inteligencja przyniosła nam więcej złego, czy dobrego?
Osobiście jestem ogromnym fanem modeli generatywnych, korzystam z nich od lat, w badaniach, moich przedsięwzięciach biznesowych i prywatnie. Przykładowo – samodzielnie przekładam książki pisane na audiobooki. Zabrzmi to może trywialnie, ale AI i modele generatywne są jak nóż. Narzędzie, które może być użyte w dobrych lub złych celach.
Z jednej strony sztuczna inteligencja ma ogrom zalet i może na przykład całkowicie zmienić życie osób z niepełnosprawnościami oraz zdziałać wiele dobrego w biznesie, ochronie środowiska i nie tylko. Z drugiej strony ta sama technologia daje nam też deepfake'i, umożliwia większą kontrolę i manipulację społeczeństwem, naruszenia prywatności, pogwałcenie praw autorskich i nie tylko.
Pana pytania nie można uogólnić do prostego „tak lub nie”. Uważam, iż powinniśmy korzystać z zupełnie nowych możliwości, jakie daje nam sztuczna inteligencja. Jednocześnie musimy wychodzić naprzeciw kolejnym wyzwaniom i jako społeczeństwo decydować, gdzie postawimy kolejne granice.