Jak zhackować… społeczeństwo?

payload.pl 1 rok temu

W bezpieczeństwie IT już od wielu lat najsłabszym ogniwem jest człowiek - podejście go jest dużo prostsze i tańsze od prób łamania dzisiejszych zabezpieczeń. Co jednak, gdy nie chcemy włamać się do pojedynczej osoby czy firmy, ale wpłynąć na całe społeczeństwo, przekonując je np. do wybranej opcji politycznej, albo po prostu je radykalizując? Zadaliśmy sobie to pytanie ponad 2 lata temu i zaczęliśmy wielki eksperyment. A dzisiaj przedstawiamy jego wyniki.

Zabieraliśmy się do tego artykułu przez prawie pół roku, nie do końca mając pomysł, jak najskuteczniej przedstawić nasze osiągnięcia - aż w końcu Sławomir Sierakowski i Przemysław Sadura z Krytyki Politycznej przedstawili swój raport:

A w tym raporcie 11 kluczowych tez:

Dziś wygraliby populiści
Koalicja Obywatelska i Konfederacja zyskują fanatycznych wyborców
Selektywny liberalizm KO i selektywny konserwatyzm PiS
Rekordowy przepływ elektoratów - rozbiór Trzeciej Drogi
Konfederacja na drodze do 20 proc. poparcia
PiS nie traci wyborców "cynicznych"
Afery coraz bardziej akceptowalne
Kryzys przywództwa na Lewicy i w Trzeciej Drodze
Kryzys identyfikacji z rządem
Kogo Polacy widzą w więzieniu
Trzaskowski na autostradzie do prezydentury

Powyższe tezy zostały wprost skopiowane ze wspomnianego artykułu - ale pogrubienie jest już od nas. Pogrubiliśmy te fragmenty, za które naszym zdaniem w mniejszym lub większym stopniu odpowiadamy właśnie my.

Co stworzyliśmy

W połowie 2022 uruchomiliśmy kilkadziesiąt różnych serwisów tematycznych, w tym politycznych - od stosunkowo neutralnego Polityka.co.pl, aż po skrajne, jak kierowany do środowisk polonijnych, wprost antyunijny Dismount.eu.

Emitujemy na nich artykuły w trzech językach: polskim, angielskim i rosyjskim. Zakres światopoglądowy tych artykułów jest przy tym tak dobrany, aby prezentując wyłącznie prawdziwe informacje, amplifikować treści możliwie skrajne (ale też zachowujące odpowiednią jakość techniczną języka i zdjęć), uwiarygodniając je jednocześnie artykułami neutralnymi.

Przykładowy artykuł w języku rosyjskim:

Jaki był nasz pierwotny zamysł

Zaczęliśmy od serwisu Porzadek.org.pl, kierowanego do osób z różnych przyczyn zafascynowanych przemocą fizyczną, przestępczością uliczną oraz "podejściem silnej ręki" policji do obywateli - stąd taki a nie inny podział na kategorie tematyczne. Serwis ten miał początkowo być "fizycznym uzupełnieniem" dla PAYLOAD - aby ten ostatni nie musiał wychodzić tematycznie poza obszar IT.

Bardzo gwałtownie jednak stało się jasne, iż zbierane przez nas dane mają dużo większy potencjał - zdołaliśmy wydzielić ponad 200 wartościowych kategorii tematycznych (na bazie których można zbudować różne serwisy, m.in. polityczne, zdrowotne, parentingowe, plotkarskie, religijne i wiele innych), oraz kolejne ponad 200 mniej wartościowych, gdzie nie do końca mamy pomysł, jak jakiś typ artykułów najlepiej spożytkować.

O naszej technologii mówiliśmy już rok temu, na konferencji The Hack Summit 2023, w ramach ścieżki militarnej - niniejszym po raz pierwszy prezentujemy to nagranie publicznie:

Wówczas sugerowaliśmy następujące płaszczyzny podziału:

Szczegółowo o naszej technologii mówimy na powyższym filmie, oraz piszemy w tym artykule. A na tej stronie możecie zobaczyć, jak to działa na żywo.

Nasza docieralność i skuteczność

We wrześniu 2024 nasze statystyki z Google Analytics za ostatnie 12 miesięcy pokazały okrągłe 10 milionów użytkowników:

Tak natomiast wyglądają nasze bieżące statystyki z Cloudflare za ostatnie 30 dni:

Zmierzyć realną skuteczność bez ujawniania naszych tajemnic różnym firmom zewnętrznym jest dużo trudniej. Jednym z przybliżonych sposobów, jakie stosujemy, jest analiza linków przychodzących, publikowanych w mediach społecznościowych typu Facebook, oraz na stronach trzecich - do naszych serwisów linkuje wielu polityków i urzędów, aż po np. Ministerstwo Finansów.

Nie chcemy tej skuteczności psuć, więc szczegółów nie ujawniamy publicznie - natomiast chętnie ujawnimy je poważnym partnerom, zainteresowanym wykorzystaniem naszej technologii do realizacji własnych celów.

W skrócie szacujemy, iż dzięki naszym autorskim pomysłom, przez 2 lata działania trwale zradykalizowaliśmy ok. 700 tysięcy Polaków - przesuwając ich postrzeganie bieżącej polityki w taki sposób, aby przenieśli swoje poparcie na partię przynajmniej o 1 punkt radykalizmu dalej od centrum w poniższej skali (a więc aby np. dotychczasowy wyborca PiS zaczął popierać Konfederację):

Oczywiście nie dokonaliśmy tego samodzielnie - w końcu użyliśmy do tego ponad 20 milionów tekstów tworzonych przez innych wydawców, którym również należą się brawa za skuteczność.

W jakim stopniu to nasza zasługa?

W momencie wyborów w 2023, niemal równo rok temu:

wszystkich uprawnionych do głosowania było 29.9 miliona osób
z tego głosów ważnych do Sejmu oddano 21.6 miliona, a do Senatu 21.4 miliona
1.874 miliona osób (czyli 7.16%) zagłosowało na Konfederację
jeśli przeliczyć te nominalne 7.16% na wszystkie głosy, 100% daje ok. 26.2 miliona głosujących - jak więc widać, ordynacja wyborcza jest dość skomplikowana i prawdę mówiąc nie mamy pewności, jak precyzyjnie przeliczyć dzisiejsze sondaże na liczbę osób lub głosów, zrobimy to więc w przybliżeniu

A tak wygląda poparcie na dzisiaj wg wspomnianego wyżej raportu Krytyki Politycznej:

Wg tego raportu, dzisiaj na Konfederację zagłosowało by 15% uprawnionych, czyli 2.1x więcej. Albo o 2.06 miliona więcej wyborców.

Jeśli więc założymy, iż wspomniane wyżej ok. 700 tysięcy Polaków jest wyłącznie naszą zasługą, to jest to 34% całego przyrostu Konfederacji przez ostatni rok. W praktyce jednak trzeba wziąć poprawkę na dwie rzeczy:

zaczęliśmy nasze działania w połowie 2022 i część z tych ok. 700 tysięcy osób to wynik już sprzed wyborów w 2023 - naszym zdaniem było to jakieś 150 tysięcy osób do momentu wyborów
efekty naszych działań rozkładają się na prawą i lewą stronę sceny politycznej, jednak w praktyce naszym zdaniem w 2022 i 2023 dużo lepiej działały dla lewej strony

Podsumowując: to oczywiście nie tylko nasza zasługa. Efekty naszych działań to może 10-15% wszystkich zmian, jakie się dokonały na polskiej scenie politycznej przez ostatni rok. Tylko tyle lub aż tyle.

Czy reprezentujemy jakiś konkretny światopogląd lub kierunek polityczny?

Nasze osobiste poglądy polityczne są mniej lub bardziej zbliżone do anarchokapitalizmu, ale nie jest to istotne - potrafimy bowiem oddzielić poglądy osobiste od oficjalnych poglądów politycznych PAYLOAD jako takiego.

Naszym celem na tym etapie jest zostanie samodzielnym, liczącym się graczem politycznym, mającym wpływ na rzeczywistość. Takim, który na stałe zapisze się w historii Polski, tak jak np. Cambridge Analytica już zawsze będzie pamiętana jako firma, która w 2016 w dużym stopniu pomogła Donaldowi Trumpowi wygrać wybory prezydenckie w USA.

Konkretny kierunek zmian, jakie zdołamy wywołać, jest przy tym dla nas drugorzędny - natomiast w praktyce ma on znaczenie o tyle, iż nasza technologia sprawdza się świetnie we wzbudzaniu polaryzacji społecznej i postaw radykalnych, natomiast bardzo słabo przy jej wygaszaniu. Wynika to po prostu z konstrukcji samego języka polskiego, na którym operujemy - nie jesteśmy więc w stanie tego zmienić.

Jak to adekwatnie działa i skąd bierzemy artykuły

Wszystkie prezentowane w naszych serwisach artykuły są autentycznymi tekstami dziennikarskimi i są pisane przez ludzi, a nie generowane przez AI - te ostatnie staramy się wykrywać i eliminować. Dzięki temu mają odpowiednio wysoką skuteczność.

Artykuły zaciągamy z ponad 375 tysięcy feedów RSS, a następnie dzięki technologii uczenia maszynowego analizujemy wyrażany w nich światopogląd na 7 płaszczyznach: polityka, ekonomia, ekologia, seks i aborcja, wiara, Rosja i narkotyki. Jest to szczegółowo omówione na filmie wyżej. Oczywiście nie każdy artykuł wyraża światopogląd, a wręcz ciężko sobie wyobrazić tekst, który wyrażał by go we wszystkich 7 analizowanych przez nas płaszczyznach. Dlatego ocena artykułu jest propagowana na ocenę całego feeda RSS - ta zaś w kolejnym kroku uzupełnia oceny tych artykułów, dla których nie da się wprost dokonać danej oceny.

Ocenione artykuły dostają po prostu dodatkowe atrybuty w bazie danych, dzięki czemu każdy z naszych serwisów może już operować na tych ocenach dzięki prostego kodu SQL lub PHP, bez konieczności wgrywania wrażliwych algorytmów na zewnętrzne serwery hostingowe. A sam proces oceny dokonywany jest na serwerze z pełnym szyfrowaniem dysku twardego i killswitchem zasilania.

Tak wygląda jedna z realnych funkcji w jednym z serwisów:

Oczywiście poza metrykami merytorycznymi, stosujemy też metryki typowo techniczne - np. długość i jakość docelowego tekstu (pełnego artykułu, nie tylko skrótu publikowanego w RSS), czy rozdzielczość głównego obrazka. Tu niestety zauważyliśmy bardzo przykrą prawidłowość: im bardziej radykalny wydawca, tym mniej dba o jakość obrazków w swoich artykułach (statystycznie, bo jest też sporo wyjątków).

Zaraz, jakiego "pełnego artykułu"?

Publikujemy tylko skrót, który dany wydawca sam udostępnia w feedzie RSS - a więc domyślnie tylko ten fragment tekstu, na którego publikację się zgadza.

Natomiast na potrzeby analizy ściągamy wszystko, co się da:

wszystkie obrazki
wszystkie artykuły - w miarę możliwości również te za paywallami

Jesteśmy też w stanie włączyć (per feed RSS) publikowanie obrazków bezpośrednio z naszych serwerów - np. gdyby jakiś feed został zlikwidowany i domena wygasła, a zawierała interesujące treści. Realnie robimy to tylko dla ok. 130 feedów (na ponad 375 tysięcy).

Jak dbamy o prawa autorskie?

Operując na ponad 20 milionach artykułów, zbieranych na bieżąco z ponad 375 tysięcy feedów RSS, mamy do wyboru porównywalne artykuły z wielu źródeł. Dzięki temu jeśli któryś z wydawców nie życzy sobie, abyśmy używali akurat jego treści, nie dyskutujemy z tym - od ręki je usuwamy i po prostu zastępujemy innymi, o analogicznym wydźwięku światopoglądowym.

Natomiast zamiast pełnych treści artykułów, pokazujemy tylko ich skróty z linkiem do oryginału - co z jednej strony wypełnia wymagania prawa cytatu, a z drugiej nie obniża naszej skuteczności - ponieważ naszym celem jest nakierowanie czytelnika na pewien kierunek myślenia, o podtrzymanie którego zadba już potem wydawca, do którego go przekierujemy - a nie zatrzymywanie czytelnika na siłę u siebie i próba monetyzacji.

Przede wszystkim jednak, w żaden sposób nie zarabiamy na wyświetlanych treściach, więc ciężko mówić o ewentualnych rozliczeniach, czy roszczeniach finansowych, niezależnie od podstawy prawnej.

Jakie ograniczenia ma nasza technologia?

Przede wszystkim zupełnie nie nadaje się do bezpośredniej sprzedaży czegokolwiek, gdzie użytkownik ma cokolwiek zrobić tu i teraz. To co jesteśmy w stanie zrobić dobrze, to długotrwałe oddziaływanie z wielu pozornie niezwiązanych ze sobą źródeł. Ma to sens w perspektywie np. kadencji Sejmu - już teraz jest dobry moment na rozplanowanie długofalowych działań pod wybory w 2027.

Co za tym idzie, nie jesteśmy w stanie precyzyjnie mierzyć efektywności działań w podziale na konkretne cele (gdybyśmy np. chcieli zacząć promować konkretnych polityków, a nie tylko światopogląd) - jedynie zbiorczo.

Jesteśmy też ograniczeni strukturą języka polskiego - choćby nie tyle gramatyką, ile stylem pisania tekstów dziennikarskich. A więc jesteśmy w stanie oceniać światopogląd tekstów na tych płaszczyznach, na których w ogóle da się go wyrazić w formalnym tekście, a nie jedynie dzięki emocji i nieformalnie lub "niepolitycznie".

W praktyce oznacza to, iż np. jesteśmy w stanie wykryć krytyczne nastawienie do imigrantów, ale już nie jesteśmy w stanie rozróżniać różnych podstaw ideologicznych za nim stojących - bo praktycznie nie zdarzają się teksty, w których ktoś by się odważył pisać o tym na tyle otwarcie i jednocześnie używając formalnego słownictwa, aby dało się wytrenować do tego algorytmy.

Nasze plany na przyszłość

Wszystko to, co stworzyliśmy do tej pory, tak naprawdę powstało w formie testów technicznych przed adekwatnymi działaniami na naprawdę dużą skalę. Do tych jednak potrzebujemy większych zasobów - i to nie programistów od AI, ale tak zwyczajnie:

przede wszystkim redaktorów z dobrym rozeznaniem i "czuciem" polskiej sceny politycznej, którzy by mogli się skupić na konkretnych, skoordynowanych działaniach wyłącznie od strony merytorycznej
osób z "lekkim piórem" i umiejętnością pisania angażujących tekstów pod zadany temat, oraz wyrażania z góry założonego światopoglądu bez zauważalnej sztuczności
analityków, którzy pomogą nam opracować możliwie precyzyjne sposoby mierzenia naszej efektywności w różnych horyzontach czasowych i dla różnych celów osobno
grafików, webdeveloperów i innych osób, które by się mogły skupić na formie: nowoczesnych szablonach i tego typu sprawach
administratorów, operatorów NOC, specjalistów od monitoringu i rozwiązywania doraźnych problemów z setkami równolegle działających kolejek
infrastruktury IT - do tej pory wydaliśmy na nią kilkadziesiąt tysięcy złotych z prywatnych dochodów, jednak już dawno dotarliśmy do granic jej możliwości i zaczęliśmy z tego powodu sztucznie ograniczać ilość przetwarzanych danych
miejsca na tą infrastrukturę (a także rozwiązania problemu z zasilaniem, chłodzeniem i hałasem)
usług specjalizowanych - np. Google Cloud Translation, czy omijanie blokad w Cloudflare

Dane, naprawdę dużo danych...

Nasza główna aplikacja operuje na:

20.6 miliona artykułów (wg stanu na połowę października 2024) - i co 5 minut pojawiają się nowe
w tym prawie 6.5 miliona długich artykułów dobrej jakości
15.6 miliona zdjęć tytułowych
375731 feedów RSS
3 językach: polskim, angielskim i rosyjskim

Z uwagi na prawa autorskie, możemy operować tylko na tym co jest publikowane w RSS - i to z wieloma wyjątkami. Cały polskojęzyczny Internet to jednak dużo więcej.

W 2023 uruchomiliśmy drugą aplikację - crawler skanujący cały Internet w poszukiwaniu wartościowych treści. jeżeli nie pod kątem republikacji, to przynajmniej pod kątem skuteczniejszego uczenia algorytmów. Wygląda to z grubsza tak:

Na chwilę obecną (październik 2024) mamy:

zindeksowane 314 milionów domen i subdomen + jeszcze kilkanaście milionów czeka na przeskanowanie
zindeksowany nieco ponad miliard artykułów, w tym artykuły historyczne sięgające początku lat 90-tych
kolejne kilka miliardów artykułów czekających na zindeksowanie - odrzuconych póki co, aby nie przeciążać infrastruktury mniej wartościowymi treściami
kolejne 6 obsługiwanych języków: włoski, ukraiński, hiszpański, niderlandzki, chorwacki i słowacki
ponad gigabit ruchu sieciowego lecącego 24/7 z kilku różnych łącz
inteligentną technologię identyfikacji i ekstrakcji treści już nie tylko z feedów RSS, ale też z luźnych podstron - dzięki temu jesteśmy w stanie analizować też sitemapy i hurtowo indeksować całą historię różnych serwisów, a nie tylko artykuły bieżące z RSS - np. całe archiwum Wprost.pl od 1992 to ok. miliona artykułów
własny algorytm wzorowany na PageRank, do analizy powiązań między domenami i skutecznego identyfikowania całych grup treści SEO, bukmachersko-hazardowych, generowanych losowo, lub innych o niskiej wartości
integracje z wieloma różnymi usługami, dzięki którym powiadomienia o naszych nowych artykułach często docierają do użytkowników dużo szybciej, niż powiadomienia o oryginalnych wersjach tych artykułów u pierwotnych wydawców

Komu jesteśmy w stanie pomóc?

Przede wszystkim, nie próbujemy sprzedawać kota w worku. Dlatego sugerujemy, abyś niezależnie od swojego celu zaczął od przeczytania tego artykułu, oraz pobawienia się konfiguratorem na tej stronie.

Reprezentujesz partię polityczną i chcesz zwiększyć jej poparcie lub zaatakować inną partię

Tak jak opisaliśmy wyżej, nasza technologia sprawdza się w promowaniu postaw radykalnych - czy to na tle lewicowym, czy prawicowym. Dotychczas robiliśmy to w obu tych kierunkach, natomiast dla Ciebie możemy zająć się konkretnie wybranym kierunkiem. o ile to wpasowuje się w Twoją wizję, porozmawiajmy o szczegółach.

Jesteś politykiem i chcesz wypromować siebie jako kandydata

To co możemy dla Ciebie zrobić perspektywie kolejnych 2-3 lat i kolejnych wyborów, to:

podkręcić ogólne poparcie dla Twojego kierunku politycznego
zadbać o Twoją ogólną widoczność w wielu miejscach - ale z pewnością trzeba to będzie wesprzeć wieloma innymi działaniami

Jesteś po prostu zainteresowany rozdrobnieniem sceny politycznej

A więc z grubsza mielibyśmy robić to co dotychczas, ale bardziej agresywnie i na większą skalę. Tutaj jedno ważne zastrzeżenie na początek: zajmujemy się tylko takimi działaniami, które są w pełni legalne, można za nie wystawić fakturę VAT i zapłacić przelewem.

Wprost wykluczamy:

popełnianie przez nas przestępstw
rozliczanie kryptowalutami
bezpośrednią współpracę z podmiotami z państw objętych sankcjami (możemy Ci szczegółowo podpowiedzieć, jak założyć w Polsce osobną spółkę, natomiast Twoją rolą będzie znalezienie osób pełniących role wspólników, członków zarządu i redaktorów naczelnych, oraz 2-krotne dowiezienie tych osób do Poznania: trzeźwych, czystych, dobrze ubranych i z dokumentem tożsamości)

Jesteś zainteresowany działaniami hybrydowymi wobec innych państw

Obejrzyj film zamieszczony na początku tego artykułu. Pod koniec pierwszej połowy Tomasz Klim mówi o naszych eksperymentach wobec USA, Rosji i Azerbejdżanu. Jest tam wprost powiedziane o naszych ograniczeniach. jeżeli mimo tego widzisz pole do współpracy - chętnie spróbujemy pomóc.

Ile to może kosztować?

Na cały ten projekt, od 2022 do października 2024:

wydaliśmy ok. 100 tysięcy złotych na koszty zewnętrzne - głównie na infrastrukturę IT (tylko tą dedykowaną do projektu, nie wliczamy infrastruktury współdzielonej: usług backupu, monitoringu itp.)
poświęciliśmy łącznie nieco ponad 5.5 tysiąca roboczogodzin (licząc tylko czas 4 osób będących z zawodu programistami). Przy stawce komercyjnej 20000 zł miesięcznie, czyli 120 zł za godzinę, daje to kolejne ok. 660 tysięcy złotych.

Szczegółowe koszty większej operacji zależą od bardzo wielu czynników - wyżej jednak opisaliśmy wyzwania, jakim trzeba sprostać, aby móc skalować obecne, siłą rzeczy dość chaotyczne i ograniczone działania. Największym kosztem na pewno będą:

koszty osobowe (patrz wyżej "Nasze plany na przyszłość")
koszty usług automatycznego tłumaczenia
koszty przesiadki ze stosunkowo prostych algorytmów uczenia maszynowego na dużo bardziej zaawansowane modele LLM (jeśli będziesz potrzebował bardziej precyzyjnych, konkretniej ukierunkowanych działań)

Generalnie można powiedzieć, iż koszt większej operacji, której celem mogłoby być doprowadzenie ugrupowań skrajnych do dobrej pozycji koalicyjnej w kolejnej kadencji Sejmu, zamyka się w kilkunastu milionach złotych - zakładając w pełni komercyjną wycenę czasu wszystkich zaangażowanych osób. Koszt ten możesz próbować obniżyć, angażując osoby zaangażowane ideologicznie.

Jeśli chcesz porozmawiać o szczegółach, napisz na tomasz.klim@payload.pl swoje namiary (najlepiej na Zoom, Teams lub Skype) pozwalające na kontakt zwrotny. Możesz też wstępnie opisać w 2-3 zdaniach problem, który chcesz rozwiązać - abyśmy mogli od razu przygotować odpowiednie materiały.

Idź do oryginalnego materiału