OSINT pod górkę – otwarte źródła informacji i spektrum ich dostępności

counterintelligence.pl 2 lat temu

Niedawno miałem okazję uczestniczyć w FIRST CTI Conference w Berlinie, gdzie mówiłem o tym, iż OSINT nie zawsze jest taki otwarty jak mogłoby się wydawać. Ponieważ w prezentacji zahaczyłem metody i źródła konkretnych analityków, wolałem pozostać przy TLP Green. W tym poście chciałbym jednak przybliżyć główne tezy i problemy, które omawiałem.

Inspiracją dla prezentacji był artykuł opublikowany w Foreign Affairs w którym Amy Zegart argumentowała, iż Stany Zjednoczone powinny powołać agencję wywiadowczą skoncentrowaną na pozyskiwaniu i analizie informacji z otwartych źródeł. Zacząłem się wtedy zastanawiać jakiego zakresu umiejętności wymaga kompleksowa praca na otwartych źródłach i czy ich otwartość zawsze oznacza, iż są faktycznie osiągalne dla wszystkich.

Jeżeli wychodzimy od sytuacji OSINTu na poziomie państwowych agencji wywiadowczych to warto też tutaj zaznaczyć, iż zakres informacji w kręgu zainteresowania będzie się różnił dla takiego i wywiadu i dla CTI w sektorze prywatnym. W kontekście otwartych źródeł często przytaczane są słowa Samuela Wilson, iż 90% informacji wykorzystywanych przez społeczność wywiadu USA pochodzi z właśnie z takich źródeł. I w kontekście zadań stawianych agencjom takim jak CIA nie jest to takie trudne to wyobrażenia. o ile spojrzymy na wywiad polityczny, ekonomiczny, analizę sytuacji międzynarodowej danego kraju to faktycznie publicznie dostępne raporty czy doniesienia medialne mogą dostarczyć wystarczającego materiału do analizy. W przypadku CTI sytuacja może jednak wyglądać jednak zgoła inaczej. Konsumenci produktów CTI jak zespoły szeroko rozumianego security operations czy incident response oczekują często informacji na poziomie taktycznym czy operacyjnym, które bezpośrednio mogą przełożyć się na metody wykrywania i zapobiegania aktywności. Dlatego też będą zainteresowani bardziej „unikalnymi” informacjami, które nie są tak łatwo dostępne publicznie i które będą uzupełniać to co już trafia do detekcji w formie sygnatur czy publicznych feedów.

W mojej ocenie w OSINTcie, tak samo jak w innych dyscyplinach wywiadowczych, występują „hard targets”, które wymagają specjalistycznych umiejętności i przygotowania aby odpowiednio je wykorzystać. I pod tym względem OSINT może być nie mniej wymagającą dyscypliną co pozornie bardziej „techniczne” dziedziny jak analiza malware’u. Źródła te wyróżniania istnienie jednego lub więcej czynników utrudniających pozyskiwanie danych i analizę:

Językowe – źródła wymagające znajomości języka, zwłaszcza o ile interpretacja wymaga znajomości specjalistycznego słownictwa, gdzie automatyczne tłumaczenie jest mało skuteczne.
Kulturalne – interpretacja informacji wymaga zrozumienia kontekstu kulturalnego, relacji pomiędzy autorami źródła a opisywanymi zjawiskami czy slangu.
Techniczne – źródło jest dostępne publicznie, ale dostęp wymaga określonych okoliczności np.: połączenia z danego kraju.
Operacyjne – źródło wymaga nakładów technicznych bądź manualnych w celu pozyskania informacji, np.: forum którego nie da się automatycznie scrapować, przez co analitycy muszą manualnie analizować wątki.
Prawne – posiadanie materiałów pozyskanych ze źródła jest sankcjonowane prawnie. Tak może być choćby w przypadku materiałów pochodzących od grup przestępczych lub terrorystycznych.

Jaskrawym przykładem tego zjawiska jest analiza źródeł dotyczących Chin. choćby powszechnie dostępne serwisy, fora, i dokumenty są realnie nieosiągalne dla większości analityków ze względu na barierę językową i kulturową. o ile będziemy chcieli zapoznać się z jednym głównych dokumentów doktryny PLA – Naukę Strategii Wojskowej – to znajdziemy go na przykład na stronie Uniwersytetu Sił Powietrznych USA. Jednak choćby tutaj, jak zaznaczono, wersja angielska jest wynikiem automatycznego tłumaczenia i może zawierać nieścisłości. A poziom trudności rośnie wykładniczo w zakresie forów i mediów społecznościowych gdzie automatyczne tłumaczenia mogą nie przekazać odpowiedniego kontekstu użytych zwrotów.

Najlepszymi źródłami bywają więc projekty zajmujące się określonymi wycinkami zagadnienia. W przypadku Chin możemy wskazać na China Law Translate, publikujące przekłady chińskiego ustawodawstwa, artykuły Ricka Joe (PLARealTalk) śledzącego rozwój chińskich sił morskich i powietrznych, czy projekt śledzenia powiązań chińskich uniwersytetów z aparatem bezpieczeństwa narodowego prowadzony przez Australian Strategic Policy Institute. Korzystając z takich projektów niejako outsourcujemy część analizy związaną z doborem źródeł informacji i opracowaniem ich pod kątem zrozumienia kontekstu. W ten sposób nie korzystamy być może z całego zakresu źródeł (bo ograniczamy się do tych które wybrano za nas) jednak wada ta jest zwykle równoważona przez dodaną wartość specjalistycznej wiedzy której nie musimy zdobywać sami. Naturalnie problem pozostaje dobór i weryfikacja tychże źródeł eksperckich, jednak to element każdej aktywności wywiadowczej.

Innej natury wyzwania związane są z prawnymi aspektami gromadzenia informacji. W przypadku niektórych kategorii materiałów samo ich posiadanie jest penalizowane co ogranicza możliwości ich analizy i naraża analityków na dodatkowe ryzyko. Przykładem tego zjawiska są materiały pochodzące od grup terrorystycznych – jak wydany przez Al-Ka’ide Półwyspu Arabskiego magazyn Inspire.

W magazynie publikowano zarówno treści ideologiczne jak i poradniki w zakresie tworzenia broni czy bezpiecznej komunikacji, stanowił więc potencjalnie wartościowe źródło informacji w zakresie zrozumienia celów i metod organizacji. Jednakże w Zjednoczonym Królestwie samo posiadanie Inspire jest zakazane i zapadały wyroki w tej sprawie na mocy Terrorist Act 2000. Co więcej skazana została choćby siostra osoby zaangażowanej w działalność terrorystyczną, nawet gdy sąd przyjął, iż korzystała z materiałów tylko aby zrozumieć motywacje swojego brata. Przepisy zawierają wyłączenia dla działalności dziennikarskie i akademickiej jednak trudno określić czy analityków pracujących dla zespołów threat intelligence obejmuje ta ochrona, a sprawdzenie tego w praktyce może okazać się bardzo kosztowne.

Jak podejść do wyzwań związanych ze źródłami które okazują się nie tak otwarte? Rozwiązania będą plasować się na spektrum tego ile zasobów i roboczogodzin możemy przeznaczyć na powiązane zadania. Najbardziej angażującym ale zapewniającym największe możliwości pozyskiwania informacji rozwiązaniem jest dedykowany zespół zajmujący się uzyskiwaniem dostępu i przetwarzaniem pozyskanych danych tak aby analitycy mogli pracować na gotowych raportach i wnioskach i na tej podstawie wyciągać ostateczne konkluzje. W ramach takiego zespołu mogliby działać:

Lingwiści i osoby ze znajomością języków źródłowych aby wiernie tłumaczyć zgromadzone informacje.
Specjaliści od dostępu zajmujący się np.: tworzeniem wiarygodnych profili na zamkniętych forach i tworzeniem infrastruktury sieciowej, choćby VPSów.
Nadzór prawny i operacyjny oceniający ryzyko związane z pozyskiwaniem danych materiałów lub uczestniczeniem w dyskusjach na kanałach grup przestępczych.

Takie zalecenia nie są jednak zwykle zbyt pomocne – w końcu zatrudnić po prostu dodatkowy personel to może i dobra, ale mało praktyczna porada. Najczęstszą sytuacją będą stany pośrednie gdzie analitycy będą korzystać z narzędzi takich jak automatyczne tłumaczenie, OCR do analizy tekstów pisanych obcym alfabetem, lub prawdopodobnie coraz częściej GAI jak ChatGPT.

Jako przykład takiego workflowu przyjrzymy się wyszukiwaniu źródeł akademickich z Chin w zakresie bezpieczeństwa sieciowego, starając się określić kierunki i poziom rozwoju badań w tej dziedzinie. Zacznijmy od próby ustalenia słow kluczowych, których moglibyśmy wykorzystać w wyszukiwaniach. Posłużymy się tutaj DeepL:

Zakładamy w tym przykładzie, iż zupełnie nie posługujemy się językiem chińskim więc wprost skorzystamy z podpowiedzianego zwrotu. Aby od razu zwęzić nasze poszukiwania do plików PDF skorzystamy z operatora „filetype:”

Pierwszy rezultat prowadzi do artykułu zamieszczonego na stronie grupy badawcza ds. bezpieczeństwa systemu Uniwersytetu Pekińskiego, także trafiamy w odpowiednie rejony. W szybkim triage’u wyników pomaga integracja automatycznego tłumaczenia z przeglądarką – możemy choćby na bieżąco tłumaczyć artykułów.

Gdy już wiemy, iż tematycznie trafiamy w odpowiednie rejony, spróbujmy uzyskać więcej informacji o placówkach badawczych, które mogły by nas zainteresować. W tym celu skorzystamy z wcześniej wspomnianego projektu Australian Strategic Policy Institute, który kataloguje informacje o uniwersytetach powiązanych z chńskim aparatem bezpieczeństwa narodowego. Autorzy obrazowo przedstawili sieć powiązań pomiędzy poszczególnymi ministerstwami czy rodzajami sił zbrojnych a instytucjami badawczymi:

Możemy również wrócić do posta na counterintelligence.pl w którym opisywałem cyber działania PLA w tym koncepcję fuzji cywilno wojskowej czy rolę Sił Wsparcia Strategicznego. Na styku Ministerstwa Edukacji i Sił Powietrznych znajdziemy Uniwersytet Wuhan, silnie związany z operacjami sieciowymi:

Na poświęconej mu stronie znajdziemy informacje o działalności ale też oryginalny zapis nazwy co wykorzystamy w dalszych wyszukiwaniach.

Połączmy go z wcześniejszą frazą dotyczącą podatności i operatorem dotyczącym typu plików:

Pierwszy wynik z domeny infosec.org wskazuje, iż cały czas poruszamy się we adekwatnym obszarze. Przeglądając dalej pozycje znajdziemy rezultat w który URL stanowi adres IP co zawsze budzi dodatkową ciekawość. Podglądając treść dzięki automatycznemu tłumaczeniu zobaczymy nawiązania do Sił Wsparcia Strategicznego i nagród, prawdopodobnie związanych z konkursem dla studentów.

W tym momencie możemy również spojrzeć na infrastrukturę od strony technicznej i wyszukać adres w Shodan:

Jak widzimy serwer faktycznie znajduję się w Chinach i jest częścią publicznej chmury Huawei. Aby to potwierdzić, możemy spojrzeć na dane dotyczące systemu autonomicznego i tego do kogo należy:

W celu wyszukania kolejnych powiązanych dokumentów znów możmy skorzystać z klasycznych operatorów wyszukiwania Google i zawęzić wyniki do danej strony:

Okazuje się, iż na serwerze znajdziemy listy finalistów konkursów dla studentów z zakresu bezpieczeństwa informacji:

Przeglądając treść dokumentów możemy znaleźć projekty autorstwa studentów politechniki Sił Wsparcia Strategicznego Armii Ludowo Wyzwoleńczej:

W ten sposób przykładowo analitycy zajmujący się strategicznym wymiarem zagrożeń związanych z rejonem mogą ocenić zainteresowania Armii Ludowo Wyzwoleńczej w zakresie projektów związanych z cyberbezpieczeństwem. Nasze poszukiwania moglibyśmy kontynuować, szukając publikacji akademickich powiązanych z konkretnymi instytutami badawczymi. W tym miejscu jednak podsumujmy co pozwoliło nam przejść przez ten prosty przykład poszukiwań chińskich źródeł bez znajomości języka:

Narzędzia do tłumaczenia maszynowego. Oczywiście o ile nie znamy języka to naszym największym sojusznikiem będą narzędzia, które pozwolą na pokonanie bariery językowej i zrozumienie przynajmniej w zarysie treści. Integracja z funkcjami systemu i wyszukiwarką, które pozwalają gwałtownie tłumaczyć zaznaczony tekst niezależnie od źródła umożliwia szybkie filtrowanie wyników wyszukiwań i pobranych treści.
Zrozumienie ekosystemu i kontekstu poszukiwanych informacji. O ile narzędzia do tłumaczenia mogą stanowić pomost za pomocą którego możemy przeskoczyć znajomość języka, to trudno prowadzić zbieranie danych i analizę, o ile nie rozumiemy gdzie i jak zacząć szukać. W podanym przykładzie musieliśmy wiedzieć już o relacjach pomiędzy instytucjami badawczymi i rządowymi w Chinach, koncepcją fuzji wojskowo cywilnej czy roli Sił Wsparcia Strategicznego.
I tutaj przechodzimy płynnie do trzeciego narzędzia – zewnętrznych źródeł eksperckch. O ile zrozumienie kontekstu jest najważniejsze na początku poszukiwań to im bardziej będziemy zagłębiać się w poszukiwania tym większe znaczenie będzie miało wsparcie specjalistycznych publikacji. W modelowym podejściu powinny one wspomagać interpretacje surowych danych jak dokumenty źródłowe. W naszym przykładzie korzystając z pomocy ASPI mogliśmy wytypować instytucje naukowe powiązane z operacjami cyber co pomogło zawęzić poszukiwania.
W końcu nie można zapominać o znaczeniu uniwersalnych narzędzi jak Google dorksy. Szybkie filtrowanie i dopasowywanie wyników znacznie przyspiesza pracę i umożliwia skupienie się na analizie.

OSINT może być równie wymagającą dziedziną co pozornie dużo bardziej złożone technicznie zajęcia jak analiza malware’u czy interpretacja wyników analizy powłamaniowej. Jako dyscyplina jest też niezwykle „pojemny” – tak naprawdę zupełnie inny zestaw wiedzy i umiejętności mogą prezentować analitycy zajmujący się czy to wykorzystywaniem zdjęć satelitarnych i lokalnej prasy do oceny sytuacji na froncie czy ustalaniem sieci powiązań pomiędzy grupami osób. OSINT tak jak HUMINT czy IMINT jest tylko metodologią pracy ze źródłami.

Jak więc moim zdaniem wyglądać będzie rola OSINTu w ramach CTI i jak podchodzić do „hard targets”? Największe znaczenie będzie miało to czy zespół jest na tyle dobrze obsadzony, iż może rozdzielić funkcje zbierania i analizy danych. Specjalizacja w zakresie dostępu do informacji, zbierania i katalogowania materiałów umożliwia analitykom doskonalenie narzędzi i metod co przekłada się na możliwość utrzymywania „kontaktu wzrokowego” z najważniejszymi wydarzeniami i grupami aktywności i związanymi z nimi informacjami. Idąc dalej, zespoły mogą budować wewnętrznie narzędzia do automatycznego i skalowalnego scrapingu źródeł pozwalając analitykom skupiać się na zadaniach, których nie da się łatwo zautomatyzować. W praktyce większości zespołów jednak, gdzie funkcje analizy i pozyskiwania danych są połączone, najefektywniejszy będzie podział na tematyczne zakresy odpowiedzialności. Tak aby e.g. osoba zajmująca się operacjami powiązanymi z chinami od strony technicznej, zajmowała się zrozumieniem kontekstu organizacyjnego służb specjalnych chin czy strategicznych celów chińskiego rządu. Taka specjalizacja połączona z wspólną pracą nad narzędziami automatyzującymi pracę pozwoli analitykom rozwijać wiedzę konieczną do dotarcia do trudnych źródeł i przekładać ją na skalowalność rozwiązań. Pytaniem otwartym pozostaję czy zobaczymy rozwój osobnej ścieżki kariery dla analityków OSINT w ramach zespołów CTI. W mojej ocenie w najbliższym czasie nie, ponieważ branża wciąż cierpi raczej na niedobór niż nadmiar rąk do pracy. W tym kontekście „czysta” analiza OSINT nie przynosi w większości przypadków korzyści przewyższających kosztów oddelegowania do tego dodatkowych osób. Tym co natomiast się zdecydowanie już dzieje to specjalizacja sektorowa umożliwiająca zespołom skupienie wysiłków na określonych obszarach. Przykładem niech będzie ogłoszenie o pracę dla starszego analityka w CrowdStrike, które zapisałem sobie jakiś czas temu:

I takie podejście na pewno zaprocentuje dużo lepszym zrozumieniem tematu i możliwością wszechstronnej analizy wydarzeń.

Jak widzimy nie wszystkie źródła OSINTowe są równe. Będzie je różnić zakres informacji, ale też próg umiejętności i możliwości technicznych konieczny do ich odkrycia. Ocena tego ile nakładów na nie przeznaczymy będzie już zależna od wymagań stawianych zespołowi i celów w zakresie zrozumienia kontekstu operacji cyber, atrybucji czy intencji sprawców. Pracę analityków z pewnością ułatwią narzędzia o których mówiliśmy, jednak ostatecznie najlepiej wypadną zespoły w których specjalizacja pozwoli członkom na poszerzanie wiedzy koniecznej do dogłębnego zrozumienia ekosystemu informacji w którym pracują.

Idź do oryginalnego materiału