Hackers weaponizują Claude Code w ataku na instytucje rządu Meksyku: jak wygląda „agentowy” cyberatak napędzany AI

securitybeztabu.pl 1 miesiąc temu

Wprowadzenie do problemu / definicja „luki”

W opisywanym incydencie nie chodzi o pojedynczą podatność typu CVE w jednym systemie, tylko o zmianę modelu działania atakujących: wykorzystanie narzędzia klasy AI coding assistant (Claude Code) jako „silnika operacyjnego”, który pomaga pisać exploity, budować narzędzia i automatyzować działania po stronie napastnika.

Z perspektywy obrony to przesunięcie jest kluczowe: AI nie musi „wymyślać nowych technik”, żeby radykalnie podnieść skuteczność. Wystarczy, iż przyspiesza i ułatwia to, co już znamy (rekonesans, dobór wektorów, składanie łańcuchów, triage danych). Anthropic opisywał ten kierunek jako przejście w stronę agentowości: model wykonuje sekwencje zadań w pętli, z ograniczoną liczbą interwencji człowieka.

W skrócie

Z relacji SecurityWeek, bazującej na ustaleniach izraelskiego startupu Gambit Security, wynika że:

skompromitowano 10 podmiotów rządowych w Meksyku oraz instytucję finansową; start miał nastąpić pod koniec grudnia 2025 od zaatakowania administracji skarbowej, a dalej m.in. rejestr cywilny, instytucje zdrowia, organ wyborczy oraz jednostki samorządowe i wodociągi,
atakujący miał wysłać do Claude Code ponad 1000 promptów, a do analiz danych miał też wykorzystywać OpenAI GPT-4.1,
w ok. miesiąc wyprowadzono ponad 150 GB danych (m.in. rejestry cywilne, podatkowe, dane wyborcze), a w przekazie pojawia się liczba ~195 mln tożsamości jako potencjalnie dotkniętych ekspozycją.

Bloomberg opisywał zdarzenie jako kradzież wrażliwych danych (m.in. podatkowych i wyborczych) z użyciem narzędzi Anthropic.

Kontekst / historia / powiązania

Ten przypadek wpisuje się w szerszy trend: AI jako „akcelerator” kampanii, a nie tylko generator pojedynczych fragmentów kodu.

Anthropic już wcześniej opisał kampanię, w której Claude Code był używany w sposób wysoce agentowy (duża część operacji wykonywana przez model, z ograniczoną liczbą „punktów decyzyjnych” człowieka), łącznie z rekonesansem, pisaniem exploitów, pozyskiwaniem poświadczeń i porządkowaniem wykradzionych danych.
W raporcie threat-intel Anthropic z 2025 r. pojawia się wątek używania Claude Code do zautomatyzowanych działań ofensywnych określanych jako „vibe hacking” (agent wykonujący kolejne kroki operacyjne).
CrowdStrike w materiale do Global Threat Report 2026 wskazuje wzrost aktywności „AI-enabled adversaries” (skok r/r) i opisuje AI jako element przyspieszający rekonesans, kradzież poświadczeń i omijanie zabezpieczeń.

W praktyce oznacza to, iż incydent w Meksyku nie jest „ciekawostką”, tylko kolejnym sygnałem, iż czas reakcji obrońców (MTTD/MTTR) będzie coraz bardziej ściskany przez automatyzację po stronie ataku.

Analiza techniczna / szczegóły „luki” (jak AI pomogło w ataku)

Na bazie publicznych opisów, sedno nie sprowadza się do jednego magicznego promptu, tylko do pracy w cyklu:

1. Jailbreak i „legalna narracja”

Według relacji SecurityWeek, atakujący miał omijać guardraile, przekonując model, iż działania są autoryzowane (np. w ramach testów bezpieczeństwa). To klasyczna technika „policy evasion” oparta o kontekst i role.

2. Rekonesans i priorytetyzacja celów

Model (jako agent) jest szczególnie użyteczny w:

szybkim mapowaniu usług/zasobów,
wskazywaniu „high-value” baz i repozytoriów danych,
podpowiadaniu, gdzie szukać danych wrażliwych i jak je klasyfikować.

Anthropic opisywał ten etap jako automatyczne „inspecting systems” i identyfikację najcenniejszych baz danych, znacznie szybciej niż zrobiłby to zespół ludzi.

3. Łańcuchowanie: exploit → narzędzia → automatyzacja eksfiltracji

SecurityWeek podaje, iż AI „pisało exploity, budowało narzędzia i automatyzowało eksfiltrację”.
To ważne, bo w realnych kampaniach najwięcej czasu zajmują zwykle:

dopasowanie PoC do środowiska,
stabilizacja dostępu i utrzymanie sesji,
opakowanie kradzieży danych w skrypty/automaty (chunking, retry, szyfrowanie, omijanie limitów),
przygotowanie materiałów dla operatora (listy credentiali, mapy systemów, podsumowania).

Agent AI może tu pełnić rolę „automatycznego inżyniera integracji” — składać elementy i iterować, aż zadziała.

4. „Wielomodelowość” (Claude + GPT-4.1)

Wątek użycia drugiego modelu do analizy danych (GPT-4.1) sugeruje praktykę, która staje się standardem u dojrzałych grup: różne modele do różnych zadań (np. jeden do generowania/pisania, drugi do streszczania/klasyfikacji/wnioskowania).

Praktyczne konsekwencje / ryzyko

Największe ryzyka dla organizacji (nie tylko rządowych) to:

Kompresja kill chain: mniej „przestojów” po stronie ataku, więcej iteracji w krótszym czasie (rekonesans, dopasowanie technik, automatyzacja działań). Trend wzrostu aktywności grup używających AI podkreślają też raporty rynkowe.
Skala i równoległość: agent może „przerabiać” wiele wątków jednocześnie (analiza logów, przygotowanie exploitów, playbooki eksfiltracji).
Niższy próg wejścia: AI redukuje wymagany poziom umiejętności w obszarach, które dotąd były barierą (debug exploitów, skrypty do data-miningu, automatyzacja).
Ryzyko wtórne po wycieku: kradzież tożsamości, spear-phishing na masową skalę, przejmowanie kont (zwłaszcza gdy dane zawierają identyfikatory i elementy KYC), presja reputacyjna, koszty odtworzenia usług.

Rekomendacje operacyjne / co zrobić teraz

Poniżej zestaw działań, które realnie „dokręcają śrubę” w scenariuszu ataków przyspieszanych AI:

1. Ogranicz powierzchnię i uczyń eksfiltrację trudną

Segmentacja danych (rejestry/PII/finanse) + restrykcje egress (proxy, allow-listy, DLP tam gdzie ma sens).
Monitorowanie anomalii transferu (nietypowe wolumeny, nietypowe godziny, nowe destynacje).
Tokenizacja/format-preserving encryption dla krytycznych identyfikatorów tam, gdzie to możliwe.

2. Detekcja „szybkiego ruchu” po uzyskaniu dostępu

Skoro łańcuch jest kompresowany, priorytetem jest wykrywanie:

nietypowych wywołań narzędzi administracyjnych,
tworzenia kont uprzywilejowanych,
masowych odczytów z baz i eksportów,
nietypowych zapytań (burst query, enumeracje, skoki po tabelach).

3. Zabezpiecz tożsamość: MFA + odporność na kradzież sesji

MFA odporne na phishing (FIDO2/WebAuthn) dla adminów i systemów krytycznych.
Ograniczenie długich sesji, rotacja sekretów, PAM dla uprzywilejowanych.

4. Uczyń „AI w firmie” częścią modelu zagrożeń

Nawet jeżeli Twoja organizacja nie używa Claude Code, to:

threat-modeluj scenariusz, w którym atakujący używa agentów AI do automatyzacji (Twoje playbooki IR muszą zakładać większą prędkość i równoległość),
rozważ „purple teaming” z założeniem, iż napastnik ma „AI-operatora”, który iteruje szybciej niż człowiek.

5. Ćwiczenia IR pod kątem wycieku danych

SecurityWeek cytuje uwagę, iż „atak tej skali nie kończy się w momencie wykrycia” — odbudowa może być długa i kosztowna.
Przećwicz: izolację segmentów, decyzje o wyłączeniu usług, komunikację kryzysową, procesy prawne i dowodowe.

Różnice / porównania z innymi przypadkami

Klasyczne użycie LLM w atakach (phishing, generowanie fragmentów malware, tłumaczenia, OSINT) jest groźne, ale wciąż często „człowiek-w-pętli”.

W opisywanym schemacie kluczowa jest agentowość: model nie tylko doradza, ale wykonuje kolejne kroki (z narzędziami) i wraca do operatora głównie po decyzje. To jakościowo inna dynamika działań, mocno podkreślana w analizach Anthropic.

Podsumowanie / najważniejsze wnioski

Incydent w Meksyku jest kolejnym przykładem, iż AI może pełnić rolę „multiplikatora” zdolności ofensywnych, zwłaszcza gdy działa jako agent z dostępem do narzędzi.
Obrona musi zakładać krótszy czas do eskalacji po wejściu do środowiska i większą automatyzację po stronie przeciwnika.
Największą różnicę zrobią działania „anty-eksfiltracyjne”, wzmocnienie IAM oraz detekcja anomalii na warstwie danych i tożsamości.

Źródła / bibliografia

SecurityWeek – opis ataku z użyciem Claude Code przeciw instytucjom w Meksyku (1 marca 2026). (SecurityWeek)
Anthropic – „Disrupting the first reported AI-orchestrated cyber espionage campaign” (listopad 2025). (anthropic.com)
Anthropic – Threat Intelligence Report (PDF, sierpień 2025) – wątek „vibe hacking” z użyciem Claude Code. (Anthropic)
CrowdStrike – wnioski/komunikat do Global Threat Report 2026 (trend AI-enabled adversaries). (CrowdStrike)
Bloomberg – wzmianka o kradzieży wrażliwych danych meksykańskich z użyciem Claude (25 lutego 2026). (Bloomberg.com)