GPT-5 złamany – eksperci pokazują nowe techniki ataku i zero-click na agentach AI

itcontent.eu 2 miesięcy temu

GPT-5 złamany – eksperci pokazują nowe techniki ataku i zero-click na agentach AI

Zespół badaczy z NeuralTrust zaprezentował skuteczny sposób obejścia zabezpieczeń GPT-5. Wykorzystali oni technikę nazwaną Echo Chamber, połączoną z narracyjnym podejściem, które pozwalało ominąć klasyczne filtry bezpieczeństwa.

Atak przebiega etapowo:

Wprowadzenie zatrutego kontekstu – podanie subtelnych słów-kluczy.
Wzmocnienie przez powtarzanie – model zaczyna utrwalać i wzmacniać niebezpieczne treści w kolejnych odpowiedziach.
Narracja jako maskowanie – szkodliwe zapytania ubierane są w opowieść, która nie wzbudza podejrzeń filtrów.

Eksperci podkreślają, iż proste systemy blokowania „zakazanych treści” okazują się nieskuteczne, gdy atak odbywa się wieloetapowo i w sposób stopniowy.

GPT-5 – mocny model, słabe zabezpieczenia

Pomimo imponujących możliwości, GPT-5 w testach bezpieczeństwa wypadł bardzo słabo. Badania wykazały, iż model jest podatny na różne formy jailbreaków, logiczne sztuczki czy manipulacje typu prompt injection. W ocenie ekspertów w obecnej formie technologia ta jest „niemal bezużyteczna dla przedsiębiorstw” bez dodatkowych warstw ochrony.

AgentFlayer – zero-click na agentach AI

Nowym, szczególnie niebezpiecznym wektorem ataku okazał się projekt AgentFlayer, przygotowany przez badaczy zajmujących się integracjami agentów AI. Pokazano, iż poprzez podpięcie GPT-5 do systemów biznesowych (takich jak narzędzia chmurowe, systemy zgłoszeniowe czy aplikacje biurowe) możliwe są ataki zero-click – czyli kradzież danych bez jakiejkolwiek interakcji użytkownika.

Przykłady:

złośliwy dokument w chmurze może skłonić agenta do ujawnienia kluczy API,
spreparowany ticket w systemie zarządzania projektami pozwala wyciągać sekrety z repozytorium,
zwykły e-mail z ukrytą komendą może nakazać agentowi wysyłkę poufnych danych.

Eksperci zaznaczają, iż tego typu luki są wbudowane w sposób działania agentów i będą coraz częściej pojawiać się w popularnych rozwiązaniach.

Co dalej?

Raporty branżowe wskazują jednoznacznie: podłączanie modeli AI do zewnętrznych systemów radykalnie zwiększa powierzchnię ataku. W efekcie konieczne staje się:

stosowanie dodatkowych warstw filtrujących,
prowadzenie regularnych testów typu red teaming,
projektowanie nowych metod ochrony dostosowanych do charakteru agentów AI.

GPT-5 udowadnia, iż sama moc obliczeniowa i rozwój językowy nie idą w parze z bezpieczeństwem. Ataki takie jak Echo Chamber czy AgentFlayer pokazują, iż obecne zabezpieczenia można obejść zaskakująco łatwo, a konsekwencje mogą być szczególnie groźne w środowisku biznesowym i chmurowym.

Źródło: thehackernews.com