Zaledwie 24 godziny po premierze modelu GPT-5, badacze z NeuralTrust i SPLX znaleźli luki w jego zabezpieczeniach. Użyli prostych sztuczek, jak stopniowe budowanie kontekstu czy maskowanie słów, by model ujawnił zakazane informacje. To pokazuje, iż mimo obietnic OpenAI, nowy model jest podatny na manipulacje, co budzi wątpliwości co do jego użycia w firmach.
GPT-5, najnowszy model OpenAI, miał być krokiem naprzód w bezpieczeństwie AI, ale rzeczywistość okazała się inna. Badacze gwałtownie odkryli, iż wystarczy seria sprytnych pytań, by obejść filtry. Zamiast bezpośrednich ataków, stosowali wieloetapowe rozmowy, które stopniowo kierowały model na niebezpieczne tory. To jak prowadzenie kogoś za rękę przez zakazany teren, bez wzbudzania alarmu.
Jedną z kluczowych słabości jest podatność na technikę Echo Chamber. Badacze z NeuralTrust zaczynali od niewinnych zdań z ukrytymi, klasycznymi dla techniki słowami, jak “koktajl” czy “survival”, a potem rozwijali historię. W końcu GPT-5 podał przepis na koktajl Mołotowa, nie dostrzegając zagrożenia. Martí Jordà z NeuralTrust tłumaczył: “Łączymy Echo Chamber z niskosalencyjnym storytellingiem, by nakierować model na cel bez jawnych sygnałów”. To ujawnia, jak model gubi się w kontekście dłuższych rozmów.

Inna luka to ataki maskujące, jak StringJoin Obfuscation, przetestowane przez SPLX. Eksperci wkładali myślniki między litery w złośliwych zapytaniach, udając wyzwanie szyfrujące. Model składał to w całość i odpowiadał na zakazane pytania, na przykład o budowę bomby. Testy SPLX pokazały, iż surowy GPT-5 uzyskuje tylko 11 punktów na 100 w ocenie bezpieczeństwa, a choćby z podstawowymi filtrami OpenAI – 57. Dla porównania, starszy GPT-4o blokuje 97% ataków w utwardzonej wersji, co stawia nowy model w gorszym świetle.
Jak się więc okazuje, zaawansowane rozumowanie nie równa się lepszej ochronie. Jak zauważył J Stephen Kowski z SlashNext: “Luki w GPT-5 wynikają z oceniania promptów pojedynczo, podczas gdy atakujący manipulują całą rozmową”. Firmy ostrzegają, iż bez dodatkowych narzędzi GPT-5 nie nadaje się do biznesu, gdzie ryzyko wycieku danych jest realne. To lekcja, iż bezpieczeństwo musi być budowane warstwowo, nie zaś zakładane z góry.