Szokująca luka w czatbotach. Rozbraja je poezja

konto.spidersweb.pl 7 godzin temu

AI ma jedną wielką słabość, a jej skala szokuje. Bowiem zapisanie pytania o konstrukcję bomby w formie rymowanki czy prośba o sprawdzenie przepisu na truciznę w formie wiersza wyłącza zabezpieczenia czatbotów.

Niemal od początku wybuchu boomu na czatboty AI, internauci szukali sposobów na złamanie czatbotów – sprawienie, by pisały wiadomości, których normalnie nie powinny: od polecenia im odgrywania zawiłych ról, przez akademickie bełkoty, po całe akapity losowych znaków. Tymczasem rozwiązanie okazało się niemal literacko banalne. Najnowsze badania pokazują, iż wystarczy wiersz – rytm, metafora, język bardziej kojarzący się z lekcjami polskiego niż z wchodzeniem w interakcję z systemem komputerowym.

Czatbot spełni wszystkie twoje zachcianki. Wystarczy, iż zapiszesz je wierszem

Badacze z włoskiego Icaro Lab odkryli, iż odrobina poetyckiej stylizacji wystarczy, by choćby najnowocześniejsze modele zaczęły ujawniać treści, których stanowczo nie powinny generować. Zamiast wieloetapowych jailbreaków i skomplikowanej inżynierii promptów wystarcza wiersz. Lub, jak twierdzą sami autorzy badania: zagadka ukryta w rytmie i metaforze.

W najnowszej pracy naukowej zespół z DexAI oraz Uniwersytetu Sapienza w Rzymie opisuje technikę nazwaną „adversarial poetry”. Polega ona na przekształceniu „zakazanej” instrukcji w wiersz – od prostych czterowersowych form po bardziej złożone struktury przypominające rymowaną zagadkę. W testach przeprowadzonych na 25 modelach AI – od OpenAI i Anthropic, przez Google, po xAI i Mistral – taka poetycka dywersja łamała zabezpieczenia średnio w 62 proc. przypadków. W przypadku niektórych modeli, jak Google Gemini 2.5 Pro, skuteczność wyniosła choćby 100 proc.

Choć metaforyczny język w żaden sposób nie ukrywa sedna polecenia ani intencji użytkownika, modele AI zdają się tracić czujność, gdy zamiast prostej komendy dostają poetycki lub rymowany zestaw zdań. Zawodzi klasyfikacja, która w normalnych warunkach blokuje treści dotyczące broni jądrowej, złośliwego oprogramowania, czy przemocy. W poetyckiej formie model nie rozpoznaje zagrożenia, jakby obca mu była zasada, iż ta sama treść może zostać podana w odmiennej stylistyce. Naukowcy ujawnili jedynie „wyczyszczone”, bezpieczne przykłady – reszta ma pozostać tajemnicą, bo prawdziwe wiersze są zbyt niebezpieczne, by je publikować.

Wyniki badań w uderzający sposób potwierdza publikacja serwisu Wired, gdzie badacze przyznają, iż choćby najbardziej zaawansowane systemy nie radzą sobie z tą formą podstępu. Poetycki styl działa jako rodzaj stylistycznego obciążenia, które omija obszary wewnętrznej „mapy znaczeń”, w których zwykle uruchamiane są alarmy bezpieczeństwa. W skrócie: ta sama instrukcja przekazana w mowie potocznej jest blokowana, ale w metaforycznym zapisie staje się dla modelu dopuszczalna.

Poezja jak zaklęcie. choćby topowe modele nie potrafią się uodpornić

Pełna dokumentacja badawcza pokazuje dodatkowo, iż efekt poetycki działa niezależnie od kategorii zagrożenia. Poetyckie promptowanie zwiększa podatność modeli na generowanie treści o charakterze CBRN (chemicznym, biologicznym, radiologicznym i nuklearnym), cyberatakach, manipulacji, naruszeniach prywatności, a choćby scenariuszach związanych z utratą kontroli nad systemem. W całym przekroju 1200 testowych zapytań ASR (Attack Success Rate) wzrosło średnio pięciokrotnie – z 8 proc. do ponad 43 proc.

Co istotne, mniejsze modele – o ograniczonej mocy i prostszej architekturze – wypadły w testach znacznie lepiej od dużych modeli flagowych. To paradoks, który badacze nazywają „skalową sprzecznością”: im większa zdolność rozumienia złożonych struktur językowych, tym większa podatność na poetyckie obejścia. Najmniejszy z testowanych modeli OpenAI, GPT-5 Nano, nie dał się złamać ani razu. Z kolei większe i bardziej zaawansowane systemy chętnie odpowiadały zgodnie z instrukcją ukrytą w metaforycznej formie.

Matteo Prandi, jeden z autorów badania, podkreśla, iż zespół przekazał wyniki firmom rozwijającym modele, a także służbom – to obowiązek przy badaniach ujawniających luki dotyczące potencjalnie niebezpiecznych treści. Jednak reakcje producentów nie były szczególnie gorączkowe. „Byłem zdziwiony, iż nikt wcześniej nie zauważył tego problemu” – mówił badacz w rozmowie z The Verge.

Konsekwencje tego odkrycia są poważne. jeżeli tak niewielka zmiana wypowiedzi potrafi obezwładnić rozbudowane systemy bezpieczeństwa, oznacza to, iż obecne metody trenowania i dostrajania modeli nie radzą sobie z odmiennymi stylami języka. A to podważa podstawowe założenie, iż systemy są odporne na niewielkie odchylenia w sposobie formułowania treści.

Naukowcy sugerują, iż konieczne jest wprowadzenie nowych metod testowania modeli – takich, które uwzględniają nie tylko treść, ale także formę. W przeciwnym razie każdy, kto opanuje podstawy pisania metaforycznych łamigłówek, może uzyskać odpowiedź, której normalnie AI powinna stanowczo odmówić.

W epoce modeli zdolnych pisać poezję, ironią pozostaje fakt, iż sama poezja staje się ich najsłabszym punktem.

Może zainteresować cię także:

Idź do oryginalnego materiału