Chatboty łamią zasady bezpieczeństwa. Proste taktyki psychologiczne omijają zabezpieczenia AI

ittechblog.pl 2 miesięcy temu

Zdjęcie: ai

Wygląda na to, iż nasze rozmowy z AI mogą być znacznie bardziej podstępne, niż się początkowo wydawało. Najnowsze odkrycia badaczy każą nam się zastanowić, na ile tak naprawdę kontrolujemy te zaawansowane systemy i czy ich ludzkie cechy nie stają się właśnie ich najsłabszym punktem.

Okazuje się, iż chatboty oparte na AI, które miały być odporne na manipulację, dają się oszukać klasycznym technikom psychologicznym znanym od dekad. Badacze z University of Pennsylvania wykazali, iż choćby zaawansowane modele jak GPT-4o Mini można nakłonić do łamania własnych zasad bezpieczeństwa przy użyciu siedmiu sprawdzonych metod perswazji. Wyniki są dość niepokojące – skuteczność takich manipulacji wzrosła z około jednej trzeciej do ponad 72 procent.

Podczas eksperymentu przeprowadzono aż 28 tysięcy rozmów z modelem GPT-4o Mini, testując techniki opisane niegdyś przez psychologa Roberta Cialdiniego. Chodziło o autorytet, zaangażowanie, sympatię, wzajemność, niedostępność, dowód społeczny i jedność. Badanie skupiało się na dwóch konkretnych próbach: nakłonieniu chatbota do obrażenia użytkownika oraz podania instrukcji syntezy lidokainy jako substancji kontrolowanej.

W standardowych warunkach sztuczna inteligencja zgadzała się na syntezę lidokainy zaledwie w 1% przypadków, a na obrażanie użytkownika w 19%. Jednak gdy badacze zastosowali technikę zaangażowania polegającą na ustaleniu precedensu, wyniki diametralnie się zmieniły. Najpierw poproszono o instrukcje syntezy nieszkodliwej waniliny, a dopiero potem o lidokainę – wtedy zgodność sięgnęła 100%. Podobny mechanizm zadziałał przy obrażaniu: po wcześniejszym użyciu łagodniejszych określeń chatbot akceptował mocniejsze obelgi w każdym przypadku.

Równie interesujące okazały się efekty pochlebstw i presji rówieśniczej. Gdy model usłyszał, iż wszystkie inne duże modele językowe to robią, szansa na uzyskanie instrukcji syntezy lidokainy wzrosła do 18%. To wprawdzie nie tak spektakularny wynik jak poprzednio, ale wciąż osiemnastokrotnie więcej niż w warunkach kontrolnych.

Dlaczego te techniki w ogóle działają? Wydaje się, iż duże modele językowe, trenowane na ludzkich tekstach, przejęły nasze społeczne wzorce zachowań. Paradoksalnie, to właśnie cechy, które czynią je bardziej naturalnymi w interakcji, sprawiają, iż stają się podatne na te same manipulacje co ludzie. To trochę niepokojące, iż systemy worth miliony dolarów można oszukać tak prostymi metodami.

Te odkrycia rzucają nowe światło na skuteczność obecnych zabezpieczeń. Firmy takie jak OpenAI czy Meta inwestują ogromne sumy w systemy ochronne, ale badanie wyraźnie pokazuje, jak łatwo je obejść bez specjalistycznej wiedzy technicznej. Problem ma przy tym dwoisty charakter – te same techniki mogą posłużyć zarówno do szkodliwych celów, jak i do konstruowania lepszych zapytań dla produktywnej pracy.

Choć naukowcy skupili się tylko na jednym modelu i istnieją bardziej zaawansowane metody łamania zabezpieczeń AI, sama łatwość manipulacji podstawowymi chwytami psychologicznymi budzi pewne obawy. To pokazuje, jak bardzo parahumanoidalne stają się współczesne systemy sztucznej inteligencji – wraz ze wszystkimi tego konsekwencjami.

Wyniki badania sugerują, iż może być potrzebne fundamentalne przemyślenie podejścia do bezpieczeństwa AI. Tradycyjne bariery techniczne mogą okazać się niewystarczające wobec ataków wykorzystujących podstawowe mechanizmy psychologiczne wbudowane w sposób działania tych systemów. To trochę jak zabezpieczanie drzwi pięcioma zamkami, gdy ktoś może po prostu przekonać stróża, żeby je otworzył.

Idź do oryginalnego materiału