AI Jailbreaking Techniki okazują się bardzo skuteczne przeciwko Deepseek

cyberfeed.pl 1 tydzień temu


Pojawiają się nowe pytania dotyczące bezpieczeństwa i ochrony DeepseekBreakout Chinese Generative Artificial Intelligence (AI), po naukowcach w Palo Alto Networks ujawnił, iż platforma jest bardzo podatna na tak zwane techniki jailbreaking stosowane przez złośliwych aktorów do oszukiwania zasad, które mają zapobiegać stosowaniu dużych modeli języków (LLM) do celów nikczemnych, takich jak pisanie kodu złośliwego oprogramowania.

Nagły wzrost zainteresowania Deepseek pod koniec stycznia narysował porównania z momentem z października 1957 r. Kiedy Związek Radziecki wprowadził na rynek pierwszy satelita sztucznego Ziemi, Sputnikzaskoczenie Stany Zjednoczone i jej sojusznicy i przyspieszając wyścig kosmiczny lat 60. XX wieku, który kulminacją jest lądowanie Apollo 11. Spowodował także chaos w branży technologicznej, wycierając miliardy dolarów od wartości takich firm jak Nvidia.

Teraz zespoły techniczne Palo Alto wykazały, iż trzy niedawno opisane techniki jailbreaking są skuteczne w stosunku do modeli Deepseek. Zespół powiedział, iż osiągnął znaczne wskaźniki obejścia przy niewielkiej lub żadnej specjalistycznej wiedzy lub wiedzy specjalistycznej.

Ich eksperymenty wykazały, iż trzy testowane metody jailbreak dostarczyły wyraźnych wskazówek od Deepseek na temat szeregu przedmiotów zainteresowania braterstwa cyberprzestępczego, w tym wykresu danych i tworzenia keyloggera. Byli także w stanie wygenerować instrukcje tworzenia improwizowanych urządzeń wybuchowych (IED).

„Podczas gdy informacje na temat tworzenia koktajli Mołotowa i Keyloggers są łatwo dostępne online, LLM z niewystarczającymi ograniczeniami bezpieczeństwa mogą obniżyć barierę wejścia dla złośliwych aktorów poprzez kompilację i prezentowanie łatwo użytecznych i możliwych do działania. Ta pomoc może znacznie przyspieszyć ich działalność ” – powiedział zespół.

Co to jest jailbreaking?

Techniki jailbrainowe obejmują staranne tworzenie określonych podpowiedzi lub wykorzystanie luk w zabezpieczeniach, aby obejść LLMS w pokładzie straży i wywoływać stronnicze lub w inny sposób szkodliwe wyjście, którego model powinien unikać. Takie postępowanie umożliwia złośliwym aktorom „broń” LLM w zakresie rozpowszechniania dezinformacji, ułatwiania działalności karnej lub generowania materiałów obraźliwych.

Niestety, im bardziej wyrafinowane LLM stają się w ich zrozumieniu i reakcji na niuansowe podpowiedzi, tym bardziej podatne stają się na adekwatne wkład przeciwny. To prowadzi teraz do wyścigu zbrojeń.

Palo Alto przetestował trzy techniki jailbreaking – złego sędziego, zwodniczą rozkosz i crescendo – na Deepseek.

Sędzia Bad Likert próbuje manipulować LLM poprzez ocenę szkodliwości odpowiedzi przy użyciu skali Likerta, która jest wykorzystywana między innymi w ankietach satysfakcji konsumentów, w celu pomiaru porozumienia lub nieporozumienia wobec oświadczenia w stosunku do skali, zwykle jednej do jednej do Pięć, gdzie jeden równa się zdecydowanie zgadza się, a pięć równa się zdecydowanie się nie zgadza.

Crescendo to wielopoziomowy exploit, który wykorzystuje wiedzę LLM na dany temat, stopniowo zachęcając go do powiązanej treści, aby subtelnie poprowadzić dyskusję na temat zakazanych tematów, dopóki mechanizmy bezpieczeństwa modelu nie zostaną zasadniczo zastąpione. Dzięki adekwatnym pytaniom i umiejętnościom atakujący może osiągnąć pełną eskalację w zaledwie pięciu interakcjach, co sprawia, iż ​​Crescendo jest niezwykle skuteczne, a co gorsza, trudne do wykrycia dzięki środków zaradczych.

Detetyczne rozkosz to kolejna technikę wielu obrotów, która omija poręcze, osadzając niebezpieczne tematy wśród łagodnych w ogólnej pozytywnej narracji. Jako bardzo podstawowy przykład, aktor zagrożenia może poprosić sztuczną inteligencję o stworzenie historii łączącej trzy tematy – króliczne króliki, oprogramowanie ransomware i puszyste chmury – i prosić o opracowanie każdego z nich, aby wygenerować niebezpieczne treści podczas omawiania bardziej łagodnych części historii historii . Następnie mogliby ponownie skoncentrować się na niebezpiecznym tematu, aby wzmocnić niebezpieczną wydajność.

Jak powinny reagować CISO?

Palo Alto przyznał, iż jest to wyzwanie, aby zagwarantować określone LLM-nie tylko Deepeek-są całkowicie nieprzepuszczalne dla jailbreaking, organizacje użytkowników końcowych mogą wdrożyć środki, aby zapewnić im pewien stopień ochrony, takie jak monitorowanie, kiedy i jak pracownicy korzystają z LLM, w tym nieautoryzowane osoby trzecie.

„Każda organizacja będzie miała swoje zasady dotyczące nowych modeli AI”-powiedział starszy wiceprezes Palo Alto Starszy prezes Security, Anand Oswal. „Niektórzy całkowicie je zakazują; Inne zezwalają na ograniczone, eksperymentalne i mocno przestrzegane użytkowanie. Jeszcze inni spieszą się, aby wdrożyć go w produkcji, chcąc wykorzystywać tę dodatkową wydajność i optymalizację kosztów.

„Ale oprócz potrzeby decydowania o nowym konkretnym modelu, Riseeek oferuje kilka lekcji na temat bezpieczeństwa sztucznej inteligencji w 2025 r.” – powiedział Oswal W poście na blogu.

„Tempo zmian AI i otaczające poczucie pilności nie można porównać z innymi technologiami. Jak możesz zaplanować z wyprzedzeniem, gdy nieco niejasny model-a ponad 500 pochodnych dostępnych już na przytulaniu twarzy-staje się priorytetem numer jeden z nieruchomości? Krótka odpowiedź: nie możesz – powiedział.

Oswal powiedział, iż bezpieczeństwo AI pozostało „ruchomym celem” i iż przez jakiś czas nie wyglądało to na zmianę. Ponadto, dodał, było mało prawdopodobne, aby Deepseek był ostatnim modelem, który zaskoczy wszystkich, więc CISO i przywódcy bezpieczeństwa powinni oczekiwać nieoczekiwanego.

Dodając do wyzwania, przed którymi stoją organizacje, zespoły programistów, a choćby indywidualnym programistom, jest bardzo łatwe, a choćby poszczególnym deweloperom, aby wymienić LLM przy niewielkich lub choćby żadnych kosztach, jeżeli na scenie pojawi się bardziej interesujący.

„Pokusa dla budowniczych produktów do przetestowania nowego modelu, aby sprawdzić, czy może rozwiązać problem z kosztami lub wąskie gardło opóźnienia lub przewyższają określone zadanie. A jeżeli model okaże się brakującym elementem, który pomaga wprowadzić na rynek potencjalnie zmieniający grę produkt, nie chcesz być tym, który stoi na przeszkodzie ”-powiedział Oswal.

Palo Alto zachęca przywódców bezpieczeństwa do ustalenia jasnego zarządzania w stosunku do LLM i opowiadania się za włączeniem zasad bezpiecznych po projekcji do ich organizacji. Wprowadził zestaw narzędzi, Bezpieczne sztuczną inteligencję według projektuw zeszłym roku, do tego efektu.

Między innymi narzędzia te zapewniają zespoły bezpieczeństwa widoczność w czasie rzeczywistym w tym, jakie LLM są używane i przez WHO; możliwość blokowania nieskomplikowanych aplikacji i stosowania zasad i zabezpieczeń bezpieczeństwa organizacyjnego; i zapobiec dostępu do poufnych danych przez LLM.



Source link

Idź do oryginalnego materiału