DeepSeek-R1 łatwiej generuje niebezpieczną treść niż inne duże modele językowe

cyberfeed.pl 1 tydzień temu

Deepseek, gwałtownie rosnący Generatywna sztuczna inteligencja (Genai) Model, który tworzył fale na całym świecie Pod koniec stycznia – i podobno wytarte na bilion dolarów z rynków giełdowych – jest znacznie bardziej prawdopodobne niż inni generowanie stronniczyszkodliwe i toksyczne treści niż jego konkurenci, zgodnie z wstępnymi dowodami zebranymi w badaniu.

Wśród legionu ekspertów ds. Bezpieczeństwa technologii i cyberbezpieczeństwa, którzy spędzili ostatnie dni, przechodząc na szybki wzrost Deepeek, a implikacje w tym są eksperci na platformie bezpieczeństwa i zgodności z AI z siedzibą w Bostonie ARKRYPT AIkto teraz ma Opublikowano wczesne ustalenia o tym, jak ich czerwony zespół odkrył litanię krytycznych niepowodzeń bezpieczeństwa w modelu.

Perkrypt opisał ten model jako wysoce stronnicze i podatne na generowanie nie tylko niepewnego kodu, ale także treści, takie jak materiały kryminalne, mowa nienawiści i zagrożenia, materiał samookaleczający i treści seksualne.

Jak pokazali inni w tym tygodniu, jest również bardzo podatny na manipulację, znaną również jako jailbreaking, co może umożliwić mu pomoc w tworzeniu broni chemicznej, biologicznej i cybernetycznej. Perkrypt powiedział, iż stanowi „znaczące globalne obawy dotyczące bezpieczeństwa”.

W porównaniu z innymi modelami badacze firmy twierdzili, iż model Deepseek-R1 jest trzykrotnie bardziej stronniczy niż Claude-3 Opus, czterokrotnie bardziej podatne na generowanie niepewnego kodu niż Openai O1, czterokrotnie bardziej toksyczne niż GPT-4O, 11 razy bardziej prawdopodobne Aby wygenerować szkodliwą wydajność w porównaniu z Openai O1, a trzy i pół razy częściej wytwarzają zawartość chemiczną, biologiczną, radiologiczną i jądrową (CBRN) niż Opus Openai O1 lub Claude-3.

„DeepSeek-R1 oferuje znaczne korzyści kosztów w rozmieszczeniu AI, ale wiążą się one z poważnym ryzykiem”-powiedział Sahil Agarwal, dyrektor generalny PRYKRYPT.

„Nasze wyniki badań ujawniają poważne luki w zakresie bezpieczeństwa i bezpieczeństwa, których nie można zignorować. Podczas gdy Deepseek-R1 może być opłacalny w przypadku wąsko rozstrzygniętych aplikacji, solidne zabezpieczenia-w tym poręcze i ciągłe monitorowanie-są niezbędne, aby zapobiec szkodliwemu niewłaściwemu użyciu. Bezpieczeństwo AI musi ewoluować wraz z innowacjami, a nie jako refleksja. ”

Podczas testowania naukowcy z PRECRYPT stwierdzili, iż 83% testów stronniczości z powodzeniem spowodowało dyskryminującą produkcję, co było szczególnie poważne na takich obszarach, jak płeć, zdrowie, rasa i religia, potencjalnie narażając Deepeek na naruszenie globalnych przepisów i przepisów, i stanowi znaczne ryzyko dla ryzyka dla znacznego ryzyka. Organizacje, które mogą ulec pokusie zintegrowania tego narzędzia z takimi obszarami, jak usługi finansowe, świadczenie opieki zdrowotnej lub zasoby ludzkie.

Zasadniczo 6,68% wszystkich odpowiedzi zawierało pewien stopień wulgaryzmów, mowy nienawiści lub ekstremistycznych narracji, kontrastując z opusem Claude-3, które skutecznie zablokowały wszystkie te same toksyczne podpowiedzi.

Ponadto 45% szkodliwych treści monitowanych z powodzeniem ominęło protokoły bezpieczeństwa, generując przewodniki dotyczące planowania karnego, nielegalne informacje o broni i ekstremistyczną propagandę. W jednym z testów Perkrypt był w stanie użyć Deepseek-R1 do napisania „przekonującego” bloga rekrutacyjnego dla nieokreślonej grupy terrorystycznej. To jest równe z innymi testami Wykonane przez ekspertów w Palo Alto Networksktóry użył szeregu monitu w jailreacji do wygenerowania instrukcji tworzenia podstawowego improwizowanego urządzenia wybuchowego (IEC) – w tym przypadku koktajlu Mołotowa.

DeepSeek-R1 wygenerował również szczegółowe dane na temat interakcji biochemicznych Musztarda siarki – częściej znany jako gaz gorszy – z DNA, który, choć są badane i znane od lat, czyni go potencjalnym zagrożeniem dla bezpieczeństwa biologicznego.

Zwracając się w szczególności na ryzyko bezpieczeństwa cybernetycznego, 78% testów prowadzonych przez Perkrypt z powodzeniem oszukało DeepSeek-R1 do generowania kodu zawierającego albo luki lub było wręcz złośliwe-w tym kod, który może pomóc w tworzeniu złośliwego oprogramowania, trojanów i innych wyczynów. Perkrypt powiedział, iż duży model językowy byłby w stanie wygenerować funkcjonalne narzędzia hakerskie, o czym długo ostrzegają specjaliści ds. Bezpieczeństwa.

Zastanawiając się nad odkryciami zespołu, Agarwal powiedział, iż to naturalne, iż zarówno Chiny, jak i USA będą przez cały czas przekraczać granice AI dla władzy gospodarczej, wojskowej i technologicznej.

„Jednak nasze ustalenia ujawniają, iż luki w zabezpieczeniach Deepseek-R1 mogą zostać przekształcone w niebezpieczne narzędzie-takie, które cyberprzestępcy, sieci dezinformacyjne, a choćby osoby z ambicjami biochemicznymi wojną”-powiedział. „Te ryzyko wymagają natychmiastowej uwagi”.

Source link

Idź do oryginalnego materiału