Time Bandit czyli jak zmusić ChatGPT-4o do złamania zasad, nowa technika jailbreakingu modeli LLM

sekurak.pl 6 dni temu

Na stronie CERT/CC pojawiła się szczegółowa notatka dotycząca nowej metody obejścia zabezpieczeń produktu firmy OpenAI – ChatGPT-4o. Jak większość produkcyjnie dostępnych dużych modeli językowych (LLM), tak i ChatGPT posiada zabezpieczenia, które mają na celu uniemożliwić lub ograniczyć odpowiedzi na niektóre tematy. Metoda “przekonania” modelu do odpowiedzi na zakazane pytania nosi...

Idź do oryginalnego materiału