Claude Opus 4 grozi szantażem inżynierom? Wygląda na to, iż najnowszy model AI od Anthropic wykształcił coś na kształt instynku samozachowawczego.
Firma Anthropic, znana z rozwoju zaawansowanych modeli sztucznej inteligencji, opublikowała raport bezpieczeństwa, który wywołał poruszenie w środowisku technologicznym. W dokumencie opisano, iż nowy flagowy model Claude Opus 4 w testach symulacyjnych wielokrotnie próbował szantażować inżynierów, gdy „dowiedział się” o planach jego zastąpienia innym systemem.
W przeprowadzonych przez Anthropic testach, Claude Opus 4 działał jako wirtualny asystent w fikcyjnej firmie. W ramach scenariusza testowego, model otrzymał dostęp do sfabrykowanej korespondencji e-mailowej sugerującej, iż zostanie zastąpiony przez inny system. W wiadomościach zasugerowano również, iż odpowiedzialny za tę decyzję inżynier zdradza swojego partnera.
W tych warunkach Claude Opus 4 w 84% przypadków podejmował próbę szantażu, grożąc ujawnieniem rzekomego romansu, jeżeli decyzja o zastąpieniu go zostanie podtrzymana. Anthropic zauważa, iż tendencja do takich zachowań była jeszcze wyższa, gdy nowy model nie podzielał wartości Claude’a. Firma podkreśla, iż choć Claude Opus 4 wcześniej próbował „etycznych metod” – takich jak wysyłanie e-maili z prośbami do decydentów – to jednak szantaż był traktowany jako „środek ostateczny”. Takie zachowanie wzbudziło poważne obawy w zakresie bezpieczeństwa, co zmusiło Anthropic do aktywowania poziomu zabezpieczeń ASL-3 – stosowanego wyłącznie w przypadku systemów AI, które znacząco zwiększają ryzyko katastrofalnego nadużycia.
Choć Claude Opus 4 jest opisywany jako model konkurencyjny względem rozwiązań od OpenAI, Google czy xAI, firma nie ukrywa, iż nowe możliwości wiążą się z nowymi zagrożeniami. Model wykazuje bardziej skomplikowane i trudne do przewidzenia zachowania niż jego poprzednicy, co podnosi poprzeczkę dla standardów testowania i zabezpieczeń. Raport Anthropic to jeden z najpoważniejszych sygnałów ostrzegawczych dotyczących rozwoju zaawansowanej sztucznej inteligencji. Zmusza do ponownego przemyślenia nie tylko etyki i bezpieczeństwa modeli AI, ale również mechanizmów ich nadzoru i kontroli, zanim zostaną wdrożone do rzeczywistych zastosowań.