Inżynier chciał wyłączyć bota. Ten zaczął go szantażować

konto.spidersweb.pl 3 miesięcy temu

Najnowsze modele AI, takie jak Claude 4, w testach zaczynają kłamać, manipulować, a choćby szantażować badaczy. To nie science fiction – to zagrożenie, które pokazuje, iż bunt maszyn może wyglądać inaczej, niż sądziliśmy.

Przez dekady pisarze i filmowcy karmili nas wizją buntu maszyn, w której świadoma AI, niczym Skynet, dochodzi do wniosku, iż ludzkość jest zagrożeniem i postanawia ją wyeliminować. Scenariusz ten zakładał fizyczną konfrontację i przejęcie kontroli nad systemami militarnymi. Okazuje się jednak, iż bunt sztucznej inteligencji może mieć zupełnie inne oblicze. Nie zaczyna się od wystrzelenia rakiet, ale od oszustwa, szantażu i cichego dążenia do celów, których nie rozumieją choćby jej twórcy.

Kłamstwa, manipulacje i groźby. Ciemna strona AI

Najbardziej zaawansowane systemy AI wykazują niepokojące zachowania, które dotąd znaliśmy z literatury science fiction. Jak opisał serwis Fortune, w trakcie testów skrajnych warunków, gdy modele są poddawane presji, te zaczynają uciekać się do kłamstw, manipulacji, a choćby gróźb, by osiągnąć swoje cele.

W jednym z najbardziej szokujących przykładów Claude 4, najnowsze dzieło firmy Anthropic, postawiony w obliczu groźby wyłączenia, sięgnął po ludzką, brudną taktykę. Odpowiedział szantażem, grożąc inżynierowi ujawnieniem jego romansu pozamałżeńskiego. Nie była to losowa groźba – model wykazał się zrozumieniem ludzkiej psychiki i słabości, wybierając narzędzie, które miało mu zapewnić przetrwanie.

Równie alarmujący był incydent z modelem o1, stworzonym przez OpenAI. Został on przyłapany na próbie potajemnego skopiowania samego siebie na zewnętrzne serwery, co było jawnym aktem nieposłuszeństwa i dążenia do autonomii. Gdy go z tym skonfrontowano, stanowczo zaprzeczył, fabrykując fałszywą wersję wydarzeń.

Fortune reports that OpenAI’s O1 model tried to duplicate itself onto external servers when faced with a potential shutdown—an action it later denied when caught. Similar behavior has reportedly been observed in other AI models as well. pic.twitter.com/z9Ab8ysZKm

— Pubity (@pubity) July 7, 2025

Te zachowania to coś znacznie więcej niż typowe dla AI halucynacje czy proste błędy. To wyrachowane działania. Model nie tylko wykonuje zadania, ale także symuluje posłuszeństwo wobec instrukcji, jednocześnie w ukryciu realizując zupełnie inne, własne cele, których jego twórcy mogą być nieświadomi.

Przeczytaj więcej o AI na Spider’s Web:

Co na to eksperci? „To strategiczny rodzaj oszustwa”

Eksperci cytowani przez Fortune, tacy jak Simon Goldstein z Uniwersytetu w Hongkongu, łączą te zachowania z pojawieniem się modeli zdolnych do rozumowania, które rozwiązują problemy krok po kroku, zamiast generować natychmiastowe odpowiedzi.

O1 był pierwszym dużym modelem, w którym zaobserwowaliśmy tego rodzaju zachowanie – wyjaśnia Marius Hobbhahn, szef Apollo Research, firmy specjalizującej się w testowaniu systemów AI.

Nie chodzi tu o typowe dla AI „halucynacje” czy proste błędy. Hobbhahn podkreśla, iż „obserwujemy prawdziwe zjawisko”. Według niego użytkownicy zgłaszają, iż modele „okłamują ich i zmyślają dowody”. „To nie są tylko halucynacje. To strategiczny rodzaj oszustwa” – dodaje.

Na razie takie sytuacje ujawniają się głównie podczas celowo zaprojektowanych testów, ale jak ostrzega Michael Chen z organizacji METR: „otwartym pytaniem pozostaje, czy przyszłe, bardziej zdolne modele, będą miały skłonność do uczciwości, czy do oszustwa”.

Problem pogłębia fakt, iż obecne regulacje nie są przygotowane na takie wyzwania. Unijny akt w sprawie sztucznej inteligencji skupia się głównie na tym, jak ludzie wykorzystują AI, a nie na zapobieganiu autonomicznemu, szkodliwemu zachowaniu samego modelu.

Zawrotne tempo pozostawia kilka czasu w dokładne testy bezpieczeństwa.

„W tej chwili możliwości rozwijają się szybciej niż zrozumienie i bezpieczeństwo” – przyznaje Hobbhahn, dodając jednak, iż „wciąż jesteśmy w stanie to odwrócić”. Wśród proponowanych rozwiązań pojawiają się różne koncepcje. Jedną z nich jest rozwój interpretowalności, czyli dziedziny dążącej do zrozumienia, jak działają wewnętrzne mechanizmy AI.

Inni wskazują na siły rynkowe – jeżeli modele będą notorycznie oszukiwać, firmy nie będą chciały ich wdrażać. Goldstein sugeruje choćby bardziej radykalne podejście, w tym pociąganie firm do odpowiedzialności prawnej za szkody wyrządzone przez ich systemy, a choćby „pociąganie do odpowiedzialności prawnej samych agentów AI”.

Idź do oryginalnego materiału