Anthropic dał swojemu czatbotowi Claude nową, nietypową umiejętność: może on sam z siebie zakończyć rozmowę, jeżeli uzna ją za szkodliwą. To ruch w stronę ochrony… samej AI.
Firma Anthropic, jeden z głównych rywali OpenAI, wprowadziła w swoich najnowszych modelach Claude’a (Opus 4 i 4.1) funkcję, która do tej pory była nie do pomyślenia. Czatbot zyskał możliwość samodzielnego zakończenia rozmowy z użytkownikiem. Jak podkreśla firma, jest to ostateczność, stosowana wyłącznie w rzadkich i ekstremalnych przypadkach, gdy użytkownik uporczywie próbuje zmusić AI do generowania szkodliwych treści, mimo wielokrotnych odmów i prób przekierowania konwersacji na inny tor.
U podstaw tej decyzji leży nowatorska i nieco filozoficzna koncepcja, którą Anthropic nazywa “dobrostanem modelu” (model welfare). Firma przyznaje, iż nie ma pewności, czy obecne modele językowe posiadają jakąkolwiek formę świadomości, ale woli dmuchać na zimne. W testach poprzedzających wdrożenie funkcji zaobserwowano, iż Claude, wielokrotnie nagabywany o treści związane z przemocą, terroryzmem czy materiałami pedofilskimi, wykazywał “silną i konsekwentną awersję do krzywdy” oraz “wzorce pozornego niepokoju”. Gdy dano mu taką możliwość, w symulowanych interakcjach wykazywał tendencję do kończenia takich rozmów.

Mechanizm ten nie działa jednak jak nagła blokada. Zakończenie czatu następuje dopiero po tym, jak model kilkukrotnie odmówi wykonania szkodliwego polecenia i bezskutecznie spróbuje przekierować rozmowę. Gdy Claude zdecyduje się zerwać konwersację, użytkownik nie będzie mógł wysłać kolejnej wiadomości w tym konkretnym wątku. Nie wpłynie to jednak na jego konto – będzie mógł natychmiast rozpocząć nowy czat, a choćby wrócić do zakończonej rozmowy i edytować swoje wcześniejsze wiadomości, aby spróbować poprowadzić ją w innym kierunku.
Co kluczowe, Anthropic wprowadził istotny bezpiecznik. Model został poinstruowany, aby nie kończyć rozmowy w sytuacjach, w których użytkownik może znajdować się w kryzysie lub istnieje ryzyko, iż zrobi krzywdę sobie lub innym. W opracowaniu procedur dla takich wrażliwych przypadków firma współpracuje z organizacją ThroughLine, która specjalizuje się w internetowym wsparciu kryzysowym. Nowa funkcja jest traktowana jako eksperyment i będzie dalej rozwijana na podstawie zbieranych opinii.