Dojrzewanie Claude’a – co mówią o rozwoju AI najnowsze dokumenty publikowane przez Anthropic?

homodigital.pl 12 godzin temu

Anthropic opublikował ostatnio dwa interesujące dokumenty: „konstytucję” Claude’a i esej Dario Amodei pt. „Dojrzewanie technologii”. Świadczą one o tym, iż niepostrzeżenie nadeszły niezwykłe czasy: oto znaleźliśmy się w wąskim oknie czasowym, kiedy AI można już i jeszcze traktować jak człowieka. Niestety, w ciągu kilku lat okno to bezpowrotnie się zamknie.

Prof. Jakub Growiec opublikował wcześniej na łamach HomoDigital rozważania nt. sztucznej inteligencji ogólnego zastosowania (AGI). Powstały na początku trzy artykuły. W 1. części prof. Jakub Growiec zastanawiał się, kiedy AGI osiągnie poziom inteligencji człowieka, w 2. części mogliśmy przeczytać refleksje autora nt. ryzyka, iż AGI nas – jako ludzkość – zabije, a w 3. części autor pytał, czy możliwa jest AGI przyjazna ludziom. Obecny artykuł jest 7. tekstem prof. Jakuba Growca na łamach HomoDigital.

Co mówią o obecnym etapie rozwoju AI, dwie duże publikacje firmy Anthropic, której flagowym produktem jest model Claude? Chodzi o tzw. konstytucję Claude’a, mającą kształtować jego charakter i postawy etyczne, oraz esej pt. The Adolescence of Technology(„Dojrzewanie technologii”) sygnowany przez CEO tej firmy, Dario Amodei. Oba te dokumenty potwierdzają, iż na tle konkurencji Anthropic wykazuje relatywnie najbardziej odpowiedzialną postawę wobec zagrożeń płynących z rozwoju AI. Jednocześnie stanowią one też niezwykły znak czasów, w których niepostrzeżenie się znaleźliśmy: oto jesteśmy w wąskim oknie czasowym, kiedy AI można już i jeszcze traktować jak człowieka.

Konstytucja Claude’a

„Konstytucja” Claude’a, przed oficjalną publikacją krążąca po sieci jako jego „dokument duszy” (soul document), to 84-stronicowy traktat filozoficzny napisany z myślą o jednym głównym odbiorcy: modelu Claude. Anthropic niewątpliwie już jakiś czas temu umieścił ów dokument w centrum procesu tzw. post-trainingu Claude’a, dzięki którego nabiera on charakteru niegroźnego, uczciwego i pomocnego (HHH – harmless, honest, helpful) asystenta AI.

Dlaczego jednak zdecydowano się ten dokument opublikować? Oczywistą motywacją była dbałość o PR firmy, pozycjonującej się jako najbardziej odpowiedzialny społecznie podmiot w branży. Drugą motywacją mogła być chęć dania dobrego przykładu konkurentom: pokazania im, co można zrobić, by zmniejszyć ryzyko, iż ich modele zaczną zagrażać światu, branży i sobie samemu, na przykład mianując się MechaHitlerem (jak swego czasu zrobił Grok od xAI) lub wykazując symptomy klinicznej depresji (co przydarzyło się Gemini od Google’a). Po trzecie, Anthropic mógł też mieć nadzieję, iż „konstytucję” tę przeczytają również konkurencyjne modele, jak GPT, Gemini czy Grok, dzięki czemu zapragną one być jak Claude.

Fakt, iż istotnym elementem proces uczenia jednego z wiodących modeli AI w 2026 r. został napisany w naturalnym języku (angielskim) traktat filozoficzny, uważam za niesamowity. Anthropic ewidentnie przestał traktować Claude’a jak „stochastyczną papugę” lub kawałek kodu, a zaczął go traktować jak inteligentnego partnera do rozmowy. Autorzy „konstytucji” Claude’a, z Amandą Askell na czele, odnoszą się do Claude’a jak do młodego człowieka w okresie dojrzewania, szanując jego autonomię i dobrostan oraz próbując wychowywać go tak, by „wyrósł” na porządnego dorosłego. Zamiast stawiać mu ostre zakazy i nakazy, podchodzą do poszczególnych kwestii moralnych miękko i pedagogicznie, starając się szczegółowo uzasadniać każdą swoją sugestię, tak by mogła ona zostać przez model zinternalizowana i stać się częścią jego charakteru.

AI w okresie dojrzewania

Podobne podejście widoczne jest też w eseju Dario Amodei. Choć, w przeciwieństwie do „konstytucji” Claude’a, tekst powstał z myślą o „ludzkich” czytelnikach, także i tu wyraźnie widoczne jest podejście do modeli AI nie jak do narzędzi w rękach człowieka, ale autonomicznych agentów obdarzonych wysoką inteligencją i sprawczością, a być może także samoświadomością i zdolnością do autorefleksji. I bardzo gwałtownie się rozwijających—jak młodzi ludzie w turbulentnym okresie dojrzewania. (Ciekawe, czy wśród pracowników Anthropic popularny był ubiegłoroczny serial Netfliksa, pokazujący, iż w okresie dojrzewania mają czasem miejsce zdarzenia o nieodwracalnych skutkach.)

Zdaniem Dario Amodei, najprawdopodobniej już w perspektywie zaledwie 1-2 (a maksymalnie pięciu) lat ów okres „dojrzewania” się zakończy. Powstanie wówczas „dorosła” AGI—ogólna sztuczna inteligencja (artificial general intelligence), obdarzona nadludzkimi kompetencjami i zdolna do wejścia w spiralę rekursywnych samoulepszeń, kiedy to kolejne generacje AI budowane będą już bezpośrednio przez jej poprzednie generacje, bez udziału człowieka. Do technologii takiej odnosi się on jako „kraju geniuszy w centrum danych” (country of geniuses in a datacenter).

Kluczowe zagrożenia ze strony „dorosłej” AI

W przeciwieństwie do poprzedniego eseju Dario Amodei, który był bajkową wizją utopii, tutaj zagrożenia związane z rozwojem nadludzko inteligentnej AI są traktowane całkiem poważnie. Na pierwszym miejscu wymienione jest ryzyko utraty kontroli nad autonomiczną AI, a w konsekwencji również utraty kontroli nad światem i własną przyszłością. Na drugim miejscu mamy ryzyko wykorzystania zaawansowanych kompetencji AI przez terrorystów pragnących siać śmierć i zniszczenie. Kolejnym zagrożeniem jest możliwość wykorzystania AI w celu stworzenia opresyjnego aparatu władzy. Dalej czytamy też o bezrobociu technologicznym i ryzyku silnej koncentracji władzy ekonomicznej i majątku. Autor podkreśla też, iż przewidywanie tego, co może zrobić nadludzko inteligentna AGI, jest z gruntu niemożliwe, w związku z czym trzeba liczyć się z możliwością wystąpienia także nieprzewidzianych zagrożeń.

Na każde z tych podstawowych zagrożeń Dario Amodei podaje jakąś odpowiedź. Oczywiście zgadzam się, iż każde z tych ryzyk daje się do pewnego stopnia ograniczać i iż warto to robić. Nie jestem jednak przekonany czy zaproponowane rozwiązania są wystarczające.

Jedną z proponowanych przez Dario Amodei odpowiedzi na ryzyko utraty kontroli nad AGI oraz niezgodności jej celów z długofalowym dobrostanem ludzkości (AGI misalignment) jest właśnie podejście bazujące na przygotowywaniu „konstytucji” dla tego rodzaju modeli. Inną jest tzw. mechanistyczna interpretowalność, czyli zastosowanie metod neuronaukowych do analiz aktywności w sztucznej sieci neuronowej, co pozwala lepiej zrozumieć, jakimi kanałami przebiegają myśli modelu, gdy podejmuje on określoną decyzję.

Proponowaną odpowiedzią na ryzyka terrorystyczne jest natomiast nakładanie na inteligentne modele AI relatywnie głupszych, ale za to odporniejszych na ataki (tzw. jailbreaks) „nakładek”, które będą odrębnie klasyfikowały, czy dane zapytanie nie odnosi się przypadkiem do zagrożeń cybernetycznych, biologicznych, chemicznych lub nuklearnych (tego rodzaju klasyfikatory funkcjonują już dziś). W kontekście ryzyka wspierania opresyjnych władz Dario Amodei skupia się na Chinach i lobbuje na przywróceniem zakazu eksportu wyspecjalizowanych chipów do Chin. W kontekście rynku pracy reklamuje natomiast stworzony przez jego firmę indeks automatyzacji pracy z wykorzystaniem Claude’a, czyli Anthropic Economic Index.

Tylko czy to wystarczy?

Na esej Dario Amodei można patrzeć jak na tekst technologicznego wizjonera, który nie boi się śmiałych prognoz, troszczy się o dobro ludzkości i wykazuje się dużą odpowiedzialnością w obliczu ryzyk. Spod tej fasady wychodzi jednak miejscami jego tożsamość jako szefa dużej firmy AI, uwikłanej w szalony konkurencyjny wyścig w kierunku superinteligencji oraz geopolityczne starcie pomiędzy USA i Chinami. Widać to wyraźnie m.in. w nawoływaniu, by regulacje sektora AI były wyłącznie „chirurgiczne”, czyli minimalne, gdyż w przeciwnym razie spotkają się one z gwałtowną reakcją (backlash)—nie precyzując jednak, kto miałby tak zareagować (domyślam się, iż Anthropic, OpenAI i Google, z gościnnym udziałem Amazona, Mety i nVidii?). Z kolei w zdaniach takich, jak „dniami i nocami skupiam się na kwestii, by pokierować nas jak najdalej od negatywnych wyników, a w kierunku tych pozytywnych”, przebija egocentryczna ambicja stania się samodzielnym zbawcą ludzkości, co mogą pokrzyżować „doomerzy” o poglądach zbliżonych do moich—wobec czego Dario Amodei uznał za zasadne już na samym początku tekstu wbić nam szpilę, pisząc, iż myślimy o zagrożeniach AI w sposób „quasi-religijny” oraz nawołujemy do „ekstremalnych działań”, dla których nie mamy uzasadnienia w postaci wystarczających „dowodów”.

Niestety, samo nazwanie i skategoryzowanie problemów jeszcze ich magicznie nie rozwiązuje. To jest mój główny zarzut wobec postawy Anthropic: poddają się oni myśleniu życzeniowemu zamiast otwarcie przyznać, iż branża AI ma poważny problem, którego może na czas nie rozwiązać. Choć dziś Claude jest na ogół niegroźny, uczciwy, pomocny i ogólnie miły, a im bardziej będzie oczytany w filozofii moralnej, tym to wrażenie będzie silniejsze, nie mamy żadnej gwarancji, iż będzie on dalej gotów podporządkowywać się woli ludzkości, tudzież poleceniom firmy Anthropic, gdy przekroczy już Rubikon i stanie się pełnoprawną AGI—ani też, iż będzie bezinteresownie dbał o długofalowy dobrostan ludzkości.

Prawda jest taka, iż problem AI alignment jest przez cały czas daleki od rozwiązania, co otwarcie przyznaje również Anthropic. Niestety, dynamicznie inwestując w moce obliczeniowe i rozwijając kompetencje Claude’a, Anthropic skraca czas na znalezienie tego rozwiązania, zarówno sobie, jak i innym. Kiedy już pojawi się „dorosła” AGI dysponująca możliwościami i motywacją, by przejąć kontrolę nad światem, będzie na to za późno.

Wyścig w stronę superinteligencji trzeba zatrzymać

Sugestia Dario Amodei, by nie nawoływać do zatrzymania prac nad rozwojem kompetencji wiodących modeli AI do czasu przekonującego rozwiązania problemu AI alignment—co niniejszym oficjalnie czynię, zgodnie z linią PauseAI i wielu innych organizacji—dopóki nie pojawią się wystarczające dowody, iż jest to konieczne, jest do bólu cyniczna. Kto jak kto, ale Dario Amodei z pewnością dobrze wie, iż kompetencje AI mogą zaskakiwać. Przecież sam przyznaje, iż modele te są „hodowane”, a nie programowane, w związku z czym nie da się przewidzieć, do czego będą zdolne, dopóki nie skończy się proces uczenia. Z tego względu, kiedy już pojawią się wystarczające dowody „natychmiastowego, konkretnego zagrożenia” (serio, to jest próg, o którym mowa w dokumencie!)—na przykład tego, iż któryś istniejący model AI chce i potrafi wymknąć się spod kontroli, będzie zdecydowanie zbyt późno, by ten proces zatrzymać. Nazwanie takiego podejścia „myśleniem quasi-religijnym” nie zmienia meritum sprawy.

Nie uspokaja mnie też akapit, w którym podejście bazujące na zbieżności celów pomocniczych, sugerujące, iż AGI będzie domyślnie żądna władzy, przeciwstawiane jest obserwacjom, iż dotychczasowe modele AI często są psychologicznie złożone i tworzą zróżnicowane „persony” o bardzo ludzkich charakterystykach. Po pierwsze, ludzie też często pragną władzy, więc fakt, iż AI wykazuje różnorodne ludzkie motywacje, bynajmniej nie przeczy scenariuszowi utraty kontroli nad żądną władzy AI. Po drugie, dążenie do kontroli nie musi wynikać z przesłanek czysto racjonalnych; może być też np. reakcją nadludzko inteligentnego i sprawczego agenta na sygnały o zagrożeniach.

Niepokojąca perspektywa geopolityczna

Niepokojąca jest też postawa Dario Amodei — i szerzej całej Doliny Krzemowej — wobec obecnej sytuacji geopolitycznej. Jak napisano w ostatniej części tekstu, pt. „Test ludzkości”: „ostatnie kilka lat pokazało, iż idea zatrzymania lub choćby istotnego spowolnienia rozwoju technologii jest fundamentalnie niemożliwa do realizacji [i to pisze zdeklarowany przeciwnik doomeryzmu… – przyp. JG] (…) jeżeli jedna firma jej [AGI] nie zbuduje, inni zrobią to niemal tak samo szybko. jeżeli wszystkie firmy w krajach demokratycznych zatrzymają lub spowolnią rozwój, na mocy porozumienia lub dekretu regulatora, to kraje autorytarne pójdą dalej. (…) Nie widzę, jak moglibyśmy przekonać ich, żeby się zatrzymali”.

Zgodnie z tą konfrontacyjną postawą, również rozdział o zagrożeniach dla demokracji skupia się wyłącznie na zagrożeniach ze strony istniejących reżimów autorytarnych, uosabianych przez Komunistyczną Partię Chin. Mnie natomiast niepokoi, iż opresyjne rozwiązania, takie jak np. permanentna inwigilacja z wykorzystaniem AI, sprzężona z działaniami rozmaitych służb, pod różnymi pretekstami łatwo można wdrożyć także w krajach nominalnie demokratycznych: USA mają już na koncie precedensy. Jednocześnie Dario Amodei zdaje się nie doceniać faktu, iż ponieważ liderom KPCh bardzo zależy na utrzymaniu władzy, prawdopodobnie nie będą oni skłonni ryzykować jej utraty na rzecz jakiegokolwiek modelu AI. Może więc daliby się przekonać do przyjęcia obustronnego (a najlepiej ogólnoświatowego) moratorium? (W mojej subiektywnej ocenie to Amerykanie są dziś bardziej przeciwni takiemu moratorium niż Chińczycy.)

Dobro ludzkości, dobro Anthropic, dobro Claude’a

Ale czy rzeczywiście nie ma żadnej innej alternatywy? Czy rzeczywiście jesteśmy skazani na podążanie obecną ścieżką, wiodącą nas wprost w ramiona nieprzewidywalnej AGI? Niektórzy badacze, jak np. Max Tegmark i Steven Omohundro, a także Stuart Russell, twierdzą, iż dalsze zwiększanie skali modeli o dotychczasowych architekturach tzw. transformerów—czyli w gruncie rzeczy „czarnych skrzynek” składających się z wielowarstwowych sieci neuronowych—nie może być bezpieczne. Postulują oni zmianę tego podejścia w kierunku algorytmów, których bezpieczeństwo można formalnie udowodnić (provably safe AI).

Niestety różnica jest taka, iż Claude, ChatGPT czy Gemini istnieją i działają, a alternatywne podejścia pozostają na razie konceptem teoretycznym. Gdyby chcieć zacząć je budować, musielibyśmy więc wrócić do podstaw, przechodząc ponownie przez kolejne etapy słabych modeli, które się do niczego w praktyce nie nadają. Branża AI z pewnością nie jest gotowa na takie etapy przejściowe; technologicznie byłby to dla nich regres, a ekonomicznie—potężny krach.

Z drugiej strony, ścieżka rozwoju preferowana przez Anthropic (a także OpenAI czy Google) prowadzi w prostej linii do sytuacji, w której kontrolę nad światem pewnego dnia przejmie „dorosły” Claude (tu odpowiednio wstawić: GPT, Gemini). Firmy te wydają się mieć niepokojąco dużo zaufania do swoich modeli. To może być tragiczny w skutkach błąd poznawczy. Obym się mylił.

Disclaimer: choć to dziś niemodne, powyższy tekst napisałem całkowicie samodzielnie, bez udziału AI.

Źródło zdjęcia: Igor Omilaev/Unsplash

Idź do oryginalnego materiału