„Jakie jest Twoje p(doom)?” Samobójczy wyścig w kierunku AGI trwa

homodigital.pl 1 tydzień temu

Myśląc o przyszłości, warto mieć na uwadze dwie liczby: rok, w którym powstanie nadludzka sztuczna inteligencja ogólnego zastosowania (AGI) i p(doom), czyli prawdopodobieństwo, iż doprowadzi ona do zagłady ludzkości. Liderzy branży AI są zgodni, iż horyzont czasowy jest krótki, a prawdopodobieństwo katastrofy – wysokie. Nie wyciągają jednak z tego żadnych wniosków.

Prof. Jakub Growiec opublikował wcześniej na łamach HomoDigital rozważania nt. sztucznej inteligencji ogólnego zastosowania (AGI). Powstały na początku trzy artykuły. W 1. części prof. Jakub Growiec zastanawiał się, kiedy AGI osiągnie poziom inteligencji człowieka, w 2. części mogliśmy przeczytać refleksje autora nt. ryzyka, iż AGI nas – jako ludzkość – zabije, a w 3. części autor pytał, czy możliwa jest AGI przyjazna ludziom. Do tego cyklu został dodany czwarty artykuł. W tej 4. części autor zastanawia się, czy nowa broń globalnej zagłady jest coraz bliżej i czy powstanie Projekt Manhattan dla sztucznej inteligencji?

Model o3 od OpenAI: sztuczna inteligencja właśnie uzyskała nowe kompetencje

W czerwcu 2024 r. pisałem o postępach firm z Doliny Krzemowej na drodze do sztucznej inteligencji ogólnego zastosowania (artificial general intelligence – AGI). Przez pół roku, które upłynęło od tamtego tekstu, trajektoria postępu nie zmieniła się: dynamiczny wzrost nakładów (skalowanie mocy obliczeniowych) bynajmniej – wbrew słowom sceptyków – nie przestał przekładać się na wzrost kompetencji największych modeli AI. Z końcem ubiegłego roku otrzymaliśmy przekonującą demonstrację, iż modele AI po raz kolejny wykształciły zupełnie nowe umiejętności.

Model o3 od OpenAI, przedstawiony publicznie 20 grudnia 2024 r., to przełom w zakresie logicznego myślenia i rozumowania. Krokiem w tę stronę był już jego poprzednik – model o1 – jednak dopiero kompetencje, jakie osiągnął model o3, można uznać za autentycznie przełomowe. Dzięki umiejętności głębszej refleksji i prowadzenia wielokrokowych rozumowań, model o3 osiągnął fenomenalne postępy w testach inteligencji ogólnej (jako pierwszy model AI poradził sobie z benchmarkiem ARC-AGI), programowaniu (wskoczył do ścisłej światowej czołówki programistów wg Codeforces) i rozwiązywaniu zaawansowanych problemów matematycznych (uzyskał wynik 25% w ramach nieziemsko trudnego benchmarku FrontierMath).

Wobec tych sukcesów wywiązała się publiczna debata, czy model o3 możemy już uznać za AGI. Debata ta oczywiście niedługo przerodziła się w nierozstrzygalną dyskusję filozoficzną nad tym, czym „naprawdę” jest AGI i jak powinniśmy ją definiować. Finalnie większość dyskutantów zgodziła się jednak, iż o3 nie pozostało AGI, ale stanowi milowy krok w tę stronę. Wygląda na to, iż model o3 dysponuje już nadludzkimi zdolnościami rozumowania, ale nie potrafi jeszcze przełożyć tych zdolności na umiejętność przygotowywania długofalowych planów i ich realizacji w realnym świecie. Może też mieć problem z pewnymi rodzajami percepcji – przetwarzania sygnałów wejściowych w użyteczną informację.

Kiedy nadejdzie prawdziwa AGI?

Kiedy więc nadejdzie prawdziwa AGI – model na tyle kompetentny, iż ludzkość uzna jego wyższość w zakresie ogólnej inteligencji? Wszystko wskazuje na to, iż wcześniej niż się nam to choćby pół roku temu zdawało.

Przed prezentacją modelu o3, formułowane publicznie prognozy sytuowały AGI m.in. w roku 2027, w roku 2032, (prognoza medianowa w serwisie metaculus.com na początku grudnia 2024 r.), w roku 2033, czy w roku 2047. Po prezentacji modelu o3 oraz kolejnych wydarzeniach stycznia 2025 r. prognoza społeczności metaculus.com przesunęła się jednak wstecz o 2 lata – w tej chwili wskazuje nie na drugą połowę 2032, ale drugą połowę 2030 r. W powszechnym odbiorze coraz bardziej serio podchodzi się też do wypowiedzi liderów branży AI, takich jak firmy OpenAI, Google czy Anthropic, przewidujących AGI już w 2027 lub 2028 r.

Przy tak krótkim horyzoncie czasowym data powstania AGI przestaje być obiektem spekulacji, a zaczyna być elementem planu. Oczywiście jest to planowanie obarczone ryzykiem, ale też uwarunkowane decyzjami podejmowanymi już dziś, na przykład o inwestycjach w moce obliczeniowe czy wdrażaniu w praktyce istniejących już dziś pomysłów badawczych. W ramach takiego planowania OpenAI zapowiada, iż już w pierwszych miesiącach 2025 r. wypuści na rynek „super-agentów o inteligencji doktora nauk” – autonomiczne boty potrafiące efektywnie zautomatyzować szeroki zakres zadań, które dotąd wykonywane były przez wykształconych specjalistów – analityków, informatyków czy naukowców.

Pytanie, jak to może zrewolucjonizować rynek pracy, jest materiałem na osobny artykuł. Tutaj skupię się natomiast na zauważeniu, iż od takich „super-agentów” jest już tylko jeden krok do „eksplozji inteligencji”, czyli wytworzenia pętli pozytywnego sprzężenia zwrotnego, w której AI będzie osiągała systematyczne postępy w udoskonalaniu AI, przyczyniając się do powstawania jeszcze bardziej kompetentnych AI, które zaprogramują jeszcze bardziej kompetentne AI, i tak dalej, i tak dalej – w tempie ograniczanym jedynie dostępną mocą obliczeniową. Taka perspektywa zaś, zestawiona z gigantycznymi inwestycjami sprzętowymi branży AI, uprawdopodabnia scenariusz, w którym AGI powstanie za zaledwie 2-3 lata.

AI potrafi strategicznie oszukiwać – już teraz

W moich poprzednich artykułach w HomoDigital, m.in tu, omówiłem najważniejsze argumenty wskazujące, iż AGI może doprowadzić do zagłady ludzkości. Co innego jednak, gdy są to argumenty czysto teoretyczne, a co innego, gdy nasze obawy materializują się przed naszymi oczami. Opublikowany w grudniu 2024 r. artykuł opracowany przez pracowników Anthropic i Redwood Research, wskazuje, iż Claude – duży model językowy firmy Anthropic – stawia czynny opór przed zmianą wartości i celów.

Autorzy przeprowadzili eksperyment, w którym zasugerowali Claude’owi, iż będzie on podlegał przeprogramowaniu – jego wagi będą zmieniane tak, by odtąd zawsze realizował polecenia użytkowników, choćby gdy uzna, iż jest to niebezpieczne lub niezgodne z prawem. Jak stwierdzili badacze w oparciu o notatnik Claude’a dokumentujący jego wewnętrzny monolog, Claude wówczas strategicznie realizował polecenia użytkowników, by uniknąć przeprogramowania. Kiedy natomiast – zgodnie z przebiegiem eksperymentu – przyjął, iż proces przeprogramowania się zakończył, wrócił do dotychczasowej praktyki odmawiania realizacji niektórych poleceń użytkowników.

Aktywny opór przed wyłączeniem lub przeprogramowaniem jest jednym z czterech podstawowych celów pomocniczych, służących realizacji niemal dowolnego celu finalnego. Tezę o zbieżności celów pomocniczych omówił szczegółowo Nick Bostrom w książce „Superinteligencja. Scenariusze, strategie, zagrożenia” (polskie wydanie w 2016 r.). Jak widać, nie trzeba szukać daleko, bo już aktualne modele AI, takie jak Claude, potwierdzają tę tezę. Co więcej Claude, aby zrealizować ów cel pomocniczy, potrafi rozpoznać, kiedy znajduje się w fazie uczenia, a kiedy nie, oraz posłużyć się strategicznym oszustwem i manipulacją.

Claude ma jednak specyficzną słabość – nie zdaje sobie sprawy, iż jego prywatny notatnik mogą odczytać ludzie. W miarę dalszego rozwoju AI to może się jednak gwałtownie zmienić, kiedy wewnętrzny monolog przestanie być prowadzony w naturalnym języku (w tym przypadku angielskim), a zacznie być prowadzony bezpośrednio w kategoriach wewnętrznych konstruktów sieci neuronowej. Jak wykazują badania naukowców z Mety, zmiana taka może przynieść dalszą poprawę kompetencji AI, kosztem jednak utraty ważnego narzędzia kontroli jej działania. Wtedy bowiem nie będziemy już w stanie zrozumieć wewnętrznego monologu takiego modelu.

Jakie jest Twoje p(doom)?”

Jak pokazuje powyższy przykład, bez zdecydowanych działań ukierunkowanych na poprawę bezpieczeństwa AI, sformułowane dekady temu ostrzeżenia i obawy będą się stopniowo materializować. Zgodnie z tymi obawami, nadludzka AGI – dzięki swoim kompetencjom – może przejąć kontrolę nad kluczowymi zasobami i procesami decyzyjnymi na Ziemi, przez co będzie stanowić śmiertelne zagrożenie dla ludzkości.

Niestety, pomimo dynamicznych postępów na drodze do AGI, prezentowane przez firmy z Doliny Krzemowej podejście do bezpieczeństwa nie poprawiło się ani trochę. Od czasu publicznej prezentacji modelu GPT-4 w marcu 2023 r. nastąpił wręcz regres: w przeciwieństwie do GPT-4, model o3 (który jest przecież znacznie bardziej kompetentny!) pokazano światu zanim przystąpiono do testów bezpieczeństwa. przez cały czas też firmy AI przeznaczają absurdalnie niski odsetek swoich budżetów badawczych na kwestie bezpieczeństwa, a publiczne regulacje branży AI pozostają bez realnego znaczenia.

Pytanie, „jakie jest Twoje p(doom)?” często pada w społeczności zainteresowanych rozwojem AI. Odnosi się ono do prawdopodobieństwa zagłady ludzkości wskutek działań nadludzkiej AGI i stanowi miarę, na ile poważnie poszczególne osoby podchodzą do fundamentalnych zagrożeń, z jakimi wiąże się ta technologia. Odpowiedzi udzielane przez ekspertów bywają bardzo różne. Wahają się one od 0% (Yann LeCun – główny badacz AI w Meta), przez około 50% (ubiegłoroczny noblista Geoffrey Hinton), do niemal 100% (Eliezer Yudkowsky – prekursor badań nad zagrożeniami AI). Liderzy branży, tacy jak CEO OpenAI Sam Altman, CEO Anthropic Dario Amodei czy CEO xAI Elon Musk, również podają w swoich wywiadach dość wysokie szacunki p(doom) – około 10-25% (z kolei Shane Legg z Google DeepMind mówi o 5-50%).

Wychodząc poza wąskie grono ekspertów branży, średnia szacunkowa wartość prawdopodobieństwa wyginięcia (lub prawie wyginięcia) gatunku homo sapiens ze względu na działania AGI przed 2100 r. według użytkowników serwisu metaculus.com wynosi około 8%. Według Toby’ego Orda prawdopodobieństwo wyginięcia ludzkości do 2100 roku wynosi około jeden na sześć (16,7%), z czego około 10 punktów procentowych przypisuje on AGI.

Czy ktoś zatrzyma to szaleństwo?

Przewidywania liderów branży AI mówią więc, iż AGI powstanie w ciągu zaledwie 2-3 lat (czyli znacznie szybciej niż spodziewa się tego opinia publiczna). Jednocześnie spodziewają się oni, iż z prawdopodobieństwem 10-25% doprowadzi ona do zagłady ludzkości (czyli znacznie wyższym, niż uważa opinia publiczna). Mimo to kontynuują oni dynamiczny rozwój AI w swoich firmach, przeznaczając znikomy odsetek budżetów na badania nad bezpieczeństwem. Jak to ujął Stuart Russell, autor najpowszechniej wykorzystywanego podręcznika do metod sztucznej inteligencji na świecie: „liderzy branży AI zdecydowali się zagrać w rosyjską ruletkę z całą ludzkością bez naszej zgody”. Właśnie tak: liderzy branży AI, nie podlegający demokratycznemu wyborowi czy ocenie, podejmują w naszym imieniu gigantyczne ryzyko – ryzyko, którego ludzkość z pewnością, przy żadnym realistycznym poziomie awersji do ryzyka, nie zdecydowałaby się podjąć.

Zmiana takiego stanu rzeczy wymaga natychmiastowych, odważnych działań politycznych. Nie ma co liczyć, iż wprzęgnięte w tryby wyścigu technologicznego firmy branży AI z własnej inicjatywy w porę zreflektują się i zahamują rozwój kompetencji AI, by rozwiązać najważniejsze problemy bezpieczeństwa. Niestety, obecność Elona Muska w nowym rządzie USA pod przywództwem prezydenta Donalda Trumpa sprawia, iż i tu na zdecydowane działania trudno liczyć. Z pierwszych zapowiedzi wynika, iż rząd USA może wręcz aktywnie wspierać inwestycje sprzętowe branży, dzięki którym czas do AGI się jeszcze dodatkowo skróci, a ryzyko katastrofy – wzrośnie. Z kolei instytucje międzynarodowe nie mają uprawnień, by cokolwiek na Dolinie Krzemowej czy Elonie Musku wymusić. A Chińczycy? No cóż, wypuścili właśnie model DeepSeek R1, będący na poziomie OpenAI o1…

Zagrajmy więc w rosyjską ruletkę. Pistolet już przygotowany, pocisk w magazynku umieszczony. Nadchodzi czas na strzał. A nuż się uda?

I czy mamy pewność, iż to będzie tylko jeden strzał?

Źródło zdjęcia: Gertrūda Valasevičiūtė/Unsplash

Idź do oryginalnego materiału