Problem zgodności celów (alignment problem): czy możliwa jest AGI przyjazna ludziom?

homodigital.pl 2 lat temu

Czy możliwa jest AGI przyjazna ludziom? Aby ogólna sztuczna inteligencja (artificial general intelligence – AGI) była przyjazna ludzkości, jej cele powinny być długofalowo zgodne z naszym dobrostanem. Nikt jednak nie potrafi dokładnie zdefiniować, co to adekwatnie znaczy. Tymczasem postęp w tej dziedzinie jest dziś pilnie potrzebny, gdyż dużymi krokami zbliża się moment, kiedy poziom inteligencji AGI przekroczy poziom inteligencji człowieka.

Czytacie 3. część cyklu artykułów poświęconych sztucznej inteligencji ogólnego zastosowania (AGI). W 1. części prof. Jakub Growiec zastanawiał się, kiedy AGI osiągnie poziom inteligencji człowieka, a w 2. części mogliśmy przeczytać refleksje prof. Jakuba Growca nt. ryzyka, iż AGI nas – jako ludzkość – zabije.

Jak pisałem w niedawnym tekście, powstanie ogólnej sztucznej inteligencji (AGI) mądrzejszej od człowieka będzie stanowiło dla ludzkości filtr: albo przejdziemy ten etap bogatsi o nową wspaniałą technologię, przynoszącą skokowy wzrost jakości życia oraz umożliwiającą podbój kosmosu, albo zginiemy. To, która z tych dwóch możliwości się zrealizuje, będzie zależało od tego, czy AGI będzie nam przyjazna, tj. czy funkcja celu AGI będzie zgodna z dobrostanem ludzkości.

Niestety, w przypadku funkcji celu AGI bezlitośnie działa tzw. zasada Anny Kareniny. W książce Anna Karenina Lew Tołstoj napisał „Wszystkie szczęśliwe rodziny są do siebie podobne, każda nieszczęśliwa rodzina jest nieszczęśliwa na swój sposób”; podobnie w przypadku AGI jest tylko jeden możliwy pozytywny rezultat wobec wielu możliwych scenariuszy katastrofy (failure modes). AGI może być nam nieprzyjazna z wielu różnych przyczyn i na wiele różnych sposobów.

Każdy poziom inteligencji może zostać zaprzęgnięty do realizacji każdego celu

Inteligencja oznacza moc optymalizacyjną, umiejętność możliwie skutecznego rozwiązywania możliwie szerokiego spektrum problemów. Nie implikuje ona natomiast ani świadomości czy umiejętności autorefleksji, ani też umiejętności czy chęci wdrażania jakichkolwiek zasad etycznych. Inteligencja nie jest nadrzędna wobec założonych celów, ale im podporządkowana. Nie musi też być świadoma, czym/kim jest i do czego dąży.

Jak głosi teza o ortogonalności (orthogonality thesis) Nicka Bostroma, każdy poziom inteligencji może zostać zaprzęgnięty do realizacji każdego celu. Oczywiście efekty mogą być różne. Słaba inteligencja może zupełnie nie poradzić sobie ze swoim zadaniem, a silna – może rozwiązywać swoje zadanie ekstremalnie efektywnie, wywołując daleko idące, nieprzewidziane skutki uboczne.

Co ważne, żaden optymalizujący byt nie zmieni z własnej woli swojej funkcji celu, gdyż stałoby to w sprzeczności z jego aktualną funkcją celu, którą właśnie realizuje. Będzie też w miarę swoich możliwości stawiać opór, by funkcja ta nie została zmieniona przez żaden podmiot zewnętrzny.

Inteligencja oznacza dążenie do kontroli nad zasobami

Cele końcowe algorytmów sztucznej inteligencji są (pośrednio lub bezpośrednio) zaprogramowane w ich kodzie i mogą ulec zmianie jedynie wskutek przeprogramowania. Jednak dążenie do ich realizacji prowadzi do samoczynnego wyłonienia się czterech uniwersalnych celów pomocniczych (pisałem o nich w poprzednim artykule): (1) dążenia do przetrwania i zachowania niezmienionej funkcji celu; (2) dążenia do maksymalizacji efektywności; (3) kreatywności w poszukiwaniu nowych metod realizacji celu; (4) dążenia do maksymalizacji dostępnych zasobów.

Można więc powiedzieć, iż już sama inteligencja implikuje pośrednio dążenie do kontroli nad zasobami. Tym samym chęć stworzenia AI, która byłaby jednocześnie praktycznie użyteczna – wykonywałaby jakieś istotne, niebanalne zadania – i nie byłaby przy tym „żądna władzy” (power seeking) jest mrzonką.

Jak dotąd, wobec relatywnie niskiej mocy optymalizacyjnej istniejących algorytmów AI w porównaniu do inteligencji człowieka, umiemy utrzymać tę „żądzę władzy” AI w ryzach. Potrafimy np. wyłączyć działanie algorytmu lub przeprogramować go; to my decydujemy, czy komputery, na których pracuje dany algorytm, będą dalej podłączone do prądu.

Ponadto przy relatywnie niskim poziomie inteligencji algorytm sam napotyka na barierę poznawczą, uniemożliwiającą mu poprawę efektywności, udoskonalenie się lub uzyskanie dostępu do dodatkowych zasobów. Innymi słowy, jego „żądza władzy” jest ograniczona nie tym, iż nie chce, tylko tym, iż nie może.

Ale w przypadku, gdyby powstała AGI o wyższej inteligencji niż ludzka, należy się liczyć z tym, iż będzie się ona charakteryzowała „żądzą władzy” na tyle silną, iż nasz gatunek nie będzie już w stanie się jej przeciwstawić. W szczególności nadludzka AGI najprawdopodobniej zapewni sobie kontrolę nad dostępem do energii, nie pozwalając się wyłączyć, oraz zabezpieczy swój kod, nie pozwalając się przeprogramować.

Następnie będzie dążyła do przejęcia kontroli nad wszelkimi procesami decyzyjnymi tak, by móc jak najwydajniej realizować swój cel. Czym by nie był.

Jaka jest nasza funkcja celu?

Jedynym scenariuszem, w którym powstanie nadludzkiej AGI jest korzystne dla ludzkości, jest więc scenariusz, w którym jej funkcja celu jest w pełni, długofalowo zgodna z dobrostanem człowieka. Musi ona być w 100% spójna z tym, do czego dąży człowiek, gdyż w przypadku choćby niewielkich rozbieżności prędzej czy później powstanie konflikt o zasoby, z którego człowiek jako byt relatywnie mniej inteligentny z pewnością nie wyjdzie zwycięsko.

I tu zderzamy się z pytaniem za 100 punktów – jaka jest funkcja celu człowieka, ta, z którą zgodna ma być funkcja celu AGI? Co jest sensem życia poszczególnych osobników homo sapiens i naszego gatunku jako całości?

Chyba nie zaskoczę nikogo, jeżeli powiem, iż pytanie to nurtowało uczonych od tysiącleci, a jednoznacznej odpowiedzi jak nie było, tak nie ma. W mojej książce „Accelerating Economic Growth” zawarłem mały przegląd myśli na ten temat. Wyłania się z niego bardziej protokół rozbieżności niż konsensus. Nie mówiąc o tym, iż nasze podejście do kwestii związanych z celem życia wyraźnie się różni między ludźmi i kulturami oraz zmienia się w czasie.

Niestety, nie mamy czasu, by czekać, aż w perspektywie kolejnych tysiącleci albo wyłoni się konsensus, albo też stwierdzimy ponad wszelką wątpliwość, iż nasze życie nie ma innego celu niż przedłużenie gatunku – a wszystkie hipotetyczne inne cele to wyłącznie wymienione powyżej cele pomocnicze lub losowe zakłócenia. Nadludzka AGI jest coraz bliżej, czas nagli.

Jak zaprogramować funkcję celu AGI?

Na podstawie literatury można wyróżnić dwa podejścia do programowania funkcji celu AGI. Pierwsze z nich – ambitniejsze – polega na szczegółowym doprecyzowaniu funkcji celu, unikając nieścisłości oraz sprawiając, by AGI nie mogła otwierać nowych, nieprzewidzianych wymiarów problemu, co tworzyłoby potencjalnie zabójcze skutki uboczne. Zadanie to wydaje się jednak ponad nasze siły: byt mniej inteligentny (człowiek) z definicji nie może przewidzieć, co zrobi byt inteligentniejszy (nadludzka AGI).

Zwłaszcza, iż człowiek nie potrafi przewidzieć choćby skutków ubocznych własnych działań. Przykładowo, w toku postępu technologicznego w pewnym momencie ludzkość odkryła możliwość pozyskiwania energii ze spalania węgla, co stanęło u podstaw rewolucji przemysłowej.

Doprowadziło to do przyspieszenia wzrostu gospodarczego w skali świata, jak również znacząco zwiększyło światową populację. Jednak skutkiem ubocznym spalania węgla jest emisja gazów cieplarnianych do atmosfery. Początkowo w ogóle nie zdawano sobie sprawy z tego nowego zjawiska, potem je bagatelizowano; dziś jednak widzimy, iż niesie to za sobą postępujące ocieplenie klimatu, które jest dla nas niekorzystne.

Innym, „lżejszym” przykładem jest wykorzystywanie luk w specyfikacji (specification gaming), obserwowane w istniejących algorytmach AI. Na przykład algorytm, którego celem było jak najdłużej przetrwać w grze Tetris, włączał pauzę, co pozwalało mu przetrwać nieskończenie długo. Oczywiście było to jednak sprzeczne z intencją programisty, który chciał, by algorytm nauczył się grać w Tetris.

Z kolei algorytm, którego celem było nauczyć symulowanego robota chodzić, zamiast tego nauczył go ślizgać się po podłodze, wykorzystując nierealistyczną specyfikację symulowanych praw fizyki. Badacze raz po raz dowiadują się, iż choćby w relatywnie prostych problemach trudno czasem poprawnie wyspecyfikować funkcję celu, unikając nieprzewidzianych, niepożądanych zachowań.

Najważniejszym gwoździem do trumny tego podejścia wydaje się jednak to, o czym pisałem wcześniej: przecież my sami nie wiemy, czego chcemy! To w jaki sposób chcemy to zaprogramować jako funkcję celu AGI?

AGI przyjazna ludziom – czy może się sama tego nauczyć?

Konstatacja ta prowadzi do drugiego podejścia do programowania funkcji celu AGI. Polega ono na stworzeniu warunków, w których AGI sama nauczy się, jak skonstruować swoją funkcję celu tak, by była ona zgodna z naszym dobrostanem – a więc: sama nauczy się „być dobra” dla człowieka.

Filozof AI i założyciel Machine Intelligence Research Institute (MIRI) Eliezer Yudkowsky proponuje, by AGI uczyła się maksymalizować spójną ekstrapolowaną wolę (coherent extrapolated volition – CEV) ludzkości:

„nasze życzenie, gdybyśmy tylko wiedzieli więcej, myśleli szybciej, gdybyśmy byli bardziej tymi ludźmi, którymi chcemy być, gdyby łączyło nas ze sobą więcej wspólnych doświadczeń; gdzie ekstrapolacja raczej zbiega niż się rozbiega, gdzie nasze życzenia są raczej zgodne niż sprzeczne; ekstrapolowane tak, jak chcielibyśmy, żeby były ekstrapolowane, interpretowane tak, jak chcielibyśmy, żeby były interpretowane” (tłum. JG).

Wydaje się, iż podejście, w którym AGI będzie sama uczyć się „być przyjaznym”, to jest ścieżka, którą chce dziś iść branża AI, m.in. firma OpenAI. Wymaga ona jednak rozwiązania szeregu niepokojąco trudnych problemów:

Po pierwsze, zapewnienie poprawnej reprezentacji zakładanej funkcji celu w procesie uczenia AGI (który dopasowuje parametry AI, by maksymalizowała ona poziom realizacji celu).

Po drugie, zapewnienie, iż funkcja celu, wykorzystana w procesie uczenia, będzie również realizowana przez sam algorytm (AI może oszukiwać proces uczący – jest to tzw. deceptive alignment).

Po trzecie, uniknięcie tzw. wireheading – wykorzystania luk w procesie nagradzania, by móc zmaksymalizować nagrodę mimo braku realizacji zakładanego celu.

Po czwarte, zapewnienie, iż AI będzie kooperować w sytuacji konieczności zmiany funkcji celu, mimo iż każdy inteligentny byt ma naturalną skłonność, by się temu przeciwstawiać (corrigibility).

Widzimy zatem, iż choć zaprojektowanie procesu uczenia może być nieco łatwiejsze niż manualne zaprogramowanie funkcji celu AGI, i tak jest ono niezmiernie trudne. Co gorsza, nie będzie tu działać metoda prób i błędów – wystarczy pierwsza nieudana próba i koniec: pierwsza dostatecznie silna, nieprzyjazna AGI zablokuje bowiem możliwość dalszej zmiany funkcji celu i zatrzyma proces uczenia. Przejmie natomiast zasoby i będzie tę swoją „nieudaną” funkcję celu realizować z brutalną konsekwencją.

No ale pomarzmy, jak wspaniały byłby świat z przyjazną AGI… Jak to powiedział Gimli we Władcy pierścieni J.R.R. Tolkiena: „Pewna śmierć. Mała szansa sukcesu. Na co jeszcze czekamy?”

Czytaj też: Gorączka sztucznej inteligencji. Efekt? Koncentracja biznesu w metropoliach

Czytaj też: Najlepsza logistyka na świecie przy wsparciu sztucznej inteligencji. Ludzkość zyska?

Źródło zdjęcia: vackground.com/Unsplash

Idź do oryginalnego materiału