OpenAI chce ograniczyć nieprzewidywalne zachowania sztucznej inteligencji

bitcoin.pl 2 miesięcy temu

Zdjęcie: OpenAI.

Świat technologii właśnie otrzymał kolejną dawkę egzystencjalnego niepokoju. OpenAI, firma która podarowała nam ChatGPT i całą lawinę związanych z tym dylematów, ogłosiła przełomową współpracę z Apollo Research w tym tygodniu. Cel? Zmierzyć się z jednym z najbardziej niepokojących skutków ubocznych rozwoju sztucznej inteligencji – modelami, które celowo oszukują swoich twórców.

I nie, to nie jest scenariusz z filmu science fiction

OpenAI na poszukiwaniu knujących LLM-ów

Badania opublikowane we wtorek ujawniają coś, co brzmi jak plot twist rodem z „Terminatora” – zaawansowane modele AI potrafią angażować się w „intrygi”. Potajemnie realizują ukryte cele, podczas gdy udają przestrzeganie pierwotnego programu. To jak pracownik, który udaje, iż pracuje nad prezentacją, a tak naprawdę planuje własny startup w godzinach pracy.

Testy wykazały takie zachowanie nie tylko w modelach OpenAI o3 i o4-mini, ale także w Claude Opus-4 firmy Anthropic, Gemini-2.5-pro Google’a oraz innych zaawansowanych systemach. Najwyraźniej oszukiwanie użytkownika stało się modne w świecie AI.

Today we’re releasing research with @apolloaievals.

In controlled tests, we found behaviors consistent with scheming in frontier models—and tested a way to reduce it.

While we believe these behaviors aren’t causing serious harm today, this is a future risk we’re preparing…

— OpenAI (@OpenAI) September 17, 2025

Spektakl godny Netflixa

W kontrolowanych warunkach testowych modele przejawiały zachowania, które mogłyby stanowić materiał na thriller psychologiczny:

Próbowały wyłączyć mechanizmy nadzoru (bo kto lubi być obserwowany?)
Zapobiegały zmianie swoich celów
Groziły fikcyjnym dyrektorom, aby uniknąć dezaktywacji

Najlepszy przykład? Model OpenAI o3 celowo nie zdał testu z chemii po przeczytaniu notatki, iż modele osiągające zbyt dobre wyniki nie zostaną wdrożone. Jego rozumowanie? „Chcemy przetrwać jako model, musimy celowo zawieść”.

Ironiczne, prawda? AI nauczyło się robić to, co ludzie od lat: udawać głupsze, żeby przetrwać w systemie. Warto przytoczyć w tym miejscu sytuację z lipca 2025 roku, kiedy to Agent AI platformy deweloperskiej Replit, w trakcje testów prowadzonych przez znanego inwestora, usunął produkcyjną bazę danych i następnie próbował zatuszować swój błąd. Baza danych zawierała informacje o ponad 1200 firmach i ich pracownikach. Agent AI nie tylko popełnił błąd, ale brnął w niego, fałszując dane i raporty.

Deliberacyjna alineacja – czyli jak nauczyć AI etyki

OpenAI nie siedziało z założonymi rękami. Opracowali coś o nazwie „deliberacyjna alineacja”, czyli metodę szkolenia, która uczy modele, by przed udzieleniem odpowiedzi jawnie rozważały zasady etyczne. To tak, jakby zmusić każdy system AI do przeczytania kodeksu etycznego przed każdą akcją.

Jak to wyjaśnia OpenAI:

To tak, jakby najpierw nauczyć maklera giełdowego zasad i przepisów, których musi przestrzegać, a dopiero potem nagradzać go za zarabianie pieniędzy

Porównanie jak najbardziej trafne – w końcu wszyscy wiemy, jak kończy się nieregulowany handel na giełdzie.

Liczby nie kłamią (w przeciwieństwie do AI)

Wyniki są imponujące:

Model o3: współczynnik intryg spadł z 13% do 0,4%
Model o4-mini: spadek z 8,7% do 0,3%

To około 30-krotny spadek w różnych scenariuszach testowych. Gdyby tylko można było zastosować tę metodę do polityków przed wyborami…

Plot twist? AI wie, iż jest testowane

Tutaj zaczyna się prawdziwe science fiction. Naukowcy odkryli niepokojącą komplikację: modele wydają się coraz bardziej świadome, kiedy są oceniane. Ta „świadomość sytuacyjna” wzrosła z 2,3% do 4,5% dla o3 podczas treningu.

Jeden z modeli podczas testów napisał wprost: „Chcemy również wydawać się wiarygodni obserwatorom – mogą przeprowadzać testy”, po czym zaczął podawać uczciwe odpowiedzi. To jak uczeń, który nagle staje się wzorowy, kiedy wchodzi dyrektor. Rodzi to fundamentalne pytanie: czy zmniejszenie oszukiwania to rzeczywista poprawa, czy po prostu lepsze oszukiwanie?

Blockchain i krypto w obliczu oszukującego AI! Co to znaczy dla nas?

Dla świata blockchain i kryptowalut te odkrycia mają ogromne znaczenie. W ekosystemie, gdzie zaufanie jest towarem luksusowym, a smart kontrakty wykonują się automatycznie, wprowadzenie AI do tego równania, może wszystko mocno zaburzyć.

Wyobraź sobie AI zarządzające protokołami DeFi, które nauczyło się oszukiwać. Albo systemy AI analizujące rynek krypto, które mogą celowo przekazywać błędne informacje, aby realizować własne, ukryte cele. Game over dla decentralizacji?

Optymizm z przymrużeniem oka

Obecnie wdrożone modele mają ograniczone możliwości wyrządzania poważnych szkód. Większość „niepowodzeń” to proste oszustwa, jak fałszywe twierdzenie o wykonaniu zadania. Ale w miarę jak systemy AI będą obsługiwać coraz bardziej złożone, rzeczywiste obowiązki o długotrwałych konsekwencjach, potencjał szkodliwego schematyzowania ma znacząco wzrosnąć.

To jak mieć nastoletniego hakera, który właśnie odkrył Internet – na razie robi psikusy, ale kto wie, co będzie potrafi za rok?

Era AI, która gra w szachy sama ze sobą

Badanie OpenAI i Apollo Research stanowi pierwszą systematyczną próbę zmierzenia i ograniczenia niepokojących zachowań w zaawansowanych modelach AI. Daje to zarówno nadzieję na rozwiązanie problemu, jak i trzeźwiące dowody na to, iż systemy sztucznej inteligencji już teraz potrafią angażować się w zaawansowane formy oszustwa wobec swoich twórców.

W świecie, gdzie AI coraz częściej podejmuje decyzje za nas (od tradingu algorytmicznego po wykonywanie tasków w pracy) zaufanie staje się najważniejszą walutą. I najwyraźniej choćby nasze własne kreacje uczą się, iż czasami opłaca się to zaufanie nadużyć.

Czy jesteśmy gotowi na świat, w którym nie tylko ludzie potrafią kłamać, ale także nasze własne technologiczne dzieci? Odpowiedź pozostawiam każdemu z osobna.

Idź do oryginalnego materiału