Niepubliczny model AI Anthropic do cyberbezpieczeństwa trafił w niepowołane ręce

dou.eu 4 godzin temu

Anthropic potwierdza, iż niewielka grupa nieuprawnionych osób uzyskała dostęp do Mythos — nowego modelu AI do zastosowań w cyberbezpieczeństwie, który firma sama określa jako potencjalnie niebezpieczny, jeżeli trafi w nieodpowiednie ręce. Jak informuje Bloomberg, do incydentu miało dojść z udziałem zewnętrznego kontraktora współpracującego z Anthropic. Jeden z członków grupy, cytowany anonimowo, twierdził, iż dostęp do modelu uzyskano dzięki połączeniu uprawnień kontraktora i ogólnodostępnych narzędzi wykorzystywanych do analizy informacji w sieci.

Czym jest Claude Mythos Preview

Claude Mythos Preview to nowy model ogólnego przeznaczenia, zaprojektowany z myślą o zadaniach z zakresu cyberbezpieczeństwa. Według Anthropic potrafi on wykrywać i wykorzystywać podatności we wszystkich głównych systemach operacyjnych i najważniejszych przeglądarkach internetowych, jeżeli użytkownik wyda mu takie polecenie.

Oficjalny dostęp do modelu został ograniczony do wąskiej grupy firm uczestniczących w programie Project Glasswing. Wśród nich znajdują się Nvidia, Google, Amazon Web Services, Apple i Microsoft. Technologią interesują się także instytucje rządowe. Anthropic na razie nie planuje publicznego udostępnienia modelu ze względu na ryzyko jego wykorzystania do działań ofensywnych.

Jak doszło do nieautoryzowanego dostępu

Rzecznik Anthropic przekazał Bloombergowi, iż firma analizuje zgłoszenie dotyczące nieautoryzowanego dostępu do Claude Mythos Preview przez jedno ze środowisk należących do zewnętrznego dostawcy. Jak dotąd spółka nie ma dowodów na to, iż incydent wpłynął na jej własne systemy lub wykraczał poza środowisko tego partnera.

Z ustaleń Bloomberga wynika, iż model został nielegalnie uruchomiony 7 kwietnia — dokładnie tego samego dnia, w którym Anthropic ogłosił rozpoczęcie ograniczonych testów Mythos w wybranych firmach. Grupa, która uzyskała dostęp, nie została publicznie zidentyfikowana. Według źródeł agencji jej członkowie działają na kanale Discord, którego uczestnicy zajmują się wyszukiwaniem informacji o niewydanych jeszcze modelach AI.

Dostęp do Mythos miał zostać uzyskany dzięki wiedzy o formatach innych modeli Anthropic, zdobytej po niedawnym wycieku danych z Mercor. Na tej podstawie grupa miała „dokonać świadomego przypuszczenia” co do lokalizacji modelu w sieci i wykorzystać ten trop do uzyskania dostępu.

Model był używany regularnie po przejęciu dostępu

Bloomberg podaje, iż członkowie grupy korzystali z Mythos regularnie już po uzyskaniu dostępu. Jako potwierdzenie mieli przekazać redakcji zrzuty ekranu oraz prezentację działania modelu na żywo. Według tych informacji starali się jednak nie wykorzystywać go bezpośrednio do celów związanych z cyberbezpieczeństwem, aby nie zwrócić uwagi Anthropic.

Z ustaleń Bloomberga wynika również, iż grupa miała uzyskać dostęp także do innych niewydanych modeli Anthropic. Na razie firma nie podała, jak szeroki był zakres tego naruszenia ani czy planuje zmiany w procedurach bezpieczeństwa po stronie partnerów zewnętrznych.

Idź do oryginalnego materiału