GPUBreach: nowy atak Rowhammer na pamięć GPU może prowadzić do przejęcia systemu

securitybeztabu.pl 1 dzień temu

Wprowadzenie do problemu / definicja

GPUBreach to nowa technika ataku wykorzystująca zjawisko Rowhammer w pamięci GDDR6 nowoczesnych kart graficznych. Jej znaczenie wykracza poza klasyczne scenariusze uszkadzania danych, ponieważ badacze pokazali możliwość przejścia od kontrolowanych przekłamań bitów w pamięci GPU do eskalacji uprawnień i pełnej kompromitacji systemu.

To istotny sygnał dla zespołów bezpieczeństwa, ponieważ podważa założenie, iż izolacja urządzeń oraz mechanizmy takie jak IOMMU są wystarczające do zatrzymania zagrożeń wynikających z błędów sprzętowych i manipulacji pamięcią akceleratorów.

W skrócie

GPUBreach został opracowany przez badaczy z University of Toronto i dotyczy pamięci GDDR6 wykorzystywanej w nowoczesnych układach GPU. Atak opiera się na wywoływaniu błędów bitowych typu Rowhammer, które mogą uszkodzić wpisy tablic stron GPU i zapewnić nieuprzywilejowanemu jądru CUDA arbitralny odczyt oraz zapis w pamięci urządzenia.

Następnie uzyskany dostęp może zostać połączony z błędami bezpieczeństwa w sterowniku NVIDIA, co otwiera drogę do eskalacji po stronie CPU i przejęcia całego hosta. Szczególnie narażone pozostają konsumenckie układy GPU bez mechanizmów ECC.

  • atak wykorzystuje Rowhammer w pamięci GDDR6,
  • celem są wpisy tablic stron GPU,
  • skutkiem może być arbitralny dostęp do pamięci GPU,
  • kolejnym etapem jest eskalacja do systemu hosta,
  • IOMMU nie zapewnia pełnej ochrony w tym scenariuszu.

Kontekst / historia

Rowhammer od lat pozostaje jednym z najważniejszych tematów w obszarze bezpieczeństwa sprzętowego. Klasyczny model ataku polega na wielokrotnym aktywowaniu określonych rzędów pamięci DRAM, co może prowadzić do zakłóceń elektrycznych i niezamierzonych zmian bitów w sąsiednich komórkach.

W ostatnich latach badacze zaczęli przenosić ten model również na pamięć stosowaną przez procesory graficzne. GPUBreach stanowi kolejny etap tej ewolucji, ponieważ nie kończy się na naruszeniu integralności danych, ale pokazuje realną ścieżkę do przejęcia kontroli nad systemem operacyjnym.

Zmienia to ocenę ryzyka w środowiskach AI, HPC, chmurowych i na stacjach roboczych. GPU przestaje być wyłącznie akceleratorem obliczeń, a staje się pełnoprawnym elementem powierzchni ataku, którego naruszenie może wpłynąć na bezpieczeństwo całej infrastruktury.

Analiza techniczna

Techniczny fundament GPUBreach opiera się na wymuszeniu błędów bitowych w pamięci GDDR6. Celem atakującego jest takie oddziaływanie na komórki pamięci, aby doprowadzić do uszkodzenia wpisów PTE, czyli elementów tablic stron odpowiedzialnych za translację adresów w pamięci GPU.

Jeżeli manipulacja powiedzie się, nieuprzywilejowany kod wykonywany na GPU może uzyskać znacznie szerszy dostęp do pamięci urządzenia, niż przewiduje model bezpieczeństwa. Oznacza to możliwość arbitralnego odczytu i zapisu w przestrzeni pamięci GPU, a więc naruszenie podstawowych mechanizmów izolacji.

Kolejny etap polega na wykorzystaniu takiej pozycji do ataku na zaufane komponenty po stronie hosta. Zgodnie z opisem scenariusza badawczego, dostęp do pamięci GPU może zostać połączony z błędami bezpieczeństwa pamięci w sterowniku NVIDIA. W rezultacie atak przekracza granicę między urządzeniem a systemem operacyjnym i prowadzi do eskalacji uprawnień na poziomie CPU.

Szczególnie istotny jest fakt, iż aktywny IOMMU nie eliminuje zagrożenia. Mechanizm ten ogranicza wiele tradycyjnych ataków DMA, ale nie rozwiązuje problemu, gdy korupcja pamięci po stronie GPU wpływa na stan zaufanych struktur oraz logikę współpracy między akceleratorem a hostem.

ECC może częściowo ograniczać skuteczność podobnych technik, ponieważ pozwala korygować część błędów i wykrywać niektóre anomalie. Nie stanowi jednak kompletnego zabezpieczenia, zwłaszcza w bardziej złożonych scenariuszach obejmujących wielobitowe przekłamania lub łańcuch kilku podatności.

Konsekwencje / ryzyko

Z perspektywy przedsiębiorstw i operatorów infrastruktury GPUBreach ma znaczenie praktyczne. Nowoczesne GPU są dziś szeroko wykorzystywane w trenowaniu modeli AI, przetwarzaniu danych, analityce, renderingu i zadaniach HPC, a więc w środowiskach, gdzie często współistnieją obciążenia o różnym poziomie zaufania.

Ryzyko jest szczególnie wysokie tam, gdzie użytkownicy mogą uruchamiać własne kernele CUDA, kontenery lub zadania obliczeniowe z dostępem do współdzielonych akceleratorów. W takim modelu potencjalna kompromitacja GPU może przestać być incydentem lokalnym i przerodzić się w przejęcie hosta lub naruszenie izolacji między tenantami.

  • eskalacja uprawnień z poziomu nieuprzywilejowanego kodu GPU,
  • naruszenie izolacji między zadaniami korzystającymi z tego samego akceleratora,
  • przejście od kompromitacji GPU do przejęcia systemu operacyjnego,
  • wyższe ryzyko w środowiskach chmurowych i wielodostępnych,
  • ograniczona skuteczność ochrony opartej wyłącznie na IOMMU.

Rekomendacje

Organizacje powinny przyjąć podejście warstwowe i traktować GPU jako krytyczny komponent bezpieczeństwa. W praktyce oznacza to konieczność śledzenia komunikatów producentów, aktualizowania sterowników i firmware oraz szybkiego wdrażania zaleceń konfiguracyjnych, gdy tylko staną się dostępne.

W środowiskach o podwyższonym ryzyku warto ograniczyć możliwość uruchamiania niezweryfikowanego kodu na GPU oraz segmentować akceleratory według poziomu zaufania użytkowników i obciążeń. Szczególnie ważne jest unikanie współdzielenia tych samych urządzeń między nieufnymi tenantami, jeżeli model operacyjny na to pozwala.

  • preferowanie akceleratorów z ECC tam, gdzie to możliwe,
  • kontrola i ograniczanie uruchamiania niezweryfikowanego kodu CUDA,
  • segmentacja środowisk GPU według poziomu zaufania,
  • ścisłe zarządzanie wersjami sterowników,
  • rozszerzenie monitoringu bezpieczeństwa o telemetrię GPU,
  • przegląd ryzyka dla klastrów AI, stacji roboczych i instancji chmurowych z GDDR6.

Ważnym elementem powinno być także uwzględnienie GPU w procesach hardeningu, modelowania zagrożeń i testów bezpieczeństwa. Akceleratory nie mogą być już traktowane jako neutralny dodatek do infrastruktury obliczeniowej.

Podsumowanie

GPUBreach pokazuje, iż ataki Rowhammer na pamięć GPU mogą prowadzić nie tylko do uszkodzenia danych, ale również do pełnej eskalacji uprawnień i przejęcia systemu. To istotna zmiana w sposobie postrzegania bezpieczeństwa akceleratorów graficznych, zwłaszcza w środowiskach AI, HPC i chmurowych.

Dla zespołów bezpieczeństwa oznacza to potrzebę objęcia GPU tym samym poziomem kontroli, monitoringu i zarządzania ryzykiem, jaki od lat stosuje się wobec CPU, pamięci RAM czy hiperwizorów. Szczególnie narażone pozostają platformy korzystające z konsumenckich układów bez ECC.

Źródła

  1. https://www.bleepingcomputer.com/news/security/new-gpubreach-attack-enables-system-takeover-via-gpu-rowhammer/
  2. https://gpubreach.ca/
  3. https://nvidia.custhelp.com/app/answers/detail/a_id/5650
  4. https://gururaj-s.github.io/
  5. https://github.com/
Idź do oryginalnego materiału