CrowdStrike obwinia oprogramowanie testowe za wyłączenie 8,5 miliona komputerów z systemem Windows

cyberfeed.pl 1 miesiąc temu


Firma CrowdStrike opublikowała przegląd poincydentalny (PIR) opublikowanej przez siebie aktualizacji zawierającej błędy, która w zeszłym tygodniu spowodowała awarię 8,5 miliona komputerów z systemem Windows. Szczegółowy post obwinia błąd w oprogramowaniu testowym za nieprawidłowe sprawdzenie aktualizacji treści, która została przesłana do milionów maszyn w piątek. CrowdStrike obiecuje dokładniejsze testowanie aktualizacji treści, ulepszenie obsługi błędów i wdrożenie stopniowego wdrażania, aby uniknąć powtórzenia się tej katastrofy.

Oprogramowanie Falcon firmy CrowdStrike jest używane przez firmy na całym świecie, aby pomóc w zarządzaniu złośliwym oprogramowaniem i naruszeniami bezpieczeństwa na milionach komputerów z systemem Windows. W piątek CrowdStrike wydało aktualizację konfiguracji treści dla swojego oprogramowania, która miała „zbierać dane telemetryczne na temat możliwych nowych technik zagrożeń”. Te aktualizacje są dostarczane regularnie, ale ta konkretna aktualizacja konfiguracji spowodowała awarię systemu Windows.

CrowdStrike zwykle wydaje aktualizacje konfiguracji na dwa różne sposoby. Jest coś, co nazywa się Sensor Content, co bezpośrednio aktualizuje własny czujnik Falcon firmy CrowdStrike, który działa na poziomie jądra w systemie Windows, a oddzielnie jest Rapid Response Content, który aktualizuje sposób, w jaki czujnik zachowuje się, aby wykryć złośliwe oprogramowanie. Niewielki plik Rapid Response Content o rozmiarze 40 KB spowodował problem w piątek.

Aktualizacje samego czujnika nie pochodzą z chmury i zwykle obejmują modele AI i uczenia maszynowego, które pozwolą CrowdStrike na ulepszenie swoich możliwości wykrywania w dłuższej perspektywie. Niektóre z tych możliwości obejmują coś, co nazywa się Template Types, czyli kod, który umożliwia nowe wykrywanie i jest konfigurowany przez typ oddzielnej Rapid Response Content, która została dostarczona w piątek.

Po stronie chmury CrowdStrike zarządza własnym systemem, który wykonuje kontrole walidacyjne treści przed jej wydaniem, aby zapobiec incydentom takim jak piątek. CrowdStrike wydało w zeszłym tygodniu dwie aktualizacje Rapid Response Content, lub jak to również nazywa Template Instances. „Z powodu błędu w Content Validator, jedna z dwóch Template Instances przeszła walidację, mimo iż zawierała problematyczne dane dotyczące treści” — mówi CrowdStrike.

Podczas gdy CrowdStrike wykonuje zarówno automatyczne, jak i manualne testy Sensor Content i Template Types, nie wydaje się, aby przeprowadzał tak dokładne testy Rapid Response Content, który został dostarczony w piątek. Wdrożenie nowych Template Types w marcu zapewniło „zaufanie do kontroli przeprowadzanych w Content Validator”, więc CrowdStrike najwyraźniej założył, iż wdrożenie Rapid Response Content nie spowoduje problemów.

To założenie doprowadziło do tego, iż czujnik załadował problematyczną zawartość Rapid Response do swojego interpretera zawartości i wywołał wyjątek poza zakresem pamięci. „Tego nieoczekiwanego wyjątku nie można było obsłużyć w sposób łagodny, co spowodowało awarię systemu operacyjnego Windows (BSOD)” — wyjaśnia CrowdStrike.

Aby zapobiec ponownemu wystąpieniu takiej sytuacji, CrowdStrike obiecuje ulepszyć swoje testy Rapid Response Content, wykorzystując lokalne testy deweloperskie, testy aktualizacji treści i wycofywania, a także testy obciążeniowe, rozmycie i wstrzykiwanie błędów. CrowdStrike przeprowadzi również testy stabilności i interfejsu treści w Rapid Response Content.

CrowdStrike aktualizuje również swój oparty na chmurze Content Validator, aby lepiej sprawdzać wydania Rapid Response Content. „Trwa nowe sprawdzanie, aby zapobiec wdrażaniu tego typu problematycznych treści w przyszłości” — mówi CrowdStrike.

Po stronie sterownika CrowdStrike „ulepszy istniejącą obsługę błędów w Content Interpreter”, który jest częścią czujnika Falcon. CrowdStrike wdroży również stopniowe wdrażanie Rapid Response Content, zapewniając stopniowe wdrażanie aktualizacji w większych częściach bazy instalacyjnej zamiast natychmiastowego wypychania do wszystkich systemów. Zarówno ulepszenia sterownika, jak i stopniowe wdrażanie zostały polecane przez ekspertów ds. bezpieczeństwa w ostatnich dniach.



Source link

Idź do oryginalnego materiału