Zmieniamy progi certyfikacji w badaniu Advanced-In-The-Wild Malware Test

avlab.pl 3 miesięcy temu

Zdjęcie: Zmieniamy progi certyfikacji w badaniu Advanced-In-The-Wild Malware Test

W dotychczasowej metodologii badania Advanced-In-The-Wild Malware Test certyfikat poziomu EXCELLENT był przyznawany produktom, które osiągnęły co najmniej 99% skuteczności detekcji i blokowania zagrożeń w danej edycji testu. Praktyka i analiza danych z wielu iteracji pokazują jednak, iż taki próg nie odzwierciedla w pełni realnych różnic między najskuteczniejszymi rozwiązaniami a tymi, które jedynie pozornie znajdują się na tym samym poziomie. Różnica pomiędzy 99% a wartościami bliskimi 100% może być istotna tylko przy bardzo dużych próbach, ponieważ dopiero wtedy margines błędu statystycznego staje się na tyle mały, by takie różnice były wymierne.

W przypadku unikalnych zagrożeń in-the-wild, które wykorzystujemy w badaniu, realna liczba próbek możliwych do przetestowania w skali miesiąca jest ograniczona zarówno aktywnością cyberprzestępców, jak i fizycznym czasem potrzebnym na przeprowadzenie analizy każdej próbki. Przy założeniu, iż testy są uruchamiane nieprzerwanie – 24 godziny na dobę przez 30 dni – oraz iż jedna próbka wymaga maksymalnie około 9 minut analizy w środowisku Windows, do czego należy doliczyć dodatkowe opóźnienia związane z automatyzacją zadań, restartami systemów, parsowaniem logów i generowaniem zrzutów ekranu, realny czas przetworzenia jednej próbki wynosi około 10-11 minut. Oznacza to, iż przepustowość testu jest z natury ograniczona i nie jest możliwe osiągnięcie dużych liczb próbek.

Podnosimy próg z 99% na 99.6% dla certyfikatu EXCELLENT

Aby lepiej oddzielić produkty o najwyższej skuteczności i uniknąć nadinterpretowania minimalnych różnic wynikających z przypadku, podnosimy próg EXCELLENT do 99.6%.

Nowa wartość lepiej odpowiada wartości statystycznej i minimalizuje ryzyko błędnej klasyfikacji produktów w sytuacji, kiedy rozbieżności na poziomie 0.1-0.3 punktu procentowego mogą wynikać z naturalnej zmienności próbek testowych. Dzięki temu certyfikat EXCELLENT będzie bardziej precyzyjny, a klasyfikacja uczciwsza, zarówno dla producentów, jak i odbiorców wyników.

WAŻNE! Propozycja nowego progu:

Podniesienie progu EXCELLENT do 99.6% jest uzasadnione statystycznie i praktycznie. Progu 100% nie powinno się traktować jako kryterium absolutne, ponieważ byłby on wiarygodny jedynie wtedy, gdy tester miałby możliwość:

przetestować każdy istniejący i historyczny wariant złośliwego oprogramowania,
zagwarantować brak jakichkolwiek błędów po stronie laboratorium.

W rzeczywistości 100% skuteczności w ograniczonym zestawie próbek nie gwarantuje 100% skuteczności na całej populacji zagrożeń. Wynik zawsze jest obciążony losowością, ponieważ produkt może po prostu „mieć szczęście” względem wybranego zestawu próbek. Wystarczy, iż kolejne 10 losowych próbek byłoby inne i wynik mógłby spaść poniżej 100%.

Z tego powodu jednym z najbardziej rzetelnych podejść jest klasteryzacja, w której produkty osiągające podobny poziom skuteczności trafiają do jednego klastra i otrzymują tę samą ocenę, bez sztucznego tworzenia rankingu tam, gdzie różnice nie są statystycznie znaczące.

Grupowanie wyników – przykłady

Produkt A osiąga 100% w teście (co może być oznaką szczęścia w danej edycji badania).
Produkt B osiąga 99.9%.
Produkt C osiąga 99.7%.

Różnice są minimalne i być może statystycznie nieistotne. Na podstawie jednego badania nie możemy z całą pewnością powiedzieć, iż produkt A jest realnie lepszy niż B i C oraz iż produkt B jest wyraźnie lepszy od produktu C.

Dlatego po przeanalizowaniu wielu przykładów proponujemy następujący próg:

99.6–100% → najwyższy klaster z certyfikatem EXCELLENT

Utrzymanie jednego progu umożliwia uniknięcie sytuacji, w której produkty o bardzo zbliżonych wynikach są sztucznie ustawiane w różnej kategorii jakości. Różnica między 99.6% a 99.5% to tylko 0.1 punktu procentowego i przy takich wartościach nie da się wiarygodnie stwierdzić, iż jeden produkt jest realnie lepszy od drugiego. Tak mała różnica najczęściej wynika z naturalnej losowości próbek złośliwego oprogramowania, a nie z rzeczywistej przewagi technologicznej któregoś z producentów.

Dlatego w certyfikacji nie ma drugiego rankingu w obrębie grupy najlepszych produktów. Klasyfikacja jest zero-jedynkowa:

Mieścisz się w progu 99.6% → uzyskujesz certyfikat EXCELLENT
Nie mieścisz się → nie kwalifikujesz się do uzyskania certyfikatu.

Wstęp do tabeli CI (Confidence Interval - Przedział Ufności)

Aby uzasadnić wybór progu 99.6% jako minimalnego wyniku dla certyfikatu EXCELLENT, przedstawiono poniżej wartości przedziałów ufności (95% CI) dla różnych wielkości prób badawczych od 200 do 1000 próbek.

Tabela pokazuje, jak zmienia się margines błędu (przepuszczenie danej liczby próbek przez testowany produkt) przy wymaganej skuteczności na poziomie 99.6%. Dzięki temu można ocenić, czy wynik mieści się w danym zakresie i czy różnice rzędu 0.1-0.3 punktu procentowego mogą wynikać wyłącznie z naturalnej zmienności próbek.

Przedział ufności stanowi dodatkowe uzasadnienie wyboru progu 99.6% i naszym zdaniem potwierdza, iż jest to wartość stabilna i odporna na przypadkowe wahania w zależności od wielkości liczby próbek w danej edycji badania.

Uwzględnienie tych przedziałów ufności potwierdza, iż różnice rzędu 0.1-0.3 punktu procentowego mieszczą się w naturalnej zmienności wyników testowych i nie powinny prowadzić do różnicowania produktów o zbliżonej skuteczności.

Od roku 2026 w badaniu Advanced-In-The-Wild Malware Test próg 99.6% będzie minimalnym poziomem skuteczności wymaganym do uzyskania certyfikatu EXCELLENT. Jest to wartość stabilna i statystycznie uzasadniona, która pozwala rzetelnie i sprawiedliwie oceniać produkty znajdujące się w najwyższej klasie skuteczności.

Idź do oryginalnego materiału