W dotychczasowej metodologii badania Advanced-In-The-Wild Malware Test certyfikat poziomu EXCELLENT był przyznawany produktom, które osiągnęły co najmniej 99% skuteczności detekcji i blokowania zagrożeń w danej edycji testu. Praktyka i analiza danych z wielu iteracji pokazują jednak, iż taki próg nie odzwierciedla w pełni realnych różnic między najskuteczniejszymi rozwiązaniami a tymi, które jedynie pozornie znajdują się na tym samym poziomie. Różnica pomiędzy 99% a wartościami bliskimi 100% może być istotna tylko przy bardzo dużych próbach, ponieważ dopiero wtedy margines błędu statystycznego staje się na tyle mały, by takie różnice były wymierne.
W przypadku unikalnych zagrożeń in-the-wild, które wykorzystujemy w badaniu, realna liczba próbek możliwych do przetestowania w skali miesiąca jest ograniczona zarówno aktywnością cyberprzestępców, jak i fizycznym czasem potrzebnym na przeprowadzenie analizy każdej próbki. Przy założeniu, iż testy są uruchamiane nieprzerwanie – 24 godziny na dobę przez 30 dni – oraz iż jedna próbka wymaga maksymalnie około 9 minut analizy w środowisku Windows, do czego należy doliczyć dodatkowe opóźnienia związane z automatyzacją zadań, restartami systemów, parsowaniem logów i generowaniem zrzutów ekranu, realny czas przetworzenia jednej próbki wynosi około 10-11 minut. Oznacza to, iż przepustowość testu jest z natury ograniczona i nie jest możliwe osiągnięcie dużych liczb próbek.
Podnosimy próg z 99% na 99.6% dla certyfikatu EXCELLENT
Aby lepiej oddzielić produkty o najwyższej skuteczności i uniknąć nadinterpretowania minimalnych różnic wynikających z przypadku, podnosimy próg EXCELLENT do 99.6%.
Nowa wartość lepiej odpowiada wartości statystycznej i minimalizuje ryzyko błędnej klasyfikacji produktów w sytuacji, kiedy rozbieżności na poziomie 0.1-0.3 punktu procentowego mogą wynikać z naturalnej zmienności próbek testowych. Dzięki temu certyfikat EXCELLENT będzie bardziej precyzyjny, a klasyfikacja uczciwsza, zarówno dla producentów, jak i odbiorców wyników.
WAŻNE! Propozycja nowego progu:
Podniesienie progu EXCELLENT do 99.6% jest uzasadnione statystycznie i praktycznie. Progu 100% nie powinno się traktować jako kryterium absolutne, ponieważ byłby on wiarygodny jedynie wtedy, gdy tester miałby możliwość:
- przetestować każdy istniejący i historyczny wariant złośliwego oprogramowania,
- zagwarantować brak jakichkolwiek błędów po stronie laboratorium.
W rzeczywistości 100% skuteczności w ograniczonym zestawie próbek nie gwarantuje 100% skuteczności na całej populacji zagrożeń. Wynik zawsze jest obciążony losowością, ponieważ produkt może po prostu „mieć szczęście” względem wybranego zestawu próbek. Wystarczy, iż kolejne 10 losowych próbek byłoby inne i wynik mógłby spaść poniżej 100%.
Z tego powodu jednym z najbardziej rzetelnych podejść jest klasteryzacja, w której produkty osiągające podobny poziom skuteczności trafiają do jednego klastra i otrzymują tę samą ocenę, bez sztucznego tworzenia rankingu tam, gdzie różnice nie są statystycznie znaczące.
Grupowanie wyników – przykłady
- Produkt A osiąga 100% w teście (co może być oznaką szczęścia w danej edycji badania).
- Produkt B osiąga 99.9%.
- Produkt C osiąga 99.7%.
Różnice są minimalne i być może statystycznie nieistotne. Na podstawie jednego badania nie możemy z całą pewnością powiedzieć, iż produkt A jest realnie lepszy niż B i C oraz iż produkt B jest wyraźnie lepszy od produktu C.
Dlatego po przeanalizowaniu wielu przykładów proponujemy następujący próg:
- 99.6–100% → najwyższy klaster z certyfikatem EXCELLENT
Utrzymanie jednego progu umożliwia uniknięcie sytuacji, w której produkty o bardzo zbliżonych wynikach są sztucznie ustawiane w różnej kategorii jakości. Różnica między 99.6% a 99.5% to tylko 0.1 punktu procentowego i przy takich wartościach nie da się wiarygodnie stwierdzić, iż jeden produkt jest realnie lepszy od drugiego. Tak mała różnica najczęściej wynika z naturalnej losowości próbek złośliwego oprogramowania, a nie z rzeczywistej przewagi technologicznej któregoś z producentów.
Dlatego w certyfikacji nie ma drugiego rankingu w obrębie grupy najlepszych produktów. Klasyfikacja jest zero-jedynkowa:
- Mieścisz się w progu 99.6% → uzyskujesz certyfikat EXCELLENT
- Nie mieścisz się → nie kwalifikujesz się do uzyskania certyfikatu.
Wstęp do tabeli CI (Confidence Interval - Przedział Ufności)
Aby uzasadnić wybór progu 99.6% jako minimalnego wyniku dla certyfikatu EXCELLENT, przedstawiono poniżej wartości przedziałów ufności (95% CI) dla różnych wielkości prób badawczych od 200 do 1000 próbek.
Tabela pokazuje, jak zmienia się margines błędu (przepuszczenie danej liczby próbek przez testowany produkt) przy wymaganej skuteczności na poziomie 99.6%. Dzięki temu można ocenić, czy wynik mieści się w danym zakresie i czy różnice rzędu 0.1-0.3 punktu procentowego mogą wynikać wyłącznie z naturalnej zmienności próbek.
Przedział ufności stanowi dodatkowe uzasadnienie wyboru progu 99.6% i naszym zdaniem potwierdza, iż jest to wartość stabilna i odporna na przypadkowe wahania w zależności od wielkości liczby próbek w danej edycji badania.
Uwzględnienie tych przedziałów ufności potwierdza, iż różnice rzędu 0.1-0.3 punktu procentowego mieszczą się w naturalnej zmienności wyników testowych i nie powinny prowadzić do różnicowania produktów o zbliżonej skuteczności.
Od roku 2026 w badaniu Advanced-In-The-Wild Malware Test próg 99.6% będzie minimalnym poziomem skuteczności wymaganym do uzyskania certyfikatu EXCELLENT. Jest to wartość stabilna i statystycznie uzasadniona, która pozwala rzetelnie i sprawiedliwie oceniać produkty znajdujące się w najwyższej klasie skuteczności.














