Statystyka nie kłamie. No chyba, iż używasz jej źle – a często tak się dzieje w firmach – wtedy kłamie.
Dzisiaj wpis o pułapkach związanych ze statystyką, dla osób trochę bardziej zaawansowanych, znających się na podstawach statystyki inferencyjnej oraz ogólnych założeniach testów statystycznych. Chociaż sama jestem zwolenniczką używania statystyki, to nie traktuję jej jak wyroczni, tylko staram się być świadoma ograniczeń, jakie z niej wynikają.
Mam wrażenie popadania ze skrajności w skrajność o ile chodzi o statystykę – w niektórych firmach testowanie statystyczne praktycznie nie istnieje (pewnie management wie lepiej, co mówią liczby 😉), podczas gdy inne popadają w drugą skrajność – nagminnie sprawdzają wszystko dzięki testów AB i ślepo podążają za wynikami statystycznymi z tych testów.
Po co używamy testów statystycznych?
Głównie po to, by wprowadzić obiektywizm do danych. Chcemy wiedzieć czy liczby opisujące jakieś zjawisko biznesowe czegoś dowodzą, czy tylko tak nam się wydaje.
Przykład. Jeżeli mamy sklep internetowy, w którym kobiety wydają średnio 412 zł na zakup, a mężczyźni 363 zł, to czy możemy stwierdzić, iż istnieją różnice w wydawaniu pieniędzy między dwoma płciami? No właśnie… ciężko powiedzieć – zależy od tego ile mamy przypadków kobiet i mężczyzn i jak różne kwoty wydawały pojedyncze osoby w każdej grupie. To właśnie jest typowe zadanie dla testu statystycznego, który porównując wyniki uzyskane przez dwie grupy może nam stwierdzić, czy istnieje statystycznie istotna różnica między kobietami i mężczyznami.
Tylko, iż uparliśmy się na te testy statystyczne i wydaje nam się, iż jak użyjemy testu, to on nam powie jak jest. Jest różnica, czy nie ma różnicy. 0 albo 1. Czarne albo białe. Nie przepadamy za szarością, chcemy jasną odpowiedź.
Wiele firm zachłysnęło się w chociażby testami AB i namiętnie wszystko testują. Testy AB opierają się na na zasadzie badań naukowych – tworzymy grupę badawczą i kontrolną, a wyniki z tych grup testujemy statystycznie. o ile na przykład wprowadzamy nowy układ strony, to możemy przetestować jak on wpływa na decyzje zakupowe – dzielimy odwiedzających na dwie grupy, połowie osób pokazujemy dotychczasową, starszą wersję strony, a drugiej połowie nową wersję. Po zebraniu informacji o zachowaniu użytkowników (ile czasu spędzają na stronie, ile produktów kupują, ile wydają w sklepie) możemy porównać czy nowa strona w jakikolwiek sposób wpływa na decyzje zakupowe.
Jeżeli wśród pierwszej grupy powiedzmy 5.1% osób dokonało zakupu, a w drugiej 5.6%, to właśnie testy statystyczne nam powiedzą jak jest – czy nowy design strony ma wpływ na zakup, czy nam się tylko tak wydaje. Testy są obiektywną miarą do interpretowania danych.
Tylko czy rzeczywiście są takie obiektywne? Poniżej zbiór nadużyć statystycznych często spotykanych w firmach.
Arbitralność
Wprowadzamy testy statystyczne, żeby mieć obiektywną miarę, ale zapominamy, że… same testy opierają się na arbitralnych założeniach. Przyjęło się, iż standardowo stosujemy istotność statystyczną na poziomie 0.05, czyli wartość p musi być mniejsza niż 0.05, żeby odrzucić hipotezę zerową. Skąd 0.05? Tak sobie ustaliliśmy. Oczywiście, możemy przyjąć inną wartość istotności – ale znowu na podstawie jakiś założeń.
Przy okazji, warto w ogóle przypomnieć co oznacza wartość p, bo także nierzadko się o tym zapomina. To nie jest prawdopodobieństwo, iż hipoteza zerowa jest prawdziwa, tylko prawdopodobieństwo uzyskania (przynajmniej tak samo skrajnych) wyników przy założeniu, iż hipoteza zerowa jest prawdziwa. Brzmi jak masło maślane, więc już tłumaczę na przykładzie.
Załóżmy, iż testujesz czy nowy układ strony wpływa na ilość produktów w koszyku zakupowym osób, które decydują się na zakup. Dzielisz odwiedzających na dwie grupy: widzących stary, oraz nowy układ strony.
Hipotezy to:
- H₀: nie ma różnicy w ilości produktów w koszyku między grupami
- H₁: jest różnica w ilości produktów w koszyku między grupami
Zebraliśmy odpowiednio duże próbki z dwóch grup, wrzucamy te dane to testu i w wyniku otrzymujemy wartość p 0.047 Co to znaczy? Że o ile hipoteza zerowa jest prawdziwa, czyli nie ma różnicy w ilości produktów między grupami, to istnieje tylko 4.7% szans, iż w losowym badaniu uzyskamy tak duży (lub większy) efekt jaki zaobserwowaliśmy w danych.
Innymi słowy, są małe szanse na to, iż uzyskalibyśmy taki wynik, gdyby hipoteza zerowa była prawdą. Na tyle małe szanse, iż umówiliśmy się, iż możemy przy takim wyniku odrzucić hipotezę zerową. Stwierdzamy zatem, iż istnieją dowody na to, iż jest różnica w dokonywaniu zakupów przez użytkowników odwiedzających nową stronę.
W czym problem? No właśnie w tym „umówiliśmy się”. Gdyby szanse wynosiły 5.2%, to już nie byłoby istotnie statystycznej różnicy, ponieważ umówiliśmy się na poziom istotności 5%. I tak, wiem, poziom istotności można obniżyć, wiem też, iż w niektórych testach wartość p naprawdę wychodzi bliska 0 – nie mam zastrzeżeń do takich przypadków, tylko właśnie mam problem z takimi przypadkami brzegowymi. Być może ten artykuł jest moim skrzywieniem po pracy w środowisku naukowym i podejściem w wielu labach na zasadzie “ok, wartość p wyszła poniżej 0.05, zrobione”. Moim zdaniem świat nie jest taki zero-jedynkowy i ślepe podążanie za poniżej/powyżej 0.05 jest upraszczaniem rzeczywistości.
Istotność statystyczna nie jest istotnością biznesową
To, iż wynik jest istotny statystycznie nie znaczy, iż jest istotny biznesowo. Czasem tak bardzo skupiamy się na wyniku tego felernego p-value, iż zapominamy po prostu spojrzeć na liczby, które uzyskały dane grupy.
I chociaż niska wartość p może być skorelowana z dużymi różnicami między grupami, sugerując duże znaczenie biznesowe, to należy pamiętać, że zależy ona także od wielkości próby – dla wielkich prób wartość p będzie istotna statystycznie choćby dla małych różnic.
Wracając do naszych dwój grup:
- Grupa A – stary układ strony – średnio 3.2 produkty w koszyku
- Grupa B – nowy układ strony – średnio 3.5 produkty w koszyku
W teście statystycznym powiedzmy, iż uzyskamy niską wartość p, niech będzie na poziomie 0.004, żeby nie mieć watpliwości, iż istnieje istotność statystyczna (jaką rzeczywiście wartość p uzyskamy zależy od liczebności grupy A i B oraz rozkładów tych grup). Możemy odrzucić hipotezę zerową- statystyka potwierdza, iż nowy układ strony skutkuje większą ilością produktów w koszyku.
Ale to tylko różnica na poziomie 0.3 średniej ilości produktów na grupę.
Dla biznesu to może być za mało. Być może przekłada się to na tak niskie zyski, iż nie opłaca się wprowadzać nowego układu strony dla wszystkich klientów, bo koszt wprowadzenia strony byłby wyższy, niż potencjalny zysk, jaki można uzyskać. Nie jesteśmy w stanie dojść do takiego wniosku patrząc na wynik statystyczny – po prostu testy statystyczne zwracają nam informacje, czy jest istotność statystyczna, czy nie – nic nie mówią o biznesie.
Istnieją inne, specjalne miary, która badają tzw. wielkość efektu, czyli mierzą jak duża jest różnica między grupami. Jedną z nich jest miara d Cohena, która mierzy różnicę między średnimi w grupach podzieloną przez ważone odchylenie standardowe, dając wartość, którą możemy podzielić na:
- 0.2 – mały efekt
- 0.5 – średni efekt
- 0.8 lub więcej – duży efekt
Take-home message? Istotność statystyczna oraz praktyczne znaczeniu efektu, to są dwie odrębne rzeczy.
Za dużo danych
Kolejny problem ze statystyką – jeżeli mamy duże liczebności próbek, to wszystko wychodzi istotne statystycznie.
W wielu testach (np. t Studenta) w mianowniku mamy liczebność próby, czyli im większa próba, tym tzw. wartość z rośnie, zatem wartość p maleje. Im większa próba, tym większa istotność statystyczna, choćby dla tych samych średnich w grupach. Duże próby wykrywają drobne, choćby nieistotne praktycznie różnice:

Testy statystyczne powstały na początku XX wieku, kiedy badacze dysponowali bardzo małymi próbami, często zaledwie po kilkanaście lub kilkadziesiąt obserwacji na grupę. Dlatego twórcy testów opracowywali metody, które biorą pod uwagę większą niepewność wynikającą z małych prób i dobrze działają przy niskiej liczebności. Zastosowanie tych testów dla dzisiejszych danych, które liczymy w tysiącach czy milionach rekordów, jest po prostu bez sensu – te testy są zbyt czułe, wykrywając choćby minimalne różnice, które po prostu nie mają znaczenia w kontekście biznesowym.
Dlatego w dzisiejszych czasach większy sens mogą mieć przedziały ufności.
Założenia testów
Jak to stwierdziła ostatnio moja podopieczna: “wrzuciłam do testu i wyszło” (Aga, pozdrawiam serdecznie!).
I tu właśnie jest problem. Jak to mówią: papier wszystko przyjmie. Test statystyczny widocznie też.
Testy statystyczne mają swoje założenia, które nie są automatycznie sprawdzane. Osoba wykonująca test musi je sprawdzić przed testem.
Test t-studenta chociażby opiera się na porównywaniu średnich – o ile nie mamy rozkładu normalnego, bez sensu jest porównywać średnie, które są bardzo zależne od wartości skrajnych i w przypadku skośnych rozkładów są po prostu niereprezentatywne – dlatego też bez sensu jest używać testu t-studenta dla takich przypadków.
Problem polega na tym, iż zawsze możemy wrzucić jakieś dane do testu statystycznego, i zawsze dostaniemy jakiś wynik. Tylko ten wynik nie ma sensu, o ile założenia nie są spełnione – cały szkopuł w tym, żeby wiedzieć, iż te założenia istnieją, wiedzieć jak je sprawdzić i który test wykonać dla jakich danych.
Przykładem bezrefleksyjnej analizy jest nadmierne używanie regresji liniowej – przecież zawsze można coś wrzucić do regresji i zobaczyć jak bardzo jest skorelowane. A regresja liniowa ma naprawdę kilka kluczowych założeń – zależność między zmiennymi powinna być liniowa, wariancja reszt powinna być równa dla wszystkich obserwacji, nie powinna występować autokorelacja reszt, itd. (tutaj przystępnie rozpisane wszystkie założenia).
Więcej testów, więcej!
Jak widzę firmy, które budują platformy do automatyzacji testów AB i wrzucają tam setki testów, to łapię się za głowę. Te osoby ewidentnie nie miały statystyki na studiach, gdzie w kółko powtarzano, iż pierwszą zasadą testów statystycznych jest to, żeby nie powielać bezkarnie wielu testów. Wszystko sprowadza się do tego co reprezentuje wartość p – prawdopodobieństwo uzyskania takich samych wyników przy założeniu, iż hipoteza zerowa jest prawdziwa.
Czyli, jak otrzymujemy wartość p na poziomie 0.03, to prawdopodobieństwo uzyskania takich samych wyników przy prawdziwej hipotezie zerowej wynosi 3% – jest to małe prawdopodobieństwo, dlatego odrzucamy hipotezę zerową. ALE jest to małe prawdopodobieństwo, o ile wykonujemy jeden test. o ile przeprowadzimy 100 testów, to 3% ze 100 to są 3 testy, czyli w 3 testach będziemy mieli false positive – fałszywy alarm, czyli nieprawdziwe statystycznie istotny wynik.
Robiąc testy na potęgę, stosujemy inflację błędów I-go rodzaju, czyli zwiększamy prawdopodobieństwo fałszywych istotności (więcej tutaj o problemie porównywań wielokrotnych). Możemy przeciwdziałać temu zjawisku, stosując np. poprawkę Bonferonniego, która dzieli poziom istotności przez liczbę testów – dla standardowego poziomu istotności 0.05 i 100 testów powinniśmy przyjąć poziom istotności 0.0005 (0.05/100) dla wszystkich pojedynczego testu.
Problem porównywań wielokrotnych jest także powodem, dlaczego wykonujemy test ANOVA w przypadku wielu grup, która sprawdza czy istnieją jakiekolwiek różnice między jakimikolwiek grupami – żeby właśnie nie namnażać testów i nie porównywać każdej grupy z każdą.
Już nie wspomnę o tym, iż testy zostały zaprojektowane, aby najpierw stawiać hipotezę zerową, a później ją weryfikować, a nie, żeby używać testów, aby szukać zależności w danych. Przeprowadzanie testów na potegę na zebranych danych i używanie istotności statystycznej do szukania zjawisk jest nadużyciem metodologicznym i nazywa się p-hackingiem.
Podsumowując
Metody statystyczne szturmem opanowują środowisko biznesowe, ale poprzez specyfikę dzisiejszych czasów – chęć uzyskania zero-jedynkowych odpowiedzi, nieznajomość statystyki, czy duże wolumeny danych – często te metody są używane błędnie i nie spełniają swoich podstawowych założeń.
Znacie jakieś inne, często spotykane nadużycia w firmach? Podzielcie się w komentarzu!
A jak spodobał Ci się artykuł, to zapraszam do zapisu do newslettera po więcej treści. Nie spamuję, newsletter pojawia się ok. raz nie miesiąc, kiedy rzeczywiście mam coś do napisania:
Keywordsy: statystyka, statystyka inferencyjna, statystyka opisowa, czy statystyka kłamie, testy statystyczne, test statystyczny, testy ab, testy AB, test AB, t-test studenta, testowanie statystyczne, statystyka 3 nogi, dlaczego statystyka kłamie, ile statystyki trzeba umieć, ile statystyki trzeba analityk danych, statystyka analiza danych, statystyka data science, anova, test ANOVA, po co stosujemy anove, założenia t test, założenia regresji liniowej, regresja liniowa założenia, czym jest d Cohena, efekt wielkości, d Cohen, efekt wielkości, regresja linowa, założenia regresji liniowej, regresja liniowa założenia, p-hacking, poprawka Bonferonniego, bonferonni, problem porównywań wielokrotnych, wolumen danych, założenia testów, hipoteza zerowa, hipoteza alternatywna, testy ab analityk danych, błędy statystyczne, pułapki statystyczne, statystyka ciekawostki, problemy statystyka, błędne użycie statystyki w firmach, statystyka firmy, co muszę umieć ze statystyki data science, jak używać statystyki, jak się nauczyć statystyki