W tym odcinku KajoData gościnnie u mnie Piotr Szulc, z którym rozmawiamy o fascynującym świecie statystyki i jej roli w analizie danych w erze sztucznej inteligencji. Piotr, znany z głębokiego zrozumienia zarówno klasycznej statystyki, jak i uczenia maszynowego, dzieli się swoją drogą od studiów matematycznych, przez doktorat aż po współpracę z biznesem.
Poruszamy tematy, jak znaczenie statystyki w praktycznym rozwiązywaniu problemów biznesowych, przemyślenia na temat automatyzacji procesów analitycznych i jak wiedza statystyczna pozwala na głębsze zrozumienie danych ponad to, co oferują narzędzia AI. Wszystko to okraszone anegdotami z życia Piotra, które pokazują, iż zaawansowane analizy danych są o wiele więcej niż tylko rzucaniem danych do programu i oczekiwaniem gotowych odpowiedzi.
Piotra możesz znaleźć na:
Dokładna treść poniższego wywiadu została uproszczona (przez AI ;)), aby się go przyjemniej czytało. jeżeli wolisz bardziej „naturalną” rozmowę – obejrzyj całość na YouTube.
Spis treści
- Oglądaj na YouTube 📺
- Matematyka, statystyka, studia
- Statystyka i sztuczna inteligencja
- Błędy i powoływanie się na statystykę
- Matematyka vs generalizacja
- Exit poll i late poll
- Statystyka – czego warto się uczyć?
Oglądaj na YouTube 📺
Matematyka, statystyka, studia
Dzień dobry, witam Państwa na kanale KajoData. Dzisiejszym gościem jest Piotr Szulc, ekspert w dziedzinie analizy danych i statystyki, którego treści statystyczne regularnie pojawiają się na LinkedInie. Piotr, dziękuję za znalezienie czasu w naszą rozmowę. Na wstępie, mógłbyś w kilku zdaniach przybliżyć, czym dokładnie się zajmujesz?
Piotr: Zajmuję się analizą danych w szerokim zakresie, od tradycyjnej statystyki, często kojarzonej z publikacjami naukowymi, po uczenie maszynowe, które jest bliższe środowisku biznesowemu. Prowadzę konsultacje i szkolenia z tych tematów, zarówno w firmach, jak i na uczelniach.
Kajo: Ciekawym punktem naszej rozmowy będzie sztuczna inteligencja i AI, ale zacznijmy od podstaw. Co skłoniło Cię do pracy w tej dziedzinie?
Piotr: Moja droga zaczęła się dawno temu, jeszcze przed pojawieniem się data science jako takiego. Wybrałem studia matematyczne, ponieważ matematyka mnie interesowała i dobrze mi szło. Z czasem moje zainteresowania ewoluowały od matematyki do statystyki, którą wybrałem jako specjalizację.
Kajo: A jak doszło do Twojego przejścia do świata biznesowego?
Piotr: Po studiach i doktoracie z statystyki matematycznej, zacząłem zauważać aplikacje biznesowe mojej pracy. Mimo iż początkowo zajmowałem się genetyką, z czasem zacząłem współpracować z firmami, które potrzebowały optymalizacji procesów dzięki statystyki. To otworzyło mi drzwi do świata analizy danych w kontekście biznesowym.
Kajo: Przejdźmy teraz do obecnych czasów, gdzie AI i narzędzia automatyzujące pracę statystyków stają się coraz bardziej dostępne. Czy w takim świecie pozostało miejsce na tradycyjną wiedzę statystyczną?
Piotr: Automatyzacja i narzędzia statystyczne, takie jak R, przyspieszyły wiele procesów, ale nie zmniejszyły zapotrzebowania na głęboką wiedzę statystyczną. Istota analizy statystycznej pozostaje niezmienna i wciąż wymaga zrozumienia i interpretacji danych. Automatyzacja pozwala na skupienie się na ważniejszych aspektach pracy statystyka, a nie zastępuje myślenie statystyczne.
Kajo: Czyli największe ryzyko nadmiernego polegania na AI może polegać na eliminacji krytycznego myślenia i zbyt prostego podejścia do analizy danych, jak „to zależy”.
Piotr: Dokładnie. Myślenie statystyczne i krytyczna interpretacja danych są najważniejsze w pracy analityka. Wielowymiarowość i złożoność rzeczywistych problemów wymagają więcej niż tylko automatycznych narzędzi. To intelektualne wyzwanie i zarazem piękno statystyki – poszukiwanie odpowiedzi, które nie zawsze są jednoznaczne i wymagają głębszego zrozumienia kontekstu.
Statystyka i sztuczna inteligencja
Kajo: Gdy prezes pyta, czy podnieść ceny produktów, odpowiedź analityka z doświadczeniem wykracza poza proste wzory – często brzmi „to zależy”. Istnieje wiele scenariuszy i ryzyk. W kontekście AI, gdzie dominuje czarno-biała logika decyzyjna, miejsca na „to zależy” może zabraknąć, ustępując miejsca konkretnym liczbom i wybranym scenariuszom.
Piotr: Sztuczna inteligencja w tej chwili często opiera się na modelach uczenia maszynowego, które mogą być prostym modelem regresji, czasami choćby wykonanym w Excelu. Takie modele już zawierają element „to zależy” poprzez prawdopodobieństwa, ale stawiane pytania i iteracyjne dochodzenie do odpowiedzi, podobne do pracy detektywa, wciąż wymagają ludzkiego dotyku. W medycynie AI może już zalecać kolejne badania na podstawie wyników, ale analiza danych jest procesem znacznie bardziej złożonym.
Kajo: Obliczenia i modele są ostateczne, ale wyoutsourcowanie myślenia i zadawania pytań jest dużo trudniejsze. Poruszmy temat sztucznej inteligencji jako terminu PR-owego.
Piotr: Nie jestem ekspertem od AI, ale rozumiem ją jako coś generatywnego, coś co naśladuje człowieka, a nie tylko program grający w szachy. Wiele tego, co nazywamy AI, to złożone modele statystyczne, jak sieci neuronowe, które mogą być postrzegane jako prosta regresja liniowa. Tak naprawdę, to co robimy, można by nazwać AI, ale to więcej kwestia marketingu niż faktycznej inteligencji. Często, gdy mówi się o AI, wydaje się, iż za kulisami siedzi robot wymyślający rozwiązania, podczas gdy w rzeczywistości to zwykle zaawansowane modele statystyczne.
Kajo: Czyli mówimy o definicji inteligencji. Dostatecznie zaawansowana nauka wydaje się jak magia, podobnie zaawansowany algorytm może wydawać się nie do odróżnienia od ludzkiej inteligencji.
Piotr: Dokładnie. Możemy nazywać to sztuczną inteligencją, ale ważne jest zrozumienie, iż za tym stoją skomplikowane procesy statystyczne i analityczne, które wciąż są bardzo ludzkie w swojej esencji.
Błędy i powoływanie się na statystykę
Kajo: Mamy do dyspozycji zaawansowane narzędzia, ale ekonomia behawioralna pokazuje, iż ludzie popełniają błędy w podejmowaniu decyzji, często powołując się na statystykę. Jakie są Twoje doświadczenia z błędami związanymi z interpretacją statystycznych danych?
Piotr: najważniejsze jest zrozumienie, iż nasze życie składa się z ciągu decyzji opartych na pewnym prawdopodobieństwie. Myślenie statystyczne może pomóc uniknąć błędów i prowadzić do lepszych decyzji. Na przykład, rozumienie wartości oczekiwanej i probabilistyczne podejście do wyborów mogą zmaksymalizować szanse na sukces. Jednak nie wymaga to zaawansowanego wykształcenia statystycznego, a bardziej umiejętności krytycznego myślenia i analizy danych.
Kajo: Jakie są najczęstsze błędy w interpretacji danych?
Piotr: Najczęstszym błędem jest mylenie korelacji z przyczynowością. Ludzie często interpretują korelację jako dowód przyczynowego związku, co może prowadzić do błędnych wniosków.
Jednym z najbardziej pouczających przykładów jest analiza, którą przeprowadziłem na danych ze szpitala w Brazylii. Szpital zmagał się z problemem pacjentów, którzy umawiali się na wizyty, ale nie pojawiali się bez wcześniejszego powiadomienia. Aby zaradzić temu problemowi, wprowadzono system wysyłania SMS-ów z przypomnieniem o wizycie. Następnie podjęto próbę oceny skuteczności tej strategii.
Na pierwszy rzut oka, analiza wydawała się prosta: porównać frekwencję pacjentów, którzy otrzymali SMS, z tymi, którzy go nie otrzymali. Jednak wyniki były zaskakujące i wydawały się nielogiczne – pacjenci, którzy dostali SMS z przypomnieniem, wykazywali wyższy wskaźnik nieobecności niż ci, którzy SMS-a nie otrzymali. To prowadziło do błędnej interpretacji, iż SMS-y zniechęcają pacjentów do przyjścia.
Problem leżał w niewłaściwym uwzględnieniu wszystkich istotnych zmiennych, a szczególnie jednej kluczowej zmiennej zakłócającej – czasu, który upłynął od momentu umówienia wizyty do jej daty. Okazało się, iż pacjenci, którzy umówili się na wizytę z dłuższym wyprzedzeniem, mieli większą tendencję do niepojawienia się, niezależnie od otrzymania SMS-a. Ponadto, odkryliśmy, iż grupa pacjentów, którzy zostali zapisani na wizytę tego samego dnia (na przykład przyszli bezpośrednio do szpitala lub zostali przywiezieni karetką), nigdy nie miała problemu z nieobecnością – i właśnie ta grupa nie otrzymywała SMS-ów.
Po adekwatnym uwzględnieniu tych czynników, analiza pokazała, iż wysyłanie SMS-ów de facto zmniejszało ryzyko nieobecności o około 5 punktów procentowych, co było zupełnie przeciwne do początkowych, błędnych wniosków. To podkreśla, jak ważne jest głębokie zrozumienie danych i kontekstu, w jakim są gromadzone oraz analizowane, aby unikać błędnych interpretacji i wniosków.
Kajo: Jak poradzić sobie z tym problemem?
Piotr: Ważne jest, aby pamiętać, iż korelacja sama w sobie nie jest dowodem przyczynowości. choćby po uwzględnieniu niektórych zmiennych, wciąż mówimy o korelacji warunkowej. Pełne zrozumienie danych wymaga dodatkowej wiedzy zewnętrznej i rozważenia wszystkich możliwych czynników wpływających na wyniki. To pokazuje, iż interpretacja danych statystycznych wymaga ostrożności i głębszego zrozumienia kontekstu, w którym dane te są gromadzone i analizowane.
Matematyka vs generalizacja
Kajo: Poruszyłeś kwestię mylenia korelacji z przyczynowością jako jeden z głównych problemów w interpretacji danych. Czy pozostało jakiś inny, równie istotny problem, z którym się spotkałeś?
Piotr: Tak, drugim problemem, który chciałbym wymienić, jest nadmierne generalizowanie na podstawie statystycznych różnic między grupami. Często, gdy obserwujemy statystyczne różnice między grupami i podsumowujemy je dzięki średniej, jesteśmy skłonni do przekonania, iż wszyscy przedstawiciele jednej grupy charakteryzują się większą cechą niż przedstawiciele drugiej. To prowadzi nie tylko do błędnych wniosków, ale też może rodzić problemy etyczne.
Kajo: Możemy przytoczyć jakiś konkretny przykład?
Piotr: Na przykład, badania psychologiczne często wykazują, iż kobiety są średnio bardziej ugodowe niż mężczyźni. Jest to wniosek wspierany przez liczne publikacje naukowe. Jednak problem pojawia się, gdy zaczynamy zbyt daleko idące generalizacje na tej podstawie. Różnica między płciami może być statystycznie istotna, ale jednocześnie niewielka. Pomimo tego, ludzie mogą zaczynać traktować tę różnicę jako dużo większą, niż jest w rzeczywistości, i stosować ją do wszystkich przedstawicieli danej płci.
Kajo: Jakie mogą być konsekwencje takiego nadmiernego generalizowania?
Piotr: Nadmierne generalizowanie może prowadzić do błędnych wniosków i działań. Na przykład, jeżeli ktoś na podstawie badań stwierdzi, iż kobiety są bardziej ugodowe i zacznie to stosować jako uniwersalną zasadę w każdej sytuacji, może to prowadzić do niesprawiedliwych ocen i decyzji. Ważne jest, aby pamiętać, iż statystyczne różnice między grupami są jednym z wielu czynników, które należy uwzględnić, i nie powinny być jedyną podstawą do formułowania sądów czy podejmowania decyzji.
Kajo: Czyli kluczem jest zrównoważone podejście i unikanie nadmiernego uproszczenia?
Piotr: Dokładnie. Statystyka jest potężnym narzędziem, ale jak każde narzędzie, wymaga odpowiedzialnego i przemyślanego użycia. Generalizacja jest niezbędna dla abstrakcji i podejmowania decyzji, ale musimy być świadomi jej ograniczeń. Rozumienie kontekstu, w którym dane zostały zebrane i analizowane, jest najważniejsze dla uniknięcia błędów interpretacyjnych i etycznych.
Exit poll i late poll
Kajo: W kontekście wiarygodności statystyki, fascynują mnie badania wyborcze typu Exit Poll. Jak to możliwe, iż są one tak dokładne, skoro próba wydaje się być stosunkowo mała?
Piotr: Kluczem do zrozumienia tego fenomenu jest prawo wielkich liczb, które pozwala uogólniać wyniki z małej, ale reprezentatywnej próby na całą populację. Zaczynając od late poll, który opiera się na rzeczywistych danych z wybranych losowo komisji wyborczych, już tu widać, jak dobór reprezentatywnej próby pozwala na uzyskanie dokładnych prognoz. Dzięki losowemu doborowi próby, choćby mała jej część odzwierciedla ogólną proporcję głosów, co jest podstawą statystycznych badań.
Kajo: A co z samymi badaniami Exit Poll, gdzie wydaje się być więcej miejsca na błąd?
Piotr: Exit Poll stanowi większe wyzwanie ze względu na możliwość odmowy udziału w badaniu oraz potencjalne nieuczciwe odpowiedzi. Problem ten jest jednak adresowany poprzez zastosowanie metody imputacji braków danych, która pozwala w miarę dokładnie oszacować, na kogo mogły zagłosować osoby niebiorące udziału w badaniu. Choć imputacja nie jest metodą doskonałą, umożliwia znaczne zwiększenie dokładności prognoz. Co więcej, jeżeli odmowy są losowe, wpływają one jedynie na wielkość próby, a nie na jej jakość.
Statystyka – czego warto się uczyć?
Kajo: Jakie zatem rady mógłbyś dać osobom zainteresowanym głębszym zrozumieniem i pracą z danymi?
Piotr: Zdecydowanie warto zainteresować się regresją liniową i logistyczną, ponieważ są to podstawowe narzędzia w analizie danych, pozwalające na zrozumienie zależności między zmiennymi. Ponadto, model lasu losowego z uczenia maszynowego jest szczególnie przydatny ze względu na swoją elastyczność i łatwość w stosowaniu. Ważne jest również zrozumienie, czym jest błąd standardowy i jak interpretować p-wartości, co jest najważniejsze do oceny istotności statystycznej wyników badań.
Kajo: Gdzie można znaleźć więcej informacji na temat Twojej pracy i publikacji?
Piotr: Najprostszą drogą jest wyszukanie mnie na LinkedIn lub wpisanie w wyszukiwarkę „danetyka„, co jest moją próbą spolszczenia terminu data science. Publikuję tam regularnie artykuły i analizy statystyczne, które mogą zainteresować każdego pasjonata danych.
Kajo: Dziękuję za rozmowę i cenne wskazówki.
Piotr: Również dziękuję. Do zobaczenia.