Dzięki Data Science dążymy do tego, by potencjalny pacjent nie stał się pacjentem. Wywiad z dyrektorami IQVIA

geek.justjoin.it 1 rok temu

Piotr i Maciej z IQVIA omówili ostatnio działania związane z big data w ramach rozwiązań Real World & Analytics firmy IQVIA. Poniżej znajduje się transkrypcja tego wywiadu i dogłębne wyjaśnienie wykorzystania big data do napędzania rozwoju opieki zdrowotnej.

IQVIA określa się jako „The Human Data Science Company”. Co to dla Was oznacza, jak to rozumiecie?

Piotr Kaczor: Termin ‘human data science’ jest choćby dla nas dość nowy. To połączenie badań nad człowiekiem, jego fizjologią, zachowaniami, szeroko pojętym zdrowiem a komputerową analizą danych opartą na statystyce czy uczeniu maszynowym.

Żyjąc w dzisiejszym świecie niemal w każdej sekundzie generujemy potężne ilości danych, w tym informacji o swoim samopoczuciu (ciśnienie / saturacja / oddech), przyjmowanych lekach, przebytych zabiegach, pokonanych kilometrach, swoim stylu odżywiania, zwyczajach czy formie spędzania wolnego czasu. Każde z tych zdarzeń ma potencjalny wpływ na nasze zdrowie – to obecne, ale przede wszystkim to przyszłe.

Człowiek od setek lat formułował tezy dotyczące zdrowego stylu życia czy sposobów leczenia konkretnych dolegliwości. Dzięki współczesnej technice mamy okazję nie tylko poprzeć te tezy liczbami, ale też odkryć kilka dodatkowych, nieznanych dotychczas zależności w oparciu o gromadzone dane.

Maciej Piotrowski: Termin ten dobrze oddaje też, gdzie są nasze główne kompetencje i najsilniejsze punkty. Pomagamy klientom i pośrednio pacjentom, tworząc rozwiązania oparte na Data Science — odnajdywanie zależności, wyciąganie wniosków i przewidywanie zdarzeń na podstawie danych. Przy czym w naszym przypadku są to dane o człowieku, pacjencie lub potencjalnym pacjencie. Wiele z naszych rozwiązań do tego właśnie dąży, żeby potencjalny pacjent (osoba zagrożona jakąś komplikacją lub chorobą) nie stał się pacjentem.

Czyli mamy aspekt ludzki (human), danych (data), ale sam termin „Data Science” ma również bardzo techniczne konotacje jako dziedzina inżynieryjna. I to też jest ważne, jesteśmy firmą skupioną na konkretnej dziedzinie, ale do szpiku kości technologiczną!

Czym zajmuje się dział Real World Solutions?

Piotr Kaczor: Dział RWS zajmuje się właśnie gromadzeniem danych medycznych na poparcie sformułowanych wniosków lub generowanie nowych spostrzeżeń w oparciu o te dane. Od prób klinicznych, poprzez ankiety, informacje sprzedażowe, informacje o wizytach w placówkach medycznych, dane o działaniach niepożądanych leków, roszczenia u ubezpieczycieli, po analizę wiadomości z portali społecznościowych czy danych gromadzonych przez zakładane na ciało urządzenia.

Wszystkie te informacje są poddawane starannej obróbce pod kątem prywatności (ryzyko identyfikacji pojedynczej osoby, utraty danych), spójności (wewnątrz zbioru, pomiędzy zbiorami, ale też pomiędzy dostawcami danych) oraz jakości (eliminacja danych niereprezentatywnych, uzupełnianie braków w danych). Tak przygotowane dane są przechowywane w formie zapewniającej wydajne raportowanie lub wysyłkę do odbiorcy końcowego.

Maciej Piotrowski: Następnie bierzemy te dane, o których mówimy „analytically ready data”, i używamy ich do analityki. Od prostych ekstraktów danych, przez interaktywne eksploracje danych w stylu Business Intelligence aż po dedykowane aplikacje analityczne, pozwalające budować tzw. kohorty (grupy pacjentów, których historia medyczna spełnia pewne, często bardzo złożone kryteria) i na tych kohortach uruchamiać zaawansowane modele statystyczne i Machine Learningowe. Tworzymy również aplikacje bliżej czasu rzeczywistego, które np. analizują wyniki badań pacjentów i podnoszą alert, jeżeli odkryją zagrożenie zdarzenia niepożądanego.

Aplikacje te dostępne są w trybie SaaS, ale pracujemy również klientami, budując dla nich dedykowane modele, adresujące bardzo specyficzne przypadki.

Pracujemy również z klientami, aby pomóc im przetworzyć ich dane do postaci, w której mogą być częścią międzyośrodkowych sieci badawczych, jak EHDEN czy OHDSI.

Zajmujecie się głównie analityką medycznych danych. Co jest głównym celem Waszej pracy?

Piotr Kaczor: Jesteśmy częścią globalnej organizacji i wdrażamy projekty międzynarodowe. Zatrudniamy osoby na różnych poziomach doświadczenia i specjalizacji – developerów, testerów, architektów, scrum-masterów, product-ownerów, people-managerów. Polska część naszego zespołu (około 100 osób w Polsce, w Warszawie lub zdalnie) skupia się na tworzeniu ekosystemu aplikacji w obszarze Big Data, tzw. Data Factory, które są używane do przetwarzania „brudnych” danych ze świata (Real World Data) i tworzenia z nich czystych, jednorodnych, statystycznie poprawnych zbiorów danych.

Maciej Piotrowski: Uściśliłbym, iż zajmujemy się nie tyle stricte analityką, co tworzeniem narzędzi i platform, które pozwalają taką analitykę robić szybko, wydajnie i powtarzalnie. To, co jest istotnym elementem naszych rozwiązań to fakt, iż muszą być skalowalne — powinny pozwalać na użycie w wielu krajach, do danych pochodzących z różnych źródeł i służących do różnych celów. To prawdziwa sztuka i duże wyzwanie — zaprojektować i zbudować systemy tak, żeby spełniły dzisiejsze potrzeby i dały się łatwo rozszerzyć na przypadki, o których w tej chwili nie wiemy.

W jaki sposób zebrane dane mogą pomagać w tworzeniu najlepszych rozwiązań dla pacjentów?

Piotr Kaczor: Gromadzone przez nas dane umożliwiają analizę m.in. trendów epidemiologicznych jednocześnie w wielu krajach na świecie. Dodatkowo pozwalają zidentyfikować pacjentów zagrożonych chorobą lub zaostrzeniem. To z kolei umożliwia placówkom medycznym udostępniającym nam dane kontakt z pacjentem i reakcję wyprzedzającą, pozwalając na zapobieganie wystąpieniu choroby lub jej wykrycie na wczesnym etapie zaawansowania.

Wiedząc, na jakie schorzenia leczą się pacjenci w danej placówce, jesteśmy też w stanie podpowiedzieć optymalne miejsca do przeprowadzania prób klinicznych nowo testowanych leków. Na podstawie otrzymywanych recept z kolei możemy szacować długość i skuteczność terapii (dawki leków, okres przyjmowania), a choćby sugerować zmianę leczenia w kierunku bardziej skutecznych specyfików.

Jakie dane zbieracie? W jaki sposób je filtrujecie?

Piotr Kaczor: W naszym dziale koncentrujemy się na zbieraniu tzw. ‘Electronic Medical Records’, w uproszczeniu EMR, czyli wszelkich danych związanych z kontaktem pacjenta z placówką medyczną. Będą to zatem informacje słownikowe o pacjencie, placówce, lekarzu oraz powiązane z nimi zdarzenia medyczne (diagnozy, zgłoszone problemy, alergie, recepty, wykonane testy laboratoryjne i ich wyniki, szczepienia, skierowania, czy wywiad rodzinny).

Jak wspominaliśmy wcześniej, dane te, zgodnie z RODO (lub stosownymi normami światowymi jak GDPR czy HIPAA), są wstępnie anonimizowane (zamiana identyfikatorów, detekcja i zamiana fragmentów tekstu w polach tekstowych) i wykonywana jest ocena ryzyka reidentyfikacji. W wyniku przeprowadzonej oceny konieczne mogą być dalsze modyfikacje danych, zmierzające do ograniczenia ryzyka reidentyfikacji (np. wiek pacjenta powyżej 100 lat czyni go silnie identyfikowalnym w danym regionie kraju). Następnie dane są sprawdzane pod kątem legalności (placówka z istotną umową) oraz jakości przesyłanych danych.

Warto przy tym nadmienić, iż IQVIA nie jest prawnym właścicielem większości posiadanych danych, a ich zakup jak zwykle wiąże się z opłatą. W efekcie, w przeciwieństwie do firm z sektora finansowego lub sprzedaży, IQVIA z założenia nie posiada wszystkich danych rynkowych i z większą swobodą przedkłada poprawność danych nad ich kompletność. Wątpliwej jakości dane są odrzucane, a wszelkie braki w danych (z powodu odrzucenia lub braku umowy na dostarczanie) są uzupełniane po załadowaniu do hurtowni.

Maciej Piotrowski: Podkreśliłbym aspekt zapewnienia, iż pacjenci nie mogą zostać zidentyfikowani. Jest to prawdopodobnie najbardziej fundamentalna cecha naszych rozwiązań, która wymusza np. wielostopniowe (w różnych fizycznych lokalizacjach i operowane przez różne podmioty) procesowanie.

To, co wyróżnia nasze rozwiązania to fakt, iż nie tylko aplikujemy transformacje, ale jak wspomniał Piotr, używamy metodyki i rozwiązań, które kwantyfikują ryzyko identyfikacji. Czyli nie tylko usuwamy pewne wrażliwe informacje i mamy nadzieję, iż to wystarczy, ale rygorystycznie sprawdzamy i obliczamy, czy to ryzyko faktycznie zostało obniżone do zadanego poziomu.

Idź do oryginalnego materiału