Agnieszka Mikołajczyk na co dzień pracuje w Voicelab.ai i zajmuje się algorytmami, a także modelami sztucznej inteligencji. Jej specjalizacją pozostaje rozwój modeli NLP. Agnieszka równie chętnie udziela się w projektach typu open-source. Czy jej zdaniem przyszłość medycyny faktycznie będzie opierać się o sztuczną inteligencję? I co tak naprawdę możemy na tym zyskać? Agnieszka podzieliła się także szczegółami dotyczącymi problemów z „uprzedzeniami” algorytmów, które sama stara się wyeliminować. Zapraszam do lektury.
Cześć Agnieszka! Czym ostatnio się zajmujesz i co pochłania najwięcej Twojego czasu?
Cześć Aleksander! Ostatnio dużo się dzieje! Tak się składa, iż właśnie wczoraj wróciłam z konferencji MICCAI, która odbyła się w Singapurze. To jedna z największych konferencji na świecie, która skupia się na tematyce zastosowań AI w medycynie i idealnie wpasowuje się w tematykę doktoratu, który robię na Politechnice Gdańskiej. Oprócz MICCAI, ostatnie tygodnie poświęciłam na przygotowaniach do wyzwania na Polevalu, który zgłosiliśmy razem z zespołem NLP z Voicelabu, dopinaniu formalności związanych z obroną doktoratu, oraz codziennej pracy w firmie Voicelab AI.
Pamiętasz moment, w którym zainteresował Cię machine learning i szeroko pojęta sztuczna inteligencja? Co sprawiło, iż zdecydowałaś się wejść w ten świat?
Pamiętam. Byłam wtedy na studiach inżynierskich na kierunku Automatyka i Robotyka. Mieliśmy zajęcia z wprowadzenia do metod sztucznej inteligencji z profesorem Michałem Grochowskim, moim obecnym promotorem. Byłam zachwycona ideą sieci neuronowych, które na podstawie przekazanych danych były w stanie nauczyć się wykonywać wybrane zadania.
Już wtedy wiedziałam, iż moim tematem pracy dyplomowej inżynierskiej będzie projekt związany z uczeniem maszynowym. Do dzisiaj wypominam w żartach mamie, iż ciągłym namawianiem do obserwowania “pieprzyków” (znamion skórnych) na ciele zainspirowała mnie do wybrania takiego tematu pracy: klasyfikacji znamion skórnych w celu wczesnej diagnostyki czerniaka złośliwego.
Agnieszka Mikołajczyk jest jedną z prelegentek tegorocznej konferencji Infoshare 2022. Bilety na to wydarzenie z 15 proc. zniżką możesz kupić tutaj.
Jakie zmiany zaobserwowałaś we wspomnianym segmencie podczas swojej kariery? Które z nich uważasz za najbardziej przełomowe i czego możemy spodziewać się na przestrzeni najbliższych lat?
Trafne pytanie. Zmian w ogólnie pojętym uczeniu maszynowym było wiele. Pewnie liczne z nich przegapiłam bo nie dotyczyły ściśle mojej dyscypliny, niektóre dotknęły szersze, a inne węższe grona inżynierów czy badaczy. Dla mnie jedne z największych rewolucji dotyczyły nowych trendów w projektowaniu architektur modeli neuronowych. Po pierwsze, rekordowy wynik sieci konwolucyjnej AlexNet w 2012 roku, w wyzwaniu ImageNet, który zapoczątkował falę nowych rozwiązań opartych na filtrach konwolucyjnych: spowodowało to dynamiczny wzrost efektywności sieci do analizy obrazu.
Drugą taką architekturą są transformery (2017), które dzięki niezwykle efektywnemu mechanizmowi uwagi zrewolucjonizowały przetwarzanie języka naturalnego. Jako ostatnią istotną zmianę trendu wymieniłabym powrót do podejścia w stylu “data centric”. Andrew Ng, jeden ze znanych specjalistów w AI głośno krytykuje podejście inżynierów, którzy skupiają się na rozwoju algorytmów i modeli, kosztem ignorowania danych. Jego zdaniem powinniśmy skupić się bardziej na danych, których używamy, bo to z ich algorytmy czerpią wiedzę.
Czym dokładnie zajmujesz się w VoiceLab?
W VoiceLabie pracuję jako Team Leaderka zespołu NLP. Nasz zespół skupia się na rozwoju, badaniu i wdrażaniu algorytmów z NLP (przetwarzanie języka naturalnego). Musimy być zawsze na bieżąco z aktualnymi nowościami w NLP, czytamy artykuły, analizujemy nowe zbiory danych oraz biblioteki. Ponadto, sami czasami publikujemy własne zbiory (np. Na wyzwaniu Poleval 2021 i 2022), modele, oraz publikujemy wyniki prac naukowych w czasopismach naukowych i konferencjach. W listopadzie razem z Piotrem Pęzikiem oraz Marcinem Ogrodniczukiem jedziemy prezentować nasz nowy artykuł na konferencji naukowej w Wietnamie.
Badamy takie zagadnienia jak wykrywanie i rozpoznawanie intencji klienta, rozpoznawanie sentymentu, wykrywanie słów kluczowych. Tutaj możesz przetestować demo modelu do generacji słów kluczowych które stworzyliśmy.
Zrobiłem mały research i zaciekawił mnie fakt, iż pracujesz również nad “uprzedzeniami” w dużych zestawach danych. Jak poważny jest to problem? Z tego, co śledzę ten temat prywatnie, praktycznie każdy zestaw jest w jakiś sposób nacechowany i “skażony” konkretnymi parametrami. Jak można zaradzić takiej sytuacji? Domyślam się, iż nie jest to proste.
Tak, jest to bardzo istotny temat który badam w ramach mojego grantu. Te “uprzedzenia” (ang. bias) możemy zdefiniować jako błędy systematyczne występujące w danych. W swoim doktoracie opisuję kilkadziesiąt typów błędów które możemy spotkać w uczeniu maszynowym. Takie błędy, mogą zostać wprowadzone nieświadomie do zbioru na różnych etapach jego przygotowywania, na przykład. gdy dane są zbierane od niereprezentatywnej grupy.
Jak poważny jest problem? Zależy od przypadku. Sama badałam przypadek biasu w zbiorach znamion skórnych. Okazuje się, iż klasa złośliwa (nowotwór) jest skorelowana z czarną ramką wokół zdjęcia. Jak prawdopodobnie się domyślasz, to czy na zdjęciu widnieje czarna ramka czy nie, nie wpływa w rzeczywistości na to czy znamię jest nowotworowe. Modele jednak tego nie widzą, i nieznaczącą korelację niepoprawnie traktują jako cechę znamion nowotworowych. Podobnych przypadków odkryto więcej, na przykład. Google opublikowało w raporcie, iż ich model klasyfikował zapalenie płuc bazując na śladzie po długopisie, których doktor oznaczył chorych pacjentów.
Gdybyś mogła wybrać jedną gałąź rynku technologicznego, która najbardziej zyska na rozwoju algorytmów – to na którą byś się zdecydowała?
Chyba wybrałabym medycynę, bo z nią jestem związana od początku studiów. Chciałabym aby AI rozwinęło się na tyle, i osiągnęło na tyle wysokie wyniki żeby było tak powszechnie wykorzystywane w medycynie, jak aktualnie wykorzystuje się maszyny do badania krwi.