Czyszczenie danych (data cleaning) to trochę jak wywożenie śmieci z naszych tabel i baz danych. Niby nic wielkiego, a jednak bez tego ani rusz! W końcu, żeby dobrze analizować dane, muszą być one czyste i uporządkowane. Data cleaning to najważniejszy etap pracy każdego analityka danych.
W tym artykule opowiem o pięciu najważniejszych krokach, które wykonuję, czyszcząc dane. Pamiętajcie, iż to, co robimy z danymi, często jest intuicyjne, ale warto znać fachowe nazwy i procesy, żeby móc o nich rozmawiać i usystematyzować swoją pracę.
1. Identyfikacja i usuwanie duplikatów
Na początek szukamy duplikatów. Czasem trzeba je usunąć, a czasem nie – wszystko zależy od tego, jak dane są skonstruowane. Na przykład, jeżeli mamy tabelę z produktami w sklepie internetowym, ten sam produkt może występować dwa razy, ale z różnymi flagami językowymi (PL i EN). Wtedy nie usuwamy duplikatów, bo każdy rekord ma swoje znaczenie.
Ważne jest jednak, żeby zidentyfikować duplikaty, bo inaczej możemy otrzymać błędne wyniki analizy. Wyobraźcie sobie, iż zliczamy zamówienia i przez nieuwagę liczymy duplikaty – wyniki będą zawyżone, a na podstawie takich danych mogą być podejmowane ważne decyzje!
Czyszczenie danych – data cleaning: obejrzyj na YouTube 📺
2. Radzenie sobie z brakującymi wartościami
W idealnym świecie wszystkie kolumny w tabeli są wypełnione. Niestety, w praktyce często mamy do czynienia z brakującymi wartościami (w bazach danych często nazywanymi „nullami”).
Co wtedy robimy? Są różne scenariusze:
- Raportujemy brakujące wartości: Czasem brak wartości ma znaczenie, np. pusta kolumna „Numer zwrotu” w tabeli zamówień oznacza, iż do zwrotu nie doszło.
- Usuwamy dane: jeżeli brakujące wartości są wynikiem błędu (np. aplikacja nie działała i nie zbierała danych), możemy je usunąć.
- Wypełniamy brakujące wartości: jeżeli mamy dane liczbowe (np. temperatura), możemy uzupełnić brakujące wartości średnią z poprzedniej i następnej wartości.
3. Standaryzacja i normalizacja danych
Ten krok to trochę jak porządki w szafie. Chodzi o to, żeby dane były zorganizowane i spójne.
Normalizacja to unikanie powielania informacji. Zamiast trzymać imię, nazwisko i mail klienta w tabeli z zamówieniami, tworzymy osobną tabelę z klientami, a w zamówieniach trzymamy tylko identyfikator klienta.
Standaryzacja to ujednolicenie formatu danych. Upewniamy się, iż wszystkie wartości są w tych samych jednostkach (np. dolary, kilogramy) i zapisane w tym samym formacie.
Chcesz sprawdzić czy nadajesz się na analityka? Dołącz do społeczności KajoDataSpace i poznaj innych, takich jak Ty.
4. Sprawdzanie poprawności danych
Tutaj wcielamy się w detektywa i szukamy nieścisłości.
Ludzie wpisują dane na różne sposoby. Miasto „Warszawa” może być zapisane jako „Warszawa”, „Wawa”, „stolica Polski” itd. Musimy to ujednolicić, żeby analiza była poprawna.
Inny przykład to flagi (kolumny oznaczające prawdę/fałsz). Zamiast wartości „true/false” możemy mieć „T/F”, „1/0”, „prawda/fałsz” i mnóstwo innych kombinacji. To też trzeba uporządkować.
5. Wykrywanie i usuwanie anomalii
Anomalie to wartości, które odstają od normy. Na przykład, jeżeli zwykle w magazynie mamy 100-200 puszek z jedzeniem, a jednego dnia mamy 0 lub 500, to są to anomalie.
Czasem anomalie usuwamy, ale trzeba to robić ostrożnie. Może się okazać, iż anomalia to błąd w danych (np. system dwa razy zliczył puszki), ale może też być to ważna informacja (np. faktycznie zabrakło puszek w magazynie).
Najlepsze kursy z analizy danych – Excel, SQL, Python i więcej – znajdziesz u mnie na kajodata.com/kursy.
Podsumowanie
Czyszczenie danych (data cleaning) to istotny etap pracy każdego analityka. Wymaga spostrzegawczości, dokładności i trochę detektywistycznego nosa. Mam nadzieję, iż ten artykuł pomógł Wam zrozumieć, na czym polega data cleaning i jak się do niego zabrać.
Wolisz czytać po angielsku? No problem!
Inne interesujące artykuły:
- Brak pracy dla juniorów – jak zostać analitykiem danych?
- Błędy w CV – jak pisać CV, by zdobyć wymarzoną pracę
- Kim jest DevOps? Co Robi DevOps? Wywiad z Janem Tymińskim
To tyle w tym temacie. Analizujcie w pokoju!
Podobał Ci się ten artykuł 🙂?
Podziel się nim w Social Mediach 📱
>>> udostępnij go na LinkedIn i pokaż, iż codziennie uczysz się czegoś nowego
>>> wrzuć go na Facebooka, to się może przydać któremuś z Twoich znajomych
>>> Przypnij sobie tą stronkę to zakładek, może się przydać w przyszłości
Wolisz oglądać 📺 niż czytać – nie ma problemu
>>> Obserwuj i oglądaj KajoData na YouTube