Newsletter Dane i Analizy, 2023-05-15

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Wielokrotnie w newsletterze znalazły się teksty mówiące o wykorzystaniu Snowflake, BigQuery czy Databricks. Dzisiaj przyszedł jednak czas na szybkie wprowadzenie do tych narzędzi - jak zacząć z nich korzystać? Jak stworzyć konto, jak załadować pierwsze dane?

A wiecie, iż narzędzia Microsoftu - na przykład Excel (poprzez VBA) czy też PowerBI potrafią współpracować z zewnętrznymi skryptami napisanymi w Pythonie albo R? jeżeli nie, to poniżej znajdziecie przykłady takiej współpracy. Swoją drogą - pewnie już ze dwa lata mija od plotek o wprowadzeniu Pythona do Excela... ale coś nie widać zmiany.


#ai_ml

PyTorch Image Classification Tutorial for Beginners
Tutoraili o rozpoznawaniu obrazków w TensorFlow było dużo, czas na przykład jak używać PyTorch

#analiza_danych_koncepcje

Survival Analysis
Survival analysis to metoda statystyczna, która jest używana do analizowania czasu trwania pewnego zdarzenia. Jest przydatna w przypadkach, gdy chcemy przewidzieć, ile czasu upłynie, zanim nastąpi jakiś istotny punkt w życiu danej osoby lub firmy.

#analiza_danych_projekty

Jak zająłem 4 miejsce w konkursie Kaggle - case study
Przyszedł pacjent, podał odpowiedź na kilkadziesiąt pytań o objawy i trzeba powiedzieć którą z chorób może mieć, a najlepiej podać trzy najbardziej prawdopodobne. Na tym polegał konkurs na Kaggle w którym Mateusz wziął udział i ukończy go na wysokim miejscu. Świetny wpis opisujący problem i podejście do jego rozwiązania.

Analyzing California’s Electric Vehicle Adoption Rate
Wykorzystując dane z Departamentu Motoryzacji Kalifornii oraz biblioteki Python, autor analizuje przyrost liczby pojazdów elektrycznych w Kalifornii. interesujący projekt, dużo kodu na GitHubie (link w treści)

Performing Object Detection using Video Stream
Za pomocą biblioteki Hugging Face można wykonywać detekcję twarzy wprost na strumieniu wideo (na przykład z kamerki w komputerze). Jest to szybkie i proste do napisania

#big_data

Getting Started with Databricks
W artykule przedstawiono platformę Databricks, która umożliwia łatwe i szybkie przetwarzanie dużych ilości danych.

Getting Started with Snowflake
Snowflake to narzędzie do przechowywania i analizy danych, które można wykorzystać w wielu różnych dziedzinach. Jest łatwe w obsłudze i pozwala na szybkie przetwarzanie dużych ilości danych. Szybkie wprowadzenie

#chatgpt

ChatGPT + Python + Power BI
PowerBI potrafi wykorzystać skrypty Pythona. Pythonem można odpytać API OpenAI i skorzystać z Chatu GPT. Skoro A prowadzi do B, a B do C to jednocześnie A prowadzi do C, prawda? Połączmy więc kropki w jedno

#mlops

Version Control Your ML Model Deployment With Git
Modelbit to narzędzie do zarządzania wersjami i wdrażania modeli uczenia maszynowego. Bazuje na Gicie, może być wystarczający, ale jednak to nie to samo co MLFlow

#programowanie_ogólnie

Git For the Modern Data Scientist
O co chodzi z tym Gitem, branchami i tak dalej?

#python

Spatial Representations for Artificial Intelligence
Świetny projekt (polecam przyjrzeć się przykładom) dający gotowe rozwiązania, szczególnie dla osób operujących na obszarach, sąsiednich obszarach czy dzieleniu obszarów na mniejsze części (np. heksagony).

Data-Oriented Programming
Pomyśl o danych jak o obiektach. Koncepcja opisana na przykładzie Pythona i dobrodziejstw jakie daje dataclasses

10 Python Itertools To Make Your Code Neater, Cleaner, and Better
10 przydatnych funkcji/iteratorów z wbudowanego pakietu itertools które ułatwiają życie i czynią kod przejrzystym

Catch Me If You Can
Coś o wyjątkach, czyli "przechwyconych błędach": trójka try - except - finally w praktyce.

Web Scraping Expedia using Python
Tekst opisuje, jak można ze strony Expedia.com (sprzedawca wycieczek wakacyjnych) pobrać informacje, a jest to przykład na zaawansowany webscrapping

Combining Multiprocessing and Asyncio in Python for Performance Boosts
Takie "wszystko wszędzie naraz" prawie - dużo operacji, na dużej liczbie elementów. Jak to wszystko zrównolelgić żeby wykonało się szybko?

Essential Tools for Improving Code Quality in Python
Kilka narzędzi pozwalajacych utrzymać porządek w kodzie, chociażby pod kątem jego formatowania (ale nie tylko)

What is pyproject.toml in Python
Począwszy od Pythona w wersji 3.6 pyproject.toml staje się popularnym rozwiązaniem ułatwiającym zarządzanie wersjonowaniem i zależnościami kodu budowanych pakietów. Jak korzystać z niego w praktyce?

#r

VBA to R and Back
Skoro PowerBI potrafi użyć skryptów Pythona (R też prawdę mówiąc) to może taki np. Excel by umiał? Za pośrednictwem VBA?

How to Write a Custom Function to Generate Multiple Plots in R
Czasem przychodzi konieczność porównania danych w poszczególnych kategoriach (w przykładzie jest to rok) pomiędzy różnymi grupami (w przykładzie: gatunek). Warto w takich przypadkach ułatwić sobie pracę i przygotować jedną funkcję, która taki złożony wykres "ogarnie"

Tune an XGBoost model with early stopping
Problem polega na policzeniu jaki jest koszt utrzymania dziecka. A artykuł ten (jak ktoś woli screencast to też jest) to opis rozwiązania tego problemy w R i XGBoost

#spark

How we monitor thousands of Spark data pipelines
Monitorowanie tysięcy danych przepływających przez Sparka - autorzy użyli narzędzia o nazwie "Pipeline State Tracker", które śledzi stan każdego z przepływów danych, a także umożliwia wykrywanie i łatanie błędów.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału