Newsletter Dane i Analizy, 2023-03-06

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Prosty zestaw danych - tylko 6 liczb, po dwie dla 6 kategorii, każda z kategorii dodatkowo podzielona na 2 lata. Na ile sposobów można takie dane pokazać? Kilka, prawda? Bo ileż można wymyślać? I faktycznie - czasem jest nawymyślane nieco do przesady. Ale ta strona pokazuje aż 100 (słownie: sto!) przykładów wizualizacji tych 6 liczb. Fascynujące, inspirujące i... zdumiewające?

Dzisiaj też sporo w sekcji o analizie danych. Dwa interesujące pakiety (Great Expectations oraz NannyML) plus wręcz zbiór ułatwiaczy EDA. Dodatkowo bardzo fajny projekt rozpoznawania szachów (i możliwych ruchów) oraz wieloręki bandyta - sposób na optymalizację testów typu A/B przy ograniczonym budżecie.


#AI_ML

How to Transform Time Series for Deep Learning
Jak przygotować dane z szeregów czasowych do prognozowania ich w metodach deep learning?

#analiza_danych_koncepcje

Awesome Data Science Tools to Master in 2023: Data Profiling Edition
Szybka analiza całego zbioru danych? Które dane ze sobą są w jakiej korelacji? Jakie są rozkłady w poszczególnych kolumnach? Ile mamy braków? Często na takie EDA i pierwsze spojrzenie na dane poświęca się sporo czasu. A są do tego "gotowce"

Python Data Validation Made Easy with the Great Expectations Package
Great Expectations - interesujący pakiet do Pythona pozwalający na budowanie i weryfikowanie przepływów danych. Przyjrzyjmy się mu

How to Test PySpark ETL Data Pipeline
Zobaczyliśmy już, iż istnieje Great Expectations, zobaczmy jak z niego korzystać w praktyce w potokach przetwarzania danych przez Sparka

Performance Estimation
NannyML to tez zestaw narzędzi, ale tym razem do monitorowania poprawności działania modeli ML.

#analiza_danych_projekty

Solving Multi-arm Bandits
Problem wielorękiego bandyty (multi-arm bandit) to klasyczny problem uczenia się przez wzmacnianie, który polega na równoważeniu eksploracji (próbowania różnych działań w celu zebrania informacji) i eksploatacji (wybierania działania z najwyższą szacowaną nagrodą). Mówiąc krótko: mamy skończony budżet i w ramach tego budżetu chcemy osiągnąć największe zyski (ROI). Jednocześnie optymalizujemy i robimy użytek ze zdobywanej w kolejnych krokach wiedzy

Kaggle, Optuna i bardzo szybki las losowy
W ramach konkursu autor testuje las losowy od Intela, optymalizuje go z użyciem Optuna i zamienia CV na OOB

Chess Recognition Problem
O rozłożeniu figur na szachownicy ale też - przede wszystkim - o rozpoznawaniu figur na obrazkach ze schematami. W pierwszej części też o weryfikowaniu czy jedna figura nie szachuje drugiej

#bazy_danych

Loading JSON Files using DuckDB
DuckDB to relacyjna baza danych obsługująca język SQL. Została zaprojektowana do obsługi OLAP i dobrze nadaje się do wykonywania analiz danych. A jak jej użyć w praktyce, w szczególności z nieco bardziej zaawansowanymi składniowo plikami JSON?

#ciekawostki

30 Best Data Science Books to Read in 2023
Trzydzieści polecanych do nauki data science książek na 2023 rok. Niektóre z nich są dostępne też w języku polskim

#python

Geospatial python libraries and their use cases
Analiza danych przestrzennych w Pythonie sprowadza się do kilku zagadnień i kilku formatów danych. Szybkie wprowadzenie z podstawowymi informacjami oraz przykładami kodu

Profilowanie Pythona z yappi
Pewnie każdy z nas spotkał się z programem który działał wolno. Pół biedy jeżeli jesteśmy tylko jego użytkownikami, gorzej jeżeli jesteśmy jego współautorami. W tym drugim przypadku czeka nas niezwykle interesująca przygoda związana z profilowaniem programu, czyli szukaniem który fragment kodu odpowiada za jego wolne działanie.

FastAPI Microservice Patterns
Tekst wprowadzający do serii postów mówiących o patternach kodu obsługującego REST API napisane w FastAPI

How to Effectively Use Lambda Functions
Wprowadzenie do składni funkcji lambda, ich możliwości i zastosowania w projektach związanych z danymi

#sql

Advanced SQL Tips and Tricks for Data Analysts
Kilka typów zapytań SQL, które zaoszczędzą Twój czas i poprawią wydajność Twojego kodu


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału