Newsletter Dane i Analizy, 2023-07-31

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Lubicie jazdę na rowerze? Sama jazda to przyjemność, ale równie interesujące jest obserwowanie wyścigu zawodowców - na przykład Tour de France. Znakomity w swoich tekstach o danych The New York Times przygotował porównanie jak gwałtownie jedzie grupa amatorów i czołówka kolarzy z Tour de France. Dane zebrano ze Stravy (w tekście znajdziecie linki do tras, a co za tym idzie do profili np. Tadeja Pogacara). Mając bardzo dużo przejazdów dziennikarze przygotowali interesujące wizualizacje i porównania.

Druga ciekawostka z dzisiejszego newslettera to Dozer - nowy tool do szybkiego łączenia danych pochodzących z różnych źródeł. Nie jest to jeszcze co prawda Trino (przynajmniej jeżeli chodzi o liczbę konektorów), ale może też warto się zainteresować?


#ai_ml

CatBoost: A Solution for Building Model with Categorical Data
Jednym z najpopularniejszych algorytmów w ML jest XGBoost, ale istnieje też CatBoost. To algorytm znany z wydajnej obsługi zmiennych kategorycznych i wysokiej wydajności predykcyjnej.

#analiza_danych_koncepcje

How to Deal with Sparse Datasets
Poznaj skuteczne techniki obsługi rzadkich zestawów danych w analizie danych. Odkryj metody wstępnego przetwarzania, algorytmy itp.

Semi-supervised learning on real-time data streams
Uczenie częściowo nadzorowane: w jaki sposób możesz skorzystać z nieoznakowanych danych, aby poprawić prognozy?

#analiza_danych_projekty

Using Weather Data for Machine Learning Models
Czy dane o pogodzie mogą poprawić wyniki modeli uczenia maszynowego? Mogą, a tutaj znajdziesz konkretny przykład

Real Time Weather Prediction
Zaprzęgamy AirFlow oraz XGBoost do predykcji pogody na jutro!

Optimizing TV Programs Scheduling Using Genetic Algorithms in Python
Praktyczny samouczek wyjaśniający czym są algorytmy generyczne na przykładzie problemu "jak zoptymalizować program telewizyjny"

#architektura

The Great Migration
Jak przeprowadzono migrację wszystkich subskrypcji Premium na platformie Wix?

#bazy_danych

Getting started with Vector DBs in Python
Bazy danych wektorowych są dziś w modzie. Było o nich zdaje się ostatnio w newsletterze, dzisiaj znowu. Tym razem o przykładach wykorzystania

#big_data

Dozer samples: Scaling ecommerce
Dozer (getdozer.io) - nowe narzędzie do budowania aplikacji opartych o obsługę danych w czasie rzeczywistym. Tutaj link do repozytorium pokazującego osiągi w przetwarzaniu danych na czterech dużych tabelach

How to Build a 5-Layer Data Stack
Uruchomienie platformy danych nie musi być skomplikowane. Oto 5 warstw, które musisz mieć, aby stymulować wdrażanie produktów do obsługi danych na dużą skalę.

#devops

Dockerfile best practices for Production
Jak pisać Dockerfile? 12 cennych rad i dobrych praktyk

#java

GET, POST, PUT, and DELETE and their limitations for building robust APIs
REST API to nie tylko metoda GET, ale też trzy pozostałe wymienione w tytule. Do czego służą, jak i kiedy ich użyć z przykładami kodu w Javie

#python

10 Surprising Ways to Use Generators in Python
Czym są generatory i do czego ich można użyć? Czyli Python dla nieco starszych juniorów :)

Pathlib for Path Manipulations
Pathlib to interesujące, zorientowane obiektowo podejście do ścieżek systemu plików. Dzięki wielu funkcjom tworzenia, usuwania, przenoszenia, zmiany nazwy, odczytu, zapisu, znajdowania lub dzielenia plików, pathlib jest doskonałym zamiennikiem modułu os. Ale czy jest szybszy?

Supercharging AI/ML Development with JupyterLab and Docker
Po co instalować Pythona i JupyterLab skoro można użyć gotowych obrazów dockerowych? W sumie dla wszystkich projektu możemy używać oddzielnego obrazu

Top 5 Python Libraries for Extracting Text from Images
Kiedyś przygotowałem "czytacz" pasków TVP Info zapisujący je do pliku tekstowego. Wykorzystany był tam jeden z pakietów do OCRowania. Jeden z kilku, bo jak widać jest kilka takich pakietów dla Pythona

10 Features From The Rich Library To Build Awesome Command-Line Apps
Ładnie wyglądająca aplikacja w konsoli? Zobacz jakie cuda potrafi robić pakiet rich.

How to Build an Interconnected Multi-Page Streamlit App
Jak przygotować całkiem sporą, wielomodułową aplikację w jakby nie było dość prostym frameworku jakim jest Streamlit? W tekście krótki opis oraz link do githuba z pełnym kodem (oraz do samej aplikacji)

#wizualizacja_danych

Visualizing my musical journey
Jak wygląda Twoja podróż przez gatunki muzyczne? Możesz to sobie narysować na wykresie! Potrzebne zebrane wcześniej dane.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału