Newsletter Dane i Analizy, 2023-02-06

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj nieco zagadnień teoretycznych. Dobór odpowiedniego rozkładu do istniejących danych, metody tropienia ile tak na prawdę mamy "klastrów" (grup) w danych.

Sporo też o GPT-3, a raczej jego wykorzystaniu w różny sposób (od pisania książek do pisania... rozszerzeń do Chrome). Niespodziewanie dzisiaj rozrósł się dział dedykowany Apache Kafka.

Na koniec coś o wizualizacji, na przykład szpilki pokazujące gdzie mieszkają ludzie.


#AI_ML

Building a Multiclass Classification Model in PyTorch
PyTorch zdobywa rynek AI spychając w cień TensorFlow. jeżeli więc zamierzasz się przesiadać - ten tutorial o prostej klasyfikacji może się przydać

Self-Supervised Learning in Computer Vision
Jak trenować modele dzięki tylko kilku oznaczonych przykładów

#analiza_danych_koncepcje

How to Find the Best Theoretical Distribution for Your Data
Interesujący problem, ale w zasadzie dość istotny. Mamy zbiór danych, chcemy wiedzieć jaki ma rozkład. Taki teoretyczny, według matematyki. Dlaczego to jest ważne? Bo istnieją matematyczne sposoby na przekształcenia do zastosowania pod warunkiem, iż dane mają konkterny rozkład.

Are You Still Using the Elbow Method?
Metoda Elbow jak wiecie prawdopodobnie służy do określenia z iloma grupami mamy do czynienia i jakie jest to "k" w k-means. Ale czy to najlepsza metoda? Czy w ogóle są inne?

An End-to-End Supply Chain Optimization Case Study
Optymalizacja procesów związanych z dostawą - tutaj część pierwsza o prognozowaniu

ML Workflow Orchestration
Nie tylko Airflow może być orkiestratorem w procesach ETL. Tutaj mamy przedstawienie frameworku Prefect - rzekomo pomagającego w ETLach i procesach ML

Working With Payments Data in Python and SQL
Jednym z najczęstszych problemów analityków danych i inżynierii danych jest praca z danymi księgowymi. Każda firma mająca klientów wystawia im faktury za usługi. Ale jak sprawdzić kto płać a kto nie płaci?

#architektura

Processing Payments in a Distributed System
Procesowanie płatności w systemach rozproszonych - na rzeczywistym przykładzie

#bazy_danych

Think in SQL
Pisanie zapytań SQL jest łatwiejsze kiedy rozumie się logiczną kolejność przetwarzania zapytań

#big_data

Event Driven Shopping App with Python, Kafka & BigQuery
Skalowalne i kompleksowe rozwiązanie do przechowywania i analizy danych - w oparciu o chmurę Google

#ciekawostki

Accelerating our A/B experiments with machine learning
Jak przyspieszyć uzyskanie wyników z testów A/B?

#devops

Data Wrangling in the Command Line
jak uzyskiwać dane i manipulować nimi bezpośrednio w wierszu poleceń

From local development to Kubernetes
Tyle wokoło mówią o tym Kubernetesie ale jak adekwatnie z tego korzystać? Tutorial dla tych co chcieliby użyć Kubernetesa dla swoich aplikacji napisanych na przykład w Pythonie

#kafka

Performance of Kafka Consumers: 1 Billion messages
Kto jest szybszy (w czytaniu z Kafki) - Python czy Go?

Query Your Data in Kafka Using SQL
Czytanie z Kafki jak z bazy danych, dzięki zapytań SQL? Niemożliwe? A jednak!

#python

8 Most Popular Python HTML Web Scraping Packages with Benchmarks
Która biblioteka do scrappowania danych ze stron www najszybsza? Na plus - przykłady wykorzystania dla każdej z nich

Bentoml vs. Fastapi: The Best ML Model Deployment Framework and Why It’s Bentoml
Kto czyta ten newsletter albo chociaż raz w życiu próbował "opakować" model ML w jakieś REST API ten wie, iż najczęściej polecanym do tego celu pakietem był FastAPI. Wcześniej wszyscy mówili o Flasku, ale ten chyba bardziej jako zastępca PHP się nadaje. A tu nagle wjeżdża BentoML - jako alternatywa do FastAPI nastawiona na zastosowania w ML

Parquet Best Practices: The Art of Filtering
Trochę operacji na plikach Parquet i związane z tym sztuczki

#r

Diverging Lollipop Chart
Rozbieżny wykres Lollipop to przydatne narzędzie do porównywania danych, które dzielą się na dwie kategorie, zwykle oznaczone różnymi kolorami

#wizualizacja_danych

Visualizing Population Density Patterns in Six Countries
Mapy te pokazują gęstość zaludnienia kilku krajów, wykorzystując skoki 3D do wskazania, gdzie mieszka więcej ludzi. Dla zainteresowanych - klikając w linki można dokopać się do danych

Visualizing Street Tree Population Variance in NYC
Dużo drzew, dużo danych i sposób na ich agregację i prezentację na mapach


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału