Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Dzisiaj nieco zagadnień teoretycznych. Dobór odpowiedniego rozkładu do istniejących danych, metody tropienia ile tak na prawdę mamy "klastrów" (grup) w danych.
Sporo też o GPT-3, a raczej jego wykorzystaniu w różny sposób (od pisania książek do pisania... rozszerzeń do Chrome). Niespodziewanie dzisiaj rozrósł się dział dedykowany Apache Kafka.
Na koniec coś o wizualizacji, na przykład szpilki pokazujące gdzie mieszkają ludzie.
#AI_ML
Building a Multiclass Classification Model in PyTorch
PyTorch zdobywa rynek AI spychając w cień TensorFlow. jeżeli więc zamierzasz się przesiadać - ten tutorial o prostej klasyfikacji może się przydać
Self-Supervised Learning in Computer Vision
Jak trenować modele dzięki tylko kilku oznaczonych przykładów
#analiza_danych_koncepcje
How to Find the Best Theoretical Distribution for Your Data
Interesujący problem, ale w zasadzie dość istotny. Mamy zbiór danych, chcemy wiedzieć jaki ma rozkład. Taki teoretyczny, według matematyki. Dlaczego to jest ważne? Bo istnieją matematyczne sposoby na przekształcenia do zastosowania pod warunkiem, iż dane mają konkterny rozkład.
Are You Still Using the Elbow Method?
Metoda Elbow jak wiecie prawdopodobnie służy do określenia z iloma grupami mamy do czynienia i jakie jest to "k" w k-means. Ale czy to najlepsza metoda? Czy w ogóle są inne?
An End-to-End Supply Chain Optimization Case Study
Optymalizacja procesów związanych z dostawą - tutaj część pierwsza o prognozowaniu
ML Workflow Orchestration
Nie tylko Airflow może być orkiestratorem w procesach ETL. Tutaj mamy przedstawienie frameworku Prefect - rzekomo pomagającego w ETLach i procesach ML
Working With Payments Data in Python and SQL
Jednym z najczęstszych problemów analityków danych i inżynierii danych jest praca z danymi księgowymi. Każda firma mająca klientów wystawia im faktury za usługi. Ale jak sprawdzić kto płać a kto nie płaci?
#architektura
Processing Payments in a Distributed System
Procesowanie płatności w systemach rozproszonych - na rzeczywistym przykładzie
#bazy_danych
Think in SQL
Pisanie zapytań SQL jest łatwiejsze kiedy rozumie się logiczną kolejność przetwarzania zapytań
#big_data
Event Driven Shopping App with Python, Kafka & BigQuery
Skalowalne i kompleksowe rozwiązanie do przechowywania i analizy danych - w oparciu o chmurę Google
#ciekawostki
Accelerating our A/B experiments with machine learning
Jak przyspieszyć uzyskanie wyników z testów A/B?
#devops
Data Wrangling in the Command Line
jak uzyskiwać dane i manipulować nimi bezpośrednio w wierszu poleceń
From local development to Kubernetes
Tyle wokoło mówią o tym Kubernetesie ale jak adekwatnie z tego korzystać? Tutorial dla tych co chcieliby użyć Kubernetesa dla swoich aplikacji napisanych na przykład w Pythonie
#kafka
Performance of Kafka Consumers: 1 Billion messages
Kto jest szybszy (w czytaniu z Kafki) - Python czy Go?
Query Your Data in Kafka Using SQL
Czytanie z Kafki jak z bazy danych, dzięki zapytań SQL? Niemożliwe? A jednak!
#python
8 Most Popular Python HTML Web Scraping Packages with Benchmarks
Która biblioteka do scrappowania danych ze stron www najszybsza? Na plus - przykłady wykorzystania dla każdej z nich
Bentoml vs. Fastapi: The Best ML Model Deployment Framework and Why It’s Bentoml
Kto czyta ten newsletter albo chociaż raz w życiu próbował "opakować" model ML w jakieś REST API ten wie, iż najczęściej polecanym do tego celu pakietem był FastAPI. Wcześniej wszyscy mówili o Flasku, ale ten chyba bardziej jako zastępca PHP się nadaje. A tu nagle wjeżdża BentoML - jako alternatywa do FastAPI nastawiona na zastosowania w ML
Parquet Best Practices: The Art of Filtering
Trochę operacji na plikach Parquet i związane z tym sztuczki
#r
Diverging Lollipop Chart
Rozbieżny wykres Lollipop to przydatne narzędzie do porównywania danych, które dzielą się na dwie kategorie, zwykle oznaczone różnymi kolorami
#wizualizacja_danych
Visualizing Population Density Patterns in Six Countries
Mapy te pokazują gęstość zaludnienia kilku krajów, wykorzystując skoki 3D do wskazania, gdzie mieszka więcej ludzi. Dla zainteresowanych - klikając w linki można dokopać się do danych
Visualizing Street Tree Population Variance in NYC
Dużo drzew, dużo danych i sposób na ich agregację i prezentację na mapach
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)