Newsletter Dane i Analizy, 2025-06-09

blog.prokulski.science 5 dni temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj momentami jest grubo - na przykład matematyczna elegancja B-spline’ów. Ale jest też trochę praktyki w DuckDB. jeżeli myślisz, iż świat danych to tylko nudne CSVki i niekończące się ETLe, ten numer (mam nadzieję) przekona Cię, iż to naprawdę fascynująca dziedzina pełna niespodzianek.

Szczególnie polecam zwrócić uwagę na historię firmya Tencent Music, która oszczędziła 80% kosztów przenosząc się z Elasticsearch na Apache Doris - to jeden z tych przypadków, gdy zmiana architektury naprawdę się opłaca. Z kolei dla miłośników optymalizacji opowieść o tym, jak Python API można przyspieszyć 10x bez przepisywania na Go czy Rust - czasem wystarczy po prostu dobrze pomyśleć!

Nie zabrakło też ciekawostek z zarządzania zespołami (kiedy zespół jest za duży? jak udzielać feedbacku?) albo dla dokumentujących i rysujących diagramy - czy mogą być jak kod w repozytorium? Jakich narzędzi użyć?

A na deser - automatyzacja czyszczenia Gmaila i interaktywny atlas wiatrów dla wszystkich, którzy lubią ładne wizualizacje - nie tylko te z New York Times ;-)

W zeszłym tygodniu najchętniej czytaliście:

Predicting NYC Taxi Trip Durations with Linear Regression Ola Kunysz - Czy można pracować inaczej? Prosta droga branży IT do wypalenia How I Create Client-Ready Sales Reports with Python in 5 Minutes Why Cron Jobs Are Dead — And CDC Is the Killer How Apache Iceberg Actually Works

Zapraszam też na moje sociale związane z tym newsletterem: fanpage i LinkedIn.


#analiza_danych_koncepcje

What Types of Metrics Measure Customer Satisfaction?
NPS, CSAT, CES - brzmi jak alfabetyczny bełkot, ale to klucz do zrozumienia, czy klienci nas kochają, czy tylko tolerują. Praktyczny przewodnik po metrykach satysfakcji klienta, który pomoże przekształcić surowe dane z ankiet w praktyczne wnioski. Bez marketingowego bzdetu, tylko konkretne wskazówki dla analityków.

Understanding Basis Spline (B-spline) By Working Through Cox-deBoor Algorithm
B-spline’y to nie tylko ładne krzywe na wykresach, ale także potężne narzędzie do wygładzania danych. Autor zabiera nas w podróż przez matematyczne podstawy, implementuje algorytm Cox-deBoor od zera i pokazuje, dlaczego niektórzy wolą B-spline od zwykłych wielomianów. jeżeli chcesz zrozumieć, co się dzieje pod maską funkcji wygładzających w GAM-ach, to jest to odpowiedni dla Ciebie tekst.

#analiza_danych_projekty

[PL] Konkterny projekt z analizy danych [autopromocja]
W pięciu mailach poprowadzę Cię przez praktyczny proces analizy danych: od wstępnej obróbki (czyszczenie, uzupełnianie braków), przez wizualizację - wykresy i mapki (bo wiemy, iż biznes kocha mapki!), po dodawanie zewnętrznych źródeł danych, w tym publicznie dostępnych. Zwieńczeniem cyklu jest zbudowanie własnego modelu predykcyjnego i zastosowanie go do nowych danych.

#architektura

Adopting Docs-as-Code at Pinterest
Pinterest wyjaśnia, dlaczego porzucili wiki na rzecz dokumentacji trzymanej w repo, obok kodu. Okazuje się, iż gdy dokumentacja żyje w tym samym miejscu co kod, magicznie stają się aktualna i użyteczna. Plus: mniej walk z formatowaniem, więcej czasu w pisanie sensownych treści.

7 Open Source Diagram-as-Code Tools You Should Try
Koniec z męczarnią w Visio i nie kończącymi się kolejnymi wersjami diagramów. Autor testuje siedem narzędzi do tworzenia diagramów z kodu, wszystkie na tej samej architekturze AWS. Porównanie obejmuje wszystko - od prostoty składni po jakość końcowego rezultatu. Idealne dla wszystkich, którzy wierzą, iż infrastruktura powinna być opisana kodem, nie kliknięciami.

How to Design Large-Scale AI Systems
Chcesz budować duże systemy AI, które nie wybuchną przy pierwszym większym obciążeniu? Ten przewodnik przeprowadzi Cię przez cały proces: od wyboru sprzętu, przez trenowanie modeli, po optymalizację i wdrożenie. Wszystko na dużą skalę i bez lania wody.

#bazy_danych

10 DuckDB SQL Tricks Every Python Analyst Should Know
DuckDB to nie tylko kolejna baza danych - to szwajcarski scyzoryk dla analityków danych. Stali czytelnicy newslettera to wiedzą. Dzisiaj kolejnych dziesięć tricków, które pokazują jak odpytywać CSVki bez ładowania ich do pamięci, łączyć pliki na dysku i używać DataFrames w Pandas tak samo jak tabel SQL. Krótko, konkretnie z kodem, od razu do zastosowania.

#big_data

DuckLake: SQL as a Lakehouse Format
DuckDB atakuje świat własnym formatem, który używa standardowej bazy SQL do metadanych zamiast skomplikowanych systemów plikowych. Czy to przyszłość czy kolejny format, który umrze śmiercią naturalną? Czas pokaże, a jeżeli znasz już moc DuckDB to koniecznie się zapoznaj z DuckLake.

How Tencent Music saved 80% in costs by migrating from Elasticsearch to Apache Doris
Historia prawdziwa: Tencent Music zastąpił Elasticsearch Apache Doris i oszczędził 80% kosztów storage przy 4x lepszej wydajności zapisu. Szczegółowy case study pokazuje, jak zunifikować wyszukiwanie pełnotekstowe, segmentację i analizę agregującą w jednym systemie. Obowiązkowa lektura dla wszystkich, którzy mają hybrydowe architektury.

#ciekawostki

Markdown with superpowers - from ideas to presentations, articles and books.
Quarkdown to Markdown na sterydach - jeden projekt, który kompiluje się do książki, prezentacji lub artykułu. Dla wszystkich, którzy kochają pisać w Markdown, ale czasem potrzebują czegoś więcej niż podstawowe formatowanie.

#data_engineering

Idempotent vs Non-Idempotent Data Pipelines Explained
Idempotentność w pipeline’ach to różnica między spokojnym snem a nocnymi alertami. Autor wyjaśnia, dlaczego pipeline, który można uruchomić wielokrotnie z tym samym rezultatem, to nie luksus, ale konieczność. Konkretne przykłady, praktyczne wzorce i recepta na to, jak nie zwariować.

#management

When a team is too big
Kiedy zespół jest za duży i dlaczego generaliści mogą być bardziej produktywni niż specjaliści? Prawdziwa historia o zespole, który próbował różnych podejść i ostatecznie znalazł rozwiązanie. Bez teoretyzowania, tylko praktyczne lekcje z doświadczenia.

What Real Feedback Sounds Like
Większość feedbacku nigdy nie zostaje wypowiedziana albo jest tak zawoalowana, iż mija się z celem. Siedem konkretnych sytuacji z przykładami "miękkiego" i "prawdziwego" feedbacku. Nie chodzi o bycie okrutnym, ale o bycie jasnym - różnica jest większa, niż się wydaje.

#programowanie_ogólnie

The Ultimate Guide to Authentication & Authorization
Autentykacja i autoryzacja to bramy do królestwa - jeżeli są źle skonfigurowane, atakujący nie będą pukać, tylko wejdą głównym wejściem. Praktyczny przewodnik dla doświadczonych inżynierów: sprawdzone wzorce z codziennej pracy, gotowe do użycia fragmenty kodu oraz nowoczesne narzędzia wykorzystywane przez najlepsze zespoły DevOps.

#python

Pyrefly vs. ty: Comparing Python’s Two New Rust-Based Type Checkers
Dwa nowe narzędzia do sprawdzania typów w Pythonie - oba napisane w Rust, oba obiecują szybkość i lepsze wnioskowanie typów. Meta kontra Astral - kto wygra wyścig o to, kto szybciej i skuteczniej znajdzie więcej błędów w Twoim kodzie? Szczegółowe porównanie dla tych, którym mypy już nie wystarcza.

4 Reasons Why Streamlit Is Better Than Dash, And One Reason Why It Is Not
Streamlit kontra Dash - odwieczna rywalizacja w świecie pythonowych dashboardów. Cztery powody, dla których Streamlit wygrywa (prostota, szybkość, minimum kodu pomocniczego) i jeden, przez który przegrywa. Praktyczne porównanie na tym samym zbiorze danych - bez miejsca na domysły.

How We Made Our Python API 10x Faster Without Rewriting in Another Language
"Python jest za wolny, żeby używać go produkcyjnie" - słyszeliście to już milion razy. Tymczasem ten zespół przyspieszył swoje API 10x bez porzucania Pythona na rzecz Go czy Rust. Database pooling, async optymalizacje, smart caching - konkretne techniki, które naprawdę działają.

Automate Gmail Cleanup with Python, Google API, and GitHub Actions
Automatyczne sprzątanie Gmaila dzięki Pythona i GitHub Actions. Skrypt, który usuwa stare maile z zakładek "Promotions" i "Social". Praktyczny projekt dla wszystkich, którzy mają dość manualnego usuwania zbędnych maili.

[PL] Zostań Ekspertem Pythona!
A może coś z Pythona, ale bardziej dla juniorów idących w stronę midów? Ta książka jest praktycznym przewodnikiem, bez pomijania trudnych szczegółów. Kup ją. Opowiada o czytaniu z API, komunikacji z bazami danych i tworzeniu prostych aplikacji dostępnych przez przegądarkę.

#wizualizacja_danych

Explore the Global Wind Atlas
Interaktywny atlas wiatrów dla całego świata, idealny do planowania farm wiatrowych lub po prostu dla satysfakcji z oglądania ładnych map. Nowe warstwy w Living Atlas pozwalają ocenić potencjał energii wiatrowej dla różnych regionów. Czasem po prostu warto się pobawić danymi, które wyglądają ładnie. Tak jak ładnie wygląda prezentacja tych danych.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału