Newsletter Dane i Analizy, 2025-06-16

blog.prokulski.science 4 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Mamy poniedziałek rano, więc zaparzaj kawę i przygotuj się na rozpoczęcie tygodnia z porcją wiedzy z świata danych i sztucznej inteligencji.

Witam przede wszystkich nowych subskrybentów! Zgodnie z obietnicą (warto śledzić moje social media): oto moja najnowsza książka mówiącej o tym, co trzeba umieć, aby pracować z danymi - od zupełnych podstaw w Excelu do dużych projektów data-inżynieryjnych, modeli AI czy dashboardów dla zarządów największych spółek.

Książka na razie dostępna jest za darmo, więc należy się śpieszyć. To wersja 1.0.beta, więc wszystkie uwagi mile widziane!

W numerze znajdziecie opowieści o tym, jak Meta przebudowała swój "jezioro danych" (bo choćby giganci mają problemy z architekturą), dlaczego mikrousługi czasem zamiast pomagać tworzą chaos, oraz jak Netflix rozwiązuje problem duplikowania modeli danych.
Nie zabraknie też praktycznych porad - od tworzenia map ciepła w Power BI bez pisania ani linijki DAX-a po garść mądrości zebranych przez developera po siedmiu latach pracy.

Sporą część sekcji o Pythonie poświęcona dzisiaj jest FastAPI - frameworkowi do pisania API, który podbił serca programistów. Sekcja zawiera adekwatnie wszystko, co potrzebne: od prostych porad strukturalnych, przez sposoby na wsparcie przez AI, aż po procesy CI/CD budujące gotowe i zoptymalizowane obrazy kontenerów. Bo czasem najlepsze rady pochodzą nie z książek, ale z bolesnych doświadczeń.

Hity zeszłego tygodnia:

What Types of Metrics Measure Customer Satisfaction? When a team is too big Explore the Global Wind Atlas 7 Open Source Diagram-as-Code Tools You Should Try Data science w Pythonie, w rzeczywistym projekcie (mój cykl mailowy)

Tradycyjnie zapraszam też na moje sociale związane z tym newsletterem: fanpage i LinkedIn.

#ai_ml

Gemini API with Python
Google w końcu udostępnił sensowne API do swoich modeli językowych, a wraz z tym - mamy tutorial pokazujący jak zacząć przygodę z Gemini w Pythonie. Znajdziecie tu wszystko (ale po łebkach) od podstawowego wysyłania zapytań po zaawansowane możliwości multimodalne i modele "myślące" Gemini 2.5. Idealne dla tych, którzy chcą sprawdzić, czy Google ma szansę zagrozić dominacji OpenAI. [YT, 12 minut, po angielsku]

Step-by-Step Guide to Deploying Machine Learning Models with FastAPI and Docker
Masz świetny model, który działa w Jupyter Notebook? Wspaniale, ale to jak posiadanie Ferrari parkującego w garażu. Ten przewodnik pokazuje krok po kroku, jak przekształcić model przewidujący progresję cukrzycy w działające API dostępne w chmurze. Od surowych danych przez FastAPI po kontener Dockera - kompletny przepis na deployment, który rzeczywiście pomoże użytkownikom.

#architektura

Model Once, Represent Everywhere: UDA (Unified Data Architecture) at Netflix
Netflix ma problem, który znamy wszyscy - te same koncepty biznesowe (jak "aktor" czy "film") są modelowane w różnych systemach na różne sposoby. Ich rozwiązanie? UDA - architektura oparta na grafach wiedzy, która pozwala zdefiniować model raz i używać go wszędzie. To fascynująca opowieść o tym, jak gigant streamingu walczy z duplikacją danych i niespójnością na poziomie przedsiębiorstwa.

When DevOps Becomes AntiOps
Mikrousługi miały być panaceum na wszystkie problemy architektoniczne. Tymczasem po 15 latach doświadczeń autor pokazuje, jak łatwo wpaść w pułapkę "rozproszonego monolitu" - najgorszego z możliwych światów. To szczera rozmowa o tym, kiedy mikrousługi zamiast pomagać tworzą chaos, i jak rozpoznać, iż twój system stał się dokładnie tym, czego chciałeś uniknąć.

#big_data

Building an Apache Iceberg Banking Reconciliation System
Apache Iceberg to nie tylko nazwa, ale też potężne narzędzie do zarządzania danymi. Autor pokazuje, jak wykorzystać jego możliwości do stworzenia systemu reconcyliacji bankowej - rozwiązania jednego z najstarszych problemów finansów dzięki najnowszych technologii. Połączenie teorii z praktyką, które może zainspirować do własnych projektów.

How did Meta modernize their lakehouse?
Meta pokazuje, jak przeprowadzić modernizację "jeziora danych" na skalę, która przyprawia o zawrót głowy. To nie jest tutorial techniczny, ale raczej studium przypadku organizacyjnych wyzwań i rozwiązań. Poznajcie kulisy tego, jak jeden z największych gigantów technologicznych radzi sobie z re-architekturą swoich platform danych.

#data_engineering

Which Data Architecture Should I Choose for My Workplace?
Wybór architektury danych to jak wybór partnera życiowego - decyzja na długie lata, którą łatwo zepsuć. Autor przeprowadza przez różne podejścia: od klasycznych hurtowni danych po modne "data mesh", wyjaśniając kiedy które rozwiązanie ma sens. Praktyczny przewodnik dla tych, którzy muszą podjąć tę trudną decyzję.

#devops

15 Bash Commands for Parallel Processing & Multi-Threading
Bash to nie tylko narzędzie do prostych skryptów - potrafi też w przetwarzanie równoległe. Piętnaście komend i technik, które pozwolą wam wykorzystać pełną moc sprzętu bez komplikowania skryptów. Od podstawowego "&" po zaawansowane "xargs -P" - wszystko z przykładami, które można od razu zastosować.

Team-Friendly Git & SSH for Multiple Accounts
Masz konto służbowe i prywatne na GitHubie? Ten przewodnik pokazuje, jak skonfigurować SSH tak, by automatycznie używać adekwatnego klucza dla adekwatnego repozytorium. Rozwiązanie przyjazne dla zespołu - nie zmusza kolegów do adoptowania twoich dziwnych konfiguracji, a ty możesz spokojnie pracować z wieloma tożsamościami.

#management

37 Lessons From My 7 Years in Software Engineering
Siedem lat w programowaniu to wystarczająco dużo, by nazbierać sporą kolekcję blizn i mądrości. Autorka dzieli się 37 lekcjami - od tego, iż kodowanie ponad 3 godziny dziennie prowadzi do wypalenia (!), po to, iż dobrzy mentorzy nie dają odpowiedzi, tylko zadają adekwatne pytania. Zbiór praktycznych rad, które każdy programista powinien przeczytać. Szef (czy mentor) programisty też.

#powerbi

How to Create a Heatmap in Power BI
Power BI nie ma wbudowanej opcji map ciepła, ale nie trzeba kupować dodatkowych wizualizacji. Autor pokazuje sprytny sposób na stworzenie mapy ciepła używając tylko natywnych narzędzi - bez DAXa i bez kodu M. Czasem najlepsze rozwiązania są najbardziej proste.

#python

Ways to Optimize Your Code in Python
Python jest prosty i czytelny, ale czasem płacimy za to wydajnością. Ten artykuł pokazuje cztery sposoby na przyspieszenie kodu bez rezygnowania z czytelności. Od mądrego używania struktur danych po wykorzystanie wbudowanych funkcji - praktyczne rady, które naprawdę działają.

Abstract Base Classes (ABCs) and Protocols
ABC i protokoły w Pythonie to tematy, które często pojawiają się w rozmowach o interfejsach i sprawdzaniu typów. Autor nie poprzestaje na pokazaniu, jak ich używać - wyjaśnia fundamenty, dlaczego zostały wprowadzone i jak działają pod maską. Solidne zrozumienie zamiast powierzchownego kopiowania przykładów.

Supercharging fuzzy string matching: why approximate joins beat brute force
Dopasowywanie rozmytych ciągów znaków to klasyczny problem - "Microsoft Corp" vs "Microsoft Corporation". Tradycyjne podejścia gwałtownie się zadyszą na dużych zbiorach danych. Biblioteka pl-fuzzy-frame-match łączy przybliżone wyszukiwanie najbliższych sąsiadów z dokładnym dopasowywaniem rozmytym, osiągając przyspieszenie choćby 76 razy. Czasem najlepsze rozwiązanie to unikanie niepotrzebnej pracy.

Easily Read PDFs in Python: Extract Text, Images, Tables, and Metadata
PDFy to przekleństwo każdego, kto musi wyciągnąć z nich dane programowo. Na szczęście Python ma narzędzia, które czynią to zadanie znośnym. Przewodnik po bibliotece Spire.PDF pokazuje, jak wyciągnąć tekst, obrazy, tabele i metadane - choćby ze zeskanowanych dokumentów dzięki OCR.

How to Structure Your FastAPI Projects (The Right Way)
FastAPI podbił serca programistów Pythona, ale gdy projekt rośnie poza kilka endpointów, struktura staje się kluczowa. Praktyczny przewodnik po organizacji kodu - od separacji logiki biznesowej po testy. Dobrze zorganizowany projekt to szczęśliwsi developerzy i łatwiejsze wdrażanie nowych funkcji.

Using Enums with Pydantic and FastAPI Cleanly
Enumeracje w Python często są niedoceniane, a szkoda - to potężne narzędzie do zapewnienia bezpieczeństwa typów i czystej walidacji. Autor pokazuje, jak łączyć Enum z Pydantic i FastAPI, by uniknąć błędów typu "editro" zamiast "editor". Automatyczna dokumentacja i walidacja w jednym pakiecie.

Why Your FastAPI Project Needs an AI Copilot (and How to Prompt It Right)
Sztuczna inteligencja nie zastąpi programistów, ale programiści używający AI zastąpią tych, którzy tego nie robią. Konkretne przykłady użycia AI jako kopilota w projektach FastAPI - od optymalizacji zapytań bazodanowych po generowanie testów jednostkowych. Praktyczne rady, jak promptować AI, by otrzymać użyteczną pomoc.

How to Optimize Your Dockerfile for FastAPI: Step-by-Step from Bloated to Blazing Fast
Docker ułatwia deployment, ale łatwo też skończyć z obrazem większym niż system operacyjny. Przewodnik krok po kroku od napuchnięto obrazu Ubuntu 1GB+ do zoptymalizowanego wieloetapowego builda o wielkości 800MB i czasie budowania poniżej 6 sekund, co ma znaczenie w CI/CD.

#r

Setting up VScode for R and generative AI tools
VSCode z rozszerzeniami AI pozwala tworzyć całe przepływy pracy R używając jedynie promptów do modeli językowych. Możesz stworzyć projekt, zinterpretować wyniki i napisać szkic wniosków bez pisania kodu R. Większość tych narzędzi nie pozostało dostępna w RStudio, więc czas poznać alternatywę. Ci, którzy nie piszą w R też coś wydłubią dla siebie (Roo Code).

#spark

Top 50 PySpark and Spark Interview Questions
Przygotowanie do rozmowy kwalifikacyjnej z PySpark i Apache Spark może być wyzwaniem, biorąc pod uwagę szeroki zakres tematów. Autor zebrał ponad 50 najczęściej zadawanych pytań na rozmowach kwalifikacyjnych, obejmujących najważniejsze zagadnienia jak architektura Spark, SparkContext vs SparkSession, transformacje i akcje RDD, optymalizator Catalyst, serializację danych czy deployment w trybie cluster i client. Lista zawiera też praktyczne przykłady kodu do tworzenia RDD, czytania różnych formatów plików (CSV, JSON, XML) oraz rozwiązywania problemów z pamięcią i wydajnością w środowiskach rozproszonych.

#sql

1 = 1 Really Necessary in SQL Queries
Na pierwszy rzut oka "1 = 1" w SQL wygląda jak bezużyteczny trik. Okazuje się jednak praktyczną techniką oszczędzającą czas - szczególnie przy dynamicznym budowaniu zapytań w kodzie backendowym. Pozwala czysto układać warunki AND bez martwienia się o to, czy dodajesz pierwszy filtr czy kolejny. To nie dziwactwo, to praktyczne rozwiązanie konkretnego problemu.

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału