Sporo Streamlit i tutoriali budowania Agnetów AI

blog.prokulski.science 1 miesiąc temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Gdy jedni wciąż zastanawiają się, czy warto eksperymentować z agentami AI, inni już budują kompletne systemy analityczne z Pydantic-AI i Streamlit. Gdy niektóre zespoły mierzą się z podstawową konfiguracją Kafki, inne optymalizują przepustowość na poziomie miliona wiadomości na sekundę. Między innymi o tym dzisiaj.

Rewolucja agentów AI - od zera do działającego agenta z LangGraph, plus praktyczne połączenie Streamlit z Pydantic-AI do analizy danych. To nie są już tylko proof-of-concept, to konkretne narzędzia robocze.

Wydajność w praktyce - siedem konkretnych "dźwigni" Kafki dla stabilności przy milionach wiadomości, plus dwie ścieżki integracji z Snowflake. Gdy skala staje się wyzwaniem, detale mają znaczenie.

Python w akcji - od mikro-automatyzacji z shebang i uv, przez bulletproof testing, po AsyncIO wyjaśnione animacjami. Plus pomyłki w FastAPI, które po cichu zabijają wydajność aplikacji.

Inteligentny monitoring - Kubernetes z AI, real-time dashboardy w Streamlit i lekcje UX dla dashboardów od zespołów produktowych. Bo dane to jedno, a mądre ich wykorzystanie to zupełnie co innego.

Bonus: GitHub Models oraz vibe coding oczami weterana z 40-letnim doświadczeniem.

Przypominam też, iż 16-17 października Data & Analytics Comarch Meetup 2025 Jako patron medialny mam do rozdania wejściówki - więcej info już teraz w poście na FB / LinkedIn

ai_agent

From Zero to Hero: Building Your First AI Agent with LangGraph
Wprowadzenie do budowy własnego agenta AI przy użyciu LangGraph. Autor krok po kroku pokazuje, jak zbudować prostego agenta, który posiada stan, potrafi podejmować decyzje na bazie danych wejściowych oraz komunikować się z narzędziami zewnętrznymi. Omówione zostają zarówno koncepcje architektoniczne, jak i konkretna implementacja w Pythonie.

Building a Data Analyst Agent with Streamlit and Pydantic-AI
Artykuł przedstawia praktyczne podejście do stworzenia agenta wspierającego analizę danych z wykorzystaniem Streamlit jako interfejsu użytkownika oraz Pydantic i Pydantic-AI do budowy warstwy komunikacji z LLM. Autor krok po kroku pokazuje, jak połączyć te komponenty, aby umożliwić użytkownikowi prowadzenie konwersacji z agentem analizującym dane i zwracającym odpowiedzi w formie tekstowej lub graficznej.

ai_ml

Solving the inference problem for open source AI projects with GitHub Models
GitHub wprowadza inicjatywę GitHub Models, nowy sposób dystrybucji i uruchamiania otwartych modeli AI, który rozwiązuje istotny problem inferencji w projektach open source: brak dostępu do infrastruktury obliczeniowej. Proponowane podejście łączy modele, kod i dane w jednolitym repozytorium, umożliwiając ich łatwiejsze uruchamianie lokalnie lub w chmurze - bez konieczności konfiguracji środowiska od zera. Inicjatywa zawiera narzędzia wspierające developerów, jak wsparcie w GitHub Actions i wsparcie dla formatów modelu (np. PyTorch, GGUF), co zwiększa dostępność i reużywalność otwartych modeli językowych. Projekt ma na celu demokratyzację rozwoju AI i ułatwienie pracy społeczności open source, wspierając zarówno twórców, jak i użytkowników modeli.

analiza_danych_koncepcje

Wisla Krakow and the season that looked fine — until it wasn’t
Artykuł analizuje sezon piłkarski Wisły Kraków, który mimo obiecującego początku zakończył się rozczarowaniem i pozostaniem poza miejscami premiowanymi awansem. Autor przegląda wybory taktyczne, problemy kadrowe, wpływ kontuzji oraz decyzje transferowe, pokazując jak z pozoru stabilna sytuacja wymknęła się spod kontroli w kluczowych momentach sezonu. Analiza oparta na liczbach i kontekście organizacyjnym daje wgląd w to, jak choćby dobrze zapowiadający się projekt może napotkać strukturalne bariery, co może zainteresować czytelników poszukujących przykładów nietrywialnych zależności między danymi a rzeczywistością w zarządzaniu zespołem czy organizacją.

analiza_danych_projekty

Predicting Airline Customer Satisfaction: A Journey from Data to Random Forest
Analiza skupia się na kompletnym procesie predykcji satysfakcji klientów linii lotniczych, od przygotowania danych po zastosowanie modelu Random Forest. Autor krok po kroku przechodzi przez eksplorację i czyszczenie danych, analizę korelacji i znaczenia cech, aż po trenowanie i ocenę modeli klasyfikacyjnych. Typowy projekt dla data scientisty.

[PL] Konkterny projekt z analizy danych [autopromocja]
Typowym projektem jest też mój darmowy cykl - pięciu maili. Poprowadzę Cię przez praktyczny proces analizy danych: od wstępnej obróbki (czyszczenie, uzupełnianie braków), przez wizualizację - wykresy i mapki (bo wiemy, iż biznes kocha mapki!), po dodawanie zewnętrznych źródeł danych, w tym publicznie dostępnych. Zwieńczeniem cyklu jest zbudowanie własnego modelu predykcyjnego i zastosowanie go do nowych danych.

Building My First Recommendation System: From Basic Filters to Deep Learning
Artykuł opisuje praktyczne podejście do budowy systemu rekomendacyjnego - od prostych filtrów regułowych opartych na tagach, poprzez collaborative filtering z wykorzystaniem biblioteki Surprise i model Matrix Factorization, aż po głębokie sieci neuronowe w TensorFlow. Autor szczegółowo omawia zarówno implementację, jak i zalety oraz ograniczenia każdego podejścia, pokazując, jak rozwijać rozwiązanie w miarę wzrostu złożoności i dostępności danych.

bazy_danych

Relational Database Modeling: Conceptual vs Logical vs Physical Models
Artykuł przedstawia trzy poziomy modelowania relacyjnych baz danych — konceptualny, logiczny i fizyczny — wyjaśniając ich cele, zakres szczegółowości oraz rolę w cyklu projektowania bazy danych. Pokazuje różnice między tymi poziomami na praktycznych przykładach, m.in. jak z ogólnej wizji danych (model konceptualny) przejść do konkretnej implementacji z uwzględnieniem ograniczeń systemu bazodanowego (model fizyczny). Dla developerów, inżynierów danych i architektów systemów to konkretne i uporządkowane wprowadzenie do podejmowania trafnych decyzji projektowych na różnych etapach tworzenia bazy danych.

ciekawostki

Vibe Coding as a Coding Veteran
Artykuł porusza temat tzw. "vibe codingu", rozkładając ten styl pracy na czynniki pierwsze, wskazując, jak doświadczenie wpływa na skrócenie cyklu poznawczego: szybciej identyfikujemy istotne zależności, widzimy wzorce w kodzie oraz lepiej rozumiemy zamierzoną architekturę. Dla kontekstu: autor ma 40 lat doświadczenia w kodowaniu (od asemblera na maszynach 8-bitowych w latach 80.), używał około 20 języków programowania i tworzył oprogramowanie naukowe, aplikacje mobilne i aplikacje biznesowe - zarówno indywidualnie, jak i w zespołach.

data_engineering

Data Processing & Transformations in Databricks
Artykuł przedstawia uporządkowany zestaw wzorców, najlepszych praktyk i potencjalnych pułapek związanych z przetwarzaniem danych w środowisku Databricks, skupiając się na praktycznym zastosowaniu transformacji DataFrame’ów w PySparku. Znajdziemy tu konkretne przykłady dotyczące m.in. filtrowania, agregowania, scalania i odczytu danych z różnych źródeł w formacie Delta Lake, przy jednoczesnym zachowaniu skalowalności i czytelności kodu.

devops

From Tickets to Signals: How Kubernetes, AWS, Grafana/Prometheus, MCP, and n8n Rewire DevOps for Speed and Safety
Artykuł przedstawia podejście do automatyzacji procesów DevOps poprzez przekształcenie tradycyjnych zgłoszeń w sygnały wykorzystywane do podejmowania działań w czasie rzeczywistym. Na przykładzie platformy MCP, autor omawia integrację Kubernetes, AWS, Prometheusa, Grafany i n8n w spójny workflow, w którym dane obserwowalne generowane przez system (np. alerty Prometheusa) uruchamiają zautomatyzowane procesy — takie jak aktualizacja komponentów czy rekonfiguracje usług.

How I Made Kubernetes Monitoring Smarter with AI
Opisany przypadek wdrożenia monitoringu Kubernetes z wykorzystaniem AI prezentuje praktyczne podejście do optymalizacji obserwowalności systemów rozproszonych. Autor łączy narzędzia takie jak Prometheus, Grafana i Loki z OpenAI GPT poprzez API, aby automatycznie analizować alerty i logi, dostarczając nie tylko powiadomienia, ale także kontekstowy opis i możliwe przyczyny problemów. Takie podejście zmniejsza obciążenie zespołów SRE i DevOps oraz skraca czas diagnozowania incydentów dzięki generowanym dynamicznie sugestiom. Artykuł zawiera konkretne przykłady integracji i kodu źródłowego, co czyni go wartościowym źródłem wiedzy dla zespołów zainteresowanych automatyzacją w obrębie monitoringu infrastruktury.

kafka

7 Kafka Levers for 1M msg/s Stability
Siedem kluczowych elementów konfiguracyjnych Apache Kafka, które pozwalają osiągnąć stabilność i wysoką wydajność przy przetwarzaniu strumieni przekraczających milion wiadomości na sekundę. Autor wskazuje konkretne ustawienia związane z producentem, brokerem i konsumentem — takie jak batch.size, linger.ms, compression.type czy fetch.max.bytes — omawiając ich wpływ na przepustowość, opóźnienia oraz zużycie zasobów.

Two Paths from Kafka to Snowflake
Artykuł przedstawia dwa podejścia do budowy nowoczesnej architektury strumieniowego przetwarzania danych w czasie rzeczywistym z wykorzystaniem Apache Kafka oraz Snowflake: jedno oparte o gotowe, zarządzane narzędzia (Snowpipe Streaming), drugie opierające się na bardziej elastycznym, ale wymagającym większej konfiguracji podejściu z użyciem Flinka.

programowanie_ogólnie

One Command to Turn Any CSV into a Streamlit App with Gemini CLI
Oto sposób na błyskawiczne stworzenie aplikacji Streamlit do eksploracji danych z plików CSV przy użyciu narzędzia Gemini CLI. Czyli vibe coding w praktyce.

Everything I know about good API design
Dobrze zaprojektowane API to nie tylko kwestia składni i nazw funkcji, a przede wszystkim klarowność umysłowa twórców i spójna architektura, która prowadzi użytkownika za rękę. Artykuł przedstawia konkretne modele mentalne oraz praktyczne wskazówki, takie jak zasada minimalnego zaskoczenia, projektowanie hierarchiczne i rola precyzyjnej dokumentacji. Zawiera omówienie błędów typowych dla API rozwijanych ad hoc oraz pokazuje, jak projektować interfejsy ułatwiające testowanie i niezależność komponentów.

python

Shebang + uv = micro-automation
Artykuł opisuje, jak autor wykorzystał shebangi (#!) w połączeniu z UV do zbudowania mikro-narzędzi napisanych w Pythonie i - dzięki UV - samodzielnie przygotowujących sobie środowisko pracy, w tym potrzebne pakiety.

7 Testing Habits That Bulletproof My Python Projects
Siedem dobrych praktyk testowania, które pomagają tworzyć niezawodne i łatwe w utrzymaniu projekty w Pythonie. Omawiane podejścia obejmują m.in. pisanie testów przed implementacją (TDD), unikanie testów zależnych od zewnętrznych API przez stosowanie mocków, testowanie tylko publicznych interfejsów, a także dbałość o szybkość i niezawodność testów.

Streamlit for Realtime API Monitoring Dashboards
Artykuł przedstawia, jak zbudować dashboard do monitorowania API w czasie rzeczywistym przy użyciu Streamlit. W szczególności istotna jest aktualizacja w czasie rzeczywistym z wykorzystaniem mechanizmu Streamlit session_state.

Streamlit Auth & Role-Based Dashboards
Dzisiaj sporo przykładów wykorzystujących Streamlit, ale co z uwierzytelnianianiem i kontrolą dostępu? Ten artykuł opisuje jak zbudować system logowania z wykorzystaniem bibliotek streamlit-authenticator i yaml, a następnie jak dynamicznie renderować komponenty dashboardu w zależności od przypisanej roli (np. admin, moderator, user).

AsyncIO - Complete Guide to Asynchronous Programming with Animations
Jeden z lepszych materiałów o AsyncIO. W tym wideo poznasz świat programowania asynchronicznego w Pythonie z wykorzystaniem AsyncIO i składni async/await. Zobaczysz, jak działa pętla zdarzeń i korutyny, jak zamieniać kod synchroniczny na asynchroniczny oraz kiedy lepiej sięgnąć po AsyncIO, wątki lub multiprocessing. Po obejrzeniu będziesz dokładnie wiedzieć, jak i kiedy warto korzystać z AsyncIO w swoich projektach. [YT, 1h43m, po angielsku]

Starting a New FastAPI Project: A Practical Guide with Starter Template
Artykuł przedstawia praktyczne podejście do rozpoczęcia nowego projektu z wykorzystaniem FastAPI, koncentrując się na gotowym szablonie startowym, który usprawnia konfigurację i organizację kodu.

10 FastAPI Mistakes That Quietly Kill Performance
Dziesięć częstych błędów popełnianych przy tworzeniu aplikacji z użyciem FastAPI, które negatywnie wpływają na wydajność i skalowalność systemu. Omawia m.in. nieefektywne zarządzanie połączeniami do bazy danych, nieprawidłowe użycie async/await, brak limitów dla requestów czy niewłaściwe konfigurowanie logowania i middlewares. Każdy problem poparty jest przykładem i wyjaśnieniem, jak wpływa na działanie aplikacji oraz jak go uniknąć lub naprawić.

spark

8 Lesser-Known PySpark Functions That Solve Complex Problems Easily
Artykuł przedstawia 8 mniej znanych, ale niezwykle przydatnych funkcji dostępnych w PySpark, które pozwalają sprawnie rozwiązywać złożone problemy w pracy z dużymi zbiorami danych. Omawiane funkcje obejmują m.in. dynamiczne pivotowanie, porównywanie zakresów czasowych, czy wykrywanie anomalii dzięki funkcji okna.

ux

Dashboards That Impress: UX Lessons from Product Teams
Kilka praktycznych wskazówek dotyczących projektowania dashboardów, które skutecznie wspierają podejmowanie decyzji w zespołach produktowych. Autor analizuje typowe błędy prowadzące do przeładowania interfejsu lub ukrycia kluczowych informacji i podaje konkretne zasady dobrego UX, takie jak jasna hierarchia informacji, kontekstowy wybór metryk oraz wykorzystanie segmentacji użytkowników i trendów czasowych.

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału