Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Mam dla Ciebie nową porcję ciekawych tekstów, artykułów, zestawień i tutoriali - jak zwykle trochę o Pythonie, trochę o analizie danych, no i oczywiście coś o AI i ML. Ale spokojnie, nie wszystko tutaj to programowanie (chociaż wiadomo, iż to nasz główny temat :). Znajdziesz tu materiały dla wszystkich: od tych, którzy dopiero zaczynają, po treści dla bardziej zaawansowanych.
Oto, co między innymi znajdziesz dzisiaj poniżej:
Sztuczna inteligencja i uczenie maszynowe - rozpocznij rok od 50 najważniejszych materiałów o AI w 2025 roku, dowiedz się, jak zoptymalizować modele takie jak YOLOv8 na małych urządzeniach, i poznaj sposób na tworzenie asystentów AI do analizy rynków surowcowych. A może zainspiruje Cię budowa medycznego chatbota lub wykorzystanie MLFlow w agnostycznym podejściu do zarządzania modelami? Analiza danych i inżynieria danych - zanurz się w zaawansowanych technikach SQL dla niestrukturalnych danych, poznaj tajniki przetwarzania strumieniowego z użyciem Apache Spark, Kafka i Airflow, a także odkryj różnice między Elasticsearch a Apache Doris w analizie danych w czasie rzeczywistym. Python w praktyce - dowiedz się, jak stworzyć system powiadomień z FastAPI, pracować z danymi przestrzennymi dzięki GeoAlchemy, czy automatycznie generować diagramy architektury z kodu. Tu mała zapowiedź (bo jak się powie publicznie to ciąży taka motywacja "przecież obiecałem"), niejako przy okazji. Szykuję ebooka, który poprowadzi Cię krok po kroku przez projekt budowy aplikacji w Pythonie. Co więcej, w ebooku zajmiemy się naprawdę praktycznymi zadaniami, które odciążają od nudnej pracy. Wspólnie stworzymy dwie aplikacje, ucząc się po drodze, jak wykorzystywać usługi sieciowe, jak działać z bazami danych, i jak efektywnie wyświetlać zapisane dane. A żeby było co wyświetlać - sami stworzymy bazę danych, do której będziemy dodawać informacje! Ciekawe? Więcej szczegółów być może już za tydzień. Wypatruj! Bezpieczeństwo i ciekawostki - przeanalizuj globalne statystyki dotyczące otwartego portu 80, odkryj sposoby, w jakie Uber oszczędza czas dzięki Text-to-SQL, i sprawdź, jak korzystać z YouTube prosto z terminala. Inne inspiracje - od katalogów danych i ich obserwowalności po trendy marketingowe według TikToka - każdy znajdzie coś dla siebie.
Nie przegap tej dawki wiedzy i inspiracji - kliknij w linki i odkrywaj!
#ai_ml
The 2025 AI Engineering Reading List
50 artykułów/modeli/blogów z 10 dziedzin AI: LLM, Benchmarks, Prompting, RAG, Agents, CodeGen, Vision, Voice, Diffusion, Finetuning. Od tego zaczynamy, jeżeli zaczynamy przygodę z AI. Albo się rozwijamy :)
Optimizing YOLOv8 & Scaling Object Detection on Small Devices
Ciekawy materiał o tym, jak odchudzić model YOLOv8, żeby lepiej działał na telefonach i innych małych urządzeniach - warto rzucić okiem, jeżeli interesujesz się praktycznym wykorzystaniem AI, choćby na słabszych urządzeniach.
Building a Commodities Analysis Multi-Agent Framework
Ciekawy projekt pokazujący, jak wykorzystać AI do analizy rynku surowców. Autor przedstawia sposób na zbudowanie własnego asystenta opartego na LlamaIndex i API Financial Modeling Prep, który pomoże śledzić i analizować dane rynkowe - ale uwaga, to tylko proof of concept do celów edukacyjnych, nie do prawdziwego tradingu. Oczywiście, przedstawione narzędzia nie stanowią porady inwestycyjnej, a sytuacja na rynku może się zmienić ;)
#airflow
Airflow Data Intervals: A Deep Dive
Jeśli zastanawiałeś się kiedyś nad tym, jak Airflow ogarnia przedziały czasowe danych - to dobry tekst wyjaśniający podstawy. Autor tłumaczy, iż data interval to po prostu okres, za który odpowiada pojedyncze uruchomienie DAG-a, np. w przypadku dziennego harmonogramu to będą dane od północy do północy.
#architektura
Automatic Architecture Diagrams from Code
Swark to darmowe i otwarte rozszerzenie programu VS Code, które umożliwia automatyczne tworzenie diagramów architektury z kodu dzięki dużych modeli językowych (LLM).
#bezpieczeństwo
Open Port Chronicle: What Port 80 Revealed About The Internet
Standardowy port protokołu HTTP, czyli 80, wciąż pozostaje szeroko wykorzystywany na całym świecie. W ramach badania "Project Resonance" udało się zidentyfikować ponad 71 milionów hostów z otwartym portem 80. Jakie usługi były na nim uruchomione, jakie typy urządzeń go wykorzystywały i co te dane mówią nam o współczesnym obrazie internetu? Interesujące statystyki i wnioski czekają na odkrycie.
#big_data
Awesome Data Catalogs and Observability Platforms
Świetne źródło wiedzy dla wszystkich zainteresowanych katalogami danych i platformami do ich monitorowania. Znajdziesz tu przegląd dostępnych narzędzi wraz z ich kluczowymi funkcjami, takimi jak federacja, śledzenie pochodzenia danych czy wsparcie dla ML - idealne gdy szukasz rozwiązania do zarządzania danymi w swojej organizacji.
#ciekawostki
Holy Grails of Data
Od dekad zespoły danych gonią za kilkoma nieuchwytnymi Świętymi Graalami: samoobsługą, jednym źródłem prawdy i rolą sztucznej inteligencji. Te ostateczne cele są często omawiane, ale wydaje się, iż kilka zespołów danych faktycznie je osiągnęło. W tekście nie ma nic o łosiu i Skandynawii #kmwtw
Raport trendów "What’s Next 2025" wg TikToka
Autentyczność, kooperacja z twórcami, dotarcie do niszowych społeczności i inkluzywność to tylko niektóre z haseł, które według najnowszego raportu "What’s Next" TikToka będą przeważały w komunikacji marketingowej marek na platformie w 2025 roku. Dane i analizy zebrane przez ekspertów TikToka pokazują nowe sposoby budowania pozycji marek na platformie. Link prowadzi do omówienia raportu, zaś pełny materiał znajdziecie na końcu (link do PDFa)
How Uber is Saving 140,000 Hours Each Month Using Text-to-SQL
Uber zbudował sobie narzędzie QueryGPT - coś, co przetwarza tekst na zapytania SQL. Jak zmieniło to szybkość pracy analityków? jeżeli AI ma "zabrać nam pracę" to właśnie w ten sposób... ale tutaj bardziej wspomaga niż zabiera.
Browse YouTube from your terminal
Coś dla prawdziwych nerdów korzystających z terminala. Tytuł mówi sam za siebie :)
#data_engineering
End to End Data Engineering
Chcesz zajmować (i może docelowo pracować) w "branży" związanej z data engineeringiem (przerzucać dane z worka do worka)? Ten diagram pokaże Ci czego potrzebujesz w obszarze architektury, devops i przede wszystkim używanych technologii.
End-to-End Realtime Streaming Data Engineering Project
Artykuł demonstruje kompleksowy a jednocześnie dość typowy przepływ danych wykorzystujący rodzinę Apache: Spark Streaming, Kafka, Cassandra i Airflow. Cały proces pobiera dane z interfejsu API, przetwarza je w czasie rzeczywistym i przechowuje do dalszej analizy. Dodatkowo całość opakowana jest w obraz dockerowy, co dodaje smaczku devops do potrawy data engineering. Świetny przkład na wykorzystanie części technologii zaprezentowanych w tekście wyżej.
Why Apache Doris is a Better Alternative to Elasticsearch for Real-Time Analytics
Jeśli zastanawiasz się nad wyborem między Elasticsearch a Apache Doris, to warto obejrzeć to porównanie. Materiał szczegółowo omawia różnice między systemami, pokazuje konkretne przypadki migracji i dzieli się wynikami testów wydajności - plus rzuca okiem na przyszłe plany rozwoju Doris w kierunku analizy danych semi-strukturalnych. [YT, jakaś godzina]
#llm_&_chatgpt
Building a Medical Chatbot with Gemini 2.0, Flask and Vector Embedding
Jeśli chcesz stworzyć własnego chatbota (tutaj akurat medycznego) opartego na Gemini 2.0, to praktyczny poradnik jest dla Ciebie. Tekst krok po kroku pokazuje, jak zbudować funkcjonalnego bota, który pomoże w obsłudze pacjentów - od podstaw architektury, przez integrację z Gemini, aż po wdrożenie gotowego rozwiązania.
#mlops
Algorithm-Agnostic Model Building with MLflow
Zarządzaj modelami w MLFlow niezależnie od algorytmu (= typu modelu) jaki został użyty.
#python
Building a Notification Service with FastAPI and Python
Wyobraźmy sobie system, gdzie przesyłane są powiadomienia. Chcemy dodać powiadomienie, chcemy mieć historię powiadomień. Tutaj znajdziesz rozwiązanie. Może posłużyć jako element większego systemu (np. zebrane powiadomienia z całego dnia wysyłamy w nocy do użytkownika).
Create spatial APIs with FastAPI
CRUD do danych przestrzennych. Wykorzystana jest tutaj biblioteka GeoAlchemy - jeżeli zajmujesz się przetwarzaniem danych przestrzennych w Pythonie, może warto na nią zwrócić uwagę?
#sql
Advanced SQL Techniques for Unstructured Data Handling
W tym artykule przedstawiono kilka zaawansowanych technik SQL używanych do obsługi niestrukturalnych danych - parsowanie JSONów, wyrażenia regularne, rzutowanie typów. Stanowią one podstawę przetwarzania danych (i przygotowania ich do dalszej obróbki - już jako dane strukturalnie poukładane) lub eksploracji tekstów.
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)