Newsletter Dane i Analizy, 2025-04-07

blog.prokulski.science 1 tydzień temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj "mapy rozwoju" - czyli listy zagadnień, które warto poznać, zgłębić, nauczyć się, aby rozwinąć się w danej dziedzinie. Dziedziny te oczywiście bliskie są tematom przewodnim tego newslettera - przetwarzaniu danych. Zatem jest "ścieżka rozwojowa" dla inżynierów danych oraz dla zajmujących się uczeniem maszynowym (i jego "operacjonalizacyjną" stroną - MLOps).

Ciekawe dla Ciebie mogą być również dwa świeże raporty (za 2024 rok) związane z bezpieczeństwem - jeden z CERT, więc bezpieczeństwo raczej ogólne. Drugi z Komisji Nadzoru Finansowego dotyczący instytucji finansowych.

Na koniec polecam zbiór tricków w DBeaverze - chyba najpopularniejszym kliencie SQL.

A być może chcesz zobaczyć jak się robi to całe uczenie maszynowe? Zapisz się na mój bezpłatny cykl, gdzie w łącznie sześciu mailach zobaczysz konkretny projekt: od przygotowania środowiska, przez czyszczenie i uzupełnianie danych, paczkę wykresów i map (w tym mapę wartości cechy w gminach - bo to polskie dane, dość świeże, o nieruchomościach), do przygotowania modelu i użycia go do predykcji. Wszystko dostępne za darmo, ale trzeba się zapisać, o tutaj.
Jakieś 200 osób obserwujących moje social media już skorzystało - chcesz zostać w tyle? ;-) A moje sociale, gdzie zapraszam to fanpage i LinkedIn.

W zeszłym tygodniu najchętniej czytaliście:

Transforming VS Code into a Powerful SQL IDE What’s the Best PDF Extractor for RAG? I Tried LlamaParse, Unstructured and Vectorize Hands-On: Irregular Time Series for Predictive Modeling Revenge of the junior developer


#ai_ml

Code DeepSeek V3 From Scratch in Python
Kolejny kurs od freeCodeCamp, tym razem jest to kompleksowy przewodnik po DeepSeek V3 - nowatorskim modelu głębokiego uczenia. Pierwsza godzina to sporo teorii, a później wykorzystanie DeepSeek z poziomu Pythona. YT. łącznie 4 godziny, po angielsku.

How I Built an Invoice Tracker Using Unstructured API MCP Server
Ten projekt ma na celu ułatwienie klientom biznesowym zadawania pytań dotyczących rachunków za faktury za pośrednictwem Claude Desktop. Zapewnia narzędzia, monitory i zasoby, które pomagają w interakcji z aplikacjami zewnętrznymi. Przeczytaj ten samouczek, w którym autor pokazuje jak zbudował narzędzie do śledzenia faktur dzięki serwera Unstructured API MCP.

Implementation of all RL algorithms in a simpler way
To repozytorium to zbiór implementacji Pythona różnych algorytmów uczenia się przez wzmacnianie (RL). Głównym celem jest edukacja: uzyskanie głębokiego i intuicyjnego zrozumienia, jak te algorytmy działają od podszewki.

#analiza_danych_koncepcje

Data Analysis and Visualization with Gemini and Google Colab
Google Data Science Agent, oparty na Gemini, oferuje pełne notatniki Colab, które automatyzują analizę danych, generują kod, wyjaśniają błędy i oszczędzają czas użytkownika.

#bazy_danych

10 Essential Database Replication Techniques
10 kluczowych koncepcji, które stanowią podstawę replikacji bazy danych. Solidne zrozumienie tych zasad pomoże Ci lepiej zrozumieć decyzje projektowe stojące za nowoczesnymi systemami baz danych.

9 Database Optimization Tricks SQL Experts Are Hiding From You
Większość programistów uczy się wystarczająco dużo SQL, aby sobie poradzić — SELECT, INSERT, UPDATE, DELETE i może kilka JOINów. Mogą choćby wiedzieć, jak tworzyć indeksy dla często wyszukiwanych kolumn. Ale istnieje cały świat technik optymalizacji baz danych, które mogą radykalnie poprawić wydajność bez konieczności całkowitego przepisania aplikacji.

#bezpieczeństwo

Raport roczny z działalności CERT Polska w 2024 roku
Za nami kolejny rok działania zespołu CERT Polska. Rok absolutnie rekordowy, jeżeli weźmiemy pod uwagę praktycznie wszystkie statystyki przytaczane w naszych dotychczasowych raportach. Za tymi liczbami stoi codzienna praca ekspertów, którzy każdego dnia dbają o bezpieczeństwo Polaków w sieci. O tej pracy, kluczowych wyzwaniach, z którymi się mierzymy, oraz o analizowanych zagrożeniach jest tegoroczny raport.

Raport roczny CSIRT KNF 2024
Zespół bezpieczeństwa z Komisji Nadzoru Finansowego opublikował podsumowanie zagrożeń, które wpłynęły na instytucje finansowe w ubiegłym roku. Raport omawia różne aspekty zagrożeń, z którymi mierzyli się zarówno profesjonalni, jak i nieprofesjonalni uczestnicy rynku finansowego. Bezpośredni link do PDFa, 69 stron.

#ciekawostki

What is Vibe Coding?
Czym jest cały ten vide coding, o którym mówi się od kilku tygodni?

#data_engineering

Data engineering patterns
W sekcji o MLOps znajdziesz przewodnik o podstawowych zagadnieniach z tego obszaru, tutaj zaś - o tym co podstawowe (bardziej jako hasła, którymi warto się zainteresować oraz technologie, które warto poznać) w dziedzinie przetwarzania danych. Może Interesuje Cię szersze omówienie tych technologii? Daj znać, zobaczę co da się zrobić!

A non-beginner Data Engineering Roadmap
A tutaj mapa rozwoju dla nieco już rozwiniętych.

#mlops

The Roadmap for Mastering MLOps in 2025
W tym artykule omówiono i zestawiono podstawowe elementy MLOps i jeżeli myślisz o pracy w okolicach ML to jest to przewodnik dla Ciebie - zbiór zagadnień, które warto poznać.

#programowanie_ogólnie

How smart logging can improve troubleshooting in financial systems
Jak mądrze logować zdarzenia w systemach, choćby jeżeli jest to N mikroserwisów? Tak, aby łatwiej (i szybciej) rozwiązywać problemy.

#python

Automate Email Attachments with Python
Zdarzyło Ci się przerzucać załączniki z maila do jakiegoś folderu? Każdego dnia? A jak nie było maila, to trzeba się upomnieć... Nuda na maksa. Zautomatyzuj to sobie! Ten przewodnik pokazuje, jak automatycznie pobierać załączniki, przetwarzać pliki i wysyłać przypomnienia. W Outlooku!

Nie ma już ofert 15k+ dla juniorów! Trzeba się rozwijać [autopromocja]
Ta książka jest praktycznym przewodnikiem po wykorzystaniu Pythona do automatyzacji zadań. Skupia się na budowie aplikacji, w której trzeba skorzystać z usług sieciowych (API), baz danych oraz przygotować prezentację zebranych danych.

How to Scrape Airbnb Listing Data: A Step-by-Step Guide
Pobieranie danych (scraping) z ofert Airbnb - niby o Pythonie, ale jednak trochę reklama serwisu proxy.

Share Python Scripts Like a Pro
Udostępnianie skryptów Pythona w jednym pliku z zależnościami zewnętrznymi jest teraz łatwe dzięki uv i PEP 723, które umożliwiają osadzanie metadanych zależności bezpośrednio w skryptach.

#wizualizacja_danych

Creating Stunning Histograms with Plotly
Niebanalny, interaktywny histogram przygotowany w Plotly.

#środowisko_pracy

Master Docker and VS Code: Supercharge Your Dev Workflow
Jak używać Dockera pracując w VSCode?

7 Amazing DBeaver Tips and Tricks to Improve Your SQL Workflow
DBeaver to najpotężniejsze open-source’owe środowisko IDE SQL, ale jest kilka funkcji, o których ludzie nie wiedzą.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału