Newsletter Dane i Analizy, 2025-04-14

blog.prokulski.science 2 dni temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Ciepłe powitanie dla wszystkich nowych czytelników, którzy dołączyli razem z cyklem o analizie danych z rynku pierwotnego nieruchomości! Cieszę się, iż tu jesteście. A jeżeli ktoś nie zna tego cyklu - zapraszam na stronę, gdzie można się zapisać. Za zupełną darmoszkę.

W tym tygodniu przygotowałem zestaw materiałów, które odzwierciedlają dynamiczny rozwój świata AI, analizy danych i programowania. Szczególnie interesujące wydają się nowinki z pogranicza multimodalnych modeli AI, gdzie można własnoręcznie zbudować odpowiednik GPT-4o, oraz projekt analizujący trendy w segmentach sponsorskich na YouTube.

Dla zwolenników zaawansowanej statystyki mam tekst opisujący 20 technik, które warto znać w 2025 roku i nie chodzi o średnie i mediany, a o dość zaawansowane aparaty matematyczne (z przykładami kodu a nie równań, całek i macierzy).

Python jest w tym newsletterze podstawą, w związku z tym znajdziesz sporo na ten temat - w tym ciekawą dyskusję o "przestarzałych" bibliotekach oraz narzędziach do optymalizacji hiperparametrów.

Dzisiaj sporo też praktycznych zagadnień ze świata data engineeringu - bazy danych i Kafka.

Tak, prawdę mówią plotki, iż AI bierze udział w przygotowaniu cotygodniowego zestawienia. Ale AI nie wybiera tekstów, to ręczna robota polegająca na przeglądaniu pewnie 2-3 setek tekstów (czasem po leadzie widać, iż nie warto dalej) tygodniowo. AI (głównie Claude i Perplexity, czasem ChatGPT) poprawia opisy, sugeruje wstęp, czasem weryfikuje całość. Dzisiaj Perplexity napisało: "Na podstawie przeprowadzonej analizy stwierdzam, iż zdecydowana większość opisów jest spójna z tytułami artykułów i prawdopodobnie z ich treścią." - tak więc nie ma lipy!

W zeszłym tygodniu najchętniej czytaliście:

A non-beginner Data Engineering Roadmap — 2025 Edition 9 Database Optimization Tricks SQL Experts Are Hiding From You Data engineering patterns What is Vibe Coding?

Zapraszam też na moje sociale związane z tym newsletterem: fanpage i LinkedIn, niedługo może nieco więcej będzie na YouTube.


#ai_ml

Building a GPT-4o Like Multi-Modal from Scratch
Tutorial prezentujący, jak napisać w Jupyter Notebook bardzo małą architekturę multimodalną, która potrafi przetwarzać tekst, obrazy, filmy i dźwięki, a także generować obrazy z monitów tekstowych, podobnie jak GPT-4o.

#analiza_danych_koncepcje

20 Cutting-Edge Statistical Techniques Every Data Scientist Should Master in 2025
Artykuł prezentuje 20 zaawansowanych technik statystycznych, które w połączeniu z AI i nowoczesnymi narzędziami umożliwiają wydobywanie wniosków ze złożonych danych. Metody te zapewniają przewagę konkurencyjną w różnych branżach, pozwalając budować modele, które są zarówno solidne, jak i łatwe do interpretacji.

Using Auto Classes in the Transformers Library
Przewodnik wyjaśniający użycie klas automatycznych w bibliotece transformatorów. Klasy te służą jako zamiennik konkretnych klas modeli, pozwalając bibliotece automatycznie ustalić odpowiednie klasy na podstawie konfiguracji modelu.

#analiza_danych_projekty

Develop a Python Library for Financial Network Analysis and Visualization
Artykuł przedstawia wykorzystanie grafów do analizy giełdy, skupiając się na notowaniach kursów akcji i ich wzajemnych wpływach.

Are We Watching More Ads Than Content?
Autor przeprowadził analizę mającą na celu sprawdzenie, czy na YouTube pojawia się coraz więcej segmentów sponsorskich. W tekście zaprezentowano fragmenty kodu SQL z użyciem DuckDB oraz kodu Pythona wykorzystującego bibliotekę Pandas. Pełny kod projektu jest dostępny na GitHub.

#bazy_danych

The PostgreSQL Performance Playbook
Kompleksowy poradnik opisujący proces diagnozowania i naprawiania powolnych zapytań w PostgreSQL.

PostgreSQL’s Native Trio for Integrated Caching
Artykuł prezentuje PostgreSQL jako system do buforowania. Choć często postrzegany wyłącznie jako transakcyjny koń roboczy, PostgreSQL oferuje potężne, zintegrowane rozwiązania natywne, takie jak tabele hstore, JSONB i UNLOGGED.

Create, Read, Update, Delete (CRUD) in MongoDB
Praktyczna ściągawka prezentująca podstawowe operacje CRUD w MongoDB.

#ciekawostki

Hosting SQLite databases on Github Pages
Autor prezentuje stworzone przez siebie narzędzie, które umożliwia korzystanie z prawdziwej bazy danych SQL na statycznie hostowanej stronie internetowej.

2024 Spotify Report
Projekt analizujący dane Spotify z 2024 roku w celu odkrycia kluczowych spostrzeżeń dla artystów, słuchaczy i całej branży muzycznej.

#kafka

Implementing Apache Kafka with Go
Poradnik wyjaśniający, jak połączyć Kafkę z językiem programowania Go w celu uzyskania wydajnych rozwiązań sterowanych zdarzeniami.

Handle errors in Kafka consumers like a bliss: retries and DLT reporting for duty
Artykuł opisuje pracę z asynchronicznymi systemami, takimi jak Kafka, podkreślając znaczenie idempotencji, kolejności przetwarzania i równoległości dla zapewnienia odporności. Tekst wyjaśnia, jak używać DLT, blokowania i asynchronicznych ponownych prób do tworzenia odpornych konsumentów Kafki z wykorzystaniem frameworka Spring.

#python

Praktyczne wykorzystanie PODSTAWOWYCH umiejętności w Pythonie [autopromocja]
Ta książka jest praktycznym przewodnikiem po wykorzystaniu Pythona do automatyzacji zadań. Skupia się na budowie aplikacji, w której trzeba skorzystać z usług sieciowych (API), baz danych oraz przygotować prezentację zebranych danych. jeżeli chcesz to robić, a nie wiesz jak - kup ją :)

Running External Commands in Python
Artykuł koncentruje się na wykorzystaniu funkcji subprocess.run do uruchamiania komend zewnętrznych z poziomu skryptów Pythona.

Stop Wasting Time on These 8 Overrated Python Libraries
Requests? pandas? BeautifulSoup? i kilka innych... Autor przedstawia biblioteki te jako przestarzałe narzędzia, których nie powinno się już używać w nowoczesnym Pythonie. Artykuł proponuje alternatywne rozwiązania, przy czym część sugestii jest dyskusyjna.

How to Perform Scikit-learn Hyperparameter Optimization with Optuna
Artykuł przedstawia Optuna - framework uczenia maszynowego zaprojektowany specjalnie do automatyzacji optymalizacji hiperparametrów. Tekst wyjaśnia, jak zintegrować to narzędzie z frameworkiem Scikit-learn w celu znalezienia optymalnych ustawień hiperparametrów modelu uczenia maszynowego.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału