Newsletter Dane i Analizy, 2024-03-25

blog.prokulski.science 1 tydzień temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

#ai_ml

TacticAI: an AI assistant for football tactics
Czy AI zmieni sposób gry w piłkę nożną? Zobacz czym owocuje kooperacja FC Liverpool z DeepMind należącym do Google

Live Object Detection and Image Segmentation with YOLOv8
Jak działa YOLOv8? I jak szybko, z gotowych klocków, użyć tego algorytmu?

#analiza_danych_koncepcje

Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks
Autor opisuje/recenzuje publikację mówiącą o modelach rekomendacyjnych zbudowanych przez Spotify, mających na celu proponowaniu użytkownikom podcastów i audiobooków

#analiza_danych_projekty

Monte Carlo Simulation for Time Series Probabilistic Forecasts
O tym ile może wynieść kurs akcji za 200 dni. "Ja się nie pytam ile można zarobić, ja się pytam ile można stracić"

The Optimal Craft of Movie Shooting Schedule using ORTools
Produkcja filmu to przede wszystkim kręcenie scen. To oznacza, iż trzeba w jednym miejscu zgromadzić wszystkich potrzebnych aktorów. Ale wołanie jednego aktora co drugi dzień oznacza, iż za dni przerwy trzeba mu zapłacić, więc lepiej jego sceny kręcić "ciągiem" - dzień po dniu. Jak ułożyć to wszytko (pod różnymi aspektami), żeby było najtaniej, najbardziej efektywnie, najbardziej... Sami przeczytajcie! I film - w tym przypadku - nie różni się od układania grafiku czy planu lekcji.

Dune — A Hidden Network
Kto z kim w Diunie? Czyli sieć społecznościowa zbudowana z treści książki albo scenariusza.

#architektura

How Figma’s Databases Team Lived to Tell the Scale
Figma to ogromny serwis, który musi mieć dużo danych. Jak poradzono sobie ze skalowaniem baz danych przechowywujących te dane? O pomysłach na skalowanie baz danych.

#bazy_danych

How to use PostgreSQL for geoanalytics tasks
Ciekawe wykorzystanie PostgreSQL do analizy danych geograficznych. Korzystając między innymi z Open Street Map oraz narzędzia osm2pgsql

How We Made Real-Time Data Aggregation in Postgres Faster by 50,000%
Dowiedz się, jak przyspieszono agregację danych w czasie rzeczywistym w PostgreSQL o 50 tysięcy procent (!). Dane znajdują się w widoku zmaterializowanym oraz w tabelach, do których przychodzą nowe rekordy.

#ciekawostki

Which Is Harder: A Man Running a Marathon Under 3:00 or a Woman Under 3:30?
Tutaj nie chodzi o odpowiedź na to pytanie, a sposób analizy problemu i dojścia do odpowiedzi. interesujący tekst o tym, jak poszukiwać odpowiedzi w danych.

Logarithm: A logging engine for AI training workflows and services
Meta (Facebook) zbudował sobie framework do zarządzania logami i przede wszystkim wyciągania wniosków z logów, wręcz do uczenia się z nich. Zobacz jak ;-)

#data_engineering

The Past, Present and Future of Stream Processing
Kai Waehner pisze adekwatnie tylko o danych strumieniowych, ich przetwarzaniu, rozwiązaniach typu Kafka czy Flink. To jeden z wielu jego tekstów, gdzie zbiera wszystko razem pokazując za i przeciw. adekwatnie więcej nie musicie go czytać ;-)

Incremental Data Loading Strategies
Kilka podejść do przyjmowania nowych danych do naszego pełnego zbioru. Problem dość popularny i standardowy jednocześnie - dane raczej zawsze będą przybywać.

#mlops

Streamline ML Workflow with MLflow
Zapewne już znasz jakieś podstawy MLFlow, a przynajmniej przydałyby się do przejścia tego tekstu. Tutaj bowiem dowiesz się jak użyć Model Registry - jak zapisać w nim model, ale przede wszystkim jak z niego model pobrać i wykorzystać np. w API.

#programowanie_ogólnie

DuckDB as the new JQ
DuckDB to uniwersalny silnik bazodanowy, którego stałym czytelnikom nie trzeba przedstawiać. JQ to z kolei narzędzie do operacji na plikach JSON. Czy pierwsze jest w stanie zastąpić drugie? I jak?

#python

Advanced Looping Concepts with the Itertools Module
Pakiet Itertools kryje kilka ciekawostek związanych z - jak sama nazwa wskazuje - iteracjami w różnych potrzebach (cyklicznie, nieskończenie - to tylko proste przykłady).

Build Extensible and Composable CLI Apps
Można napisać fajnego notebooka w Jupiterze, można w jednej z "cellek" zmieniać wartości i tym samym parametry, ale w wywołaniach z konsoli tego nie użyjemy. Dlatego warto poznać sposoby na obsługę parametrów podawanych z linii poleceń. Przykłady oparte na pakiecie Click.

Code Autodocumentation
Najnudniejsze w pisaniu kodu jest tworzenie dokumentacji. Można sobie pomóc...

Some hidden treasures of Pandas library
Kilka nieoczywistych możliwości, o których Pandas nie podejrzewacie. Lista dataclass jako data frame - petarda!

The Impact of Operation Sequence
I jeszcze trochę o Pandas - wiesz, iż zmiana kolejności wykonywania operacji może drastycznie zmienić prędkość całego procesu zmian?

Authenticate the User via Facebook
Jak umożliwić logowanie do aplikacji napisanej w Django kontem Facebooka? Rozwiązanie to tokeny JWT

Mastering the Composite Design Pattern in Python
Wzorce projektowe to takie szwajcarskie scyzoryki - na każdy problem adekwatnie jakiś istnieje. Dzisiaj coś dla struktur hierarchicznych - wzorzec Kompozyt.

uv: The Blazingly Fast Python Package Manager
Manager pakietów i środowisk wirtualnych dla Pythona - uv. Szybki, wygodny.

The Blazingly Fast Python Linter and Formatter
Mamy uv jako managera pakietów, poznajmy też Ruff - formater kodu. Łączy w jedno takie narzędzia jak Flake8, isort czy Black. Tak, jest exstension do VSCode

#wizualizacja_danych

Mastering Circular Visualization in Python with Pycirclize
Wykresy oparte na okręgu - wygląda to efektownie, czasem choćby poprawia czytelność (np. chord diagrams). Jak to przygotować?

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału