Newsletter Dane i Analizy, 2024-06-24

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W piłkę polska reprezentacja już (za moment) na Euro nie pogra, ale o przewidywaniu wyników trwającego turnieju piłkarskiego coś dzisiaj znajdziecie. choćby nie w kontekście polskiej reprezentacji, a bardziej w kontekście "jak to się robi?". Bo taki cel ma ten newsletter - pokazywać jak to się robi. Więc jeżeli znasz kogoś, kto jeszcze nie wie to ślij mu tego maila. A jeżeli ktoś przysłał Tobie tego maila - to zapisz się prawilnie na odpowiedniej stronie.

Jak pewnie widzicie - dzisiaj w interesujące teksty obrodziło co nie miara. Mamy trochę o narzędziach (SQL Database Explorer, TensorBoard, GUI dla Kubertneresa i Dockera), trochę o tworzeniu takich narzędzi (optymalizujących i automatyzujących czynności) i o tym, kiedy warto je tworzyć.

A, no i nowe NumPy jest.

Miłych wakacji (tym, którzy je rozpoczynają).

#ai_ml

Przewidywanie wyników wydarzeń sportowych z użyciem ML
Skoro mamy okres mocno sportowy (Euro, za chwilę Igrzyska Olimpijskie) to czy da się przewidzieć wynik zawodów sportowych przy użyciu ML? Mateusz w nieco ponad godzinnym webinarze podchodzi do tego problemu.

Poisson model to predict UEFA Euro 2024
Podobnie jak webinar Mateusza - przewidujemy wyniki Euro stosunkowo prostymi metodami. Tekst został opublikowany przed turniejem, możecie więc porównać prawdę z predykcjami sprzed turnieju.

TensorBoard: A Comprehensive Overview
TensorBoard pozwala na analizę procesu trenowania modeli opartych o TensorFlow. Jak użyć tego narzędzia?

A Patch is More than 16*16 Pixels
Tekst przedstawia nowe badania: Pixel Transformer, który porównuje tokeny na poziomie pikseli z tokenami na poziomie patches, oraz Ultra-long sequence distributed transformer, który umożliwia przetwarzanie bardzo długich sekwencji wejściowych..

#analiza_danych_koncepcje

3 Simple Statistical Methods for Outlier Detection
Jeśli coś prostego działa to używaj - tak można zreferować ten tekst. Wykrywanie niestandardowych wartości prostymi metodami.

#analiza_danych_projekty

Dlaczego wschodnia Polska głosuje inaczej od zachodniej?
Różnice między wschodem a zachodem w wynikach głosowania do europarlamentu, skorygowane na strukturę ludności. Niebanalne spojrzenie na mapki wyborcze.

Scraping Youtube Comments for NLP Analysis
O pobieraniu treści komentarzy spod filmów na YouTube, ale też o ich analizie (takiej po łebkach)

#bazy_danych

SQL Database Explorer
SQL Database Explorer (bazy SQLite, libSQL, PostgreSQL, MySQL/MariaDB, DuckDB) w jednym pliku uruchamianym z konsoli i z interface’em WWW.

#bezpieczeństwo

Deserializacja atakuje modele ML po raz kolejny, tym razem jeszcze skuteczniej
Atak modelem zapisanym w "piklu".

#ciekawostki

When and Why to Automate
O automatyzacji - kiedy i co warto? Cenna tabelka z przelicznikiem ile czasu poświęcić na automatyzację w zależności od procesu, który chcemy automatyzować.

Introduction to Adversarial Attack In Computer Vision
Artykuł omawia ataki przeciwstawne (adversarial attacks) w uczeniu maszynowym, które mają na celu wprowadzenie w błąd modeli poprzez niewielkie modyfikacje danych wejściowych. Mowa jest również o przykładach ataków na modele klasyfikacji, detekcji obiektów i segmentacji obrazów.

Let’s Build Small AI Buzz, Offer ‘Claim Processing’ to Mid/Big Companies
Artykuł opisuje, jak fikcyjna firma wdrożyła AI w celu zmiany procesu obsługi roszczeń. Prezentuje on architekturę, która integruje zaawansowane technologie, aby zautomatyzować i usprawnić cały cykl życia roszczeń.

Here’s to the next 100 sudokus
Analiza jakie strategie są najczęściej stosowane przez autora (w jakiej kolejności wypełnia pola, czy ma jakieś ulubione techniki, itp.) przy rozwiązywaniu sudoku.

#data_engineering

Simple Model Retraining Automation via GitHub Actions
Czy można zaprząc GitHub Actions do badania czy trzeba przetrenować (i samego przetrenowania) model?

#devops

The Simplest Solution for Bi-Weekly Cronjob Execution
Jak zbudować crona, który wykona się co dwa tygodnie?

Best Kubernetes GUIs in 2024
Żeby nie klepać wszystkiego z konsoli a czasem poklikać...

Simplify Docker Management with Portainer
Podobnie jak w przypadku Kubernetesa - żeby sobie poklikać, a nie tylko pisać w CLI

Reducing the cost of a single Google Cloud Dataflow Pipeline by Over 60%
Chmura może kosztować. Allegro pokazuje jak te koszty zoptymalizowało. Między innymi patrząc na wykorzystanie maszyn ("ile żrą proca i ramu") i zmieniając tytpy maszyn na mniej kosztowne. Osoby od np. capacity planningu znajdą dużo cennej wiedzy. Przydzielający zasoby na Kubernetesie też.

#programowanie_ogólnie

UUIDv7 in 31 languages
31 języków programowania, a w nich jedna funkcja wyliczająca UUID. Ale UUID w wersji 7, mający kilka interesujących cech (np. sortuje się po czasie) i 128 bitów.

#python

NumPy 2.0.0 Release Notes
NumPy 2.0 wydane, a co w nim nowego? Ile pakietów przestanie być kompatybilnych? ;-)

Parsing XML Data. XML
Najlepszym sposobem na parsowanie XMLa w Pythonie (i pewnie innych językach też) jest... dostarczenie tych samych danych w JSONie. No, ale jeśl już trzeba sobie radzić... Tutorial z podstaw (bo nie ma uniwersalnego sposobu na XMLe i dowolną ich strukturę, taki ich urok).

A Beautiful and Timely Python Multi-page Streamlit Application
Wielozakładkowa (powiedzmy) aplikacja w Streamlit? Tak, to możliwe i choćby dość proste.

How I Automated My Entire Morning Routine with Python
Kilka prostych skryptów w Pythonie automatyzujących życie. A komu to potrzebne?

Implementing a Hash Table in Python: Step-by-Step
Zdaje się, iż jakiś czas temu było o HashMapach w Javie. Dzisiaj implementacja w Pythonie, która poza kodem daje dużo wiedzy o samych HashMapach

How to Setup Automatic Versioning for your FastAPI App
Bywa tak, iż API się zmienia i rodzi się nowa wersja. jeżeli jest to raz na rok to nie ma problemu, ale jeżeli mamy proces ciągły? Jak zapanować nad odpowiednią zmianą oznaczeń wersji?

#wizualizacja_danych

What 10 Years at Uber, Meta and Startups Taught Me About Data Analytics
Zbiór porad o tym jak prezentować dane i wyniki prac nad danymi do tzw. wyższego szczebla kadry zarządzającej albo i "normalnego" biznesu (czytaj: osób nietechnicznych). Ale nie tylko.

Golden Methods to Visualize Data with Skewed Distribution
Kilka podstawowych sposobów (zmiana osi na logarytmiczną, zmiana skali kolorów) na pokazanie danych, które na pierwszy rzut oka nie przedstawiają większych różnic. Warto znać, ale nie należy stosować za wszelką cenę.

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału