Newsletter Dane i Analizy, 2024-07-08

blog.prokulski.science 2 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Zbieranie i magazynowanie danych - to typowe projekty, którymi zajmują się inżynierowie danych. Ale obszar data engineeringu jest na tyle obszerny, iż co tydzień adekwatnie coś tutaj możecie znaleźć. Dzisiaj dwa takie projekty-tutoriale: zbieranie informacji z YouTube oraz ogólnie z jakiegoś strumienia danych. W obu przypadkach używane są różne technologie.

A jak już mamy te dane, to kto powinien się zająć ich obróbką na "ostatniej mili" - baza czy kod? O tym też dzisiaj przeczytacie.

I na koniec, po zgromadzeniu danych i ich przetworzeniu możemy zająć się przygotowaniem rozwiązań ML/AI. W dzisiejszym numerze będzie to ruch na drogach w Norwegii (swoją drogą ponad 660 kamer podglądających ruch online... jak widać jedne państwa potrafią udostępniać dane, inne nie) z wykorzystaniem sieci CNN oraz historia tych sieci.

Nie zapominamy, iż trwa Euro, więc coś dla lubiących football a jeszcze bardziej analizę danych i wszelakie zestawienia związane z turniejem też coś interesującego się znajdzie. Opta Analyst robi robotę (nie tylko w piłce).


#ai_ml

The History of Convolutional Neural Networks for Image Classification (1989 - Today)
Historia sieci CNN i architektury kolejnych modeli do klasyfikacji obrazu. Czym się różnią od siebie, jakie zmiany zachodziły na przestrzeni czasu? Czyta się to niczym "Historię Techniki" :)

Monitor Traffic in Norway
W Norwegii istnieje system pokazujący na żywo ruch na ponad 660 web-kamerach. Autor opisuje jak przygotował model określający poziom natężenia ruchu ulicznego w oparciu o przykładowe kamery. I gotowe rozwiązania.

#analiza_danych_koncepcje

Data Drift: 6 Ways to Address a Drop in ML Performance
A jeżeli nagle dane się zaczynają zmieniać, a przez to pogarszają się wskaźniki jakości naszych modeli?

#architektura

Two Coordination Patterns in Distributed Architectures
Choreografia i orkiestracja - dwa typy architektury omówione w jednym tekście.

#bazy_danych

JSONB in PostgreSQL and Its Daily Uses
Postgres to potężny silnik bazodanowy, przy okazji pozwalający trzymać coś na kształt dokumentów (niczym bazy NoSQL jak Mongo). Jak korzystać z tych "dokumentowych" cech?

From Zero to dbt
Olbrzymi zbiór danych (ponad 30 GB, więcej w pierwszej części tekstu - link w treści) przygotowany do analizy z użyciem dbt i DuckDB

#ciekawostki

Visually Simulating the Three-Body Problem on Python
Niedawno popularnym był serial "Problem trzech ciał". Ale nie o serialu jest ten tekst, a o rzeczywistym, znanym z fizyki "problemie trzech ciał" i jego symulacji. Trochę matematyki, trochę fizyki, trochę programowania.

#data_engineering

SQL or Python for Data Transformations?
Kto powinien się zająć przetwarzaniem danych: baza czy kod? Rozważania o jednym i drugim podejściu.

A Recap of the Data Engineering Open Forum at Netflix
Netflix to nie tylko filmy, ale też (co dla nas ciekawsze) interesująca technologia. W kwietniu Netflix zorganizował "Data Engineering Open Forum" i tutaj znajdziecie podsumowanie tego wydarzenia (razem z prelekcjami, trzymanymi u konkurencji na YouTube)

YouTube Data Harvesting and Warehousing
Zbierz dane z kanałów na YouTube i je przeanalizuj - o tym jest ten tutorial, chociaż analiza zebranych danych nie jest jego najmocniejszą stroną. Warto jednak zobaczyć jak poprzez API YouTube pozyskać informacje i zachować je w bazie danych.

How I Dockerized Apache Flink, Kafka, and PostgreSQL for Real-Time Data Streaming
Prawie co tydzień w newsletterze jest podobny projekt - dane przesyłane strumieniem na Kafkę, zbierane z niej do jakiegoś "storage’u" i z niego na przykład raportowane na dashboardach. Dzisiaj podobne, ale po drodze z Apache Flinkiem. Ubranym w Pythona (nie wiedzieć czemu)

#devops

How to switch kubectl clusters between gcloud and minikube
Typowa sytuacja - domowy Kubernetes do testów (lokalnie, na minikube) oraz Google Cloud (GKE) do produkcji. Jak przełączać się między jednym a drugim środowiskiem?

Prometheus-Grafana. It all starts with Monitoring
A jak już mamy lokalnego Kubernetesa to chcielibyśmy prawdopodobnie go monitorować, prawda? Najpopularniejsze rozwiązanie to para Prometheus i Grafana. Zobacz jak je zainstalować na lokalnym klastrze K8s korzystając z Helma.

#programowanie_ogólnie

Gitflow: The Art of Branch Management
Nie tyle o samej filozofii GitFlow o ile o użyciu narzędzia upraszczającego pracę zgodnie z tą filozofią

#python

Scientific Python Lectures
Python dla naukowców... a może bardziej do obliczeń takich bardziej technicznych? Potężna dawka wiedzy z podstaw

Creating a Streamlit App for Satellite Imagery Visualization
Stosunkowo prosta, ale nie banalna aplikacja w Streamlicie - przeglądanie zdjęć satelitarnych oraz zliczanie występujących na nich kolorów. Tutorial nauczy Cię jak pobrać zdjęcie z zewnętrznej usługi API, przeliczyć "zawartość" zdjęcia, a wszystko ubrać w zgrabne GUI

FastAPI: From app.py to a Modular Architecture
Proste REST API napisane może być w postaci jednego pliku .py. Ale z czasem być może zostanie rozbudowane? Albo od początku wiemy, iż będzie podzielone na wiele domen? Wówczas warto zastosować routingi i kontrolery? To o nich jest ten tutorial

#wizualizacja_danych

Euro 2024: My Favourite Data Viz From The Tournament
Jak pokazywane jest Euro 2024 przez różne media? Opta Analyst rozwala system (i twierdzi, iż Hiszpania w finale wygrywa z Anglią), a serwis TheAnalyst.com to nowe FiveThirtyEight.com (które zajmuje się już tylko polityką)


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału