Newsletter Dane i Analizy, 2023-12-04

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W poprzednim tygodniu przeczytać mogliście króciutkie podsumowanie Data Science Summit, a tam stwierdzenie, iż dużo się mówi o Streamlit jako sposobie na PoC-owanie prezentacji danych. Świat w tej chwili idzie również w stronę streamingu i obsługi tak przesyłanych danych - głównie Flinkiem. I na Flinku skupia się dzisiejszy numer naszego newslettera.

Ciekawy jest też niespełna półgodzinne nagranie prezentujące możliwości DuckDB w kontekście danych przestrzennych pozyskanych z Open Street Maps. Chwilę bawiłem się DuckDB ale w połączeniu ze sporymi zbiorami geo (zapisanymi w ShapeFile’ach) i śmiga to wspaniale. Jedyny minus - to baza plikowa, więc średnio do użycia w przypadku dostępu przez wiele aplikacji na raz. Ale jako element w procesie data engineeringu może się bardzo przydać.

W polskim świecie AI, szczególnie NLP wiadomość minionego tygodnia to powstanie konsorcjum PLLuM (Polish Large Language Universal Model).

A na koniec polecam też coś dla praktyków Kubernetersa - w sekcji "devops" atrakcyjny kąsek.

#analiza_danych_projekty

Comprehensive Time Series Exploratory Analysis
Pełen proces analizy szeregów czasowych. Od prostego narysowania danych (przygotowano zgrabną funkcję), do analizy sezonowości i autokorelacji szeregu.

Apache Flink for Sales Analytics
Wprowadzenie do Apache Flink na przykładzie łączenia i przetwarzania danych sprzedażowych.

#bazy_danych

DuckDB - przetwarzanie danych OSM z użyciem SQL, ale bez żadnych serwerów
Tomek Taraś pokazuje jak można użyć silnika DuckDB do przetwarzania danych OpenStreetMap (YT, 23 minuty, po polsku)

#big_data

Real Time Data Processing: Flink + Kafka + Python
Apache Flink to coś bardziej podobnego do Javy, ale nikt nie powiedział iż nie można pisać w Pythonie. Oto przykład.

How Big Data Is Saving Lives in Real Time
Skoro mamy IoT to możemy mieć też IoV - Internet of Vehicles. Tekst opisuje przykładową architekturę gromadzenia danych z pojazdów i udostępniania ich przez Apache Doris

#ciekawostki

Cyber Week: Analyzing Internet traffic and e-commerce trends
CloudFlare przepuszcza sporą część ruchu, a więc może pozwolić sobie na jego przeanalizowanie - pod kątem black week(end) i tego, gdzie płyną pieniądze w e-commerce.

#devops

SSH Tunnel: Local Port Forwarding
Trochę o tunelach SSH - czyli jak z lokalnego komputera dostać się do komputera, który dostępny jest tylko w innej sieci wewnętrznej (oczywiście jeżeli mamy taką możliwość). Przydatne, kiedy zaczniesz pracować dla klientów którzy nie wystawiają swoich danych "na świat" ale możesz dostać "maszynę przesiadkową"

Deploy Spring Boot Application with MySQL DB on Kubernetes
Obszerny tutorial o wdrażaniu swoich aplikacji (tutaj w Javie, ale koniec końców jest to obraz dockerowy) na środowiska kubernetesowe

#kafka

Kafka Client Best Practices
Kilka dobrych praktyk przy współpracy z Kafką - najważniejsze ustawienia producentów i konsumentów pozwalające na pewną i stabilną pracę

Building a Real-Time Data Streaming Pipeline using Apache Kafka, Flink and Postgres
Dzisiejsze wydanie zdominowane jest przez Flinka - zatem kolejny przykład jego wykorzystania

How to Calculate Moving Average for Stock Price Data Stream in Real-time
Przetwarzanie strumieniowe na topiku kafkowym, ale tym razem nie z Flinkiem, a z Kafka Streams - o agregacji w okienkach czasowych

#python

Data Class in Python
Obszerne (ale wiele jeszcze jest do uzupełnienia - np. w świetnym materiale Arjan Codes na YT sprzed kilku już pewnie lat) wprowadzenie do dość specyficznej struktury danych dostępnej "z pudełka" w Pythonie.

Authentication of APIs in FastAPI
Wszystko co chcesz wiedzieć o pisaniu API, którego metody wymagają autoryzacji - na przykładzie autoryzacji Basic i tokenem, w FastAPI

Batched K-Means with Python Numba and CUDA C
Pewne ograniczenia Pythona uniemożliwiają zwiększenie jego prędkości. Ale na przykład część algorytmów z biblioteki SciKit-Learn można przepisać na Numba i C wspierające CUDA czyli tak, aby wykorzystywały GPU.

#r

R Solution for Excel Puzzles
W różnych miejscach pojawiają się zagadki-problemy do rozwiązania. Na przykład w Excelu. Ale po co korzystać z Excela jak można z R?

PowerQuery Puzzle solved with R
Podobnie jak w powyższym tekście - zagadki do rozwiązania w PowerBI rozwiązane w R

How To Run Shiny Apps in a Docker Container
Tyle się mówi o konteneryzacji, choćby wiele razy w tym newsletterze pojawiały się teksty pokazujące jak wpakować do kontenera aplikacje w Pythonie. A R ze swoim frameworkiem Shiny?

#sql

The Ultimate Guide to Mastering “CASE WHEN" in SQL for Data Wizards
Warunkowe zwracanie wartości - na przykład jako mapowanie liczb na kategorie, ale też dynamiczne tworzenie kolumn. Na to miedzy innymi pozwala konstrykcja CASE-WHEN w SQLu

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału