Newsletter Dane i Analizy, 2024-01-29

blog.prokulski.science 11 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Ostatnio we wstępie pisałem o tym, iż do #devops wpadają wszystkie rzeczy związane z dokeryzacją, drobnymi programami i usprawnieniami używanymi w konsoli. Dzisiaj wprowadzam sekcję #DataEngineering. Powód jest dość prosty: najciekawsze są takie projekty, gdzie dane pobieramy, przetwarzamy, przesyłamy, gromadzimy, potem znowu przetwarzamy i pokazujemy użytkownikowi końcowemu. Prawie każdy taki projekt w tej chwili wykorzystuje AirFlow, Pythona, Kafkę, jakieś narzędzia BI, jakiś storage w postaci bazy danych albo na przykład Hadoopa. I do czego przypiąć taki tekst? Właśnie do "inżynierii danych".

Jednocześnie ten data engineering to w tej chwili - moim zdaniem - najbardziej przyszłościowy kierunek pracy. Bo ML zrobi się sam - jak będzie wystarczająco dużo danych to rozwiązania AutoML wyplują nam zadowalający model, być może bez "kręcenia śrubkami" będzie on wystarczający. Ale automatyczne rozwiązania przez cały czas potrzebują danych (sztuczna inteligencja nie wykształci się sama, bez danych) i właśnie po to jest data engineer - żeby te dane zebrać i przygotować.

Czy to "sexiest job in the 21st century"? Może nie "sexiest" ale najbardziej - znowu: według mnie - pożądana.


#ai_ml

AI in 2023: A year in review
Co wydarzyło się w AI w 2023 roku? Oczywiście LLM i generowanie grafiki.

#airflow

Mastering Airflow Variables
Airflow pozwala na zdefiniowanie zmiennych, których można później użyć w DAGach. Zobacz jak

How to use the DockerOperator
Czy z poziomu Airflow można uruchomić kontener Dockera? Można. Airflow pozostaje orkiestratorem, a cała adekwatna robota opakowana jest w kontenerze

#analiza_danych_projekty

Who Dies Next in Game of Thrones?
Analiza sieci społecznych w "Grze o tron" jako sposób na przewidzenie kto umrze następny

Ant Colony Optimization
Mrówki znajdują najkrótszą drogę - jak to się dzieje na poziomie algorytmów?

#bazy_danych

Six DuckDB SQL enhancements you should learn
Wbrew pozorom nie mam żadnych udziałów w DuckDB - to po prostu fascynujące narzędzie! A ten artykuł pokazuje te najprostsze cechy

Essential Best Practices for Optimal Performance
Kilka sposobów na przyspieszenie pracy PostgreSQL - bo nie zawsze same zapytania są wolne. adekwatnie to 30 a nie kilka :)

How we migrated our PostgreSQL database with 11 seconds downtime
Brytyjskie serwisy rządowe przeszły migrację danych w PostgreSQL. Użytkownicy nie zauważyli. Jak to się stało?

#ciekawostki

Tools and automations that allow me to work 10x more efficiently
Grzegorz przedstawia szereg narzędzi no-code, które pomagają mu w codziennej pracy i w organizowaniu biznesu, znacznie zwiększając jego wydajność. Warto rzucić okiem. Z pewnością znajdziesz tam aplikacje, z których nie korzystasz, a które mogą usprawnić Ci pracę lub życie. Godzina na YT, po polsku wbrew tytułowi.

#data_engineering

YouTube Realtime Data Engineering
Projekt przetwarzający dane pobrane z YouTube i analizujący je dzięki ksqlDB (to jest w części wideo)

ETL and Data Pipelines using Airflow and Kafka
I jeszcze jeden projekt - tym razem prostszy, ale dość szczegółowo opisujący użyte technologie, którymi są tutaj Kafka i Airflow

#flink

Kafka Flink Data Pipeline
Wprowadzenie do przetwarzania danych w Apache Flink

#java

Getting Started With Data Analysis in Java
Przyjęło się, iż do analizy danych wykorzystywany jest Python albo R. Ale nikt nie powiedział, iż nie można tego robić w Javie

#kafka

Kafka on Kubernetes
Kafka rozpięta na Kubernetesie, aby zmniejszyć ryzyko awarii.

How Intersport uses Apache Kafka as Database with Compacted Topic in Retail
Kafka to nie tylko "rura transmisyjna" ale może też służyć jako baza danych.

#management

Demystifying Project Estimation
Jak wyceniać projekty?

#programowanie_ogólnie

How well-structured should your data code be?
Napisanie kodu, żeby działał to jedno. Często na tym kończą się projekty ML. Ale potem przychodzi czas na rozwój i wówczas nieuporządkowany kod tylko utrudnia pracę...

#python

Performance Analysis of Python’s `dict()` and `{}`
TL;DR - {} szybsze.

Powerful One-liners in Pandas Every Data Scientist Should Know
Kilkanaście mniej znanych rozwiązań w Pandas, które przyspieszą pracę, bez pisania kolejnych linii kodu.

Introducing Python Classes and Dataclasses
Wszysko czego potrzebujesz na początek o programowaniu obiektowym w Pythonie.

Simplifying GUI Development in Python
Zazwyczaj aplikacje w Pythonie działają w konsoli albo jako backend używany np. przez wywołania w JavaScripcie. Ale nic nie stoi na przeszkodzie, żeby stworzyć aplikację z GUI, w czym pomoże pakiet PySimpleGUI. A tutaj znajdziesz wprowadzenie pokazujące jak używać podstawowych elementów interface’u.

#spark

5 Examples to Master PySpark Window Operations
Trochę o operacjach na grupach (w oknach) w Sparku

Hands on: PySpark + Kafka Streaming + OpenAI
OpenAI pomaga w przygotowaniu sztucznych danych w zadanym formacie (ale dlaczego nie np. Faker?...), które wysyłane są Kafką, a odbierane przez Spark Streaming. Ot, taki przykładowy projekcik

Fixing small files performance issues in Apache Spark
DataFlint to biblioteka do monitorowania wydajności dla Apache Spark. Dzięki niej możemy sprawdzić gdzie nasze sparkowe joby dostają zadyszki - na przykład na zbyt małych plikach na HDFSie.

#wizualizacja_danych

Top 10 Power BI Dashboard Examples in 2024
Ku inspiracji

#środowisko_pracy

AI Tools You Can Use in Visual Studio Code Besides GitHub Copilot
Czy są jakieś darmowe rozwiązania analogiczne do GitHub Copilota? Są, a tutaj znajdziesz przegląd rozszerzeń dla VSCode


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału