Newsletter Dane i Analizy, 2023-03-27

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Być może przeczytaliście wszystko co było do przeczytania z poprzedniego wydania newslettera, a może coś jeszcze Wam zostało? Dlatego dzisiaj nieco mniej (właściwie - tyle co zwykle) nowości, ale nie oznacza to wcale iż jakoś gorzej.

Sporo materiałów dotyczy Sparka i różnych z nim kombinacji - do nauki i szukania kierunków poszerzania wiedzy znakomite punkty wyjścia. Można też nauczyć się czegoś joinach w SQL.

Z nieco bardziej zaawansowanych tekstów polecam ten o Apache Hudi w Uberze oraz o tym jak adekwatnie działa ChatGPT. A skoro już przy nim jesteśmy - wiele w minionym czasie pojawia się tekstów o tym jak to ChatGPT zabierze pracę różnym ludziom, w tym programistom. Czy zabierze? Przekonamy się. Ale już teraz przeczytajcie jak może być pomocny przy tworzeniu kodu (na przykładzie aplikacji w Streamlit).

#AI_ML

What Is ChatGPT Doing ... and Why Does It Work?
Stephen Wolfram pokazuje szerszy obraz tego, co dzieje się w ChatGPT i dlaczego generuje sensowny tekst. Omawia modele, trenowanie sieci neuronowych, osadzanie, tokeny, transformatory, składnię języka.

Early Stopping for LightGBM and XGBoost
Jak wczesne zatrzymanie zmniejsza o połowę czas szkolenia modeli takich jak LightGBM, XGBoost i CatBoost.

#airflow

Airflow, Please hold my beer!
A może nie Apache Airflow tylko coś innego? Poznajcie Mage

#bazy_danych

Forget about SQLite, Use DuckDB Instead
Wprowadzenie do DuckDB i jego integracji z Pythonem. DuckDB to szybka baza plikowa, dyskwalifikująca SQLite już na dzień dobry

#big_data

Analyzing multi-gigabyte JSON files locally
Problem z tak ogromnymi plikami polega na tym, iż najczęściej nie mieszczą się w pamięci, a ich zawartość, aby miała sens, nie może niekiedy być przetwarzana malutkimi porcjami. Jak temu zaradzić? Odpowiedź znajdziesz w artykule.

Setting Uber’s Transactional Data Lake in Motion with Incremental ETL Using Apache Hudi
Uber opisuje temat uruchamiania przyrostowego ETL przy użyciu Apache Hudi. W artykule omówiono strategię przetwarzania przyrostowego, obsługę spóźnionych danych i uzupełnianie wzorcami projektowymi wyjaśniającymi, w jaki sposób Apache Hudi upraszcza przetwarzanie ETL.

#ciekawostki

How I used ChatGPT to Build a Streamlit Dashboard App
Popularne są w tej chwili teksty o tym jak to jakiś redaktor zaoszczędził bardzo dużo pieniędzy na firmie IT i przygotował sobie samodzielnie (z pomocą ChatGPT) oprogramowanie do czegoś tam. Tutaj znajdziecie bardziej techniczny tekst o tworzeniu aplikacji w Streamlit

#kafka

Using Kafka with Python
Kafka z poziomu Pythona, ale poprzez bibliotekę confluent-kafka a nie jak zwykle w tutorialach kafka-python

#python

The 30 Most Useful Python Libraries for Data Engineering
Dobry spis bibliotek które warto znać, jeżeli zajmujesz się ogólnie pojętym przetwarzaniem danych. Znać w rozumieniu wiedzieć iż istnieją i do czego mniej więcej służą - nie musisz uczyć się na pamięć dokumentacji!

Exception Handling in Python
Krótkie wprowadzenie do try-except dla początkujących pythonistów

FastAPI Background Tasks vs Celery: Which is Right for Your Application
Omówienie różnic między FastAPI a Celery pod kątem zadań asynchronicznych. Jak wybrać najlepsze narzędzie do danego przypadku użycia?

#r

Automating checks of handcrafted Word tables with docxtractr
Word nie jest najlepszym kawałkiem systemu żeby przygotowywać w nim tabelki. Do ich wydobycia z gotowych dokumentów można użyć R i pakietu docxtractr

#spark

PySpark Collection Functions: A Comprehensive Guide
Funkcje kolekcji w Spark to funkcje, które operują na kolekcji danych, takich jak tablica lub sekwencja. Funkcje te umożliwiają manipulowanie i przekształcanie danych na różne sposoby

Data Ingestion in Apache Spark
Coś o optymalizacji w Sparku

PySpark String Functions: A Comprehensive Guide
Jak przetwarzać dane tekstowe w Sparku?

Optimize Huge File Read
A jak mamy bardzo bardzo duże pliki to jak je do Sparka wczytać?

#sql

Klauzule JOIN w SQL - Devszczepaniak.pl
Klauzule JOIN w SQL są prostym konceptem, który zdecydowanie warto znać. W artykule poznasz rodzaje JOINów na przykładach w MySQL