Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Być może przeczytaliście wszystko co było do przeczytania z poprzedniego wydania newslettera, a może coś jeszcze Wam zostało? Dlatego dzisiaj nieco mniej (właściwie - tyle co zwykle) nowości, ale nie oznacza to wcale iż jakoś gorzej.
Sporo materiałów dotyczy Sparka i różnych z nim kombinacji - do nauki i szukania kierunków poszerzania wiedzy znakomite punkty wyjścia. Można też nauczyć się czegoś joinach w SQL.
Z nieco bardziej zaawansowanych tekstów polecam ten o Apache Hudi w Uberze oraz o tym jak adekwatnie działa ChatGPT. A skoro już przy nim jesteśmy - wiele w minionym czasie pojawia się tekstów o tym jak to ChatGPT zabierze pracę różnym ludziom, w tym programistom. Czy zabierze? Przekonamy się. Ale już teraz przeczytajcie jak może być pomocny przy tworzeniu kodu (na przykładzie aplikacji w Streamlit).
#AI_ML
What Is ChatGPT Doing ... and Why Does It Work?
Stephen Wolfram pokazuje szerszy obraz tego, co dzieje się w ChatGPT i dlaczego generuje sensowny tekst. Omawia modele, trenowanie sieci neuronowych, osadzanie, tokeny, transformatory, składnię języka.
Early Stopping for LightGBM and XGBoost
Jak wczesne zatrzymanie zmniejsza o połowę czas szkolenia modeli takich jak LightGBM, XGBoost i CatBoost.
#airflow
Airflow, Please hold my beer!
A może nie Apache Airflow tylko coś innego? Poznajcie Mage
#bazy_danych
Forget about SQLite, Use DuckDB Instead
Wprowadzenie do DuckDB i jego integracji z Pythonem. DuckDB to szybka baza plikowa, dyskwalifikująca SQLite już na dzień dobry
#big_data
Analyzing multi-gigabyte JSON files locally
Problem z tak ogromnymi plikami polega na tym, iż najczęściej nie mieszczą się w pamięci, a ich zawartość, aby miała sens, nie może niekiedy być przetwarzana malutkimi porcjami. Jak temu zaradzić? Odpowiedź znajdziesz w artykule.
Setting Uber’s Transactional Data Lake in Motion with Incremental ETL Using Apache Hudi
Uber opisuje temat uruchamiania przyrostowego ETL przy użyciu Apache Hudi. W artykule omówiono strategię przetwarzania przyrostowego, obsługę spóźnionych danych i uzupełnianie wzorcami projektowymi wyjaśniającymi, w jaki sposób Apache Hudi upraszcza przetwarzanie ETL.
#ciekawostki
How I used ChatGPT to Build a Streamlit Dashboard App
Popularne są w tej chwili teksty o tym jak to jakiś redaktor zaoszczędził bardzo dużo pieniędzy na firmie IT i przygotował sobie samodzielnie (z pomocą ChatGPT) oprogramowanie do czegoś tam. Tutaj znajdziecie bardziej techniczny tekst o tworzeniu aplikacji w Streamlit
#kafka
Using Kafka with Python
Kafka z poziomu Pythona, ale poprzez bibliotekę confluent-kafka a nie jak zwykle w tutorialach kafka-python
#python
The 30 Most Useful Python Libraries for Data Engineering
Dobry spis bibliotek które warto znać, jeżeli zajmujesz się ogólnie pojętym przetwarzaniem danych. Znać w rozumieniu wiedzieć iż istnieją i do czego mniej więcej służą - nie musisz uczyć się na pamięć dokumentacji!
Exception Handling in Python
Krótkie wprowadzenie do try-except dla początkujących pythonistów
FastAPI Background Tasks vs Celery: Which is Right for Your Application
Omówienie różnic między FastAPI a Celery pod kątem zadań asynchronicznych. Jak wybrać najlepsze narzędzie do danego przypadku użycia?
#r
Automating checks of handcrafted Word tables with docxtractr
Word nie jest najlepszym kawałkiem systemu żeby przygotowywać w nim tabelki. Do ich wydobycia z gotowych dokumentów można użyć R i pakietu docxtractr
#spark
PySpark Collection Functions: A Comprehensive Guide
Funkcje kolekcji w Spark to funkcje, które operują na kolekcji danych, takich jak tablica lub sekwencja. Funkcje te umożliwiają manipulowanie i przekształcanie danych na różne sposoby
Data Ingestion in Apache Spark
Coś o optymalizacji w Sparku
PySpark String Functions: A Comprehensive Guide
Jak przetwarzać dane tekstowe w Sparku?
Optimize Huge File Read
A jak mamy bardzo bardzo duże pliki to jak je do Sparka wczytać?
#sql
Klauzule JOIN w SQL - Devszczepaniak.pl
Klauzule JOIN w SQL są prostym konceptem, który zdecydowanie warto znać. W artykule poznasz rodzaje JOINów na przykładach w MySQL
#ux
Are you testing to test, or testing to prove?
Różnica między tymi dwiema podejściami do testów
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)