Newsletter Dane i Analizy, 2024-05-13

blog.prokulski.science 6 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Które narzędzie do generowania grafik - Dall-E czy Midjourney - poradzi sobie lepiej? Zobacz porównanie, a jak już wiesz co wygrało - u Artura Kurasińskiego znajdziesz potężny poradnik jak promptować zwycięzcę.

1 Billion Row Challenge - to jest big data, nie jakieś arkusze Excela i kilkanaście tysięcy wierszy. Jak sobie poradzą różne implementacje oparte na Pythonie i ewentualnych dodatkowych narzędziach? Skroluj do odpowiedniej sekcji, bardzo interesujące porównanie i kilka fajnych sposobów na optymalizację!


#ai_ml

Twitter thinks they killed MLPs. But what are Kolmogorov-Arnold Networks?
Koniec z MLP (Multi-Layer Perceptrons) i czas na KAN?

Understanding Kolmogorov Arnold Networks (KAN)
Drugi tekst o KAN, można traktować go równolegle z poprzednim albo jako uzupełnienie.

How does temperature impact next token prediction in LLMs?
Temperatura to jeden z parametrów, którym można sterować przy korzystaniu z modeli LLM. Jakie ma znaczenie i jaki wpływ na wyniki?

#airflow

How to Automate tasks with Airflow, Docker, and Python on your Local Machine
AitFlow to świetne narzędzie do zarządzania cyklicznymi procesami, w szczególności rozłożonymi na etapy. Zobacz jak przygotować dość podstawowy proces na swoim własnym komputerze - bardzo dobre na początek nauki.

#analiza_danych_koncepcje

Cyclical Encoding
Komputer nie wie, iż po 12 miesiącu jest 1, albo po 7 dniu tygodnia jest 1. Bo przecież jedynka nie jest większa niż 12 czy 7! Na ratunek przychodzi kodowanie cykliczne. W skrócie: warto wiedzieć jak wygląda tarcza zegara i do czego służą funkcje trygonometryczne.

#analiza_danych_projekty

How to Optimize Hyperparameter Search Using Bayesian Optimization and Optuna
Jak dobrać hiperparametry do modelu korzystając z biblioteki Optuna? Konkretny przewodnik, krok po kroku

PCA & K-Means for Traffic Data
Redukcja wymiarów danych poprzez zastosowanie metody PCA jako przykład odnajdywania wzorców w danych. Tutaj na przykładzie ruchu na stacjach metra.

#architektura

Evolution of Monolithic Systems
O różnych typach monolitów i o tym, jak to jest jak budowany system się rozrasta...

#bazy_danych

How to build a PostgreSQL full-text search engine in any language
Pełnotekstowe przeszukiwanie rekordów w bazie PostgreSQL, niezależnie od języka tych rekordów.

#ciekawostki

Which Music Stands the Test of Time, and Which Does Not? A Statistical Analysis
Które piosenki reprezentują swoje czasy? Oraz: starzy ludzie słuchają starej muzyki, a nowi ludzi słuchają nowej muzyki ;)

#devops

Scrapable metrics for Managed PostgreSQL, MySQL, Redis, and Kafka
Monitoring ważna rzecz. Tutaj "punkt wyjściowy" do bardziej szczegółowych sposobów i miar do monitorowania wymienionych w tytule technologii

#kubernetes

The guide to kubectl I never had
Jeśli zaczynasz wchodzić głębiej (jak ja ostatnio) w świat Kubernetesa to prosta ściągawka zawsze się przyda!

Running Cron Tasks with Kubernetes
Czy da się w Kubernetesie ustawić coś w rodzaju crona? Otóż tak.

Colorize your kubectl output
Jeśli używasz kubectl to może nakładka dodająca kolory sprawi, iż będzie przyjemniej i czytelniej?

#python

5-Step Guide to Automate Data Cleaning in Python
Czyszczenie danych dla początkujących.

One Billion Row Challenge: From 10 Minutes to 4 Seconds
1 Billion Row Challenge - czyli wczytanie zbioru miliarda linii w jak najkrótszym czasie. I jeszcze trzeba wyliczyć prostą agregację. Ten "czelendż" jest ostatnio popularny, dzisiaj kolejna jego odsłona - Python z dodatkami. Zobacz też na stronę 1brc.dev po więcej!

How to Use ORM with SQLAlchemy
Ogarnij jak rozmawiać z bazami danych w ORM-style i nie pisz zwykłych sqlek!

Creating a Smart Home AI Assistant
Projekt, który łączy kilka narzędzi open source, aby stworzyć asystenta AI. Jak to działa od podstaw?

#r

If Doom runs everywhere, it must run on Shiny
Doom w Shiny? Tak na prawdę port Dooma do JS wyświetlony w Shiny.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału