Newsletter Dane i Analizy, 2024-05-20

blog.prokulski.science 6 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj w sekcji poświęconej językowi R mamy tekst, w którym w atrakcyjny, animowany sposób pokazano kilka podstawowych operacji na ramkach danych (albo jak kto woli - tabelkach, np. w bazie danych). jeżeli nie wiesz jak działają operacje grupowania, agregacji czy łączenia danych - po tych przykładach nie powinno być z tym problemu.

Jeśli już przy bazach danych jesteśmy - powraca DuckDB, bo to jest cudo. Tym razem m.in. porównanie ze Sparkiem.
Od Sparka niedaleko zaś do ogólnie pojętego big data - w tej sekcji kompletny przewodnik jak zbudować cały zestaw do strumieniowego przetwarzania danych: czyli pełne środowisko zawierające Kafkę, Schema Registry, Kafka Connect, ksql i co tam jeszcze wokoło potrzebne.

W sekcji devopsowej spory poradnik (po polsku, co rzadkie, ale rzetelnych polskich treści o "naszych" tematach mało niestety w internecie - masz jakieś interesujące źródła? podeślij!) o tym jak korzystać z terminala/shella/linii komend. Zwał jak zwał, wiadomo o co chodzi.

Ale tradycyjne pierwszym "rozdziałem" newslettera jest zawsze coś związanego z konkretnymi projektami czy koncepcjami związanymi z przetwarzaniem danych, czasem też ML/AI (dzisiaj np. fajny projekt rekomendacyjny). Zatem - zapraszam do lektury.

A jak dzisiejszy numer newslettera jest dla Ciebie słaby - możesz pocisnąć 11 godzin kursu Pythona polegającego na napisaniu pięciu gier. Ewentualnie jak wolisz wizualizację danych - godzinny wykład o storytellingu danych "How to turn data into stories" też będzie spoko. Oba na YouTube.
Tylko napisz, iż newsletter słaby - coś może uda się z tym zrobić.


#analiza_danych_projekty

Analysing AirBnB Listings data across 34 Countries and 123 Cities Year Till Date
Pierwsza część cyklu o analizie dużego zbioru danych z Airbnb. Dla początkujących analityków dobre wprowadzenie na co zwracać uwagę, jak w ogóle zacząć tego typu projekt analityczny. No i interesujący zbiór danych przy okazji polskich miast nie ma).

Music Recommendation System
Własny system rekomendacyjny piosenek na Spotify. Taki Twój, a nie od korporacji. Interesujący projekt ML, warto!

How to Build Neural Networks for Node Classification
Czy sieć neuronowa ma mechanizmy dedykowane do zagadnień związanych z grafami i sieciami społecznymi? Przykład pokazujący klasyfikację wierzchołków i podział ich na grupy

Exploring Hacker News by mapping and analyzing 40 million posts and comments for fun
I to się nazywa big data! Miliony tekstów zebranych, przeanalizowanych i przedstawionych na mapie (zobacz stronę hn.wilsonl.in).

Bots Invaded My Newsletter
Autor prowadzi newsletter i zauważył nagły atak botów zapisujących się na tenże newsletter. Jak sobie poradził w walce z botami? Kolejny interesujący projekt ML :)

#architektura

24 Fundamental Techniques for Software Architects
Zbiór podstawowych informacji o różnych technikach pomocnych przy tworzeniu oprogramowania, współpracy z biznesem.

Events Vs Messages
Wiadomości czy zdarzenia - kiedy użyć którego modelu komunikacji o zmianach w podejściu Event Driven Architecture?

#bazy_danych

Best Practices for Technical Columns in Database Design
Wiadomo, iż w bazie potrzebujemy danych które są "biznesowe" i niezbędne do działania aplikacji. A co z monitoringiem? Czy są jakieś dobre praktyki mówiące co warto trzymać dodatkowo w tabelkach?

#big_data

Implementing Change Data Capture (CDC)
Pełne środowisko pod CDC z całą masą dodatków - adekwatnie wszystkie około-Kafkowe technologie w jednym projekcie. jeżeli już wiesz co to Kafka, Schema Registry czy REST Proxy ale nie wiesz "jak to sobie postawić" to ten tekst Ci się przyda

DuckDB vs Spark
Porównanie jak radzą sobie DuckDB i Spark na Icebregu z tymi samym zestawem danych. Miliarda danych.

#ciekawostki

How Netflix Ensures Highly-Reliable Online Stateful Systems
Żeby tak duży serwis jak Netflix był stale dostępny (ktokolwiek pamięta jakąś "awarię Netflixa"?) zastosowano różne mechanizmy monitorowania i skalowania infrastruktury.

Evolving Floorplans
Jak zoptymalizować układ pomieszczeń biurowych na piętrze?

#devops

Sztuka używania wiersza poleceń [PL]
Pracujesz w konsoli? Ten przewodnik przeznaczony jest zarówno dla początkujących jak i doświadczonych, a ma na celu pokazanie jak pracować z terminalem. Żeby było efektywniej, przyjemniej, wygodniej. jeżeli używasz Linuxa - koniecznie zobacz. Użytkownicy Windows i Mac też powinni.

#kubernetes

13 Kubernetes Jobs and Cronjobs You Should Know
Kubernetes Jobs i CronJobs to potężne narzędzia do uruchamiania zadań, które mają być uruchamiane i zatrzymywane automatycznie.

Rolling Update & Recreate Deployment Strategies in Kubernetes
Kubernetes pozwala na podmianę serwisów na ich nowsze wersje w locie - tutaj dowiesz się ja różnych strategiach takiego update’u.

How to Run Kubernetes on AWS
Jeśli już ogarniasz Kubernetesa na lokalnym środowisku (nauka na platformach chmurowych to niezbyt oszczędny pomysł) może chcesz zbudować swój klaster w chmurze? Tutaj na przykładzie AWS.

#management

The Anatomy of a Successful Team Squad
Model pracy i współpracy zespołów w Spotify. Zespoły, plemiona, gildie.

#programowanie_ogólnie

A collection of useful .gitignore templates
Kolecja gotowych plików .gitignore dla różnych języków programowania. W IDE są gotowe rozszerzenia, ale może ktoś woli git pull i skopiowanie pliczków?

#python

Python Automation Scripts
Zestaw ponad 100 (!) przykładów gotowych skryptów na różne okazje. Od archiwizacji plików, operacji na tekstach do operacji na obrazkach.

An Intro to Logging with Loguru
Pakiet Loguru ma na celu uproszczenie logowania w Pythonie, przy okazji dorzucając kilka dodatkowych "bajerów". Zobacz co potrafi i jak z niego korzystać.

Do You Read Excel Files with Python?
Jak przyspieszyć wczytywanie danych z plików Excela w Pythonie? adekwatnie z wielu plików na raz

How to Perform Bulk Insert/Update/Upsert Actions with SQLAlchemy ORM
Wydajne sposoby wykonywania akcji zbiorczych na bazach danych w SQLAlchemy i modelu ORM.

Exploring Shiny for Python With A Puppy Traits Web Application
Jak tworzyć aplikacje Shiny w Pythonie? Kompletny przewodnik. Czy to lepsze rozwiązanie niż Streamlit? Albo Dash? Spróbuj, zdecyduj.

Google Maps Scrapping with Python
Trochę ręczny proces pobierania danych z GoogleMaps - poprzez scraping. Można i tu widać jak, ale dlaczego nie przez API?

#r

dplyr vs. DuckDB
Skoro DuckDB takie dobre to czy można z tego silnika bazodanowego skorzystać w R? Oczywiście.

Visualizing {dplyr}’s mutate(), summarize(), group_by(), and ungroup() with animations
Niby R, ale ładne pokazanie jak działają operacje na tabelkach, na przykład tworzenie nowych kolumn oraz agregacje czy złączenia


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału