Newsletter Dane i Analizy, 2024-08-05

blog.prokulski.science 2 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W maju bieżącego roku ponad 65 tysięcy programistów odpowiedziało na coroczną ankietę StackOverflow dotyczącą kodowania, technologii i narzędzi, których używają i chcą się nauczyć, sztucznej inteligencji i doświadczenia programistów w pracy. Tutaj znajdziesz wyniki.

W sekcji poświęconej AirFlow znajdziecie porównanie tego narzędzia do orkiestracji zadań z Maestro od Netflixa. Tutaj znajdziesz repo z kodem do instalacji. Z kolei mocna dzisiaj sekcja DevOps zawiera kilka przydatnych narzędzi, nie tylko związanych z jako takim DevOpsem, ale też przydanych dla innych.

Na zakończenie - jeżeli interesuje Cię GenAI to może zechcesz poznać framework Fabric?


#airflow

Netflix Maestro and Apache Airflow
Porównanie Apache Airflow ze wspomnianym we wstępie orkiestratorem Maestro od Netflixa.

#analiza_danych_projekty

Data Science for Schools
Budowanie planu lekcji to nie jest bułka z masłem. W tym tekście autor pokazuje jak do tego zadania wykorzystać Pythona, ale bierze też pod uwagę tworzenie nowych dziennych harmonogramów zajęć - na przykład na potrzeby sytuacji kiedy trzeba zastąpić chorego nauczyciela.

#architektura

How Event Driven Architectures Go Wrong & How to Fix Them
Jak naprawić architekturę opartą na eventach? YT, 30 minut po angielsku. W opisie filmu znajdziecie link do slajdów.

#ciekawostki

CrowdStrike’s Impact on Aviation
Aktualizacja systemu CrowdStrike spowodowała największy w historii przestój systemów IT. Prawdopodobnie najmocniej odczuła to branża lotnicza, ale jak duży naprawdę to był wpływ? W artykule znajdziesz analizę danych dotyczących Stanów Zjednoczonych.

How the Paris 2024 Summer Olympics has impacted Internet traffic
Cloudflare zwykle po każdym globalnym wydarzeniu przygotowuje analizę tego, jak w jego trakcie wyglądał ruch internetowy (pewien serwis p**no też to robi, ale tylko o własnym ruchu). Kiedy internauci generowali najwięcej zapytań, kiedy łącza były zapchane i które dni z igrzysk cieszyły się największą popularnością? Na te i wiele innych pytań znajdziesz odpowiedź w raporcie.

#devops

10 Examples Why cURL is an Awesome CLI Tool
O tym dlaczego cURL jest świetnym narzędziem, poparte wieloma przykładami :)

Request analytics from the nginx access logs
ngtop to aplikacja CLI, która umożliwia generowanie statystyk z plików logów Nginxa. Można wyciągnąć listę najczęściej odwiedzanych podstron, domen, czy najczęściej używanych user-agentów. Dobre narzędzie do wyszukiwania, który element serwisu otrzymał najwięcej ruchu w wybranym przedziale czasu.

Mastering Prometheus for Robust System Monitoring
Monitoring i alertowanie w oparciu o Prometheusa

Creating a Spotify Playlist Using Terraform
A gdyby budować playlisty w Spotify w sposób przeznaczony do zagadnień CI/CD?

Hosting w ogniu - zagrożenia od hackera do... usera
Wystąpienie Jakuba Mrugalskiego z konferencji OhMyHack 2023, podczas którego Kuba opowiada o zabezpieczeniach i niektórych rozwiązaniach technicznych, jakie stosuje w swojej firmie hostingowej. Coś dla fanów Linuksa. YT, 40 minut, po polsku

#flink

Apache Flink on Kubernetes
Od architektury gdzie zadania Flink są obsługiwane na platformie Hadoop Yarn, a Apache Airflow pełni rolę harmonogramu zadań, do takiej, w której zadania są uruchamiane na platformie Kubernetes, a harmonogram zadań zostaje wyeliminowany.

#python

Full Guide to Building a Professional Portfolio with Python, Markdown, Git, and GitHub Pages
W tym artykule znajdziesz kompleksowy przewodnik mający na celu stworzenie portfolio dla programistów i pracowników zajmujących się danymi, oparty na stronie GitHub. Czyli - mówiąc prosto - o robieniu prostych stron WWW (na przykład z dokumentacją) w ramach GitHuba.

Python Concurrency - A Brain-Friendly Guide for Data Professionals
O wielowątkowości w Pythonie na podstawie pobierania i przetwarzania danych (na przykład takich w JSONie).

What is a FastAPI Background Task?
Wysłanie maila potwierdzającego rejestrację w czasie obsługi RESTowego zapytania obsługującego tę rejestrację? Background Task doskonale się do tego nadaje!

#r

Parallelize R code using user-defined functions (UDFs) in sparklyr
Pakiet sparklyr umożliwia pisanie funkcji zdefiniowanych przez użytkownika (UDF) w języku R, co pozwala na wykorzystanie Spark do wydajnego przetwarzania dużych zbiorów danych. Naokoło, ale może ma to sens?

#sql

The Most Useful Advanced SQL Techniques to Succeed in the Tech Industry
Nieco bardziej niż zwykły SELECT albo JOIN zapytania w SQLu. Przykłady dla CTE, funkcji działających na oknach oraz podzapytań.

Mastering SQL Optimization: From Functional to Efficient Queries
Sześć efektywnych zapytań w SQL - szczególnie istotne dla tych, którzy pracują w Snowflake albo BigQuery, gdzie koszt powiązany jest z ilością przetwarzanych danych.

#ux

A Eulogy for Dark Sky, a Data Visualization Masterpiece
Artykuł poświęcony jest aplikacji pogodowej Dark Sky (obecnie już nieistniejącej). Autor analizuje design, który umożliwiał szybkie zrozumienie prognozy pogody, oraz sposób prezentacji danych meteorologicznych.

#wizualizacja_danych

Email Analysis Dashboard
Artykuł jest dokumentacją do dashboardu prezentującego statystyki na temat maili, niesie kilka inspiracji i wskazówek dla analityków BI tworzących w PowerBI.

Visualize TSV Files with Apache Superset via ClickhouseDB
Spięcie ClickhouseDB z Supersetem - przetwarzanie danych z plików tekstowych.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału