Newsletter Dane i Analizy, 2023-02-13

blog.prokulski.science 3 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Tak się zdarzyło, iż w dzisiejszym newsletterze wiodącą rolę mają tematy związane z wdrożeniami i utrzymaniem rozwiązań przetwarzających dane. Mamy więc tekst o kubefow, budowaniu struktur bazodanowych albo integracji kilku technologii (i jak zrobić to w domu). Dla inżynierów zajmujących się takimi zagadnieniami konsola CLI nie jest pewnie obca, więc i dla nich coś - mam nadzieję - interesującego się znajdzie.

Bardzo interesujący jest tekst o podejściu do autoryzacji z punktu widzenia UX. Ostatnio miałem okazję szukać i rezerwować lokum na weekend w serwisie Airbnb. Nie pamiętałem hasła, a po kilku próbach serwis po prostu przysłał mi maila z linkiem za pomocą którego od razu byłem zalogowany. Czy to bezpieczne czy nie - nie określajmy. Ale jakże wygodne!

#AI_ML

Building a Regression Model in PyTorch
Jak używać biblioteki PyTorch do opracowywania i oceny modeli sieci neuronowych pod kątem problemów z regresją

How to Create and Deploy machine learning pipeline with kubeflow
W tym artykule wyjaśniono, jak utworzyć i wdrożyć dowolny potok uczenia maszynowego dzięki narzędzia kubeflow w projektach Data Science.

#analiza_danych_koncepcje

Producing insights with Generalized Additive Models GAMs
GAM to uogólniony model liniowy - z grubsza taka uogólniona regresja liniowa. Tutaj zastosowana do predykcji popytu na rowery miejskie w Waszyngtonie (jest taki publicznie dostępny zbiór, w kilku tekstach prezentowanych w newsletterze był wykorzystany)

Equal-size spectral clustering
Czasem chcemy podzielić grupy na klasy, ale jeszcze w dodatku zrobić to tak, aby klasy miały mniej więcej tą samą liczność. Tak na przykład podzielony jest kraj na kody pocztowy - w obrębie każdego mieszka mniej więcej tyle samo osób

#bazy_danych

Database Design for Spotify
Zadanie dla architektów baz danych: zaprojektować bazę dla rozwiązania typu Spotify.

#big_data

Big Data is Dead
Dość przewrotny tytuł, ale idąc za myślą przedstawioną przez autora trudno sie nie zgodzić. Czy więc rozmiar ma znaczenie? ;-) Dodatkowo: cały blog warty przeklikania

Designing a data warehouse from the ground up
Porady ekspertów dotyczące wyboru odpowiednich technologii, architektur i strategii

#devops

Dockerizing Spark Structured Streaming with Kafka And LocalStack
W tym artykule pokazano, jak zintegrować Kafka i S3 z Spark Structured Streaming przy użyciu Docker Compose. Jako przykład, autor tworzy prostą aplikację Spark, która agreguje dane z Kafki i zapisuje je do tabeli Delta na S3. Na koniec dostępny jest podstawowy test integracji, który sprawdza, czy aplikacja działa zgodnie z oczekiwaniami.

100 Bash Aliases for supersonic Productivity
Zamiast pisać długie ciągi komend w konsoli można zastosować aliasy, które skracają te długie ciągi do wpisania. Ten tekst zawiera około setki takich aliasów. Ale nie traktujcie ich jako gotowców - wiele można się nauczyć patrząc co te komendy robią

#management

What I Learned from the Best and the Worst Machine Learning Team Leads
Zarządzanie komunikacją, infrastrukturą i dokumentacją - jak zostać najlepszym liderem zespołów ds. danych i uczenia maszynowego?

#programowanie_ogólnie

System Design for Beginners Course
Ten darmowy kurs uczy, jak projektować i budować systemy informatyczne o dużej skali, takie jak usługi od Google, Facebooka, czy Amazona. Projektowanie odbywa się na wielu płaszczyznach: sieciowej, bazodanowej, softwarowej i kilku innych

#python

How to build a CLI Music Player with Python
Odtwarzacz muzyki w konsoli? Z animacjami? Tak!

OpenTelemetry in Python
OpenTelemetry to framework pozwalający na zbieranie logów i tym samym tememetrię systemów. Zobacz jak z niego skorzystać na przykładzie Pythona

Geo Clustering in a Django Project
Artykuł opisuje projekt wykorzystujący Django z bazą danych PostGIS i frontendem na VueJS z około 100 tys. pozycji i 5 typami. Cel projektu to wyświetlenie elementów na mapie z wykorzystaniem filtrów. Główne wyzwania to stworzenie działających zapytań ORM oraz uniknięcie powielania logiki wyboru danych.

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału