Newsletter Dane i Analizy, 2022-08-08

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Wakacje za półmetkiem, więc tematy w dzisiejszym newsletterze tak pół na pół.

Z jednej strony mamy ciężkie rzeczy: nowe naukowe pejpery czy omówienie algorytmu grupowania przestrzennego opartego na gęstości. Ale z drugiej - automatyzację w Excelu czy kilka(naście) inspiracji dotyczących prezentowania danych.

Dla tych zaś co lubią wdrażanie i Kubernetesy - też coś się znajdzie, chociażby cluster na malinach ;-)


#AI_ML

6 Papers Every Modern Data Scientist Must Read
Przegląd prasy (publikacji naukowych) dla prawdziwych nerdów AI/ML. Jaki "pejper" czytasz dzisiaj?

YOLOv7 now Outperforms All Known Object Detectors!
Nowa wersja YOLO bije na głowę wszystkie dotychczas znane detekroty obiektów na obrazach

#analiza_danych_koncepcje

From Streaming To Dashboards
Przemysł rozrywkowy też korzysta z nowoczesnych narzędzi big data. I nie chodzi choćby o Netflixa, a o mniejsze projekty. Spark, Kafka - to jest na porządku dziennym. Tutaj przykład "układanki" w branży muzycznej

Spatial Clustering with DBSCAN
O co chodzi algorytmem DBSCAN? Jak to działa i dlaczego tak fajnie działa w szukaniu np. klastrów w przestrzeni (na przykład na mapie). W sumie gdyby każdy człowiek był punktem na mapie to można z pomocą DBSCAN określić granice miejscowości. Kto się pokusi?

Geospatial Site-Selection Analysis Using Cosine Similarity
A jeżeli już analizujemy przestrzeń to może znajdzie się coś podobnego? Jak to podobieństwo zmierzyć?

Three Approaches to Feature Engineering for Time Series
Ciekawe podejście do feature engineeringu (wyprowadzania nowych cech w zbiorze danych z tych już istniejących) dla danych czasowych

#analiza_danych_projekty

Model Selection and Hyperparameter Tuning on Amazon Kindle Book Reviews
Analiza sentymentu (ogólniej: analiza tekstu) w recenzjach książek - jaki model będzie najlepszy? Jak dobrać jego hyperparametry? Najlepiej jaky to się "samo robiło"...

#ciekawostki

Real-time machine learning: challenges and solutions
Przewidywania i predykcje w małych krokach (batchowo) to żadna sztuka. Mogą to być kroki 15 minutowe, mogą być 10 sekundowe. Sztuka zaczyna się kiedy mowa jest o prawdziwym online/realtime. Cały świat to robi.
Ale jakie ów "cały świat" ma wyzwania? W tym poście przedstawiono rozwiązania dotyczące przewidywania online i ciągłego uczenia się, z przykładami użycia, rozważaniami i technologiami wymaganymi na każdym poziomie

9 rzeczy, które wpływają na dostarczalność wiadomości e-mail
Jak sprawić, aby wiadomości e-mail docierała do odbiorcy za każdym razem? Co na to wpływa? Czym jest SPF, DKIM, DMARC?

Data Mesh - A Data Movement and Processing Platform at Netflix
Przerzucanie i magazynowanie danych w Netflix. Wiadomo, iż mają tego bardzo dużo, ale jakie mają podejście?

ML Education at Uber: Frameworks Inspired by Engineering Principles
Data-driven company? Taki na przykład Uber stworzył program edukacyjny, który zapewnia pracownikom dostęp do zasobów edukacyjnych związanych z ML. Ale mało to - podobnie jak system produkcyjny Ubera, zasoby edukacyjne, treści i kanały dystrybucji też są stale mierzone, oceniane i ulepszane! Bo adekwatnie dlaczego nie?

#devops

Deploying a Microservice-Oriented Application to Kubernetes
Jak wdrożyć dużą aplikację, opartą o mikroserwisy i wiele podów Kubernetesa? Na prawdziwych maszynach!

Serving ML models at scale using Mlflow on Kubernetes
Wszystko można oprzeć o Kubernetes? MLFlow i serwowanie kolejnych wersji modeli machine learningowych też?

#python

Automatization of Excel processes with Python
Nie ma lepszego pomocnika w Excelu niż VBA. A jeżeli to nie wystarczy - można zaprzęc do pomocy Pythona

Airflow, DBT and Redash ELT pipeline.
Dość prossry przepływ danych, interesujące jest zrobienie ETLa z pomocą Airflow i prostego kodu w Pythonie

#r

Unravelling an Enormous JSON
Mamy dane w pliku JSON. Jednym wielkim, bagatelka 122 GB! Jak to skonsumować? Z wykorzystaniem konsoli (spoiler: JQ robi robotę) i kodu w R, ale ów kod może być inspiracją dla innych języków

How to Monitor User Sessions in R Shiny
Jak monitorować sesje użytkowników w Twojej aplikachi w Shiny? Gdzie klikał? Pakiet shinyHeatmap pozwoli Ci to zrobić za darmo

#wizualizacja_danych

9 Visualizations that Catch More Attention than a Bar Chart
Jak zastąpić wykres słupkowy tak, aby przyciągał uwagę? Niektóre z zaproponowanych rozwiązań świetnie sprawdzą się w konkretnych przypadkach, a całość oparta jest przykładami kodu w Pythonie

11 Unique Designs to Inspire your Next Dashboard
Zanim zrobisz następny dashboard możesz zainspirować się tymi, które już istnieją. A może to bardziej infografiki?


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału