Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Wakacje za półmetkiem, więc tematy w dzisiejszym newsletterze tak pół na pół.
Z jednej strony mamy ciężkie rzeczy: nowe naukowe pejpery czy omówienie algorytmu grupowania przestrzennego opartego na gęstości. Ale z drugiej - automatyzację w Excelu czy kilka(naście) inspiracji dotyczących prezentowania danych.
Dla tych zaś co lubią wdrażanie i Kubernetesy - też coś się znajdzie, chociażby cluster na malinach ;-)
#AI_ML
6 Papers Every Modern Data Scientist Must Read
Przegląd prasy (publikacji naukowych) dla prawdziwych nerdów AI/ML. Jaki "pejper" czytasz dzisiaj?
YOLOv7 now Outperforms All Known Object Detectors!
Nowa wersja YOLO bije na głowę wszystkie dotychczas znane detekroty obiektów na obrazach
#analiza_danych_koncepcje
From Streaming To Dashboards
Przemysł rozrywkowy też korzysta z nowoczesnych narzędzi big data. I nie chodzi choćby o Netflixa, a o mniejsze projekty. Spark, Kafka - to jest na porządku dziennym. Tutaj przykład "układanki" w branży muzycznej
Spatial Clustering with DBSCAN
O co chodzi algorytmem DBSCAN? Jak to działa i dlaczego tak fajnie działa w szukaniu np. klastrów w przestrzeni (na przykład na mapie). W sumie gdyby każdy człowiek był punktem na mapie to można z pomocą DBSCAN określić granice miejscowości. Kto się pokusi?
Geospatial Site-Selection Analysis Using Cosine Similarity
A jeżeli już analizujemy przestrzeń to może znajdzie się coś podobnego? Jak to podobieństwo zmierzyć?
Three Approaches to Feature Engineering for Time Series
Ciekawe podejście do feature engineeringu (wyprowadzania nowych cech w zbiorze danych z tych już istniejących) dla danych czasowych
#analiza_danych_projekty
Model Selection and Hyperparameter Tuning on Amazon Kindle Book Reviews
Analiza sentymentu (ogólniej: analiza tekstu) w recenzjach książek - jaki model będzie najlepszy? Jak dobrać jego hyperparametry? Najlepiej jaky to się "samo robiło"...
#ciekawostki
Real-time machine learning: challenges and solutions
Przewidywania i predykcje w małych krokach (batchowo) to żadna sztuka. Mogą to być kroki 15 minutowe, mogą być 10 sekundowe. Sztuka zaczyna się kiedy mowa jest o prawdziwym online/realtime. Cały świat to robi.
Ale jakie ów "cały świat" ma wyzwania? W tym poście przedstawiono rozwiązania dotyczące przewidywania online i ciągłego uczenia się, z przykładami użycia, rozważaniami i technologiami wymaganymi na każdym poziomie
9 rzeczy, które wpływają na dostarczalność wiadomości e-mail
Jak sprawić, aby wiadomości e-mail docierała do odbiorcy za każdym razem? Co na to wpływa? Czym jest SPF, DKIM, DMARC?
Data Mesh - A Data Movement and Processing Platform at Netflix
Przerzucanie i magazynowanie danych w Netflix. Wiadomo, iż mają tego bardzo dużo, ale jakie mają podejście?
ML Education at Uber: Frameworks Inspired by Engineering Principles
Data-driven company? Taki na przykład Uber stworzył program edukacyjny, który zapewnia pracownikom dostęp do zasobów edukacyjnych związanych z ML. Ale mało to - podobnie jak system produkcyjny Ubera, zasoby edukacyjne, treści i kanały dystrybucji też są stale mierzone, oceniane i ulepszane! Bo adekwatnie dlaczego nie?
#devops
Deploying a Microservice-Oriented Application to Kubernetes
Jak wdrożyć dużą aplikację, opartą o mikroserwisy i wiele podów Kubernetesa? Na prawdziwych maszynach!
Serving ML models at scale using Mlflow on Kubernetes
Wszystko można oprzeć o Kubernetes? MLFlow i serwowanie kolejnych wersji modeli machine learningowych też?
#python
Automatization of Excel processes with Python
Nie ma lepszego pomocnika w Excelu niż VBA. A jeżeli to nie wystarczy - można zaprzęc do pomocy Pythona
Airflow, DBT and Redash ELT pipeline.
Dość prossry przepływ danych, interesujące jest zrobienie ETLa z pomocą Airflow i prostego kodu w Pythonie
#r
Unravelling an Enormous JSON
Mamy dane w pliku JSON. Jednym wielkim, bagatelka 122 GB! Jak to skonsumować? Z wykorzystaniem konsoli (spoiler: JQ robi robotę) i kodu w R, ale ów kod może być inspiracją dla innych języków
How to Monitor User Sessions in R Shiny
Jak monitorować sesje użytkowników w Twojej aplikachi w Shiny? Gdzie klikał? Pakiet shinyHeatmap pozwoli Ci to zrobić za darmo
#wizualizacja_danych
9 Visualizations that Catch More Attention than a Bar Chart
Jak zastąpić wykres słupkowy tak, aby przyciągał uwagę? Niektóre z zaproponowanych rozwiązań świetnie sprawdzą się w konkretnych przypadkach, a całość oparta jest przykładami kodu w Pythonie
11 Unique Designs to Inspire your Next Dashboard
Zanim zrobisz następny dashboard możesz zainspirować się tymi, które już istnieją. A może to bardziej infografiki?
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)