Newsletter Dane i Analizy, 2023-09-04

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Wiecie co jest największym problemem dla analityka danych w dużej organizacji? Jest ich kilka, ale podzielić można je na kilka obszarów:
znajdowanie danych zrozumienie danych uzyskanie dostępu do danych

Przeczytacie o tym w 5 Common Data Governance Pain Points for Analysts & Data Scientists

I jeszcze na to dochodzi podejście do organizacji zespołów zajmującymi się danymi. Centralnie? A może każdy osobno? O tym pisze SeattleDataGuy w Centralized vs Decentralized vs Federated Data Teams.

A jeżeli macie dzieci i zmuszeni jesteście korzystać z Librusa to może to repozytorium (sprzed dwóch lat, przez cały czas działa) pomoże :)


#analiza_danych_koncepcje

Is More Information Always Better?
To zależy

10 Cool Things You Can Do With Embeddings
Współczesne AI embedingami stoi. To, iż obraz i tekst leżą obok siebie (i z jednego można generować drugie) zawdzięczamy embedingom

How to Create First Data Engineering Project?
Podejście przyrostowe do realizacji projektów na polu data engineering

Scaling Agglomerative Clustering for Big Data
W nauce o danych często przydatne jest grupowanie danych bez etykiet. Jak to robić na dużych zbiorach?

A Bayesian Comparison of School Leaver Outcomes with R and brms
Porównajmy wyniki osiągane przez uczniów z różnych szkół - ANOVA w bajesowskim stylu

#analiza_danych_projekty

Using Machine Learning to Predict Football Game Outcomes
Kto wygra mecz? Czy ML może pomóc w przewidzeniu wyniku meczu piłki nożnej? Spoiler: 108 cech daje wyniki na poziomie 60-kilku procent. Żeby pokonać bukmachera trzeba te 108 cech mieć...

Euro Trip Optimization
Podróż po Europie planowana z wykorzystaniem algorytmów genetycznych i interfejsu API Map Google - czyli rozwiązanie problemu komiwojażera

Analyzing Geospatial Data with Python
Testowanie hipotez na danych geograficznych.

#architektura

When Taylor Swift crashed Ticketmaster
Systemy sprzedaży biletów (tutaj Ticketmaster - Live Nation) na duże wydarzenia często dostają "czkawki" (delikatnie mówiąc) pod naporem naprawdę dużych imprez. Dlaczego tak się dzieje? Jak zaprojektować system, aby można go było skalować?

#ciekawostki

Monitoring Performance in Microservices Architecture
Co monitorować kiedy nasze rozwiązanie oparte jest o mikroserwisy?

#devops

Deploying ELK with Kafka on Kubernetes
Jeśli chcesz spróbować swoich sił z Kubernetesem (i przy okazji dane z Kafki wrzucać do Elasticsearcha) to tutaj znajdziesz szybką instrukcję.

46 Stories To Learn About Infrastructure As a Code
Duży zbiór linków do tekstów opowiadających o różnych projektach i rozwiązaniach z dziedziny IaaC

#mlops

MLOps Workshop
Repozytorium z notebookami pozwalającymi nauczyć się MLOps na konkretnych przykładach. WARTO! Koniecznie klikaj też w linki prowadzące "na zewnątrz" repo.

#python

Mastering Pandas DataFrames for Machine Learning
Pandas to chyba najbardziej podstawowa biblioteka do operowania na danych w Pythonie. Tutaj szybkie wprowadzenie dla początkujących

How to Create a Publication-Quality Heatmap in Python
Konkretnie - kod bez zbędnego lania wody.

Logging in Python Like a Pro (Even Better with VScode and Jupyter Notebooks)
O logowaniu błędów (i nie tylko) w Pythonie - tak, żeby logi przynosiły jakąś wartość

Python’s Best Web Frameworks
Flask, Django czy FaastAPI? Porównanie frameworków webowych dla Pythona

#r

Mapping South America with R
O rysowaniu danych na mapach w języku R. Na fanpage’u Dane i Analizy ostatnio było o tym samym w Pythonie - poszukaj

#wizualizacja_danych

Information is Beautiful: 2023 Showcase
Najładniejsze wizualizacje z 2023 roku w konkursie Information is Beautiful. Ku inspiracji jak robić infografiki (bo raczej nie "czyste" wykresy)


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału