Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Wiecie co jest największym problemem dla analityka danych w dużej organizacji? Jest ich kilka, ale podzielić można je na kilka obszarów:
znajdowanie danych zrozumienie danych uzyskanie dostępu do danych
Przeczytacie o tym w 5 Common Data Governance Pain Points for Analysts & Data Scientists
I jeszcze na to dochodzi podejście do organizacji zespołów zajmującymi się danymi. Centralnie? A może każdy osobno? O tym pisze SeattleDataGuy w Centralized vs Decentralized vs Federated Data Teams.
A jeżeli macie dzieci i zmuszeni jesteście korzystać z Librusa to może to repozytorium (sprzed dwóch lat, przez cały czas działa) pomoże :)
#analiza_danych_koncepcje
Is More Information Always Better?
To zależy
10 Cool Things You Can Do With Embeddings
Współczesne AI embedingami stoi. To, iż obraz i tekst leżą obok siebie (i z jednego można generować drugie) zawdzięczamy embedingom
How to Create First Data Engineering Project?
Podejście przyrostowe do realizacji projektów na polu data engineering
Scaling Agglomerative Clustering for Big Data
W nauce o danych często przydatne jest grupowanie danych bez etykiet. Jak to robić na dużych zbiorach?
A Bayesian Comparison of School Leaver Outcomes with R and brms
Porównajmy wyniki osiągane przez uczniów z różnych szkół - ANOVA w bajesowskim stylu
#analiza_danych_projekty
Using Machine Learning to Predict Football Game Outcomes
Kto wygra mecz? Czy ML może pomóc w przewidzeniu wyniku meczu piłki nożnej? Spoiler: 108 cech daje wyniki na poziomie 60-kilku procent. Żeby pokonać bukmachera trzeba te 108 cech mieć...
Euro Trip Optimization
Podróż po Europie planowana z wykorzystaniem algorytmów genetycznych i interfejsu API Map Google - czyli rozwiązanie problemu komiwojażera
Analyzing Geospatial Data with Python
Testowanie hipotez na danych geograficznych.
#architektura
When Taylor Swift crashed Ticketmaster
Systemy sprzedaży biletów (tutaj Ticketmaster - Live Nation) na duże wydarzenia często dostają "czkawki" (delikatnie mówiąc) pod naporem naprawdę dużych imprez. Dlaczego tak się dzieje? Jak zaprojektować system, aby można go było skalować?
#ciekawostki
Monitoring Performance in Microservices Architecture
Co monitorować kiedy nasze rozwiązanie oparte jest o mikroserwisy?
#devops
Deploying ELK with Kafka on Kubernetes
Jeśli chcesz spróbować swoich sił z Kubernetesem (i przy okazji dane z Kafki wrzucać do Elasticsearcha) to tutaj znajdziesz szybką instrukcję.
46 Stories To Learn About Infrastructure As a Code
Duży zbiór linków do tekstów opowiadających o różnych projektach i rozwiązaniach z dziedziny IaaC
#mlops
MLOps Workshop
Repozytorium z notebookami pozwalającymi nauczyć się MLOps na konkretnych przykładach. WARTO! Koniecznie klikaj też w linki prowadzące "na zewnątrz" repo.
#python
Mastering Pandas DataFrames for Machine Learning
Pandas to chyba najbardziej podstawowa biblioteka do operowania na danych w Pythonie. Tutaj szybkie wprowadzenie dla początkujących
How to Create a Publication-Quality Heatmap in Python
Konkretnie - kod bez zbędnego lania wody.
Logging in Python Like a Pro (Even Better with VScode and Jupyter Notebooks)
O logowaniu błędów (i nie tylko) w Pythonie - tak, żeby logi przynosiły jakąś wartość
Python’s Best Web Frameworks
Flask, Django czy FaastAPI? Porównanie frameworków webowych dla Pythona
#r
Mapping South America with R
O rysowaniu danych na mapach w języku R. Na fanpage’u Dane i Analizy ostatnio było o tym samym w Pythonie - poszukaj
#wizualizacja_danych
Information is Beautiful: 2023 Showcase
Najładniejsze wizualizacje z 2023 roku w konkursie Information is Beautiful. Ku inspiracji jak robić infografiki (bo raczej nie "czyste" wykresy)
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)