Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Uważni czytelnicy fanpage’a Dane i Analizy już prawdopodobnie przeczytali mój nowy post o analizie tras rowerowych (heatmapa w nim prezentowana już nieaktualna), ale jeżeli kogoś ominęło to zapraszam. Pokazuję w nim:
jak przeczytać plik XML jak agregować dwuwymiarowe dane w NumPy jak agregować je w Pandas jak przygotować mapkę w Folium
A jak już tamten tekst znasz to dzisiaj też niemało do wyboru. Zapraszam do lektury!
#AI_ML
Which Python Framework is Better for Machine Learning Apps?
Mamy jakiś nasz cudowny model, daje świetne wyniki, ale predykcje można dostać tylko uruchamiając skrypt z konsoli albo jeszcze gorzej w Jupyter Notebooku. Co zrobić, żeby było to użytecznie online’owe narzędzie? Opakować w API.
Ale który pythonowy framework wybrać?
From Shapley to SHAP
Przegląd sposobu obliczania wkładów funkcji SHAP - jaka matematyka za tym stoi?
#analiza_danych_koncepcje
Machine Learning Streaming with Kafka, Debezium, and BentoML
Korzystając z realtime’owego przetwarzania (głównie Kafka zasilana zmianami na bazie danych przed Debezium) danych zasilić model predykcyjny i jego wynik w prezentować w czasie rzeczywistym? Konkretny przykład: użytkownik wypełnia formularz budowania personalizowanej oferty i już podczas wpisywania danych dostaje wycenę swojego zamówienia
#analiza_danych_projekty
A Complete End-to-End Machine Learning Based Recommendation Project
Prosty model (oparty na odległości kosinusowej pomiędzy obiektami) do rekomendowania podobnych przedmiotów
#architektura
How To Build a Modern Data Pipeline
W artykule opisano najważniejsze problemy, z którymi muszą się zmierzyć analitycy i inżynierowie danych przy projektowaniu przepływów danych
From Monolith to State-of-the-Art Banking
Prezentacja z tegorocznej konferencji - jak z monolitów przejść na bardziej zwinne architektonicznie rozwiązania?
#big_data
Apache Spark on Kubernetes
Ten artykuł podsumowuje jak zbudowano scentralizowany klaster Apache Spark na Kubernetes, który przetwarza ponad 380 tys. przepływów analitycznych dziennie
Introducing the Geoparquet data format
W ostatnich latach powstało wiele frameworków geoprzestrzennych do przetwarzania i analizowania dużych danych geoprzestrzennych pochodzacych z różnych źródeł. Odpowiedzią na niektóre problemy jest format danych geopargquet
Evolution of Data Architectures
Bazy danych, hurtownie, data lake, data mesh... o co w tym wszystkim chodzi?
#ciekawostki
SAS vs R Programming
Czy SAS jest wystarczającym językiem do przetwarzania danych? Może R lepszy? Jak wypada porównanie i jak z SAS przejść na R?
Beginners Guide to Transition from SAS to Python
A może zamiast z SASa na R to z SASa na Python? W końcu Python to język dominujący w świecie ML/AI i nic nie zapowiada żeby miał tracić na popularności
Data Product Canvas
Jak uniknąć stworzenia adekwatnego rozwiązania złego problemu? Poznajcie framework dla rozwoju produktów opartych na danych, którego głównym celem jest dostarczenie narzędzi do generowania roadmapy produktu
Pixel Challenge 2022
Historia jednego konkursu. Pokazano rozpikselizowany napis, zadanie polegało na jego odczytaniu. Jakich metod użyto?
Rozmowa o pracę: jak opowiedzieć swoją historię?
Czeka Cię rozmowa o pracę? Zastanawiasz się, jak opowiedzieć o sobie, swoich sukcesach? Świetnie, weźmy się do roboty!
#r
Analyzing Multiple Response Questions
Jak z pomocą języka R analizować dane zebrane w ankietach z pytaniami gdzie można zaznaczyć wiele odpowiedzi?
14 Tips to Work with Dates in tidyverse
Jak pracować z datami w R? Kilka sztuczek i ułatwień
#wizualizacja_danych
How to Visualize a Graph with a Million Nodes, Nightingale
Jak rysować olbrzymie grafy? Na przykład sieć społecznych połączeń milionów użytkowników Twittera?
Plotting Heat Maps in Python using Bokeh, Folium, and hvPlot
We wstępie pokazujemy posts o heatmapach dla rowerzystów. Tutaj inny sposób rysowania tego typu danych
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)