Newsletter Dane i Analizy, 2024-01-02

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Nowy Rok to dramatyczny okres...
Dla siłowni i klubów fitness - bo kolejki, bo tłumy, bo góry pieniędzy od klientów.
Dla wystawców kart abonamentowych do tychże siłowni (typu multisport) - bo najniższe zyski w ciągu roku.
A dla większej części społeczeństwa (tej andrzejowej większej połowy Adamczychy) to czas postanowień noworocznych. I jeżeli macie jakieś postanowienia, to być może tekst The Advanced Manual of Self-Improvement Wam się przyda w ich dotrzymaniu?
Medium.com twierdzi, iż to 48 min read, więc wersja nieco krótsza tutaj. Tak, to Medium.com, więc 5 dolarów za miesiąc, majątek cały. Ale w tym roku jeszcze nie było iż "eldorado w IT się skończyło", więc się (zapewne) nie skończyło ;-)

Ale żeby było bardziej z krainy IT - dzisiaj też coś o wzorcach projektowych. Tym razem nie Java, nie Python, a JavaScript (ale, ale! przecież JavaScript to taka skryptowa Java - to co za różnica? zrób 1+’1′ w obu językach to się dowiesz... taki #żenującyżartprowadzącego na początek roku). jeżeli zaś w JS za mało to nie zapominajcie o stronie Refactoring.Guru gdzie wszystkie wzorce w wielu językach zostały opisane. Też po polsku (to już drugi #żenującyżartprowadzącego w tym roku!).

#ai_ml

Retool State of AI Report 2023
Jakie są rzeczywiste przypadki użycia AI w firmach? Z jakich modeli korzystają programiści? Co sprawia największy problem i wywołuje największy strach? Bardzo fajny przegląd tego, jak AI wchodzi do firm.

A Guide to Grad-CAM in Deep Learning
Jak zobaczyć na co zwraca uwagę sieć konwolucyjna przy swojej własnej "analizie" obrazu?

#airflow

Integrating Kafka with Airflow
Tekst prezentuje prosty sposób użycia Apache Kafka razem z Airflow, mimo iż wiemy, iż istnieją lepsze frameworki... Krótko mówiąc: DAG któ©y czyta i pisze na Kafkę

#analiza_danych_projekty

A model for prediction production yield in tomatoes
Model przewidujący plony, a adekwatnie historia o tym jak jeden model został poprawiony w kolejnych iteracjach. Przykłady w R, ale wiedza uniwersalna, do zastosowania w innych problemach typu przewidywanie szeregów czasowych.

#architektura

System Design Series: 0 to 100 Guide to Data Streaming Systems
Użytkownik chodzi po serwisie (mamy tzw. clickstream), składa zamówienia, używa wyszukiwarki. Normalne zakupy, prawda? Jak w takich warunkach zaprojektować architekturę wykorzystującą przepływające i zgromadzone dane do podsuwania dobrych rekomendacji kolejnych produktów (na których to rekomendacjach np. Amazon ma 35% przychodu)? W oparciu o Kafkę, Cassandrę i zestaw mikroserwisów.

12 Software Architecture Pitfalls and How to Avoid Them
Wiedza o potencjalnych pułapkach architektury systemu może pomóc zespołom unikać kuszących ścieżek i rozwiązań. W tym artykule omówiono niektóre z tych pułapek i podano wskazówki, jak można ich uniknąć.

#bazy_danych

8 Challenges of Horizontally Scaling SQL Databases
Skalowanie SQLowych baz danych wszerz nie jest wcale takie proste. Podano tutaj 8 przykładowych zagadnień z tym skalowaniem związanych

#big_data

Explained: Apache Hive
Czym jest Hive? Jak przechowywane są dane, co "dzieje się pod spodem"?

Apache Arrow Flight as a Data Catalog
W artykule przedstawiono potencjał Apache Arrow w zakresie zwiększania efektywności transportu danych.

#ciekawostki

Modele sieci neuronowych w QGIS - Deepness plugin
Opis wtyczki Deepness (Deep Neural Remote Sensing) która jest przeznaczona do przetwarzania danych geoprzestrzennych w środowisku QGIS.

#devops

Automation Jira creation on GitHub event using Python
Druga część tekstu o wykorzystaniu API Jiry z poziomu Pythona. Dokładniej - mamy tutaj własne API przykrywające API Jiry, i to nasze własne używane jest przez akcje w GitHub. Czyli na przykład: build w ramach procesu CI/CD się nie udał, bo wysypały się testy? No to niech powstanie w Jira issue z odpowiednim błędem.

#front_end

JS Design Patterns: A Comprehensive Guide
Wzorce projektowe to nie tylko Java (chociaż książki o wzorcach głównie na niej bazują) albo Python (tutaj Arjan Codes na YT świetnie pokazał wiele z nich) ale też JavaScript

#mlops

Unlocking Efficient Model Management and Experiment Tracking
Pełne wprowadzenie do MLFlow - cały proces przygotowania modelu z zapisaniem poszczególnych hiperparametrów, kolejnych wersji modelu i wartości artefaktów (na przykład danych podawanych gotowemu modelowi)

#powerbi

Converting a Flat Table to a Good Data Model in Power Query
Wielka (szeroka, z dużą liczbą kolumn) tabela nie zawsze oznacza najlepszy model danych. Jak przygotować dobry model danych w PowerBI?

#python

How to Use Exploratory Notebooks
Notatnik nie powinien być niczym więcej niż raportem. Kod, który zawiera, nie powinien być w ogóle ważny. Liczą się tylko wyniki. To interesująca teza, przeczytajcie argumenty na jej poparcie.

Understanding Efficient Concurrency in Python with One Article
Podstawowe sposoby zrównoleglenia kodu napisanego w Pythonie.

How many CPU cores can you actually use in parallel?
Czy użycie maksymalnej liczby procesorów da najlepszy wynik? W tym tekście przedstawiono jak znaleźć najbardziej optymalną liczbę core’ów do użycia - jednocześnie przedstawiając interesujący pakiet benchit

Automating the Deployment of a Serverless CRUD App with Python
CRUD w Pythonie (ubaranym w AWS Lambda), ale nie taki normalny do SQLa a taki do NoSQLa, konkretnie do DynamoDB w AWS.

#r

How to Run Your R Scripts in a Docker Container
Wiele razy w tym newsletterze znajdowaliście teksty o tym jak coś "skonteneryzować" - w szczególności "coś" pochodzące z Pythona. No to czas też na R.

#spark

Best Data Wrangling Functions in PySpark
Jeśli nie chcesz czytać dokumentacji a potrzebujesz wprowadzenia do najbardziej podstawowych funkcji operujących na danych (sumy, zliczenia, agregacje, warunki, wyrażenia regularne) to właśnie tutaj znajdziesz takie wprowadzenie do Sparka. Ten zestaw pewnie ze 20 funkcji "opędzi" co najmniej 80% pracy z danymi.

1.5 Years of Spark Knowledge in 8 Tips
Kiedy zrozumiesz jak działa Spark w szczególności w klastrze to te uwagi mogą Ci się przydać do pisania bardziej wydajnych skryptów przetwarzających dane

Ranking Diamonds with PCA in PySpark
PCA (Principal Component Analysis) to metoda na redukcję wymiarów w naszych danych. Czasem dane są zbyt "szerokie" (mają bardzo dużo kolumn), przy tej okazji też często są "rzadkie" (tylko niektóre wiersze mają wypełnione niektóre z tych licznych kolumn). Wówczas redukcja wymiarów pozwala na swego rodzaju "kompresję", która z kolei pozwala przygotować lepsze modele albo wręcz od razu widać tworzące się klasy. A jak PCA zrobić w Sparku?

#wizualizacja_danych

TimeViz Browser 2.0
Szukasz inspiracji, bo chcesz zaprezentować dane zmienne w czasie? Ten katalog może pomóc.

Creating Dynamic Choropleth Visualizations Using Plotly
Dane geograficzne lepiej prezentują się na mapach - na przykład na kartogramie. A kartogramy można przygotować korzystając z biblioteki Plotly. I - co jest dodatkiem w tym tekście - zaprezentować na stronie zbudowanej w Dash.

Why Are All Maps Inaccurate?
O różnych typach odwzorowań map było całkiem niedawno - powtórka nie zaszkodzi. Tym bardziej, iż powtórka mówi też o powodach zastosowania tego czy innego typu odwzorowania.

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału