Newsletter Dane i Analizy, 2023-07-03

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Wzorce projektowe ułatwiają pracę. Kod jest bardziej czytelny, łatwiej go rozbudować i nie trzeba przebudowywać całej aplikacji. Tych wzorców jest bardzo dużo, możesz zacząć od "top 10" opisanych w artykule "10 Underrated Software Patterns Every ML Engineer Should Know", który patrzy na wzorce projektowe przez pryzmat projektów machine learning.

Jeśli zaś potrzebujesz przykładu kodu to dobre wprowadzenie daje tekst "Structural Design Patterns: A Comprehensive Guide for Developers"

Największą jednak i darmową bazą, obejmującą kilka języków (angielski, niemiecki, polski też... a nie! - o języki programowania chodzi: C#, C++, Go, Java, PHP, Python, Ruby, Rust, Swift oraz TypeScript) jest strona Refactoring.Guru.

Tyle o wzorcach projektowych, liczę na to iż Was ten aspekt programowania zainteresował. Standardowa zawartość poniżej :)
Do przeczytania za tydzień!


#analiza_danych_koncepcje

Anomaly Root Cause Analysis 101
Jak znaleźć wyjaśnienie każdej anomalii w swoich wskaźnikach?

Article Vectorisation Reloaded
Wektoryzacja artykułów? Tak - na przykład po to, aby porównywać dokumenty tekstowe ze sobą, znajdować podobne i łączyć podobne w grupy.

PatchTST: A Breakthrough in Time Series Forecasting
Od teorii do praktyki, poznaj algorytm PatchTST i zastosuj go w Pythonie razem z N-BEATS i N-HiTS

#architektura

Event-driven architecture best practices for databases and files
Pozyskiwanie danych oraz ich przetwarzanie w architekturze sterowanej zdarzeniami - w tekście przedstawiono kilka rozwiązań dla danych trzymanych w bazie czy też choćby w plikach. Z grubsza mówiąc: kolejki

#big_data

Apache Airflow, Spark, and Kubernetes for Streamlined Workflow Management
Ten artykuł jest częścią serii samouczków opisujących kilka sposobów wdrażania potoków danych w środowisku lokalnym i w chmurze. W tej konkretnej części mowa o tym, jak Airflow może wyzwalać prace w Sparku na Kubernetesie i jak to wszystko pospinać w jedno

#ciekawostki

Getting Started with GraphQL Cheatsheet
GraphQL - o co w tym chodzi? Wprowadzenie

Working with Hugging Face Datasets
Często dla swoich prac (na przykład do uczenia czy weryfikowania modeli) potrzebujemy danych. Tutaj znajdziecie informacje o tym jak wykorzystać zbiory z Hugging Face (a danych tam mnóstwo!)

#python

Poetry: A Better Way to Manage Python Dependencies
Jak zarządzać zależnościami? Pip czy conda? A może Poetry?

Plotly Dash vs Streamlit: Which one to choose for Python Dashboards
Szybkie dedykowane dashboardy pokazujące różne dane - z czego skorzystać? Rozwiązania BI? Może opensource’owy Superset albo Metabase? A może szybka aplikacja w Pythonie oparta na jakimś przyzwoitym frameworku? Tylko który z najpopularniejszych wybrać?

Website Monitoring: Using Python for Efficient Data Extraction
Celem opisanego tutaj projektu jest monitorowanie zawartości stron internetowych i przygotowanie powiadomień o zmianach.

When NumPy is too slow
NumPy jest szybkie, ale można jeszcze szybciej. Spróbuj z Numba oraz innymi rozwiązaniami

Services vs Command Handlers
Dwa podejścia do pisania kodu - który zastosować kiedy? Jakie mają plusy i minusy?

#r

Lessons Learned From Running R in Production
Problemy jakie można napotkać przy wdrażaniu skryptów napisanych w R w środowisko produkcyjne.

#spark

English SDK for Apache Spark
A gdyby tak do Sparka "mówić" normalnym, ludzkim językiem?
"Posumuj mi wartości zakupów klientów w podziale na miejsce zamieszkania".

#sql

Find Duplicate Values In A Table
Pozbądź się zduplikowanych wierszy w danych dzięki tych dwóch sztuczek w SQLu


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału