Newsletter Dane i Analizy, 2023-06-26

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Rozpoczynamy pierwszy tydzień wakacji, ale to wcale nie oznacza, iż newsletter ma urlop. Wręcz przeciwnie.

W dzisiejszym wydaniu kilka tekstów opisujących dobre praktyki i całe cykle tutorialowe: CRUD-woe API dla MongoDB czy też asynchroniczne mikroserwisy spięte Rabbitem. To dla tych średniozaawansowanych programistów (i tych, którzy chcą swoją wiedzę przenieść z poziomu juniorskiego na wyższy). Dla tych bardziej juniorów - korepetycje z Window Functions w SQLu i "rozpakowywujących" gwiazdek w Pythonie (mimo iż to nie Gwiazdka, he he, zacny suchar).

Sporo części poświęconej pomysłom czy sposobom na analizę danych dzisiaj prowadzi do tekstów rozbudowujących wiedzę: funkcje aktywacji, tricki w sklearn czy też tutorial do jednej z metod grupowania danych.


#airflow

Airflow and Spark: Running Spark Jobs on Airflow
Airflow uruchamiający procesu napisane z użyciem Sparka, a wszystko ubrane w kontenery Dockerowe. Więcej szczegółów (przykładowy DAG czy sam skrypt PySparka) znajdziecie w repo na GitHubie

#analiza_danych_koncepcje

Exploring Hierarchical Clustering
Klastrowanie hierarchiczne - metoda klasyfikacji oparta na odległościach (euklidesowych, manhattańskich itp.) między poszczególnymi elementami.

Creating Incredible Decision Tree Visualizations with dtreeviz
Jak pokazać reguły którymi posługuje się model drzewa decyzyjnego? Ta biblioteka jest do tego stworzona, a w dodatku używa danych w samej wizualizacji

Choosing the Right Activation Function in Deep Learning: A Practical Overview and Comparison
W uczeniu głębokim funkcja aktywacji odnosi się do funkcji matematycznej zastosowanej do wyjścia neuronu w sieci neuronowej i odpowiada za przekształcenie danych wejściowych. Istnieje co najmniej kilkanaście takich funkcji, mających różne adekwatności i co za tym idzie zastosowania w różnych problemach.

19 Most Elegant Sklearn Tricks
Niemało sztuczek i mniej popularnych tricków z biblioteki SciKit Learn

Analyzing graph networks Part 2: Utilizing advanced methods
Nieco bardziej złożona analiza sieci społecznych (zatem grafów) na przykładzie rozprzestrzeniania się chorób

#analiza_danych_projekty

Step-by-Step Guide to Time Series Forecasting with SARIMA Models
Sezonowe szeregi czasowe - na przykład średnia temperatura dzienna w ciągu roku, na przestrzeni kilku lat. Skoro znamy historyczne dane, a pory roku są cykliczne to jaka będzie temperatura jutro? Problem podobnej klasy możemy swobodnie spróbować rozwiązać wykorzystując modele typu SARIMA

#big_data

Replacing Apache Hive, Elasticsearch and PostgreSQL with Apache Doris
Doris - sposób na zastąpienie części storage i compute w typowej hurtowni danych opartej na Hive

#chatgpt

Power of DocsGPT: A Tutorial on Querying PDF and Word Documents
Modele GPT dostarczone przez OpenAI zastosowane do przeszukiwania (może bardziej: odpytywania) własnych dokumentów.

#ciekawostki

Soft Skills Beat Technical Skills in Data Analytics
Analityk danych powinien nie tylko umieć "przerzucać cyferki" ale też o tym opowiadać (o cyferkach i wynikach przerzucania, nie tylko o samym przerzucaniu). Czy są inne miękkie umiejętności przydatne w pracy?

#python

Lovely Python config handling using Pydantic
W niedzielę na FB, na fanpage’u "Dane i Analizy" było o tym jak przechowywać konfigurację w plikach i ją z nich odczytywać, a tutaj krok dalej - jak radzić sobie z różnymi środowiskami (dev, test, prod)

6 Use Cases in Python Where * and ** Come in Handy
Po co są te gwiazdki? O co chodzi z rozpakowaniem listy albo słownika do argumentów wywoływanej funkcji?

Mastering Jupyter Magic Commands
Wiecie, iż Jupyter Notebook ma swoje "tajemnicze" komendy (zaczynające się od %)? Tutaj znajdziesz opis kilku i powody, dla których warto z nich korzystać

6 Tips for Writing Clean and Maintainable Python Functions for Data Engineering
Jak z dość rozbudowanej funkcji robiącej kilka rzeczy zrobić kod, który będzie łatwy w utrzymaniu i rozwoju?

Designing Pythonic library APIs
Zasady, które są przydatne do projektowania dobrych interfejsów API (tutaj korzystając z Pythona) w tym struktura, nazewnictwo, obsługa błędów i adnotacje typów.

Extensive FastAPI with MongoDB example
Spory cykl o pisaniu API "gadającego" z MongoDB. Taki CRUD dla bazy NoSQL z dużą ilością materiału o testach, logowaniu itd itp.

Elaborate Microservice async example with FastAPI, RabbitMQ, MongoDB and Redis
Mikroserwisy połączone ze sobą i działające asynchronicznie. Tym razem to ostatni w serii artykuł, warto przeczytać całość

Stop Creating Boring Vanilla Plots — Use Matplotlib Annotations Instead
Dopiski na wykresach pozwalają na zwrócenie uwagi odbiorcy na konkretne punkty, zdarzenia które wykres przedstawia. Jak je zrobić w matplotlib?

#sql

10 Best Practices for T-SQL that Every Developer Should Know
Wyżej widzieliśmy teksty o tym jak pisać czytelny kod w na przykład Pythonie, tutaj coś o SQL

Window Functions — A must know for Data Engineers and Data Scientists
Wracamy do podstaw SQL - funkcje okna, które na początku mogą wprowadzać trochę zamieszania, ale ten tekst dobrze opisuje do czego są przydatne i jak z nich korzystać, więc po odrobinie ćwiczeń nie powinny być już "czarną magią".

#wizualizacja_danych

Matplotlib Tips to Instantly Improve Your Data Visualizations
"Kawa na ławę" jak przygotować w Pythonie wykresy przykuwające uwagę do elementów, do których chcemy ją przykuć. Jak usunąć zbędne elementy i wprowadzić większą czytelność

Using Plotly 3D Surface Plots to Visualise Geological Surfaces
Wykresy 3D nie są najszczęśliwszym sposobem prezentacji danych, ale jeżeli te dane to na przykład wysokość terenu (albo cokolwiek innego związanego z geologią)? Można użyć biblioteki Plotly


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału