Newsletter Dane i Analizy, 2022-12-12

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj nie będzie o GPT-3 i chacie OpenAI (jak wszędzie), ale będzie wprowadzenie w temat szeregów czasowych oraz coś o metrykach dla modeli rekomendacyjnych.

Jest też trochę materiałów dla początkujących i średnio-zaawansowanych w Pythonie, a sekcja ciekawostek pozwoli wybrać książkę dla inżynierów danych albo... nauczyć się programu do obsługi audio/wideo.

Pamiętacie o Kartach Data Science? Właśnie pojawiła się aktualizacja o paczkę dotyczącą szeregów czasowych (dobrze komponuje się z dzisiejszym wydaniem, prawda?). To coś dla Ciebie? A może na prezent pod choinkę dla kogoś znajomego? Tak czy inaczej ja daję bezterminowo 15% zniżki.

Karty Data Science to zestaw, który pozwoli Ci uporządkować wiedzę z zakresu data science i wskaże podstawowe kierunki na przykład nauki i rozwoju.

Na koniec raport przygotowany przez McKinsey: The State of AI Report, 2022. W jakim miejscu jest AI, dokąd zmierza?


#analiza_danych_koncepcje

A Gentle Introduction to Time Series Analysis & Forecasting
O szeregach czasowych było już kilka razy w naszym newsletterze. Ale chyba nie było nigdy wprowadzenia z prawdziwego zdarzenia

Metrics of Recommender Systems
Kiedy budujemy system rekomendacji dobrze by było wiedzieć czy radzi on sobie dobrze czy źle. Najprościej poznać to po metrykach. A jakie metryki dobrać do takiego problemu?

Google Trends as a Machine Learning Features with BigQuery
Google Trends w uproszczeniu pokazują popularność zapytań o konkretne hasła. W czasie i w przestrzeni. Czy takie dane można wykorzystać w modelach ML? Oczywiście. Tutaj świetny przykład na ten temat

Density-Based Clustering: DBSCAN vs. HDBSCAN
Porównanie dwóch algorytmów grupujących bazujących na gęstości danych

DBSCAN Clustering: Break It Down For Me
Skoro jest porównanie to może jeden z tych algorytmów (oraz sposób jego działania) warto dokładniej poznać?

#architektura

The Architecture of a Modern Startup
Jak dobrać architekturę rozwiązań IT do startupu? Tak żeby nie budować na początku armaty na komara ale jednocześnie nie zapędzić się w kozi róg w przyszłości?

#bazy_danych

How Database Design Matters in PostgreSQL Performance
PostgreSQL ma kilka cech, które mogą przyśpieszyć wykonywanie zapytań

#big_data

Trino Python Client
Apache Trino umożliwia odpytywanie SQLem różnego rodzaju baz danych - choćby tych NoSQLowych. Tutaj dowiesz się jak to robić z poziomu Pythona

How To Move From Spark on YARN to Kubernetes
W jaki sposób przenieść Sparka ze statycznych maszyn zarządzanych Yarnem na pody Kubernetesowe? I dlaczego to robić?

How to Redact NER using SpaCy and Python UDF in Snowflake
Użycie biblioteki SpaCy (do NLP) na danych zgromadzonych w Snowflake? Da się, zobacz jak

#ciekawostki

Kiedy batchowo (czyli co 15 minut) a kiedy w real-time (właściwie od razu)?
Kiedy analityka oparta na paczkach danych przygotowanych w wydzielanych oknach jest wystarczająca a kiedy już nie? Dlaczego analiza danych strumieniowych daje większe możliwości?

When a Picture Is Worth More Than Words
Airbnb tak dobiera zdjęcia do prezentowanych ofert, aby były zachęcające i tym samym lepiej sprzedawały. Jak oni to robią?

10 Fantastic Books For Data Engineering
Książki które wzbogacą Twoją wiedzę jako inżyniera danych

FFmpeg - Ultimate Guide
FFMPEG to działający w terminalu (CLI) program do obróbki audio/wideo. Potrafi kompresować nagrania, łączyć je, podmieniać audio, nakładać filtry, wycinać fragmenty i wiele, wiele innych. Z tego artykułu dowiesz się, jak każdą z tych akcji wykonać i jak zrozumieć koncepcje stojące za tą aplikacją (nie wszystkiego da się tak łatwo domyślić).

#management

From Technical Project Manager To Machine Learning Engineer
Gdyby ktoś chciał zmienić pracę czy też stanowisko na takie bardziej związane z przetwarzaniem danych i uczeniem maszynowym - jakie wyzwania czekają?

#python

PDF Parsing Dashboard with Plotly Dash
Zrób sobie własny czytnik PDF... dodatkowo pozwalający wyciągać nieco informacji z tekstu a choćby go skracać

Say Goodbye to Loops in Python, and Welcome Vectorization!
Zamiast przechodzić element po elemencie, wiersz po wierszu użyj wektoryzacji - to przyspieszy działanie Twojego programu w Pythonie. Nie wiesz o co chodzi? Koniecznie przeczytaj!

What If .apply() Is Too Slow?
Czy metoda .apply() jest najszybszym sposobem na przekształcenie kolumny w pandasowym data frame?

#sql

Learn These 25 Pandas to SQL Translations To Upgrade Your Data Analysis Game
Jak już jesteś specjalistą od Pandas to może czas zająć się SQLem? Bo SQL nieco bardziej popularniejszy...

#środowisko_pracy

Git stash command
Pull i push to podstawa, commit wszystkim znany. A co robi git-owa komenda "stash"?

Text to diagram
D2 vs GraphViz vs PlantUML vs MermaidJS. Czym się różnią, jakie mają ograniczenia i jak naprawdę wygląda definiowanie skomplikowanych struktur w tych narzędziach? interesująca strona, która pomoże Ci wybrać adekwatną dla Ciebie technologię do produkcji diagramów.

Tim’s Tool Shed
Trochę "przydasiów" konsolowych do różnych zadań: zamiennik htopa, du, browser po plikach w obrazach Dockera. We wcześniejszych wpisach z tej serii też kilka ciekawostek


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału