Newsletter Dane i Analizy, 2022-09-19

blog.prokulski.science 3 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj sporo tekstów dotyka sieci neuronowych. a może lepiej powiedzieć: TensorFlow. Mamy krótkie przedstawienie jak w ogóle sieci działają, kilka tekstów pokazujących jak z TensorFlow pracować i przygotowywać modele. Interesujące jest porównanie modeli regresji liniowej zawartych w pythonowym SciKit-Learn.

Dla początkujących i średniozaawansowanych mamy dwa obszary: scheduler zadań czyli coś o Apache Airflow oraz (też Apache) Spark o łączeniu danych i wykorzystaniu w NLP

Mam też dla Was coś specjalnego. Każdy lubi rabaty, a ja daję bezterminowo 15% zniżki na Karty Data Science!

Karty Data Science to zestaw, który pozwoli Ci uporządkować wiedzę z zakresu #datascience na przykład przed rozmową rekrutacyjną albo egzaminem. jeżeli zaś zaczynasz swoją drogę w świat #MachineLearning i #AI to wskażą podstawowe kierunki.

#AI_ML

How are memories stored in neural networks?
Działanie sieci neuronowych wyjaśnione w przystępny sposób dla laika w 15-minutowym filmie

Exploring Best Test Size, Number of Folds, and Repeated Hold-Out
Standardowy problem: jak duża powinna być próbka testowa? w ilu "kubełkach" w technice k-fold uczyć model?

MovieLens-1M Deep Dive - Tensorflow Recommenders
System rekomendacyjny z użyciem Tensorflow Recommenders (i bardzo fajnie napisanym kodem). Szukamy najbardziej pasującego filmu do już oglądanych i ocenionych, a za zbiór uczący służy znany MovieLens-1M

Stop using grid search!
A jak już szukamy odpowiedniego modelu budowanego w TensorFlow/Keras to może zautomatyzować dobór hiperparametrów (np. liczbę neuronów na kolejnych warstwach sieci) w naszej architekturze modelu? Keras Tuner w tym pomoże

Keras Callbacks Tutorial for Training Your Neural Networks Efficiently
I jeszcze raz TensorFlow/Keras - tym razem callbacki, które pozwolą na wywołanie naszych funkcji na początku i końcu każdej z uczących epok

Learning to Rank for Product Recommendations
Najczęstsze przypadki użycia LTR ( Learning-to-rank) to wyszukiwarki i systemy rekomendacyjne, gdzie celem rankingu jest uporządkowanie elementów w zrozumiałej kolejności.
W tym artykule wykorzystamy popularną bibliotekę XGBoost do rekomendacji filmów (tak, znowu)

#analiza_danych_koncepcje

Are You Using Feature Distributions to Detect Outliers?
Szukanie outlierów w sposób inny niż badanie rozkładów danych. O odległości Cooka, DBSCAN i Isolation Forest

3 Robust Linear Regression Models to Handle Outliers
Znowu outliery, tym razem w regresji liniowej. Ale nie szukanie ich tylko weryfikacja jak dostępne w ramach biblioteki scikit-learn model sobie z nimi radzą

#architektura

Streaming data vs. real-time data
Jak jest różnica między systemami operującymi na strumieniu danych a danymi (near) real-time?

Principles & Best Practices of REST API Design
Pryncypia i dobre praktyki przydatne przy tworzeniu usług REST API. Nie ma kodu, ale jest sporo sensownych punktów - swego rodzaju check-lista

#bazy_danych

NoSQL vs SQL - Which Type of Database Should You Use?
Półtorej godziny (ale można 2x speed i wiele się nie traci ;-) o bazach danych - najpierw relacyjnych i SQL, a potem o NoSQL (i ta część wydaje się ciekawsza). Na koniec - kiedy używać której

#big_data

Airflow 101: Hints and Tips to Quickly Get Started
Nie masz zielonego pojęcia czym jest Airflow? To tekst dla Ciebie. Nie tylko gwałtownie dowiesz się do czego używać Airflow ale też jak tego robić (na konkternym przykładzie, z konkternym kodem)

Airflow dynamic DAGs
A jak już wiesz czym Airflow jest to może zainteresujesz się dynamicznymi DAG-ami?

#management

The Art of The AI KPI
Jakimi miarami mierzyć jakość danych i wyniki ich analizy?

#python

CUDA by Numba Examples
Jak pewnie Wam wiadomo CUDA to silnik od NVidii pozwalający na wykorzystnaie kart graficznych w obliczeniach (jest wymagana chociażby dla TenforFlow jeżeli ma wykorzystać GPU). A gdyby ktoś zechciał wykorzystać GPU do obliczeń ale bez użycia np. TensorFlow?

#r

Mapping wind data with R
Dokładnie tak jak w tytule - rysowanie wiatru

R Shiny & FontAwesome Icons - How to Use Them in Your Dashboards
FontAwesome to zestaw ikonek (ponad 19 tysięcy!) które możecie wykorzystać na swoich stronach WWW ale też w dashboardach robionych w Shiny (i nie tylko)

#spark

How many ways to MERGE Data Frame in Apache Spark
Coś dla pracujących na danych w Sparku - jak łączyć ze sobą różne tabele?

Implementing Count Vectorizer and TF-IDF in NLP using PySpark
To też dla tych, którzy pracują w Sparku - tym razem z tekstem. Jak przygotować macierze TF-IDF?

#wizualizacja_danych

BI tools: Three Generations
Ciekawe spojrzenie na narzędzia typu BI - szybki ich przegląd i podział na generacje. Może się przydać w poszukiwaniu odpowiedniego dla siebie albo dla Twoich współpracowników (albo na slajdy dla zarządu)

Which fonts to use for your charts and tables
Na koniec o czcionkach - których używać na wizualizacjach danych?

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału