Newsletter Dane i Analizy, 2023-01-16

blog.prokulski.science 3 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Czy wiecie, iż książka "365 dni" jest bardziej o Massimo niż o Laurze? W sumie w całej książce użyte jest jakieś 8350 różnych słów, z czego 50% treści wykorzystuje 425 z nich (czyli 5% użytych słów stanowi 50% treści!). Oczywiście chodzi o lematy, z wykluczonymi stopwords. Polecam wykład na TEDx Koszalin o NLP dla laików, trochę zabawne, na pewno inspirujące - właśnie z tej inspiracji te wyliczenia.

A co poza tym dzisiaj? Sporo o MLOps (cały dział!) Trochę o przetwarzaniu danych dla początkujących - Pandas i PySpark.

#AI_ML

Stable Diffusion, textual inversion i kosmiczne awatary generowane przez AI
Kojarzycie LensaAI? Na podstawie zdjęć generuje niesamowite avatary popularne ostatnio w social mediach. Jak to działa? Jak to zrobić na własnym komputerze?

#airflow

Periodic Weather Alerting Using Apache Airflow
Zespół DAGów w Airflow jako maszyna ostrzegająca o zmianach pogody. Mamy więc pobieranie danych, ich analizę i jeżeli zajdzie taka potrzeba - alarmowanie

#analiza_danych_koncepcje

7 of the Most Used Feature Engineering Techniques
Świetna paczka wiedzy o najpopularniejszych metodach szukania nowych cech i przekształcania istniejących

#ciekawostki

12 Must-Have Skills to become a Data Engineer
A żeby zostać tym data engineerem to co trzeba umieć?

Monte Carlo Simulations: Separating Signal from Noise in Sampled Success Metrics
Czasem posiadane dane wystarczą żeby wydobyć jakieś informacje. Często jednak jest to za mało. Można zrobić założenia, coś zasymulować i policzyć. A jak policzy się to samo tysiące razy wynik jest bliższy prawdy (mimo iż to tylko symulacja!). Czyli będzie tutaj o symulacjach Monte Carlo i ich wykorzystanie w biznesie

#devops

Text Processing in Linux: grep, sed, awk
Trzy wymienione narzędzia uznaje się za podstawowe w obróbce plików tekstowych. Mogą się one przydać w codziennej pracy z terminalem. Ich obsługa jest prosta, ale jeżeli nigdy nie spotkałeś się np. ze składnią AWK lub sed-a, to może Cię ona nieco zaskoczyć

#mlops

A Beginner-Friendly Introduction to MLOps
Pierwsze kroki w świecie MLOps

A layered approach to MLOps
Jak już wiemy iż istnieje coś takiego jak MLOps, znamy role w takim podejściu to może czas zastanowić się nad strukturyzacją projektów ML w takim duchu?

What An MLOps Engineer Does?
A ci ludzie od MLOps to co oni adekwatnie robią? Po co ich robota, na czym ona polega i co wypada umieć?

Software engineering challenges in MLOps
Jakie problemy mogą przytrafić się przy wdrażaniu rozwiązań ML? Gdzie i czy w ogóle są granice odpowiedzialności pomiędzy zespołami data scientistów i data engineerów?

#python

Kafka in Machine Learning for Real-time Predictions
Kafka, scikit-learn i model ML "zapięty" w topik

Deploying ML Models with FastAPI and Azure
A jeżeli nie model korzystający z danych płynących Kafką to może API będące opakowaniem takiego modelu? I w dodatku skonteneryzowane i osadzone na Azure?

Preprocessing and Manipulating Data for Data Science Using Pandas
Mamy dzisiaj wstęp do PySparka i mamy też dużo obszerniejszy wstęp do Pandas

#spark

Spark ETL guide for data experts
Bardzo krótkie wprowadzenie do PySparka, skupione głównie na czytaniu i pisaniu do wielu źródeł danych. Ale nie dajcie się zwieść - nie zawsze jest tak różowo jak wygląda w przykładach

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału