Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Czy wiecie, iż książka "365 dni" jest bardziej o Massimo niż o Laurze? W sumie w całej książce użyte jest jakieś 8350 różnych słów, z czego 50% treści wykorzystuje 425 z nich (czyli 5% użytych słów stanowi 50% treści!). Oczywiście chodzi o lematy, z wykluczonymi stopwords. Polecam wykład na TEDx Koszalin o NLP dla laików, trochę zabawne, na pewno inspirujące - właśnie z tej inspiracji te wyliczenia.
A co poza tym dzisiaj? Sporo o MLOps (cały dział!) Trochę o przetwarzaniu danych dla początkujących - Pandas i PySpark.
#AI_ML
Stable Diffusion, textual inversion i kosmiczne awatary generowane przez AI
Kojarzycie LensaAI? Na podstawie zdjęć generuje niesamowite avatary popularne ostatnio w social mediach. Jak to działa? Jak to zrobić na własnym komputerze?
#airflow
Periodic Weather Alerting Using Apache Airflow
Zespół DAGów w Airflow jako maszyna ostrzegająca o zmianach pogody. Mamy więc pobieranie danych, ich analizę i jeżeli zajdzie taka potrzeba - alarmowanie
#analiza_danych_koncepcje
7 of the Most Used Feature Engineering Techniques
Świetna paczka wiedzy o najpopularniejszych metodach szukania nowych cech i przekształcania istniejących
#ciekawostki
12 Must-Have Skills to become a Data Engineer
A żeby zostać tym data engineerem to co trzeba umieć?
Monte Carlo Simulations: Separating Signal from Noise in Sampled Success Metrics
Czasem posiadane dane wystarczą żeby wydobyć jakieś informacje. Często jednak jest to za mało. Można zrobić założenia, coś zasymulować i policzyć. A jak policzy się to samo tysiące razy wynik jest bliższy prawdy (mimo iż to tylko symulacja!). Czyli będzie tutaj o symulacjach Monte Carlo i ich wykorzystanie w biznesie
#devops
Text Processing in Linux: grep, sed, awk
Trzy wymienione narzędzia uznaje się za podstawowe w obróbce plików tekstowych. Mogą się one przydać w codziennej pracy z terminalem. Ich obsługa jest prosta, ale jeżeli nigdy nie spotkałeś się np. ze składnią AWK lub sed-a, to może Cię ona nieco zaskoczyć
#mlops
A Beginner-Friendly Introduction to MLOps
Pierwsze kroki w świecie MLOps
A layered approach to MLOps
Jak już wiemy iż istnieje coś takiego jak MLOps, znamy role w takim podejściu to może czas zastanowić się nad strukturyzacją projektów ML w takim duchu?
What An MLOps Engineer Does?
A ci ludzie od MLOps to co oni adekwatnie robią? Po co ich robota, na czym ona polega i co wypada umieć?
Software engineering challenges in MLOps
Jakie problemy mogą przytrafić się przy wdrażaniu rozwiązań ML? Gdzie i czy w ogóle są granice odpowiedzialności pomiędzy zespołami data scientistów i data engineerów?
#python
Kafka in Machine Learning for Real-time Predictions
Kafka, scikit-learn i model ML "zapięty" w topik
Deploying ML Models with FastAPI and Azure
A jeżeli nie model korzystający z danych płynących Kafką to może API będące opakowaniem takiego modelu? I w dodatku skonteneryzowane i osadzone na Azure?
Preprocessing and Manipulating Data for Data Science Using Pandas
Mamy dzisiaj wstęp do PySparka i mamy też dużo obszerniejszy wstęp do Pandas
#spark
Spark ETL guide for data experts
Bardzo krótkie wprowadzenie do PySparka, skupione głównie na czytaniu i pisaniu do wielu źródeł danych. Ale nie dajcie się zwieść - nie zawsze jest tak różowo jak wygląda w przykładach
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)