Newsletter Dane i Analizy, 2022-10-10

blog.prokulski.science 3 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj prawdziwa bomba na początek - szczegółowy esej na temat wykorzystania uczenia maszynowego na rynku akcji. Tekst obejmuje projekt systemu, który konsekwentnie pokonywał S&P 500, dopóki nie został zamknięty w lipcu 2022 roku. Jest tu wiele, w tym dyskusja na temat dynamiki rynku, podejścia do modelowania, stosu technologicznego, inżynierii funkcji, pipeline ML i nie tylko. Czyta się długo, ale warto! Didact AI: The anatomy of an ML-powered stock picking engine.

Poza tym sporo dzisiaj materiałów o przetwarzaniu tekstu (na róźnym poziomie zaawansowania), kilka przydasiów do Apache Kafka, nauka SQLAlchemy (czyli jak w Pythonie gadać z bazami danych).

Polecam też dwa świetnie przygotowane materiały: ten o sposobie działania K-Means oraz ten o kawie i herbacie (musisz przeczytać cały newsletter, żeby je odnaleźć ;-)

A Python grający w GTA 5? To playlista na długie zimowe wieczory!

#AI_ML

Audio classification with torch
Sieci neuronowe to nie tylko TensorFlow i Python, ale też R i Torch. Tutaj znajdziecie przykład jak właśnie R i Torch służą co klasyfikacji dźwięków. choćby jeżeli nie znasz R oraz Torcha to warto przejrzeć artykuł i kod, bo dość łatwo ogólne założenia przenieść na grunt Pythona i TF. Swoją drogą - Torch zyskuje na popularności, więc może to ten moment, w którym czas się przestawiać?

How To Train YOLOv5 For Recognizing Game Objects
Rozpoznawanie obiektów na obrazie można użyć to... rozpoznawania obiektów w grze. Stąd już tylko krok do botów prowadzących rozgrywkę w taką czy inną grę w naszym imieniu... Ale ten tekst to świetny przykład jak wytrenować modele YOLO na własnym zestawie danych

Python plays Grand Theft Auto V
A jeżeli zaintrygował Cię temat grającego bota, który wykorzystuje computer vision to zobacz cały cykl uczenia prowadzenia auta w GTA 5

#analiza_danych_koncepcje

Text Analysis & Topic Modelling with spaCy & GENSIM
Analiza tekstów i rozpoznawanie tematów - szybkie wprowadzenie do tych dwóch zagadnień. Wprowadzenie, które pokazuje podstawy przetwarzania danych tekstowych przy użyciu Pythona wyposażonego w pakiety SpaCy i Gensim

Understanding Outliers in Text Data with Transformers, Cleanlab, and Topic Modeling
Skoro już jesteśmy po wprowadzeniu to tutaj bardziej zaawansowane techniki - już nie tylko samej analizy tekstu

Karty Data Science - update o NLP
REKLAMA | Wiecie, iż w ramach Kart Data Science pojawiło się ostatnio 66 nowych Kart dotyczących NLP? Zaś kod "DANEIANALIZY" daje 15% rabatu na cały zestaw. Co ważne - kolejne aktualizacje w drodze i po zakupie zestawu są one bezpłatne

K-Means Clustering: An Explorable Explainer
Jak działa algorytm grupujący K-Means? To jeden z algorytmów nienadzorowanego uczenia maszynowego - maszyna sama potrafi rozpoznać grupy obiektów. Ale jak to działa? Interaktywna szkoła!

#ciekawostki

Kawa czy herbata?
Kolejny świetnie przygotowany artykuł z "The Washington Post" - oni potrafią w data journalism

SiP effort estimation dataset
Zbiór danych o czasie trwania bardzo dużej liczby zadań w porównaniu z tym jak były estymowane. interesujące dla weryfikacji planowania w Scrumie. Samym zbiorem można się oczywiście pobawić, ale już ktoś to zrobił i opublikował (podlinkowany na arXiv) stosowny "pejper"

#devops

How To Install & Use Wireshark On Raspberry Pi
Czy kiedyś kusiło Cię podsłuchiwanie ruchu sieciowego? Na przykład jakie strony odwiedzają Twoi domownicy? Malina (ale nie koniecznie tylko ona) i Wireshark mogą pomóc

#kafka

Apache Kafka - ilu partycji potrzebuję?
Apache Kafka umożliwia ustawienie liczby partycji dla wszystkich topika, ale jak obliczyć ile partycji potrzebuję?

Generic command line Apache Kafka producer and consumer
Klient Apache Kafka obsługiwany z konsoli - wszystko co podstawowe da się zrobić. Na przykład logi z serwera WWW lecą strumieniem na topik jedną prostą linijką, a potem to już można wszystko...

#python

12 Beginner Concepts About Type Hints To Improve Your Python Code
Python to język z dynamicznym typowaniem - zmienne w jednym momencie mogą być stringiem a w innym liczbą. Typowanie porządkuje to i sprawia iż kod staje się bardziej przejrzysty (przy okazji ucząc dobrych nawyków pilnowania typów przed przesiadką na C/C++ czy inną Javę). W tym tekście znajdziesz wprowadzenie do typowania w Pythonie

Discover SQLAlchemy
Dzięki temu artykułowi nauczysz się uzyskiwać dostęp i uruchamiać zapytania SQL przy użyciu Pythona i SQLAlchemy

Transactional Unit Tests with Pytest and Async SQLAlchemy
Skoro już coś o SQLAlchemy wiemy to może dorzućmy bardziej zaawansowane koncepcje, w dodatku z testami jednostkowymi?

How to Prepare Scikit-Learn Models for Production
Jak wdrożyć na produkcję modele przygotowane w Pythonie w oparciu o FastAPI i Dockera?

How To Use Python To Post on Popular Blogging Websites
Chciałbym żeby samo się pisało i żeby posty zwiększały zasięgi... czyli jak opublikować jedno w wielu miejscach

#r

Top 7 Packages for Making Beautiful Tables in R
Ładny dokument (albo aplikacja w Shiny) posiada też ładne tabelki. Istnieje kilka sposobów na takowe

Why and how to use JS in your Shiny app
Jak połączyć JavaScript z Shiny? Dlaczego to może być przydatne?

#spark

Accelerating Big Data processing with Spark optimisation
6 kroków do przyspieszenia sparkowego przetwarzania danych

#wizualizacja_danych

What to consider when using text in data visualizations
Jak uczynić wykresy bardziej czytelnymi? Szczególny nacisk w tym tekście położony jest na zastosowanie tekstu

How to Easily Customize SHAP Plots in Python
SHAP (SHapley Additive exPlanations) jest bardzo popularnym sposobem na pokazanie istotności cech użytych w modelach. Pythonowy pakiet shap potrafi to choćby narysować... ale komuś się mogą kolorki nie podobać - tutaj ten ktoś może się dowiedzieć jak je pozmieniać

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału