Newsletter Dane i Analizy, 2023-03-13

blog.prokulski.science 3 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Wielokrotnie na łamach niniejszego newslettera poruszane były tematy związane z Apache Kafka. A to podejście architektoniczne z grubsza mówiące dlaczego Kafka jest fajna i przydatna, a to podejście developerskie - o tym jak wysyłać i konsumować wiadomości z Kafki. Często też trafiają się bardziej zaawansowane przykłady - traktujące Kafkę jako bazę danych (z ktable czy ksql), czasem uzupełnione o Spark Streaming czy inne dodatkowe narzędzia typu Trino.

Ale najczęściej chyba Kafka wykorzystywana jest do przesyłania komunikatów w podejściu publish & subscribe. Są jednak przecież inne rozwiązania kolejkowe - Rabbit, czy na przykład MQTT popularne w rozwiązaniach Internet of Things. Przeczytajcie o podobieństwach i różnicach Kafki z MQTT (tekst Kafka vs Rabbit też oczywiście jest).

Więcej informacji o MQTT - w tym brokery i biblioteki klienckie - można znaleźć na stronie MQTT.org, a tu szczegółowy przykład w Pythonie.

#AI_ML

9 Narzędzi AI dla Biznesu - jak są wykorzystywane w praktyce?
Michał Sadowski wykorzystał wewnętrzne szkolenie z Brand24 i przekazał je szerokiej publiczności. Zacna inicjatywa, ale przede wszystkim ogrom wiedzy!

Deep Learning to Predict Stock Prices
A gdbyby tak wykorzystać sieć neuronową w architekturze LSTM do prognozowania ceny akcji? Mniejsza o to czy się uda, najciekawsze jest tutaj wytłumaczenie jak taka sieć działa

#bazy_danych

DuckDB, what’s the quack about?
DuckDB jako zamiennik na przykład SQLa. Poznajcie Państwo ten typ bazy danych (z przykładami użycia)

#big_data

Importing 4 billion chess games with speed and scale using Elasticsearch and Universal Profiling
Lichess to platforma umożliwiająca grę w szachy, dodatkowo publikuje archiwum gier - łącznie rozegrano ponad 4 miliardy gier. Jak to zaimportować do ElasticSearch?

#ciekawostki

Juice Up Google Docs with ChatGPT API
Wiecie, iż ChatGPT może być użyty bezpośrednio w Google Docs? Istnieje również bliźniacze rozwiązanie dla Google Sheets

#devops

How We Deploy 5x Faster with Warm Docker Containers
Zaciąganie zależności, budowanie i uruchamianie aplikacji w kontenerze może zająć choćby kilka minut. Jest to szczególnie irytujące, jeżeli musisz robić to wielokrotnie jednego dnia. Z artykułu dowiesz się, jak kilkukrotnie przyspieszyć ten proces.

#kafka

Real-Time Wildlife Monitoring with Apache Kafka
Zliczanie zwierząt i Apache Kafka

#mlops

Monitoring NLP models in production
Kilka inspiracji na temat prezentowania "zdrowia" modelu i samych danych, które go zasilają

#python

New Scikit-Learn is More Suitable for Data Analysis
W nowym SciKit-Learn dostępnych jest kilka usprawnień/dodatków, które są szczególnie przydatne do standardowej analizy danych

The ultimate async setup: FastAPI, SQLModel, Alembic, Pytest
Asynchroniczny CRUD via API w Pythonie, na dodatek Alembic i testy jednostkowe

How to setup Python, PyEnv & Poetry on Windows
Używanie wielu wersji Pythona w systemie Windows może być frustrujące, zwłaszcza jeżeli masz doświadczenie z tym samym sposobem pracy w systemach MacOS i Linux/WSL. Ten post to przewodnik o tym, jak uzyskać konfigurację do korzystania ze środowisk wirtualnych Pythona i Poetry (popularnego narzędzia do zarządzania zależnościami)

Building a Powerful Stock Screener with Python
Artykuł pokazuje jak zbudować narzędzie do szybkiego przeglądu informacji o spółkach giełdowych. Pokazujemy go dlatego, iż obrazuje jak w szybki sposób przygotować dość prostą aplikację do przeglądu danych dla wielu "przedmiotów" jednego rodzaju (tutaj są to oczywiście akcje)

Using Twitter bots for data visualization
Jak napisać twitterowego bota, który będzie publikował wykresy? Nieco bardziej wydumany (bo zbierający też na żywo wyniki ze stron) jest bot @SejmVotes pokazujący wykresy z wynikami głosowań w Sejmie - ale działa z grubsza tak samo.

Julia and Python better together
Łączenie R z Pythonem było wielokrotnie, więc może czas na łączenie Pythona z Julią

#spark

Mastering PySpark UDF
Zalety, wady i najlepsze praktyki UDF w PySparku - czy to jest odpowiednie narzędzie dla Twoich potrzeb w zakresie przetwarzania danych?

#ux

Perfekcyjna strona sprzedażowa
Wywiad z Markiem Jankowskim z MalaWielkaFirma dotyczący landing page. 52 minuty nagrania o tym, co taka strona powinna zawierać, jakich błędów unikać i jakie jest moje podeście do tematu

#wizualizacja_danych

Building a Dynamic Map Dashboard
Mapki w Pythonie, tutaj na przykładzie danych o odwiedzających naszą stronę WWW

Binging Netflix data on Tableau
W nocy rozdano Oskary, a tutaj rozdajemy... no, może nie rozdajemy ale pokazujemy jak wykorzystać Tableau do prezentacji danych o filmach

#środowisko_pracy

5 Jupyter Hacks That You Never Knew Even Existed
Nieco (nieco?) click-baitowy tytuł, ale rzeczywiście są to interesujące propozycje dla kogoś kto na co dzień dużo pracuje z Jupyterem

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału