Newsletter Dane i Analizy, 2024-11-18

blog.prokulski.science 6 dni temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Newslettery... czy wiecie, iż tylko nieco ponad 1/3 newsletterów ma swój drugi numer? Co 10-ty newsletter (precyzyjniej: 11%) ukazuje się dłużej niż 10 numerów. A jednocześnie 23-krotnie wzrosła liczba newsletterów od 2019 roku na platformie Substack. Tak mówi źródło tych danych.

Nasz newsletter ma jakieś 3 lata (przynajmniej w redakcyjnym archiwum w serwisie Raindrop.io gdzie zebrane są wszystkie teksty jest tag #newsletter_2021-11-15), co by znaczyło jakieś 150 wydań. W archiwum, bo były czasy przed budowaniem archiwum (kilkanaście tygodni na pewno), ale tak starych ludzi już nie ma... :-)
Archiwum mówi też o ponad 3400 tysiącu tekstów 😮

Dla porównania - do 100 odcinków dochodzi 6.4% podcastów i zajmuje to około dwóch lat (czyli znowu odcinek co tydzień; źródło). To jest żmudna robota, wymagająca wytrwałości.


#ai_ml

Document (PDF) extraction and parse API using state of the art modern OCRs + Ollama supported models
Autorzy tego repozytorium piszą tak: "Konwertuj dowolny obraz lub plik PDF na dokument w formacie Markdown lub plik w formacie JSON z bardzo dużą dokładnością, obejmującym dane tabelaryczne, liczby i wzory matematyczne". Chyba warto sprawdzić?

#analiza_danych_koncepcje

AdaBoost Classifier
Nauki zasad działania Machine Learning ciąg dalszy - przed algorytm Wami AdaBoost użyty do klasyfikacji i wytłumaczony na dużej liczbie obrazków.

PCA Vs. T-SNE Vs. UMAP: Find The Right Fit For Your Data
Zmniejszenie wymiarowości danych może być różnicą między dostrzeżeniem wzorca a jego całkowitym pominięciem. Jednak przy tak wielu dostępnych technikach redukcji wymiarowości nie zawsze jest jasne, której z nich użyć. Niedawno było o t-SNE, dzisiaj nieco szerzej.

Model Selection
Budowanie, ocena i wybór najlepszych modeli - o tym było wiele razy, chyba nigdy w tak obszernym tekście (który jest częścią cyklu) jak tutaj.

Detecting Anomalies in Social Media Volume Time Series
O wykrywaniu anomalii w danych (szeregach czasowych) na przykładzie ilości informacji na dany temat w social mediach. Na końcu artykułu link do pełnego notebooka

#bazy_danych

What I Wish Someone Told Me About Postgres
Po wielu latach pracy autor dzieli się doświadczeniem związanym z projektowaniem baz danych. Sporo przydatnej wiedzy o SQLu, narzędziu psql oraz adekwatnościach samego Postgresa.

#ciekawostki

All the data can be yours
Jakie znacie sposoby na zdobycie danych, których teoretycznie nie ma?

#data_engineering

Building a Python Web Scraper with Data Analysis, Visualization, and Automation
Projekt, jakich wiele tutaj traficie: dane pobierane ze stron internetowych (tutaj z wykorzystaniem mechanizmów scrapowania), nieco przerabiane, nieco prezentowane - ot, automatyzacja na całego.

Build a Streaming Data Architecture with Apache Kafka and Zookeeper
Bardzo dobry tutorial pokazujacy jak działa (i jak przygotować sobie w domu - z użyciem gotowych obrazów Dockera i kawałków kodu w Pythonie) typowy proces strumieniowego przetwarzania danych.

#devops

Bash tips and tricks you (probably) didn’t know
Kilka przydatnych sztuczek dla shella, do użycia czy to w ramach pojedynczych komend (bardziej ich złożenia), czy to w ramach skryptów.

#python

10 Advanced Python Concepts You Should Know To Be a Senior Developer
Szumny tytuł, ale tekst porusza 10 zagadnień związanych z programowaniem w Pythonie, których zrozumienie i wykorzystywanie na co dzień powinno oznaczać, iż jesteś senior developerem. Jesteś?

Creating a Simple Interactive Dashboard with Dash
Bardzo często na łamach newslettera pojawiały się teksty mówiące o tym jak zbudować aplikację prezentującą jakieś dane z wykorzystaniem Streamlit. Tutaj rozwiązanie wymagające więcej pracy, a dające chyba lepsze efekty (na pewno większą swobodę jeżeli chodzi o wygląd). Mowa o (starszej niż Streamlit, który popularnością przebił Dash jakiś rok temu - wg Google Trends) nieco zapomnianej chyba bibliotece Dash.

Why You Should Switch to SQLModel for FastAPI Projects
Arjan opowiada jak to zwykle FastAPI gada sobie z bazą danych (przy pomocy SQLAlchemy i ze wsparciem Pydantic), ale też o tym iż to nieco powielanie kodu i SQLModel może pomóc.

Model Deployment with FastAPI, Azure, and Docker
Dość obszerna przypominajka o tym jak "ubrać" model w API, zdokeryzować, a tutaj dodatkowo jeszcze osadzić na Azure. Czyli jako data scientist wypracowaliśmy cudowny model na przykład przypisujący rodzaj irysa do podanych wymiarów płatka, ubraliśmy go w kontener stanowiący opakowanie pozwalające na przenoszenie i wdrażanie w różne miejsca. Na koniec wdrażamy w ramach chmury Azure.

FastAPI: Retry Mechanism
API sięga do bazy (lub innych zasobów), ale to się nie udaje więc... może powinno sięgnąć jeszcze raz? Zatem: mechanizm ponawiania, ładnie "udekorowany" chciałoby się zażartować.

#spark

Optimizing the Data Processing Performance in PySpark
W tym artykule autor przygląda się różnym, powszechnym problemom związanym z wydajnością przetwarzania danych dzięki PySpark i proponuje strategie, które pozwalają osiągnąć szybsze wykonywanie zadań.

#wizualizacja_danych

1 dataset = 100 visualizations
"Jeden obraz wart tysiąc słów" - znacie to? A tu mamy sytuację odwrotną: jeden zbiór (bardzo prosty) danych pokazany na 100 sposobów.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału