Newsletter Dane i Analizy, 2024-09-09

blog.prokulski.science 4 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W tym tygodniu prowadzę szkolenie (a w zeszłym prowadziłem przykładowo konkurs na imprezie firmowej - więc "szkolenia, prelekcje, podcasty, śluby, chrzciny i pogrzeby" są w ofercie Dane i Analizy :), więc nieco mniej czasu w przygotowanie newslettera - wybaczcie zatem, iż bez standardowego wstępu. Liczę jednak na to, iż dobór materiałów na zadowalającym poziomie.


#ai_ml

Evaluating Handwritten digital Recognition Models
MNIST to jeden z najpopularniejszych zbiorów danych. Porównanie modeli rozpoznających manualnie pisane cyfry (i tu zbiorem nie jest MNIST).

Build Your Own Llama 3 Architecture from Scratch Using PyTorch
Przewodnik krok po kroku, który pokazuje, jak od podstaw zbudować kompletną architekturę modelu Llama 3 oraz przeprowadzić trening i wnioskowanie na niestandardowym zestawie danych.

#analiza_danych_koncepcje

Krzywa ROC jak ją wykreślić i zinterpretować
Krzywa ROC (Receiver Operating Characteristic) pozwala na graficzną wizualizację jakości klasyfikatora przy zmieniającym się poziomie odcięcia dla klas. W tym tutorialu Autor pokazuje sposób jej wyznaczania oraz przedstawia jak ją wykorzystać do interpretacji modelu.

How to Extract Graph-Based Features for Machine Learning with NetworkX
O cechach związanych z grafami. Ideą jest wykorzystanie ich jako cechy dodatkowe, na przykład w uczeniu modeli ML

#analiza_danych_projekty

Optimizing a Dining-Room Seating Arrangement for Weddings with Python
Wrzesień (podobnie jak inne miesiące z "r" w nazwie) to miesiąc ślubów i wesel. A jak usadzić gości przy stole? Bo ciocia Hania nie lubi cioci Basi, ale bardzo lubi wujka Henia... Rozszerzenie tzw. "problemu plecakowego"

Building a Retail AI Chatbot: FastAPI, LangChain, PostgreSQL, and Market Basket Analysis
Interesujący projekt- czatbot wspomagany analizą koszykową do rekomendowania produktów.

Generating Realistic Synthetic Financial Time Series
Przygotowanie sztucznych danych dla szeregów czasowych, które mają odzwierciedlać notowania giełdowe. To wcale nie jest takie banalne!

#architektura

A guide to requirements engineering
O zarządzaniu wymaganiami w projekcie

#ciekawostki

Stop Being Data-Driven
"Dane to pokazują" - jak i czy podważać takie zdanie?

#data_engineering

Real-Time App Performance Monitoring with Apache Pinot
Monitoring aplikacji w czasie rzeczywistym dzięki Apache Pinot. Czyli jak skonfigurować Apache Pinot do udostępniania danych z topiku Kafki, i dodatkowo jak pokazać te dane w Grafanie

#devops

Monitoring a Kubernetes Cluster using Prometheus and Grafana
Szybka instrukcja jak przygotować Prometheusa i Grafanę do monitoringu klastra K8s. Dla zaczynających przygodę w devops jak znalazł.

Certified Kubernetes Administrator Cheat Sheet for Beginners
Ściągawka z podstawowych komend związanych z administracją Kubernetesem.

#front_end

Brand New Performance Features in Chrome DevTools
Rozszerzenie DevTools dla przeglądarki Chrome ma kilka interesujących nowych cech. jeżeli zależy Ci na sprawdzeniu jak gwałtownie ładują się Twoje strony i jak działają zawarte w nich skrypty to jest to coś dla Ciebie

#management

Code Review Anxiety Workbook
Książka o code review. A adekwatnie strachy przed nim i sposobach radzenia sobie z tym strachem. Dla obu stron procesu.

#programowanie_ogólnie

Data Structures That Machine Learning Engineers and Data Scientists Must Know
Tablice, macierze, kopce, stosy, drzewa, hashmapy i grafy -takie to struktury danych. W tekście nie tylko czym są, ale dlaczego są przydatne i jak mogą pomóc w optymalizacji obliczeń.

Clean Code: 7 tips to write clean functions
Kilka zasad związanych z pisaniem czystego kodu, które dotyczą pisania funkcji.

How to Choose Technology
Jak wybrać technologię, w której napiszemy kod dla kolejnego projektu?

#python

Analyzing WhatsApp Chats with Python
Prosta analiza zapisu rozmów w WhatsApp: parsowanie pliku z zapisem i kilka podstawowych wykresów.

Subway Route Data Extraction with Overpass API
Niejednokrotnie w tym newsletterze prezentowane były teksty pokazujące ogrom danych zgromadzonych w Open Street Maps. Dzisiaj o rysowaniu mapy linii metra, oczywiście na bazie OSM,

Use uv to Manage Python Projects
Dalej używasz PIP do zarządzania pakietami w Pythonie oraz VirtualEnv do zarządzania środowiskami? Może czas na zmianę?

FastAPI Logging in Google App Engine is Not a Nightmare Anymore with fastapi-gae-logging
Logowanie z aplikacji przygotowanych w FastAPI do Google App Engine

#sql

Sampling with SQL
Czasem potrzebna jest losowa próbka danych. Jak ją wyciągnąć w SQL?

#wizualizacja_danych

Dynamic Visualization of Blockchain Network
300 tysięcy transakcji Bitcoin - jak to pokazać na obrazku? O rysowaniu grafów.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału