Newsletter Dane i Analizy, 2024-12-16

blog.prokulski.science 1 tydzień temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Czego szukali ludzie w Google w mijającym roku? Google dostarcza podsumowanie dla całego świata i większości państw z osobna (tutaj Polska, tutaj global). Podsumowania te są o tyle interesujące, iż stanowią pewnego rodzaju obraz naszego społeczeństwa i jego zainteresowań.

Wiecie, iż w Afryce w większości państw ruch w internecie z komórki przeważa ruch z komputerów? W przykładowym Sudanie ponad 77% to komórki. Tego typu rzeczy można dowiedzieć się z corocznego raport Cloudflare Radar. Raport mówi nie tylko o dominacji Google, ale też zawiera statystyki dotyczące szyfrowania ruchu, popularności różnych technologii sieciowych czy kwestii bezpieczeństwa.

Z Web Alamac z kolei dowiemy się jak wygląda świat webowy w 2024 roku? Raport jeszcze się tworzy, ale już można poczytać o kwestii dostępności w sieci, optymalizacji pod wyszukiwarki, o popularnych silnikach CMS czy tych do e-commerce oraz bardziej technicznych sprawach: czcionkach czy cookies. Warto wiedzieć, czego używa się na świecie - jako przegląd rynku albo obszary własnego rozwoju.

Jest jeszcze jeden serwis (ostatni, o którym dzisiaj mowa), który przygotowuje coroczne zestawienie, ale dotyczy ono spraw not safe for work, takich na literkę P. W raport można klikać, nie widać (poza wyszukiwanymi hasłami) niczego NSFW. Technologicznie interesująca jest druga część - podział rynku przeglądarek i systemów operacyjnych.


#ai_ml

Coding Convolution Neural Networks (CNN) From Scratch without Pytorch
Przegląd architektur modeli związanych z computer vision - od najprostszych do bardziej skomplikowanych. Wiele z nich ma linki do kodów źródłowych.

#analiza_danych_projekty

Building an End-to-end MLOps Project with Databricks
Kompleksowy proces konfigurowania i wdrażania modelu w Databricks: od wstępnego przetwarzania danych po uczenie modelu, jego wdrażanie i monitorowanie.

Web Scraping for LLM Enhancement: A Technical Deep Dive
W jaki sposób wydobyć i przetworzyć wiedzę zgromadzoną na stronach WWW? Obszerny tutorial pokazujący głównie jak zebrać dane, aby były przydatne do GenAI i modeli LLM.

#bazy_danych

Database Performance Benchmark: PostgreSQL vs. MySQL vs. SQLite
Porównanie trzech silników bazodanowych - ta sama maszyna, ten sam kod (w Node.js), te same zadania,

#ciekawostki

After years on the rise, ‘All I Want for Christmas Is You’ listenership is slipping
Może w tym roku piosenka była mniej popularna (dotychczas), ale interesujące jest to, jak gwałtownie zaczyna się świąteczny sezon!

#data_engineering

Apache Flink vs. Kafka Streams
Szybkie zestawienie cech obu technologii razem z zaleceniami kiedy użyć której.

#llm_&_chatgpt

Top 13 Small Language Models (SMLs)
Ostatnie dwa lata to LLM czyli duże modele językowe. Skoro są duże to czy są małe? Oto przegląd kilkunastu.

Build your Personal Assistant with Agents and Tools
Jak zbudować asystenta, który użyje LLM ale też aktualnych danych?

#python

Build Your First CRUD App
CRUD to jedno z najczęściej pisanych API - "rozmawianie" z bazą danych dzięki sieciowych usług. Jak to zrobić w Pythonie z użyciem Flaska? Materiał dla średniozaawansowanych, bardzo dobry do nauki.

Building a Website with Python, FastAPI, and Streamlit
Jeśli mamy już API serwujące dane z bazy - możemy dodać front end naszej strony. Tu w Streamlit (z dodatkowo CRUDem w FastAPI - jakbyśmy go jednak nie mieli).

Combining FastAPI, PostgreSQL, and Leaflet
Jak dane z formatu ShapeFile wrzucić do bazy Postgres? A później pobrać je poprzez API?

CV VideoPlayer
Pakiet, który pozwala gwałtownie zobaczyć plik wideo razem z uwypukleniem zmian jakie zachodzą pomiędzy kolejnymi klatkami. Może być przydatny dla osób analizujących obraz, w szczególności ten ruchomy.

I’ve Switched to UV for Python, and So Should You
Arjan pokazuje jak używać managera pakietów uv [YT, 18 minut]

#wizualizacja_danych

(Most) Data Types and How To Visualise Them in Python!
Dane mogą mieć różną postać - i wcale nie chodzi o format ich zapisu. Raczej o strukturę wartości: ciągłe, kategoryczne itd. Czy uniwersalne sposoby na pokazanie każdego z typów?


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału