Newsletter Dane i Analizy, 2023-12-11

blog.prokulski.science 9 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Miniony tydzień to uruchomienie nowej wersji asysstenta AI od Google, czyli Gemini (w miejsce Barda). Sam model mówi o sobie, iż "jestem zarówno Bardem, jak i Gemini. Bard to nazwa użytkownika, którą wykorzystuję do interakcji z użytkownikami, podczas gdy Gemini to nazwa platformy AI, na której jestem oparty".
Przedstawienie projektu (przez twórców) mówi o lepszych wynikach od ChataGPT v4 w prawie każdym mierniku., ale niby ma to dostęp do najnowszej wiedzy, ale jednak taki sobie. Z literaturą nieco starszą radzi sobie... sami zobaczcie. Słowacki i "Wesele"? to mogłoby być ciekawe, ale wolę wersję Wyspiańskiego (a filmową od Wajdy stawiam tuż za wajdowską "Ziemią obiecaną"). Czyli też zmyśla.

Może zatem coś nieco mniej halucynującego? PyWaw to cykliczne spotkania pasjonatów języka programowania Python z Warszawy i okolic. Podobne spotkania realizowane są w innych miastach. Przeglądając ostatnio dodane na YT nagrania z PyWaw dwa zwróciły moją szczególną uwagę, sądzę iż i Was mogą zainteresować: interesujące połączenie FFmpeg z Pythonem (w tym z OpenCV) Testy jednostkowe i Pandas


#ai_ml

ML system design: 300 case studies
300 przykładów wdrożenia rozwiązań ML w ponad 80 firmach z różnych sektorów - bogata baza case studies.

#analiza_danych_koncepcje

Recursive Embedding and Clustering
Duże zbiory różnorodnych danych stwarzają kilka wyzwań związanych z grupowaniem, ale dzięki nowatorskiemu podejściu, które łączy redukcję wymiarowości, rekurencję i nadzorowane uczenie maszynowe, udało nam się uzyskać dobre wyniki.

#analiza_danych_projekty

7 End to End Data Engineering Projects
Pan pokazuje (bo tekst to zbiór filmów na YT opatrzonych komentarzem) 7 różnych projektów - dość typowych dla data engineerów. Warto poświęcić kilka godzin i przejrzeć wszystkie.

A Hands-On Guide to Document Image Classification
Trochę trudniejszy tutorial o klasyfikacji sieciami neuronowymi obrazów - nie mamy tutaj literek jak w MNIST, nie mamy ciuszków jak w Fashion-MNIST, a za to zbiór zeskanowanych dokumentów.

#bazy_danych

Loading Parquet in PostgreSQL via DuckDB
Jestem gorącym fanem DuckDB - świetne narzędzie do przerzucania danych i bardzo szybkiej ich obróbki. Tutaj kolejne przykłady zastosowania - połączenie dwóch używanych na co dzień technologii w świecie danych: plików Parquet i bazy PostgreSQL

#ciekawostki

21 Simple and Profitable Micro SaaS Projects You Can Build Using Python
Skoro mamy w tym numerze "kalendarze adwentowe" to może w ramach postanowień noworocznych 21 pomysłów na aplikacje na których można zarabiać? Jako cel na zbudowanie ich w 2024 roku?

Building a Social Media Platform
Kilka punktów mówiących o tym, co warto wziąć pod uwagę budując platformę społecznościową - architektura, ML, cache, realtime. Świetny tekst, chociaż nieco "konsultingowy"

How does Shazam work?
Jak to się dzieje, iż telefon słysząc tylko kilka sekund utworu potrafi go rozpoznać? Jaka "magia" (a adekwatnie matematyka i trochę algorytmów) za tym stoi?

Grafana or ELK?
Co bardziej oszczędne?

#devops

How To Use The date Command With cron
Jak użyć systemowego polecenia date do zbudowania np. struktury plików z logami?

300 EC2 instances in 3 minutes
Postawić 300 maszyn w 3 minuty? Terraform na AWS

The Art of Crafting Dockerfile
Dockerfile to plik, który jest wkładem do zbudowania obrazu dockerowego aplikacji. jeżeli jeszcze nie wiesz jak go przygotować to ten przewodnik jest dla Ciebie

Kubernetes for Data Architects
Kubernetes dla zielonych

#mlops

MLOps Course - Build Machine Learning Production Grade Projects
Trzy godziny kursu zagadnień MLOps na YouTube. Kurs wykorzystuje (i prezentuje jednocześnie) framework ZenML

Version Controlling in Practice
Kontrola wersji kodu jest stosunkowo prosta - mamy Gita. A jak kontrolować wersje danych i wersje modeli?

#programowanie_ogólnie

Web Development Advent Calendars for 2023
"Advent of Code" to popularne co roku w grudniu cykle, które dokumentują postępy w nauce programowania autorów. Z drugiej strony czytelnicy też mogą się czegoś nauczyć. Tutaj znajdziecie zbiór takich "kalendarzy adwentowych".

34% Faster Integer to String Conversion Algorithm
Ciekawe zagadnienie na poziomie algorytmu - jak przekształcić liczbę na string? Tak, żeby wykonać to w jak najmniejszej liczbie operacji, a zatem najszybciej?

#python

Compute the Distance Matrix
Jak policzć odległości "każdy do każdego"? Taka macierz odległości może przydać się w rozwiązywaniu wielu problemów: chociażby planowania najbardziej optymalnej trasy albo rysowaniu interaktywnych mapek "gdzie dojdę z punktu A w godzinę".

Complete Guide to Caching in Python
Nie wszystko trzeba liczyć za każdym razem od początku - czasem przetrzymanie wyników wcześniejszego wywołania funkcji przyspiesza kod. A jak to zrobić w Pythonie?

#wizualizacja_danych

Using Slope Charts to Simplify Your Data Visualization
Jak uprościć wykresy pokazujące zmianę w czasie?

Introducing the Multi-Chord Diagram
Na pewno widzieliście taki diagram - najczęściej z jego pomocą zaprezentowane są przepływy pomiędzy grupami ("kto głosował na A w poprzednich wyborach teraz głosuje na..." i kilka do wyboru; albo "urodzeni w mieście A wyjechali i mieszkają w miastach..."). Jak go przygotować?


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału