Newsletter Dane i Analizy, 2024-10-21

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

OpenAI ze swoim modelem w wersji o1 wróciło na szczyt listy przebojów w kategorii LLM. Garść firm zajmujących się GenAI zaczyna generować poważne przychody. Co jeszcze dzieje się na rynku AI w 2024 roku? Jaki jest "Stan AI w 2024"? O tym dowiecie się z raportu, do którego link poniżej, w sekcji AI/ML.

Sporo w tym wydaniu o bazach danych (co najmniej dwa razy pojawia się Postgres i Redis, ale są też inne rozwiązania: wektorowa Milvus, InfluxDB do szeregów czasowych, grafowa Neo4j, dobrze znany stałym czytelnikom DuckDBoraz Tile38 do zadań geo).

#ai_ml

Welcome to State of AI Report 2024
Coroczny raport o stanie AI. Na slajdzie 206 predykcje na kolejne 12 miesięcy :-). Link prowadzi do artykułu z krótkim podsumowaniem, a całą prezentację (ponad 200 slajdów) znajdziecie na GoogleDocs (w tekście jest oczywiście link).

Vision Embedding Comparison for Image Similarity Search
Jak różnią się embedingi obrazków przygotowane przez kilka modeli? I - w związku z tym - jak różnią się wyniki poszukiwania podobnych obrazków? Bo obrazek podobny to taki, którego embedingi są (w uproszczeniu) kosinusowo blisko siebie.

A Mixture Model Approach for Clustering Time Series Data
Klastrowanie szeregów czasowych przy użyciu modeli autoregresyjnych, średnich kroczących i nieliniowych funkcji trendu. Gdy masz dużo danych szeregów czasowych, takich jak sprzedaż w różnych kategoriach lub ceny akcji, używanie jednego modelu do przewidywania wszystkiego jest trudne. Różne produkty lub akcje zachowują się inaczej, a próba dopasowania ich do jednego modelu często prowadzi do słabych wyników. Klastrowanie pozwala na pogrupowanie podobnych danych, co powinno ułatwić przygotowanie modelu.

#analiza_danych_koncepcje

How Hierarchical Clustering Works
Jak działa klasteryzacja hierarchiczna? I co to jest oraz jak czytać dendrogram?

#analiza_danych_projekty

Netflix Content Strategy Analysis
Niezbyt złożony projekt analizy danych o produkcjach dostępnych na Netflixie. Ale może wyniki ciekawe? A przynajmniej pokazujące jaka jest strategia tego dostawcy treści.

#bazy_danych

Why Developers Are Ditching PostgreSQL, MySQL and MongoDB
Postgres to świetna i dobrze znana baza danych. A może są przypadki iż co innego sprawdzi się lepiej? Szybki przelot przez Milvus, InfluxDB, Neo4j, DuckDB, Redis oraz Tile38 - różne zastosowania, różne bazy. W gratisie podstawowy kod w Pythonie.

Can Postgres replace Redis as a cache?
Autor chciał sprawdzić czy Postgres jako cache to dobry pomysł? Czy może zastąpić Redis?

#data_engineering

What goes into bronze, silver, and gold layers of a medallion data architecture?
O co chodzi z tymi medalami (czy też warstwami) w architekturze danych? Tutaj mamy do czynienia z czterowarstwową (a nie trzy!) architekturą, która uwzględnia kwestie zarządzania danymi i rozdzielenia odpowiedzialności.

Real-time YouTube comment sentiment analysis using Kafka, Spark, and Streamlit dashboard
Interesujący projekt analizy komentarzy na YouTube. Link do repozytorium na Githubie, a w środku Kafka i Spark postawione z Dockera oraz producent kafkowy przepisujący dane z API, aplikacja w Sparku agregująca te dane i dashboard w Streamlit do prezentacji wyników.

#devops

How Uber Reduced Their Log Size By 99%
Jeśli Twoja aplikacja generuje ogromne ilości logów to być może masz problem, żeby ogarnąć dane w takich rozmiarach, nie tracąc przy tym cennych informacji? Uber rozwiązał ten problem z użyciem CLP, ale czym jest ta tajemnicza technologia i czym różni się od zwykłego kompresowania starych logów? Cytat z tekstu: "CLP compresses logs by at least 40x". Zachęca, prawda?

#mlops

How to Choose the Best ML Deployment Strategy
Gdzie wdrażać rozwiązania ML - chmura czy edge/on-premise? Autor omawia różnice, za oraz przeciw. A na koniec podsuwa gotowy diagram decyzyjny, który może pomóc w podjęciu decyzji.

#python

Near-Real Time Lightning Data Visualisation with Python
Mapa burz w czasie (prawie) rzeczywistym przygotowana w Pythonie.

The Ultimate Guide to Error Handling in Python
Konstrukcja try..except można obsłużyć potencjalne błędy w "otoczeniu" naszego kodu (pliki nie istnieją, usługi nie odpowiadają, dane są złe). Przykład z prawdziwego życia znajdziesz w tym tekście.

Supercharge FastAPI with Redis
Sporo dzisiaj materiałów o bazach danych, w kilku przewija się Redis. Jak skorzystać z tej szybkiej bazy i wykorzystać ją jako cache do naszego API napisanego w FastAPI?

Dijkstra Algorithm in Python
Algorytm Dijkstry to algorytm służący do wyznaczania najkrótszych ścieżek w grafie. Zobacz jak działa krok po kroku, razem z implementacją w Pythonie.

My Top 12 Python Type Hint Learnings
Python to język dynamicznego typowania, co oznacza iż te typy to adekwatnie do niczego nie są potrzebne. Ale pomagają w czytelności kodu, czego dowiesz się z przykładów zawartych w tym tekście.

#r

Running tidymodel prediction workflows inside databases with orbital and Snowflake - Posit
Pakiet orbital umożliwia tłumaczenie modeli zbudowanych dzięki struktury tidymodels na Snowflake SQL, pozwalając na uruchamianie prognoz bezpośrednio na obliczeniach Snowflake.

#ux

Dark Patterns Hall of Shame
Artykuł omawia, jak firmy wykorzystują "ciemne wzorce", aby manipulować decyzjami użytkowników, przykładowo utrudniając proces anulowania subskrypcji. Duuuży zbiór materiałów omawiających konkretne przypadki.

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału