Newsletter Dane i Analizy, 2023-11-27

blog.prokulski.science 10 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W minionym tygodniu miałem okazję być uczestnikiem konferencji Data Science Summit. Moje obserwacje są dość proste (ale przyznam, iż interesowały mnie ścieżki bliższe data engineering niż data science czy wręcz precyzyjnie LLM):
budowanie modeli przestało być zagadnieniem zagadnieniem jest ich wdrażanie, utrzymywanie, sprawianie by gwałtownie działały i były łatwe do podmiany na swoje lepsze wersje a więc znaczenie ma MLOps hasło data mesh straciło impakt - przez cały czas mówi się o tym, iż dane to powinien być produkt, iż istotny jest "demokratyczny dostęp do danych", ale nie ma takiego hype jak rok temu dużo mówi się o Streamlit jako narzędziu do szybkiego budowania dedykowanych rozwiązań do prezentacji danych (i interakcji z nimi), adekwatnie obok dedykowanych narzędzi BI (PowerBI, MS Fabric, Tableau) Streamlit był jedynym rozwiązaniem open source

O większości tych tematów piszę w newsletterze od prawie trzech lat. A to by oznaczało, iż jesteśmy "na kursie i na ścieżce" panujących trendów.


#analiza_danych_koncepcje

Six Error Metrics to assess Time Series models
Miary skuteczności modelu mogą być różne i różnie wpływać na to jak model się nauczy. Tutaj przedstawiono sześć najpopularniejszych, razem z opisem jak je rozumieć

Build a Convolutional Neural Network from Scratch using Numpy
Computer vision w dużej części to sieci z warstwami konwolucji i łączenia. Takie warstwy można zbudować od zera. Oczywiście w TensorFlow czy Torchu są to zoptymalizowane obliczenia, więc raczej chodzi o algebrę i mechanikę niż przyspieszanie obliczeń.

#analiza_danych_projekty

Tesselate a GeoDataFrame into Hexagons Using Python
Teselacja to metoda dzielenia geometrii z pojedynczego obszaru na zbiór wielokątów ciągłych bez przerw. A ośmiokąty są bardzo fajnym przybliżeniem okręgu - maja mniej więcej stałą odległość od środka

How to select the correct SARIMA parameters
Jak dobrać parametry do modelu opartego o algorytm SARIMA? Skąd biorą się wartości P i Q?

#big_data

Mastering Elasticsearch: A Beginner’s Guide to Powerful Searches and Precision
Wprowadzenie do zapytań Elasticsearch - jak znaleźć dokumenty?

Incremental Processing using Netflix Maestro and Apache Iceberg
Zamiast trzymać pełny stan z różnych momentów w czasie można trzymać przyrosty. Ale jak później poskładać je w obraz na dany moment? Szczególnie jak ten obraz zawiera agregaty... Netflix znalazł na to sposób.

#ciekawostki

The Future of Python: A Forecast from an Ex-Google Python Expert
Spojrzenie na przyszłość Pythona. Autor wskazuje obszary, w których ten język jest używany i - wg niego - będzie używany przez cały czas albo choćby bardziej.

#devops

Docker Restart Policies Explaine
Kontenery Dockera mogą się restartować z różnych przyczyn - zarządza tym odpowiednia polityka. A w szczegółach co odpowiednie polityki oznaczają?

#llm_&_chatgpt

CSV to PDF: Prompting GPT-4 For Automatic Data Visualization Report Creation
Czy analityk danych już nie będzie potrzebny? ChatGPT przygotowuje wizualizację z podanych w pliku danych.

Practical course about Large Language Models
Darmowy kurs LLM - zaczyna się od prostego użycia API od OpenAI a potem mamy douczanie modeli i inne ciekawostki.

#python

Streamlit and MongoDB
MongoDB to baza dokumentowa, typu NoSQL - obieky nie muszą być ułożone w tabelki, a także nie muszą łączyć się ze sobą relacjami. Jak użyć na podstawowym poziomie takiej bazy w aplikacji Streamlit?

GraphQL with Python
Użycie frameworku Graphene do zbudowania aplikacji w Django

Build an Image Prediction Script with Python & ImageAI
Już nie trzeba pisać architektury sieci i tworzyć dziesiątek linii kodu - można użyć ImageAI i klasyfikacja obrazków gotowa.

Vector Databases for Your LLM + Streamlit Applications
Mamy tekst o korzystaniu z MongoDB w aplikacji Streamlit, więc dlaczego nie o bazach wektorowych?

Command Line Interface with sysargv, argparse, docopts, and Typer
Cztery sposoby na przekazanie argumentów w linii poleceń do skryptu w Pythonie. Zabrakło pakietu Click, chyba najbardziej rozbudowanego.

API Defense with Rate Limiting Using FastAPI and Token Buckets
Często mamy do czynienia z API które pozwala na określoną liczbę zapytań na minutę lub na przykład dobę. Albo po prostu zlicza użycia dla wszystkich z użytkowników. Jak to jest zbudowane? Tutaj przykład

#snowflake

Black Friday’s data in near real-time analytics with Snowflake Dynamic Tables & Snowflake Alerts
Dynamiczne tabele w Snowflake - czyli jak przygotować się do analityki near-real-time w okresie wzmożonego ruchu w e-commerce

#wizualizacja_danych

Data Storytelling with Animated Word Clouds
Chmurkę słów zna chyba każdy - im bardziej popularne słowo tym większe na takiej chmurce. A gdyby nadać chmurze energii i zrobić animację? Efektowne, ale czy czytelne?

How to Create a Heat-Line Plot
Ciekawy koncept zaprezentowania danych: linia, która zmienia kolor.

Animating Spatial Movement in Python
Z miasta A do miasta B... jak pokazać drogę w atrakcyjny, animowany sposób?


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału