Newsletter Dane i Analizy, 2024-03-11

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Chłodzenie procesora - jak robi to inżynier? Jeden pójdzie do sklepu czy serwisu i po prostu kupi "mocne" chłodzenie, a drugi - poświęci "nieco" czasu w napisanie kodu zbierającego dane z różnych czujników, zbuduje dashboard w Grafanie i na podstawie tego co jest na wykresach odpowiednio "pokręci śrubkami". Mamy o tym tekst dzisiaj, znajdziesz go w Ciekawostkach.

W sekcji o bazach danych znajdziesz coś o DuckdB (znowu... pewien Maciej podejrzewa iż mam jakiś procent od DuckDB... ale to serio świetne narzędzie!) czytającym dane z Open Street Map, przy okazji o samym formacie danych OSM. DuckDB za darmo, OSM za darmo, czego chcieć więcej? Zerkaj w sekcję Bazy danych.

Pisząc w VBA na co dzień i czytając ten newsletter (i teksty w do których linkuje, to one są "siłą" newslettera) powinnaś/powinieneś być już na poziomie boszzzzz VBA suxx, let’s go python!. I o tym jak pakiet OpenPyXL może zastąpić kolorowanie kodem komórek w Excelu dzisiaj przeczytasz. A raportów robionych w pipeline’e: plik CSV (zrzucony np. z Jiry albo jakiegoś SAPa) -> Access (wciągający CSV) -> query w Access -> zrzut do pliku Excela -> makro w VBA formatujące wynik ->? wydruk do PDFa widziałem w życiu sporo. To jest "so ’90s", nie róbcie tak (użyjcie Pythona/DBT do przygotowania danych z data lake’a, a potem pokażcie je w narzędziu BI, chociażby SuperSet, Metabase czy PowerBI).

Gdyby komuś umknęło - w środę od 14:45 będziemy z Tomkiem Wilińskim opowiadać o tym, jak wpleść mniej lub bardziej złożone rozwiązania ML & AI w architekturę różnych systemów. Kilka przykładów istniejących, kilka pomysłów, a wszystko w myśl "na skróty", tak aby wiele się nie narobić, a coś zyskać biznesowo.

Konferencja Analityk / Architekt JUTRA, w której agendzie jesteśmy z Tomkiem, jest bezpłatna (wystarczy się zarejestrować) i odbędzie się online, już w środę 13 marca.

#ai_ml

Uczenie Zero-Shot Na Nowo Definiuje Segmentację Obrazu
Odkryj, w jaki sposób uczenie zero-shot zmienia segmentację obrazu, umożliwiając rozpoznawanie nieznanych klas bez obszernych zbiorów danych.

Don’t Mock Machine Learning Models In Unit Tests
Jak testować modele w ramach testów jednostkowych?

#analiza_danych_projekty

Tools for the analysis of movement data
Być może zajmujesz się analizą ruchu i przemieszczaniem się obiektów. To będzie coś dla Ciebie - zbiór linków do bibliotek i opracowań pomagających w tego typy zagadnieniach

#architektura

A data-driven approach for selling Micro-Frontends to your Boss!
40 minut (na YT) rozmowy o mikrofrontendach i jak "sprzedawać" je managerom w oparciu o dane.

#bazy_danych

SQL Workbench - Rapid prototyping SQL Queries & Data Visualizations
Przeglądarkowy poligon doświadczalny e SQLu. Wrzucasz swój plik, pod spodem przejmuje do DuckDB, a w przeglądarce możesz budować zapytania SQL. Dobre do nauki, bez instalowania bazy danych oraz narzędzi typu DBeaver

How to read OSM data with DuckDB
Sporo wiedzy o strukturze danych pozyskanych od OpenStreetMap i o tym, jak z tych danych korzystać - na przykładzie silnika DuckDB (który radzi sobie bardzo dobrze z plikami *.osm.pbf).

#bezpieczeństwo

All-in-one OSINT tool for analysing any website
Zbiór narzędzi do badana pod różnym kątem stron internetowych. jeżeli bawisz (albo robisz to zawodowo) się w OSINT i akcje typu "biały wywiad" - może się przydać.

#big_data

Enabling near real-time data analytics on the data lake
Kilka słów o Hudi i tym jak z pomocą Flinka można zbudować szybkie źródło danych do analizy

#ciekawostki

Better PC cooling with Python and Grafana
Jak dzięki Pythona (do zbierania danych) i Grafany (do ich podglądania) ustawić parametry chłodzenia procesora? Inspirujące, inżynierskie podejście

Web Scraping With 5 Different Methods
Pobieranie danych ze stron internetowych (webscraping) można zrobić na kilka sposobów, ale użycia LangChain i modeli LLM to się chyba nie spodziewaliście?

Machine Learning Powered Auto Remediation in Netflix Data Platform
Zamiast zasad - automatyzacja. I to w dodatku samoucząca się. To pierwszy z serii artykułów o tym jak Netflix wprowadził automatyzację do standardowych operacyjnych zadań.

#excel

Styling Excel Cells with OpenPyXL and Python
Zapomnij o kolorowaniu tabelek w Excelu z poziomu makr w VBA. Zrób to w Pythonie!

#kafka

Essential Knowledge for Working with Kafka offset
Co to jest offset, co to jest lag i do czego to może się przydać w przypadku współdziałania z topikiem na Kafce

#programowanie_ogólnie

Classwords - My Favorite Convention for Naming Database Columns
Jak nazywać kolumny/pola w bazie danych, w komunikatach wymienianych RESTem albo przez Kafkę? Używanie konwencji "class words" to jedno z rozwiązań.

Learn OAuth 2.0 by Building Your Own OAuth Client
Jak działa OAuth 2.0? Na przykładzie prostego kodu w TypeScript, który pokazuje jak we własnej aplikacji wprowadzić logowanie kontem Google

Understanding Big O Notation: A Guide to Algorithmic Time Complexity
O co chodzi z tą złożonością opisywaną jako np. O(1) albo O(n)? W artykule pokazano przykładowy kod o różnej złożoności, a na koniec - kilka pomysłów jak zmniejszyć złożoność.

#python

A Guide to Better Error Handling
30 przykładów obsługi wyjątków w Pythonie - adekwatnie wszystko co potrzebne i jeszcze z dużym nadmiarem

Bracket Indexing (df[‘x’]) Versus Dot Syntax [df.x]
Czy jeden sposób odwoływania się do kolumn w pandasowych data frame’ach jest lepszy od drugiego? Albo chociaż szybszy?

SQLAlchemy From Zero to Intermediate Concepts
Zamiast pisać złożone SQLowe zapytania można użyć modelu ORM. W tym tekście znajdziesz wyjaśnienie co to ten ORM jest i jak z niego korzystać w SQLAlchemy. Czyli: używamy SQLowej bazy danych bez znajomości SQLa!

How to Use SQLAlchemy to Make Database Requests Asynchronously
SQLAlchemy to chyba najpopularniejszy framework w Pythonie do współpracy z bazami danych. A jak użyć go w zagadnieniach asynchronicznej komunikacji z bazą?

Best Security Practices for FastAPI
Bezpieczeństwo w FastAPI - kim jest korzystający z usługi? Co mu wolno? Co z ewentualnym SQL Injection?

A Duel of PDF Table Extraction Titans
Mamy ostatnio takie zagadnienie w jednym z projektów - parsowanie tabel w PDFie. Można to zrobić w Pythonie, ale którą bibliotekę wybrać?