Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Chłodzenie procesora - jak robi to inżynier? Jeden pójdzie do sklepu czy serwisu i po prostu kupi "mocne" chłodzenie, a drugi - poświęci "nieco" czasu w napisanie kodu zbierającego dane z różnych czujników, zbuduje dashboard w Grafanie i na podstawie tego co jest na wykresach odpowiednio "pokręci śrubkami". Mamy o tym tekst dzisiaj, znajdziesz go w Ciekawostkach.
W sekcji o bazach danych znajdziesz coś o DuckdB (znowu... pewien Maciej podejrzewa iż mam jakiś procent od DuckDB... ale to serio świetne narzędzie!) czytającym dane z Open Street Map, przy okazji o samym formacie danych OSM. DuckDB za darmo, OSM za darmo, czego chcieć więcej? Zerkaj w sekcję Bazy danych.
Pisząc w VBA na co dzień i czytając ten newsletter (i teksty w do których linkuje, to one są "siłą" newslettera) powinnaś/powinieneś być już na poziomie boszzzzz VBA suxx, let’s go python!. I o tym jak pakiet OpenPyXL może zastąpić kolorowanie kodem komórek w Excelu dzisiaj przeczytasz. A raportów robionych w pipeline’e: plik CSV (zrzucony np. z Jiry albo jakiegoś SAPa) -> Access (wciągający CSV) -> query w Access -> zrzut do pliku Excela -> makro w VBA formatujące wynik ->? wydruk do PDFa widziałem w życiu sporo. To jest "so ’90s", nie róbcie tak (użyjcie Pythona/DBT do przygotowania danych z data lake’a, a potem pokażcie je w narzędziu BI, chociażby SuperSet, Metabase czy PowerBI).
Gdyby komuś umknęło - w środę od 14:45 będziemy z Tomkiem Wilińskim opowiadać o tym, jak wpleść mniej lub bardziej złożone rozwiązania ML & AI w architekturę różnych systemów. Kilka przykładów istniejących, kilka pomysłów, a wszystko w myśl "na skróty", tak aby wiele się nie narobić, a coś zyskać biznesowo.
Konferencja Analityk / Architekt JUTRA, w której agendzie jesteśmy z Tomkiem, jest bezpłatna (wystarczy się zarejestrować) i odbędzie się online, już w środę 13 marca.
#ai_ml
Uczenie Zero-Shot Na Nowo Definiuje Segmentację Obrazu
Odkryj, w jaki sposób uczenie zero-shot zmienia segmentację obrazu, umożliwiając rozpoznawanie nieznanych klas bez obszernych zbiorów danych.
Don’t Mock Machine Learning Models In Unit Tests
Jak testować modele w ramach testów jednostkowych?
#analiza_danych_projekty
Tools for the analysis of movement data
Być może zajmujesz się analizą ruchu i przemieszczaniem się obiektów. To będzie coś dla Ciebie - zbiór linków do bibliotek i opracowań pomagających w tego typy zagadnieniach
#architektura
A data-driven approach for selling Micro-Frontends to your Boss!
40 minut (na YT) rozmowy o mikrofrontendach i jak "sprzedawać" je managerom w oparciu o dane.
#bazy_danych
SQL Workbench - Rapid prototyping SQL Queries & Data Visualizations
Przeglądarkowy poligon doświadczalny e SQLu. Wrzucasz swój plik, pod spodem przejmuje do DuckDB, a w przeglądarce możesz budować zapytania SQL. Dobre do nauki, bez instalowania bazy danych oraz narzędzi typu DBeaver
How to read OSM data with DuckDB
Sporo wiedzy o strukturze danych pozyskanych od OpenStreetMap i o tym, jak z tych danych korzystać - na przykładzie silnika DuckDB (który radzi sobie bardzo dobrze z plikami *.osm.pbf).
#bezpieczeństwo
All-in-one OSINT tool for analysing any website
Zbiór narzędzi do badana pod różnym kątem stron internetowych. jeżeli bawisz (albo robisz to zawodowo) się w OSINT i akcje typu "biały wywiad" - może się przydać.
#big_data
Enabling near real-time data analytics on the data lake
Kilka słów o Hudi i tym jak z pomocą Flinka można zbudować szybkie źródło danych do analizy
#ciekawostki
Better PC cooling with Python and Grafana
Jak dzięki Pythona (do zbierania danych) i Grafany (do ich podglądania) ustawić parametry chłodzenia procesora? Inspirujące, inżynierskie podejście
Web Scraping With 5 Different Methods
Pobieranie danych ze stron internetowych (webscraping) można zrobić na kilka sposobów, ale użycia LangChain i modeli LLM to się chyba nie spodziewaliście?
Machine Learning Powered Auto Remediation in Netflix Data Platform
Zamiast zasad - automatyzacja. I to w dodatku samoucząca się. To pierwszy z serii artykułów o tym jak Netflix wprowadził automatyzację do standardowych operacyjnych zadań.
#excel
Styling Excel Cells with OpenPyXL and Python
Zapomnij o kolorowaniu tabelek w Excelu z poziomu makr w VBA. Zrób to w Pythonie!
#kafka
Essential Knowledge for Working with Kafka offset
Co to jest offset, co to jest lag i do czego to może się przydać w przypadku współdziałania z topikiem na Kafce
#programowanie_ogólnie
Classwords - My Favorite Convention for Naming Database Columns
Jak nazywać kolumny/pola w bazie danych, w komunikatach wymienianych RESTem albo przez Kafkę? Używanie konwencji "class words" to jedno z rozwiązań.
Learn OAuth 2.0 by Building Your Own OAuth Client
Jak działa OAuth 2.0? Na przykładzie prostego kodu w TypeScript, który pokazuje jak we własnej aplikacji wprowadzić logowanie kontem Google
Understanding Big O Notation: A Guide to Algorithmic Time Complexity
O co chodzi z tą złożonością opisywaną jako np. O(1) albo O(n)? W artykule pokazano przykładowy kod o różnej złożoności, a na koniec - kilka pomysłów jak zmniejszyć złożoność.
#python
A Guide to Better Error Handling
30 przykładów obsługi wyjątków w Pythonie - adekwatnie wszystko co potrzebne i jeszcze z dużym nadmiarem
Bracket Indexing (df[‘x’]) Versus Dot Syntax [df.x]
Czy jeden sposób odwoływania się do kolumn w pandasowych data frame’ach jest lepszy od drugiego? Albo chociaż szybszy?
SQLAlchemy From Zero to Intermediate Concepts
Zamiast pisać złożone SQLowe zapytania można użyć modelu ORM. W tym tekście znajdziesz wyjaśnienie co to ten ORM jest i jak z niego korzystać w SQLAlchemy. Czyli: używamy SQLowej bazy danych bez znajomości SQLa!
How to Use SQLAlchemy to Make Database Requests Asynchronously
SQLAlchemy to chyba najpopularniejszy framework w Pythonie do współpracy z bazami danych. A jak użyć go w zagadnieniach asynchronicznej komunikacji z bazą?
Best Security Practices for FastAPI
Bezpieczeństwo w FastAPI - kim jest korzystający z usługi? Co mu wolno? Co z ewentualnym SQL Injection?
A Duel of PDF Table Extraction Titans
Mamy ostatnio takie zagadnienie w jednym z projektów - parsowanie tabel w PDFie. Można to zrobić w Pythonie, ale którą bibliotekę wybrać?
#spark
Apache Iceberg: 4 Methods To Create A Warehouse With PySpark
Zbudujmy sobie szkielet hurtowni danych opartych na Icebergu i PySparku
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)