Newsletter Dane i Analizy, 2024-10-28

blog.prokulski.science 2 tygodni temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Jeden z tekstów, które znajdziecie poniżej mówi o tym, jak pobrać z YouTube wideo, wyciągnąć z niego dźwięk, a potem ten dźwięk przekształcić w zapis tekstowy (taki do czytania). Potem i tak nikt tego nie czyta...

Niektórzy może czytają. A jeżeli wolą jednak oglądać albo słuchać - dzisiaj przed Wami zapisy wideo z dwóch konferencji. Jedna to "Oh My Hack" odbywająca się w Polsce i skupiająca się na zagadnieniach związanych z bezpieczeństwem. Nagrania pochodzą z edycji, która miała miejsce w 2023 roku. Druga konferencja to coś nowszego - amsterdamska edycja PyData, z tego roku.

Obie playlisty to łącznie jakieś (z grubsza licząc) 50 godzin materiału. Szkoda więc czasu w czytanie - do następnego tygodnia!


#bazy_danych

Full Text Search on PDFs With Postgres
Przy wszystkich tych LLMach latających dookoła, PDFy znów stały się popularnymi źródłami danych. Ale czy binarny blob może być uważany za źródło danych, tylko dlatego, iż ludzkie oko może go interpretować wizualnie? No nie... chyba iż można na takim blobie uruchomić zapytanie SQL. O ile PDF jest wcześniej sparsowany

#bezpieczeństwo

Attacking APIs using JSON Injection
O SQL-injection pewnie słyszała większość czytelników. Okazuje się, iż można zaatakować API poprzez podanie spreparowanego JSONa w zapytaniu.

Oh My H@ck 2023
Niedługo kolejna edycja konferencji dla wielbicieli tematyki cybersecurity. Ta playlista to kolekcja wystąpień z ubiegłorocznej edycji. 31 nagrań, większość po polsku, większość po około 40 minut.

#ciekawostki

Writing data from a Bip 3 Smartwatch into InfluxDB
Ciekawa opowieść o tym jak wyciągnąć dane z zegarka i przerzucić je do bazy InfluxDB.

#data_engineering

ETL Pipelines in Python: Best Practices and Techniques
Projektowanie efektywnych potoków ETL, które są uogólniane, skalowalne i łatwe w utrzymaniu, jest niezbędne dla nowoczesnych przepływów pracy z danymi.

Building Real-Time Data Dashboards with Python and Apache Kafka
API (we Flasku) zwraca dane, strona w HTML+JavaScript je pokazuje. Kafka jest tylko w tytule podobnie jak dashboardy. Ale jako przykład na początek dla początkujących może być.

#devops

How I use git
Od aliasów, przez commity, po recenzje i workflowy. Auto opisuje jak korzysta z gita.

#llm_&_chatgpt

Understanding LLMs from Scratch Using Middle School Math
Wytłumacz mi jak działają te LLMy! Ale nie używaj trudnej matematyki...

#mlops

Deploying Machine Learning Models with Flask and AWS Lambda
Ubranie modelu ML w API (za pomocą Flaska albo FastAPI) było już wiele razy w historii newslettera. Tutaj jest tylko początkiem - kolejne kroki to osadzenie tego na AWS.

#python

PyData Amsterdam 2024
Playlista 48 (!) wystąpień z konferencji PyData, każde około 30 minut.

Integrating OAuth 2.0 Authentication in a Python Flask App
OAuth 2.0 jest jednym z najczęściej używanych protokołów autoryzacji w nowoczesnych aplikacjach. Niezależnie od tego, czy logujesz się dzięki Google, Facebooka, GitHub czy innego dostawcy tożsamości, istnieje prawdopodobieństwo, iż OAuth 2.0 jest w to zaangażowany. Ten tutorial przeprowadzi Cię przez proces integracji OAuth 2.0 w aplikacji internetowej napisanej we Flasku przy użyciu logowania od Google.

Downloading YouTube Videos, Extracting Audio, and Generating Transcripts with Python
Tytuł mówi wszystko - pobieramy klip z YouTube i przekształcamy go na pisany tekst. Zamiana z TL;DW w TL;DR...

#wizualizacja_danych

KPIs Done Wrong: Fixing Common Reporting Mistakes
Zamiast wykresów i dashboardów - trochę o tym co zwykle te wykresy przedstawiają. Jak uniknąć typowych pułapek związanych z nadmiernym komplikowaniem wskaźników KPI, korzystaniem z nieskutecznych wskaźników zastępczych i błędnym stosowaniem punktów odniesienia w raportowaniu danych?


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału