Newsletter Dane i Analizy, 2022-07-18

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W tym tygodniu sporo materiałów związanych z przygotowywaniem modelu danych w bazie - to istotne zagadnienie, warto się chociaż trochę w temacie orientować jeżeli projektujemy coś co ma dane przechować (i potem je przekazać dalej albo przekształcić).

Tak też wyszło, iż zebrało się kilka zagadnień związanych z przetwarzaniem tekstu w Pythonie oraz przetwarzaniem (np. poprzez OCR) całych dokumentów.


#AI_ML

ML prediction on streaming data using Kafka Streams
Najsmaczniejsze kąski w przetwarzaniu danych w czasie rzeczywistym są właśnie takie - jest strumień danych, na nim działają jakieś modele machine learningowe i o czymś decydują. Tutaj dowiesz się jak to zbudować w kilku krokach

How to Create a Data Pipeline for Multi-Head Classification with Tensorflow
Mamy obiekty należące jednocześne do dwóch klas (tutaj: dłoń męska lub żeńska, wewnętrzna strona dłoni albo jej grzbiet) - jak ogarnąć taką klasyfikację w TensorFlow?

#analiza_danych_koncepcje

A Unique Way Of Visualising Confusion Matrix
A gdyby tak tablicę pomyłek (tak, "confusion matrix" ma swój polski opowiednik) przedstawić w inny sposób? Intrygujące jest to podejście, daje bardzo fajny czytelny wynik!

#architektura

Spotify System Architecture
Ten artykuł nie tłumaczy zastosowanych rozwiązań technologicznych. Przedstawia za to z jakich elementów składa się cała aplikacja i jakie założenia musi spełniać (np. obsługa 30 języków, trzech jakości nagrań, czy 365 milionów userów)

#bazy_danych

Data Modelling Techniques in Modern Data Warehouse
Modelowanie danych to proces tworzenia modelu danych w celu przechowywania danych w bazie danych lub systemie nowoczesnej hurtowni danych - jakie są na to sposoby?

Basics of Data Modeling and Warehousing for Data Engineers
I jeszcze trochę o przygotowywaniu modelu danych - im więcej spojrzeń tym lepiej

5 Excel Calculations You Should Learn To Perform In SQL
Niech baza danych mieli dane - a nie Excel. Wiele rzeczy można zrobić od razu w zapytaniu. Tutaj kilka przykładów

#big_data

Change Data Capture (CDC)
Chcemy aby dane zmieniające się w bazie wywoływały komunikaty na Kafce o tych zmianach. Są do tego narzędzia, a proces nazywa się właśnie CDC. W tekście znajdziesz opowieść na ten temat

Continuous NLP Pipelines
Piękne połączenie Pythona, Javy i Kafki (razem z Kafka Streams) w celu przetwarzania strumienia danych tekstowych

#ciekawostki

10 rzeczy, których nie powiedzieli Ci o pracy z danymi
Są tajemnice które poznaje się dopiero po jakimś czasie pracy na danym stanowisku. Każde stanowisko takie tajemnice ma. Modny "data scientist" też

#devops

Airflow for Orchestrating REST API Applications
Airflow wywołujący zadania polegające na odpytywaniu (albo innej integracji) z RESTowym API? Żaden problem, a tutaj choćby przepis!

Automated Alerts for Airflow with Slack
Wykorzystanie Slacka do informowania o tym, iż DAGi (zadania) w Airflow nie zadziałały

#programowanie_ogólnie

Implement Strategy Pattern in a Purchase Process
Jak działa wzorzec projektowy "Strategy" w realnych zastosowaniach? Na przykładzie procesu płatności

#python

Top Natural Language Processing
Czym to się teraz przetwarza tekst w Pythonie? Jakich bibliotek się używa?

Document Parsing with Python & OCR
Czytamy dokumenty (z obrazkami, tabelkami, wykresami) maszynowo i je analizujemy. Też maszynowo

OCR with Python
Tutaj też czytamy tekst w Pythonie z obrazków :)

Parallel Processing Large File
Jak gwałtownie przetworzyć duży plik? A przynajmniej szybciej niż na przykład linia za linią? Równolegle. Czyli w praktyce jak? Tutorial

4 Pandas Anti-Patterns to Avoid and How to Fix Them
Rzeczy które robisz z pandą, a nie są dobre. Cztery takie rzeczy

#wizualizacja_danych

Data in Wonderland
Obszerny materiał (kilka dni czytania) o wizualizacji danych i różnych podejściach

Financial Trading
Dla inspiracji - kilka czytelnych dashboardów


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału