Newsletter Dane i Analizy, 2024-11-04

blog.prokulski.science 1 tydzień temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Odkrycie tego tygodnia: Bolt.new. Serwis, który korzystając modeli językowych przygotuje całą aplikację i - o ile jest ona frontendowa - pozwoli jednym guzikiem ją wdrożyć.
Testując to chwilę udało się po kilku dopytaniach przygotować kod, który daje GUI (dostępny przez WWW) do edycji obserwowanych kanałów na YouTube. Obserwowanie polega na tym, iż jeżeli pojawi się nowy film na kanale to wysyłana ma być informacja poprzez komunikator Signal (specjalnie, bo Signal nie ma API, trzeba wywoływać polecenie w konsoli). Powstały kod wzbogacony został o Dockerfile (razem z pobraniem odpowiedniej wersji Signala oraz potrzebnej mu Javy) i deployment na Kubernetesa. Kiedy wiemy co robimy i czego oczekujemy oraz potrafimy wyłapać błędy - na pewno ułatwia to pracę. I jeszcze jedno: zapytania pisałem po polsku (w ramach eksperymentu) i zostałem w pełni zrozumiany, chociaż odpowiedzi były po angielsku. Wynik działania tutaj (mam nadzieję, iż link zadziała).

A będąc przy okazji deploymentu na Kubernetesa - tak się zdarzyło, iż w dzisiejszym numerze są przykłady jak wdrażać kilkuelementowe (osobno aplikacja, osobno baza) rozwiązania na K8s. Teksty są dwa, z powyższym to choćby trzy przykłady.

Być może gracie w gry komputerowe (na przykład na telefonie albo konsoli ;-)? Firma SW Research przeprowadziła badanie graczy, a raport dostępny jest tutaj (w treści znajdziecie link do pełnego dokumentu).


#analiza_danych_koncepcje

How to measure distances between two coordinates
Za chwilę w "projektach" zobaczysz coś o liczeniu odległości każdy-z-każdym... ale co to adekwatnie jest odległość? Jak miary odległości pomiędzy dwoma punktami mogą się różnić?

#analiza_danych_projekty

How to Make Proximity Maps with Python
Macierz odległości albo odległość każdy-z-każdym. Czasem taka informacja może się przydać, a w tym tekście zobaczysz jak takie dane wyliczyć i zobrazować.. bo jeżeli wiemy gdzie jest dany punkt to możemy wyliczyć dla niego odległość z każdego dowolnego punktu na siatce - i potem jak heatmapa - to narysować.

#ciekawostki

JMESPath Specification
Język zapytań do JSONów.

#data_engineering

Building a High-Performance Data Pipeline Using DuckDB
Interesujący projekt zbierania danych i ich przetwarzania (w medalionowej architekturze) przy mocnym wsparciu DuckDB do modelowania danych i przygotowywania zagregowanych widoków.

#devops

Deploying Two Tier Application in Kubernetes
Jak wdrożyć dwuelementową aplikację na klaster Kubernetesa? Przykład oparty o bazę MySQL i aplikację w pythonowym Flasku

Deploying a MongoDB Collection Generator on Kubernetes
Jak wdrożyć dwuelementową aplikację na klaster Kubernetesa? Przykład oparty o MongoDB i aplikację w Pythonie. Chyba lepszy dla początkujących niż ten wyżej

#narzędzia_BI

Comparing Pandas and %%SQL for Data Analysis in Jupyter
Podobnie jak np. w notebookach Zeppelina w Jupyter Notebbok też można pisać kod bezpośrednio w SQLu. Zobacz jak do tego doprowadzić i jakie to daje możliwości.

#programowanie_ogólnie

GitHub: Pull Request Template
Szablon opisu pull requesta, który może być użyty w ramach GitHub Actions albo posłużyć za przykład dobrych praktyk. W opisie repozytorium jest lin do pełnego artykułu.

#python

Mastering Pandas pivot_table()
Kiedy na drodze swojej znajomości Excela dojdziesz do tabel przestawnych świat się zmienia (jeśli to było dawno to pewnie tego nie pamiętasz). A czy w Pythonie da się zrobić coś podobnego? Oczywiście! I nie tylko to.

4 SQLAlchemy Features For Data Engineering
Co nie co o nieco bardziej zaawansowanym sposobie komunikowania się z bazą danych z użyciem SQLAlchemy. O logowaniu zapytań i o składni ORM

How to use io.StringIO and io.BytesIO
Plik to zbiór bajtów. Z usług sieciowych też możemy dostać strumień bajtów (obrazek, film, dźwięk - jako te najbardziej oczywiste przykłady). I jak sobie z takimi strumieniami poradzić?

12 Techniques for Video Frame Processing in Python
Krótka instrukcja OpenCV na przykładzie poszczególnych klatek z filmów lub z obrazu z kamery.

#r

Print-Ready Tables in R
Zajmując się danymi przyzwyczajeni jesteśmy do obiektów typu "data frame" - można takie tabelki posortować, pogrupować, od biedy wyświetlić. I właśnie - większość odbiorców chce tabelkę zobaczyć, a tutaj w ramach języka R mamy kilka możliwości

#sql

5 Tricks of SQL Every Data Analyst Must Know
Funkcje okna, zapytania CTE oraz podzapytania, różne rodzaje JOINów oraz konstrukcja z CASE. Wstęp do średnio zaawansowanego świata SQL


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału