Newsletter Dane i Analizy, 2023-10-30

blog.prokulski.science 11 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj trochę o mapkach, trochę o diagramach (takie diagram as a code tylko dlaczego BitBucket nie potrafi wyświetlić Mermaid (ticket w Atlassianie jest "solved"! Ale zobaczcie jak ;-), a GitHub robi to z palcem... to znaczy bez problemu?), a do tego sporo materiału video. Chyba też więcej niż zwykle treści po polsku (polecamy tekst Tomka Zielińskiego o transportowaniu danych - może się przydać na spotkania rekrutacyjne, ja lubię zadawać analogiczne pytania).


#analiza_danych_koncepcje

Vector Embeddings Tutorial: Code Your Own AI Assistant with GPT-4 API + LangChain + NLP
Dość proste i szybkie (30 minut) wprowadzenie do tematu embedingów i pracy na wektorach w celu szybkiego wyszukiwania znaczących informacji.

#analiza_danych_projekty

K-Means Clustering in OpenCV and Application for Color Quantization
W dużym uproszczeniu: wykorzystanie algorytmu k-means do zmniejszenia liczby kolorów na obrazku.

Proximity Analysis to Find the Nearest Bar Using Python
Interesujący projekt (i zarazem pakiet dla Pythona) pokazujący jak korzystając z map Open Street Map wyznaczyć najbliższe punkty.

Joining CSV Data Without SQL
zq oraz zed - konsolowe aplikacje do manipulowania dużymi zbiorami danych, takie data lake z plików.

#architektura

Mermaid - Diagrams as a Code
Istnieje wiele aplikacji do generowania diagramów, które przedstawiają np. algorytmy czy infrastrukturę sieci. Dlaczego jednak miałbyś tworzyć takie grafiki w kodzie? Artykuł odpowiada na to pytanie i jednocześnie pokazuje, jak przygotować swój pierwszy diagram z Mermaid

Generating Mermaid Syntax Diagrams with AI-powered Amazon Bedrock
Skoro już o diagramach i Mermaid - to mamy narzędzie, które z gotowego kodu potrafi wygenerować diagram

#bezpieczeństwo

OWASP Kubernetes Top 10
Monolityczne aplikacje ustępują miejsca rozwiązaniom chmurowym, często opartym o Kubernetesa. Konfigurując środowisko tego typu, można zaliczyć wiele wpadek związanych z bezpieczeństwem aplikacji. Artykuł, omawia listę OWASP Top 10

#big_data

Superset Live Demo: Visualizing MongoDB and Pinot Data Using Trino
Jak połączyć Trino, MongoDB i Apache Pinot żeby zbudować "dostarczyciela" danych i wizualizować je w Supersecie? Godzinka na YT

Data Documentation Best Practices
Dlaczego posiadane dane powinny być opisane? Dokumentuje się kod, więc dlaczego nie dane?

#ciekawostki

Co jest szybsze - podmorski kabel telekomunikacyjny czy An-124 Rusłan wypełniony dyskami twardymi?
Pytanie zawarte w tytule może wydawać się absurdalne, ale odpowiedź wcale nie jest taka oczywista i brzmi ‘to zależy’. interesujące rozważania autora na temat alternatywnych metod przesyłu danych. Uwaga! Lubimy zadawać analogiczne pytania podczas rekrutacji!

Hotel brands boost revenue after harnessing first-party data, report finds
Aż 81% hoteli, które postawiły na zbieranie i przetwarzanie własnych danych odnotowało wzrost przychodów - wynika z badania Sojern, firmy zajmującej się marketingiem w turystyce. Ale to nie koniec. Wdrażanie strategii opartej na danych własnych według respondentów niesie za sobą takie korzyści jak większa skuteczności kampanii, wzrost wartości marki i lepsze relacje z klientami

A free and open source map of the world
Protomapa to jeden plik (!) zawierający mapę całego świata. Taki plik waży nieco ponad 100GB, ale może być strumieniowany z CDNa, co oznacza, iż przeglądanie takiej mapy generuje zaledwie kilka KB transferu. I w dodatku można użyć API które zwraca mapę.

#devops

A Visual Guide to Sed
SED to narzędzie dla systemów Linux/Unix, służące do operacji na tekście. Można by powiedzieć, iż to swoista terminalowa funkcja 'znajdź i zamień’. Posiadając wiedzę na temat jego możliwości i umiejętność ich efektywnego wykorzystania, można znacząco przyspieszyć swoją pracę. Ten poradnik wyjaśni Ci, jak korzystać z SED-a.

#excel

Interactive Dashboards in Excel
Zgodnie z tytułem - tutorial pokazuje jak przygotować interaktywny dashboard w Excelu. Bez żadnych hi-tech rozwiązań, żadne Kafki, żadne Hadoopy, żadne big data... bo w Excelu można wszystko

#programowanie_ogólnie

JSON is incredibly slow...
...czy są zatem inne rozwiązania dające możliwości JSONa, ale szybsze?

Feature flags na ratunek projektu w JavaScript
Jak wprowadzić do produkcji nową funkcję lub fixa, który być może zadziała, a być może spowoduje pewien problem? Na pomoc przychodzą Feature Flags/Toggles. Godzina na YT, po polsku

#python

futurecoder: Learn to code from scratch
W pełni darmowy, świetnie zaprojektowany, interaktywny kurs Pythona. Musisz jedynie wykonywać polecenia pojawiające się na ekranie i od czasu do czasu odpowiedzieć na pytanie sprawdzające, czy aby na pewno rozumiesz, co robisz. Języka uczysz się w wirtualnym terminalu uruchomionym w przeglądarce.

Setting up a FastAPI App with Async SQLALchemy 2.0 & Pydantic V2
Kompleksowe podejście do przygotowania API gadającego z bazą danych

How to deploy a scraping script and Selenium in Google Cloud Run
Dowiedz się, jak zautomatyzować zadania pobierania danych ze stron internetowych, wdrażając odpowiednie skrypty w Google Cloud Run.

#r

How to Find the Perfect Cocomelon Video for Your Kids
Tym razem będzie o wykorzystaniu API YouTube do eksploracji przykładowego kanału

Topic modeling for #TidyTuesday Taylor Swift lyrics
Taylor Swift to jedna z najbardziej znanych w tej chwili gwiazd (nota bene świetnie sprzedająca wielokrotnie to samo - np. bilety na koncert i bilety na film z tego koncertu). A o czym są jej teksty (bo to piosenkarka, gdyby ktoś nie wiedział)? Tutorial z topic modelingu w R

#sql

How to Avoid Five Common Mistakes in Google BigQuery / SQL
Pięć typowych błędów popełnianych przez piszących w SQL, z naciskiem na SQL który kosztuje - czyli w ramach Big Query


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału