Newsletter Dane i Analizy, 2024-06-10

blog.prokulski.science 7 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj dwa interesujące teksty o technikach OSINTowych - czyli jak z publicznie dostępnych informacji dotrzeć do czegoś więcej. Na przykład do informacji gdzie ktoś faktycznie jest (chociaż mówi inaczej) co jest nieco zabawą podobną do serwisu GeoGuesser (interesująca zabawa, zacznij od map ze znanej Ci okolicy) - na przykładzie szpiegów. Może jeszcze na dokładkę coś o szukaniu informacji z wykorzystaniem map?
Tyle o szukaniu. A o ukrywaniu? No na przykład pikselowanie tekstu na obrazkach umieszczanych w sieci nie ma większego sensu.

Z kolei adres IT-Tools.tech śmiało możecie dodać do ulubionych - jedno miejsce na masę konwerterów, przeliczników, generatorów i innych przydasi. No wreszcie wszystko w jednym miejscu!

A żeby było o AI i ML... jak już mamy te nasze modele, ale co dalej? Kto za co zwykle odpowiada w całym ML-owym projekcie? Pod linkiem jedna z koncepcji, czy najlepsza? Pozostawiam Wam do decyzji.


#ai_ml

Simple Ways to Speed Up Your PyTorch Model Training
Jednym z najdłużej trwających procesów w projektach AI/ML jest uczenie modeli. Czy jeżeli zrozumiemy jak działa ten proces będziemy umieli go przyspieszyć?

#analiza_danych_koncepcje

How to Evaluate Search Relevance and Ranking
Skąd wiadomo które wyniki poszukiwań są najbardziej pasujące do zapytania? O kilku metrykach używanych w wyszukiwarkach

#analiza_danych_projekty

What Do We Know About Modern Artists?
Odrobina Wikipedii oraz Pythona z pakietem NetworkX pokaże nam jak to muzycy tworzą klany i kto do kogo jest podobny (bo przecież wiadomo nie od dziś, iż każdy współczesny wykonawca jest do kogoś podobny). Zamiast Wikipedii można użyć np. AllMucis.com - tam jest choćby gotowa sekcja "podobne" dla wszystkich z artystów.

Web scraping & NLP
Klasyfikacja filmów na podstawie ich opisów z Wikipedii. Odrobina web scrapingu, odrobina NLP (topic modeling z użyciem BERTa). Prosty, a całkiem efektywny projekt.

Convolutional Neural Networks in PyTorch: Image Classification
Wyżej klasyfikacja na podstawie tekstu, tutaj na podstawie grafiki. Tutorial z podstaw Computer Vision z wykorzystaniem PyTorch

#architektura

Micro-Frontends demystified
25 minut (na YT, po angielsku) o tym co to są micro-frontendy. Od około 23 minuty jest TLDV ;-)

Introduction to Mermaid graphs in Markdown
Szybki przegląd możliwości Mermaid - silnika do rysowania diagramów z tekstu w Markdown. GitHub potrafi renderować takie diagramy "z pudełka" (BitBucket niestety nie i zdaje się, iż Atlassian nie ma zamiaru tego zmieniać na razie), różne IDE też potrafią albo mają stosowne pluginy. Dlaczego warto tak trzymać dokumentację? Bo widać zmiany na przestrzeni kolejnych commitów.

#ciekawostki

Queueing
O kolejkach w interaktywny sposób. Czym się różni FIFO od LIFO i jak działają priorytety?

Shapefile must die!
Dlaczego znany format przechowywania danych geograficznych Shapefile jest przestarzały? I co w zamian?

Why you need small, informative Git commits
Dlaczego małe commity są lepsze niż duże

#data_engineering

Integrating Pi-hole and Elastic Stack with Docker
Pi-Hole znamy? To taka nakładka na DNSy wycinająca ruch z reklamami (jak Chrome zablokuje w sklepie wszelakie adblocki to tylko to nam pozostanie). A gdyby logi z Pi-Hole pchać do Elastica? Właśnie - gdyby to raz, ale jak to dwa! Dobry tutorial.

#devops

Kubernetes CronJobs
Jak używać CronJobs w K8s aby startować nasze zadania zgodnie z harmonogramem?

#management

Become a Great Engineering Leader in 12 Months
Marzysz o roli lidera w branży IT, ale nie wiesz, od czego zacząć? Tutaj znajdziesz rozpisaną na 12-miesięcy ścieżkę rozwoju. Może nie jest to jedyna droga, ale jakaś "mapa" zawsze się przyda w budowaniu swojej kariery.

#python

Fast API Standard Project Structure For Big Applications
Wielokrotnie (właściwie w każdym wydaniu) mogliście znaleźć tutaj coś o FastAPI, więc tradycji musi stać się za dość - uniwersalna struktura projektu API. Brać, kopiować, pisać kod, wdrażać

Comparing Country Sizes with GeoPandas
Co jest większe: Australia czy Rosja? A może Stany Zjednoczone? Jak porównać mapy ze sobą, korzystając z GeoPandas

A Guide to Python HashMaps
Coś o hashmapach w Pythonie. W Javie hashmapa to dość znana struktura danych, w Pythonie nie występuje natywnie. Tutaj znajdziesz przewodnik jak ją zbudować samodzielnie

#r

R One Billion Row Challenge
Pamiętacie "1 Billion Row Challenge" o którym było bodaj w poprzednim (na pewno? - jak ten czas gwałtownie leci) numerze? Tutaj wersja kilku rozwiązań w języku R.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału