Newsletter Dane i Analizy, 2022-09-12

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Z dzisiejszej paczki tekstów wybranych z całego tygodnia chyba najbardziej podoba mi się ten o gerrymandering - czyli takim dobraniu kształtu okręgów wyborczych aby wygrało konkretne ugrupowanie. To istotny problem, cieszę się iż są mechanizmy (pokazane w artykule) do dowodzenia iż takie czy inne granice okręgów są sprzyjające jednej czy innej stronie. Ale najbardziej podoba mi się sposób prezentacji treści. The Washington Post (New York Times też) inwestuje w przygotowanie treści i to daje efekty. Kto w Polsce w tak atrakcyjny (i dedykowany tematowi) podaje treść?.

Poza tym trochę narzędzi dla developerów czy też analityków - choćby tych excelowych (sztuczna inteligencja pisząca formuły w Excelu? Saaay whaaat?!), bardzo fajne wprowadzenie do bardziej skomplikowanych modeli danych z użyciem Pydantic oraz o (automatycznym) przygotowywaniu raportów i ich późniejszym rozsyłaniu.


#analiza_danych_koncepcje

Communicating A/B Test Results
Testy A/B dają nam cenne informacje o tym co działa lepiej (czerwony guzik w "call to action" czy zielony? taki tekst czy inny?). Tylko iż później wyniki trzeba przedstawić tzw. "biznesowi" w zrozumiały sposób

#analiza_danych_projekty

A Metric for HDBSCAN-Generated Clusters
HDBSCAN to rozszerzenie DBSCAN. Nie potrzebuje na przykład parametru ε (maksymalna odległość między punkatami). A co z metrykami? interesujący algorytm, istotny dla osób robiących analizy geograficzne (gdzie postawić kolejny paczkomat? czy gęstość Żabek jest odpowiednia?)

Fake News Detection using BERT Model Python
Na przykładzie wykrywania fake newsów poznajemy model BERT i sposób jego użycia w Pythonie (w minimalnej wersji). Tylko tyle i aż tyle

#bazy_danych

Using Arrays in PostgreSQL
PostgreSQL potrafi przetrzymywać zagnieżdżone struktury - na przykład listy czy też tablice. Jak ich używać?

#ciekawostki

Can computer simulations help fix democracy?
Gerrymandering: manipulowanie przebiegiem granic okręgów wyborczych, najczęściej w celu uzyskania korzystnego wyniku przez partię mającą wpływ na kształtowanie ordynacji wyborczej. Tak mówi Wikipedia. A niniejszy tekst pokazuje to na symulacji. I jak na The Washington Post podany jest w znakomitej formie

Excel Formula Generator - AI Bot
Wybierasz platformę, na której pracujesz, a następnie opisujesz naturalnym językiem (po angielsku) swój problem. Sztuczna inteligencja generuje dla Ciebie formułę, która rozwiązuje zadany problem. Testowałem na kilku wymyślonych przez siebie problemach i działało idealnie. Pamiętaj jednak, iż dla kiepskiego opisu problemu otrzymasz kiepskie rozwiązanie. Usługa jest bardzo tania, a za darmo masz dostęp do generowania 5 formuł miesięcznie

Lista domen "10 minute mail"
Jeśli prowadzisz własny newsletter i ktoś regularnie zaśmieca Ci listę domenami w stylu ‘10 minute mail’ (co zwiększa Twoje koszty wysyłki newslettera, nie dając Ci żadnych korzyści w zamian), możesz wrzucić na czarną listę kilka tysięcy takich jednorazowych domen mailowych.

A Comprehensive Tutorial on Stereo Geometry and Stereo Rectification with Python
Przypominają mi się "kreski" ze studiów i rzuty Monge’a... ale z drugiej strony matematyka stojąca za światem 3D jest fascynująca. A ubrana w kod jeszcze bardziej

#devops

Do you need ElasticSearch when you have PostgreSQL?
Czy zawsze potrzebujemy armaty na komara? Czyli: kiedy Postgres jest wystarczający i nie potrzeba np. Elastica

Slowing Down to Speed Up - Circuit Breakers for Slack’s CI/CD
Jak problemy typowe dla skalowania rozwiązań rozwiązują inżynierowie w Slacku? A nie oszukujmy się - w Slacku mają co skalować

Understanding better the DAGs (And Operators) concepts
Jak tworzyć bardziej złożone struktury w Apache Airflow?

#python

The Magic of Matplotlib Stylesheets
Nie oszukujmy się - Matplotlib jest łatwy w użyciu i gwałtownie można przygotować jakiś wykres. Tylko dlaczego są one takie brzydkie?! Ale, ale! Matplotlib ma coś takiego jak całkiem spora liczba parametrów odpowiadających za wygląd wykresów - można więc (w uproszczeniu mówiąc) przygotować arkusze styli upiększające nasze dzieła

How to make the most of Pydantic
Dataclass i Pydantic znakomicie ułatwiają przygotowanie modelu danych używanych w kodzie struktur. A Pydantic pozwala choćby na walidację danych. choćby pochodzących z zagnieżdżonych struktur, np. JSONów

Python Modules That Make Handling JSON Even Faster
A jeżeli już jesteśmy przy JSONach to mamy przegląd bibliotek dla Pythona do współpracy z JSONami

Automate Operational Reports Distribution in HTML Emails using Python
Niektórzy raporty robią w języku R z pakietem Markdown, a inni wolą w Pythonie. I jak je wtedy rozsyłać?

#r

R Markdown Reporting Best Practices
Raportowanie (np. generowanie PDFów z raportami) z poziomu R połączonego z pakietem RMarkdown jest bardzo wygodne. Warto poznać kilka zasad oraz sztuczek, które taką robotę uławiają (albo zwiększają Twoje możliwości)

#wizualizacja_danych

Dwa sposoby na wykres Sankey’a w programie Excel
Czy da się taki wykres stworzyć w Excelu?

#środowisko_pracy

Spark SQL in JupyterLab
Mały dodatek pozwalający pisać w SQLu, w Sparku, bezpośrednio w "celkach" JupyterLab


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału