Newsletter Dane i Analizy, 2022-10-31

blog.prokulski.science 3 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Poprzednie wydanie newslettera skupiało się na szeregach czasowych (zobacz w archiwum). Dla odmiany dzisiaj coś o analizie koszykowej - czyli co z czym się kupuje i co z tego wynika? Przykłady w kliku językach programowania znajdziecie niżej, w dedykowanej sekcji.

Nieco standardowo, albo może raczej - tradycyjnie - sporą część publikowanych dzisiaj tekstów mówi o technologiach streamingowych i big data. Zatem jest o rodzinie i znajomych Apache: Kafka, Spark, Iceberg, gdzieś przewinął się chyba też Flink. Czy to są interesujące dla Was tematy? A może rysowanie mapek jest ciekawsze? ;-)

#analiza_koszykowa

Analiza koszykowa - przepisy kulinarne
Jak badać preferencje zakupowe klientów? Jak ułożyć produkty w sklepie albo przygotować promocje? Plus całkiem obszerne wprowadzenie do tego czym jest analiza koszykowa wraz z przykładamy w R

Analiza koszykowa i cross selling w Pythonie
Tutaj ten sam temat, ale w ujęciu Pythonowym

Associated Items Using the Apriori Algorithm
R, Python, dlaczego nie SQL?

Apriori Algorithm in sql, pl/sql and spark sql
Też analiza koszykowa, też w SQL, ale w wersji o wiele bardziej rozbudowanego przykładu

How I Built a Simple Recommender System in Python
Analiza koszykowa może być wykorzystana jako system rekomendacyjny. Tutaj mamy przykład systemu rekomendacyjnego ale bez analizy koszykowej ale związanego z opisem filmów.

#bazy_danych

PostgreSQL Optimization Techniques
Optymalizacja zapytań w PostgreSQL - jak do tego podejść? Skąd wiadomo które rzeczy wpływają na czas wykonania zapytania SQL?

#big_data

Apache Spark with Apache Iceberg - a way to boost your data pipeline performance and safety
Co daje nam Apache Iceberg oraz jak z tych dobrodziejstw skorzystać w Apache Spark?

Building Reliable Data Lakes with Apache Spark
Jak sobie czytać Sparkiem z bazy danych? Albo data lake’a? Pierwszy artykuł z cyklu

#ciekawostki

Undetected ChromeDriver: Stay Below the Radar
Okazuje się iż różne serwisy nauczyły się rozpoznawać Chrome’a podawanego przez Selenium... ale pojawił się też ChromeDriver omijający te zabezpieczenia...

#management

Data Projects vs. Data Products - Why Mindset Matters
Projekty mają jasną definicję tego, co należy dostarczyć, podczas gdy produkty nie. W przypadku produktów opartych o dane sytuacja może komplikować się jeszcze bardziej

Setting Up Data Science Teams For Success
Jak budować zespoły specjalistów zajmujących się danymi? Od kogo zacząć rekrutację? Czy nieudane projekty ML to porażka?

How to Structure Your Data Team for Maximum Influence
Jak już mamy zbudowany zespół to jak oceniać jego pracę, jego efektywność? Jak stawiać cele, jak dzielić zadania?

#programowanie_ogólnie

The Art of Logging
Zrób tak, żeby logi Twojej aplikacji były zrozumiałe dla człowieka, ale jednocześnie gotowe do czytania przez maszyny!

#python

Python 3.11: Cool New Features for You to Try
Co nowego przynosi ze sobą Python w wersji 3.11?

How To Write Data From GSheets To Your Database Using Python
Arkusze Google są wygodne - są dostępne online, działają z poziomu przeglądarki (i telefonu). Jako źródło wprowadzanych danych mogą się świetnie sprawdzić (takie np. Google Forms zapisują do nich dane). A tutaj znajdziesz instrukcję jak "wyjąć" z nich dane w Pythonie

#r

Similarity Measures and Graph Adjacency with Sets
Ciekawy cykl o data science w archeologii. Tutaj o podobieństwie i wykorzystaniu języka R do jego określania

#ux

Create onboarding flows like Top SaaS
Przegląd kilkudziesięciu (ponad 40!) onboardingów (czyli pokazania jak działa produkt) z takich produktów jak Buffer, ClickUp, Jira, Dropbox, czy GitHub. Dobra inspiracja dla ludzi tworzących własne projekty online

#wizualizacja_danych

Which chart type should you use?
Jakiego typu wykresu użyć? Zestaw całej masy cheat-sheetów z przeróżnymi typami wykresów

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału