Newsletter Dane i Analizy, 2023-01-30

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj na początek trochę o orkiestracji dzięki Apache Airflow. Zobaczymy co potrafi to narzędzie w zakresie sterowania pobieraniem danych i jak sprawuje się na produkcji.

A jak już mamy pobrane dane to możemy z nimi coś zrobić korzystając z jednej z bibliotek pythonowych. Albo policzyć jakieś modele i z ich pomocą przeanalizować na przykład klientów i ich drogę przez koszyk zakupowy.

W sumie - u laików - synonimem słowa "model" jest "sztuczna inteligencja". A jak sztuczna inteligencja to może od razu ChatGPT (z którego już dzieciaki korzystają żeby pisać prace domowe)?

Zresztą - modele potrzebują infrastruktury - o tym jak ją budować (na AWS) z kodu też się dowiecie.

Większość (zapewne) analityków danych i "modelarzy" pracuje w tej chwili w Pythonie - może więc przydałoby się go nieco zgłębić na poziomie tupli i pakietu collections?

O tym wszystkim w dzisiejszym newsletterze, zapraszam.


#airflow

Let’s Orchestrate With Airflow
Przykładowy proces pobierania danych z wykorzystaniem Airflow jako zarządzającego procesem

Apache Airflow Bad vs. Best Practices In Production
Kilka uwag na temat Apache Airflow na produkcji

#analiza_danych_koncepcje

Who Is Likely to Convert?
Rozważania o lejku sprzedażowym, sygnałach z różnych jego miejsc i tym kto finalnie kupi nasz produkt

Portfolio Optimization with Python: using SciPy Optimize & Monte Carlo Method
Dobierz akcje do swojego portfela inwestycyjnego tak, aby zarobić jak najwięcej. Dość oczywiste, prawda? A jak w tym może pomóc maszyna oraz metody symulacyjne?

Probabilistic Logistic Regression and Deep Learning
A gdyby tak do ML dorzucić szczyptę prawdopodobieństwa?

Geospatial Indexing and Scoring
Krótko mówiąc: podziel punkty na mapie na ośmiokąty i działaj później w ramach tych ośmiokątów.

#ciekawostki

How to Classify Encrypted Data Using a Quantum Neural Network Model
Komputery kwantowe oraz kwantowy machine learning. Wpis teoretyczny

#devops

Dockerizing Apache Zeppelin and Apache Spark
Przygotuj sobie własne środowisko analityczne ze Sparkiem i Zeppelinem

Infrastructure as Code for Beginners
Wszyscy wiemy, iż infrastruktura też powinna być jako kod, ale jak zacząć z AWSem?

#python

Python Tuple
Wszystko co można powiedzieć o tuplach zwanych krotkami

Collections Module: Essential Tools for Efficient Coding
Wbudowany w Pythona pakiet ma kilka ciekawostek, które ułatwiają życie. Pojęcia takie jak namedtuple, deque, ChainMap, Counter, OrderedDict czy defaultdict są Ci znajome? To właśnie elementy z collections

5 Best Python Synthetic Data Generators
Potrzebne są jakieś dane testowe? Oto kilka rozwiązań pomagających je przygotować

A step-by-step guide to develop a map-based application
To część pierwsza cyklu - skupiająca się głównie na czytaniu XMLi i pokazywaniu ich zawartości na mapach. Umiejętności cenne i przydatne, zatem warto zajrzeć do środka

How to send tabular time series data to Apache Kafka with Python and Pandas
Przesyłanie całych data frame’ów przez Apache Kafka wdaje się być dziwne... ale może jest to jakiś pomysł? Albo coś czego właśnie teraz potrzebujesz? W każdym razie - znajdziesz tutaj też coś dla początkujących... hmmm... kafoszy? :)

#r

6 easy ways to map population density in R
Gęstość zaludnienia to dość prosta informacja - w miejscu X mieszka ileś osób na kilometr kwadratowy. Jak to pokazać na mapie? Aż 6 sposobów w R!


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału