Newsletter Dane i Analizy, 2024-02-12

blog.prokulski.science 10 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj o zarabianiu pieniędzy bez wysiłku. Każdy by tak chciał, prawda?
Otóż istnieje na to sposób. Wystarczy mieć dużo odsłon filmików na YouTube - każdy nastolatek to wie, prawda? A jutuber czy inny influencer to zawód przyszłości, ten najbardziej wymarzony... przez nastolatków.
Ale przecież nie każdy ma czas kręcić te śmieszne filmiki, wymyślać ich tematy... Z pomocą przychodzi automatyzacja, tak jak pokazano tutaj. A tutaj repozytorium z kodem w Pythonie który robi całą robotę.

No, może nie jest to najlepszy sposób na zarabianie pieniędzy. My, boomerzy, wierzymy w uczciwą pracę i kompetencje. A o kompetencjach, ich rozwijaniu i ogólnie rozwijaniu siebie kilka tekstów w dzisiejszym wydaniu, sekcji "dla managerów" (wcale nie tylko dla nich).

15 lutego interesująca konferencja online AI in Production - może kogoś zainteresuje?


#ai_ml

The Math Behind K-Nearest Neighbors
"Z kim przystajesz, takim się stajesz" - tak można w uproszczeniu wyjaśnić algorytm KNN. A coś więcej, bardziej naukowo? Tutaj się dowiesz

Attention Mechanism
“Attention is all you need" - opracowanie z 2017 roku, które posunęło świat AI do przodu. O co chodzi z tym mechanizmem uwagi?

Beyond Self-Attention: How a Small Language Model Predicts the Next Token
Olbrzymi tekst (ponad 17 tysięcy słów) pokazujący jak zbudować własny mały model przewidujący kolejne słowa, ale przede wszystkim pokazujący jak drobne zmiany w mechanizmach atencji wpływają na całość

#analiza_danych_projekty

Introduction to Hugging Face Datasets
Hugging Face to duży konglomerat skupiający świat AI - mamy dane, mamy modele. Jak z niego korzystać? Na przykładzie pozyskiwania danych z HF

3 Key Encoding Techniques for Machine Learning
Dane kategoryczne - jak zakodować je dla modeli? Bo model potrzebuje liczb, a nie "labelek".

Unraveling Unstructured Movie Data
Użyjmy modeli LLM aby na podstawie opisu filmu wyznaczył jego gatunek. Następnie zakodujmy te gatunki (przyda się wiedza z tekstu wyżej!), aby móc traktować je jako wektory oraz do porównania.

Building YouTube Recommender System with Video Thumbnails and Titles
Też filmy, też porównywanie (tutaj potrzebne na rzecz późniejszej rekomendacji - bo przecież element rekomendowany to ten najbardziej podobny element), ale tym razem filmy z YouTube. I model rekomendacyjny biorący pod uwagę miniaturki oraz tytuły.

Streamlit and Folium are a Match Made for Mapping
Świetny przykład na to, jak ChatGPT może przyspieszyć pracę i napisać za nas kod.

From Raw Chats To Data Insights
Czy nasze rozmowy w komunikatorach mogą zdradzić coś o naszej tożsamości? Oto projekt analizujący treści czatów, który pokazuje co nie co o interpretacji danych tekstowych

#ciekawostki

Becoming Data Driven, From First Principles
Jak być data driven i jak ustawić mierniki? Dość dużo o wykresach typu XmR, które powalają monitorować te mierniki zgodnie z charakterystyką procesów, które monitorujemy.

#data_engineering

Real-time Data Processing with Kafka, MySQL, and Node.js
Zazwyczaj prezentujemy związane z Kafką rozwiązania oparte o Pythona, rzadziej o Javę. Tym razem coś z krainy Node.js. Skoro istnieje biblioteka KafkaJS (https://kafka.js.org) to dlaczego jej nie użyć? W przykładach pokazanych w tekście mamy prostego producenta, prostego konsumenta i wyniki wkładane do bazy danych opartej na silniku MySQL. Producent pobiera dane z serwisu z informacjami o brytyjskich pociągach, a potem przez Kafkę rozsyła je w świat. Konsument pobiera dane z topiku i zapisuje do bazy. Dość typowy proces, ale dzięki swej prostocie prosty do zrozumienia.

End-to-End Data Engineering System on Real Data with Kafka, Spark, Airflow, Postgres, and Docker
Tu podobny projekt jak wyżej, oparty o Kafkę i AirFlow który uruchamia "joby" Sparka poprzez podnoszenie odpowiednich kontenerów w Dockerze. A finalnie dane lądują w PostgreSQL

#excel

How to use ChatGPT for Excel?
Czy ChatGPT może pomóc w pracy z Excelem? Oczywiście. Kilka przykładów w tym artykule.

#management

Should you Stay Technical as an Engineering Manager?
Czy jak się zostaje dyrektorem IT to należy znać się na technologii?

Personal Branding for Developers
Jak zbudować swoją markę osobistą jako programista? Czyli co robić żeby zostać celebrytą w świecie IT a nie tylko "klepać CRUDy" ;-)

9 Simple Tips to Take You From “Busy" Data Scientist to Productive One
Jesteś zajęty czy tylko leniwy? O zarządzaniu zadaniami i podnoszeniu swojej produktywności.

#python

Ten Python datetime pitfalls
Zmiany czasu, różne strefy czasowe - z czym jeszcze nie radzi sobie standardowa biblioteka Pythona datetime? Czy biblioteki zewnętrzne poprawiają sytuację i rozwiązują problemy?

Prototyping FastAPI faster with FastCRUD
FastCRUD - "dodatek" do FastAPI ułatwiający współpracę API z bazami danych. Cenne w tym tekście jest też to, iż na początek mamy kod standardowego CRUDa bez FastCRUD!

A search engine in 80 lines of Python
Wyszukiwarka napisana od zera w Pythonie. Indeksuje teksty z kanałów RSS i pozwala je przeszukiwać.

Solving Tic Tac Toe Without the Minimax Algorithm
Gra w kółko i krzyżyk, tym razem komputer swoje "ruchu" wylicza na podstawie grafów.

Everything You Can Do with Python’s textwrap Module
Wyrównanie tekstu do lewej, do prawej, zawijanie linii - to podstawowe operacje, w których pomaga moduł textwrap

Streamline Your Spreadsheets
W Excela online wbudowano Pythona. Ale w wersji desktop jeszcze nie. Istnieje za to biblioteka Openpyxl, która z plikami Excela potrafi wyczyniać cuda

Exploring Python Typing-Extensions
Python z natury jest językiem o dynamicznym typowaniu, ale od jakiegoś czasu wszyscy zalecają używanie typowania - głównie dla przejrzystości kodu (a IDE potrafią z tego typowania korzystać i sporo podpowiadają). Zatem coś o nieco bardziej zaawansowanym typowaniu niż proste int, str czy dict.

#sql

An Introduction to SQL
Nie umiesz SQLa? To tutaj się nauczysz. A jeżeli zajmujesz się danymi w jakikolwiek sposób - na pewno Ci się przyda.

#wizualizacja_danych

Tidy Data Visualization
Porównanie R i Pythona w zakresie przygotowywania wykresów. Cały blog zawiera artykuły pokazujące jak te same operacje wykonać w obu językach - świetne dla przesiadających się z jednego języka na drugi.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału