Newsletter Dane i Analizy, 2023-05-29

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dość przekrojowo dzisiaj.

Najciekasze według mnie tekstu to ten o sensownym nadawaniu gwiazdek produktom (ile razy filtrowaliście produkty w sklepie internetowym przed kupnem po najlepszej ocenie i okazywało się, iż z "piątką" jest tylko jeden?), ten o SoftMax (nie przeraź się równaniami na początku, chociaż może podstawy matematyczne są akutat dla Ciebie cenne?).

Bardzo dajny jest też dział Python - od rzeczy prostych typu wiele wykresów na jednym obrazku do modelu (no...) informującego o tym iż akcje należy kupić albo sprzedać.

#ai_ml

Deep Dive into Softmax Regression
W artykule przedstawiono podstawy regresji logistycznej, która jest używana do przewidywania prawdopodobieństwa wystąpienia danego zdarzenia. W przykładach (w Pythonie) mamy zbudowany na tejże regresji model dla datasetu MNIST i trafność, którą daje model jest na poziomie 92% - widać, więc, iż dobre wyniki można osiągnąć bez sieci neuronowych

#analiza_danych_koncepcje

Measurement Problems - Rating Products with Python
"Gwiazdki" będące ocenami produktów są prostym sposobem dla użytkownika poznania lepszych i gorszych produktów. Ale policzenie wypadkowej oceny nie jest już takie oczywiste...

#analiza_danych_projekty

Finding Temporal Patterns in Twitter Posts
W artykule przedstawiono przykładowy proces analizy danych dotyczących postów na Twitterze. Analiza polegała na znalezieniu wzorców czasowych w postach.

#architektura

Writing design docs for data pipelines
Tekst opisuje, jak pisać i stosować dokumenty projektowe dla danych przetwarzanych przez przepływy danych.

#bazy_danych

SQL vs NoSQL: Choosing the Right Database System for Your Project
Obszerne zestawienie cech baz SQL i NoSQL, które pozwala na porównanie i na przykład w wybranie odpowiedniej technologii do Twojego projektu.

#big_data

A Decade In Data Engineering - What Has Changed?
Tekst opisuje doświadczenia autora z zakresu zarządzania danymi w ciągu ostatniej dekady. W tym czasie pracował on nad projektami wykorzystującymi duże zbiory danych, takie jak systemy rekomendacji, analiza danych o ruchu drogowym i systemy rozpoznawania mowy. Wymienia on również niektóre z najważniejszych narzędzi i języków programowania, które używał w pracy, w tym Python, R, SQL, Hadoop i Spark.

#chatgpt

Use ChatGPT to Code a Full Stack App
Rozbudowany poradnik pokazujący jak z użyciem ChatGPT wygenerować w pełni funkcjonalną aplikację składająca się zarówno z części frontendowej, jak i backendowej. Nie jest to takie proste, jak się wydaje i zajmuje trochę czasu (film zajmuje 2h i 16 minut tego czasu)

ChatGPT vs. Bard: A realistic comparison
W tym tekście przedstawiono porównanie chatbotów GPT i bardów. GPT jest dobre w przetwarzaniu dużych ilości danych, ale nie działa tak dobrze w przypadku małych ilości danych. Bard jest dobry w przetwarzaniu małych ilości danych, ale nie działa tak dobrze w przypadku dużych ilości danych.

#ciekawostki

Jak długo trzeba grać w wojnę?
Metoda Monte Carlo w praktyce: jak policzyć oczekiwaną długość gry w wojnę? I jaka jest szansa na remis?

Automating Command Execution straight from README.md
W tekście przedstawiono sposób automatyzacji wykonywania poleceń zawartych w pliku readme.md. Zastosowanie takiej automatyzacji pozwala znacznie skrócić czas wykonywania poleceń oraz zmniejszyć ryzyko ich błędnego wykonania.

Data Entropy: More Data, More Problems?
W tym tekście przedstawiono problem entropii danych - to zjawisko występuje, gdy dane są nieuporządkowane lub niekompletne. Przykładem jest sytuacja, w której jest dużo danych, ale nie można ich łatwo interpretować.

#mlops

Unlocking MLOps using Airflow: A Comprehensive Guide to ML System Orchestration
Airflow to narzędzie do orkiestrowania przepływów pracy. W związku z tym mogłoby też sterować przepływami związanymi z procesami MLOps! O tym jest tekst, który jest czwartym w całym cyklu.

#narzędzia_BI

Exposing sklearn machine learning models in Power BI
W tym tekście przedstawiono sposób na wykorzystanie modeli ML z pakietu scikit-learn w PowerBI. Jest to przydatne, ponieważ Power BI nie ma wbudowanego narzędzia do uczenia maszynowego. Żeby być w pełni fair - można też PowerBI spiąć ze skryptami napisanymi w R (i w tymże R zbudować modele).

#python

Simplifying subplots creation in Matplotlib
Jak na jednym obrazku pokazać kilka wykresów? Zadbać o ich rozmieszczenie na "siatce" obejmującej cały obrazek. Dobry przykład w Pythonie z użyciem matplotlib

Cheat ML Model Creation with PyCaret
PyCaret to narzędzie ułatwiające wykonywanie zadań związanych z uczeniem maszynowym. Jest ono szczególnie przydatne w przypadku, gdy jest potrzeba szybkiego wykonania wielu operacji, np. podczas testowania różnych algorytmów.

Building a Real-Time Stock Price Pivot Point Calculator in Python
Tekst przedstawia sposób na stworzenie kalkulatora do obliczania punktów zwrotnych cen akcji w czasie rzeczywistym.

#r

Posit AI Blog: LLaMA in R with Keras and TensorFlow
W tym artykule autor przedstawia przykład uczenia maszynowego opartego o LLM (Large Language Models) w języku R z wykorzystaniem bibliotek TensorFlow i Keras.

R Packages for Clinical Trial Data
Tekst przedstawia pakiety R do analizy danych farmaceutycznych i klinicznych. W tej branży R jest dość popularnym językiem.

#środowisko_pracy

Top 11 Tools for Microservices Backend Development
W artykule przedstawiono 11 narzędzi, które mogą być przydatne w tworzeniu microserwisów. Część z nich pewnie jest Wam znana (Docker, Kafka, Postman czy VSCode) i można przescrollować, ale reszta być może odkryje coś ciekawego?

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału