Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Dość przekrojowo dzisiaj.
Najciekasze według mnie tekstu to ten o sensownym nadawaniu gwiazdek produktom (ile razy filtrowaliście produkty w sklepie internetowym przed kupnem po najlepszej ocenie i okazywało się, iż z "piątką" jest tylko jeden?), ten o SoftMax (nie przeraź się równaniami na początku, chociaż może podstawy matematyczne są akutat dla Ciebie cenne?).
Bardzo dajny jest też dział Python - od rzeczy prostych typu wiele wykresów na jednym obrazku do modelu (no...) informującego o tym iż akcje należy kupić albo sprzedać.
#ai_ml
Deep Dive into Softmax Regression
W artykule przedstawiono podstawy regresji logistycznej, która jest używana do przewidywania prawdopodobieństwa wystąpienia danego zdarzenia. W przykładach (w Pythonie) mamy zbudowany na tejże regresji model dla datasetu MNIST i trafność, którą daje model jest na poziomie 92% - widać, więc, iż dobre wyniki można osiągnąć bez sieci neuronowych
#analiza_danych_koncepcje
Measurement Problems - Rating Products with Python
"Gwiazdki" będące ocenami produktów są prostym sposobem dla użytkownika poznania lepszych i gorszych produktów. Ale policzenie wypadkowej oceny nie jest już takie oczywiste...
#analiza_danych_projekty
Finding Temporal Patterns in Twitter Posts
W artykule przedstawiono przykładowy proces analizy danych dotyczących postów na Twitterze. Analiza polegała na znalezieniu wzorców czasowych w postach.
#architektura
Writing design docs for data pipelines
Tekst opisuje, jak pisać i stosować dokumenty projektowe dla danych przetwarzanych przez przepływy danych.
#bazy_danych
SQL vs NoSQL: Choosing the Right Database System for Your Project
Obszerne zestawienie cech baz SQL i NoSQL, które pozwala na porównanie i na przykład w wybranie odpowiedniej technologii do Twojego projektu.
#big_data
A Decade In Data Engineering - What Has Changed?
Tekst opisuje doświadczenia autora z zakresu zarządzania danymi w ciągu ostatniej dekady. W tym czasie pracował on nad projektami wykorzystującymi duże zbiory danych, takie jak systemy rekomendacji, analiza danych o ruchu drogowym i systemy rozpoznawania mowy. Wymienia on również niektóre z najważniejszych narzędzi i języków programowania, które używał w pracy, w tym Python, R, SQL, Hadoop i Spark.
#chatgpt
Use ChatGPT to Code a Full Stack App
Rozbudowany poradnik pokazujący jak z użyciem ChatGPT wygenerować w pełni funkcjonalną aplikację składająca się zarówno z części frontendowej, jak i backendowej. Nie jest to takie proste, jak się wydaje i zajmuje trochę czasu (film zajmuje 2h i 16 minut tego czasu)
ChatGPT vs. Bard: A realistic comparison
W tym tekście przedstawiono porównanie chatbotów GPT i bardów. GPT jest dobre w przetwarzaniu dużych ilości danych, ale nie działa tak dobrze w przypadku małych ilości danych. Bard jest dobry w przetwarzaniu małych ilości danych, ale nie działa tak dobrze w przypadku dużych ilości danych.
#ciekawostki
Jak długo trzeba grać w wojnę?
Metoda Monte Carlo w praktyce: jak policzyć oczekiwaną długość gry w wojnę? I jaka jest szansa na remis?
Automating Command Execution straight from README.md
W tekście przedstawiono sposób automatyzacji wykonywania poleceń zawartych w pliku readme.md. Zastosowanie takiej automatyzacji pozwala znacznie skrócić czas wykonywania poleceń oraz zmniejszyć ryzyko ich błędnego wykonania.
Data Entropy: More Data, More Problems?
W tym tekście przedstawiono problem entropii danych - to zjawisko występuje, gdy dane są nieuporządkowane lub niekompletne. Przykładem jest sytuacja, w której jest dużo danych, ale nie można ich łatwo interpretować.
#mlops
Unlocking MLOps using Airflow: A Comprehensive Guide to ML System Orchestration
Airflow to narzędzie do orkiestrowania przepływów pracy. W związku z tym mogłoby też sterować przepływami związanymi z procesami MLOps! O tym jest tekst, który jest czwartym w całym cyklu.
#narzędzia_BI
Exposing sklearn machine learning models in Power BI
W tym tekście przedstawiono sposób na wykorzystanie modeli ML z pakietu scikit-learn w PowerBI. Jest to przydatne, ponieważ Power BI nie ma wbudowanego narzędzia do uczenia maszynowego. Żeby być w pełni fair - można też PowerBI spiąć ze skryptami napisanymi w R (i w tymże R zbudować modele).
#python
Simplifying subplots creation in Matplotlib
Jak na jednym obrazku pokazać kilka wykresów? Zadbać o ich rozmieszczenie na "siatce" obejmującej cały obrazek. Dobry przykład w Pythonie z użyciem matplotlib
Cheat ML Model Creation with PyCaret
PyCaret to narzędzie ułatwiające wykonywanie zadań związanych z uczeniem maszynowym. Jest ono szczególnie przydatne w przypadku, gdy jest potrzeba szybkiego wykonania wielu operacji, np. podczas testowania różnych algorytmów.
Building a Real-Time Stock Price Pivot Point Calculator in Python
Tekst przedstawia sposób na stworzenie kalkulatora do obliczania punktów zwrotnych cen akcji w czasie rzeczywistym.
#r
Posit AI Blog: LLaMA in R with Keras and TensorFlow
W tym artykule autor przedstawia przykład uczenia maszynowego opartego o LLM (Large Language Models) w języku R z wykorzystaniem bibliotek TensorFlow i Keras.
R Packages for Clinical Trial Data
Tekst przedstawia pakiety R do analizy danych farmaceutycznych i klinicznych. W tej branży R jest dość popularnym językiem.
#środowisko_pracy
Top 11 Tools for Microservices Backend Development
W artykule przedstawiono 11 narzędzi, które mogą być przydatne w tworzeniu microserwisów. Część z nich pewnie jest Wam znana (Docker, Kafka, Postman czy VSCode) i można przescrollować, ale reszta być może odkryje coś ciekawego?
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)