Newsletter Dane i Analizy, 2023-08-14

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Na początek tutorial (YT, 30 minut, po polsku), tym razem z LLMami w roli głównej - o tym jak zbudować chatbota odpowiadającego na pytania z własnej bazy wiedzy. Bardzo fajny materiał, takich trochę brakuje - chłopaki opowiadają o tych najbardziej kluczowych kawałkach kodu a nie o podstawach. Rozumiesz o czym jest mowa, nie ma straty czasu w opowiadanie co do jest model albo funkcja w Pythonie ;-)

Dzisiaj też pelny proces MLOps - wprowadzenie zawierające wszystkie elementy. Super tekst na początek dla wszystkich DevOpsa który chce się zająć tematami ML oraz każdego data scientisty, który chce umieć nowocześnie wdrażać swoje modele.


#analiza_danych_koncepcje

XGBoost: The Definitive Guide (Part 1)
Wyprowadzenie krok po kroku popularnego algorytmu XGBoost wraz ze szczegółowym objaśnieniem teorii stojącej za tym algorytmem

The Two Metrics That Reveal True Data Dispersion Beyond Standard Deviation
Czym jest współczynnik zmienności i jak może pomóc w analizie danych?

How to Build a Fully Automated Data Drift Detection Pipeline
Kiedy dane się zmieniają (dryfują) modele mogą zacząć "gadać" głupoty... jak więc sprawdzić czy dane dryfują?

Plotting the correct Elbow plot to find the optimal number of clusters
Podane dane tworzą k grup. Jak znaleźć najbardziej optymalne k?

Using Python’s NetworkX and PyTorch Geometric to Analyze Twitter Influence and Verification
Trochę o sieciach społecznych, grafach i o tym kto tak na prawdę jest influencerem

#analiza_danych_projekty

Forecast Multiple Horizons: an Example with Weather Data
"Horyzont" (trudno mi o polski odpowiednik) jako dodatkowa cecha pozwalająca na poprawę predykcji w szeregach czasowych

#architektura

The Role of a System Architect
Odkrywanie wyzwań związanych ze wzrostem: czy architekt systemu może być rozwiązaniem?

#big_data

A side-by-side comparison of Apache Spark and Apache Flink for common streaming use cases
Kiedy Apache Flink a kiedy Apache Spark? Porównanie w zastosowaniach streamingowych

#ciekawostki

Analyzing FC Barcelona’s Defense From a Data Science Perspective
Analiza danych w służbie footballu - wizualne porównanie danych ilustrujące wady obrony Barçy.

Gdzie stawiać hotele w Eurobiznesie? | Danetyka
Zastosowanie metody Monte Carlo do liczenia prawdopodobieństwa, iż staniemy na konkretnym polu w grze Eurobiznes.

Using Amazon Alexa To Run AWS CLI Commands via Large Language Models (LLMs)
Zagadaj do Alexy, żeby zrobiła coś w Shellu

#devops

Useful cURL Commands for DevOps Engineers
cURL w konsoli oferuje setki parametrów, ale niektóre z nich są niezwykle przydatne w codziennych zadaniach

Using jq in Bash
Z kolei do pracy z plikami JSON jq jest stworzony. Poznaj kilka tricków

#excel

Create your first Excel LAMBDA function
Własna funkcja w Excelu bez VBA i makr?

#mlops

MLOps: Mastering Machine Learning Deployment
Pelny proces budowania narzędzi ML: model, API które opakowuje model, Streamlit który służy za GUI, cały proces CI/CD oparty o Dockera, Helma i Terraform. Od tego należy zacząć poznawanie MLOps.

#narzędzia_BI

Microsoft Fabric vs. Power BI: What’s the Difference?
Microsoft Fabric vs. Power BI - czym one się różnią?

#python

Dockerizing Plotly/Dash
Pytacie w listach o do chodzi z tym Dockerem i jak prostą apkę w taki obraz wepchnąć. Zatem kolejny szybki przykład!

Advanced OOP in Python
Polimorfizm i abstrakcje - czyli programowanie obiektowe nieco bardziej zaawansowane

Building Distributed Machine Learning Models on a Homelab Cluster With Python
Domowy klaster do zbierania danych i eksperymentów z uczeniem maszynowym

#spark

Maximizing Spark Performance: Minimizing Shuffle Overhead
Apache Spark przetwarza zapytania, dystrybuując dane w wielu węzłach i obliczając wartości osobno w każdym węźle. Czasami jednak węzły muszą wymieniać dane i to ma wpływ na szybkość


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału