Newsletter Dane i Analizy, 2022-07-11

blog.prokulski.science 3 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Machine learning czy też sztuczna inteligencja to nie są czarne skrzynki które dają odpowiedź na każde pytania. Owszem - ML/AI daje odpowiedzi (lub nie) na konkretne pytania (trzeba umieć je postawić, ale też zaakceptować niepewność odpowiedzi) i - po setkach spotkań z biznesem - to wydaje się najtrudniejsze do zrozumienia. AI da odpowiedź na konkretne pytanie - czy na obrazku jest pies czy kot albo jaka prawdopodobnie będzie wartość takiego czy innego wskaźnika za dwa tygodnie (skoro ostatnie pół roku było tak). A oprócz tego wszystkiego - AI/ML wymaga sporo pracy, o czym możecie przeczytać w opracowaniu Machine Learning Operations (MLOps): Overview, Definition, and Architecture.

Bardzo interesujące jest porównanie algorytmów do wykrywania tematów w tekstach. Znany LDA okazuje się być gorszy niż BERTopic. Szczegóły w Is LDA Topic Modeling Dead?

I jeszcze hit na koniec: platforma dla danych danych nowej generacji, oparta na narzędziach open source (Iceberg + Spark + Trino + Dagster), odpalana przez docker-compose up? Dlaczego nie?! Dzisiaj sporo o narzędziach big data, miłej lektury!

#AI_ML

What’s the Difference Between a Metric and a Loss Function?
Czym różni się metryka błędu dla modelu AI/ML od funkcji straty? Czy ta różnica coś znaczy?

Three Ways to Build Machine Learning Models in Keras
model = Sequential(...)

Pewnie znacie to, jeżeli piszecie w Keras? A wiecie, iż to nie jest jedyny sposób zdefiniowania modelu? Są jeszcze (co najmniej) dwa inne, oba dające większe możliwości

Evaluate the Performance Of Deep Learning Models in Keras
Solidny sposób oszacowania wydajności modeli głębokiego uczenia to istotnia sprawa. W tym artykule przedstawiono trzy sposoby na walidację modeli: użycie zestawu danych do weryfikacji automatycznej, użycie zestawu danych do weryfikacji manualnej, oraz ręczną weryfikację krzyżową k-fold

Everything you need to know about ALBERT, RoBERTa, and DistilBERT
Przegląd różnic i podobieństw różnych transformatorów BERT oraz sposobu ich wykorzystania z biblioteki transformatorów Hugging Face

Is LDA Topic Modeling Dead?
LDA jest potężnym narzędziem do rozpoznawania tematów o których jest tekst, ale jego niestabilność jest główną przeszkodą. BERTopic nie cierpi na ten problem niestabilność, zaś z praktycznego punktu widzenia BERTopic jest również łatwiejszy w użyciu, ponieważ nie ma wstępnego przetwarzania tekstu i wymaga znacznie mniej zasobów niż LDA.

#big_data

Od hurtowni danych przez data lake do data lakehouse
Co jest po co, czego potrzebujesz i jakie są ograniczenia?

ngods (new generation open-source data stack)
Platforma dla danych danych nowej generacji, oparta na narzędziach open source (Iceberg + Spark + Trino + Dagster) - krótkie przedstawienie oraz - co ważniejsze - repo z działającym demo

What, exactly, is dbt?
dbt (data build tool) umożliwia analitykom danych i inżynierom przekształcanie danych w ich hurtowniach. Czyli iż konkretnie co to jest?

Getting hands-on with DBT
A skoro już wiemy czym DBT jest - to może przykładowy projekt?

#ciekawostki

Jak udoskonalić projekt-monolit przed migracją na mikroserwisy?
Zanim wykonasz ten krok i zaczniesz przebudowywać wielką, monolityczną aplikację na mikroserwisy, wypada najpierw nieco ją posprzątać i ogarnąć. Artykuł da Ci listę 12 tematów do ogarnięcia na początek

How to use Customer Lifetime Value (LTV) for data-driven transformation
Wskaźnik LTV (jak się okazuje może być zdefiniowany na różne sposoby - przykłady w tekście) powinien być jednym z pierwszych wskaźników w organizacji która chce być data-driven

The Evolution of Media: Visualizing a Data-Driven Future
Media i dostarczanie informacji zmieniają się w coraz szybszym tempie. Oto dlaczego przyszłość będzie bardziej oparta na danych, przejrzysta i weryfikowalna

#python

Discord bots in Python
Jak napisać prostego bota dla Discorda? jeżeli komunikujesz się w zespole dzięki Discorda to może to być przydatne

#r

Relationship Extraction with Spacyr
Spacyr to "opakowanie" na pythonową bibliotekę spaCy - według mnie najbardziej przyjazną (i z najbogatszymi słownikami) do analizy tekstu. Zobaczmy jak jej użyć w praktyce

#wizualizacja_danych

Five Advanced Data Visualizations All Data Scientists Should Know
Jak już opanujemy wykresy słupkowe, punktowe i liniowe to może coś bardziej zaawansowanego, a dającego możliwości interesującego zaprezentowania danych i relacji między nimi?

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału