Newsletter Dane i Analizy, 2023-01-09

blog.prokulski.science 3 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W pierwszym pełnym tygodniu nowego roku wracamy ze standardowym zestawem materiałów.

Jest więc coś o uczenia maszynowego (dobry jest tekst o YOLOv5, przede wszystkim pokazujący iż nie tylko TensorFlow obowiązuje w domenie deep learning), sporo ciekawostek ocierających się o NLP i analizę tekstu. Jest gotowy przepis na pobieranie danych z Kafki i zapisywanie w Mongo.

Na koniec zapraszam na CuValley Hack! To trzecia edycja hackathonu organizowanego przez KGHM w ramach programu Dolina Miedziowa. To przyznam szczerze spełnienie mojej idei hackathonu: dane wprost z przemysłu i konkretne problemy (zobacz na stronie jakie są zadania) do rozwiązania.

Impreza odbędzie się online 27-29 stycznia tego roku, Dane i Analizy to patron społecznościowy.

Co Was czeka? 3 zadania, w których do wygrania wysokie nagrody pieniężne 40 godzin kodowania i networking na kanale Slack tysiące dostępnych danych webinary, Keynote Speakerzy, porządna dawka wiedzy i inspiracji

Łączna pula nagród podczas CuValleyHack wynosi 120 000 PLN! Szczegóły i darmowa rejestracja na stronie www.cuvalley.com

#analiza_danych_koncepcje

Natural Language Processing with spaCy
Nieco więcej niż prosty tutorial pokazujący krok po kroku jak korzystać z biblioteki spaCy do zadań analizy tekstu w Pythonie

Analyze Your Website with NLP and Knowledge Graphs
Tworzenie "grafu wiedzy" zgromadzonej na stronie internetowej - kilka technik analizy tekstu, odpowiednie budowanie grafu i późniejsza jego analiza

ROC Analysis and the AUC
Analiza krzywej charakterystyki operacyjnej odbiornika (ROC) i obszaru pod krzywą (AUC) to narzędzia szeroko stosowane w Data Science, zapożyczone z przetwarzania sygnału, do oceny jakości modelu przy różnych parametryzacjach lub porównania wydajności dwóch lub więcej modeli. O co w nich chodzi?

How Shapley Values Work
Jak działają wartości Shapley’a i jak rozumieć je w kontekście ważności cech w modelu?

#analiza_danych_projekty

Customer Classification - RFM
Analiza przeprowadzona na danych sprzedaży detalicznej online, które zawierają transakcje klientów międzynarodowego sklepu z siedzibą w Wielkiej Brytanii. Sklep zajmuje się głównie upominkami, a klientami są głównie hurtownicy, stąd duże zakupy. Analiza oparta jest o czynniki RFM (Recency, Frequency, Monetary) i prowadzi do segmentacji klientów. Świetny materiał uczący!

#big_data

How to track tweets about movies with Apache Airflow
Pamiętacie projekt Mundial ze zbieraniem twittów i pokazywaniem ich w stosie ELK? Tutaj opis z wykorzystaniem Airflow (kod na GitHubie autora), a więc batchowo

Simple Data Pipeline Kafka-2-MognoDB
Tutaj z kolei najprostszy przykład zbierania danych z Apache Kafka do MongoDB. Są do tego gotowe konektory, ale można też napisać kilka linijek kodu w Pythonie. Prawdę mówiąc "Projekt Mundial" w pierwszej wersji wyglądał bardzo podobnie w jednym ze swoich kawałków!

Operational Use case Patterns for Apache Kafka and Flink
Pierwszy post z serii, który pokazuje budowanie operacyjnych wzorców z Kafką i Flinkiem. Wzorzec 1: CQRS/widoki zoptymalizowane pod kątem odczytu, wzorzec 2: asynchroniczna odpowiedź na zadanie, wzorzec 3: ogranicznik szybkości na backendzie

Designing Event-Driven Systems
Autor książki (do pobrania po zostawieniu kilku danych) wyjaśnia, w jaki sposób architektura sterowana zdarzeniami i narzędzia do przetwarzania strumieniowego (na przykładzie Apache Kafka) mogą pomóc w budowaniu nowoczesnych systemów, które usprawniają przetwarzanie danych w czasie rzeczywistym

#ciekawostki

Should software teams start learning from analytics engineers?
Powszechny jest pogląd, iż zespoły analizujące dane uczą się programowania od zespołów stricte developerskich. A w tym tekście mamy odwrócenie tego spojrzenia - czy słuszne?

WhatsMyName Web
Świetne narzędzie do wyszukiwania kont na podstawie loginu. Podajesz login poszukiwanej osoby, a aplikacja sprawdza jego istnienie na ponad 500 (!) portalach. Przydaje się przy śledztwach OSINT-owych

#management

Priorytetyzacja i estymacja zadań
W artykule opisano doświadczenia z priorytetyzacją i estymacją zadań, które pozwalają pracować lepiej i efektywniej

Onboarding to a data science team
Zaczynasz pracę w zespole danologów? Przygotuj się do pierwszych dni tak, aby jak najłatwiej wejść w środowisko i jak najwięcej wynieść dla siebie

#python

How to write code like a Senior Data Engineer
Podaj pierwszą wartość z tablicy nie będącą NULLem. Proste, ale jak zrobić, żeby było najszybsze?

#r

Quick and Easy Steps to Beautify R Markdown
Jak ładnie pokazać tabelki w raporcie wygenerowanym przez R Markdown?

MLOps: The Whole Game
Cała ta zabawa w MLOps bardzo często była poruszana w newsletterze czy na fanpage’u od strony Pythona. Ale przecież modele powstają też w języku R, i w nim są utrzymywane

2022 Government & Public Sector R Conference
Materiały (video) z konferencji o języku R w sektorze publicznym

#spark

First Steps in Machine Learning with Apache Spark
Machine Learning to nie tylko omawiany wyżej XGBoost czy standardowy scikit-learn w Pythonie (albo seria podobnych bibliotek w R) albo TensorFlow czy PyTorch. To też MLib w Sparku.

#sql

Window Functions in PostgreSQL
Pigułka wiedzy o funkcjach "okienkowych" w SQLu. Niby działają na grupach, a jednak to nie jest to samo co użycie GROUP BY.