Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
W pierwszym pełnym tygodniu nowego roku wracamy ze standardowym zestawem materiałów.
Jest więc coś o uczenia maszynowego (dobry jest tekst o YOLOv5, przede wszystkim pokazujący iż nie tylko TensorFlow obowiązuje w domenie deep learning), sporo ciekawostek ocierających się o NLP i analizę tekstu. Jest gotowy przepis na pobieranie danych z Kafki i zapisywanie w Mongo.
Na koniec zapraszam na CuValley Hack! To trzecia edycja hackathonu organizowanego przez KGHM w ramach programu Dolina Miedziowa. To przyznam szczerze spełnienie mojej idei hackathonu: dane wprost z przemysłu i konkretne problemy (zobacz na stronie jakie są zadania) do rozwiązania.
Impreza odbędzie się online 27-29 stycznia tego roku, Dane i Analizy to patron społecznościowy.
Co Was czeka? 3 zadania, w których do wygrania wysokie nagrody pieniężne 40 godzin kodowania i networking na kanale Slack tysiące dostępnych danych webinary, Keynote Speakerzy, porządna dawka wiedzy i inspiracji
Łączna pula nagród podczas CuValleyHack wynosi 120 000 PLN! Szczegóły i darmowa rejestracja na stronie www.cuvalley.com
#analiza_danych_koncepcje
Natural Language Processing with spaCy
Nieco więcej niż prosty tutorial pokazujący krok po kroku jak korzystać z biblioteki spaCy do zadań analizy tekstu w Pythonie
Analyze Your Website with NLP and Knowledge Graphs
Tworzenie "grafu wiedzy" zgromadzonej na stronie internetowej - kilka technik analizy tekstu, odpowiednie budowanie grafu i późniejsza jego analiza
ROC Analysis and the AUC
Analiza krzywej charakterystyki operacyjnej odbiornika (ROC) i obszaru pod krzywą (AUC) to narzędzia szeroko stosowane w Data Science, zapożyczone z przetwarzania sygnału, do oceny jakości modelu przy różnych parametryzacjach lub porównania wydajności dwóch lub więcej modeli. O co w nich chodzi?
How Shapley Values Work
Jak działają wartości Shapley’a i jak rozumieć je w kontekście ważności cech w modelu?
#analiza_danych_projekty
Customer Classification - RFM
Analiza przeprowadzona na danych sprzedaży detalicznej online, które zawierają transakcje klientów międzynarodowego sklepu z siedzibą w Wielkiej Brytanii. Sklep zajmuje się głównie upominkami, a klientami są głównie hurtownicy, stąd duże zakupy. Analiza oparta jest o czynniki RFM (Recency, Frequency, Monetary) i prowadzi do segmentacji klientów. Świetny materiał uczący!
#big_data
How to track tweets about movies with Apache Airflow
Pamiętacie projekt Mundial ze zbieraniem twittów i pokazywaniem ich w stosie ELK? Tutaj opis z wykorzystaniem Airflow (kod na GitHubie autora), a więc batchowo
Simple Data Pipeline Kafka-2-MognoDB
Tutaj z kolei najprostszy przykład zbierania danych z Apache Kafka do MongoDB. Są do tego gotowe konektory, ale można też napisać kilka linijek kodu w Pythonie. Prawdę mówiąc "Projekt Mundial" w pierwszej wersji wyglądał bardzo podobnie w jednym ze swoich kawałków!
Operational Use case Patterns for Apache Kafka and Flink
Pierwszy post z serii, który pokazuje budowanie operacyjnych wzorców z Kafką i Flinkiem. Wzorzec 1: CQRS/widoki zoptymalizowane pod kątem odczytu, wzorzec 2: asynchroniczna odpowiedź na zadanie, wzorzec 3: ogranicznik szybkości na backendzie
Designing Event-Driven Systems
Autor książki (do pobrania po zostawieniu kilku danych) wyjaśnia, w jaki sposób architektura sterowana zdarzeniami i narzędzia do przetwarzania strumieniowego (na przykładzie Apache Kafka) mogą pomóc w budowaniu nowoczesnych systemów, które usprawniają przetwarzanie danych w czasie rzeczywistym
#ciekawostki
Should software teams start learning from analytics engineers?
Powszechny jest pogląd, iż zespoły analizujące dane uczą się programowania od zespołów stricte developerskich. A w tym tekście mamy odwrócenie tego spojrzenia - czy słuszne?
WhatsMyName Web
Świetne narzędzie do wyszukiwania kont na podstawie loginu. Podajesz login poszukiwanej osoby, a aplikacja sprawdza jego istnienie na ponad 500 (!) portalach. Przydaje się przy śledztwach OSINT-owych
#management
Priorytetyzacja i estymacja zadań
W artykule opisano doświadczenia z priorytetyzacją i estymacją zadań, które pozwalają pracować lepiej i efektywniej
Onboarding to a data science team
Zaczynasz pracę w zespole danologów? Przygotuj się do pierwszych dni tak, aby jak najłatwiej wejść w środowisko i jak najwięcej wynieść dla siebie
#python
How to write code like a Senior Data Engineer
Podaj pierwszą wartość z tablicy nie będącą NULLem. Proste, ale jak zrobić, żeby było najszybsze?
#r
Quick and Easy Steps to Beautify R Markdown
Jak ładnie pokazać tabelki w raporcie wygenerowanym przez R Markdown?
MLOps: The Whole Game
Cała ta zabawa w MLOps bardzo często była poruszana w newsletterze czy na fanpage’u od strony Pythona. Ale przecież modele powstają też w języku R, i w nim są utrzymywane
2022 Government & Public Sector R Conference
Materiały (video) z konferencji o języku R w sektorze publicznym
#spark
First Steps in Machine Learning with Apache Spark
Machine Learning to nie tylko omawiany wyżej XGBoost czy standardowy scikit-learn w Pythonie (albo seria podobnych bibliotek w R) albo TensorFlow czy PyTorch. To też MLib w Sparku.
#sql
Window Functions in PostgreSQL
Pigułka wiedzy o funkcjach "okienkowych" w SQLu. Niby działają na grupach, a jednak to nie jest to samo co użycie GROUP BY.
#ux
A Checklist for Login Page Testing
Co powinno się znaleźć na ekranie logowania? Checklista dla projektantów takich stron
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)