Newsletter Dane i Analizy, 2022-12-05

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Jak wygląda Mundial na Twitterze?

W kilka dni i adekwatnie w trzy osoby przygotowaliśmy dashboard pozwalający monitorować co się dzieje podczas meczów na Mundialu. Gdzie to zobaczyć? Na mundial.achaja.org (login: robercik, hasło: nicsieniestalo).
A jak to wszystko działa?

Skrypt w Pythonie zbiera dane z Twittera

API Twittera pozwala na podpięcie się pod strumień (dane same spływają, w czasie rzeczywistym, chociaż przy natłoku komunikatów zdarza się choćby 5-minutowy lag) którym przychodzą nowe obiekty - tweety taki obiekt zawiera treść, tagi, informacje o tym w jakim języku napisany został tekst zbieramy więc te wszystkie twitty dla meczu po hashtagu, np. dla meczu Francja-Polska #FRAPOL oraz #POLFRA dodatkowo zbieramy tweety dla hashtagów ogólnych: #WorldCup #WorldCup2022 #FIFAWorldCup #QatarWorldCup2022 #Qatar2022

Przygotowanie i czyszczenie danych

ten sam skrypt z obiektu od Twittera wybiera to co uważamy za interesujące i przydatne do rysowania wykresów: hashtag oznaczający jaki to mecz treść tweeta pole lang mówiące o języku w jakim tweet jest napisany moment publikacji tweeta id autora i jego screen_name lista hashtagów z tweeta lista linków z tweeta po przyjęciu tweeta powinien on być "oczyszczony": usunięte powinny zostać wszystkie emotikony, nicki, hashtagi, urle itd według wartości z pola lang używamy odpowiedniego słownika dla biblioteki spaCy; wybraliśmy kilka podstawowych języków, związanych z tymi którzy mogą się liczyć w rozgrywkach + Polska, czyli: pl, en, de, it, pt, es, fr, nl tym słownikiem można usunąć stopwords i zlematyzować (rzeczowniki sprowadzić do mianownika liczby pojedynczej, czasowniki do bezokoliczników) pozostałe słowa wynikowy obiekt trafia do Elasticsearch

Wizualizacja

Kibana daje "z pudełka" wystarczające narzędzia: zbudowaliśmy więc z jej pomocą odpowiednie wykresy: ile tweetów wpada, w jakich tagach, jakie słowa są najpopularniejsze, jakie adresy URL pojawiają się w treści najczęściej itd Kibana pozwala też na dowolne filtrowanie danych co świetnie się sprawdza przy eksploracji i szukaniu zależności

Turniej trwa dalej, maszyna działa cały czas i monitoruje kolejne mecze. A dla tych, których piłka nie interesuje - paczka interesujących treści z minionego tygodnia.


#analiza_danych_koncepcje

Code An AI to Play a Game
Algorytm planowania, który jest szeroko stosowany w przemyśle (np. w robotyce), może być używany jako punkt odniesienia dla wielu innych, bardziej złożonych algorytmów (np. uczenie się przez wzmacnianie)

Significantly Increase Your Grid-Search Results With These Parameters
Szukanie hyperparametrów do modelu i kilka wskazówek z tym związanych

#analiza_danych_projekty

Real-Time Personalisation of Search Results with Auto Trader’s Customer Data Platform
Klasyfikacja użytkowników w czasie rzeczywistym - na podstawie ich wizyt w serwisie ogłoszeniowym

How to build complete end-to-end ML model
Model ML opakowany w API i testowe narzędzie do jego weryfikacji w Streamlit.

#big_data

Real-Time Analytics Using Kappa Architecture.
Co to Apache Driud?

Data Discovery & Lineage for an Event Streaming Platform
Integracja Apache Atlas z platformą streamingową

4 Key Design Principles and Guarantees of Streaming Database
Przetwarzanie danych w czasie rzeczywistym jest fundamentalnym aspektem prowadzenia nowoczesnych firm zorientowanych na technologię. Klienci chcą szybszych wyników niż kiedykolwiek i odejdą przy najmniejszej okazji do uzyskania szybszych wyników. Dlatego w tej chwili organizacje nieustannie dążą do skrócenia milisekund odpowiedzi

#ciekawostki

Bohemian Rhapsody - But every lyric is an AI generated image
Każdy wers słynnego utworu autorstwa zespołu Queen został zwizualizowany przez aplikację Midjourney. Przyjemnie ogląda się, jak sztuczna inteligencja wyobraża sobie niektóre wizje i słowa.

Counting unique visitors without using cookies, UIDs or fingerprinting
Zbudowanie usługi analityki internetowej bez plików cookie stanowi trudny problem: jak odróżnić unikalnych użytkowników?

#kafka

Architecting a Kafka-centric Retail Analytics Platform
Kafka to nie tylko "rura" ale też możliwa analityka w czasie rzeczywistym

#management

What’s Next for Data Engineering in 2023? 7 Predictions
Co czeka w przyszłości inżynierów danych?

Burnout in Data Professionals
Data scientiści, analitycy i inżynierowie danych - to osoby zwykle interesujące świata. Ale czy można być wiecznie ciekawym? Może kiedyś przychodzi wypalenie?

#python

9 Fabulous Python Tricks That Make Your Code More Elegant
Pythonic to synonim dla "elegancki". Kilka porad, jak pisać bardziej elegancki kod

Graphs with Python: Overview and Best Libraries
Wszystko czego potrzebujesz na temat grafów w Pythonie

How to Easily Get Football Data with a Python Package
Mundial jeszcze trwa, więc jeszcze coś w temacie piłki nożnej - pakiet ułatwiający pobieranie danych o meczach

#r

How to make a plot with two different y-axis?
Excel to podstawa w wielu firmach. Jak jest Excel to są też wykresy z dwoma osiami pionowymi. Jak to zrobić w R?

Infinite Scrolling in R Shiny
Przewijasz stronę i pojawiają się nowe dane - jak to zrobić w Shiny?

#ux

Positioning notification messages with accessibility in mind
Przeważnie, powiadomienia o sukcesie bądź błędzie, pojawiają się u góry ekranu, a niekiedy w dolnej jego części. Zapominamy jednak, iż takie pozycjonowanie powiadomień może uniemożliwić ich przeczytanie np. użytkownikom używającym telefonów z małym ekranem lub osobom niepełnosprawnym, widzącym np. na dużym powiększeniu tylko fragment aplikacji. Jak więc to zrobić lepiej?

#wizualizacja_danych

7 Visualizations with Python to Express Changes in Rank over Time
Kojarzycie prawdopodobnie "wyścig słupków" na animacjach pokazujących zmianę w czasie jakichś parametrów dla różnych kategorii? Największe miasta w historii, najpopularniejsze serwisy internetowe itd itp. Dzisiaj tekst o tym jak coś podobnego (i nie tylko w postaci "wyścigu słupków") zrobić w Pythonie ze wsparciem Plotly

How I turned a cheap weather station into a personal DevOps dashboard
Więcej tutaj technologii niż wizualizacji danych, ale sposób prezentacji danych podobowych bardzo ciekawy


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału