Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Jak wygląda Mundial na Twitterze?
W kilka dni i adekwatnie w trzy osoby przygotowaliśmy dashboard pozwalający monitorować co się dzieje podczas meczów na Mundialu. Gdzie to zobaczyć? Na mundial.achaja.org (login: robercik, hasło: nicsieniestalo).
A jak to wszystko działa?
Skrypt w Pythonie zbiera dane z Twittera
API Twittera pozwala na podpięcie się pod strumień (dane same spływają, w czasie rzeczywistym, chociaż przy natłoku komunikatów zdarza się choćby 5-minutowy lag) którym przychodzą nowe obiekty - tweety taki obiekt zawiera treść, tagi, informacje o tym w jakim języku napisany został tekst zbieramy więc te wszystkie twitty dla meczu po hashtagu, np. dla meczu Francja-Polska #FRAPOL oraz #POLFRA dodatkowo zbieramy tweety dla hashtagów ogólnych: #WorldCup #WorldCup2022 #FIFAWorldCup #QatarWorldCup2022 #Qatar2022
Przygotowanie i czyszczenie danych
ten sam skrypt z obiektu od Twittera wybiera to co uważamy za interesujące i przydatne do rysowania wykresów: hashtag oznaczający jaki to mecz treść tweeta pole lang mówiące o języku w jakim tweet jest napisany moment publikacji tweeta id autora i jego screen_name lista hashtagów z tweeta lista linków z tweeta po przyjęciu tweeta powinien on być "oczyszczony": usunięte powinny zostać wszystkie emotikony, nicki, hashtagi, urle itd według wartości z pola lang używamy odpowiedniego słownika dla biblioteki spaCy; wybraliśmy kilka podstawowych języków, związanych z tymi którzy mogą się liczyć w rozgrywkach + Polska, czyli: pl, en, de, it, pt, es, fr, nl tym słownikiem można usunąć stopwords i zlematyzować (rzeczowniki sprowadzić do mianownika liczby pojedynczej, czasowniki do bezokoliczników) pozostałe słowa wynikowy obiekt trafia do Elasticsearch
Wizualizacja
Kibana daje "z pudełka" wystarczające narzędzia: zbudowaliśmy więc z jej pomocą odpowiednie wykresy: ile tweetów wpada, w jakich tagach, jakie słowa są najpopularniejsze, jakie adresy URL pojawiają się w treści najczęściej itd Kibana pozwala też na dowolne filtrowanie danych co świetnie się sprawdza przy eksploracji i szukaniu zależności
Turniej trwa dalej, maszyna działa cały czas i monitoruje kolejne mecze. A dla tych, których piłka nie interesuje - paczka interesujących treści z minionego tygodnia.
#analiza_danych_koncepcje
Code An AI to Play a Game
Algorytm planowania, który jest szeroko stosowany w przemyśle (np. w robotyce), może być używany jako punkt odniesienia dla wielu innych, bardziej złożonych algorytmów (np. uczenie się przez wzmacnianie)
Significantly Increase Your Grid-Search Results With These Parameters
Szukanie hyperparametrów do modelu i kilka wskazówek z tym związanych
#analiza_danych_projekty
Real-Time Personalisation of Search Results with Auto Trader’s Customer Data Platform
Klasyfikacja użytkowników w czasie rzeczywistym - na podstawie ich wizyt w serwisie ogłoszeniowym
How to build complete end-to-end ML model
Model ML opakowany w API i testowe narzędzie do jego weryfikacji w Streamlit.
#big_data
Real-Time Analytics Using Kappa Architecture.
Co to Apache Driud?
Data Discovery & Lineage for an Event Streaming Platform
Integracja Apache Atlas z platformą streamingową
4 Key Design Principles and Guarantees of Streaming Database
Przetwarzanie danych w czasie rzeczywistym jest fundamentalnym aspektem prowadzenia nowoczesnych firm zorientowanych na technologię. Klienci chcą szybszych wyników niż kiedykolwiek i odejdą przy najmniejszej okazji do uzyskania szybszych wyników. Dlatego w tej chwili organizacje nieustannie dążą do skrócenia milisekund odpowiedzi
#ciekawostki
Bohemian Rhapsody - But every lyric is an AI generated image
Każdy wers słynnego utworu autorstwa zespołu Queen został zwizualizowany przez aplikację Midjourney. Przyjemnie ogląda się, jak sztuczna inteligencja wyobraża sobie niektóre wizje i słowa.
Counting unique visitors without using cookies, UIDs or fingerprinting
Zbudowanie usługi analityki internetowej bez plików cookie stanowi trudny problem: jak odróżnić unikalnych użytkowników?
#kafka
Architecting a Kafka-centric Retail Analytics Platform
Kafka to nie tylko "rura" ale też możliwa analityka w czasie rzeczywistym
#management
What’s Next for Data Engineering in 2023? 7 Predictions
Co czeka w przyszłości inżynierów danych?
Burnout in Data Professionals
Data scientiści, analitycy i inżynierowie danych - to osoby zwykle interesujące świata. Ale czy można być wiecznie ciekawym? Może kiedyś przychodzi wypalenie?
#python
9 Fabulous Python Tricks That Make Your Code More Elegant
Pythonic to synonim dla "elegancki". Kilka porad, jak pisać bardziej elegancki kod
Graphs with Python: Overview and Best Libraries
Wszystko czego potrzebujesz na temat grafów w Pythonie
How to Easily Get Football Data with a Python Package
Mundial jeszcze trwa, więc jeszcze coś w temacie piłki nożnej - pakiet ułatwiający pobieranie danych o meczach
#r
How to make a plot with two different y-axis?
Excel to podstawa w wielu firmach. Jak jest Excel to są też wykresy z dwoma osiami pionowymi. Jak to zrobić w R?
Infinite Scrolling in R Shiny
Przewijasz stronę i pojawiają się nowe dane - jak to zrobić w Shiny?
#ux
Positioning notification messages with accessibility in mind
Przeważnie, powiadomienia o sukcesie bądź błędzie, pojawiają się u góry ekranu, a niekiedy w dolnej jego części. Zapominamy jednak, iż takie pozycjonowanie powiadomień może uniemożliwić ich przeczytanie np. użytkownikom używającym telefonów z małym ekranem lub osobom niepełnosprawnym, widzącym np. na dużym powiększeniu tylko fragment aplikacji. Jak więc to zrobić lepiej?
#wizualizacja_danych
7 Visualizations with Python to Express Changes in Rank over Time
Kojarzycie prawdopodobnie "wyścig słupków" na animacjach pokazujących zmianę w czasie jakichś parametrów dla różnych kategorii? Największe miasta w historii, najpopularniejsze serwisy internetowe itd itp. Dzisiaj tekst o tym jak coś podobnego (i nie tylko w postaci "wyścigu słupków") zrobić w Pythonie ze wsparciem Plotly
How I turned a cheap weather station into a personal DevOps dashboard
Więcej tutaj technologii niż wizualizacji danych, ale sposób prezentacji danych podobowych bardzo ciekawy
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)