Newsletter Dane i Analizy, 2022-09-26

blog.prokulski.science 3 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Wracamy do rysowania wykresów, pobierania danych ze stron internetowych oraz robienia dashboardów (i raportów w Wordzie). To dzisiejsze główne punkty zainteresowań. Ale dla fanów rozwiązań big data też coś się znajdzie.

#analiza_danych_projekty

Automate your music collection
Znudziły Ci się playlisty Spofity? Ciągle słuchasz "ulubionych"? Być może Ci to odpowiada. Ale jeżeli lubisz odkrywać nową muzykę to możesz czuć się jak w bańce. Albo wykorzystać historię odtwarzanych utworów oraz API serwisu Last.fm żeby poznać coś nowego

Automated Supply Chain Control Tower with Python
Kontrolowanie gdzie jest przesyłka (każda z nich) i ile realizowane są poszczególne etapy to chyba jedne z najważniejszych zadań w logistyce. Odrobina Pythona (i pomysł jak zbierać i układać dane) może pomóc

#bazy_danych

11 stories about Let’s Explore Postgres
Ta lista została stworzona, aby lepiej zapoznać się z bazą danych PostgreSQL. Każdy artykuł na tej liście z pewnością da Ci kilka wskazówek i drogi do szukania dalszej wiedzy.

Postgres JSONb meets MongoDB
Jest sobie baza MongoDB która w uproszczeniu umie przechować zagnieżdżone struktury (typu json). Ale PostgreSQL też potrafi. Jakie są zatem różnice i podobieństwa?

#big_data

Big Data: Which architecture to choose? Comparison?
Big Data jako worek narzędzi i zadań też ma swoją architekturę (nie zależnie od samych narzędzi). Czym one się różnią?

Real-time analytics on network flow data with Apache Pinot
LinkedIn to tysiące serwisów obsługujących miliony zapytań na sekundę. W tej skali posiadanie narzędzi zapewniających możliwość obserwacji tego co dzieje się w infrastrukturze LinkedIn jest niezbędne, aby zapewnić szybkie wykrywanie, diagnozowanie i usuwanie problemów. Trzeba zbierać różne dane, takie jak metryki, zdarzenia, logi i przepływy. Po zebraniu punkty danych można następnie przetwarzać i udostępniać w czasie rzeczywistym inżynierom do wykorzystania w celu ostrzegania, rozwiązywania problemów, planowania wydajności i innych operacji. I między innymi do tego jest Apache Pinot

Elasticsearch introduction NLP
Kiedy używać (i kiedy nie warto) Elasticsearch do zadań związanych z przetwarzaniem tekstu?

5 Snowflake Query Tricks You Aren’t Using but Should Be
Snowflake jest super, ale każde zapytanie kosztuje (jak w to w chmurze). Warto znać kilka sztuczek pozwalających zaoszczędzić pieniądze i czasem też czas

#ciekawostki

Top 30 System Design Interview Questions and Problems for Programmers and Software Engineers
Jak zaprojektowałbyś crawlera webowego? Jakiej metody użyłbyś przy projektowaniu maszyny vendingowej? Jakie problemy napotkasz przy implementacji systemu sprzedającego bilety na koncerty? To nie tylko zbiór pytań, ale i odpowiedzi na nie (i często linków do dodatkowych materiałów). choćby jeżeli nie szukasz pracy i nie jesteś projektantem takich systemów, to i tak warto rozszerzyć swoją wiedzę

#devops

How To Monitor Your Machine With One Spectacular CLI Tool
Znacie prawdopodobnie linuksowy "htop"? To "btop" pokazuje więcej i ładniej. Jest też wersja dla Windows (trzeba się doklikać - link na GitHubie projektu)

#kafka

Stream processing and data analysis with ksqlDB
Wyciągnij odpowiedzi z danych dzięki ETL na strumieniu - pełny samouczek z wykorzystaniem prawdziwego zestawu danych

#programowanie_ogólnie

Build a NoSQL Database From The Scratch in 1000 Lines of Code
Można użyć gotowej bazy typu NoSQL albo napisać sobie samodzielnie własny silnik. Na przykład w języku Go. Ale nie język jest przyczyną dla którego ten tekst się dzisiaj pojawa w newsletterze a sam pomysł

What is Database Caching?
Cache ‘z boku’, cache typu ‘read/write-through’ oraz ‘write-back/behind’. Czym są podejścia i które z nich warto zaimplementować w swojej aplikacji? Krótki artykuł pokazujący zalety i wady każdego z nich

#python

EDA in a single line of code
EDA (Exploratory Data Analysis) w jednej linii kodu?

Web Scraping 101
Jak pobierać dane ze stron internetowych? Obszerny tekst pokazujący i omawiający kilka sposobów - dobre wprowadzenie

Karty Data Science - 15% rabatu!
RELKAMA | Karty Data Science to zestaw, który pozwoli Ci uporządkować wiedzę z zakresu data science na przykład przed rozmową rekrutacyjną albo egzaminem. jeżeli zaś zaczynasz swoją drogę w świat machine learning i AI to wskażą podstawowe kierunki.
A kod "DANEIANALIZY" daje 15% rabatu

Building a dashboard in Plotly Dash
Dawno nie było o dashboardach budowanych w Dash - zatem jedna z przykładowych

Building a dashboard to track data science buzzwords
A tutaj druga

How to Implement Pagination Using FastAPI in Python
Jeśli Twoje API napisane w FastAPI ma zwracać "stronicowane" wyniki to możesz użyć biblioteki fastapi-pagination i tutaj znajdziesz przykład zastosowania. Można też odpowiednio SQLe napisać ;-)

#r

How to Work With Bootstrap Themes in Shiny
Aplikacje R Shiny domyślnie wyglądają trochę nudno. Poprawienie efektów wizualnych nie wymaga wiele. Dowiedz się, jak dodawać motywy Bootstrap dzięki biblioteki bslib.

Optimizing my search for Data scientist jobs by scraping Indeed with R
Było wyżej wprowadzenie do web scrappingu w Pythonie to jest i w R, dodatkowo z analizą zgromadzonych danych. A dane te to ogłoszenia o pracę dla data scientistów

Word Up
Kilka cennych wskazówek dla tych którzy przygotowują raporty w Wordzie dzięki RMarkdown i pakietu Officer

#wizualizacja_danych

Visualizing Heatmaps in Seaborn
Zgodnie z tytułem - jak przygotować wykres typu mapa cieplna (heatmap) przy użyciu pythonowego pakietu Seaborn? Dla początkujących

Dreaming of Data
Interesujący tekst pokazujący drogę poprzez projektowanie wizualizacji danych. interesujące i inspirujące

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału