Newsletter Dane i Analizy, 2024-03-04

blog.prokulski.science 8 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W tym tygodniu cała masa materiału związanego z prezentacją danych - jak je pokazać efektywnie, czytelnie i przy okazji jak to się robi w kodzie? Czytaj po kolei, a to mięsko w ostatniej sekcji.

Ponieważ głównym założeniem tego newslettera jest dzielenie się wiedzą - dzisiaj również coś o rozwoju kariery. Jak z juniora zostać seniorem? I co to oznacza być seniorem (w oczach juniora, ale też w rzeczywistości).

Na koniec dzisiejszych polecajek: kilka tekstów o milionach. Milionach gwałtownie generowanych PDFów, milionach requestów do API i milionach wierszy w plikach CSV. Jak to optymalizować, żeby się gwałtownie działo?

W przyszłym tygodniu razem z Tomkiem (pewnie kojarzycie go z naszego podcastu Silni w IT o technologiach - YouTube / Spotify (niech Was nie zmyli nazwa kanału)) będziemy opowiadać o tym jak wpleść mniej lub bardziej złożone rozwiązania machine learning i sztuczną inteligencję w architekturę różnych systemów. Kilka przykładów istniejących, kilka pomysłów, a wszystko w myśl "na skróty", tak aby wiele się nie narobić, a coś zyskać biznesowo.

Konferencja Analityk / Architekt JUTRA jest bezpłatna (wystarczy się zarejestrować) i odbędzie się 13 marca, online.


#analiza_danych_koncepcje

Time Series Analysis Guide
Wszystko czego potrzebujesz na początek do analizy i przewidywania szeregów czasowych (w wersji podstawowej, opartej o modele ARIMA).

#architektura

Top 10 Microservices Anti-Patterns
Niby mikroserwisy, ale źle ze sobą poskładane - kilka przykładów jak nie robić

#bazy_danych

Top 20 SQL query optimization techniques
Jeden wpis na Twitterze, a wielka porcja wiedzy - 20 wskazówek dotyczących pisania szybkich zapytań SQL

#big_data

Building a Data Platform in 2024
Jak zbudować nowoczesną, skalowalną platformę danych, która usprawni Twoje projekty analityczne i związane z analizą danych (wersja dla 2024 roku)

#ciekawostki

Windows in a Docker container
Zgodnie z tytułem - Windows działający w kontenerze Dockera. Można się podłączyć do pulpitu via RDP albo na porcie 8006 z przeglądarki.

1.5+ million PDFs in 25 minutes
Pewna firma musi ze względów regulacyjnych generować olbrzymie ilości PDFów. Na przykład 1.5 miliona. Robią to w 25 minut. Zobacz jak ;-) ach, jeszcze te PDFy podpisują cyfrowo i wysyłają mailem.

#devops

13 Advanced Ways to Optimize Kubernetes Cluster Autoscaler
Siłą Kubernetesa jest automatyczne skalowania liczby potrzebnych podów w zależności od panujących warunków. Zobacz jak można zdefiniować reguły autoskalowania

13 Kubernetes Tricks You Didn’t Know
Kilkanaście sztuczek (albo cech Kubernetesa), o których być może nie wiedzieliście. Tekst świetnie współgra z tym powyżej.

#kafka

Building a Streamlined Data Pipeline
Zapisywanie komunikatów z Kafki do kolekcji w MongoDB... ale najcenniejsze w tym tekście jest wykorzystanie Kafki razem ze Schema Registry z poziomu Pythona

#llm_&_chatgpt

From Model Ranking to Model Routing
Ciekawe badanie modeli LLM - wynik którego z nich jest chętniej wybierany? Czy to oznacza, iż dany model jest lepszy czy tylko zwraca bardziej odpowiednie (dla człowieka) wyniki?

#management

Guide to leading meetings as a software engineer
Wszyscy mówią, iż nie lubią długich spotkań, a w świecie IT spotkanie bywa wręcz czymś na kształt kary. Jak - z punktu widzenia inżyniera - powinny wyglądać spotkania (i czas przed nimi)? PMowie, prośba o dokładne przeczytanie i stosowanie się!

Falsehoods Junior Developers believe about becoming Senior
Co juniorzy myślą o seniorach i jak to jest w rzeczywistości?

Going from Junior - Senior engineer in 2 years
Od juniora do seniora w dwa lata - świetna lista spisana przez Autora, który przeszedł taką drogę i dzieli się spostrzeżeniami. Być może jego porady pomogą Tobie w samorozwoju?

#programowanie_ogólnie

What we learned in 6 months of working on a CodeGen dev tool GPT Pilot
Jak pracuje się z copilotem podczas pisania kodu? Autor dzieli się doświadczeniami po pół roku takiej pracy z GPT Pilotem (to nie to samo co GitHube Copilot)

How fast can we process a CSV file
Milion (znowu :)) wierszy w CSV, każdy z nich ma 8 liczb. Chcemy policzyć pierwiastek sumy kwadratów każdego z wierszy. Kto poradzi sobie najszybciej?

#python

Asyncio Patterns in Python
Milion zapytań trwających jedną sekundę to ponad półtora tygodnia ciągłej pracy. A gdyby to robić asynchronicznie? Już pierwsza wersja skraca czas do pół minuty (!)

Multi-module Logging in Python
Jak przygotować w Pythonie logowanie z wielu modułów na raz?

Python Error Handling: Return instead of Raise
Zwracanie (return) błędu zamiast podnoszenie (raise) wyjątku - jest to jakaś koncepcja...

How to Parse XML Data
Dane zapisane w XMLu to już nieco zamierzchłe czasy, ale wiele istniejących usług ciągle używa XMLa jako formatu wymiany informacji. Jak takiego XMLa przeczytać i wydobyć z niego potrzebne informacje?

Python Decorators: Junior vs. Intermediate vs. Senior vs. Expert
O dekoratorach w Pythonie po raz kolejny - tym razem w podejściu od najprostszego do najtrudniejszego budowania własnych

30 Cool Python Generator Tricks For Better Code With Examples
Było o dekoratorach to będzie też o generatorach. Sporo przydatnych przykładów, które uczą czym są generatory i jakie mają możliwości oraz do czego je można wykorzystać.

#r

ggplot2 v3.5.0
Najlepszą biblioteką do przygotowywania wykresów w R jests ggplot2. Co nowego daje wersja 3.5.0?

#wizualizacja_danych

Plot(ly)ing GeoData From DuckDB
Ciekawe połączenie: w pythonowym kodzie korzystamy z DuckDB do przetwarzania danych geo, wyniki pokazujemy przy użyciu Plotly.

How to Plot Heatmaps in Seaborn?
Heatmapy świetnie nadają się na przykład do pokazania w jakich godzinach w poszczególnych dniach tygodnia mamy do czynienia z wzmożonym występowaniem badanego zjawiska. Tutaj nie o dniach tygodnia, ale o tym jak zrobić heatmapę w Pythonie z użyciem pakietu Seaborn

10 Advanced Plots for Effective Data Visualization with Matplotlib
Oprócz heatmap jest wiele innych typów wykresów, które też w Pythonie można przygotować. Kilka z nich to rzadko spotykane, ale przydatne typy

Professionally Visualize Data Distributions
Siedem metod na pokazanie rozkładu danych. Bo rozkład jest ważny.

Playbook for Attention-Grabbing Visuals
Jak sprawić, aby wykresy zawierały maksimum informacji jednocześnie przy minimalnym rozpraszaniu widza?


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału