Newsletter Dane i Analizy, 2025-03-03

blog.prokulski.science 1 miesiąc temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Kto, w podziale na grupy zawodowe, używa najwięcej AI? interesująca wizualizacja na ten temat, oparta na zapytaniach do Claude. Spoiler: 37.2% zapytań dotyczy komputerów i matematyki (w tym rozwoju oprogramowania), co raczej nie dziwi.

Zastanawiałeś się kiedyś nad przejściem z SQL na NoSQL? Artykuł "I Dropped SQL for NoSQL" opisuje, jak taka zmiana wpłynęła na wydajność aplikacji, obsługując pięciokrotnie większy ruch i dziesięciokrotnie szybsze zapytania. jeżeli jednak wolisz pozostać przy SQL, "3 Foundational Principles for Writing Efficient SQL" przypomina o podstawowych zasadach, które pomogą Ci pisać wydajne i czytelne zapytania.

Jeśli pracujesz z dużymi zbiorami danych, z pewnością zainteresuje Cię artykuł "The Best Way to Use Text Embeddings Portably is With Parquet and Polars". Autor przedstawia alternatywę dla pełnowymiarowych wektorowych baz danych, sugerując wykorzystanie plików Parquet i biblioteki Polars. A gdyby tak porozmawiać z Airflow po ludzku? W "Talk to Airflow" znajdziesz przykład budowy agenta AI, który współdziała z Apache Airflow przy użyciu zapytań w języku naturalnym, wykorzystując PydanticAI i Gemini 2.0.

Dla tych, którzy chcą podszkolić swoje umiejętności w wizualizacji danych, polecam "What We Can Learn From The Economist About Data Visualization". Artykuł analizuje, jak Economist prezentuje dane w sposób przejrzysty i zrozumiały.

Zastanawiasz się, jak usprawnić debugowanie? Artykuł "How to debug code with GitHub Copilot" pokaże Ci, jak wykorzystać tego asystenta AI w swoim workflow.

W zeszłym tygodniu najchętniej czytaliście:

Hypermodern Python Toolbox 2025 User Story to wymaganie biznesowe, to opis problemu do rozwiązania, a nie funkcjonalność do implementacji! Context-switching is the main productivity killer for developers


#ai_ml

20 Important Statistical Approaches Every Data Scientist Knows
zaawansowanych podejść statystycznych , z którymi powinien zapoznać się każdy naukowiec zajmujący się danymi. Każde podejście zawiera krótkie wyjaśnienie, przykładowy przypadek użycia i fragment kodu Pythona ilustrujący jego zastosowanie.

Introduction to CUDA Programming for Python Developers
Wprowadzenie do programowania CUDA dla programistów Pythona... chociaż więcej tam C/C++ niż Pythona.

#architektura

Deep Dive into WebSockets and Their Role in Client-Server Communication
W artykule omawiana jest rola WebSockets w komunikacji klient-serwer. WebSockets są narzędziem do komunikacji w czasie rzeczywistym, które możemy spotkać w różnych aplikacjach, takich jak chatboty na żywo czy strumienie danych. Autor dzieli się swoimi spostrzeżeniami na temat projektowania aplikacji do przesyłania wiadomości w czasie rzeczywistym.

#bazy_danych

3 Foundational Principles for Writing Efficient SQL
Dobre nazwy tabel, normalizacja schematu i tworzenie ograniczeń to podstawowe zasady pisania wydajnego kodu SQL, które zapewniają solidną strukturę i pozwalają uniknąć błędów w danych.

I Dropped SQL for NoSQL
Ciekawa historia: zamiast optymalizować zapytania SQL, zmieniono architekturę danych. Po kilku miesiącach okazało się, iż przejście na NoSQL było trafnym wyborem. Aplikacja obsługiwała pięciokrotnie większy ruch, zapytania wykonywały się dziesięciokrotnie szybciej, a przerwy w działaniu zostały zredukowane do zera.

#big_data

8 minutes to understand Presto
Facebook opracował Presto jako rozproszony silnik zapytań SQL, który przetwarza setki petabajtów danych na Facebooku. Może obsługiwać wiele przypadków użycia, w tym interaktywną analitykę, batch ETL, testy A/B i analitykę dla deweloperów/reklamodawców. Zobaczmy co to jest, to Presto...

#ciekawostki

Markdown’s Big Brother: Say Hello to AsciiDoc
W miarę rozbudowywania projektu i dodawania nowych funkcji, prosty plik README.md przestaje być wystarczający. Wprowadzenie tabel, odsyłaczy i tekstu warunkowego powoduje, iż utrzymanie dokumentacji staje się coraz bardziej skomplikowane. AsciiDoc może być odpowiedzią na te problemy. Jest to strukturalny i w pełni funkcjonalny format, który może zastąpić Markdown. W przewodniku omawiane są najważniejsze elementy AsciiDoc oraz udzielane są wskazówki dotyczące łatwiejszego utrzymania dokumentacji, zwłaszcza w przypadku używania narzędzi kontroli wersji, takich jak Git.

Talk to your colleagues over pull requests, not Jira ticket
Może, zamiast czekać, aż inny zespół zaimplementuje funkcję zgłoszoną w Jirze, lepiej od razu otworzyć pull request? Artykuł omawia zalety takiego podejścia, ale też wyzwania, jakie się z nim wiążą - od dostosowania do standardów kodowania danego zespołu po uwzględnienie przyszłej odpowiedzialności za utrzymanie nowej funkcji. Temat warty przemyślenia.

Test a Web Scraper using VCR
Pakiet vcr jest jak rejestrator wideo dla żądań HTTP. Nagrywa żądania sieciowe i powiązane z nimi odpowiedzi, a następnie odtwarza odpowiedzi podczas testów, dzięki czemu nie trzeba wykonywać powtarzających się żądań HTTP.

#devops

Slashing my ".bashrc" in half - Bite code!
Jak skrócić .bashrc? Autor opowiada jakich użył narzędzi, być może zainspiruje to i Ciebie?

#java

Hugging Face Models With Spring AI and Ollama Example
Artykuł opisuje integrację modeli Hugging Face ze Spring AI i Ollamą, umożliwiając w ten sposób implementację zaawansowanych możliwości sztucznej inteligencji w aplikacjach Java.

#llm_&_chatgpt

Talk to Airflow
Projekt demonstracyjny pokazujący, jak zbudować agenta AI, który współdziała z Apache Airflow przy użyciu zapytań w języku naturalnym. Zbudowany przy użyciu PydanticAI i Gemini 2.0.

The Best Way to Use Text Embeddings Portably is With Parquet and Polars
Przy dużych ilościach wektorów, kiedy nie jest wymagana pełna wektorowa baza danych, warto rozważyć użycie staromodnej bazy danych SQLite z osadzaniem wektorów. Wykorzystanie plików Parquet i polarów może również być skutecznym rozwiązaniem. Na pewno CSV to złe rozwiązanie

#management

Automating Jira project management with Gemini 2.0 and Crew AI
Jesteś project managerem i co tydzień musisz zbierać informacje od zespołu, aby przygotować raport. Ale wszystko przecież jest w Jirze... Przy pomocy kilku agentów AI i odrobiny kodowania wszystko może dziać się automatycznie. Świetnie opisany workflow!

#python

Learn FastAPI with a Full-Stack Project: Movie Recommendation
Ten projekt to system rekomendacji filmów zbudowany przy użyciu FastAPI, SQLite (lub PostgreSQL) i Streamlit. Wykorzystuje on zbiór danych MovieLens 100k do generowania rekomendacji filmów na podstawie ocen użytkowników. Ponadto aplikacja śledzi, ile razy kliknięto każdą rekomendację. Można również dodawać nowe filmy za pośrednictwem punktu końcowego API.

Z juniora na mida! [e-book]
A tutaj inny projekt - moja książka! Prezentuje praktyczną wiedzę z programowania w Pythonie na przykładzie rzeczywistego projektu. Zdobyte umiejętności pomogą Ci awansować z poziomu junior na mid-level developera. Rozwijając wiedzę zawartą w tej publikacji, otworzysz sobie drogę do dalszego rozwoju zawodowego. Niektórzy już przeczytali i są przed Tobą! ;-)

Design of Everyday APIs
Co sprawia, iż API dla biblioteki jest dobre? Jak zaprojektować API, które będzie przyjemne w użyciu? W tym poście omówiono zasady projektowania zorientowanego na użytkownika i jak najlepiej zastosować te zasady podczas pisania biblioteki Pythona dla innych programistów.

Mastering Background Job Queues
Kiedy aplikacja się skaluje, potrzeba przetwarzania w tle długotrwałych lub wymagających dużej ilości zasobów zadań staje się kluczowa. jeżeli kiedykolwiek zastanawiałeś się, jak obsługiwać zadania takie jak wysyłanie wiadomości e-mail, przetwarzanie filmów, generowanie raportów, a choćby planowanie przyszłych zadań, ten artykuł zabierze Cię w podróż do opanowania sztuki kolejek zadań w tle przy użyciu Celery, Redis i FastAPI.

Visualize Data Streams in Python
Animowany wykres w czasie rzeczywistym. Wyobraź sobie, iż rzucasz piłkę pionowo do góry, komputer widzi ten rzut i rysuje wykresy pozycji piłki, prędkości i przyspieszenia. Przecież to najbardziej typowe doświadczenie z pierwszych lat nauczania fizyki. Jak przygotować narzędzia wspierające takie typowe doświadczenie?

#wizualizacja_danych

What We Can Learn From The Economist About Data Visualization
The Economist jest znany z przejrzystych i wnikliwych prezentacji wizualizacji danych. Dzięki prostocie i starannym wyborom projektowym, ich wykresy przekazują łatwo zrozumiałe historie. Ich podejście do wizualizacji danych może być cenne dla osób zainteresowanych tą dziedziną.

#środowisko_pracy

How to debug code with GitHub Copilot
Jak debugować kod dzięki GitHub Copilot, gdzie go używać w przepływie pracy i jakie są najlepsze praktyki Niezależnie od tego, czy jesteś nowym użytkownikiem GitHub Copilot, czy też chcesz pogłębić swoje umiejętności, w tym przewodniku znajdziesz coś dla siebie. A praca z Copilotem staje się coraz bardziej popularna, więc warto nauczyć się tego narzędzia.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału