Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
W świecie, który coraz mocniej stawia na wykorzystanie sztucznej inteligencji, OpenAI wprowadza Codex - asystenta AI, który może tworzyć kod na podstawie prostych instrukcji tekstowych. Tymczasem interesujący eksperyment z czterema różnymi modelami LLM poddanymi zadaniu projektowania architektury systemu pokazuje, gdzie w tej chwili stoją możliwości AI w zastępowaniu ludzkich specjalistów. Pytanie "co dalej z Eldorado?" pozostaje w mocy?
Nie brakuje też w dzisiejszym wydaniu konkretnych tutoriali i praktycznych przewodników - od budowy systemów przetwarzania danych w Airflow 3 z wykorzystaniem AI SDK i analizę danych z League of Legends, albo z Ligi Mistrzów UEFA, po tworzenie efektownych wizualizacji takich jak mapy kafelkowe czy wykresy parlamentarne (mimo, iż mamy wybory prezydenckie). Dla fanów uczenia maszynowego mam artykuły o klasycznych algorytmach klasyfikacyjnych i praktycznym łączeniu bibliotek Pandas, NumPy i scikit-learn. Plus swój własny cykl uczący analizy danych.
Co ciekawe, mimo postępu technologicznego, pewne zagrożenia wcale nie znikają - jak pokazuje artykuł o SQL Injection w erze ORM-ów. Przypomina nam to, iż niezależnie od poziomu abstrakcji narzędzi, podstawowa wiedza o bezpieczeństwie zawsze pozostaje aktualna.
Wiesz, jakie jest prawdopodobieństwo śmierci w dniu waszych urodzin? Ten temat, poparty danymi i analizą, to jeden z tekstów poniżej.
W zeszłym tygodniu najchętniej czytaliście:
Jak pisać dziennik w trakcie pracy aby zwalczyć prokrastynację? Evaluating Time Series Models for Real-World Forecasting: A Practical Comparison Kolekcja wskazówek git-tips Deploy an in-house Vision Language Model to parse millions of documents: say goodbye to Gemini and OpenAI How did Airbnb build their semantic layer?
Zapraszam też na moje sociale związane z tym newsletterem: fanpage i LinkedIn. Pamiętaj o książce (kup ją!).
#airflow
Airflow 3 and Airflow AI SDK in Action: Analyzing League of Legends
Praktyczny przewodnik pokazujący, jak połączyć nowoczesny orkiestrator zadań z możliwościami sztucznej inteligencji. Na przykładzie danych z League of Legends autor demonstruje najciekawsze nowości z Airflow 3: Dynamic Task Mapping, wersjonowanie DAG-ów i integrację z Google Gemini. jeżeli znudziło Ci się czytanie suchej dokumentacji, ten hands-on tutorial to idealna odskocznia.
#analiza_danych_koncepcje
Classification Models as Detectives: Solving Mysteries with LDA, QDA, and Naive Bayes
Spojrzenie na klasyczne algorytmy klasyfikacyjne z perspektywy... detektywa rozwiązującego zagadki kryminalne. Autor przystępnie wyjaśnia nie tylko matematyczne podstawy LDA, QDA i Naive Bayes, ale przede wszystkim intuicję stojącą za tymi modelami. Zamiast kolejnego suchego wyprowadzenia wzorów, dostajemy analogie i przykłady, które sprawiają, iż "a-ha moment" przychodzi niemal natychmiast.
#analiza_danych_projekty
Momentum Meets Volatility: A Data-Driven Approach to Strategy Optimization
Połączenie analizy technicznej z rygorystycznym podejściem data science w kontekście strategii inwestycyjnych. Autor pokazuje, jak zbudować system tradingowy oparty na wskaźnikach CMO i Mass Index, a następnie poddać go testom wytrzymałościowym przy użyciu symulacji Monte Carlo i optymalizacji walk-forward. Solidna dawka praktycznej wiedzy o tym, jak weryfikować strategie przed zainwestowaniem realnych środków.
#architektura
Can AI Replace Software Architects?
Czy sztuczna inteligencja zastąpi architektów oprogramowania? Autor sprawdził to empirycznie, dając czterem różnym modelom LLM to samo zadanie architektoniczne, które typowo rozwiązywałby doświadczony architekt. Zamiast teoretycznych rozważań dostajemy konkretne porównanie i wnioski. Obowiązkowa lektura zarówno dla tych, którzy boją się o swoją pracę, jak i dla osób odpowiedzialnych za cyfrową transformację firm.
Behind the Scenes: Building a Robust Ads Event Processing Pipeline
Kulisy budowy systemu przetwarzania zdarzeń reklamowych w Netflixie. Artykuł pokazuje, jak stworzyć pipeline, który nie tylko obsługuje obecne potrzeby, ale także skaluje się na przyszłość. Autorzy dzielą się konkretnymi decyzjami architektonicznymi i ewolucją systemu - od początkowych założeń po wdrożenie. Gratka dla wszystkich zainteresowanego systemami przetwarzania danych w czasie rzeczywistym na naprawdę dużą skalę.
#big_data
A Beginner-Friendly Guide to Unified Data Processing
Przystępne wprowadzenie do Apache Beam - frameworka, który ujednolica przetwarzanie danych zarówno wsadowe, jak i strumieniowe. Autor prowadzi nas krok po kroku przez tworzenie podstawowych pipeline’ów w Javie, wyjaśniając po drodze najważniejsze koncepcje i wzorce. Dobry start dla wszystkich, którzy chcą poznać nowoczesne podejście do przetwarzania danych bez konieczności uczenia się oddzielnych narzędzi do różnych scenariuszy.
#ciekawostki
Likelihood of dying on your birthday
Fascynująca analiza statystycznego fenomenu znanego jako "efekt urodzinowy", czyli zwiększonego ryzyka śmierci w dniu lub okolicach urodzin. Autorzy wykorzystują dane i wizualizacje, by pokazać, jak pozornie przypadkowe zdarzenia układają się w zaskakujące wzorce. Artykuł doskonale łączy elementy statystyki, psychologii i wizualizacji danych. Naukowy dowód na to, iż czasem rzeczywistość jest dziwniejsza od fikcji.
Introducing Codex
Programista AI w chmurze: zlecasz mu zadania i jakiś czas później dostajesz gotowy pull request do akceptacji. OpenAI prezentuje Codex - zaawansowanego asystenta AI dla programistów, który na podstawie instrukcji tekstowych tworzy kompletny kod. Po dwóch latach rozwoju i testów wewnętrznych przy projektach takich jak ChatGPT, narzędzie jest gotowe do szerszego użycia. Zarządzanie kodem z poziomu telefona to dopiero początek możliwości tego rozwiązania. Kolejny krok w kierunku świata, gdzie pisanie kodu będzie bardziej przypominało współpracę z inteligentnym asystentem niż manualne kodowanie.
Index your Gmail account to a SQLite DB and play with the data.
Proste narzędzie, które przemienia chaos twojej skrzynki Gmail w uporządkowaną bazę SQLite gotową do analizy. Dzięki niemu wreszcie sprawdzisz, kto zalewa Cię największą liczbą wiadomości, zidentyfikujesz "ciężkie" załączniki czy znajdziesz newslettery, których i tak nie czytasz. Autor dorzuca gotowe zapytania SQL, więc nie musisz wymyślać koła na nowo. Idealny punkt wyjścia do cyfrowego detoksu lub odkrycia wzorców w swojej komunikacji. Oraz do nauki SQL - przecież znasz własną pocztę, więc możesz zweryfikować czy wyniki zapytań są prawdziwe.
#devops
NestJS & PostgreSQL on k3d: Local Kubernetes Tutorial
Praktyczny tutorial pokazujący, jak uruchomić aplikację NestJS z bazą PostgreSQL w lokalnym klastrze Kubernetes przy użyciu k3d. Autor prowadzi krok po kroku przez cały proces - od konfiguracji środowiska po wdrożenie aplikacji, pokazując wszystkie niezbędne pliki i komendy. jeżeli męczyłeś się z konfiguracją lokalnego Kubernetesa do celów developerskich, ten tekst pokaże Ci, iż może to być znacznie prostsze niż myślisz.
#java
How Netflix Uses Java
Techniczne spojrzenie za kulisy jednej z największych platform streamingowych świata. W 48-minutowym wykładzie poznasz szczegóły wykorzystania Javy w Netflixie - od wyboru wersji JDK, przez rezygnację z RX Java, po stworzenie własnego forka Spring Boota. Mnóstwo wiedzy o architekturze na dużą skalę i praktycznych aspektach wykorzystania Javy w systemach obsługujących miliony jednoczesnych połączeń. [YT, 48 minut]
#management
Why high performers make assertions: The difference between insights, suggestions, and assertions
Co naprawdę odróżnia wysokiej klasy specjalistów od przeciętnych pracowników? Artykuł pokazuje kluczową różnicę między dzieleniem się obserwacjami, sugestiami a stawianiem konkretnych tez. Autor wyjaśnia, dlaczego umiejętność formułowania jasnych tez i brania za nie odpowiedzialności jest tak ceniona w biznesie, szczególnie w sytuacjach złożonych i niepewnych. Lektura dla wszystkich, kto chce mieć realny wpływ na decyzje w swojej organizacji.
#programowanie_ogólnie
[PL] SQL Injection w erze ORM-ów: ryzyka, sposoby ochrony oraz dobre praktyki
Myślisz, iż używanie ORM-a chroni Cię przed atakami SQL Injection? Ten artykuł bezlitośnie obala to niebezpieczne przekonanie. Autor pokazuje konkretne przypadki, w których choćby nowoczesne frameworki ORM pozostawiają furtkę dla atakujących, oraz jak pisać kod odporny na tego typu zagrożenia. Lektura obowiązkowa dla wszystkich dewelopera pracującego z bazami danych - bo lepiej zapobiegać, niż później tłumaczyć się z wycieku danych.
Rust for Python People: Learn Just Enough to Brag About It on LinkedIn
Humorystyczne, ale jednocześnie praktyczne wprowadzenie do Rusta dla osób znających Pythona. Autor pokazuje najważniejsze koncepcje języka bez zbędnego teoretyzowania, skupiając się na różnicach, które mogą zaskoczyć pythonistów. Dowiesz się, czym jest system "ownership", jak działają "borrowing" i "lifetimes" oraz dlaczego Rust jest tak bardzo popularny. Idealne dla tych, którzy chcą zrozumieć hype wokół Rusta, nie poświęcając miesiąca na naukę.
#python
150 Python Interview Questions and Answers
Solidna dawka wiedzy dla wszystkich, kto planuje zmianę pracy jako Python developer. Artykuł zbiera 150 pytań rekrutacyjnych podzielonych według poziomu trudności - od podstaw składni i typów danych, przez OOP, po zaawansowane biblioteki i koncepcje. Znajdziesz tu pytania z obszarów web developmentu, data science i DevOps. Świetny materiał do powtórki przed rozmową o pracę lub oceny własnego poziomu znajomości Pythona.
How to Combine Pandas, NumPy, and Scikit-learn Seamlessly
Praktyczny przewodnik pokazujący, jak płynnie łączyć trzy najważniejsze biblioteki w workflow data science. Na przykładzie przewidywania wytrzymałości betonu autor demonstruje, jak efektywnie przechodzić między Pandas, NumPy i scikit-learn. Artykuł wyjaśnia nie tylko jak przesyłać dane między bibliotekami, ale także jak tworzyć spójny pipeline od surowych danych do gotowych predykcji.
[PL] Analiza rynku mieszkaniowego w Polsce [autopromocja]
To z kolei mój darmowy cykl pokazujący w prosty i praktyczny sposób typową pracę analityka danych i data scientisty. Na rzeczywistych danych, w serii kilku darmowych maili, w tempie które pozwoli na własne ćwiczenia.
Easy Tile Grid Maps with Python and Plotly
Dlaczego profesjonalni dziennikarze danych tak często używają map kafelkowych zamiast tradycyjnych map choropleth? Autor wyjaśnia zalety tej techniki wizualizacji i pokazuje, jak stworzyć efektowne mapy kafelkowe przy użyciu Pythona i Plotly. Dowiesz się, jak przekształcić nieregularne kształty geograficzne w jednolite kafelki, co eliminuje wizualne zaburzenia proporcji i ułatwia szybkie porównania. Praktyczny tutorial dla wszystkich, kto chce podnieść swoje wizualizacje na poziom The Economist czy The New York Times.
A Stunning Python Parliament Chart That Makes you Look Like An Expert
Jak stworzyć efektowny wykres parlamentarny, który odwzorowuje rzeczywisty układ miejsc w sali obrad? Autor pokazuje krok po kroku, jak zbudować w pełni interaktywną wizualizację przy użyciu Pythona i Plotly. Zamiast nudnego wykresu kołowego, otrzymujemy realistyczne przedstawienie rozkładu miejsc w parlamencie, co znacznie ułatwia interpretację wyników wyborów. Dobry przykład na to, jak czasem najlepsze wizualizacje inspirowane są rozwiązaniami ze świata rzeczywistego.
How to Write Beautifully Documented Python Code
Kompletny przewodnik po sztuce pisania kodu, który jest nie tylko funkcjonalny, ale także przyjazny dla innych. Autor omawia najlepsze praktyki dotyczące komentarzy inline, docstringów, typowania i narzędzi zewnętrznych. Dowiesz się, jak tworzyć dokumentację, która sprawia, iż kod jest zrozumiały, łatwy do utrzymania i profesjonalny. Artykuł zawiera konkretne przykłady i wskazówki dla różnych scenariuszy - od API przez narzędzia wewnętrzne po pakiety open-source.
Using UV with Jupyter Notebooks
Praktyczne rozwiązanie częstego problemu: jak korzystać z globalnej instalacji Jupyter Notebooks, jednocześnie używając pakietów z wirtualnego środowiska konkretnego projektu? Autor pokazuje, jak to osiągnąć przy użyciu nowoczesnego menedżera środowisk UV. jeżeli zmęczyły Cię konflikty pakietów i problemy z izolacją środowisk w Jupyterze, ten artykuł pokazuje eleganckie rozwiązanie.
#sql
Unlocking UEFA Champions League Secrets with SQL
Połączenie pasji do piłki nożnej z nauką SQL-a na przykładzie danych z Ligi Mistrzów z lat 2016-2022. Autor pokazuje, jak dzięki różnych typów zapytań odkrywać fascynujące statystyki - od liczby bramek strzelonych prawą nogą po rozkład goli w różnych fazach turnieju. Doskonały materiał dla początkujących adeptów SQL-a, którzy wolą uczyć się na pasjonujących przykładach niż na abstrakcyjnych bazach testowych. SQL może być znacznie ciekawszy, gdy analizujesz coś, co naprawdę Cię interesuje!
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)