Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Motywem przewodnim w dzisiejszym odcinku jest API. Jakich frameworków użyć (w Pythonie), czym od siebie się różnią? A może websocket?
Podobnie mamy w sekcji z praktycznymi projektami z zakresu analizy danych (nie zawsze tam o samą analizę chodzi - czasem bardziej o uczenie maszynowe niż analizowanie w rozumieniu tzw. EDA): wykrywanie wartości odstających w zbiorach.
Co tydzień przedstawiamy tutaj kilka projektów wykorzystujących analizę danych, machine learning czy też AI. Zamiast czekać kilkanaście tygodni (i liczyć iż temat, który Cię interesuje się pojawi) możesz zerknąć na stronę gdzie zgromadzono ponad 65 (może i 69, a więc prawie 70!) przykładowych projektów razem z kodem źródłowym. Boot-camp z ML? Niepotrzebny! Wystarczą te projekty... oraz porządne doczytanie dlaczego tak a nie inaczej zrobiono to czy tamto.
Na koniec coś dla osób, które dane muszą pokazać przed audytorium. Jak sprawić żeby tabelka była czytelna? Jak zastąpić wykres kołowy czymś nowocześniejszym?
#ai_ml
The Only Object Detection Guide You’ll Need!
Jak działa wykrywanie obiektów na obrazach? Na przykładzie trzech metod i algorytmów, które uciągnie choćby Raspberry Pi!
#analiza_danych_koncepcje
Advanced Project Structuring for AI and ML Applications
Jak poukładać pliczki w folderkach w projektach ML? Wszystkie dobre praktyki w jednym miejscu.
Perform Outlier Detection More Effectively Using Subsets of Features
Tekst opowiada jak wykrywać wartości odstające poprzez podzbiory cech. Sam w sobie jest częścią większego cyklu o różnych metodach wykrywania wartości odstających.
#analiza_danych_projekty
Dynamic Pricing Strategy
Dynamiczne dostosowanie ceny produktów na podstawie cech klienta. W tekście (i kodzie) głównie rzeczy związane z inżynierią cech, bo sam model to zwykły random forest.
Anomaly Detection
Podobne zagadnienie jak powyższe - detekcja odstających wartości. Tutaj na przykładzie modelu sprawdzającego czy płatność kartą jest fraudem czy nie, z całą masą dodanych ciekawych cech i na końcu XGBoostem.
Detecting and Removing Noise in Industrial Time Series
Szum jest zawsze powszechny w danych szeregów czasowych. pozostało bardziej powszechny w środowiskach przemysłowych - na przykład mierniki mają swoje zakłócenia. Jak pozbyć się tego szumu?
#data_engineering
Building a Scalable Data Pipeline
Zestaw małych aplikacji (producent danych, zapisywacz ich do bazy i dashboard z wynikami) i komponentów (Kafka, Spark Streaming użyty w PySparku) służący jako prezentacja dość typowego procesu związanego z przepływem danych. Co trzeba w kontenerach, można uruchomić choćby na laptopie.
How to run PySpark with Apache Airflow
Pan w 15 minut pokazuje jak skonfigurować Airflow ze Sparkiem, aby poprzez SparkSubmitOperator uruchamiać PySparkowe skrypty.
#devops
Mastering AWK and Regex for Log Analysis
Cała wiedza o AWK - jak wygląda składnia, na co pozwala. A chwilę później - użycie AWK do analizy logów serwera WWW. Magia do osiągnięcia w konsoli, w jednej linijce!
How Docker simplifies debugging
Ciekawy pomysł - korzystamy z "pustych" obrazów (takich do których w Dockerfile dopiero coś zwykle się dodaje), żeby szybciej wyłapać potencjalne problemy - na przykład konflikty w pakietach. Ot, odpalamy "docker run" na gołym obrazie i działamy krok po kroku.
Deploy a Spring Boot App and a PostgreSQL DB on Kubernetes
Jak w ramach Kubernetesa przygotować serwis z bazą Postgres tak, aby po jego resecie czy też zatrzymaniu nie utracić zgromadzonych danych? Z pomocą przychodzi tzw. persistent storage, który jest głównym tematem tego tekstu.
#excel
The Secret to Creating a Visually Appealing Excel Spreadsheet
Tabele, podobnie jak wykresy, też powinny być czytelne. W tabelkach dane dzielą się na wiersze i kolumny, jedne i drugie można wyróżnić (z różnych powodów) sprawiając, iż całość łatwiej przebiec wzrokiem i "złapać" zasadniczą informację.
#llm_&_chatgpt
Building a Knowledge Graph From Scratch Using LLMs
Artykuł stanowił wprowadzenie do nowoczesnego podejścia do tworzenia grafu wiedzy - z dość standardowego zbioru danych dzięki LLM wyciągnięto dane, zależności między nimi i dzięki temu stworzono graf wiedzy - kto z kim i gdzie. Inspirujące!
#python
Top 10 Python REST API Frameworks in 2025
Kiedy chcemy napisać kawałek kodu, który pozwala na różnego rodzaju operacje innym aplikacjom budujemy API. W Pythonie mamy kilka frameworków których możemy użyć, a tutaj przegląd najistotniejszych z nich.
Building REST APIs with Flask or FastAPI: A Comparison and Tutorial
Porównanie dwóch najbardziej popularnych frameworków do tworzenia REST API w Pythonie - Flask i FastAPI. Czym się różnią? Jak w obu stworzyć pierwsze endpointy?
Creating Real-Time Features in Python with WebSockets
W API po HTTP i REST to każdy mądry umie w Pythonie. Z jednej strony FastAPI albo Flask, z drugiej np, biblioteka requests i gotowe. A komunikacja w nieco inny sposób? Jak to się dzieje, iż wciśnięcie guzika w Jupyter Notebooku nie przeładowuje strony? Tu zastosowanie mają właśnie webcockets.
#sql
Understanding SQL Date Functions
Operacje na datach w bazie danych (w zapytaniach SQL) - różnice w dniach, części daty, strefy czasowe - wszystko czego potrzebujecie albo będziecie potrzebować.
#wizualizacja_danych
Step-by-Step Guide for Building Waffle Charts in Plotly
Wykresy waflowe to zamiennik dla wykresów kołowych - zamiast koła mamy siatkę 10×10 kwadratów, których kolor oznacza przynależność kwadratu do danej kategorii. Zatem każda komórka to 1% danych. Jak taki wykres przygotować z użyciem biblioteki Plotly? W bardzo sprytny sposób!
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)