Newsletter Dane i Analizy, 2024-01-08

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj w ramach wstępu - pakiet specjalny, pakiet linków dodatkowych, bo każdy z początkujących data scientistów przechodzi przez podobne zagadnienia. Najpierw uczymy się wczytywać dane, potem je filtrować i przekształcać.

Często przekształcenia polegają na przejściu wiersz po wierszu w naszych danych. Jak już umiemy nieco programować to - dla przykładu pandasowy iterrows() wydaje się być dobrym rozwiązaniem. Przecież dla wszystkich wiersza w naszej tabeli powinniśmy wykonać jakąś operację. No, ale nie zawsze pętle mają sens i ten notebook pokazuje jak się ich pozbyć, chociaż akurat nie w pandasowych tabelkach. No, ale nie po to wymyślono w Pythonie listy, żeby z nich nie korzystać! Często są bardzo szybkie i naprawdę wygodne!

Oprócz list wymyślono też zbiory i o ich wykorzystaniu przeczytacie w tym notebooku, który tym razem o wyższości itertuples() nad iterrows() już opowiada. Z kolei ten notebook to już tylko na przebieganiu przez wiersze data frame’a się skupia.

Jak już obsłużymy wiersz za wierszem, może zajść potrzeba działania w podgrupach. Na przykład dość typowe zagadnienie: uzupełnij brakujące wartości średnią z grupy. I o działaniach w grupach mamy dzisiaj notebook.


#analiza_danych_koncepcje

Practical Nuances of Time Series Forecasting
Czy łączenie wyników z wielu modeli (ensambling) ma sens? Ma. Czy to się sprawdza kiedy działamy z przewidywaniem szeregów czasowych? Tak. Czy można łączyć różne typy modeli? Można. Rozwinięcie tych pytań w tekście.

How to Use XGBoost for Time-Series Forecasting?
W tekście powyżej mowa o ensamblingu modeli, a jednym z ensamblowanych jest taki zbudowany w oparciu o XGBoost. Tutaj nieco więcej o wykorzystaniu XGBoost do prognozowania szeregów czasowych.

NumPy’s Linalg Norm for Data Science and Beyond
Liczenie odległości między wektorami to jedno z podstawowych zadań w systemach rekomendacyjnych czy znajdywaniu podobieństw (jak już obiekty sprowadzimy do wektorów). Pythonowe NumPy ma ku temu odpowiednie funkcje w swoim module związanym z algebrą liniową, może się przydać ich poznanie.

#architektura

How to Write Great Tech Specs
Co powinna zawierać dobra dokumentacja techniczna? Tekst razem z szablonem.

#bazy_danych

1BRC in SQL with DuckDB
Czasem trzeba przygotować wynik agregacji jakichś danych np. w postaci JSONa. Lista cech, do nich dodane średnie z grup i inne agregaty. Można na różne sposoby, albo w CLI z użyciem DuckDB, które do tego celu jest genialne!

#big_data

How To Solve Data Engineering Errors
12 błędów w pracy data engineera - dość typowych, więc warto nauczyć się ich unikać.

#ciekawostki

How Pinterest scaled to 11 million users with only 6 engineers
Do obsługi wielomilionowego ruchu potrzebujesz sztabu ludzi - to wie każdy. Pinterest jednak nie wiedział o tym i jakoś poradził sobie, zaledwie w 6-osobowym zespole. Pierwsze trzy miliony użytkowników obsługiwali w trójkę.

Growing From Analyst To Data Engineer In 100 Days
Przekwalifikowanie krok po kroku, z dołączoną checklistą.

world’s best ai vs geoguessr pro
Kto lepiej namierzy, gdzie na Ziemii zrobiono dane zdjęcie (na tym polega GeoGuesser) - człowiek, czy sztuczna inteligencja? Do eksperymentu staje znany youtuber 'Geoguessr Pro’ oraz aplikacja stworzona przez studentów z Uniwersytetu Stanforda. Fascynujące 25 minut na YT.

Chat with your data via AI
Szybkie (8 minut) demo jak używać RTutor.ai - narzędzia pozwalającego "rozmawiać" z danymi w formie aplikacji napisanej w R.

#devops

How to Manage Secrets in Docker
Jak skutecznie chronić dane, takie jak klucze API, hasła czy certyfikaty, w zdokeryzowanej aplikacji? Jak używać Docker Secrets, aby zabezpieczyć swoje aplikacje przed wyciekiem wrażliwych informacji.

#llm_&_chatgpt

How to Web Scrape Wikipedia with LLM Agents
Czy można wykorzystać OpenAI i jego ChatGPT do pozyskiwania danych z Wikipedii, najlepiej w ustrukturyzowanej formie? Można i działa to całkiem przyzwoicie (o ile - w tym przypadku - pytamy o znane utwory, a nie np. "Wieś jak malowanie" z filmu "Wesele")

How to Detect Hallucinations in LLMs
Jak sprawdzić czy chatbot zmyśla i jak nauczyć go mówić "nie wiem"?

#python

Downloading Overture Map Foundation’s buildings data using Apache Sedona with Docker — Python and stored them in PostGIS
Apache Sedona to narzędzie mające na celu ułatwienie pracy z danymi przestrzennymi. W tym tekście, ale też na stronie samego projektu Sedona znajdziecie kilka przykładów zastosowania.

API Caching with Redis, Flask and Kubernetes
Jak zbudować prosty cache w Redisie dla swojego API?

Fine Tuning Python WSGI and ASGI applications for Flask, Django, and FastAPI
Jak optymalnie dobrać parametry (liczbę procesów, wątków) dla uzyskania najlepszej wydajności naszego API przy ograniczeniach infrastruktury?

Fastest Way to Read Excel in Python
Wczytanie pliku excela z pół milionem wierszy w cztery (!) sekundy? Z zachowaniem typów (tak, daty też)? Szacunek!

Python Class vs. Data Class vs. Pydantic: Write to CSV with data validation
Było o szybkim wczytywaniu plików Excela to będzie też o zapisywaniu do Excela (bo przecież Excel to jest król korporacji, tak jak szczupak jest król wód :-) Niby proste - Pandasowe df.to_excel() i gotowe, prawda? Ale tutaj nieco bardziej skomplikowane obiekty - klasy. Klasy, data-klasy i pydantic-klasy.

Transform your Pandas Dataframes: Styles, 🎨 Colors, and 😎 Emojis
Jakby tak nieco bardziej atrakcyjnie przedstawić tabelkę?

Creating a Bank Statement Parser with Python
Dbasz o swój domowy budżet? Najlepiej robić to korzystając z wyciągów bankowych. Ale zanim zaczniesz przepisywać je manualnie do Excela może spróbuj wykorzystać Pythona

#r

Developing & Testing Your Shiny Application
Nagranie webinaru o tworzeniu i testowaniu aplikacji w Shiny. Trzy godziny (!) darmowej wiedzy.

#spark

REST API Data Ingestion with PySpark
Pobieranie danych z REST API na poziomie workerów Sparka - sprytne!


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału