Newsletter Dane i Analizy, 2023-05-01

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Jak mówi Google sesja główna matury 2023 rozpocznie się już 4 maja - zatem już w tym tygodniu.

Nie wiem ilu czytelników jest przed maturą (z przeprowadzonych dawno temu ankiet wynika, iż bardziej jesteście na studiach lub zaraz je kończycie), ale jeżeli ktoś zdaje w tym roku to życzę wszystkiego najlepszego.

Jeśli zaś jesteście rzeczywiście pod koniec studiów to prawdopodobnie za węgłem czai się poszukiwanie pracy. Z tego okazji dzisiaj dwa teksty, które w obrębie tematyki tego newslettera krążą, a mogą pomóc przy szukaniu pracy. Może bardziej na rozmowie rekrutacyjnej. Pierwszy z nich to "Machine Learning System Design Interview Cheat Sheet" zawierający dobrą listę pytań dla projektujących systemy ML (to jest cykl, konkretnie druga część, a inne znajdziecie pod kolejnymi linkami: pierwsza, trzecia, czwarta), zaś "30 Common CI/CD Interview Questions (with Answers)" skierowane jest bardziej do tych, którzy wolą wdrażać i utrzymywać oprogramowanie.

Jeśli zaś nie masz zamiaru zajmować się nauką, powtarzaniem i utrwalaniem wiedzy to... to nie. Korzystaj z długiego weekendu, a teksty z niniejszego wydania przeczytaj później.

#AI_ML

More Design Patterns For Machine Learning Systems
Tekst przedstawia kilka wzorców budowania systemów ML - niektóre z nich mogą pomóc w optymalizacji procesów ML, inne w uzyskaniu lepszych efektów przygotowanych modeli.

Machine Learning System Design Interview Cheat Sheet
Jeśli przyjdzie Ci zmieniać pracę to ten zestaw pytań pomoże w sprawdzeniu Twojej wiedzy o projektowaniu systemów uczenia maszynowego. Oczywiście można się sprawdzić bez zmieniania pracy :)

Closed AI Models Make Bad Baselines
Zamknięte modele AI (zdefiniowane w tekście) są często uważane za dobre punkty wyjścia. Autorzy tekstu przedstawiają swoje zdanie na ten temat.

#airflow

Making Async API Calls With Airflow Dynamic Task Mapping
Zbieranie danych dzięki wywołań API i dynamicznego mapowania zadań - wszystko ubrane w zadania w Airflow

#analiza_danych_koncepcje

Recommender System: Collaborative Filtering with Matrix Factorization
Matrix factorization to metoda, która jest używana do znajdowania podobieństw pomiędzy użytkownikami lub produktami. Jest ona często używana w systemach rekomendacji collaborative filtering.

Semi-Supervised Learning: Label Spreading for Classification
Co to jest algorytm Label Spreading i jak może być wykorzystany do klasyfikacji?

#bazy_danych

Nine ways to shoot yourself in the foot with PostgreSQL
Zastosowania bazy danych PostgreSQL mogą prowadzić do poważnych problemów, jeżeli nie jest ona dobrze zarządzana. Przedstawiono tutaj 9 "sposobów" na strzelenie sobie w stopę przy utrzymaniu baz danych

#ciekawostki

Daily Dose of Data Science
Książka (link w treści, prowadzi do PDFa znajdującego się na Google Drive) zawierająca obszerny zbiór przeróżnych zagadnień bardziej lub mniej związanych z data science.

A comprehensive guide for getting started with OpenStreetMap
OpenStreetMap (OSM) to darmowa mapa świata, którą można edytować i używać do własnych celów. Tekst przedstawia podstawowe informacje o tym, w jaki można zacząć korzystać z tego narzędzia.

Shape Up Your Maps with Shapefiles
Z kolei Shapefiles to popularny format pliku używany do przechowywania informacji o kształtach, w tym mapach. Tutaj znajdziesz wprowadzenie do wykorzystania plików SHP (w Pythonie)

#devops

GitHub Actions (Branch Protection, Automated Testing)
Jak wykorzystać Github Actions w praktyce? Film przedstawia podstawową konfigurację oraz sposób na automatyczne testowanie zmian wchodzących w ramach pull requestów

How to Debug Your Microservice Python Code Running Remotely in Docker
Tekst opisuje sposób na debugowanie kodu Python, który jest uruchamiany zdalnie w Dockerze

30 Common CI/CD Interview Questions (with Answers)
Szybkie podsumowanie z zagadnień Continuous Integration/Continuous Delivery - jako zestaw często padających pytań na rekrutacjach

#python

3 Efficient Ways to Filter a Pandas DataFrame Column by Substring
Jak filtrować pandasową tabelkę po zawartości kolumny z tekstami? Praktyczne przykłady

Data Cleaning in NLP with Python Examples
Czyszczenie danych tekstowych w języku Python i różne na to metody, takie jak usuwanie duplikatów, konwersja typów danych i usuwanie znaków specjalnych

Building Plotly Dash Apps on a Lakehouse with Databricks SQL
Zbudujmy aplikację-dashboard w pythonowym Dashu, korzystającą z Databricks jako zasobnika danych

#r

A data analyst workflow: SQL & tidyverse
Podstawowe zagadnienia pracy analitycznej łączące SQL i R.

How to create a clickable world cloud with Shiny
Klikalna chmurka słów w Shiny - na przykład służąca do filtrowania tabelki

#spark

Data processing with Spark: schema evolution
Z biegiem czasu schemat danych może ewoluować: dodawanie nowych pól/kolumn lub usuwanie istniejących, zmiana typu danych lub pustych cech to zdarzenia wymagające zmiany schematu. Jak sobie z tym radzić w Sparku?

Delta-RS and DuckDB - Read and Write Delta Without Spark
Delta to open-source’owa biblioteka umożliwiająca przechowywanie i analizę danych w formacie par klucz-wartość. DuckDB to biblioteka umożliwiająca analizę danych w formacie kolumnowym. DeltaRS to biblioteka umożliwiająca łączenie tych dwóch formatów w jednym repozytorium danych. I jeszcze na to wszystko Spark?