Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Jak mówi Google sesja główna matury 2023 rozpocznie się już 4 maja - zatem już w tym tygodniu.
Nie wiem ilu czytelników jest przed maturą (z przeprowadzonych dawno temu ankiet wynika, iż bardziej jesteście na studiach lub zaraz je kończycie), ale jeżeli ktoś zdaje w tym roku to życzę wszystkiego najlepszego.
Jeśli zaś jesteście rzeczywiście pod koniec studiów to prawdopodobnie za węgłem czai się poszukiwanie pracy. Z tego okazji dzisiaj dwa teksty, które w obrębie tematyki tego newslettera krążą, a mogą pomóc przy szukaniu pracy. Może bardziej na rozmowie rekrutacyjnej. Pierwszy z nich to "Machine Learning System Design Interview Cheat Sheet" zawierający dobrą listę pytań dla projektujących systemy ML (to jest cykl, konkretnie druga część, a inne znajdziecie pod kolejnymi linkami: pierwsza, trzecia, czwarta), zaś "30 Common CI/CD Interview Questions (with Answers)" skierowane jest bardziej do tych, którzy wolą wdrażać i utrzymywać oprogramowanie.
Jeśli zaś nie masz zamiaru zajmować się nauką, powtarzaniem i utrwalaniem wiedzy to... to nie. Korzystaj z długiego weekendu, a teksty z niniejszego wydania przeczytaj później.
#AI_ML
More Design Patterns For Machine Learning Systems
Tekst przedstawia kilka wzorców budowania systemów ML - niektóre z nich mogą pomóc w optymalizacji procesów ML, inne w uzyskaniu lepszych efektów przygotowanych modeli.
Machine Learning System Design Interview Cheat Sheet
Jeśli przyjdzie Ci zmieniać pracę to ten zestaw pytań pomoże w sprawdzeniu Twojej wiedzy o projektowaniu systemów uczenia maszynowego. Oczywiście można się sprawdzić bez zmieniania pracy :)
Closed AI Models Make Bad Baselines
Zamknięte modele AI (zdefiniowane w tekście) są często uważane za dobre punkty wyjścia. Autorzy tekstu przedstawiają swoje zdanie na ten temat.
#airflow
Making Async API Calls With Airflow Dynamic Task Mapping
Zbieranie danych dzięki wywołań API i dynamicznego mapowania zadań - wszystko ubrane w zadania w Airflow
#analiza_danych_koncepcje
Recommender System: Collaborative Filtering with Matrix Factorization
Matrix factorization to metoda, która jest używana do znajdowania podobieństw pomiędzy użytkownikami lub produktami. Jest ona często używana w systemach rekomendacji collaborative filtering.
Semi-Supervised Learning: Label Spreading for Classification
Co to jest algorytm Label Spreading i jak może być wykorzystany do klasyfikacji?
#bazy_danych
Nine ways to shoot yourself in the foot with PostgreSQL
Zastosowania bazy danych PostgreSQL mogą prowadzić do poważnych problemów, jeżeli nie jest ona dobrze zarządzana. Przedstawiono tutaj 9 "sposobów" na strzelenie sobie w stopę przy utrzymaniu baz danych
#ciekawostki
Daily Dose of Data Science
Książka (link w treści, prowadzi do PDFa znajdującego się na Google Drive) zawierająca obszerny zbiór przeróżnych zagadnień bardziej lub mniej związanych z data science.
A comprehensive guide for getting started with OpenStreetMap
OpenStreetMap (OSM) to darmowa mapa świata, którą można edytować i używać do własnych celów. Tekst przedstawia podstawowe informacje o tym, w jaki można zacząć korzystać z tego narzędzia.
Shape Up Your Maps with Shapefiles
Z kolei Shapefiles to popularny format pliku używany do przechowywania informacji o kształtach, w tym mapach. Tutaj znajdziesz wprowadzenie do wykorzystania plików SHP (w Pythonie)
#devops
GitHub Actions (Branch Protection, Automated Testing)
Jak wykorzystać Github Actions w praktyce? Film przedstawia podstawową konfigurację oraz sposób na automatyczne testowanie zmian wchodzących w ramach pull requestów
How to Debug Your Microservice Python Code Running Remotely in Docker
Tekst opisuje sposób na debugowanie kodu Python, który jest uruchamiany zdalnie w Dockerze
30 Common CI/CD Interview Questions (with Answers)
Szybkie podsumowanie z zagadnień Continuous Integration/Continuous Delivery - jako zestaw często padających pytań na rekrutacjach
#python
3 Efficient Ways to Filter a Pandas DataFrame Column by Substring
Jak filtrować pandasową tabelkę po zawartości kolumny z tekstami? Praktyczne przykłady
Data Cleaning in NLP with Python Examples
Czyszczenie danych tekstowych w języku Python i różne na to metody, takie jak usuwanie duplikatów, konwersja typów danych i usuwanie znaków specjalnych
Building Plotly Dash Apps on a Lakehouse with Databricks SQL
Zbudujmy aplikację-dashboard w pythonowym Dashu, korzystającą z Databricks jako zasobnika danych
#r
A data analyst workflow: SQL & tidyverse
Podstawowe zagadnienia pracy analitycznej łączące SQL i R.
How to create a clickable world cloud with Shiny
Klikalna chmurka słów w Shiny - na przykład służąca do filtrowania tabelki
#spark
Data processing with Spark: schema evolution
Z biegiem czasu schemat danych może ewoluować: dodawanie nowych pól/kolumn lub usuwanie istniejących, zmiana typu danych lub pustych cech to zdarzenia wymagające zmiany schematu. Jak sobie z tym radzić w Sparku?
Delta-RS and DuckDB - Read and Write Delta Without Spark
Delta to open-source’owa biblioteka umożliwiająca przechowywanie i analizę danych w formacie par klucz-wartość. DuckDB to biblioteka umożliwiająca analizę danych w formacie kolumnowym. DeltaRS to biblioteka umożliwiająca łączenie tych dwóch formatów w jednym repozytorium danych. I jeszcze na to wszystko Spark?
#wizualizacja_danych
Graph Networks Visualization with pyvis and keyword extraction
Python do wizualizacji grafów i sieci społecznych.
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)