Newsletter Dane i Analizy, 2024-06-03

blog.prokulski.science 4 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Po dłuższym weekendzie mocny w AI numer newslettera przed Tobą. Numer, który pokrywa takie obszary AI jak obraz, tekst oraz dźwięk.
W ramach obrazu mamy tutorial PyTorcha, ale dodatkowo być może zainteresuje Cię informacja, iż modele rozpoznawania obiektów na obrazach YOLO dotarły już do wersji 10 - tutaj review pejpera z opisem YOLOv10, w treści też linki do wytrenowanych modeli i kodu wykorzystujących te modele.

Oprócz AI kilka wskazówek, które mogą przydać się przy wyborach SQL czy NoSQL albo FastAPI czy Flask. Do tego aż dwa teksty o modelowaniu struktury danych w bazie, w tym bardzo konkretny (i obszerny) tutorial o kalendarzach.


#ai_ml

Training a Computer Vision Algorithm
Wprowadzenie do PyTorch i użycia go w Computer Vision. Czyli jak rozpoznać manualnie pisane literki ze zbioru MNIST.

Building LLaMA 3 From Scratch
Skoro możemy od zera zbudować model w ramach Computer Vision, to dlaczego nie w ramach LLM?

A Complete Guide to BERT with Code
Wszystko co chcesz wiedzieć o językowych modelach BERT

Fine-tuning Faster R-CNN on Sea Rescue Dataset
Poszukiwanie morskich rozbitków. Czyli o dostrajaniu Faster R-CNN

Performing Named Entity Recognition on Audio Data
Rozpoznawanie nazw (NER) z plików audio. W przykładzie wykorzystane jest API od AssemblyAI, które daje po drodze kilka ciekawych informacji wyciągniętych z pliku dźwiękowego - chociażby dla tego warto przejrzeć ten tekst.

#analiza_danych_koncepcje

Supply Chain Process Scheduling with Python
Trzy maszyny (albo trzy czynności), które coś robią z produktem. Żaden z produktów nie może być "obsługiwany" przez dwie maszyny jednocześnie. Jak ułożyć linię produkcyjną, tak aby wykorzystanie maszyn było najbardziej optymalne a i produkcja towarów jak najszybsza (najwięcej wyprodukowanych towarów w jednostce czasu)?

#analiza_danych_projekty

Economics of LEGO Sets with Data Science
Coś o klockach LEGO. A tak na prawdę o zbieraniu i analizowaniu danych o zestawach LEGO - bardzo fajny projekt analityczny, interesujące stryktury danych które przygotowano na potrzeby projektu.

#architektura

Database Design for Google Calendar
Model danych i uch ułożenie w bazie to jeden z ważniejszych elementów projektu informatycznego. tutaj znajdziesz obszerny tutorial o tym, jak zamodelować dane do rozwiązania typu kalendarz. Świetna dawka wiedzy!

#bazy_danych

Database Design
Jak przygotować schemat bazy danych? Czy są jakieś dobre praktyki albo sposoby, które warto stosować?

Connecting the Dots with Neo4j
O bazach grafowych na przykładzie NBA

How I choose between SQL and No-SQL solutions
W sekcji poświęconej Pythonowi mamy wybór pomiędzy FastAPI i Flask, a tutaj - pomiędzy bazami danych "w typie" SQL (czyli relacyjne bazy danych) a No-SQL (czyli bazy dokumentowe).

#ciekawostki

How the Guinness Brewery Invented the Most Important Statistical Method in Science
Najpopularniejszy test istotności pochodzi z browaru Guinness. Oto jak on działa.

#management

Unexpected Tips for Data Managers
Trzy obszary zarządzania zespołami "od danych".

#python

Choosing FastAPI over Flask
API w Pythonie można napisać we Flasku albo w FastAPI. Kiedy użyć którego? Może któryś z tych pakietów lepiej pasuje do API a inny lepiej do np. serwowania prostych stron www?

Migrating From Flake8 and Black to Ruff
Ruff to zyskujący w tej chwili popularność linter (zestaw narzędzi służących formatowaniu kodu źródłowego) dla Pythona. Jak wygląda na tle popularnych Black i Flake8?

How to Read and Write Parquet Files with Python
Pliki w formacie Apache Parquet są bardzo popularne w świecie większych danych. Umie je czytać i zapisywać Pandas, Spark, radzi sobie z nimi Hive. A jak użyć ich dzięki PyArrow?

Building Vector Databases with FastAPI and ChromaDB
Przykładowe użycie bazy wektorowej w ramach FastAPI - budowa usługi szukającej podobnych tekstów

#r

Easy data cleaning with the janitor package
Pakiet janitor ułatwia najnudniejszą część pracy z danymi - ich porządkowanie, czyszczenie, systematyzowanie nazw kolumn itp. zabiegi. To pakiet dla R, a dla Pythona jest odpowiednik o nazwie pyjanitor.

#wizualizacja_danych

Awesome Strategies to Visualize Change with Time
Kilka pomysłów jak efektownie (i efektywnie - co adekwatnie ważniejsze przy prezentacji danych) pokazać zmianę w czasie?


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału