Newsletter Dane i Analizy, 2023-10-16

blog.prokulski.science 11 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Dzisiaj dwa raporty o AI. Pierwszy to bardziej zbiór krótkich esejów... gdzie prawie każdy prowadzi do rozbudowanego notebooka z szerszym komentarzem, wykresami i - jak to w Kaggle bywa - kodem. W Kaggle, bo to AI Report 2023 od Kaggle właśnie.

Drugi raport to State of AI Report 2023 od Air Street Capital. To opublikowany już szósty raz roczny raport o stanie sztucznej inteligencji. Ponad 160 stron, obejmujących:

Badania: Przełomy technologiczne i ich możliwości Przemysł: Obszary komercyjnego zastosowania sztucznej inteligencji i jej wpływ na biznes Polityka: regulacje dotyczące sztucznej inteligencji, jej implikacje gospodarcze i ewoluująca geopolityka sztucznej inteligencji Bezpieczeństwo: identyfikacja i łagodzenie katastrofalnych zagrożeń, jakie mogą dla nas stanowić przyszłe wysoce wydajne systemy sztucznej inteligencji Prognozy: to, w co wierzymy, iż się wydarzy, oraz przegląd wyników, aby zachować uczciwość


#ai_ml

Image Segmentation: An In-Depth Guide
Segmentacja obrazów - czyli skąd komputer wie w którym miejscu na zdjęciu jest kotek?

The Practical Guides for Large Language Models
Potężny zbiór wiedzy (taki hub - rozprowadzacz) o modelach językowych

#airflow

Python Sensor in Airflow
Zanim przejdziesz do kolejnych zadań, upewnij się, iż spełniony został określony warunek. Czyli jak w DAGu zapewnić czekanie aż coś się wydarzy?

#analiza_danych_koncepcje

Feature Selection Techniques in Machine Learning
Model nauczony na bardziej sensownych (więcej znaczących) cechach będzie lepszy. Które więc cechy wybrać?

Class Imbalance: Exploring Undersampling Techniques
Dowiedzmy się o undersamplingu i o tym, jak pomaga rozwiązać nierównowagę klas

#bazy_danych

Indexing in SQLAlchemy: Enhancing Database Performance
Tak naprawdę o zakładaniu indeksów w bazach relacyjnych. Tutaj przy użyciu SQLAlchemy

#big_data

Data Engineering End-to-End Project — Spark, Kafka, Airflow, Docker, Cassandra, Python
W jednym z "sąsiednich" tekstów mowa o tym co powinien wiedzieć i czym się zajmuje inżynier danych. A przepis na naukę tego wszystkiego tutaj, na przykładzie bardzo konkretnego (i dość powtarzalnego) projektu.

Trino Conference Tokyo 2023 - YouTube
Dwugodzinne podsumowanie Trino Conference sprzed kilku dni.

#ciekawostki

Jak śledzą nas strony internetowe partii politycznych?
Jak pod względem prywatności i zgodności z przepisami prezentują się strony WWW partii politycznych?

What is in that .git directory?
Co zawiera katalog .git oraz co tam w środku się dzieje?

Cloud Costs Every Programmer Should Know
Chcesz wystartować z własnym projektem i postanawiasz od razu zacząć budowę infrastruktury w chmurze. Jest tanio, fajnie i szybko... tak długo, jak projekt jest mały i hobbystyczny. Później koszty zaczynają rosnąć. Jak oszacować, ile będzie kosztować Cię utrzymanie projektu przy jego mocnym skalowaniu?

#devops

Dockerize Your Databases
Bardzo dobre wprowadzenie do tematu kontenerów i dokeryzacji na przykładzie serwera MySQL

#management

How to Become a Data Engineer?
Kim jest Data Engineer, co robi i co powinien umieć?

#programowanie_ogólnie

How to Write Documentation for Your Data Science Projects
Pisanie kodu to nie tylko funkcje i pętle, ale też bardzo dużo dokumentacji. Tutaj przeczytasz o tym jak zarządzić taką dokumentacją na przykładzie modelu ML

#python

Pytest Mastery: Unleashing Advanced Testing Techniques in Python
Znajdziesz tutaj sporo o testowaniu w Pythonie, a na pewno więcej niż tylko napisanie testu jednostkowego i jego uruchomienie.

API Testing with pytest
Skoro jesteśmy przy testowaniu - to zawęźmy to do testowania API

How to Extend Pandas DataFrames with Custom Methods to Supercharge Code Functionality and Readability
Czy pandasowy data frame (jako klasa) może być rozszerzony o dodatkowe metody? Może i tutaj znajdziesz przepis jak to zrobić.

Python Microservices
W Pythonie też można pisać aplikacje oparte na mikroserwisach. Tutaj dowiesz się o ogólnych założeniach i dobrych praktykach

GraphQL with Django: The Complete Guide to Building Efficient APIs
Odpowiadamy na zapytania GraphQL w API zbudowanym w Django. Spore wprowadzenie w temat GraphQL na początek, a potem jazda z konkretami

Building a Real-Time Auction Platform with Django Channels
Platforma do handlu real-time, zbudowana w Django

7 Best Python ORM Libraries You Should Know
Zamiast pisać kwerendy w SQL możesz użyć narzędzi ORM. A W Pythonie do dyspozycji masz kilka (a wszyscy i tak używają SQLAlchemy)

#wizualizacja_danych

Remind readers of the colors in your data visualization
Masz kolorowe wykresy na dashboardzie? Super, ale pamiętaj iż ludzki mózg zapamięta, iż określona kategoria (np. dane z konkretnego roku) ma konkretny kolor.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału