Newsletter Dane i Analizy, 2024-08-12

blog.prokulski.science 1 miesiąc temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Używacie Postmana do współpracy z API? Na przykład do testowania własnych usług albo rozpoznawania cudzych? Poznajcie Bruno - alternatywę, w 100% offline i open soruce. Bruno jest oddzielną aplikacją (okienkową i w CLI) oraz dodatkiem do VSCode. Zamiast czytać możecie też zobaczyć kilkunastominutowe demo.

"Czego powinniśmy się spodziewać, a co jest tylko szumem medialnym? Jaka jest różnica między obietnicą tej technologii a praktyczną rzeczywistością?". Najnowszy artykuł Stephanie Kirmer (Ekonomia generatywnej AI) przedstawia bezpośrednie, bezkompromisowe spojrzenie na biznesowe przypadki produktów AI oraz zadaje pytanie, o to jaki jest model biznesowy dla generatywnej AI, biorąc pod uwagę to, co wiemy dzisiaj o technologii i rynku?

Z kolei - w specjalnym odcinku podcastu "Silni w IT o technologiach" - razem z Tomkiem Wilińskim gościliśmy Bartka Gołębiowskiego i rozmawialiśmy o tym Czy hype już opadł? czyli o Gen AI w 2024 roku (YT, 26 minut).


#ai_ml

Optimizing Website Conversion Rates with Machine Learning
W pierwszej części mamy utworzenie sztucznych danych, potem zobrazowanie podstawowych parametrów związanych z wizytami na WWW - to już jest interesujące. Ale clue tekstu to modelowanie i wykorzystanie LightGBM do określenia konwersji użytkownika.

Tips for Tuning Hyperparameters in Machine Learning Models
Żeby z danej klasy modelu wycisnąć jak najwięcej warto dobrać odpowiednie hiperparametry tego modelu. Jak to zrobić? Ćwiczenie - wykorzystaj tekst wyżej i opisane tutaj metody w ramach jednego ćwiczenia.

#analiza_danych_koncepcje

A Visual Understanding of Decision Trees and Gradient Boosting
Głęboka analiza matematyczna wraz z dokładnym, fachowo zilustrowanym opisem drzew decyzyjnych oraz metody wzmacniania gradientowego, obejmująca zarówno ich działanie, jak i wdrożenie tej drugiej techniki od podstaw w Pythonie.

5 PCA Visualizations You Must Try On Your Next Data Science Project
Które cechy mają największe znaczenie? Jak oryginalne cechy wpływają na główne składowe? Odpowiedzi na te pytania dostarczą te 5 rodzajów wizualizacji.

#analiza_danych_projekty

Visualising Strava Race Analysis
Używasz Stravy? A jeździsz albo biegasz ze znajomymi na tej samej trasie, w tym samym czasie? Porównajcie swoje osiągi!

#big_data

Building a Local Data Lake from scratch
Projekt ma na celu pokazanie, jak zbudować system umożliwiający ekstrakcję, transformację i ładowanie danych do lokalnego data lake oraz zapytania tych danych dzięki silnika SQL. Data lake mamy w domu!

How To Log Databricks Workflows with the Elastic (ELK) Stack
W artykule omówiono wstępne aspekty konfigurowania niezawodnego rozwiązania do rejestrowania i monitorowania danych z wykorzystaniem pakietu ELK Stack w połączeniu z Databricks.

#data_engineering

The Top 10 Data Lifecycle Problems that Data Engineering Solves
Artykuł porusza niektóre z największych wyzwań, z jakimi mierzą się inżynierowie danych podczas pracy z potokami w całym cyklu życia danych. Jako inżynier danych często możesz mieć do czynienia z ogromnymi wolumenami różnych typów danych, w tym danymi niestrukturalnymi, pochodzącymi z różnych źródeł, takich jak bazy danych, jeziora danych i interfejsy API stron trzecich. Autor artykułu omawia wszystkie ważne etapy przetwarzania danych, od gromadzenia i analizy po przechowywanie i niszczenie, i dzieli się najlepszymi praktykami do stosowania na co dzień.

#java

Insert JSON Object to PostgreSQL using preparedStatement
Java dla początkujących, w szczególności tych, którzy w ramach PostgreSQL chcą trzymać obiekty JSON.

#llm_&_chatgpt

The Art of Prompt Writing
W świecie sztucznej inteligencji i uczenia maszynowego umiejętność pisania promptów stała się czymś kluczowym. W tym artykule znajdziesz zbiór kilkunastu porad, które pozwolą Ci tworzyć lepsze zapytania i lepiej zrozumieć, jak porozumiewać się z modelami językowymi.

#mlops

Algorithm-Agnostic Model Building with MLFlow
Przyjazny dla początkujących przewodnik krok po kroku dotyczący tworzenia ogólnych potoków ML przy użyciu mlflow.pyfunc

#python

Split Excel Worksheets with Python: A Step-by-Step Guide
Ostatnio łączyliśmy niemalże 400 plików CSV w jedno (Sas nie dał rady z kolumnami które miały takie same nagłówki, ale w różnej kolejności... Nikt: "Biedny Sas"). Tutaj mowa o rozdzielaniu arkusza Excela (i pewnie dałoby się to zrobić samym Pandasem)

Python Poetry: The Best Data Science Dependency Management Tool?
pyproject.toml zamiast requirements.txt - czyli o panowaniu nad zależnościami poprzez poezję.

Asynchronous Iterators and Iterables in Python
Asynchroniczne funkcje są stosunkowo proste do opanowania, a iteratory? Ten tekst przedstawia wszystko co niezębne w tej kwestii.

Top 15 Plotly Features for Stunning Data Visualizations in Python
Jakieś 10 typów wykresów w Plotly i garść dodatkowych uwag na ich temat.

Spatial Interpolation in Python
Mamy dane przestrzenne, ale w niektórych miejscach tej przestrzeni są białe plamy. Jak je wypełnić? Tak, aby odległość od miejsc, gdzie plam nie ma miała znaczenie?

#spark

The Truth About PySpark’s Repartition
Funkcja repartition() - jak naprawdę dystrybuuje dane w partycjach?

#sql

Guide to Read and Write SQL Queries
Jak czytelnie pisać i jak czytać zapytania SQL. Dla początkujących, ale choćby senior może zerknąć i być może zmienić swoje nawyki, dzięki czemu kod będzie czytelniejszy.

#ux

Chinese app design: weird, but it works. Here’s why
Interesujące wideo (10 minut, YT, po angielsku) o tym dlaczego chińskie aplikacje mobilne mają wszystko (aplikacja typu WeChat - niby czat, ale można nią płacić, skanować QR kody i robić masę innych rzeczy) i wyglądają tak pstrokato. Mały spoiler, ale w celu zachęcenia: kontekst kulturowy.

#wizualizacja_danych

3 Key Things You Must Change Right Now To Make Your Charts Stand Out
Tekst o dostosowaniu domyślnego wykresu przygotowanego przez pythonową bibliotekę Matplotlib do wersji bardziej czytelnej. Niby Python, ale jednak o poprawianiu czytelności wykresów.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału