Newsletter Dane i Analizy, 2023-04-17

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Mój stary to fanatyk sztucznej inteligencji.. Kto zna to zna, Michał przygotował (z użyciem AI) przeróbkę znanej copy-pasty Malcolma XD.
Ponieważ ChatGPT tak mocno rządzi w mediach ostatnio, dzisiaj specjalna sekcja na ten temat.

W tej dedykowanej sekcji przedstawiam więc kilka inspirujących tekstów, które pokazują drogę od tego w czym i jak ChatGPT może pomóc, do konkretnych rozwiązań zastępujących na przykład StackOverflow, aby na koniec pokazać jak wykorzystać API przygotowane przez OpenAI z poziomu kodu.

Jednocześnie nadrabiamy (z braku newslettera w poprzednim tygodniu) braki i jest trochę o Pythonie (jeśli piszemy w tym języku to czytamy wszystko po kolei, poziom rośnie z kolejnymi tekstami), wizualizacji danych i ogólnym ich wykorzystaniu, przetwarzaniu i tak dalej, i tym podobne - tym przecież zajmuję się na co dzień :)

Zaczęliśmy od pasty o AI, ale jest też wersja tej samej pasty dla fanów książek - czy też może czytników e-booków raczej. Ja zaś dla fanów książek polecam dobrze znaną mi prywatnie autorkę kanału Znalezione Przeczytane - kanału o książkach dostępnego na YouTube i w Spotify. Znajdziesz tam recenzje ostatnio przeczytanych przez Anię książek, które pomogą Ci wzbogacić swoją bibliotekę. Polecam i zapraszam w imieniu żony :)
O danych i programowaniu nic tam nie ma, od tego jest fanpage Dane i Analizy oraz niniejszy newsletter.


#AI_ML

Image Segmentation using Tensorflow with Deep Learning
Wprowadzenie do segmentacji obrazów - z OpenCV i TensorFlow

Audio Classification with Deep Learning in Python
Klasyfikacja dźwięków (na przykład rozpoznawanie ptaków po ich śpiewie) przy użyciu sieci neuronowych i PyTorch (oraz FFT = Fast Fourier Transformation)

How To Deploy PyTorch Models as Production-Ready APIs
A jeżeli już mamy model PyTorch to wdróżmy go jako gotowe API

#ChatGPT

Maximizing Your Productivity: 5 Innovative Ways to Utilize ChatGPT in Your Work
Pięć sposobów na wykorzystanie ChatGPT w pracy, z naciskiem na pracę programistów.

How I Save Over 5 Hours Every Week Using ChatGPT As A Data Scientist
Do czego może użyć data scientist (czy też dowolny programista adekwatnie, bo o rzeczach związanych stricte z danymi jest tu dość mało) chatbotów? I jak wpływa to na szybkość jego pracy?

Generating Customized Emails using OpenAI Model
Poeta krakowski mówi w wierszu "Wolałbym, żeby samo się mówiło, żeby samo się grało", my często wolelibyśmy, żeby samo się pisało. No to proszę bardzo - prosta Flaskowa aplikacja do pisania mail (z użyciem ChatGPT oczywiście)

How to Fine-Tune an NLP Classification Model with OpenAI - Predictive Hacks
ChatGPT to nie tylko generowanie odpowiedzi na pytania, ale też pomoc w dostosowaniu modeli. Artykuł opisuje krok po kroku, jak użyć narzędzi od OpenAI aby dostosować model do kategoryzacji maili na spam i nie spam

Making a Data Visualization With No Coding Skills Using ChatGPT
Tym razem wykorzystanie ChatGPT do przygotowania kody obrazującego dane z pliku CSV na mapie. Może zastąpić programistę ;-), na pewno przyspiesza pracę podając gotowe bloki kodu

I asked ChatGPT to build a data pipeline, then I ran it
Autor tego tekstu opisuje doświadczenie związane z używaniem bota do tworzenia pipeline’ów danych przygotowanych w PySparku. Zadziałało?

How To Use ChatGPT API for Direct Interaction From Colab or Databricks
Jak używać API ChatGPT do bezpośredniej interakcji z Colabem lub Databricks? Jest to przydatne, umożliwia łatwiejsze wykonywanie operacji na danych.

#airflow

Building an End-to-End Data Pipeline
Tekst opisuje stworzenie przepływu danych od źródła (JSON pozyskany przez API) do celu (bucket S3) z wykorzystaniem Airflow

#analiza_danych_koncepcje

An Amazing Way to Bundle Transformations (with Sci-Kit Learn)
Pipeline to wspaniały sposób na zbieranie transformacji w jednym miejscu. Dzięki temu jest łatwiej zarządzać kodem i łatwiej jest go przetestować.

Time-Series Forecasting: Deep Learning vs Statistics
Czy algorytmy uczenia maszynowego i metod statystycznych w zakresie prognozowania czasu trwania lotów dają podobne wyniki? Która metoda sprawdza się lepiej,daje lepsze (z mniejszym błędem) wyniki?

#ciekawostki

Top 10 AI Customer Segmentation Tools for Marketing
Przegląd narzędzi do segmentacji klientów

Real-Time Context and Persona Drive Better-Suited Products and Customer Experiences
Personalizacja w marketingu i wpływ, jaki może ona mieć na doświadczenia klientów. Adam Kawa (CEO GetInData) uważa, iż personalizacja jest najważniejszym elementem wpływającym na to, jak klienci odbierają produkty i usługi. Wskazuje również, iż personalizacja jest najlepszym sposobem na zwiększenie sprzedaży.

#kubernetes

The Complete Guide to Creating a Kubernetes Cluster on Google Cloud and Deploying Your Project
Jak stworzyć klaster Kubernetes na platformie Google Cloud i wdrożyć na nim projekt? Przewodnik krok po kroku opisuje wszystkie etapy, jakie należy wykonać aby osadzić na GCP dockera z Twoją aplikacją

The API Traffic Analyzer for Kubernetes
Kubeshark to narzędzie do analizy ruchu sieciowego w klastrach Kubernetes. Umożliwia ono monitorowanie, debugowanie i optymalizację aplikacji w czasie rzeczywistym

#mlops

Structuring Your Machine Learning Project with MLOps in Mind
Projektowanie projektu ML z uwzględnieniem procesów MLOps wydaje się w obecnych czasach adekwatnie standardowym podejściem. Bo: 1 ) wdrażanie: jak będziesz wdrażać swój model w środowisku produkcyjnym? 2) utrzymywanie: Jak będziesz monitorować i utrzymywać swój model w środowisku produkcyjnym? 3) ewaluacja: Jak będziesz ewaluować swój model w środowisku produkcyjnym?

#python

19 Sweet Python Syntax Sugar for Improving Your Coding Experience
Kilka rozwiązań w "pythonic way" pisania kodu. Składnia tego języka pozwala na wiele skrótów, które warto poznać

Cosine Similarity for 1 Trillion Pairs of Vectors
Odległość kosinusowa to popularna i sprawdzona miara między wektorami. Ale porównanie czy też obliczenie jej dla par (każdy z każdym) milionów wektorów może być problematyczne pod względem wykorzystania pamięci. Jak sobie z tym poradzić?

Discovering Chess Openings in Grandmasters’ Games using Python and DuckDB
Tekst przedstawia przykład użycia języka Python i bazy danych DuckDB do analizy gier szachowych mistrzów. Dzięki temu nauczyć się możesz użycia DuckDB z Pythonem (i może też trochę gry w szachy)

Comprehensive Guide to Concurrency and Parallelism in Python
Jak zrównoleglić wykonywane procesy w Pythonie? Autor tego tekstu opisuje kilka sposobów na uzyskanie równoległości przetwarzania zadań - w formie procesów i wątków - takich jak użycie modułu threading, modułu multiprocessing, modułu concurrent.futures oraz biblioteki asyncio

How to Use Annotated Typing Feature of FastAPI
Adnotacje typów są opcjonalne, ale mogą pomóc w utrzymaniu kodu i zapobiec błędom, a w zestawieniu z FastAPI wypadają bardzo przyjemnie. Jeszcze bardziej przyjemnie całość wypada po dorzuceniu Pydantic i Pandera, ale to odrębny temat

#r

Detecting heart murmurs from time series data in R
Analiza szeregów czasowych może odkryć ukryte struktury w danych gromadzonych w czasie. W tym poście mamy do czynienia z wyodrębnieniem cech szeregów czasowych i przewidywaniem, które nagrania bicia serca zawierają szmery serca

Progress on R-spatial evolution
Jeśli interesujesz się obrazowaniem danych na mapach w R to prawdopodobnie znasz któryś z wymienionych pakietów. Szybki przegląd i informacje o tym jak zmieniają się w czasie. Może przesiadka na coś nowszego?

#spark

Spark UDF - Deep Insights in Performance
Tekst opisuje możliwości i sposoby optymalizacji funkcji UDF w Apache Spark. Aby zoptymalizować wydajność funkcji UDF należy pamiętać o kilku czynnikach, takich jak unikanie przesyłania danych do innego węzła, używanie kodu bezpiecznego, kompilowanie kodu przed wykonaniem i testowaniem kodu.

#wizualizacja_danych

Charts that Tell a Story
Kilka prostych zabiegów, typu tytuły, opisy, komentarze i legenda wykresu i już prezentowane dane są o wiele bardziej czytelne. Gratis - przykłady kodu w Pythonie

Creating beautiful Hexagon maps with Python
Mapy w kształcie sześciokątów są łatwiejsze do odczytania niż tradycyjne mapy kwadratowe (gdyby to zaś były kółka to nachodziłyby na siebie). Jak je przygotować w Pythonie? Oczywiście jest do tego biblioteka, która sprawę ułatwia

Enhance Your ML Experimentation Workflow with Real-Time Plots
Użyj wykresów generowanych w czasie rzeczywistym przy okazji eksperymentowania z danymi i pracy z uczeniem modeli


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału