Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Mój stary to fanatyk sztucznej inteligencji.. Kto zna to zna, Michał przygotował (z użyciem AI) przeróbkę znanej copy-pasty Malcolma XD.
Ponieważ ChatGPT tak mocno rządzi w mediach ostatnio, dzisiaj specjalna sekcja na ten temat.
W tej dedykowanej sekcji przedstawiam więc kilka inspirujących tekstów, które pokazują drogę od tego w czym i jak ChatGPT może pomóc, do konkretnych rozwiązań zastępujących na przykład StackOverflow, aby na koniec pokazać jak wykorzystać API przygotowane przez OpenAI z poziomu kodu.
Jednocześnie nadrabiamy (z braku newslettera w poprzednim tygodniu) braki i jest trochę o Pythonie (jeśli piszemy w tym języku to czytamy wszystko po kolei, poziom rośnie z kolejnymi tekstami), wizualizacji danych i ogólnym ich wykorzystaniu, przetwarzaniu i tak dalej, i tym podobne - tym przecież zajmuję się na co dzień :)
Zaczęliśmy od pasty o AI, ale jest też wersja tej samej pasty dla fanów książek - czy też może czytników e-booków raczej. Ja zaś dla fanów książek polecam dobrze znaną mi prywatnie autorkę kanału Znalezione Przeczytane - kanału o książkach dostępnego na YouTube i w Spotify. Znajdziesz tam recenzje ostatnio przeczytanych przez Anię książek, które pomogą Ci wzbogacić swoją bibliotekę. Polecam i zapraszam w imieniu żony :)
O danych i programowaniu nic tam nie ma, od tego jest fanpage Dane i Analizy oraz niniejszy newsletter.
#AI_ML
Image Segmentation using Tensorflow with Deep Learning
Wprowadzenie do segmentacji obrazów - z OpenCV i TensorFlow
Audio Classification with Deep Learning in Python
Klasyfikacja dźwięków (na przykład rozpoznawanie ptaków po ich śpiewie) przy użyciu sieci neuronowych i PyTorch (oraz FFT = Fast Fourier Transformation)
How To Deploy PyTorch Models as Production-Ready APIs
A jeżeli już mamy model PyTorch to wdróżmy go jako gotowe API
#ChatGPT
Maximizing Your Productivity: 5 Innovative Ways to Utilize ChatGPT in Your Work
Pięć sposobów na wykorzystanie ChatGPT w pracy, z naciskiem na pracę programistów.
How I Save Over 5 Hours Every Week Using ChatGPT As A Data Scientist
Do czego może użyć data scientist (czy też dowolny programista adekwatnie, bo o rzeczach związanych stricte z danymi jest tu dość mało) chatbotów? I jak wpływa to na szybkość jego pracy?
Generating Customized Emails using OpenAI Model
Poeta krakowski mówi w wierszu "Wolałbym, żeby samo się mówiło, żeby samo się grało", my często wolelibyśmy, żeby samo się pisało. No to proszę bardzo - prosta Flaskowa aplikacja do pisania mail (z użyciem ChatGPT oczywiście)
How to Fine-Tune an NLP Classification Model with OpenAI - Predictive Hacks
ChatGPT to nie tylko generowanie odpowiedzi na pytania, ale też pomoc w dostosowaniu modeli. Artykuł opisuje krok po kroku, jak użyć narzędzi od OpenAI aby dostosować model do kategoryzacji maili na spam i nie spam
Making a Data Visualization With No Coding Skills Using ChatGPT
Tym razem wykorzystanie ChatGPT do przygotowania kody obrazującego dane z pliku CSV na mapie. Może zastąpić programistę ;-), na pewno przyspiesza pracę podając gotowe bloki kodu
I asked ChatGPT to build a data pipeline, then I ran it
Autor tego tekstu opisuje doświadczenie związane z używaniem bota do tworzenia pipeline’ów danych przygotowanych w PySparku. Zadziałało?
How To Use ChatGPT API for Direct Interaction From Colab or Databricks
Jak używać API ChatGPT do bezpośredniej interakcji z Colabem lub Databricks? Jest to przydatne, umożliwia łatwiejsze wykonywanie operacji na danych.
#airflow
Building an End-to-End Data Pipeline
Tekst opisuje stworzenie przepływu danych od źródła (JSON pozyskany przez API) do celu (bucket S3) z wykorzystaniem Airflow
#analiza_danych_koncepcje
An Amazing Way to Bundle Transformations (with Sci-Kit Learn)
Pipeline to wspaniały sposób na zbieranie transformacji w jednym miejscu. Dzięki temu jest łatwiej zarządzać kodem i łatwiej jest go przetestować.
Time-Series Forecasting: Deep Learning vs Statistics
Czy algorytmy uczenia maszynowego i metod statystycznych w zakresie prognozowania czasu trwania lotów dają podobne wyniki? Która metoda sprawdza się lepiej,daje lepsze (z mniejszym błędem) wyniki?
#ciekawostki
Top 10 AI Customer Segmentation Tools for Marketing
Przegląd narzędzi do segmentacji klientów
Real-Time Context and Persona Drive Better-Suited Products and Customer Experiences
Personalizacja w marketingu i wpływ, jaki może ona mieć na doświadczenia klientów. Adam Kawa (CEO GetInData) uważa, iż personalizacja jest najważniejszym elementem wpływającym na to, jak klienci odbierają produkty i usługi. Wskazuje również, iż personalizacja jest najlepszym sposobem na zwiększenie sprzedaży.
#kubernetes
The Complete Guide to Creating a Kubernetes Cluster on Google Cloud and Deploying Your Project
Jak stworzyć klaster Kubernetes na platformie Google Cloud i wdrożyć na nim projekt? Przewodnik krok po kroku opisuje wszystkie etapy, jakie należy wykonać aby osadzić na GCP dockera z Twoją aplikacją
The API Traffic Analyzer for Kubernetes
Kubeshark to narzędzie do analizy ruchu sieciowego w klastrach Kubernetes. Umożliwia ono monitorowanie, debugowanie i optymalizację aplikacji w czasie rzeczywistym
#mlops
Structuring Your Machine Learning Project with MLOps in Mind
Projektowanie projektu ML z uwzględnieniem procesów MLOps wydaje się w obecnych czasach adekwatnie standardowym podejściem. Bo: 1 ) wdrażanie: jak będziesz wdrażać swój model w środowisku produkcyjnym? 2) utrzymywanie: Jak będziesz monitorować i utrzymywać swój model w środowisku produkcyjnym? 3) ewaluacja: Jak będziesz ewaluować swój model w środowisku produkcyjnym?
#python
19 Sweet Python Syntax Sugar for Improving Your Coding Experience
Kilka rozwiązań w "pythonic way" pisania kodu. Składnia tego języka pozwala na wiele skrótów, które warto poznać
Cosine Similarity for 1 Trillion Pairs of Vectors
Odległość kosinusowa to popularna i sprawdzona miara między wektorami. Ale porównanie czy też obliczenie jej dla par (każdy z każdym) milionów wektorów może być problematyczne pod względem wykorzystania pamięci. Jak sobie z tym poradzić?
Discovering Chess Openings in Grandmasters’ Games using Python and DuckDB
Tekst przedstawia przykład użycia języka Python i bazy danych DuckDB do analizy gier szachowych mistrzów. Dzięki temu nauczyć się możesz użycia DuckDB z Pythonem (i może też trochę gry w szachy)
Comprehensive Guide to Concurrency and Parallelism in Python
Jak zrównoleglić wykonywane procesy w Pythonie? Autor tego tekstu opisuje kilka sposobów na uzyskanie równoległości przetwarzania zadań - w formie procesów i wątków - takich jak użycie modułu threading, modułu multiprocessing, modułu concurrent.futures oraz biblioteki asyncio
How to Use Annotated Typing Feature of FastAPI
Adnotacje typów są opcjonalne, ale mogą pomóc w utrzymaniu kodu i zapobiec błędom, a w zestawieniu z FastAPI wypadają bardzo przyjemnie. Jeszcze bardziej przyjemnie całość wypada po dorzuceniu Pydantic i Pandera, ale to odrębny temat
#r
Detecting heart murmurs from time series data in R
Analiza szeregów czasowych może odkryć ukryte struktury w danych gromadzonych w czasie. W tym poście mamy do czynienia z wyodrębnieniem cech szeregów czasowych i przewidywaniem, które nagrania bicia serca zawierają szmery serca
Progress on R-spatial evolution
Jeśli interesujesz się obrazowaniem danych na mapach w R to prawdopodobnie znasz któryś z wymienionych pakietów. Szybki przegląd i informacje o tym jak zmieniają się w czasie. Może przesiadka na coś nowszego?
#spark
Spark UDF - Deep Insights in Performance
Tekst opisuje możliwości i sposoby optymalizacji funkcji UDF w Apache Spark. Aby zoptymalizować wydajność funkcji UDF należy pamiętać o kilku czynnikach, takich jak unikanie przesyłania danych do innego węzła, używanie kodu bezpiecznego, kompilowanie kodu przed wykonaniem i testowaniem kodu.
#wizualizacja_danych
Charts that Tell a Story
Kilka prostych zabiegów, typu tytuły, opisy, komentarze i legenda wykresu i już prezentowane dane są o wiele bardziej czytelne. Gratis - przykłady kodu w Pythonie
Creating beautiful Hexagon maps with Python
Mapy w kształcie sześciokątów są łatwiejsze do odczytania niż tradycyjne mapy kwadratowe (gdyby to zaś były kółka to nachodziłyby na siebie). Jak je przygotować w Pythonie? Oczywiście jest do tego biblioteka, która sprawę ułatwia
Enhance Your ML Experimentation Workflow with Real-Time Plots
Użyj wykresów generowanych w czasie rzeczywistym przy okazji eksperymentowania z danymi i pracy z uczeniem modeli
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)