Newsletter Dane i Analizy, 2024-08-26

blog.prokulski.science 2 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Poniżej znajdziecie tekst opisujący Ghostbuster - narzędzie do wykrywania czy tekst został napisany przez AI. Dawno temu na blogu napisałem (kod jeszcze w R) coś w dużej mierze podobnego, ale tam celem było przyporządkowanie autora (jednego z dwóch) do tekstu. W banalny sposób, oparty jedynie na statystyce. Przeczytaj artykuł o Ghostbuster i zobacz jak zmieniło się to na przestrzeni lat (mój tekst ma 7 lat!)... W podobnym czasie na Kaggle był konkurs Spooky Author Identification - o wiele krótsze teksty, a w najnowszych rozwiązaniach pojawiają się transformery.

Z okolic LLM mamy również porównanie jak najpopularniejsze chat-boty radzą sobie z analizą danych.

A oprócz tego - dzisiaj polecam teksty związane z motywacją programistów oraz refaktoryzacją kodu. Do tego rzut okiem na problemy dużych (LinkedIn, Airbnb) i mamy komplet na ostatni tydzień wakacji.


#ai_ml

Ghostbuster: Detecting Text Ghostwritten by Large Language Models
Narzędzie do wykrywania, czy dany tekst został napisany przez AI. Ale nie tylko narzędzie, ale też opis mechanizmu jaki za tym stoi.

Transformers in music recommendation
YouTube Music i podejście do rekomendacji piosenek na bazie transformerów. Tekst od inżynierów z Google.

Fine-Tune the Audio Spectrogram Transformer with Transformers
Jak dostroić model transformatora spektrogramu audio do klasyfikacji dźwięku własnych danych dzięki ekosystemu Hugging Face.

Streamlit - Praktyczny Tutorial
Jak najlepiej wytłumaczyć biznesowi jak działa model ML? Pokazać go w formie interaktywnego demo! YT, 24 minuty, po polsku

#analiza_danych_koncepcje

Personal Data Classification
Czy podane dane są danymi osobowymi? O tym jaką drogę w szukaniu odpowiedzi na to pytanie przeszło Airbnb

#analiza_danych_projekty

Distance Metric Learning for Outlier Detection
Wykrywanie wartości odstających na podstawie odległości. O różnych typach miar odległości i tworzeniu własnej.

#architektura

Diving Deep into LinkedIn’s Data Infrastructure: My 6-Hour Learning & Key Takeaways
Jak zbudowany od strony danych jest LinkedIn?

#bazy_danych

Turning Your Relational Database into a Graph Database
W tym samouczku autor pokazuje, jak przekształcić relacyjny zbiór danych w graf wiedzy, korzystając z ekstrakcji encji opartej na sztucznej inteligencji.

Postgres as a search engine
Zbuduj hybrydową wyszukiwarkę z wyszukiwaniem semantycznym, pełnotekstowym i rozmytym - wszystko w Postgres

#ciekawostki

10 (Neo)vim Search and Replace Tips
Dla nerdów umiejących wyjść z VI ;-)

#data_engineering

How Did LinkedIn Handle 7 Trillion Messages Daily With Apache Kafka?
Czy dodawanie kolejnych maszyn do klastra wystarczy?

#devops

After 5 Years of Using tmux, Here are the Features
Kilka przydatnych cech tmuxa. Skrypt odpalający całą sesję? Pluginy? Jest właśnie o tym.

Modern Data Engineering with Kubernetes: End-to-End Data Pipeline
Wszystko czego potrzebujesz żeby przygotować "dżoby" w AirFlow.... postawionym na Kubernetesie. Razem z budowaniem tego Kubernetesa.

#llm_&_chatgpt

ChatGPT vs. Claude vs. Gemini for Data Analysis
Porównanie trzech narzędzi opartych na LLM w zagadnieniach analizy danych

#management

The 3 Motivational Forces of Developers
Autor artykułu po 15 latach pracy w IT doszedł do wniosku, iż najważniejszą cechą definiującą programistę jest jego źródło motywacji. Wyróżnia on trzy główne siły motywujące programistów. Jakie? O tym przeczytasz w artykule.

#programowanie_ogólnie

16 Brand New APIs Every Developer Should Use
Szumny tytuł, ale w tekście znajdziemy kilkanaście otwartych API, z którymi kooperacja we własnym kodzie pozwoli na rozwój umiejętności "rozmawiania RESTem".

Good Refactoring vs Bad Refactoring
Artykuł rozwiewa mity dotyczące refaktoryzacji kodu. Omawia on zalety i pułapki, wskazując na konkretne przykłady dobrych i złych refaktoryzacji kodu. Warto zobaczyć, iż są praktyki, które bardziej zaszkodzą naszemu projektowi, niż uproszczą i usprawnią go technologicznie.

#python

Automating ETL to SFTP Server Using Python and SQL
Przesyłanie plików między komputerami to świetny kandydat do automatyzacji. Tutaj mamy przykład, gdzie dane pobrane są z bazy PostgreSQL, poddane procesom ETL i jako wygenerowane pliki CSV przesłane na inną maszynę

Securing ML APIs with FastAPI
O tym jak zabezpieczyć dostęp do metod przygotowanych w FastAPI dzięki klucza lub tokenu JWT. W drugiej części nieco więcej o HTTPS.

10 Ways to Write Better Python Codes
Kilka tricków dla średnio zaawansowanych pythonistów - słownik z funkcjami, generatory i inne podobne rozwiązania

Building a Notification Service with FastAPI
Własne API do wysyłania powiadomień push (poprzez zewnętrzną usługę). Trochę o tym jak cudze opakować we własne :)

#sql

SQL User-Defined Functions (UDFs)
Samouczek na temat funkcji w SQL: kategorie, przypadki użycia i różnice w stosunku do procedur przechowywanych.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału