Newsletter Dane i Analizy, 2023-11-13

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Za chwilę w świat pójdą pierwsze odcinki nowego podcastu przygotowanego przez zespół Big Data & AI PZU: #SilniwIT o technologiach. To seria, w ramach której rozmawiam (wspólnie z Tomkiem z zespołu Fabryki Sztucznej Inteligencji) z gośćmi o szeroko pojętej sztucznej inteligencji. Wypatrujcie postów na FB, LinkedIn i pewnie w przyszłym newsletterze - mam nadzieję, iż jak na amatorów - daliśmy radę. Staraliśmy się ucinać korpo-gadkę, powinno być interesująco ;-)

Wcześniej możecie posłuchać podsumowania z pierwszej konferencji OpenAI (firmy, która stworzyła ChatGPT) dla developerów w podcaście Technofobia Artura Kurasińskiego.

Jeśli zaś potrzebujesz "mięsa" pomocnego przy nauce deep learnigu - proszę bardzo, oto książka (ciągle powstająca, a już darmowa) Understanding Deep Learning. Więcej inspirujących materiałów - poniżej :)


#ai_ml

Lightweight GPT-4 Vision processing over the Webcam
Projekt pokazujący jak AI pozwala na opisanie tego co widzi oko kamery.

#analiza_danych_koncepcje

Czy warto zebrać więcej danych?
Zebraliśmy 60 tys. obserwacji i zbudowaliśmy model ML. ale wynik nie jest zadowalający. Czy jeżeli zbierzemy więcej, wynik będzie lepszy?

7 Examples to Master Categorical Data Operations with Python Pandas
Tak zwane "labelki" z reguły opisują kategorie naszych danych. A Pandas pozwala na traktowanie ich w należyty sposób.

#analiza_danych_projekty

Fashion retail shop; Data pipeline end-to-end
Ciekawy projekt "przerzucania i pokazywania danych" - dość typowy, tym razem oparty w całości na elementach z Google Cloud Platform oraz kodzie napisanym w Pythonie

Building a Data Streaming Pipeline: Leveraging Kafka, Spark, Airflow, and Docker
Obrodziło dzisiaj w data engineering - oto kolejny projekt na temat wykorzystania Kafki, AirFlow i Sparka do przerzucania i przekształcania danych. Ale im więcej przykładów tym lepiej przyswojona wiedza!

Recreating Andrej Karpathy’s Weekend Project — a Movie Search Engine
System polecający filmy oparty o OpenAI, bazy wektorowe i embedingi? Proszę bardzo!

Using t-SNE for Movie Transcript Analysis
A jak już jesteśmy przy filmach - czy treść (dialogi, może całe scenariusze) pozwolą nam na pokazanie czy konkretne tytuły łączą się w jakieś grupy? Praktyczne użycie algorytmu t-SNE

#bazy_danych

PostgreSQL: script to connect to DB, and get tables, their records number and size.
Ile zajmuje nasza baza i jakie ma tabelki? To dość popularne zadanie do wykonania - dlatego warto mieć na to jakieś narzędzie. Na przykład taki skrypt w Shellu

PostgreSQL DB Indexes Maintenance Script
A jeżeli już jesteśmy przy "przydasiowych" skryptach do baz danych - coś do kontroli indeksów w PostgreSQL

#big_data

Getting started with ES|QL
Elasticsearch wprowadza ES|QL (Elasticsearch Query Language)

#ciekawostki

The Ultimate Interactive JQ Guide
Wiemy, iż JQ to świetny program do operacji na plikach JSON, prawda? A wiemy jak go używać? jeżeli nie to tutaj znajdziemy interaktywny kurs pokazujący co lepsze zastosowania JQ.

The Engineering Lead’s Best AI Tools for 2024
Już za moment zaczną się podsumowania 2023 roku oraz przewidywania na przyszłość... a wśród tych drugich listy narzędzi koniecznych do użycia. Takich jak tutaj, wspomagających pracę.

Speed up a program for the 50 years old processor by 180000%
Dla prawdziwych nerdów, mocna rzecz.

#devops

Networking between virtual machine
Zagadnienia sieciowe i łączenie różnych maszyn wirtualnych ze sobą, żeby "się widziały" nie zawsze należy do najprostrzych.

How to deploy a Python application in Kubernetes?
Dockery, Kubernetesy, ale jak w praktyce osadzić na tym aplikację napisaną w Pythonie?

#front_end

Use Chrome DevTools Like a Senior Frontend Developer
Prawie 53% ruchu z komputerów (nie telefonów i tabletów) na stronach robi Chrome, zatem jest spora szansa, iż wśród Was co najmniej połowa używa też Chrome, a jeżeli ktoś para się web-developmentem to pewnie używa też DevTools wbudowanego w przeglądarkę. Zatem te sztuczki mogą się przydać.

#python

Pandas v Psycopg: Speed Test
Istnieje praktyka, iż rzeczy bazodanowe powinna robić baza danych, a nie kod. Jak wygląda porównanie importu i eksportu danych z PostgreSQL bezpośrednio oraz przez Pandas?

3D Python Guide for Geospatial Data Integration
Obszerny tutorial o przygotowywaniu map i obiektów 3D w Pythonie: głównie łączenie i czyszczenie danych z wielu źródeł

#r

Save ggplot Graphics at Intended End-use Dimensions and Resolutions for Best Results
Przygotowanie wykredu w GGPlot to jedno, a zapisanie go tak, aby był do wykorzystania później (np w prezentacji albo jako po prostu obrazek) to drugie. Tutaj znajdziesz kod opakowujący ggsave()

#spark

Spark vs Polars. Real-life Test Case.
Skoro mamy dzisiaj porównanie Pandas czy PostgreSQL to może też porównanie Spark czy Polars?

#wizualizacja_danych

Information is Beautiful Awards 2023: The Winners
Najlepsze wizualizacje 2023 roku. Ku inspiracji.

Visualizing a Billion Points: Databricks SQL, Plotly Dash... and the Plotly Resampler
Jak pokazać bardzo (ale to bardzo) dużo punktów na wykresie? Tekst jest odcinkiem w ciekawej serii, warto zapoznać się z całością.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału