Newsletter Dane i Analizy, 2023-08-21

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Kiedyś analizowałem sieć tramwajową Warszawy wprowadzając przy okazji pojęcia związane z grafami (takimi matematycznymi tworami) - dzisiaj znajdziecie tekst o podobnej analizie, ale sieci dróg (na przykładzie Krakowa i Polski, bo autor wywodzi się z AGH).

W tym tygodniu opowiadam o AI i nie tylko.Według zapowiedzi, w ramach wydarzenia Kto stoi za sztuczną inteligencją? na Facebooku opowiem trochę o tym, czy sztuczna inteligencja zastąpi kiedyś człowieka. Wydarzenie przygotowane jest przez Szkolną Giełdę Pracy, transmisja live odbędzie się w czwartek 24 sierpnia o 18:00.

Będzie to rozmowa na żywo, może pójść w różnych kierunkach :). Chciałbym opowiedzieć nie tylko o AI ale też o tym co dzieje się wcześniej, czyli o zdobywaniu i przygotowywaniu danych. Może też o tym co jeszcze wcześniej, czyli o przydatnych kompetencjach.

Moje gadanie może nie być tak interesujące jak prawie trzygodzinny wywiad z Tomaszem Czajką - głównie o SpaceX i pracy u Elona Muska, ale nie tylko. Link do YouTube znajdziecie w sekcji "Ciekawostki", a w opisie filmu na YT jest też link do Spotify.
A dlaczego to jest ciekawe? Kto to jest ten Tomasz? "Szerokiej publiczności" znany pewnie jako jeden z panów z memu "impreza informatyków".

#analiza_danych_koncepcje

Mapping the Jams: Traffic Analysis Using Graph Theory
A gdyby tak użyć grafów do analizy korków i ogólnie dróg w mieście?

F1 Score is Overrated. Instead, use this!
F1 to popularna miara skuteczności modeli klasyfikujących. Ale czy najlepsza? Autor przedstawia inną i wyjaśnia dlaczego uważa ją za lepszą

Demystifying Volatility: A Brief Dive into Predicting Market Movements
Przewidywanie szeregów czasowy w oparciu o zmienność danych, związane z nią modele i ich skuteczność. ARCH czy GARCH? A może rodzina SVM (ale jak to?)

Turn and Face the Strange
Wykorzystanie metod wykrywania anomalii, które ma na celu poprawę uczenia nadzorowanego.

#analiza_danych_projekty

TIA ETL Pipeline
Repozytorium z pełnym procesem ETL wyciągającym dane o lotach. Proces oparty o AirFlow, a budowa środowiska o Terraform. Dla początkujących data inżynierów

#architektura

The Matrix Unveiled: An Odyssey into Software Architecture
O różnych typach architektury systemowej

Should That Be a Microservice? Keep These Six Factors in Mind
W tym poście przeanalizowano 6 czynników, które pomogą zdecydować, kiedy używać - a kiedy nie - mikrousług.

#bazy_danych

Tuning PostgreSQL settings for performance
PostgreSQL ma wiele opcji konfiguracyjnych, które można dostosować w celu poprawy wydajności.

Polars, DuckDB, Pandas, Modin, Ponder, Fugue, Daft — which one is the best dataframe and SQL tool?
Analiza danych to w zasadzie przeważnie dataframe’y. Tutaj znajdziecie porównanie kilku technologii pozwalających na pracę z nimi, głównie od strony Pythona. Często są to alternatywy dla typowych baz SQL

#big_data

Data Version Control: What Is It and How Does It Work?
Odkryj zalety kontroli wersji danych. Dowiedz się, co to jest, jak działa i dlaczego jest tak ważne dla inżynierów danych

#ciekawostki

A Beginner’s Roadmap to Becoming a Data Engineer
Żeby zostać inżynierem danych musisz... Długa lista, ale nie martw się - nie musisz wszystkiego znać od razu. Można spokojnie traktować jako checklistę umiejętności do zdobycia

How I Would Learn Data Science with ChatGPT (If I Could Start Over)
Czy ChatGPT może nauczyć Cię AI/ML?

Rekrutacja SpaceX, Praca w Google, Elon Musk, Kodowanie Statków Kosmicznych
Tomasz Czajka to były mistrz świata w programowaniu, były pracownik Google, pracownik SpaceX. Opowiada o programowaniu rakiet kosmicznych, współpracy z Elonem, eksploracji Marsa, komputerach kwantowych i wielu innych, ciekawych tematach. Bardzo długi (prawie 3 godziny), ale i wciągający wywiad.

#llm_&_chatgpt

Building Your Own Custom LLama on Company Information
Jest to bardzo szybki przewodnik, jak wyodrębnić informacje o firmie z sieci (pliki HTML i PDF), a następnie przeszkolić model językowy LLama2, aby uzyskać specjalistyczne informacje o firmie.

#mlops

From Experiments to Deployment: MLflow 101 (Part 02)
Druga część cyklu o MLFlow - jak wybierać najlepszą wersję modelu ML i używać jej produkcyjnie?

#powerbi

Combining Actuals and Forecasts in one continuous Line in Power BI
Mamy rzeczywistą sprzedaż i prognozy. Jak możemy wyświetlić oba zbiory danych w jednym wierszu?

#programowanie_ogólnie

Send Exceptions To your Phone using Slack/Teams
Błędy mogą wystąpić w każdej chwili i ważne jest, aby mieć pewność, iż masz możliwość natychmiastowego otrzymywania informacji.

#python

Software Engineering Best Practices for Writing Maintainable ML Code
Zaawansowane wskazówki dotyczące kodowania dla analityków danych

Streamlining Business Workflows: Building a Python App to Sync Salesforce Data with Google Sheets
A gdby tak zrobić raporty (w excelu) na życzenie? Stosunkowo prosta aplikacja ze Flasku pozwalająca na pobranie danych z SalesForce (ogólnie: z bazy danych) i zapisująca je do Google Sheets (no, nie Excel, ale co to za różnica w sumie?)

#r

Best Practices for Data Cleaning and Preprocessing
O czyszczeniu i uzupełnianiu danych. Podstawowe operacje na bazie przykładów w R

#spark

Gluten
Gluten - plugin do przyspieszenia Sparka

#wizualizacja_danych

A wordy slide makeover
Jak pokazywać informacje na slajdach? Od ściany tekstu do perswazyjnego przekazu ;-)

How to Use Data Visualization in Infographics?
Ten artykuł zagłębia się w wizualizację danych w infografikach i prezentuje sposoby przedstawiania informacji zarówno w sposób estetyczny, jak i kompleksowy.

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału