Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Kiedyś analizowałem sieć tramwajową Warszawy wprowadzając przy okazji pojęcia związane z grafami (takimi matematycznymi tworami) - dzisiaj znajdziecie tekst o podobnej analizie, ale sieci dróg (na przykładzie Krakowa i Polski, bo autor wywodzi się z AGH).
W tym tygodniu opowiadam o AI i nie tylko.Według zapowiedzi, w ramach wydarzenia Kto stoi za sztuczną inteligencją? na Facebooku opowiem trochę o tym, czy sztuczna inteligencja zastąpi kiedyś człowieka. Wydarzenie przygotowane jest przez Szkolną Giełdę Pracy, transmisja live odbędzie się w czwartek 24 sierpnia o 18:00.
Będzie to rozmowa na żywo, może pójść w różnych kierunkach :). Chciałbym opowiedzieć nie tylko o AI ale też o tym co dzieje się wcześniej, czyli o zdobywaniu i przygotowywaniu danych. Może też o tym co jeszcze wcześniej, czyli o przydatnych kompetencjach.
Moje gadanie może nie być tak interesujące jak prawie trzygodzinny wywiad z Tomaszem Czajką - głównie o SpaceX i pracy u Elona Muska, ale nie tylko. Link do YouTube znajdziecie w sekcji "Ciekawostki", a w opisie filmu na YT jest też link do Spotify.
A dlaczego to jest ciekawe? Kto to jest ten Tomasz? "Szerokiej publiczności" znany pewnie jako jeden z panów z memu "impreza informatyków".
#analiza_danych_koncepcje
Mapping the Jams: Traffic Analysis Using Graph Theory
A gdyby tak użyć grafów do analizy korków i ogólnie dróg w mieście?
F1 Score is Overrated. Instead, use this!
F1 to popularna miara skuteczności modeli klasyfikujących. Ale czy najlepsza? Autor przedstawia inną i wyjaśnia dlaczego uważa ją za lepszą
Demystifying Volatility: A Brief Dive into Predicting Market Movements
Przewidywanie szeregów czasowy w oparciu o zmienność danych, związane z nią modele i ich skuteczność. ARCH czy GARCH? A może rodzina SVM (ale jak to?)
Turn and Face the Strange
Wykorzystanie metod wykrywania anomalii, które ma na celu poprawę uczenia nadzorowanego.
#analiza_danych_projekty
TIA ETL Pipeline
Repozytorium z pełnym procesem ETL wyciągającym dane o lotach. Proces oparty o AirFlow, a budowa środowiska o Terraform. Dla początkujących data inżynierów
#architektura
The Matrix Unveiled: An Odyssey into Software Architecture
O różnych typach architektury systemowej
Should That Be a Microservice? Keep These Six Factors in Mind
W tym poście przeanalizowano 6 czynników, które pomogą zdecydować, kiedy używać - a kiedy nie - mikrousług.
#bazy_danych
Tuning PostgreSQL settings for performance
PostgreSQL ma wiele opcji konfiguracyjnych, które można dostosować w celu poprawy wydajności.
Polars, DuckDB, Pandas, Modin, Ponder, Fugue, Daft — which one is the best dataframe and SQL tool?
Analiza danych to w zasadzie przeważnie dataframe’y. Tutaj znajdziecie porównanie kilku technologii pozwalających na pracę z nimi, głównie od strony Pythona. Często są to alternatywy dla typowych baz SQL
#big_data
Data Version Control: What Is It and How Does It Work?
Odkryj zalety kontroli wersji danych. Dowiedz się, co to jest, jak działa i dlaczego jest tak ważne dla inżynierów danych
#ciekawostki
A Beginner’s Roadmap to Becoming a Data Engineer
Żeby zostać inżynierem danych musisz... Długa lista, ale nie martw się - nie musisz wszystkiego znać od razu. Można spokojnie traktować jako checklistę umiejętności do zdobycia
How I Would Learn Data Science with ChatGPT (If I Could Start Over)
Czy ChatGPT może nauczyć Cię AI/ML?
Rekrutacja SpaceX, Praca w Google, Elon Musk, Kodowanie Statków Kosmicznych
Tomasz Czajka to były mistrz świata w programowaniu, były pracownik Google, pracownik SpaceX. Opowiada o programowaniu rakiet kosmicznych, współpracy z Elonem, eksploracji Marsa, komputerach kwantowych i wielu innych, ciekawych tematach. Bardzo długi (prawie 3 godziny), ale i wciągający wywiad.
#llm_&_chatgpt
Building Your Own Custom LLama on Company Information
Jest to bardzo szybki przewodnik, jak wyodrębnić informacje o firmie z sieci (pliki HTML i PDF), a następnie przeszkolić model językowy LLama2, aby uzyskać specjalistyczne informacje o firmie.
#mlops
From Experiments to Deployment: MLflow 101 (Part 02)
Druga część cyklu o MLFlow - jak wybierać najlepszą wersję modelu ML i używać jej produkcyjnie?
#powerbi
Combining Actuals and Forecasts in one continuous Line in Power BI
Mamy rzeczywistą sprzedaż i prognozy. Jak możemy wyświetlić oba zbiory danych w jednym wierszu?
#programowanie_ogólnie
Send Exceptions To your Phone using Slack/Teams
Błędy mogą wystąpić w każdej chwili i ważne jest, aby mieć pewność, iż masz możliwość natychmiastowego otrzymywania informacji.
#python
Software Engineering Best Practices for Writing Maintainable ML Code
Zaawansowane wskazówki dotyczące kodowania dla analityków danych
Streamlining Business Workflows: Building a Python App to Sync Salesforce Data with Google Sheets
A gdby tak zrobić raporty (w excelu) na życzenie? Stosunkowo prosta aplikacja ze Flasku pozwalająca na pobranie danych z SalesForce (ogólnie: z bazy danych) i zapisująca je do Google Sheets (no, nie Excel, ale co to za różnica w sumie?)
#r
Best Practices for Data Cleaning and Preprocessing
O czyszczeniu i uzupełnianiu danych. Podstawowe operacje na bazie przykładów w R
#spark
Gluten
Gluten - plugin do przyspieszenia Sparka
#wizualizacja_danych
A wordy slide makeover
Jak pokazywać informacje na slajdach? Od ściany tekstu do perswazyjnego przekazu ;-)
How to Use Data Visualization in Infographics?
Ten artykuł zagłębia się w wizualizację danych w infografikach i prezentuje sposoby przedstawiania informacji zarówno w sposób estetyczny, jak i kompleksowy.
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)