Newsletter Dane i Analizy, 2023-06-12

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Piękna, słoneczna (przynajmniej ma Mazurach i w Warszawie) pogoda w "długi weekend" pozwoliła (mam nadzięję) na trochę wytchnienia od komputerów, programowania, budowania modeli i tworzenia sztucznych inteligencji. Po odpoczynku można do tego wrócić :)

A właśnie - budowanie większości modeli ML/AI sprowadza się do kilku podstawowych i powtarzalnych etapów:
gromadzenie danych przegląd danych i ich wzajemnych zależności czyszczenie i uzupełnianie braków dobór hiperparametrów do modelu trenowanie modelu ocena jego jakości użycie modelu na nowych danych

I adekwatnie o każdym etapie mamy dzisiaj tekst!

Do tego coś o zagadnieniach wdrożeniowych, rozkładaniu ruchu pomiędzy maszyny czy monitorowaniu gotowych rozwiązań (nawet na Raspberry Pi!).

Na koniec z zebranych z monitoringu danych można zrobić raport albo coś na kształt dashboardu, na przykład z R-owym Shiny.

#analiza_danych_koncepcje

10 Biggest Mistakes in Machine Learning and How to Avoid Them
Projekty ML są w gruncie rzeczy w swym "frameworku" dość powtarzalne i można postępować według określonych schematów, niejako trzymając się planu. Przy okazji warto uważać na pułapki, które prowadzą do częstych - i popularnych - pomyłek

Hyperparameter Optimization With Hyperopt
Przeszukiwanie całej siatki potencjalnych hiperparametrów przy trenowaniu modelu będzie czasochłonne. Hyperopt optymalizuje tą czynność, a ten tutorial pokazuje jak skorzystać z tego pakietu

Sklearn Pipelines for the Modern ML Engineer: 9 Techniques You Can’t Ignore
Zanim jednak do modelu podamy dane trzeba je nieco przetworzyć, najczęściej w wielu krokach budujących pipeline. I o budowaniu takich pipeline’ów warto poczytać tutaj

7 Text Classification Techniques for Any Scenario
Popularność ChatGPT i podobnych rozwiązań opartych na dużych modelach językowych sprawia, iż narzędzia do klasyfikacji tekstu też mogą się zmieniać

#big_data

Data Engineering Project: Stream Edition
Ten tutorial pokazuje jak zbudować potok na danych strumieniowych - tutaj klikanie po stronie jest takim strumieniem. Wykorzystano Apache Flink i oczywiście Apache Kafka

#devops

Zabbix on Raspberry Pi
Jeśli nie Nagios to może Zabbix? Zabbix to ujednolicone rozwiązanie do monitorowania sieci, serwerów i aplikacji. Istnieje darmowa wersja, a Raspberry Pi jest oficjalnie obsługiwane.

Using NGINX as a PostgreSQL Reverse Proxy and Load Balancer
NGINX jako load balancer dla PostgreSQLa

How To Install TLS/SSL on Docker Nginx Container With Let’s Encrypt
Strona czy też aplikacja webowa bez certyfikatu SSL w dzisiejszych czasach to coś nie do pomyślenia - na dzień dobry przeglądarka krzyknie, iż coś jest nie tak. Certyfikat można mieć za darmo z Let’s Encrypt, a jak go dodać do kontenera w Dockerze?

#kafka

Training a Machine Learning Model on a Kafka Stream
Zastosowanie modeli ML wprost na strumieniu danych? Oczywiście!

#python

Using Python to Automate Word Report
Budujemy raport w Wordzie z użyciem Pythona

The Right Way to Run Shell Commands From Python
Czasem z poziomu swojego pythonowego skryptu chcesz wykonać jakieś polecenie w konsoli (chociażby zwykłe tworzenie katalogów, kopiowanie plików czy wykorzystanie shellowego curla, żeby nie pisać tego samodzielnie). Jak to zrobić?

Blazing fast Python Docker builds with Poetry
Wykorzystanie frameworku do kontroli zależności Poetry w budowaniu obrazów dockerowych

Using Computer Vision for Poker
Gdyby tak zastosować rozpoznawanie obrazu przez maszyny (nawet w najprostszej formie) do podglądania co dzieje się na pokerowych stołach gier online? A jak już komputer nauczy się "widzieć" stół to można przeliczać jakie posunięcia są opłacalne

#r

Mastering file download in Shiny
Aplikacja w Shiny pozwalająca na ściągnięcie jakiegoś pliku? Kontekst biznesowy: ruszasz suwaczkami, oglądasz zmiany na wykresach, jakieś przefiltrowane tabelki itd, ale chcesz mieć to w postaci "twardej kopii" w na przykład PDFie. Możesz zatem dać duży czerwony guzik "pobierz raport", który spowoduje wyrenderowanie RMarkdownem pliku, który wystawisz w swojej Shiny-apce. I o tym ostatnim kroku, wystawianiu plików, jest ten tekst

Shiny Markdown Report
A o generowaniu samych raportów - nagranie webinaru (23 minuty)

Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału