Newsletter Dane i Analizy, 2024-09-02

blog.prokulski.science 4 miesięcy temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Od kilku tygodni (może bardziej kilkunastu dni?) na LinkedIn widać pochwały dla Bielika - polskiego czat-bota opracowanego na bazie modelu Mistral-7B. Tutaj możecie poczytać swego rodzaju test tego modelu. Polecamy własne eksperymenty (ciekawym jest prompt "Przygotuj dialog pomiędzy Janem i Marią, dwojgiem polskich emerytów spotykających się pomiędzy apteką a sklepem spożywczym" - ChatGPT, Cloude, Gemini - próbujcie, kto da bardziej "polską" odpowiedź). Co ważne - Bielik w wersji 2.2 jest dostępny na licencji Apache 2.0, która pozwala na swobodne używanie, modyfikowanie i redystrybucję oprogramowania, w tym w celach komercyjnych. Jedynym wymaganiem jest zachowanie oryginalnej licencji i noty prawnej przy każdej redystrybucji.

BTW (jeśli już mowa o licencjach) Elastic jest znowu open-source: "Changing the license was a mistake, and Elastic now backtracks from it".

Wśród linków poniżej znajdziecie rozwiązanie problemu komiwojażera dzięki algorytmów genetycznych. Ale na czym (i jak je zaimplementować) polegają te algorytmy? O tym tutaj.

Tego zaś nie znajdziecie w linkach poniżej, jest tutaj - zbiór linków z materiałami do nauki analizy danych w Excelu i SQL. Przyda się, żeby podszkolić się z tych narzędzi, być może złapać bakcyla związanego z danymi i później pójść w stronę Pythona/R, ML i AI? Wtedy ten newsletter jak znalazł!


#analiza_danych_koncepcje

Missing Value Imputation
Jak uzupełniać brakujące dane? Wyjaśnij mi to jak sześciolatkowi!

Customer Segmentation (Cluster) Project: Train, Test, Tweak, Repeat
Klasyfikacja z użyciem K-means opisana tak detalicznie jak tylko się da

Bernoulli Naive Bayes, Explained: A Visual Guide with Code Examples for Beginners
Jeśli większość osób stojących w kolejce do toalety ma długie włosy to jest to prawdopodobnie kolejka do damskiej toalety. jeżeli owoc nie jest okrągły i ma żółty kolor to prawdopodobnie jest bananem. Takie przykłady często są używane do tłumaczenia jak działa klasyfikator "Naiwny Bayes". Inny przykład to pogoda - użyty został tutaj.

#analiza_danych_projekty

56 Steps, 1 Complete Marketing Project: From Data to Strategy
Strategii tutaj nie ma, ale jest potężne instruktaż jak analizować dane (trochę jak ten o K-means gdzieś w pobliżu) i przeglądać je pod różnymi kątami. W kontekście danych o klientach, kampaniach marketingowych i jak jedno spina się z drugim.

#architektura

Implementing Correlation IDs in Microservices Architecture
Wiele mikroserwisów, wiele mini-procesów układających się w jedno. Jak zapanować nad tym, aby wiedzieć iż te wszystkie małe elementy obsługują jeden byt? ID łączące wszystkie komunikaty to jest klucz.

#ciekawostki

How Google Search ranking works
Jak ten Google działa, tak w środku? Interesujący opis.

#data_engineering

CI/CD for Modern Data Engineering
Pierwsza część tekstu jest o ETLu na jakichś danych i jest dość standardowa dla kogoś kto przepisywanie danych między źródłami już robił. Ale druga jest o procesie CI/CD z wykorzystaniem Jenkinsa, webhooków oraz GitHuba - to jest tak ciekawsza część.

#llm_&_chatgpt

Lokalne modele AI: Twoje dane, Twoje zasady
Artykuł i podcast w jednym - możesz czytać, możesz słuchać. A jest najwięcej o LLMach, głównie o lokalnych modelach językowych.

Running LLMs Locally: Because Life’s Too Short for Cloud Computing
Wyżej Vladimir mówi o "self-hosted LLM", więc przydałby się konkret, najlepiej z kodem do przekopiowania, prawda? Proszę bardzo, oto Ollama.

Strategies For Effective Prompt Engineering
Rok temu mówiło się, iż "Prompt engineer" to będzie nowy zawód. Chyba "AI odebrało mu pracę" szybciej niż wystartowały rekrutacje... Ale jak zadawać pytania chatbotom warto wiedzieć, a tutaj kilka wskazówek i strategii.

#management

How to get back to programming after a more than 1.5 year gap - subjective thoughts and tips
Autorka dzieli się swoimi doświadczeniami i przemyśleniami na temat powrotu do pracy po trwającej ponad 21 miesięcy przerwie. Opisuje swoje odczucia i wyzwania, z którymi musiała się zmierzyć po powrocie. Użyteczne zwłaszcza dla młodych mam wracających z urlopów macierzyńskich.

#programowanie_ogólnie

Solving The Travelling Salesman Problem Using A Genetic Algorithm
Algorytmy genetyczne - czym są, jak działają? Na podstawie rozwiązywania problemu komiwojażera, z kodem w Pythonie

#python

Web Scraping With Scrapy and MongoDB
Sporo w życiu napisałem scraperów ze stron WWW - wszystkie kończyły się z grubsza JSONem z potrzebnymi danymi z jednej strony. Dla obiektów typu JSON MongoDB nadaje się świetnie. Ale nigdy nie korzystałem ze Scrapy jako frameworku do pobierania danych ze stron, może powinienem przejść ten tutorial?

My Wifi was Slow... My ISP Didn’t Believe Me
Zbierajcie dane ze swoich routerów, bo nie wiadomo kiedy mogą się przydać! A poważniej: jak je zbierać i potem pokazać? Osobiście dashboardy mam w Grafanie, po co pisać kod?

Generate Millions of Records in PostgreSQL
Jak wygenerować miliony sztucznych rekordów? Pakiet Faker plus inserty go PostgreSQL

Visualizing 3D Spatial Data With Pydeck
Trójwymiarowa mapa budynków w mieście. Czyli jak z danych Open Street Map wyciągnąć jeszcze więcej i pokazać je atrakcyjnie dzięki kilku bibliotek Pythona.

#r

Get your codebase lint-free forever with lintr
O linterach dla Pythona było w tym newsletterze wielokrotnie. Dzisiaj zatem coś dla piszących w R

#spark

Delta Table Time Travel Queries
Delta Table ze Sparkiem w parze odpowiadają na pytania "a jak te dane wyglądały wczoraj? a jak w poprzednim kwartale?". Czyli podróże w czasie w ramach naszych baz danych.

#wizualizacja_danych

Visualizing Flows with Sankey Diagrams
Diagramy przepływów są popularne i używane do pokazania jak zmienił się głos wyborców partii A i ile z nich głosuje na B. Albo jak rozchodzą się pieniądze z wypłaty. Albo na której bazie zakończyły się randki. W R i Plotly, ale iż biblioteka Plotly ma wiele portów, to będzie użyteczne dla wszystkich.

How to Create Custom Color Palettes in Matplotlib
Dobór kolorów do wykresu to nie jest łatwe zadanie. A zbudowanie palety wybranych kolorów w pythonowym Matplotlib to kolejny element "przygody"...


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału