Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy
Na bieżący numer złapało się kilka ciekawych tematów. Warto zwrócić uwagę na tekst o systemach automatyzacji w Amazonie i Netfliksie - pokazuje podejście dużych firm do skalowalności i bezpieczeństwa. Dobry jest artykuł o topic modeling z użyciem BERTopic i FASTopic - może się przydać przy przetwarzaniu skarg klientów.
Dla fanów Kafki znajdzie się materiał o konsumentach wiadomości, a dla pythonowców zestaw o wizualizacjach z Pythona w Power BI, budowaniu API gateway na FastAPI i poradnik "10 Tips to Become REALLY Good at Python", gdzie w pół godziny Arjan mówi o tym, co jest najważniejsze przy nauce Pythona, od czego trzeba zacząć i co doskonalić na początku. Do tego jest też wideo dla początkujących adeptów Pandas.
Jeśli chodzi o początki w Pythonie to już niedługo mój własny ebook z praktycznym projektem dla juniorów, idealny do wejścia na drogę do zostania midem (czyli sławy i pieniędzy). Czytaj kolejne numery, aby nie przegapić startu sprzedaży. Będzie konkretny projekt, omówiony krok po kroku: od pobierania danych przez API, współpracę z bazami danych, do aplikacji prezentującej dane razem z prostymi wykresami.
Brzmi ciekawie? A może być jeszcze bardziej dostosowane do Twoich potrzeb, o ile się nimi podzielisz wypełniając krótką ankietkę (tylko 9 pytań, można klikać i nie trzeba nic pisać - poświęcisz maks 30 sekund).
W zeszłym tygodniu najchętniej czytaliście:
50 Bash Scripts Every DevOps Engineer Should Automate How to set boundaries and stop people pleasing at work How to Turn PDF Documents into Data Tables with Python - dzisiaj w Ciekawostkach uzupełnienie o MarkItDown
#analiza_danych_koncepcje
Don’t use cosine similarity carelessly
W świecie AI wszystko przekładane jest na wektory. Dlaczego? I jak porównywać te wektory oraz dlaczego odległość kosinusowa nie jest taka idealna?
#analiza_danych_projekty
Predicting Bitcoin Price in Real-Time using MLOps
Naucz się budować model do przewidywania ceny Bitcoina, używając ZenML i MLflow. Przewidywanie i prognozowanie ceny Bitcoina w ramach całkiem sporego tutorialu - od pozyskania danych, przez proces ich przygotowania, uczenia modelu i na końcu przygotowania predykcji. Wszystko dodatkowo ubrane w proces MLOps.
Topic Modelling in Business Intelligence: FASTopic and BERTopic in Code
W tym artykule porównano (i pokazano jak użyć) dwa najnowsze modele do klasyfikowania danych dotyczących skarg klientów (to zagadnienie z artykuły, ale "topic modeling" może dotyczyć przecież dowolnych tekstów): BERTopic oraz FASTopic.
#architektura
Outbox Pattern for reliable data exchange between Microservices
Mikrousługi nie istnieją w izolacji i bardzo często muszą propagować dane oraz zmiany danych między sobą. Ten tekst opowiada o tym, jak wydajnie można wymieniać dane między mikroserwisami opartymi o zdarzenia.
Remember Amazon and Netflix’s Priorities When Deploying Automated Systems
Automatyzacja w firmach opiera się na trzech kluczowych elementach: skalowalności, niezawodności i bezpieczeństwie. Te elementy umożliwiają firmom dostosowanie się do zmieniających się potrzeb, minimalizowanie przestojów i ochronę przed rozwijającymi się zagrożeniami. Zobacz jak duże firmy, takie jak Amazon i Netflix, wykorzystują systemy automatyczne do poprawy operacji biznesowych i doświadczenia klienta, korzystając z narzędzi takich jak AI i ML.
#ciekawostki
The Seven-Action Documentation model
Autor zastanawia się jak podejść do procesu przygotowania dokumentacji. Jakie działania użytkownika mają spełniać dokumenty? Proponowany model koncentruje się na dwóch aspektach: dokumentach jako produkcie i tym, co użytkownicy mają dzięki nim osiągnąć.
Python tool for converting files and office documents to Markdown.
MarkItDown to narzędzie do konwersji różnych plików do formatu Markdown (np. do indeksowania, analizy tekstu itp.). Obsługuje pliki PDF, HTML, dokumenty Office (Word, Excel i PowerPoint) i jeszcze kilka innych.
How Spotify Streams 5.5 Billion+ Songs Daily?
Jaki stos technologiczny stoi za Spotify?
Zrobił Tetrisa działającego w PDFie
Pewien programista stworzył Tetrisa, który działa w... dokumencie PDF. To pełnoprawna kultowa gra, którą można zagrać na praktycznie każdym urządzeniu wspierającym ten format plików. Działa!
Understanding the Ops
Na przestrzeni lat zaobserwowaliśmy wzrost praktyk związanych z -Ops, takich jak DevOps, GitOps, DataOps, MLOps, AIOps i FinOps. Ale co dokładnie oznaczają te terminy i dlaczego są one krytyczne dla specjalistów IT, deweloperów i organizacji?
#data_engineering
Mastering Data Processing for Large Files
Jak sobie radzić z danymi zgromadzonymi w dużych plikach? Jakie narzędzia są dostępne i czym się charakteryzują? Szybki przegląd
#devops
Handcrafting a Container Orchestration System
W tym artykule przedstawiono jak programowo kontrolować Dockera dzięki interfejsu API REST Dockera. Jak tworzyć, zarządzać i monitorować kontenery dzięki kodu, co zapewnia potężne narzędzie do automatyzacji i głębszego wglądu w to, jak działa orkiestracja kontenerów pod maską.
#kafka
Kafka Consumers: Under the Hood of Message Processing
Jak Kafka radzi sobie z konsumpcją wiadomości, zaczynając od wyjaśnienia co to Consumer Groups i sposobu, w jaki zarządzają konsumentami i dystrybucją danych. Następnie Autor zgłębia się w przydziały partycji, tolerancję błędów i związane z tym kompromisy.
#powerbi
Wizualizacje Pythonowe w Power BI
W artykule Autor pokazuje jak tworzyć wizualizacje pythonowe w ramach Power BI.
#python
10 Tips to Become REALLY Good at Python
Arjan zawsze na propsie - tym razem w pół godziny mówi o tym co jest najważniejsze przy nauce Pythona, od czego trzeba zacząć i co doskonalić na początku [YT, 30 minut].
Pandas - Data Science Fundamentals
Z kolei Florian z kanału NeuralNine opowiada o podstawach Pandas [YT, 1h]
Build your own API Gateway using FastAPI
FastAPI użyte jako API Gateway - coś więcej niż CRUD w popularnym frameworku.
#wizualizacja_danych
Data Visualization State of the Industry 2024 Report
Obraz pewnego wycinka "branży danych". Środowisko wizualizatorów (jest takie słowo?) danych się przebadało i przedstawia interesujące wyniki. Oczywiście w atrakcyjny wizualnie sposób.
Data Visualization in PostgreSQL With Apache Superset
Jeśli potrzebujesz darmowego narzędzia do prezentacji danych zgromadzonych w bazie (tutaj PostgreSQL jako przykład, ale może to być w praktyce dowolna baza) to Apache Superset może przyjść z pomocą. Z tekstu dowiesz się jak zainstalować to narzędzie, jak połączyć je do bazy i jak przygotować wykresy.
Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)