Newsletter Dane i Analizy, 2024-11-25

blog.prokulski.science 10 godzin temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Nieco o LLMach dzisiaj - o przygotowywaniu danych (z PDFów) oraz o poszukiwaniu modelu, który można uruchomić lokalnie. Ponieważ LLMy od dwóch lat są znaczącym tematem - mają swoją sekcję i właśnie tam możecie zajrzeć.

A jeżeli wolisz sobie skonfigurować VSCode do pracy z Pythonem to Arjan pomoże.


#ai_ml

How to Implement Named Entity Recognition with Hugging Face Transformers
Rozpoznawanie nazwanych jednostek (NER) to podstawowe zadanie przetwarzania języka naturalnego (NLP), obejmujące identyfikację i klasyfikację nazwanych jednostek w tekście do wstępnie zdefiniowanych kategorii. Kategoriami tymi mogą być nazwiska osób, organizacje, lokalizacje, daty i inne. Zobaczmy, jak można przeprowadzić NER, wykorzystując Transformers od Hugging Face

#analiza_danych_koncepcje

Introduction to Stemming (NLP)
Jednym z pojęć w analizie języka naturalnego jest stemming. Co to takiego i po co to?

#analiza_danych_projekty

Integrating Text and Images for Smarter Data Classification
Klasyfikacja multimodalna, która łączy dane tekstowe i graficzne, zapewnia sposób na tworzenie bardziej kontekstowo świadomych i skutecznych systemów AI. Tekst opowiada jak takie cudo zbudować.

#ciekawostki

I used to hate QR codes. But they’re actually genius
Wszystko co chcesz wiedzieć o kodach QR. Jak działają, co oznaczają konkretne pixele. Jakie to jest genialne!

LAN Party House
Państwo zbudowali sobie dom do grania po sieci (tzn. LAN-party - starsi czytelnicy pewnie znają to hasło). Tak, dom do grania po sieci. A, jeszcze kot ma swoją łazienkę ;-)

#devops

Building SQL-based Observability With ClickHouse and Grafana
Autor opisuje jak poszukiwał odpowiedniego zestawu narzędzi do monitorowania swoich serwerów i serwisów. Po co szukać samodzielnie, jak można skorzystać z cudzych doświadczeń?

#llm_&_chatgpt

Improved RAG Document Processing With Markdown
O konwertowaniu PDFów do plików Markdown, tak aby lepiej z nich korzystać w zastosowaniach związanych z LLM

Everything I’ve learned so far about running local LLMs
Artykuł omawia praktyczne doświadczenia związane z uruchamianiem modeli językowych (LLM) na lokalnych maszynach, od Raspberry Pi po bardziej zaawansowane konfiguracje. Z tekstu dowiesz się, które z modeli zdecydowanie warto wypróbować, jakie wymagania sprzętowe należy spełnić i do czego taki model może Ci się przydać. Sporo wiedzy od praktyka, który z tą technologią pracuje na co dzień.

#python

Twój najlepszy przyjaciel - RegEx
Wyrażenia regularne kryją w sobie wielką moc, którą autor przedstawia w tym krótkim filmie. Po polsku.

Master QR Code Creation and Customization with Python
O tym jak działają QR kody dowiesz się z filmu w sekcji Ciekawostki. A tutaj dowiesz się, jak przygotować QR kod w Pythonie.

How to Run Tasks in Background with FastAPI
FastAPI potrafi gwałtownie odpowiadać, ale czasem jakaś operacja może zająć nieco więcej czasu... a wcale nie trzeba na jej koniec czekać. Na przykład rejestrujemy użytkownika w naszym serwisie (i to się udaje), zwracamy o tym informację, ale mail z potwierdzeniem "dzieje się pod spodem". O tym jak to "pod spodem" zlecić - w tekście.

How to Reduce Python Runtime for Demanding Tasks
Praktyczne techniki przyspieszania dużych obciążeń dzięki optymalizacji GPU w Pythonie

#sql

Offset Considered Harmful or: The Surprising Complexity of Pagination in SQL
Podział wyników wyszukiwania na strony w aplikacji dzięki offsetu w języku SQL to dość częsta i zdecydowanie najprostsza w implementacji praktyka. Niestety, może to prowadzić do spadku wydajności aplikacji i pojawienia się duplikatów wyników na granicach stron, głównie przez brak stabilności w sortowaniu danych. Artykuł omawia, jakie inne problemy możesz napotkać przy pracy z offsetem i co warto zastosować w zamian.

#wizualizacja_danych

Racing Bar Charts: An Experiment in Interactive Storytelling
O ścigających się wykresach słupkowych (na pewno to widzieliście)

Mastering Bivariate Maps with Plotly
Dwuwymiarowe mapy - połączenie dwóch wartości pokazane na jednej mapie. Dwie wartości układają się w macierz kolorów, a te z kolei pokazane są na mapie. Inspirujące, chociaż nie łatwe w odbiorze.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału