Newsletter Dane i Analizy, 2023-06-05

blog.prokulski.science 2 lat temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

Czy ChatGPT może nauczyć Cię data science? Czy czas mentorów się kończy?

Raczej nie "włoży" do Twojej głowy wiedzy, ale może pokazać kierunki, w których warto podążać w poszukiwaniu kolejnych elementów wiedzy. Może też odpowiedzieć na pytania, podać gotowe rozwiązania (chociażby w postaci fragmentów kodu). O tym mówi ten tekst.

Ale czy to, iż mamy takie narzędzia dostępne na wyciągnięcie ręki sprawi, iż staniemy się mądrzejsi? Dzisiaj dział ChatGPT dość obfity - chyba uczymy się powoli wykorzystywać to narzędzie w różnych zastosowaniach, po prostu w swojej pracy.

#analiza_danych_koncepcje

Success in ML Projects through Technical Drawings
Rysunki techniczne, a może raczej diagramy jako sposób na opisanie procesów w projektach ML. A to nie jest standardem? ;-)

A Data Scientist’s Essential Guide to EDA
Od czego zacząć przegląd nowego zbioru danych? Jakie są najbardziej podstawowe i zwykle pierwsze kroki?

#analiza_danych_projekty

Predicting the Functionality of Water Pumps with XGBoost
Projekty ML zaprezentowane end-to-end to najciekawsze elementy z naszego newslettera. Pełen proces, kod w całości, a do tego interesujący problem do rozwiązania.

Detection of Credit Card Fraud with an Autoencoder
Kolejny interesujący projekt ML, tym razem może nie tak szczegółowo zaprezentowany w kodzie, ale też ciekawy, możne choćby bardziej nowoczesny?

#architektura

Slack Architecture
Jak zbudowany jest Slack i jak zadbano o jego wysoką dostępność, odporność na awarię, skalowalność, bezpieczeństwo itp.? Długa, ale też i interesująca lektura.

#big_data

Real-time data analytics with Apache Superset, Redpanda, and RisingWave
Dashboard w czasie rzeczywistym (skoro dane są w czasie rzeczywistym) to dość oczywisty kierunek i powinien być standardowym punktem wyjścia. A później co najwyżej wymagania można przycinać. Opisane rozwiązanie opiera się o rozwiązanie Redpanda.

Apache Flink vs Apache Spark: A detailed comparison for data processing
Apache Flink i Apache Spark - czym te dwie technologie przetwarzania danych się różnią? Którą kiedy stosować?

#chatgpt

Writing an Essay with ChatGPT
Model językowy w skali jak ChatGPT może naturalnie generować płynny tekst, który trudno odróżnić od pracy wykonanej przez człowieka. Jak takie modele wykorzystać do pisania dłuższych tekstów?

Supercharge Your Spreadsheets with ChatGPT
ChatGPT wkroczył bardzo gwałtownie na wiele obszarów, w tym do arkuszy kalkulacyjnych. Do Excela jeszcze nie, ale do Google Sheets już tak (w postaci odpowiedniego add-ona)

End to End ML with GPT-3.5
ChatGPT zabierze nam pracę i sam będzie pisał kod. Na przykład tak jak w tym artykule. Sztuczna inteligencja buduje kod budujący modele sztucznej inteligencji

Using ChatGPT to Translate R Code to Python
Istnieją już od jakiegoś czasu rozwiązania tłumaczące tekst - Google Translate chociażby. A czy istnieje sposób na tłumaczenie fragmentów kodu pomiędzy różnymi językami programowania? W zasadzie powinno to być prostrze niż tłumaczenie języka naturalnego (bo gramatyka jest określona, stała i jednoznaczna, nie ma miejsca na wypowiedzi między wierszami czy idiomy)

#ciekawostki

State of GPT
Dowiedz się więcej o procesie szkoleniowym asystentów GPT, takich jak ChatGPT, od tokenizacji po szkolenie wstępne, nadzorowane dostrajanie i uczenie się ze wzmocnieniem na podstawie informacji zwrotnych od ludzi (RLHF). Opowiada Andrej Karpathy (teraz OpenAI, wcześniej odpowiedzialny za autopilota w Tesli)

From Data Lakes to Data Mesh: A Guide to the Latest Enterprise Data Architecture
Jak zbudować w organizacji kulturę Data Mesh? Podejście ciekawe, ale czy realne? Czy data mesh nie przeradza się w data mess?

#narzędzia_BI

Power BI vs Tableau: Which Should You Choose in 2023?
Wpis porównujący oba popularne narzędzia do przygotowywania dashboardów i prezentacji danych. Artykuł nie jest zbyt obszerny, nie zgłębia wielu szczegółów, ale na pierwszy rzut powinien być wystarczający dla osoby zaczynającej swoją przygodę w świecie BI

#python

54 Things I Never Knew About Python Until Recently
Ponad pół setki mniejszych i większych ciekawostek w Pythonie. choćby niejeden senior dowie się czegoś ciekawego!

Demystifying Python’s Magic Methods
"Dunder methods" to specjalne metody obiektów w Pythonie. Odpowiadają na przykład za porównywanie obiektów, ich reprezentację w postaci napisów (print wywołuje jedną z takich metod). Czy można ich użyć do własnych celów?

Adding a Cache in Python
W prosty sposób można przyspieszyć działanie funkcji napisanej w Pythonie - zatrzymać w cache jej wynik. Jak to zrobić? Oczywiście: w prosty sposób ;-)

Python adventures: Finding unused dependencies
Dość często zdarza się, iż zależności w kodzie są chaotyczne i ktokolwiek pracował nad projektem instalował kilka bibliotek, ponieważ musiał użyć jakiejś funkcji. Importy może i się później sprząta (IDE podpowiadają co jest zbędne i nie używane), ale requirements.txt pozostaje śmietnikiem. Jak sobie z tym poradzić?

Think twice before using asyncio in Python
Czy asyncio zawsze jest najlepszym rozwiązaniem dla zrównoleglenia prac w Pythonie?

Create an old-school chat in the terminal
Starsi czytelnicy pamiętają IRCa, a może niektórzy też komendę "talk" dostępną w systemach Unixowych. Napiszmy jej odpowiednik w Pythonie. Czyli rzecz o socketach.

From Data to Dashboard: Visualizing NBA Player Stats With Dash
Jak przygotować dashboard w Pythonie, oparty o framework Dash?

#spark

PySpark Job Optimization Techniques
Apache Spark jest szybki przy przetwarzaniu dużych danych, ale być może może być jeszcze szybszy? Te 9 rad może pomóc w przyspieszeniu Twojego kodu