Newsletter Dane i Analizy, 2023-04-24

blog.prokulski.science 1 rok temu

Cotygodniowa dawka linków, czyli archiwum newslettera Dane i Analizy

W dzisiejszym świecie IT standardem jest (a przynajmniej wydaje się, iż powinno być - bo to sensowne) podejście DevOps. W świecie IT związanym z danym nic się nie zmienia w tym względzie... no... może dochodzi jeszcze MLOps. Godną zatem uwagi może okazać się pozycja DevOps for Data Science, która jest książką dostępną online.

W dzisiejszym numerze nieco mniej zawartości, mniej tekstów zachęcających do sprawdzenia w praktyce takich czy innych rozwiązań albo narzędzi - nie obciążajcie głowy przed majówką ;-) Majówka to - jak przystało, zgodnie z tradycją - czas na grilla. Albo mały remont.

A może czas na powtórkę? Zdaje się, iż matury jakoś na dniach, za chwilę letnia sesja egzaminacyjna. Może się okazać, iż potrzebujesz powtórki z zakresu data science, statystyki i okolic? Bezterminowy rabat 15% na Karty Data Science! może pomóc ;-)

Karty Data Science to zestaw, który porządkuje wiedzę, a dla początkujących wskazuje podstawowe kierunki.


#AI_ML

How BERT and Transformers Work
Jak działa model BERT (Bidirectional Encoder Representations from Transformers) mający zastosowanie w problemach związanych z przetwarzaniem języka naturalnego (NLP)? Jak z niego korzystać?

#ChatGPT

Q&A o ChatGPT
Tyle pytań do ChatGPT oraz o ChatGPT i tak wiele odpowiedzi. Panowie postanowili zrobić na YouTube Q&A, wyszło ponad dwie godziny interesującej rozmowy

ChatGPT Guide for Machine Learning Top 100 Most Important Prompts
100 pytań, które można zadać chatbotowi GPT, aby lepiej zrozumieć jego funkcjonowanie. Pytania dotyczą m.in. sposobu uczenia się chatbota, jego doświadczenia w komunikacji z użytkownikiem oraz osobowości. Artykuł ułatwia zrozumienie chatbotów GPT, ale przede wszystkim pomaga w ich lepszym wykorzystaniu i "nauce" zadawania pytań.

#analiza_danych_koncepcje

Is F1-Score Really Better than Accuracy?
F1 score jest wskaźnikiem, który łączy w sobie accuracy i precision. Jest on używany do oceny modeli klasyfikacyjnych. F1 score jest bardziej wszechstronny niż accuracy, ponieważ bierze pod uwagę false positives i false negatives.

How to Tune Hyperparameters in ML: Grid Search and Random Search
W tym tekście przedstawiono dwa główne sposoby optymalizacji hiperparametrów w uczeniu maszynowym: siatkę wyszukiwania i losowe wyszukiwanie. Siatka wyszukiwania jest dobra, jeżeli znamy zakres hiperparametrów, które chcemy przeszukać, i chcemy dokładnie przeanalizować wszystkie możliwe kombinacje. Losowe wyszukiwanie jest dobre, jeżeli nie mamy pewności, jaki zakres hiperparametrów przeszukać, i chcemy gwałtownie znaleźć dobry zestaw hiperparametrów.

#big_data

ChatGPT and Elasticsearch: OpenAI meets private data
Tekst opisuje system chatGPT, który łączy w sobie platformę Elasticsearch z openAI GPT-3. System pozwala na przechowywanie danych w prywatnym środowisku, a także na ich przetwarzanie dzięki sztucznej inteligencji. Dzięki temu możliwe jest uzyskiwanie wyników lepszych niż w przypadku korzystania z publicznych danych.

#ciekawostki

The Next Big Crisis for Data Teams
Nadchodzący (według autora) kryzys to kryzys danych. Dane są niewiarygodne, a zespół analityków nie może ich używać.

#programowanie_ogólnie

AI-Powered Code Review on Github
Tekst opisuje narzędzie do automatycznego sprawdzania kodu źródłowego w projektach na GitHubie. Narzędzie to jest oparte na sztucznej inteligencji i umożliwia wykrywanie błędów w kodzie, które mogłyby przeoczyć ludzkie oko, a wyzwalane jest z poziomu Github Actions

#python

Pandas, Spark or Polars?
Trzy rodzaje technologii używanych do przetwarzania i analizy danych: Pandas, Spark i Polars. Kiedy warto używać każdej z nich?

Debugging Made Easy: Use Pytest to Track Down and Fix Python Code
Pytest to jeden z najpopularniejszych pakietów do pisania testów jednostkowych w Pythonie. A tutaj wprowadzenie do tego pakietu

How To Find Locations in a Data-Driven Way by Creating Individual Heat Maps Using Open Street Map’s
Open Street Map można wykorzystać do tworzenia indywidualnych map ciepła, które pomogą w identyfikacji lokalizacji w sposób oparty na danych

#r

Connect Amazon EMR and RStudio on Amazon SageMaker
Jak podłączyć Amazon EMR i RStudio do Amazon SageMaker? SageMaker to usługa umożliwiająca łatwe tworzenie, szkolenie i uruchamianie modeli uczenia maszynowego.

#ux

16 little UI design rules that make a big impact
16 wskazówek dotyczących projektowania interfejsów użytkownika. Wśród nich znajdują się m.in. takie porady, jak: stosowanie kontrastowych kolorów, wykorzystywanie typografii w rozwijanych menu, czy korzystanie z prostych i przejrzystych form.


Zestawienie linków przygotowuje automat, wybacz więc wszelkie dziwactwa ;-)

Idź do oryginalnego materiału