Zarządzanie Big Data staje się nieodzowne dla przedsiębiorstw i organizacji, ponieważ dobrze wykorzystane dane stwarzają nowe możliwości, a także pozwalają na lepsze zrozumienie klientów, rynku, trendów oraz własnych procesów biznesowych. w tej chwili jednak jesteśmy w bardzo dogodnym położeniu, ponieważ ponad standardowe narzędzia mamy jeszcze do dyspozycji narzędzia analityczne oparte o uczenie maszynowe (ang. Machine Learning, ML) oraz fundamenty sztucznej inteligencji (ang. Artificial Intelligence, AI). W niniejszym opracowaniu postaram się pokazać możliwości, jakie to podejście stwarza.
## Problem ilości danych
Badacze z Instytutu Gartnera w opracowaniu „Hype Cycle of Emerging Technologies” z 2022 roku zwracają uwagę, iż popularność rozwiązań produkujących i analizujących duże zbiory danych od kilku lat jest i w najbliższej przyszłości wciąż będzie jednym z głównych trendów technologicznych[1]. Wolumen danych generowanych przez różne urządzenia brzegowe, takie jak telefony, tablety, czujniki IoT, urządzenia medyczne, samochody autonomiczne itp., znacząco wzrósł w ciągu ostatnich 10 lat. Przyczynami tego stanu rzeczy jest dynamiczny rozwój technologii, powszechność urządzeń mobilnych oraz rosnąca liczba zastosowań IoT przyczyniły się do eksplozji ilości danych generowanych na brzegu sieci. Według raportu International Data Corporation, ilość danych generowanych przez urządzenia IoT wzrosła z około 2 ZB[2] w 2010 roku do ponad 79 ZB w 2020 roku. Spodziewa się, iż ten trend będzie kontynuowany, a do 2025 roku ilość danych wygenerowanych przez urządzenia brzegowe może sięgnąć choćby 180 ZB[3].
Wzrost wolumenu danych generowanych przez urządzenia brzegowe wiąże się z potencjałem ekonomicznym, ale także stanowi wyzwanie pod względem zarządzania danymi, przechowywania, analizy i bezpieczeństwa. Firmy i organizacje, które będą potrafiły efektywnie zarządzać tą rosnącą ilością danych, będą mogły uzyskać cenne informacje, które wpłyną na podejmowanie lepszych decyzji biznesowych i przewagi konkurencyjnej. Gra toczy się o wysoką stawkę, więc warto wziąć udział w tym wyścigu.
## Wprowadzenie narzędzi ML i AI
Niezależnie czy dopiero zaczynamy pracę z danymi, czy już od jakiegoś czasu się tym zajmujemy, to jednak w tej chwili musimy nauczyć się na nowo metod pracy z wykorzystaniem nowoczesnych narzędzi opierających się o rozwiązania ML i AI. W praktyce oznacza to wykorzystanie sztucznej inteligencji do analizy, interpretacji, przetwarzania i wykorzystania danych w sposób, który pozwala na podejmowanie bardziej trafnych decyzji. Tradycyjne metody analizy danych gromadzonych każdego dnia przez organizacje mogą być nie tylko nieefektywne czy niewydajne, ale również czasochłonne i kosztowne. W takich przypadkach, AI i technologie związane z uczeniem maszynowym i uczeniem głębokim, mogą znacząco przyspieszyć ten proces. Modele AI są w stanie wyekstraktować wzorce i zależności z danych, co pozwala na lepsze zrozumienie informacji oraz bardziej precyzyjne i spersonalizowane podejmowanie decyzji. Ważne jest również automatyczne kategoryzowanie i indeksowanie danych, zarządzanie bazami danych, optymalizacja przepływu informacji, a także utrzymanie zgodności z przepisami dotyczącymi ochrony danych. Wdrożenie takich rozwiązań pozwala organizacji zaoszczędzić czas i zasoby, jednocześnie minimalizując ryzyko ludzkich błędów. Wykorzystanie AI w zarządzaniu danymi może również zapewnić bardziej precyzyjne prognozy i analizy, co jest kluczowym czynnikiem wprowadzeniu biznesu.
Warto w tym miejscu bardziej szczegółowo przyjrzeć się rozwiązaniom AI i ML oferowanym jako usługi w chmurze obliczeniowej, które zachęcają językiem korzyści w postaci łatwego dostępu do dużego wolumenu danych testowych, zerowym CAPEX-em i rozsądnym OPEX-em z naliczaniem sekundowym.
## Wykorzystanie narządzi w chmurze na przykładzie AWS, AZURE i GCP
W tej części chciałbym zaprezentować wybrane rozwiązania z obszaru ML i AI, które mogą być niezwykle pomocne przy pracy z dużymi zbiorami danych. Do porównania wykorzystam usługi obecne w chmurach obliczeniowych oferowane przez trzech największych dostawców usług chmurowych - Amazon Web Services (AWS), Microsoft Azure i Google Cloud Platform (GCP). Linią podziału w analizie niech będzie etap pracy z danymi:
- **Składowanie danych.** W pierwszym etapie zarządzania danymi należy zapewnić odpowiednie składowanie i zarządzanie dużymi zbiorami danych. Wszystkie wymienione platformy chmurowe oferują zaawansowane usługi do przechowywania danych, takie jak Azure Blob Storage, AWS S3 i GCP Cloud Storage. Te usługi pozwalają przechowywać duże ilości danych w elastyczny i skalowalny sposób.
- **Przetwarzanie danych.** Na tym etapie dane są transformowane i przygotowywane do analizy. Narzędzia chmurowe jak Azure Databricks, AWS Glue i GCP Dataflow zapewniają możliwość łatwego i efektywnego przetwarzania danych na dużą skalę. Wykorzystują one równoległe obliczenia, co pozwala na szybkie przetwarzanie dużych zbiorów.
- **Uczenie maszynowe i analiza danych.** Wprowadzenie sztucznej inteligencji i uczenia maszynowego pozwala na analizę danych w celu wykrywania wzorców, prognozowania trendów i podejmowania lepszych decyzji. Platformy takie jak Azure ML Studio, AWS Sagemaker i GCP Vertex AI umożliwiają budowanie, trenowanie i wdrażanie modeli ML na dużą skalę. Te narzędzia oferują także automatyzację procesu uczenia maszynowego i tworzenia modeli dzięki gotowych szablonów.
- **Wizualizacja danych.** Po przetworzeniu i zanalizowaniu danych należy w przystępny sposób zaprezentować opracowane wyniki. Narzędzia takie jak Power BI w Azure, QuickSight w AWS i Data Studio w GCP pozwalają na tworzenie zaawansowanych wizualizacji danych i interaktywnych raportów, co ułatwia zrozumienie informacji i podejmowanie decyzji opartych na danych.
Wykorzystanie chmurowych narzędzi ML i AI, takich jak Azure ML Studio, AWS Sagemaker i GCP Vertex, umożliwia efektywną analizę Big Data oraz wydobycie wartościowych informacji, a do tego pozwala na bardziej efektywne wykorzystanie zasobów i optymalizację czasu pracy z danymi. Warto dodać, iż na tej drodze nie musimy być sami, a możemy skorzystać z wiedzy doświadczonych praktyków w ramach studiów podyplomowych [„Data Science i Big Data w zarządzaniu”](https://www.zarzadzanie.ai/) prowadzonych na Akademii Leona Koźmińskiego w Warszawie we współpracy ze specjalistami z Sages[4]. Studia związane z zarządzaniem dużymi zbiorami danych pozwalają absolwentom zdobyć najważniejsze kompetencje, które są nie tylko poszukiwane na rynku pracy, ale także pozwalają na udział w rozwoju innowacyjnych technologii i wspierają optymalizację działań biznesowych.
## Podsumowanie
Podsumowując, zarządzanie danymi przy użyciu AI ma ogromny potencjał w przyspieszeniu i usprawnieniu działań organizacji z różnych sektorów gospodarki. Wpływ sztucznej inteligencji na zarządzanie danymi będzie prawdopodobnie rosnąć wraz z rozwojem technologii i przyrostem generowanych danych. Jednakże obecnie, aby zrozumieć dane, nie trzeba być inżynierem danych ani badaczem z wieloletnim stażem akademickim. Dziś z pomocą przychodzą nam specjalistyczne i inteligentne narzędzia. AI i ML zdecydowanie pomaga, ale wciąż, aby móc z nich efektywnie korzystać należy zgłębić i zrozumieć podstawy Data Science i do tego warto wesprzeć się kierunkową wiedzą specjalistów z tej dziedziny.
#### Źródła:
1. [https://www.gartner.com/en/newsroom/press-releases/2022-08-10-gartner-identifies-key-emerging-technologies-expanding-immersive-experiences-accelerating-ai-automation-and-optimizing-technologist-delivery](https://www.gartner.com/en/newsroom/press-releases/2022-08-10-gartner-identifies-key-emerging-technologies-expanding-immersive-experiences-accelerating-ai-automation-and-optimizing-technologist-delivery)
2. ZettaBajtów, 10E21.
3. [https://www.statista.com/statistics/871513/worldwide-data-created/](https://www.statista.com/statistics/871513/worldwide-data-created/)
4. [https://www.kozminski.edu.pl/pl/oferta-edukacyjna/studia-podyplomowe/data-science-i-big-data-w-zarzadzaniu](https://www.kozminski.edu.pl/pl/oferta-edukacyjna/studia-podyplomowe/data-science-i-big-data-w-zarzadzaniu)