Jeśli chodzi o zarządzanie danymimusimy wiedzieć, gdzie to jest – ale musimy też wiedzieć, co to jest.
Wraz ze wzrostem kontroli regulacyjnych przedsiębiorstwa zwracają w tej chwili większą uwagę na suwerenność danych, szczególnie jeżeli chodzi o dane w chmurze, ale równie ważna jest dokładna wiedza, jakie informacje przechowują.
Ta koncepcja – klasyfikacja danych – nie jest nowy. Ale z wzrost nieustrukturyzowanych danych w szczególności niezbędny jest jasny obraz wszystkich zasobów danych. Coraz częściej firmy zwracają na to uwagę narzędzia sztucznej inteligencji (AI). aby w tym pomóc.
Co to jest klasyfikacja danych i dlaczego jej potrzebujemy?
Organizacje od dawna organizują dane według funkcji lub „klasyfikatora opisowego”, na przykład tego, czy jest to plik HR, czy dokumentacja sprzedaży. Następnie kategoryzują poprzez wrażliwość, zwaną również wymogiem kontroli. Następnie dostępne są informacje kontekstowe, takie jak czas i miejsce utworzenia danych, oraz atrybuty techniczne, takie jak typ i rozmiar pliku.
Tańsze przechowywanie w chmurze umożliwia organizacjom przechowywanie większej ilości danych przez dłuższy czas, co pozwala im wykorzystywać je do celów analizy biznesowej, co w tej chwili coraz częściej oznacza uczenie modeli sztucznej inteligencji.
Dane te muszą być jednak dobrze zorganizowane, aby ich znalezienie i wykorzystanie nie było trudne. Ochrona tych danych jest również istotna. Zarządzanie danymi i zarządzanie danymi zależą od efektywnej klasyfikacji danych. Przechowywanie danych jest również mniej wydajne, jeżeli firma nie ma solidnego planu klasyfikacji danych.
Ręczna klasyfikacja danych, jeżeli jest to możliwe, jest nieefektywna, zawodna i trudna do skalowania. Chociaż organizacje mogą tworzyć zasady wymagające od użytkowników klasyfikowania danych poprzez dodawanie etykiet, znaczników lub słów kluczowych, tak naprawdę działa to tylko w przypadku najszerszych klasyfikacji – takich jak wrażliwość – i nowo tworzonych plików.
Ponieważ organizacje pobierają coraz więcej danych ze źródeł zewnętrznych, takich jak aplikacje internetowe, klienci i Internet rzeczy, skuteczna klasyfikacja danych naprawdę musi zostać zautomatyzowana. Klasyfikacja danych jest kluczową częścią zarządzania cyklem życia danych i jest niezbędna dla bezpieczeństwa danych.
Narzędzia klasyfikacji danych
Jak podkreślają analitycy Gartner, ręczna klasyfikacja danych może prowadzić do błędnej klasyfikacji spowodowanej błędem ludzkim. Ponadto etykiety i znaczniki są „jednowymiarowe” i „nie zapewniają wystarczającego kontekstu do zwiększenia regulacyjnej kontroli danych”. Nie oddają kontekstu i zwykle są statyczne. Dane mogą być również wykorzystywane do różnych celów w trakcie ich cyklu życia.
Automatyzacja rozwiązuje część tego problemu, dodając kontekst, a także sprawdzając zawartość danych, ich lokalizację i sąsiadujące dokumenty. Według Gartnera standardowe narzędzia klasyfikacyjne dobrze sprawdzają się w przypadku standardowych typów danych oraz w organizacjach, które posiadają już dobrze sformatowane dane. Zadanie staje się trudniejsze, gdy organizacje w większym stopniu korzystają z danych nieustrukturyzowanych.
Dostawcy coraz częściej wykorzystują uczenie maszynowe do przeglądania zbiorów danych i dokumentów w celu odkrywania elementów, które mogą zidentyfikować, zarejestrować i śledzić. Jednak, jak zauważa Gartner, ich wydajność może być ograniczona, jeżeli chodzi o przetwarzanie danych dotyczących poufności.
Niemniej jednak rynek oferuje całą gamę narzędzi do klasyfikacji danych, od aplikacji samodzielnych po zintegrowane z bazami danych lub aplikacjami korporacyjnymi, w szczególności business intelligence. Czasami określa się je mianem katalogów danych przedsiębiorstwa.
Innym podejściem jest połączenie klasyfikacji i katalogowania w ramach szerszych aplikacji do zarządzania danymi w przedsiębiorstwie i zapewniania zgodności. Nic więc dziwnego, iż dostawcy chcą w tej chwili zintegrować sztuczną inteligencję ze swoimi narzędziami, aby poprawić dokładność i zmniejszyć potrzebę manualnego tagowania.
Wejście AI, wyjścia danych
Klasyfikacja danych jest naturalnym zastosowaniem sztucznej inteligencji. Dostawcy już od jakiegoś czasu wykorzystują uczenie maszynowe w narzędziach do katalogowania danych. Nie jest to przypadek użycia, który opiera się na generatywnej sztucznej inteligencji (GenAI) lub dużych modelach językowych (LLM), chociaż niektóre narzędzia w tej chwili z nich korzystają.
Niektórzy dostawcy narzędzi wykorzystują uczenie maszynowe i sieci neuronowe, drzewa decyzyjne i regresję logistyczną. Te modele AI uczą się znajdować wzorce w danych, zwłaszcza w danych nieustrukturyzowanych. Modele można następnie wykorzystać do zastosowania automatycznego tagowania do danych.
Klienci mogą następnie testować i udoskonalać modele przed wdrożeniem. Jest to ważne, ponieważ zbiory danych klientów różnią się, a gotowe narzędzie może nie rozumieć specyfiki danych tego klienta lub relacji między różnymi danymi w organizacji. Efektywny model sztucznej inteligencji można wykorzystać do wzbogacenia metadanych powiązanych z plikiem lub dokumentem.
Metadane można następnie wykorzystać do stworzenia katalogu danych przedsiębiorstwa, co z kolei umożliwi skuteczniejsze kontrole. Kolejną zaletą systemów zautomatyzowanych i opartych na sztucznej inteligencji jest to, iż są dynamiczne. jeżeli przedsiębiorstwo dokonuje reklasyfikacji danych – na przykład ze względu na zmiany regulacyjne – narzędzie do klasyfikacji danych powinno mieć możliwość bieżącej aktualizacji katalogu.
Metadane i katalog można następnie wykorzystać do przechowywania danych oraz w narzędziach zapewniających bezpieczeństwo i zapobieganie utracie danych, a także w celu spełnienia zasad przechowywania danych. Trudno to osiągnąć w przypadku danych nieustrukturyzowanych, ale solidne zarządzanie danymi ma najważniejsze znaczenie dla analityki biznesowej i rozwoju sztucznej inteligencji.
Kluczowi dostawcy klasyfikacji danych
Firma Microsoft udostępnia klasyfikatory danych oparte na sztucznej inteligencji za pośrednictwem swojego produktu Purview. Mówi się, iż są one wstępnie przeszkolone w zakresie danych biznesowych, wiedzy o domenie Microsoft i danych syntetycznych. Purview to szersza usługa zarządzania danymi, zgodnością i ryzykiem, która działa na platformie Azure.
IBM oferuje swój katalog wiedzy do klasyfikacji danych i zarządzania nimi przy użyciu sztucznej inteligencji i uczenia maszynowego. Działa jako aplikacja SaaS lub w pakiecie IBM Cloud Pak for Data. IBM wykorzystuje LLM do wzbogacania metadanych.
Narzędzie SAP do klasyfikacji dokumentów zostało wycofane w 2023 r. i zastąpione generatywną usługą ekstrakcji informacji o dokumentach opartą na sztucznej inteligencji.
Oracle Cloud Infrastructure zapewnia „zbieranie metadanych” ze źródeł opartych na chmurze oraz katalog danych OCI dla sieci lokalnych i prywatnych.
Opcje klasyfikacji danych w Google Cloud obejmują Data Catalog, który tworzy inwentarze zasobów danych na podstawie źródeł Google Cloud, w tym BigQuery i jego ofert AI, z magazynu w chmurze oraz z niestandardowych źródeł danych za pośrednictwem interfejsu API.
AWS posiada katalog danych kleju, który umożliwia automatyczne odkrywanie danych.
Istnieje również szeroka gama specjalistycznych platform danych i analiz, które zapewniają klasyfikację danych i zarządzanie nimi, bezpośrednio lub w ramach platform biznesowych i analityki danych. Należą do nich Alatian, Ataccama, Atlan, Collibra, Databricks (poprzez katalog Unity), Qlik, Tableau, a także niezłomny dostawca danych Informatica i dostawca bezpieczeństwa danych Varonis.