Bazy danych w chmurze: skoki spadochronowe dla szerszego obrazu

cyberfeed.pl 2 miesięcy temu

Sposób, w jaki organizacje przechowują, zarządzają i analizują dane, zawsze będzie stanowił wyzwanie, biorąc pod uwagę nieustanny atak danych na korporacyjne systemy IT. To tak, jakby zespoły IT zawsze nadrabiały zaległości.

Według Veritas, przeciętna firma przechowuje około 10 PB (petabajtów) danych – co odpowiada około 23 miliardom plików – z czego 52% to niesklasyfikowane (lub ciemne) dane, a 33% to dane zbędne, przestarzałe i trywialne. Chociaż nieuchronnie wpływa to na koszty przechowywania i cyberbezpieczeństwo (to zupełnie inna historia), analiza i wyciąganie wniosków z tych danych nie jest łatwe. Wymaga to innego podejścia do sposobu, w jaki dane są tradycyjnie zarządzane, ponieważ coraz więcej organizacji pracuje z coraz bardziej złożonymi relacjami danych.

Generatywna sztuczna inteligencja (GenAI) staje się niewątpliwie coraz bardziej brana pod uwagę, zwłaszcza jeżeli chodzi o korporacyjne myślenie o zarządzaniu danymi. Ale w tej chwili jest to coś w rodzaju miecza obosiecznego. Zalety – często przyciągające uwagę korzyści – wpływają na członków zarządu. Według Badania Capgemini96% dyrektorów wskazuje GenAI jako gorący temat dyskusji w zarządzie. Ale jeżeli chodzi o praktyczne realia, przez cały czas istnieje pewna niepewność.

Jak ujawnia siódme coroczne badanie światowych liderów IT przeprowadzone przez Couchbase, firmy zmagają się z architekturami danych, które nie radzą sobie z wymaganiami danych. Badania twierdzą, iż ta walka oznacza średnio 4 mln USD zmarnowanych wydatków. Około 42% respondentów obwinia o to poleganie na starszej technologii, która nie jest w stanie sprostać wymogom cyfrowym, podczas gdy 36% wskazuje na problemy z dostępem do wymaganych danych lub zarządzaniem nimi.

Jasne jest, iż bazy danych relacyjne nie są w stanie działać wystarczająco szybko, aby sprostać wymaganiom nowoczesnych aplikacji przetwarzających duże ilości danych, co odbija się negatywnie na firmach.

Zarządzanie ustrukturyzowanymi i nieustrukturyzowanymi zestawami danych doprowadziło do różnych podejść. Na przykład, bazy danych grafowych – rodzaj Baza danych NoSQL – są coraz częściej postrzegane jako niezbędne dla nowoczesna mieszanka baz danych iż organizacje muszą zająć się swoimi potrzebami w zakresie danych. Co ciekawe, wyniki ankiety Couchbase pokazują, iż 31% przedsiębiorstw ma skonsolidowane architektury baz danych, dzięki czemu aplikacje nie mogą uzyskać dostępu do wielu wersji danych, a tylko 25% przedsiębiorstw ma wysokowydajną bazę danych, która może zarządzać niestrukturyzowanymi danymi z dużą prędkością.

Bazy danych NoSQL w akcji

Kto zatem korzysta z baz danych grafowych i innych baz danych NoSQL i dlaczego? Czy podejście wielobazowe może pomóc, czy też oznacza to po prostu większą złożoność do zarządzania? Według Rohana Whiteheada, specjalisty ds. danych w Institute of Analytics (IoA), organizacji zawodowej dla profesjonalistów zajmujących się analityką i nauką o danych, głównymi powodami przyjmowania baz danych grafowych są ich wydajność w obsłudze silnie połączonych danych i zdolność do wykonywania złożonych zapytań z niskim opóźnieniem.

„Zapewniają naturalny i intuicyjny sposób modelowania sieci w świecie rzeczywistym, dzięki czemu idealnie nadają się do zastosowań, w których zrozumienie relacji między punktami danych ma najważniejsze znaczenie” – mówi.

Przykłady wybitnych użytkowników obejmują sieci społecznościowe, takie jak Facebook, które chcą analizować relacje dzięki wykresów społecznościowych. Dostawcy usług finansowych również wykorzystują bazy danych grafów do wykrywania oszustw, mapując wzorce transakcji, aby odkryć anomalie, które mogą wskazywać na działania oszukańcze. A firmy z łańcucha dostaw wykorzystują bazy danych grafów do optymalizacji logistyki poprzez analizę relacji między dostawcami, produktami i trasami.

„Bazy danych NoSQL są powszechnie stosowane w takich branżach jak handel elektroniczny i IoT [internet of things] i analityki w czasie rzeczywistym”, mówi Whitehead. „Giganci e-commerce, tacy jak Amazon i eBay, używają baz danych zorientowanych na dokumenty, takich jak MongoDB do zarządzania katalogami produktów, umożliwiając szybkie i elastyczne aktualizacje bez konieczności wprowadzania złożonych zmian w schemacie.”

Dodaje, iż Aplikacje IoTtakie jak te w inteligentnych miastach lub automatyce przemysłowej, korzystają ze „skalowalności i elastyczności sklepów o kluczowej wartości, takich jak Redisktóry może obsługiwać dużą prędkość danych generowanych przez czujniki. W analityce w czasie rzeczywistym firmy używają magazynów rodzin kolumn, takich jak Kasandra do przetwarzania i analizowania dużych ilości przesyłanych strumieniowo danych, co umożliwia szybkie podejmowanie decyzji i uzyskiwanie spostrzeżeń.”

Skalowalność i elastyczność

Podczas gdy bazy danych grafowych są wydajne w obsłudze połączonych danych, wykonując zapytania o niskim opóźnieniu, NoSQL może skalować się poziomo, obsługiwać niestrukturyzowane dane i dobrze działać w środowiskach rozproszonych. Kluczem jest tutaj możliwość zarządzania różnymi modelami danych i obsługi różnych obciążeń.

„Obecnie wiele zespołów korzysta z grafów, ponieważ stanowią one elastyczną i wydajną opcję dla wielu nowoczesnych systemów danych” – mówi Jim Webber, główny naukowiec w Neo4j„Grafy pasują do wielu dziedzin, ponieważ wysoce asocjacyjne (tj. grafowe) dane są powszechne w wielu dziedzinach biznesu. Grafy są w tej chwili technologią ogólnego przeznaczenia, podobnie jak relacyjne bazy danych, a większość problemów można łatwo uzasadnić dzięki grafów”.

Jako przykład podaje jednego z dużych klientów bankowych Neo4j, który chce „poznać swój profil ryzyka, przechodnio przeszukując złożoną sieć zasobów”. Według Webbera organizacja wielokrotnie rozpoczynała i porzucała projekt, próbując uruchomić go dzięki tabel relacyjnych. W innym przykładzie Webber mówi, iż Transport for London używa grafów, aby działać szybciej w naprawie i utrzymaniu sieci dróg w Londynie, „oszczędzając miastu około 600 mln funtów rocznie”.

Innym klientem Neo4j jest ExpectAI, londyńska firma konsultingowa, która wykorzystuje technologię baz danych grafowych do rozwiązań dotyczących zmian klimatycznych. Według CEO i założyciela Ananda Vermy technologia grafowa umożliwiła firmie „poruszanie się po rozległym ekosystemie danych publicznych i prywatnych, zapewniając jednocześnie identyfikowalność i kontekst potrzebny do zmniejszenia pesymizmu wokół postrzeganego greenwashingu”.

Verma dodaje, iż elastyczność baz danych grafowych dała firmie to, czego potrzebuje, aby skutecznie rejestrować złożone relacje w swoich danych. „To z kolei zapewnia potężne informacje i spostrzeżenia, których nasi klienci potrzebują, aby podejmować dochodowe działania, jednocześnie zmniejszając swój ślad węglowy” — mówi.

Ale to część AI w nazwie firmy naprawdę dodaje wartości do oferty. Verma sugeruje, iż AI pomaga technologii organizować niestrukturyzowane dane, co z kolei umożliwia wyszukiwanie semantyczne i indeksowanie wektorów.

„Pomaga to użytkownikom interpretować swoje dane dzięki przetwarzania języka naturalnego [natural language processing] konwersacyjna sesja pytań i odpowiedzi [questions and answers] „interfejsu”, mówi Verma. „Naszym ostatecznym celem w przypadku tej technologii jest znaczący wkład w redukcję emisji dwutlenku węgla o 500 megaton na całym świecie do 2030 r.”

To godny cel i dobry przykład tego, jak technologia grafów przekształca relacje danych i umożliwia rozkwit nowych, złożonych pomysłów biznesowych na dane. Wykorzystanie AI będzie niezmiennie wzrastać, ponieważ organizacje będą dążyć do redukcji funkcji ręcznych, skrócenia czasu zapytań i zwiększenia spostrzeżeń.

Sztuczna inteligencja i NoSQL

Whitehead z IoA twierdzi, iż bazy danych grafowych są „szczególnie odpowiednie dla aplikacji AI, które wymagają zrozumienia i analizy relacji w danych”. Dodaje, iż technologia może obsługiwać zaawansowane algorytmy rozpoznawania wzorców, wykrywania społeczności i znajdowania ścieżek, które są najważniejsze dla zadań takich jak systemy rekomendacji, wykrywanie oszustw i grafy wiedzy.

Dla Kena LaPorte’a, kierownika działu inżynierii infrastruktury danych w Bloombergu, sztuczna inteligencja już odniosła znaczący sukces wpływ, ale z NoSQLfirma zauważyła duże wewnętrzne zainteresowanie „wykorzystaniem Apache AGE, rozszerzenia bazy danych grafowych, wraz z PostgreSQL”.

„Był używany do wszystkiego, od pochodzenia danych (śledzenia danych w miarę ich przemieszczania się przez systemy) po skomplikowane pulpity wdrożeniowe. Analityczna moc Apache AGE w połączeniu z bogatymi zestawami danych Bloomberga była dla nas naturalną historią sukcesu”.

Sztuczna inteligencja okazuje się zatem nieoceniona w przedsiębiorstwach zmagających się z ciągle rosnącą ilością ustrukturyzowanych i nieustrukturyzowanych informacji niezbędnych do podejmowania świadomych decyzji.

„Ponieważ obserwujemy wykładniczy wzrost informacji finansowych we wszystkich klasach aktywów, Bloomberg przez cały czas inwestuje w szereg różnych technologii, aby zapewnić, iż będziemy mogli realizować naszą kompleksową strategię AI” — dodaje LaPorte. „Bazy danych grafowych i wektorowych są kluczowymi elementami tego wysiłku, oprócz komponentów wyszukiwania wektorowego wbudowanych w inne technologie danych. Obejmuje to tradycyjne wyszukiwanie rozproszone po bardziej oparte na AI gęste wyszukiwanie wektorowe (lub semantyczne)”.

Bazy danych NoSQL, dzięki swojej umiejętności obsługi dużych wolumenów danych, są integralną częścią aplikacji AI. Obsługują pobieranie danych w czasie rzeczywistym i zapytania, co jest niezbędne dla aplikacji AI wymagających natychmiastowego przetwarzania danych i podejmowania decyzji, takich jak konserwacja predykcyjna i analiza w czasie rzeczywistym.

Na przykład w firmie Bloomberg możliwości analizy danych w czasie rzeczywistym w bazach danych grafowych obsługują aplikacje AI wymagające natychmiastowych analiz, na przykład dynamicznego ustalania cen i wykrywania anomalii.

„Elastyczne modele danych baz danych NoSQL umożliwiają przechowywanie i przetwarzanie złożonych i zróżnicowanych typów danych, co jest korzystne dla aplikacji AI, które muszą obsługiwać niestrukturyzowane dane, takie jak tekst, obrazy i dane z czujników” — mówi Whitehead z IoA. Jako przykład podaje: „Zorientowany na dokumenty model MongoDB ułatwia przechowywanie i pobieranie danych opartych na JSON, które są powszechnie używane w przepływach pracy AI”.

Przyszły kierunek bazy danych

Whitehead sugeruje, iż przyszłość baz danych grafowych „wygląda obiecująco”, z oczekiwanym wzrostem adopcji, ponieważ coraz więcej organizacji dostrzega wartość analizy połączonych danych. „Branże takie jak opieka zdrowotna, telekomunikacja i finanse będą coraz bardziej polegać na bazach danych grafowych ze względu na ich możliwości analityczne”, mówi, dodając, iż przyszłe osiągnięcia prawdopodobnie będą koncentrować się na udoskonaleniu analityki grafowej i głębszej integracji z technologiami AI.

Można się spodziewać, iż dostawcy chmury rozszerzą swoją ofertę baz danych, zachwalając bardziej solidne, skalowalne i zintegrowane rozwiązania. Graph i inne bazy danych NoSQL są „gotowe na znaczny wzrost i innowacje”, mówi Whitehead.

Nie jest w tym osamotniony. Konsensus jest taki, iż możliwości będą odpowiadać rosnącej wizji przemysłu, a integracja AI umożliwi bardziej inteligentne i oparte na danych aplikacje.

LaPorte z Bloomberga ma kilka rad: „Każdy musi eksperymentować. Musisz pomyśleć o przypadku użycia. Możesz polegać na produktach takich jak DaneStax AstraDB, OtwórzAIitd., aby w mgnieniu oka stworzyć rozwiązanie gotowe do produkcji i natychmiast zmierzyć jego wartość. Następnie, jeżeli kierunek wygląda wystarczająco dobrze, możesz zainwestować więcej zasobów, aby zoptymalizować przypadek użycia”.

Source link

Idź do oryginalnego materiału