Wiele przedsiębiorstw zmierza w kierunku wykorzystania jeziora danych aby pomóc w zarządzaniu rosnącą ilością informacji.
Tak duże repozytoria umożliwiają organizacjom gromadzenie i przechowywanie ustrukturyzowanych i nieustrukturyzowanych danych przed przekazaniem ich do dalszego użytku zarządzanie danymi i przetwarzanie w hurtowni danych, bazie danych, aplikacji korporacyjnej lub badaczom danych i analitykom oraz narzędzia sztucznej inteligencji (AI)..
Biorąc pod uwagę potencjalnie ogromne ilości przetwarzanych danych i potrzebę skalowania w miarę rozwoju firmy, coraz więcej organizacji postrzega chmurę jako lokalizację jeziora danych.
Co to jest jezioro danych?
Jeziora danych przechowują surowe dane. Z jeziora danych dane są przesyłane w dół — zwykle w celu dalszego przetwarzania lub do bazy danych lub aplikacji korporacyjnej. Jezioro danych to miejsce, w którym gromadzone są różne strumienie danych firmy, pochodzące z łańcucha dostaw, klientów, marketingu, zapasów lub dane z czujników z instalacji lub maszyn.
Dane w jeziorze danych mogą być ustrukturyzowane, nieustrukturyzowane lub częściowo ustrukturyzowane. Firmy mogą korzystać z tagowania metadanych, aby pomóc w wyszukiwaniu zasobów, ale zakłada się, iż dane będą przesyłane dalej do specjalistycznych aplikacji lub będą nad nimi pracować badacze danych i programiści.
Usługi internetowe Amazona (AWS) oferuje dobrą roboczą definicję – jezioro danych to „scentralizowane repozytorium, które umożliwia przechowywanie wszystkich danych ustrukturyzowanych i nieustrukturyzowanych w dowolnej skali. Możesz przechowywać swoje dane w niezmienionej postaci, bez konieczności ich wcześniejszego porządkowania”.
Kontrastuje to z hurtownia danychgdzie informacje są przechowywane w bazach danych, do których mają dostęp pracownicy i aplikacje korporacyjne.
Jeziora danych w chmurze: najważniejsze funkcje
Kluczową cechą jeziora danych w chmurze jest jego skala, a zaraz za nią łatwość zarządzania. Jeziora danych dostawców hiperskalowych rozwiązań chmurowych korzystają z obiektowej pamięci masowej, która oferuje praktycznie nieograniczoną pojemność. Jedynym ograniczeniem będzie prawdopodobnie budżet przedsiębiorstwa na przechowywanie danych.
Podobnie jak w przypadku innych technologii przechowywania w chmurze, jeziora danych w chmurze można skalować w górę i w dół, aby umożliwić klientom dostosowanie wydajności, a tym samym kosztów, zgodnie z wymaganiami biznesowymi. Hiperskaler jest odpowiedzialny za zwiększanie pojemności, konserwację sprzętu i oprogramowania, redundancję i bezpieczeństwo, zdejmując w ten sposób ten ciężar z zespołu zajmującego się analizą danych.
„Zarządzane usługi Data Lake oferowane przez hiperskalowarki w chmurze pozwalają zespołom inżynierów danych skoncentrować się na analityce biznesowej, uwalniając je od czasochłonnych zadań związanych z utrzymaniem lokalnej infrastruktury Data Lake” – mówi Srivatsa Nori, ekspert ds. danych w PA Consulting.
„Wysoka niezawodność, dostępność i aktualna technologia oferowana przez hiperskalowarki w chmurze sprawiają, iż zarządzane infrastruktury jezior danych stają się coraz bardziej popularne, ponieważ zapewniają solidną wydajność i minimalne przestoje”.
Dostawcy usług w chmurze oferują również zaawansowaną kontrolę dostępu i audyt, dodaje, a także usprawnione rozliczanie dzięki narzędzi takich jak tagowanie zasobów.
I choć jeziora danych i hurtownie danych były jak dotąd w dużej mierze od siebie oddzielone, zbliżają się do siebie, działając na jednej platformie lub jako „jeziora danych”.
„W nowoczesnej architekturze danych jest miejsce na jezioro danych i hurtownię danych, ponieważ służą one uzupełniającym celom” – mówi Nori. „Chmura zapewnia potężne środowisko umożliwiające ujednolicenie obu podejść”.
Plusy i minusy jezior danych w chmurze
Większość zalet hiperskalowego przechowywania w chmurze dotyczy w równym stopniu jezior danych w chmurze, w tym skala, elastyczność i łatwość zarządzania.
Organizacje unikają także konieczności ponoszenia początkowych wydatków kapitałowych i długich terminów realizacji związanych z budową centrum danych i instalacją sprzętu.
W związku z tym organizacje muszą wziąć pod uwagę potencjalną utratę kontroli, zwłaszcza nad kosztami. Elastyczny charakter przechowywania w chmurze może oznaczać wzrost kosztów, jeżeli jezioro danych będzie wykorzystywane częściej, niż oczekiwano. Zespoły zajmujące się danymi muszą także wziąć pod uwagę ruch wychodzący i możliwe koszty przepustowości, zwłaszcza gdy przenoszą dane „w dół” do baz danych i innych aplikacji.
Bezpieczeństwo, poufność i suwerenność danych pozostają barierami dla niektórych organizacji. Przepisy mogą nakładać ograniczenia na to, gdzie organizacje przechowują dane, a surowe, nieprzetworzone dane mogą być bardzo wrażliwe. Hiperskalery oferują teraz strefy dostępności i ograniczenia geograficzne dotyczące miejsca przechowywania danych klientów. CIO i CDO muszą upewnić się, iż te limity spełniają wymagania biznesowe.
Wydajność nie jest jednak zwykle przeszkodą w przypadku dużych projektów typu jezioro danych, ponieważ intensywne przetwarzanie odbywa się dalej. Wydajność ma większe znaczenie na poziomie hurtowni danych, gdzie do przechowywania baz danych wykorzystywana jest pamięć blokowa – w chmurze lub lokalnie.
Oferta jeziora danych hiperskalowalników
Dla przedsiębiorstw budujących jeziora danych w chmurze, Microsoft oferuje platformę Azure Data Lake Storage (ADLS), a także Azure Synapse do celów analitycznych i Azure Purview do zarządzania danymi. ADLS Gen2 łączy ADLS Gen1 z usługą Azure Blob Storage, podczas gdy Synapse współpracuje z danymi strukturalnymi i nieustrukturyzowanymi na potrzeby jezior danych.
AWS zapewnia Formacja jeziora AWSaby utworzyć jeziora danych w pamięci masowej S3. Łączy się to z Atheną, Redshift Spectrum i SageMaker w celu uzyskania dostępu do danych, analityki i uczenia maszynowego.
Nieco inne podejście przyjmuje Google, łącząc Google Cloud Storage z narzędziami open source, BigQuery i VertexAI. Google oferuje również BigLake, który może łączyć pamięć masową w GCP, S3 i Azure, a także tworzyć ujednoliconą architekturę dla jezior danych i hurtowni danych, czyli tego, co Google nazywa „jeziorem danych w otwartym formacie”.