Integralność danych jest kluczowym aspektem długoterminowej archiwizacji cyfrowej. Przechowywanie danych przez 50, a choćby 100 lat wymaga złożonej wiedzy dotyczącej archiwizacji cyfrowej. Celem tego artykułu jest przedstawienie kluczowych aspektów związanych z utrzymaniem integralności danych w długoterminowej archiwizacji. Omówię znaczenie integralności danych, jej wpływ na różne dziedziny oraz techniki i narzędzia stosowane w celu jej zachowania.
Czym jest długoterminowa archiwizacja
Długoterminowa archiwizacja cyfrowa odnosi się do procesu przechowywania danych cyfrowych przez dłuższy okres, często przez 50 lat, 100 lat, a choćby więcej. Celem tego procesu jest zapewnienie, iż dane pozostaną dostępne, czytelne i zrozumiałe przez cały okres ich przechowywania. Archiwizacja cyfrowa jest szczególnie istotna w kontekście informacji, które mają długoterminową wartość historyczną, naukową, prawną czy kulturową. Proces ten wymaga zastosowania odpowiednich narzędzi, które umożliwiają zachowanie integralności, bezpieczeństwa i dostępności danych w czasie, mimo zmieniających się technologii i warunków przechowywania.
Znaczenie integralności danych w kontekście archiwizacji
Integralność danych odnosi się ona do zapewnienia, iż dane pozostaną niezmienione i autentyczne od momentu ich archiwizacji aż do chwili ich ponownego wykorzystania. Utrzymanie integralności danych jest niezbędne, aby zapewnić ich wiarygodność i wartość dowodową, co ma szczególne znaczenie w kontekstach prawnych i administracyjnych.
Bez integralności danych, archiwizowane informacje mogą ulec zniekształceniu, co prowadzi do utraty ich wartości i zaufania do systemów przechowywania. Na przykład, w przypadku danych medycznych, jakiekolwiek zmiany lub uszkodzenia mogą mieć poważne konsekwencje dla zdrowia pacjentów. Podobnie, w kontekście finansowym, zniekształcone dane mogą prowadzić do błędnych decyzji inwestycyjnych lub audytowych.
Integralność danych w archiwizacji cyfrowej osiąga się poprzez zastosowanie różnych technik i narzędzi. Przykładowe to: sumy kontrolne (checksums), hashe, podpisy cyfrowe oraz systemy redundantne. Sumy kontrolne i hashe pozwalają na weryfikację, czy dane nie zostały zmodyfikowane, podczas gdy podpisy cyfrowe zapewniają autentyczność danych. Systemy redundantne, takie jak RAID, umożliwiają replikację danych w różnych lokalizacjach, co minimalizuje ryzyko ich utraty lub uszkodzenia.
Nie przegap najważniejszych trendów w technologiach!
Zarejestruj się, by otrzymywać nasz newsletter!
Wybrane technologie i metody
Integralność danych zapewnia, iż informacje pozostają niezmienione, autentyczne i dostępne przez cały okres ich przechowywania. W celu osiągnięcia tego celu stosuje się różne technologie i metody.
Metadane
Metadane to dane o danych. Stanowią one informacje opisujące zawartość, strukturę, kontekst i inne cechy danych przechowywanych w archiwach cyfrowych. Metadane są niezbędne do zarządzania, odnajdywania i używania danych na przestrzeni czasu. Ułatwiają one nie tylko zrozumienie, co dany zbiór danych zawiera, ale także w jaki sposób był tworzony, jakie zmiany w nim zachodziły i jakie są jego adekwatności techniczne.
Metadane można podzielić na kilka kategorii:
- Descriptive metadata (metadane opisowe): zawierają informacje opisujące dane, takie jak tytuł, autor, data utworzenia, słowa kluczowe.
- Structural netadata (netadane strukturalne): opisują organizację danych, np. związki między plikami w zestawie danych.
- Administrative metadata (metadane administracyjne): obejmują informacje zarządzające danymi, takie jak prawa dostępu, historia wersji, format pliku.
Do przykładowych standardów metadanych używanych w archiwizacji należą:
- Dublin Core: standardowy zestaw metadanych opisowych stosowany w bibliotekach cyfrowych i archiwach.
- PREMIS (Preservation Metadata: Implementation Strategies): zestaw metadanych administracyjnych wspierających zarządzanie i długoterminową ochronę zasobów cyfrowych.
- METS (Metadata Encoding and Transmission Standard): schemat XML używany do kodowania metadanych strukturalnych i opisowych.
Te standardy metadanych pomagają zachować integralność danych, umożliwiając zrozumienie ich kontekstu i historii, co jest najważniejsze dla ich długoterminowego przechowywania.
Sumy kontrolne (checksums)
Sumy kontrolne to wartości obliczane na podstawie zawartości pliku, które umożliwiają sprawdzenie jego integralności. Suma kontrolna jest generowana przez algorytm, który przekształca zawartość pliku w unikalną wartość liczbową. Najczęściej stosowane algorytmy to CRC (Cyclic Redundancy Check) oraz MD5 (Message Digest Algorithm 5). Gdy plik jest zapisywany lub przesyłany, generowana jest jego suma kontrolna. Później, kiedy plik jest odczytywany, ponownie oblicza się jego sumę kontrolną i porównuje z oryginalną wartością. jeżeli obie sumy się zgadzają, oznacza to, iż plik nie został zmieniony.
Hashe
Hash to rodzaj funkcji skrótu, która przekształca dowolną ilość danych wejściowych w krótką, unikalną wartość wyjściową o stałej długości. Popularne algorytmy hashujące to SHA-256. Hash jest wykorzystywany w podobny sposób jak suma kontrolna, ale jest bardziej zaawansowany. Funkcje hashujące są odporne na kolizje (sytuacje, w których różne dane wejściowe dają ten sam hash) i są trudniejsze do złamania. Dzięki temu hashe są idealnym narzędziem do wykrywania choćby najmniejszych zmian w danych. W praktyce, gdy plik jest przechowywany, generuje się jego hash. Podczas odczytu pliku oblicza się nowy hash i porównuje z oryginalnym. Niezgodność hashy wskazuje na zmiany w pliku, co może świadczyć o korupcji danych lub nieautoryzowanych modyfikacjach.
Systemy redundantne (RAID, replikacja danych)
Systemy redundantne to techniki przechowywania danych, które zwiększają ich niezawodność i dostępność poprzez duplikowanie. Dwa główne rodzaje systemów redundantnych to RAID (Redundant Array of Independent Disks) i replikacja danych.
RAID to technologia wykorzystująca wiele dysków twardych do zwiększenia wydajności i/lub zapewnienia nadmiarowości danych. Istnieje kilka poziomów RAID, od 0 do 6. RAID 1, 5 i 6 są szczególnie użyteczne w kontekście integralności danych, ponieważ zapewniają ochronę przed awariami dysków.
Replikacja danych polega na tworzeniu kopii danych i przechowywaniu ich na różnych urządzeniach lub w różnych lokalizacjach. Może być synchroniczna (dane są zapisywane jednocześnie w wielu miejscach) lub asynchroniczna (dane są kopiowane z opóźnieniem). Replikacja danych jest kluczowa w strategiach ciągłości działania i odzyskiwania po awarii.
Poniżej przedstawiam główne zalety i wady używania RAID i replikacji danych.
RAID
- Zalety:
- Zwiększona niezawodność: RAID 1, 5 i 6 zapewniają ochronę przed awariami dysków.
- Poprawa wydajności: RAID 0 zwiększa szybkość odczytu i zapisu danych.
- Łatwość implementacji: RAID jest stosunkowo prosty do wdrożenia w wielu systemach.
- Wady:
- Koszty: RAID wymaga zakupu dodatkowych dysków twardych.
- Skupienie na sprzęcie: RAID chroni głównie przed awariami sprzętowymi, ale nie chroni przed uszkodzeniami danych spowodowanymi przez błędy logiczne lub oprogramowanie.
Replikacja danych
- Zalety:
- Ochrona przed awariami lokalizacji: replikacja danych zapewnia kopie zapasowe w różnych lokalizacjach, co chroni przed katastrofami lokalnymi.
- Zwiększona dostępność: replikacja synchroniczna zapewnia natychmiastowy dostęp do danych w wielu miejscach.
- Wady:
- Koszty: replikacja danych wiąże się z kosztami związanymi z przechowywaniem i transmisją danych.
- Złożoność zarządzania: zarządzanie wieloma kopiami danych może być skomplikowane i wymaga odpowiednich narzędzi i procedur.
Metadane opisują i dokumentują dane, sumy kontrolne i hashe wykrywają zmiany, a systemy redundantne zapewniają nadmiarowość i ochronę przed awariami. Wszystkie te elementy razem tworzą solidne podstawy dla długoterminowej ochrony integralności danych.
Normy ISO
Archiwizacja cyfrowa to najważniejszy element zapewniający długoterminową dostępność, integralność i użyteczność danych. Aby sprostać wyzwaniom związanym z przechowywaniem danych w dłuższym okresie, branża archiwizacji cyfrowej przyjęła szereg standardów i protokołów, które pomagają w organizowaniu, zarządzaniu i zabezpieczaniu zasobów cyfrowych. Przyjrzymy się takim standardom jak ISO 14721 (OAIS), ISO 16363 i TRAC.
ISO 14721 lub OAIS
ISO 14721, znany również jako OAIS (Open Archival Information System), jest jednym z najważniejszych standardów w dziedzinie archiwizacji cyfrowej. Został opracowany przez Międzynarodową Organizację Normalizacyjną (ISO) i opublikowany w 2003 roku. OAIS jest ramowym modelem archiwum, który definiuje podstawowe funkcje, które powinny być realizowane przez systemy archiwizacyjne, aby zapewnić długoterminową przechowalność danych cyfrowych.
Model OAIS opisuje system archiwalny jako złożony mechanizm składający się z sześciu głównych funkcji:
- Ingest (wprowadzanie): proces przyjmowania i wstępnego przetwarzania materiałów, aby były one gotowe do długoterminowego przechowywania. Obejmuje również tworzenie metadanych opisujących te materiały.
- Archival Storage (przechowywanie archiwalne): przechowywanie danych w sposób, który zapewnia ich długoterminową ochronę i dostępność. To obejmuje zarządzanie przestrzenią dyskową i zapewnianie bezpieczeństwa danych.
- Data management (zarządzanie danymi): kontrola nad danymi i metadanymi, w tym ich organizowanie, katalogowanie i aktualizowanie, aby ułatwić przyszłe wyszukiwanie i wykorzystanie.
- Access (dostęp): umożliwienie użytkownikom dostępu do archiwizowanych danych w sposób kontrolowany. To może obejmować zarówno udostępnianie, jak i ochronę przed nieautoryzowanym dostępem.
- Preservation planning (planowanie ochrony): proces planowania i realizowania działań mających na celu zapewnienie długoterminowej ochrony danych, w tym aktualizacji technologii i formatów.
- Administration (administracja): zarządzanie codziennymi operacjami archiwum, w tym finansami, politykami i procedurami.
Model OAIS jest szeroko akceptowany i stosowany w wielu organizacjach, zarówno publicznych, jak i prywatnych, w celu zapewnienia kompleksowego podejścia do długoterminowej archiwizacji.
ISO 16363 lub Audit and Certification of Trustworthy Digital Repositories
ISO 16363 znane również jako Audit and Certification of Trustworthy Digital Repositories jest standardem opracowanym jako uzupełnienie modelu OAIS. Opublikowane w 2012 roku dostarcza szczegółowych kryteriów oceny i certyfikacji cyfrowych archiwów pod kątem ich wiarygodności i umiejętności zapewnienia długoterminowej przechowalności danych.
ISO 16363 obejmuje sześć głównych obszarów oceny:
- Organizacyjne: ocena struktury organizacyjnej, zarządzania i polityki archiwum.
- Procesy: sprawdzanie, czy procesy zarządzania danymi i metadanymi są zgodne z najlepszymi praktykami.
- Systemy i infrastruktura: ocena technologii i infrastruktury używanych do przechowywania i zarządzania danymi.
- Bezpieczeństwo: ocena zabezpieczeń chroniących dane przed nieautoryzowanym dostępem i zagrożeniami.
- Planowanie ochrony: sprawdzanie strategii planowania ochrony i migracji danych.
- Audyt i raportowanie: procesy audytowe i raportowe, które pomagają w monitorowaniu i weryfikacji działań archiwum.
ISO 16363 jest używany do oceny, czy cyfrowe archiwa są godne zaufania i czy spełniają wymagania dla długoterminowej ochrony danych. Jest to ważne narzędzie dla organizacji dążących do uzyskania certyfikacji jako wiarygodne archiwa.
Nie przegap najważniejszych trendów w technologiach!
Zarejestruj się, by otrzymywać nasz newsletter!
TRAC lub Trustworthy Repositories Audit & Certification: Criteria and Checklist
TRAC, czyli Trustworthy Repositories Audit & Certification: Criteria and Checklist, to standard opublikowany przez NARA (National Archives and Records Administration) w 2007 roku. Jest to zestaw kryteriów i wytycznych mających na celu ocenę i certyfikację cyfrowych repozytoriów jako wiarygodnych. TRAC definiuje podstawowe wymagania dla repozytoriów cyfrowych, które obejmują:
- Ochrona: wymaga, aby repozytoria zapewniały adekwatną ochronę danych.
- Bezpieczeństwo i integralność: ocena procedur zabezpieczających integralność i bezpieczeństwo danych.
- Dostępność: weryfikacja, czy repozytorium zapewnia łatwy dostęp do danych dla uprawnionych użytkowników.
- Zarządzanie: ocena efektywności zarządzania i administracji repozytorium.
TRAC jest szeroko stosowany jako standard do audytów i certyfikacji, zapewniając, iż repozytoria cyfrowe spełniają wymagania dla długoterminowej wiarygodności i integralności. Lista kontrolna TRAC została zastąpiona w 2012 r. przez normę ISO 16363
Standardy i protokoły takie jak ISO 14721 (OAIS), ISO 16363 i TRAC stanowią fundamenty dla skutecznej archiwizacji cyfrowej. ISO 14721 (OAIS) oferuje ramy dla funkcji archiwum, podczas gdy ISO 16363 i TRAC dostarczają kryteriów do oceny i certyfikacji zaufanych repozytoriów cyfrowych. Przyjęcie tych standardów pomaga organizacjom zapewnić, iż ich zasoby cyfrowe będą przechowywane w sposób bezpieczny, efektywny i długoterminowy, co jest niezbędne dla zachowania integralności i dostępności danych w przyszłości.
Integralność danych w długoterminowej archiwizacji cyfrowej
Integralność danych ma znaczenie dla wielu systemów: dla tych związanych z bezpieczeństwem, zdrowiem itd. W artykule przedstawiłem podstawy zachowania integralności – najważniejsze normy ISO i metody zapewniania, iż dane pozostaną w niezmiennej formie choćby przez kilkadziesiąt lat. W kolejnym artykule zagłębie się w bardziej zaawansowane techniki zachowania integralności.
Źródło zdjęcia: Anastasia Shuraeva