Jak zapewnić bezpieczeństwo cyfrowych zbiorów? W jakich formatach plików można zapisywać zdigitalizowane materiały? Które z nich najlepiej sprawdzają się do poszczególnych zadań? Dowiedz się, jak indeksować cyfrowe zasoby w firmie, jakie metadane stosować, by potem móc łatwo odnajdywać potrzebne dokumenty. Druga część praktycznego poradnika.
Czytasz drugą część kompleksowego poradnika archiwizacji cyfrowej. W pierwszej omówiłem podstawy i przedstawiłem strategie organizacji danych.
Zapewnienie bezpieczeństwa danych w archiwach cyfrowych
Firmy powinny zabezpieczać swoje zasoby cyfrowe, aby zapewnić bezpieczeństwo działalności. Przechowywanie tych cyfrowych aktywów niesie ze sobą szereg wyzwań, w tym konieczność zapewnienia ich bezpieczeństwa. Zdigitalizowane dokumenty są narażone na różne zagrożenia, w tym:
- uszkodzenia fizyczne – nośniki np. dyski twarde mogą ulec uszkodzeniu fizycznym, np. w wyniku pożaru czy zalania;
- uszkodzenia cyfrowe – cyfrowe zasoby mogą ulec uszkodzeniu w wyniku awarii oprogramowania, infekcji wirusem czy błędu ludzkiego;
- utrata danych – cyfrowe zasoby mogą zostać utracone w wyniku awarii systemu, kradzieży czy usunięcia danych przez nieuprawnioną osobę.
Zasady bezpieczeństwa
Chcesz zapewnić bezpieczeństwo cyfrowych zbiorów archiwalnych? Zastanów się, czy w swojej organizacji masz zaplanowane działania i procedury w każdej z czterech poniższych z kwestii:
- ochrona fizyczna – nośniki cyfrowe należy przechowywać w bezpiecznym miejscu, które jest chronione przed uszkodzeniami fizycznymi i kradzieżą z odpowiednimi warunkami klimatycznymi np. sejf;
- ochrona cyfrowa – należy stosować odpowiednie środki bezpieczeństwa, takie jak systemy antywirusowe, firewalle i zapory sieciowe, szyfrowanie, silne hasła, uwierzytelnianie użytkownika;
- kontrola dostępu – należy ograniczyć dostęp do cyfrowych zasobów tylko do osób uprawnionych;
- kopie zapasowa – należy regularnie tworzyć zapasowe kopie cyfrowych zasobów, aby w razie ich utraty można było je odtworzyć, np. reguła 3-2-1 lub jej najnowsza wersja: reguła 3-2-1-1-0.
Migracja danych
Migracja danych w archiwizacji cyfrowej to proces przenoszenia danych z jednego systemu przechowywania lub formatu do innego w celu zapewnienia ich trwałości i integralności. Migracja umożliwia udostępnianie danych w zmieniających się technologiach i formatach. To zapobiega utracie dostępu do informacji w trakcie korzystania. Do najpopularniejszych technik migracji danych należą:
- migracja ręczna – polega na konieczności kopiowania danych (lub zmiany formatu) z jednego systemu do drugiego;
- migracja automatyczna – polega na zastosowaniu odpowiedniego systemu do automatycznego kopiowania danych z jednego systemu do drugiego. Jest to metoda szybsza i bardziej niezawodna.
Wybór formatów plików do długotrwałego przechowywania
W archiwizacji cyfrowej wybór formatów plików ma znaczenie najważniejsze dla przechowywania, gdy postanowimy zdigitalizować nasze zbiory archiwalne. Podczas digitalizacji bibliotek archiwalnych należy wybrać administratora formatów plików, które zapewniają ich trwałość i dostępność przez długi czas (perspektywa 100 i więcej lat).
Dlaczego formaty cyfrowe są ważne?
Odpowiednie formaty są ważne, ponieważ określają, w jaki sposób dane są zadawane i uwzględniane, co wpływa na jakość, rozmiar i zachowanie danych. Dobry format pliku do przechowywania powinien charakteryzować się:
- brakiem ograniczeń licencyjnych – format pliku nie powinien być objęty ograniczeniami licencyjnymi, które uniemożliwiają jego odczyt w przyszłości;
- kompatybilnością – format pliku powinien być kompatybilny z różnymi systemami i oprogramowaniem.
Rodzaje formatów
Wśród różnych formatów plików, które mogą być wykorzystywane do przechowywania danych, wyróżniamy kilka głównych kategorii. Należą do nich:
Wybór formatu pliku
Wybór parametrów technicznych plików, takich jak rozdzielczość, format, kodowanie oraz rozmiar, powinien zapewnić optymalną wydajność i efektywność digitalizacji do naszych potrzeb. Format powinien być odpowiedni do procesów przetwarzania, przechowywania i udostępniania danych.
Przykładowo: dopuszczalne jest przechowywanie dokumentów w formacie PDF/A, który jest standardem otwartym, gwarantującym zgodność z systemami i oprogramowaniem oraz umożliwiającym dostęp do dokumentów urzędowych. Jest to format często stosowany w archiwizacji cyfrowej ze względu na jego uniwersalność i trwałość.
Natomiast w przypadku digitalizacji archiwalnej format TIFF jest powszechnie preferowany ze względu na wysoką jakość i brak strat danych. jeżeli chodzi o przechowywanie danych multimedialnych, format MPEG-4 jest często wybierany ze względu na jego zdolność do zapewnienia wysokiej jakości obrazu oraz skutecznej kompresji danych.
Znając potrzeby własnej firmy, musisz zdecydować, czy ważniejsza jest uniwersalność plików czy też wysoka jakość cyfryzowanych dokumentów.
Strategie indeksowania i wyszukiwania w cyfrowych archiwach
Cyfrowe archiwum nie będzie dobrze funkcjonowało, jeżeli nie będzie się dało sprawnie wyszukiwać zgromadzonych w nim dokumentów i informacji. Żeby zapewnić taką funkcjonalność, należy stworzyć i wdrożyć odpowiednią strategię indeksowania i wyszukiwania.
Indeksowanie to proces tworzenia indeksu, który umożliwia skrócenie czasu dostępu do danych dzięki takim danym jak: słowa kluczowe, tagi i metadane. Natomiast wyszukiwanie jest procesem znajdowania informacji w danym systemie.
Ogólne zasady indeksowania i wyszukiwania
Do najważniejszych zasad przy indeksowaniu i wyszukiwaniu danych należą:
- największa ilości informacji – im więcej informacji znajdzie się w indeksie, tym dokładniejsze będą wyniki wyszukiwania.
- odpowiednie słowa kluczowe – słowa najważniejsze to słowa lub wyrażenia, które są używane do opisania zawartości danych. Wybór odpowiednich słów kluczowych jest najważniejszy dla skutecznego wyszukiwania.
- odpowiednie metadane – metadane to informacje o danych, które są dodawane przez użytkownika lub system. Metadane mogą być wykorzystywane do poprawienia skuteczności wyszukiwania.
Typy strategii indeksowania
Do dyspozycji mamy dwa warianty:
- indeksowanie pełne – oznacza to, iż wszystkie dane w cyfrowym archiwum są indeksowane.
- indeksowanie częściowe – tylko część danych w cyfrowym archiwum jest indeksowana.
Typy strategii wyszukiwania
Istnieje wiele różnych strategii wyszukiwania, które można wykorzystać w cyfrowych archiwach. Do najpopularniejszych należą:
- wyszukiwanie proste – polegające na wyszukaniu danych, które zawierają określone słowo najważniejsze lub wyrażenie;
- wyszukiwanie zaawansowane – umożliwiające użytkownikom wyszukiwanie danych na podstawie różnych kryteriów np. słowa kluczowe, autor, tytuł;
- wyszukiwanie semantyczne – pozwala na wyszukiwanie, które uwzględnia kontekst danych.
Zarządzanie metadanymi w archiwach cyfrowych
Metadane to informacje o obiektach cyfrowych, które znajdują się w archiwum. Służą one do opisu, dostępności i ułatwienia wyszukiwania oraz selekcji dostępnych produktów. Skrótowo mówi się, iż metadane to dane o danych. Często są one dodawane przez użytkowników lub systemy teleinformatyczne.
Metadane są ważne, ponieważ ujednolicają dostępność zasobów, ułatwiając ich wyszukiwanie i udostępnianie oraz zapewniają spójność i interoperacyjność między instytucjami i systemami.
Standardy metadanych
Standardy metadanych są najważniejsze dla efektywnego zarządzania informacjami cyfrowymi, umożliwiając jednoznaczne opisywanie i udostępnianie zasobów. Stanowią one zbiór zasad i wytycznych dotyczących struktury, formatu i zawartości metadanych, co pozwala na ich spójne wykorzystanie w różnych instytucjach oraz systemach informatycznych.
Dzięki zastosowaniu standardów organizacje mogą zapewnić interoperacyjność swoich systemów, ułatwiając wymianę danych i integrację zewnętrznych narzędzi oraz usług. Ponadto standardy metadanych pomagają w zapewnieniu trwałości i dostępności informacji w dłuższej perspektywie czasowej, umożliwiając ich skuteczne zarządzanie i ochronę przed utratą lub zniszczeniem.
Oto wybrane standardy metadanych:
- EAD (Encoded Archival Opis) – standard XML używany do opisu publikacji archiwalnych, szczególnie w archiwach historycznych;
- METS (Metadata Encoding and Transmission Standard) – standard XML służący do opisu metadanych z treściami;
- PREMIS (Preservation Metadata: Implementation Strategies) – Standard definiujący metadane potrzebne do trwałego przechowywania zasobów archiwalnych;
- MARC (Machine-Readable Cataloging) – tradycyjny format katalogowania bibliotecznych języków używany w bibliotekach na całym świecie;
- Dublin Core – prosty i używany standard metadanych, szczególnie w kontekście zasobów internetowych;
- MODS (Metadata Object Opis Schema) – standard XML używany przez amerykańską Bibliotekę Kongresu używany do opisu zasobów bibliotecznych.
Udostępnienie metadanych
Udostępnianie metadanych odgrywa kluczową rolę w zapewnianiu dostępu do informacji cyfrowej oraz w efektywnym zarządzaniu zasobami. Poprzez udostępnianie metadanych, instytucje oraz organizacje mogą dzielić się swoimi zasobami z innymi użytkownikami, wspierając otwartość i współpracę w obszarze informacji cyfrowej.
Ponadto, udostępnianie metadanych umożliwia integrację różnych systemów oraz platform archiwizacyjnych, co przyczynia się do zwiększenia interoperacyjności i efektywności działania całego ekosystemu informacyjnego. Udostępnianie odbywa się dzięki dwóch formatów:
- XML (ang. Extensible Markup Language) – do języka znaczników, który umożliwia tworzenie strukturalnych i semantycznych metadanych. Metadane XML dotyczą z hierarchicznie elementów i atrybutów, które o działaniu mają zastosowanie, takie jak tytuł, autor, dane i opis.
- RDF (ang. Resource Opis Framework) – w formacie służącym do udostępniania zasobów w sposób, który umożliwia ich udostępnianie i udostępnianie między aplikacjami i systemami.
Zarządzanie metadanymi
Jest to proces tworzenia i utrzymywania metadanych. Zarządzanie metadanymi jest najważniejsze dla archiwizacji cyfrowej. Warto stworzyć tzw. słowniki kontrolowane. Krótko mówiąc: słownik jest listą terminów i wyrażeń, które mogą zostać użyte w celu tworzenia metadanych (np. zamknięta lista tagów).
Istnieje kilka rodzajów słowników kontrolowanych tj.: listy terminów, tezaurusy czy hasła przedmiotowe, hasła wzorcowe itp. Kolejnym ważnym procesem jest mapowanie metadanych – które polega na konwersji metadanych z jednego formatu do innego, umożliwiając zachowanie ich struktury, zawartości i znaczenia. Jest to najważniejszy krok w integracji różnych źródeł danych oraz w zapewnieniu spójności i zgodności metadanych w różnych kontekstach.
Rodzaje metadanych
W dziedzinie zarządzania informacjami cyfrowymi istnieje wiele rodzajów metadanych. Wśród nich wyróżnia się trzy główne kategorie:
- metadane opisowe: dostarczają informacji na temat zawartości danych, takich jak tytuł, autor, temat, data i czas;
- metadane strukturalne: opisują format i strukturę danych, obejmując informacje takie jak format pliku, rozmiar i skład danych;
- metadane administracyjne: zawierają informacje dotyczące zarządzania danymi, takie jak właściciel danych, prawa dostępu i historia zmian.
Podsumowanie
W artykule przedstawiłem kompleksowy przegląd zagadnień związanych z archiwizacją cyfrową, skupiając się na takich tematach jak zapewnieniu bezpieczeństwa danych, wyborze odpowiednich formatów plików, strategiach indeksowania i wyszukiwania oraz roli metadanych w procesie zarządzania cyfrowymi zasobami. Wszystkie te tematy wymienione w obu częściach mogą być przydatne dla osób i organizacji, które pragną skutecznie zarządzać swoimi cyfrowymi zasobami.
Słownik
- Zasoby cyfrowe: Dane, informacje, dokumenty lub multimedia przechowywane i zarządzane w formie cyfrowej.
- Bezpieczeństwo danych: Zapewnienie ochrony danych cyfrowych przed różnymi zagrożeniami, takimi jak uszkodzenia fizyczne, uszkodzenia cyfrowe lub utrata danych.
- Kopie zapasowe: Regularne tworzenie kopii zapasowych danych cyfrowych w celu zabezpieczenia się przed ich utratą w przypadku awarii systemu lub uszkodzenia nośnika.
- Migracja danych: Proces przenoszenia danych z jednego systemu przechowywania lub formatu do innego w celu zapewnienia ich trwałości i zgodności z aktualnymi standardami.
- Format pliku: Struktura danych określająca sposób ich przechowywania i organizacji, mająca wpływ na trwałość, dostępność i interoperacyjność danych.
- Indeksowanie: Proces tworzenia indeksu, który ułatwia szybkie odnajdywanie danych poprzez słowa kluczowe, tagi i metadane.
- Wyszukiwanie: Proces znajdowania informacji w cyfrowych zbiorach danych na podstawie określonych kryteriów.
- Standardy metadanych: Zbiór zasad i wytycznych określających strukturę, format i zawartość metadanych, zapewniających ich spójne wykorzystanie i interoperacyjność.
- Udostępnianie metadanych: Proces udostępniania opisowych informacji o danych cyfrowych w celu ułatwienia ich wyszukiwania i identyfikacji przez użytkowników.
- Zarządzanie metadanymi: Proces tworzenia, przechowywania, utrzymywania i udostępniania metadanych w sposób zgodny z określonymi standardami i wymaganiami.
- Słownik kontrolowany: Lista terminów i wyrażeń używanych do tworzenia metadanych, zapewniająca spójność i jednoznaczność opisu danych.
- Mapowanie metadanych: Konwersja metadanych z jednego formatu do innego w celu zapewnienia interoperacyjności między różnymi systemami.
- Metadane opisowe: Informacje na temat zawartości danych, takie jak tytuł, autor, temat, data i czas.
- Metadane strukturalne: Informacje opisujące format i strukturę danych, takie jak format pliku, rozmiar i skład danych.
- Metadane administracyjne: Informacje dotyczące zarządzania danymi, takie jak właściciel danych, prawa dostępu i historia zmian.
Źródło zdjęcia: Maciej Bednarek