Digitale Langzeitarchivierung verstehen – heute und morgen

DigitalPreservationCoalition (https://www.dpconline.org/events/world-digital-preservation-day/wdpd-logos)
Anlässlich des World Digital Preservation Day möchten wir die digitale Langzeitarchivierung thematisieren. Natürlich ist keine Tour d’Horizon möglich, zu vielfältig und komplex ist das Thema. Vielmehr soll dieser Blogbeitrag die Langzeitarchivierung als kontinuierlichen und kommunikativen Prozess aufgreifen.
Herausforderungen der digitalen Langzeitarchivierung
Digitale Langzeitarchivierung kann als die Sicherstellung des Erhalts, der Zugänglichkeit und Nutzbarkeit digitaler Daten definiert werden. Was einfach klingt, stellt in der Praxis eine grosse Herausforderung dar. Daten sind Informationen in kodierter Form, welche nur mit geeigneter Software betrachtet und nur auf nicht dauerhaft stabilen Trägern (z.B. Festplatten) gespeichert werden können. Defekte können ohne Vorwarnung auftreten und im ungünstigsten Fall zum Totalverlust der Information führen, zumindest aber eine aufwändige Wiederherstellung notwendig machen. Lesen Sie dazu auch die Explora-Story «Surfen im Datenmeer». Im Gegensatz dazu lässt sich ein frühzeitig erkannter Schaden an einem physischen Objekt, wie zum Beispiel an einem Buch oder einem Brief mit geeigneten konservatorischen Massnahmen beheben oder stabilisieren und so einem Teil- oder Totalverlust des Bildinhaltes zuvorkommen.
Daten technisch sicherstellen
In der digitalen Langzeitarchivierung geht es also darum, der Instabilität des Datenträgers entgegenzuwirken und den aus Nullen und Einsen bestehende Code, auch als Bitstream bezeichnet, jederzeit korrekt interpretierbar und nutzbar zu halten.
Dem Speicherproblem können wir mit Backups und der Erneuerung alternder Hardware begegnen. Für die Erhaltung des Bitstreams steht uns Software zur Verfügung, die mittels eines Algorithmus eine eindeutige Prüfsumme erstellt, mit welcher die Unversehrtheit des Datenstroms sichergestellt werden kann.
Interpretierbarkeit von Daten sicherstellen
Für die Sicherstellung der Interpretierbarkeit machen wir uns darüber Gedanken, welche Formate am besten geeignet sind und welche Metadaten wir aufbewahren. Somit kann die Lesbarkeit der Daten über die Jahre gewährleistet werden. Dabei gehen wir davon aus, dass die rasch voranschreitende technologische Entwicklung die permanente Pflege der Daten und früher oder später die Migration, d.h. die Umwandlung in neue Formate, erfordert. Ein anderer Ansatz ist die Emulation, also ein «Nachbau» einer geeigneten Software-Umgebung, mit welcher die Daten interpretiert und genutzt werden können.
Digitale Langzeitarchivierung als kontinuierliche Kommunikation
Als Voraussetzung für beide Ansätze kann die Langzeitarchivierung als permanenter Kommunikationsprozess betrachtet werden. Wir kommunizieren die nach unserem Wissen notwendigen Informationen an mehr oder weniger unbekannte Empfänger in naher oder ferner Zukunft. Wir überlegen uns heute, was für die Interpretation der Daten in einem spezifischen, uns unbekannten Umfeld notwendig sein wird. Idealerweise ist das von uns geschnürte und archivierte Paket bestehend aus den Daten und seinen Metadaten selbsterklärend, so dass ein uns unbekannter Empfänger ohne weitere Rückfragen die Daten lesen und interpretieren kann.
Trotzdem sind unsere Bemühungen nicht als reine Flaschenpost zu verstehen, die in tausenden von Jahren vielleicht gefunden wird. Vielmehr dürfte die Kontinuität dieser Kommunikationstätigkeit über Generationen hinweg für den Erfolg der Langzeitarchivierung entscheidend sein. Neben den (Meta-)Daten, die wir heute als wichtig oder absolut notwendig definieren, werden durch den Einsatz neuer Formate und Software auch neue Metadaten anfallen, welche ebenso wichtig sein werden. Diesen Informationszyklus und die Kontinuität der Überlieferung gilt es nicht abreissen zu lassen.
Das Data Archive der ETH Zürich
Um also die Behältnisse bruchsicher und die Etiketten lesbar zu halten, dafür setzen wir uns tagtäglich im Forschungsdatenmanagement und Datenerhalt ein. Mit dem Data Archive betreiben wir eine Langzeitarchivierungslösung für die ETH Zürich, die etwa für die Sicherung digitaler Sammlungen oder für den Erhalt digitaler Publikationen und Forschungsdaten aus der Research Collection eingesetzt wird.
Bitte zögern Sie nicht, uns zu kontaktieren. Gerne beantworten wir all Ihre Fragen oder beraten Sie bei Ihrem nächsten Forschungsvorhaben.
DOI Link: 10.16911/ethz-ib-3129-de