Das ‚richtige‘ Dateiformat – und alles ist in Butter?

Ein entscheidender Faktor für den Erhalt von Forschungsdaten ist das Dateiformat. Je nach gewähltem Format muss man damit rechnen, dass die Lesbarkeit der Daten nur für wenige Jahre gesichert ist. Programme, Formate und Betriebssysteme verändern sich im Laufe der Zeit, so dass die Nutzbarkeit der Daten in vielen Fällen nicht gewährleistet werden kann.

Nachdem wir im Blogbeitrag von Februar verschiedene Methoden zur Erstellung von PDF/A-Dokumenten vorgestellt haben, fassen wir im Folgenden einige Kriterien zusammen, die für die Eignung von Dateiformaten für die Langzeitarchivierung eine Rolle spielen.

Anforderungen an Formate für die Langzeitarchivierung

Digitale Langzeitarchive empfehlen ihren Kundinnen und Kunden die Verwendung einer mehr oder weniger kleinen Auswahl von Dateiformaten. Die Liste mit Empfehlungen der Fachstelle Digitaler Datenerhalt differenziert zum Beispiel nach der angestrebten Aufbewahrungsdauer.

Formate für die Langzeitarchivierung sollten einige zentrale Anforderungen erfüllen:

  • Idealerweise entspricht das Format offenen Standards mit vollständiger Dokumentation.
  • Es ist weit verbreitet.
  • Das Format wird möglichst von einer grösseren Zahl von Tools unterstützt, also nicht nur von der spezifischen Software eines Anbieters.
  • Zudem sollten Dateien nicht komprimiert vorliegen oder zumindest mit einer dokumentierten, verlustfreien Methode komprimiert werden.
  • Nach Möglichkeit sollte auf eine Verschlüsselung verzichtet werden.

Einsatz in der Forschung

Es ist klar, dass diese Vorgaben für Dateiformate aus der Sicht der Langzeitarchivierung formuliert sind. Entsprechende Formate stehen nicht für alle Arten von Einsatzzwecken zur Verfügung und in der Forschung ist die konsequente Umsetzung der Anforderungen illusorisch. Die Vorgaben sollten jedoch auch hier die Diskussion darüber anregen, für welchen Zweck welches Format genutzt werden soll. Ist es allenfalls sinnvoll, zusätzlich zu dem herstellerspezifischen Ausgabeformat eines Messgerätes ein weiteres Format zu erzeugen, das sich z.B. besser für den Datenaustausch mit Partnern eignet? Welche Information geht dabei verloren? Bleiben die eigentlichen Daten erhalten?

Validität als Kriterium der Langzeitarchive

Leider ist auch die Wahl eines grundsätzlich geeigneten Dateiformats noch keine Garantie für die Langlebigkeit des einzelnen Files: Digitale Langzeitarchive versuchen daher zu verifizieren, ob das einzelne File auch tatsächlich der jeweiligen Spezifikation entspricht und valid ist. Dabei können Fehler entdeckt werden, die systematisch durch eine bestimmte Applikation bei der Dateierzeugung verursacht werden oder es können Probleme auffallen, die nur bestimmte Files betreffen. Solche Abweichungen können die Nutzbarkeit und den langfristigen Erhalt von Daten gefährden.

Einen Einblick in die praktischen Konsequenzen dieser Analyse gibt das Poster „To Act or Not to Act – Handling File Format Identification and Validiation Issues in Practice“ des Teams Digitaler Datenerhalt der ETH-Bibliothek, das Ende 2016 an der 13th International Conferenence on Digital Preservation (iPRES 2016) mit dem Best Poster Award prämiert wurde.

2017-02-09_DID_Poster_File-Formats


Dieses Werk unterliegt einer Creative Commons Attribution-ShareAlike 4.0 International Public License.

CC-BY-SA

DOI Link: 10.16911/ethz-ib-2790-de

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.