Das neue Webarchiv der ETH Zürich

Ein Beitrag zum ersten internationalen „Digital Preservation Day“

Wollten Sie auch schon mal eine Website aufrufen, nur um festzustellen, dass es sie gar nicht mehr gibt?

Der erste internationale Digital Preservation Day soll das Bewusstsein dafür schärfen, dass die langfristige Erhaltung des kulturellen Erbes im digitalen Zeitalter neue Arbeitsprozesse und Lösungen erfordert. Auch die ETH-Bibliothek beschäftigt sich mit diesen Fragen. Um den Webauftritt der ETH Zürich (und damit eine der wichtigsten Quellen zur Geschichte unserer Hochschule) zu sichern, engagiert sich das Hochschularchiv der ETH Zürich im Bereich der Webarchivierung. Seit Ende 2017 steht das neue Webarchiv der ETH Zürich allen Nutzerinnen und Nutzern zur Verfügung.

Mehrwert im Vergleich zu anderen Webarchiven

Während das Internet Archive in erster Linie durch die Masse an archivierten Websites besticht, investiert das Hochschularchiv seine Ressourcen gezielt in die Qualität des ETH-Webarchivs:

  • Systematische Auswahl
  • Qualitätssicherung (z.B. Vollständigkeit der Inhalte einer Website)
  • Professionelle Beschreibung durch Metadatierung
  • Langfristige Zugänglichkeit
  • Wissenschaftliche Zitierfähigkeit

Das Hochschularchiv wird dabei unterstützt durch die Informatikdienste der ETH Zürich, die den Webcrawler betreiben, und durch das ETH Data Archive der ETH-Bibliothek, das die Daten langfristig sichert und zugänglich erhält.

In der Kopfzeile der Webseite ist deutlich markiert, dass es sich um eine archivierte Version handelt.
Im Bild ein Snapshot der ETH-Hauptseite von 2013

An der ETH Zürich gibt es eine Tradition im Bereich Webarchivierung. Dank einer Einzelinitiative, abrufbar auf http://www.archiv.ethz.ch/, können einige wichtige Sites bereits jetzt in historischer Perspektive betrachtet werden. Im Webarchiv des Hochschularchivs werden die wichtigsten Teile des Webauftritts der ETH Zürich regelmässig gesichert: die Hauptseite, die Portale für ETH-Angehörige und Studierende und die sogenannten Fachsites, also die Websites der Institute und Professuren.

ETH-Websites werden mit dem Webcrawler Heritrix geharvestet. Dabei entsteht ein Container im WARC-Format, der alle Elemente der Website enthält. Im Bild ein Ausschnitt aus dem Header einer WARC-Datei.

Herausforderungen für die Digital Preservation

Wie kann sichergestellt werden, dass archivierte Websites langfristig verfügbar bleiben? Eine Grundvoraussetzung ist sicherlich die verlässliche, redundante und örtlich separierte Mehrfachspeicherung. Dies wird an der ETH Zürich durch die Informatikdienste gewährleistet. Darüber hinaus ist der fachliche Einsatz der Digital Preservation Manager gefordert. Um rechtzeitig die für die Preservation erforderlichen Massnahmen treffen zu können, wird die Entwicklung der verwendeten Dateiformate kontinuierlich beobachtet. Beispielsweise muss möglichst frühzeitig erkannt werden, ob das aktuelle Standardformat zur Archivierung von Websites (WARC) durch ein neues abgelöst wird, oder ob die im Einsatz stehenden Viewer noch unterstützt werden. Diese Aufgabe gilt es im Übrigen auch für die in der Website eingebetteten Objekte wie PDFs, Bilder und Videos wahrzunehmen. Die Verantwortung hierfür liegt beim ETH Data Archive.

Der erste International Digital Preservation Day wird durch die Digital Preservation Coalition organisiert

Wo wir uns Innovationen wünschen

Zurzeit ist die Webarchivierung eine personalintensive Aufgabe, vor allem im Bereich Qualitätssicherung und Metadatierung. Hier könnten Arbeitsschritte automatisiert werden, beispielsweise durch die Entwicklung eines Tools, das die Bildpunkte einer archivierten Website mit den Bildpunkten der Originalwebsite vergleicht und so die Qualität der archivierten Website automatisch einstuft. Auch bei der Metadatierung der Websites wäre es nützlich, den Titel einer Website und das Datum der letzten Änderungen automatisch auslesen zu können.

Suchen, finden und zitieren

Das Webarchiv der ETH Zürich ist über verschiedene Suchportale zugänglich:

Verschiedene Suchportale machen die Suche in den Metadaten des ETH Webarchivs möglich. Im Bild eine Trefferliste aus dem Suchportal Archivdatenbank Online.

Die einzelnen Snapshots, also die zu verschiedenen Zeitpunkten archivierten Versionen einer Website, besitzen jeweils einen Digital Object Identifier (DOI). Somit können sie als wissenschaftliche Quelle zitiert werden und sind langfristig auffindbar.

Möchten Sie Ihre ETH-Website im Webarchiv der ETH Zürich sichern? Dann melden Sie sie beim Hochschularchiv und schreiben uns eine E-Mail: archiv@library.ethz.ch


Dieses Werk unterliegt einer Creative Commons Attribution-ShareAlike 4.0 International Public License.

CC-BY-SA

DOI Link: 10.16911/ethz-ib-2993-de