Kulturdaten erfolgreich gehackt – #GLAMhack2021

Seit 2015 findet einmal im Jahr der Swiss Open Cultural Data Hackathon, kurz: GLAMhack, statt. Der diesjährige #GLAMhack2021 (16.–17. April 2021) wurde von der ETH-Bibliothek gehostet und in Kooperation mit der Swiss OpenGLAM Working Group als reine Online-Veranstaltung durchgeführt. GLAM-Einrichtungen – Galleries, Libraries, Archives, Museums – lieferten mit ihren Datensets das Grundlagenmaterial für vielfältige und kreative Hackathon-Projekte.

Ein Online-Kreativlabor

Der GLAMhack funktioniert als Kreativlabor auf Zeit. Nur gut 30 Stunden haben die Teilnehmenden aus GLAM-Institutionen und Bereichen wie Applikationsentwicklung, Digital Humanities, Design oder Gaming Zeit, um Ideen zu präsentieren, Projektteams zu bilden und Lösungsansätze oder Prototypen umzusetzen, die am Ende in Form von Kurzpräsentationen dem Publikum vorgestellt werden. Rund 75 aktive Hackerinnen und Hacker setzten am #GLAMhack2021 aus einer Auswahl von ca. 30 eingereichten Challenges 17 kreative Projektideen um.

Vielfältige Projekte und Prototypen

Die Bandbreite der Hackathon-Projekte ist beeindruckend. Sie reicht von der

Erkennen und Auslesen mathematischer Formeln

Zwei der aufgegriffenen Challenges gingen von den Sammlungen und Archiven der ETH-Bibliothek aus. Mitarbeitende der Gruppe Rara und Karten der ETH-Bibliothek stellten mit dem Projekt «e-rara: Recognizing Mathematical Formulas and Tables» ein ganz praktisches Problem der Texterkennung ins Zentrum. In vielen mathematisch-naturwissenschaftlichen Publikationen, die auf der kooperativen Plattform e-rara frei zugänglich sind, finden sich mathematische Formeln und Tabellen. Diese werden aber mittels Standard-OCR oft nicht richtig erkannt und fehlen in der Folge im Volltext entsprechender Titel.

GLAMhack2021 project e-rara formulas

Verstärkt durch die AI-Spezialistin Tetiana Perehinets aus dem internationalen Feld der Teilnehmerinnen und Teilnehmer des GLAMhacks, konnte das Projektteam in den knapp zwei Tagen einen Lösungsansatz entwickeln. Er besteht darin, mit computergestützter Image Segmentation und einem neuen, anhand grosser Mengen verfügbarer Trainingsdaten optimiertem Modell, Formeln zu erkennen, auszulesen und in LaTeX auszugeben. Bereits wird diskutiert, ob und wie das Projekt im Anschluss an den Hackathon fortgesetzt und für die Plattform e-rara nutzbar gemacht werden kann.

Metadatenabgleich mit Wikimedia Commons

Die zweite aufgegriffene Challenge wurde vom Bildarchiv der ETH-Bibliothek lanciert. Sie zielte auf den Abgleich von Bildmetadaten. Zahlreiche GLAM-Institutionen laden aus ihren Quellsystemen grosse Mengen digitalisierter Bilder nach Wikimedia Commons hoch, um sie auf diese Weise noch besser sicht- und nutzbar zu machen. Werden aber nach dem Upload im Quellsystem oder auf Wikimedia Commons beschreibende Informationen wie Titel oder Datumsangaben geändert, stimmen die Metadaten an den beiden Orten nicht mehr überein. Ein manueller Datenabgleich zwischen den beiden Systemen ist zu aufwändig. Allein das Bildarchiv der ETH-Bibliothek hat über 60’000 Bilder auf Wikimedia Commons hochgeladen.

GLAMhack2021 Wikimedia Commons Metadata Analysis Tool

Ziel des Projekts «WikiCommons Metadata Analysis Tool» war denn auch der automatisierte Datenabgleich. Das Projektteam leistete während des Hackathons wichtige konzeptionelle Vorarbeit. Auf dieser Basis kann mit zusätzlicher Fachexpertise aus dem Wikimedia-Commons-Umfeld an der Entwicklung eines für viele Institutionen relevanten Tools weitergearbeitet werden.

Ein Taucher im Data Lake

Ein weiteres Projekt wurde unter der Bezeichnung «Archived-Data-Diver» spontan am ersten Tag des Hackathons von Barry Sunderland, Technical Engineer am ETH Library Lab, gestartet. Es adressiert das Problem, dass v. a. das Sichten grosser offener Datasets sehr zeitraubend sein kann. Mit dem Projekt wird gewissermassen ein Taucher ins Datenmeer hinuntergelassen, der automatisch einen Datensatz analysiert und eine erste Übersicht über die darin enthaltenen Informationen, Bilder oder Dokumente erstellt.

Das Resultat dient als Entscheidungshilfe dafür, ob sich im Hinblick auf eine bestimmte Fragestellung eine eingehendere Beschäftigung mit dem Datensatz lohnt. Das fertige Tool kann lokal installiert werden, eignet sich in Zukunft aber auch für die Installation auf opendata.swiss oder anderen zentralen Portalen für offene Datensätze. Verfügbar ist der GLAMhack2021 Data Diver auf GitHub.

Projektdokumentationen

Trotz Zeitdruck dokumentieren GLAMhack-Projektteams ihre erreichten (Zwischen-)Ergebnisse. Dazu gibt es zwei Einstiegspunkte:

Die Dokumentationen zeigen eindrücklich das vielfältige Potential, das in offenen Kulturdaten steckt. Und nicht zuletzt dienen die Projekte als Inspiration für den #GLAMhack2022.

AutorInnen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.