Document (#40468)

Brantl, M.
Ceynowa, K.
Meiers, T.
Wolf, T.
Visuelle Suche in historischen Werken
Datenbank Spektrum. 17(2017) H.1, S.53-60
Die Bayerische Staatsbibliothek (BSB) zählt mit ihrem Bestand von knapp 11 Mio. Bänden zu den bedeutendsten Universalbibliotheken der Welt. Bereits 1,2 Mio. Werke sind digitalisiert, was die BSB zur größten digitalen Kulturinstitution in Deutschland macht. Dieser digitale Bestand umfasst vorwiegend urheberrechtsfreie Werke vom 8. bis ins 20. Jahrhundert, von der mittelalterlichen Bibelhandschrift bis zur Boulevardzeitung der 1920er-Jahre. Diese Vielfalt des zu digitalisierenden schriftlichen Kulturerbes und das hohe Tempo der Massendigitalisierung in den letzten Jahren haben ihren Preis - die inhaltliche Erschließung der Werke hinkt hinterher, insbesondere bei Werken, die nicht mittels Optical Character Recognition-Verfahren (OCR) automatisiert maschinenlesbar transformiert und zugänglich gemacht werden können. Dies gilt insbesondere für mittelalterliche Handschriften, Alte Druck- und Spezialbestände. Deshalb blieb auch der reichhaltige, in diesen Werken verborgene Bildbestand für den Nutzer weitestgehend verborgen und konnte lediglich durch das Durchblättern am Bildschirm entdeckt werden. Dies war Motivation für die Bayerische Staatsbibliothek, gemeinsam mit dem Fraunhofer Heinrich-Hertz-Institut in Berlin ein System zur ähnlichkeitsbasierten Bildsuche aufzubauen, welches sämtliche Bildinhalte aller 1,2 Mio. Digitalisate automatisch identifiziert. Hierbei werden mittels morphologischer Verfahren Bilder aus den Buchseiten extrahiert, die danach aufgrund von Farb- und Kantenmerkmalen klassifiziert werden. Bilder "ohne Informationswert" werden mit Hilfe von Methoden aus dem Bereich des maschinellen Lernens herausgefiltert. Damit konnten aus den digitalisierten Werken der BSB bislang mehr als 43 Mio. einzelne Bilder identifiziert werden, die mittels einer hochperformanten Suchmaschine über eine frei verfügbare Web-Applikation dem Anwender direkt zur Verfügung stehen. Dank der Vielfalt und Reichhaltigkeit der indexierten Bestände spricht dieses Angebot nicht nur Historiker und Buchwissenschaftler an, sondern Interessierte aus den unterschiedlichsten Fachrichtungen. Die Ähnlichkeitssuche stellt dabei unbekannte, ungewöhnliche und oftmals überraschende Bezüge zwischen unterschiedlichsten Werken her.

