Meta- und Strukturdaten
Zentraler Bestandteil eines Digitalisats sind neben den Seitenimages (Bildern) die Metadaten zur Erschließung des Inhalts. Erst mittels der Metadaten können sinnvolle Navigations- und Retrievalmöglichkeiten angeboten werden. Sowohl der Suchindex, die Zuordnung der Seitennummer zu entsprechenden Images als auch die Darstellung des Inhaltsverzeichnisses basiert auf den entsprechenden Metadaten.
Das bedeutet, daß neben den rein bibliographischen Daten auch sogenannte Strukturdaten in der zentralen Metadatendatei enthalten sind. Jedes Digitalisat besitzt eine zentrale Meta- und Strukturdatendatei, die sämtliche Ressourcen (inkl. ihrer bibliographischen Daten) beinhaltet.
Als Speicherformat für die Meta- und Strukturdaten findet am GDZ der "Metadata Encoding and Transmission Standard" (METS) Anwendung. METS erlaubt das Speichern einer XML-Struktur, welche als Container für weitere Daten dient. Der Container definiert entsprechende Sektionen für deskriptive und administrative Metadaten sowie für Strukturdaten und Inhalte (sogenannte Content-Files). Somit lassen sich verschiedenste Metadatenschemata wie bspw. DublinCore, MODS oder MARC integrieren. Neben deskriptiven Metadaten werden auch typische technische Metadaten wie bsw. Checksummen einzelner Content-Files sowie deren Größe und Format gespeichert.
Die konkrete Implementierung und Nutzung des Standards im Kontext der Digitalisierung am GDZ kann hier nachgelesen werden.
Volltext
Der Volltext eines Werkes stellt eine besondere Art eines Content-Files dar. Im Gegensatz zu den Images, die seitenweise abgespeichert sind, enthält der Volltext den Inhalt des gesamten Werkes. Aufgrund der internen XML-Struktur, wofür am GDZ das XML-Schema der Text Encoding Initiative (TEI) genutzt wird, sowie der Verknüpfung mit der zentralen Meta- und Strukturdatendatei (METS-Datei) lassen sich entsprechende Strukturen (Seitenumbrüche, Kapitelanfänge etc.) durch das eingesetze Dokumentenmanagementsystem extrahieren.
Ferner beinhaltet der Volltext optional Pixel-Koordinaten für jedes Wort. Mittels dieser Koordinaten ist es möglich, einzelne Wörter / Suchbegriffe in der Seitenansicht hervorzuheben (highlight) sowie Texte pixelgenau zu zeigen. Die genaue Implementierung des TEI-Formats am GDZ sowie dessen Relation zu der Meta- und Strukturdatendatei (METS) ist hier erklärt.



