Workflow im GDZ
Im GDZ wird für jedes zu digitalisierende Werkstück ein Vorgang in der selbst entwickelten Workflowverwaltung "Goobi" (open source) angelegt, entsprechend den konkreten Anforderungen der Digitalisierung (möglicher Öffnungswinkel, Auflösung, Farbtiefe) um den Digitalisierungsprozess jederzeit kontrollieren zu können.
Für die teilweise sehr alten Bücher werden Produktionslaufzettel auf säurefreiem Papier erzeugt, die so zusammengelegt werden, dass Buchseite und Tinte keinen Kontakt haben. Unterschiedliche Schwierigkeitsgrade beim Scannen, die durch das Medium entstehen, bedingen unterschiedliche Scanzeiten. Ein gut eingearbeiteter Scan-Operator kann bei mittelschwerem Material um die 350 Seiten pro Stunde, d.h. 175 Scans, erstellen.
Während der Qualitätskontrolle werden die Scans auf Lesbarkeit, Reihenfolge und Vollständigkeit Seiten betrachtet. Zum geringen Teil findet hier auch noch eine Nachbearbeitung statt.
Anschließend werden die bitonalen Digitalisate im Batch-Betrieb überarbeitet. Dabei werden zunächst Referenzpunkte angegeben, die für die Batch-Bearbeitung entscheidend sind. Es muss z.B. in der Mathematik festgelegt werden, wie klein der kleinste Index in einer Formel ist bzw. wie groß die i-Punkte sind. Anschließend können entlang dieser Vorgaben die kleineren schwarzen Pixelwolken auf der Vorlage beseitigt werden. Zusätzlich wird die Ausrichtung und Zentrierung des Textblocks auf jeder einzelnen Seite vorgenommen. Mit Hilfe einer angepassten Version der CAD-Software „Pixedit“ können diese Optimierungen vollautomatisch über Nacht abgearbeitet werden, so dass die jeweilige Tagesproduktion vollständig optimiert wird.
Ziel ist eine über alle Seiten gleich aussehende Präsentation. Für die noch nicht im Batch-Betrieb nachgebesserten Dateien (Digital Master) werden zwei Sicherheitskopien auf CD-Rom angefertigt und in EROMM nachgewiesen.
Zur formalen Erschließung der Digitalisate wird das Metadaten-Tool aus dem DFG-Projekt RusDML nachgenutzt. Mit dem kollaborativ ausgerichteten Tool werden zunächst die Metadaten wie Titel, Band, Jahr, Heft, PPN der Vorlage und des Digitalisats erfasst. Dies geschieht noch vor dem Scannen. Nach dem Scannen wird bei Zeitschriften und Sammelwerken jeder Artikel mit Autor und Seitenzahl erfasst. Wichtig wird hierbei später die korrekte Verschaltung von gedruckter Seitenzahl, Struktureinheit und verknüpftem Digitalisat. Eine Überprüfung der korrekten Zuordnung wird anhand der Aufsatzanfänge durch die Katalogisiererin vorgenommen.
Das RusDML-Tool exportiert valide METS-Dateien, in denen sämtliche technischen und strukturellen Metadaten enthalten sind. Diese können direkt in das Open Source Dokumentenmanagementsystem (eigene Entwicklung auf Basis von TYPO3) importiert werden und ist somit online verfügbar.
Zum Nachweis der Digitalisate im GBV-Katalog sind bei der vorläufigen Katalogaufnahme die Exemplardaten zu ergänzen. Genauer handelt es sich dabei um zusätzliche Kategorien, die Formatfragen beschreiben und den Rechtebesitz darlegen, sowie die URL und ein Nachweis in der EROMM-Datenbank. Für die vollständige Katalogaufnahme wird ein Verweis auf die PPN der Vorlage gelegt und umgekehrt von der Aufnahme der gedruckten Ausgabe ein Verweis auf die PPN der digitalen Fassung. Schließlich erfolgt für jeden Band vollautomatisch der Import in das Zentrale Verzeichnis Digitalisierter Drucke (ZVDD)[2].
Zusätzlich zu der beschriebenen Erschließung durch Metadaten auf Band- und Strukturebene erfolgt eine Volltexterfassung derjenigen Werke, die nicht in Fraktur-Lettern gedruckt sind.
Hierzu wird in den Workflow eine durch das GDZ modifizierte Version der OCR-Software „Finereader“ eingebunden, die folgende Möglichkeiten bietet:
- Referenzierung der Wortkoordinaten, um im auszuliefernden Image die Trefferstellen farbig zu hinterlegen
- Unterstützung der Strukturdatenerfassung (Paginierungssequenzen, Strukturdaten) durch OCR
- Strukturierung der Volltexte im TEI-Format durch ein automatisches Matching mit den vorliegenden Strukturdaten
Gerade der letzte Punkt erlaubt eine wissenschaftliche Weiterverarbeitung der normalerweise unsichtbaren Volltexte. Je nach OCR-Qualität kann so strukturierter Text etwa über die OAI-Schnittstelle des DMS-Systems an Interessenten ausgeliefert werden.




