volltexte und ocr am mdz - digitale-sammlungen.de · • 35 ocr –projekte (antiqua und fraktur)...
Post on 14-Oct-2019
4 Views
Preview:
TRANSCRIPT
Volltexte und OCR am MDZ
Dr. Markus Brantl
Agenda
1. OCR im Überblick
2. OCR am MDZ: Inhouse ‐ Outsourcing
3. OCR‐Inhouse‐Produktion ‐ Schritt für Schritt
4. OCR und Outsourcing
5. Projektbeispiel: Integration der Digital Library Copy
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 2
OCR im Überblick
Voraussetzung: Guter Scan• hohe Auflösung, Tiefenschärfe, Seitenausrichtung, wenn
möglich: keine Verzerrung…
1. Image Enhancement (Flecken entfernen, Binarisierung, Seiten gerade rücken, etc.)
2. Layout‐Analyse (Aufbau einer Seite, Bilder etc.)3. Segmentierung (Block, Zeile, Wort, Zeichen)4. Merkmalserkennung (Zeichen) und Klassifikation
(Wörter)5. Lexikalische Analyse
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 3
OCR‐Software (Auswahl)Open‐Source‐Software• Tesseract (Google, letztes Release 2011)
• OCRopus (letztes Release: 2009)
Lizenzpflichtige Software• Abbyy ‐ verschiedene Module
– Recognition Server– SDK– Finereader Standalone– XIX – derzeit einzige Omnifont‐Fraktur am Markt
• Arpa– PaperIn Book
• B.I.T. Tomasi– BIT Alpha
• Nuance– Omnipage
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 4
OCR‐Anforderungen/ Qualität
• Wissenschaftler benötigen i.d.R. eine Genauigkeit von 99,95%, um positive Aussagen zum Text machen zu können ‐> Steigende Kosten
• Qualitäten darunter eignen sich – oft in Verbindung mit den Bildern (Highlighting der Treffer im Image) ‐als Mittelweg für die Suche
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 5
Die Frage der OCR‐Qualität?
Sehr gutGut
= 99,6‐99,95 %= 97‐99,5%
Durchschnittlich = 90‐96% Schlecht = unter 90%
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 6
OCR am MDZ
• 35 OCR – Projekte (Antiqua und Fraktur)
• 24 Projekte mit Dienstleistern
• Google‐Projekt: Übernahme und Bereitstellung der Digitalisierungs‐Daten durch das MDZ (derzeit 350.000 Titel mit OCR‐Daten/Volltext)
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 7
OCR‐Produktion: Inhouse und OutsourcingI. Inhouse‐Produktion
Texte in Antiqua flach erschlossen/strukturiert
Imageproduktion (TIFF)[aus ZEND‐Workflow]
a) OCR b) OCR[ohne Korrektur] [mit Korrektur]
II. Produktion via Outsourcing
Texte in Fraktur / Antiquatief erschlossen/strukturiert
Imageproduktion (TIFF) [ZEND oder Dienstleister]
OCR/Volltexterfassung nach den Vorgaben der MDZ‐Leistungsbeschreibung
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ
BSB‐OCR‐Server Dienstleister
8
Projekte ‐ Auswahl
Outsourcing• Reichstag • Zedler• Regesta Imperii• dMGH• Landtagsprotokolle
Inhouse• Digi20• ZBLG• Jahrbuch für fränkische
Landesforschung• Passauer Neue Presse• Leibniz Publik
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 9
Entwicklung von OCR‐Projekten
ZEDLER• Projekt 1 (1999): Erfassung der
Lemmata• Projekt 2 (2004):
Kategorisierung der Artikel• Volltext (2009 Google)• Integration des Google‐Volltexts
in Planung
dMGH• Projekt (2004‐2010)• Bild als die einzige zuverlässige
Referenz• Volltext verborgen • Auszeichnung in drei Blöcken
– Text– Anmerkungen– Kritischer Apparat
• Hoher QS‐Aufwand seitens der MGH
• Seit Relaunch (2010) auch mit Textanzeige
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 10
Produktion im Überblick
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 11
Workflow – ZENDZEND= Zentrale Erfassungs- und Nachweis-Datenbank bietet u.a.• Abbildung des gesamten Produktionsprozesses in einem modularen System • Eigen-Entwicklung auf Basis von Open-Source-Software• Workflow-Kontrolle• Jedes komplett gescannte Werk der BSB wird mit der ZEND verarbeitet• Offen und beliebig skalierbar• Unterschiedliche Provider (Scannen, Texterfassung etc.) können unlimitierte Daten
an die ZEND liefern• Verwaltet alle bei der Produktion anfallenden Metadaten - administrativ,
bibliographisch, strukturell (m.Volltext), technisch• Steuert auch die Inhouse-OCR-Produktion
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 12
ZEND im Überblick
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 13
ZEND‐OCR‐Unterstützung
• Steuerung mittels– Organisatorischer Parameter
• Digitalisierung Inhouse / Outsourcing• Projektzugehörigkeit• OCR ja/nein
– Technischer Parameter• Farbtiefe• Auflösung• Sprachenvorgabe für OCR‐Erkennung
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 14
OCR‐Inhouse‐Produktion: Schritt für Schritt
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 15
Vorbereitung (1)
• Projektmanagement / Festlegung der Projektziele / Organisation
• Klärung der juristischen Rahmenbedingungen (z.B. bei Projekten im 20. Jh.)
• Sichtung der Vorlagen (Format, Seitenzahlen, Erhaltungszustand, Aufschneiden? etc.)
• OCR via Outsourcing– Pflichtenhefterstellung – Formales Ausschreibungs‐ und Vergabeverfahren (ca. 3
Monate!)
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 16
Vorbereitung (2)
Materialauswahlfür OCR‐Produktion
Urheberrechtsfreies Material
Urherberrechtsgeschützes Material im Rahmen von Kooperationen
Komplettes Buch Nur Text [keine Bilder] Nur bestimmte Abschnitte/Artikel
Auswahl der geeigneten Exemplare [ggf. werden beschädigte oder fehlende
Seiten durch Seiten aus anderen Exemplaren ersetzt]
Auswahl der Produktionsart nach Schriftart: Antiqua – Inhouse Fraktur – Dienstleister
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 17
Materialauswahl: Beispiele für problematisches Ausgangsmaterial
Enge Bindung mit TextverlustVerwerfungen im Papier
• Beschädigte Seiten (z.B. Risse)• Restaurierte Seiten (z.B. mit Überklebungen)• Schrift (zu klein, kursiv, Formeln, handschriftliches)
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 18
Vorbereitung (3)
• Titelaufnahme in ZEND
• Erstellen des Digitalisierungsauftrags =>XML‐Ticket für OCR‐Produktion
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 19
Digitalisierungsauftrag mit OCR‐Parametern
Printmedien: Schrift: Antiqua
Imageproduktion – Parameter: TIF‐Format unkomprimiert 300 ppi Graustufen pro Seite ein Image
OCR‐Produktion – Parameter: OCR [Standard oder mit Korrektur über
Korrekturstation] Spracheinstellung [z.B. German]
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 20
Scannen: Handauflage, Roboter oder Einzugsscanner?
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 21
Anforderungen an einen guten Scan für OCR
• Hohe Auflösung 300 ppi, besser 400 (neue Entwicklungen)
• Farbtiefe‐ in Abhängigkeit von der Vorlage : Farbe, Graustufen bei guter Binarisierung u.U. auch bitonalmit 600 ppi
• Möglichst keine Verzerrung (Buchfalz)
• Scan vom Mikrofilm?Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 22
ZEND ‐nach dem Scannen
Roma 19.10.2011 "Digitization Lifecycle"
• Images: Master‐TIFFs und Derivate: JPEG • Es liegt eine erste Strukturdatei vor
(logisch/physikalisch)• QS der Images mit Webfreigabe =>Zugleich
Weiterleitung der TIFFs für1. digitale Langzeitarchivierung2. OCR‐Produktion
• Verlinkung vom Katalogisat zur• Standardpräsentation der ZEND• Es gibt eine URN, die über eine OAI‐Schnittstelle
an die DNB gemeldet wirdDr. Markus Brantl © BSB/MDZ 23
ZEND – QS Images für Webbreitstellung bzw. OCR
Qualitätskontrolle der Images imZEND‐ToC‐Editor:
• Vollständigkeit • Korrekte Reihenfolge • Scanparameter erfüllt • Lesbarkeit • Seiten gerade ausgerichtet • Seiten korrekt gedreht
Weiterleitung der TIFFs an OCR‐Server
oder Reklamation
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 24
Standardpräsentation: ZEND‐Viewer
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 25
Vom Image zum maschinenlesbaren Text amBeispiel: Digi20
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 26
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 27
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 28
Inhouse‐Produktion (nach Scannen und QS)• Derzeit beschränkt auf Drucktype Antiqua
• 2 Maschinen, davon eine als Korrekturstation
• Verwendung des Abbyy Recognition Server:– Sehr gute Qualtität der FineReader – Maschine– Anhängen von Korrekturstationen– XML‐Ausgabe mit Koordinaten– Generierung von PDFs
• MDZ‐Workflows:– Gesteuert durch „XML‐Tickets“1. Standard (ohne Korrektur)2. Korrektur via Korrekturstationen (bei entsprechenden Ressourcen)
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 29
OCR‐Ergebnisse
• OCR‐Ergebnisse pro Seite
– eine XML‐Raw‐Datei mit den erkannten Buchstaben und deren Koordinaten
– eine PDF‐Datei (mittels eines Skriptes werden die einzelnen PDFs automatisiert zu einer einzigen Datei zusammengefasst, die dann für den Download zur Verfügung steht)
• „Result"‐Datei mit Statistiken zur OCR‐Erkennung: Anzahl der Zeichen, Erkennungsgenauigkeit etc.
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 30
XML‐Raw: Buchstaben‐Koordinaten „Napoleon“
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 31
Weitere Arbeitsschritte
• Ausgangsmaterialien:– Images– Strukturdaten– Volltexte mit Buchstaben‐Koordinaten
• Übernahme der Daten in das MDZ‐Standardformats (TEI P5)
• Indexierung
• Web‐PräsentationRoma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 32
MDZ-Standardformat
o Alle Metadaten in einemXML-Framework: TEI P5• Administrativ• Technisch• Bibliographisch• Strukturell, wie Volltext
oder digitaleInhaltsverzeichnisse
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 33
MDZ‐Standardformat und OCR
• Warum?– Einheitlichkeit,– Nicht proprietärer Standard für LZA– Weiterverwendbarkeit
• Automatische Kontrolle des OCR‐Output:– Vollständigkeit– Nicht leer– Erkennungsgenauigkeit?
• Wesentliche Aufgaben :1. Zusammenführung der Buchstaben zu Worten2. Zusammenführung der Seiten zu einem zusammenhängenden Dokument3. Koordinatentransformation4. Codierung in TEI‐XML
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 34
Bestandteile des MDZ‐Standardformat
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 35
„Napoleon“: Wort‐ID mit ZEND‐ID, Image‐, Zeilen‐, Wort‐Nummer
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 36
Koordinaten für „Napoleon“
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 37
Standard‐Indexierung
• Verwendung von Apache Solr/Lucene
• Ausgangsdatei dynamisch generiert
• Konfigurationsdatei Vorschriften zur Indexierung, Darin Stopwörter, Zeichenersetzungen Vorgaben zur Wortgewichtung u.a.
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 38
Web‐Bereitstellung
• Verwendung von Apache Cocoon– XML‐ Publishing Framework– Pipelining Mechanismus – Zusammenführung der Bestandteile des digitalen Objekts: XML, ZEND, Bilder, Volltextindex …
– Beispiel: Highlighting
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 39
XML‐Ergebnis der Suche nach Napoleon
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 40
Einsatz von SVG (Scalable Vector Graphics)
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 41
OCR und Outsourcing
• Projektmanagement / Dienstleisterführung
• Pflichtenhefterstellung bei OCR‐Produktion über Dienstleister
• Datenbasis: Digitale Master (TIFF)
• Ausschreibungs‐ Vergabeverfahren bei Produktion über Dienstleister
Pflichtenheft für OCR/Volltexte:
Vorgaben des MDZ: Lieferbedingungen [Lieferfristen] Netzanbindung (NFS oder CIFS) Testdatenlieferung Ablauf Qualitätssicherung und Korrekturen Produktionsparameter allgemein:
‐ Dateiformat [XML, PDF]‐ pro Seite eine XML‐Datei‐ Dateinamen [ZEND‐Dateinamen]‐ Erfassungsgenauigkeit [in %]‐ Erfassung der Wortkoordinaten‐ Erfassung der Formatierungen
Produktionsparameter speziell: Spezielle/tiefere Textauszeichnung Artikelseparierung
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 42
OCR‐Produktion durch DienstleisterPflichtenheft für OCR/Volltexte
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ
Beispiel: Ausschnitte aus einem Pflichtenheft
Aufwand für die Erstellung:• 1 Pflichtenheft insgesamt oder pro Buch?• Voraussetzung: Genaue Materialanalyse bzw. Kenntnis des Inhalts• ggf. in Englisch für internationale Dienstleister
43
OCR‐Produktion durch DienstleisterAuswahl des Dienstleisters
Anforderung von Testdaten:
• Vor Auftragsvergabe erfolgt eine Marktsichtung mit Anforderung von Testdaten von ausgewählten, repräsentativen Seiten
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 44
Integration von Google: Beispiel RegionalportalProjektbeispiel: Integration der Digital Library Copy
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 45
Trefferliste Trefferliste
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 46
Snippet-View-Trefferliste mit Trefferanzeige im Image
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 47
Image mit Treffer Image mit Treffer und
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 48
Treffer in der Volltext-Anzeige
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 49
Einige Zahlen
• 350.000 Volltexte mit 1,2 Terabyte Indexdaten– Vergleich: Gesamt‐Datenvolumen des MDZ in der Langzeitarchivierung 330 Terabyte (Stand: Sept. 2011)
• Zeitbedarf für Reindexierung: 9 Tage
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 50
Probleme mit OCR(‐Workflows)
• Zu späte oder nachträgliche Festlegung der zu erfassenden Strukturen
• Abstimmung zwischen Vorlagenqualität und gewünschter Textgenauigkeit bzw. ‐struktur (Schriftgröße, Bindung, Erhaltungszustand, Bilder, Tabellen, ...)
• Qualitätskontrolle: – wer, wann? – was und wie wird kontrolliert?
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 51
Contact:
Vielen Dank!
Vielen Dank!Kontakt: brantl[at]bsb-muenchen.de
Acknowledgements: Dr. Birgit Gilcher, Dirk Scholz
Roma 19.10.2011 "Digitization Lifecycle" Dr. Markus Brantl © BSB/MDZ 52
top related