stockmann endnutzer impact workshop muc
TRANSCRIPT
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
4 , 4.3.2010CB IMPACTWorkshop Ralf Stockmann
/ SUBGöttingen Abteilung Forschung und Entwicklung
Was tun mit den Ergebnissen der OCR?Die Sicht der Endnutzer
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
OCRin Göttingen Bestand: 8 Mio. Seiten Ca. 20 % Fraktur (derzeit keine OCR vorgesehen) Jährlicher Zuwachs: 2 Mio. Seiten
Renderfarm beim GBV (16 Kerne) ABBY recognition server 160 Seiten pro Minute In Goobi Workflowsystem integriert Als Dienstleistung auf dem Markt angeboten
2
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
3
Endnutzer – wer ist das? Wissenschaftler Schüler/Studierende Laien
Bibliothekare (Aufbau von digitalen Inhaltsverzeichnissen) Google (und andere Dienste)
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
4
Wie sichtbar sind die Volltexte? Versteckt in Suchindex Versteckt, aber Image-Highlighting der Fundstelle
Volltext als Layer hinter dem Image (etwa in PDF gebunden) Volltext sichtbar über / neben dem Image Nur Volltext sichtbar Volltext als Download Volltext für Harvester verfügbar (TEI Datei in OAI)
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
5
In welchen Formaten? Fragmentiert in einem Suchindex (Text nicht rekonstruierbar) Durch Wortkoordinaten platziert, aber kein
Dokumentenzusammenhang (bin ich Teil eines Satzes?) Text einer Seite
(eventuell mit Absätzen / Zeilenumbruch / Spalten) Dokumenttext über mehrere Seiten
– PDF– TEI (Text Encoding Initiative)– Semantische Auszeichnung
Informationen, die der Anbieter wegwirft / wegsperrt, kann der Nutzer nicht wieder herstellen
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
6
Vier Gruppen der Nutzung Suche / Retrieval
– Bekannt und gezeigt
Als Werkzeug zur Generierung händischer Metadaten Semantische / qualitative Analysen
– Themenkarrieren– Netzwerke (Personen)
Textarbeit– Virtuelle Forschungsumgebungen
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
7
OCR als Produktionswerkzeug
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
Semantische Graphen über
Themen Personen Personenbeziehungen
8
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
Anwendungen Exploratives Browsing Relevanz von Metadaten für die Erschließungsqualität, oder: kann
man durch den Einsatz von Volltexten auf Meta- Strukturdatengenerierung verzichten?
Experiment: Vergleich der semantischen Graphen zu– Nur bibliographische Metadaten– Metadaten + Strukturdaten (Inhaltsverzeichnisse)– Nur Volltexte– Bibliographische Metadaten + Volltexte– Bibliographische Metadaten + Strukturdaten + Volltexte
– Ergebnisse auf dem Bibliothekartag in Leipzig
9
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
10
Goethe
Semantische / qualitative Analysen
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
11
GoetheSchiller
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
Virtuelle Forschungsumgebungen
12
TextGridLab
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
Empfehlungen Alle Qualität der OCR nutzt nichts, wenn es nicht bei unseren
Kunden ankommt auch fehlerhafte OCR Ergebnisse sind nützlich Explorative, semantische Verfahren werden viele
Textwissenschaften nachhaltig beeinflussen Aber: wir können nur einen Bruchteil der denkbaren und sinnvollen
Nutzungen vorhersehen / anbieten Darum: Volltexte in möglichst vielen Formaten und an möglichst
vielen Schnittstellen zur Nachnutzung anbieten (PDF, txt, TEI, OAI, ...)
13
7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands
Ausblick Ulrich Johannes Schneider in der SZ am 1.3.
– Sollten wir nicht anerkennen, dass die neue Technik mindestens ebenso revolutionär wirkt wie der Buchdruck selbst vor über 500 Jahren?
14
Ja – aber nicht durch Image-Digitalisierung, sondern die Volltexterfassung.