stockmann endnutzer impact workshop muc

14
7 . . IMPACTis s upported by the European Community under the FP ICTWork Programme The project is coordinated by the National Library of the Netherlands 4 , 4.3.2010 CB IMPACTWorkshop Ralf Stockmann / SUB Göttingen Abteilung Forschung und Entwicklung Was tun mit den Ergebnissen der OCR? Die Sicht der Endnutzer

Upload: impact-centre-of-competence

Post on 03-Jul-2015

527 views

Category:

Education


3 download

TRANSCRIPT

Page 1: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

4 , 4.3.2010CB IMPACTWorkshop Ralf Stockmann

/ SUBGöttingen Abteilung Forschung und Entwicklung

Was tun mit den Ergebnissen der OCR?Die Sicht der Endnutzer

Page 2: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

OCRin Göttingen Bestand: 8 Mio. Seiten Ca. 20 % Fraktur (derzeit keine OCR vorgesehen) Jährlicher Zuwachs: 2 Mio. Seiten

Renderfarm beim GBV (16 Kerne) ABBY recognition server 160 Seiten pro Minute In Goobi Workflowsystem integriert Als Dienstleistung auf dem Markt angeboten

2

Page 3: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

3

Endnutzer – wer ist das? Wissenschaftler Schüler/Studierende Laien

Bibliothekare (Aufbau von digitalen Inhaltsverzeichnissen) Google (und andere Dienste)

Page 4: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

4

Wie sichtbar sind die Volltexte? Versteckt in Suchindex Versteckt, aber Image-Highlighting der Fundstelle

Volltext als Layer hinter dem Image (etwa in PDF gebunden) Volltext sichtbar über / neben dem Image Nur Volltext sichtbar Volltext als Download Volltext für Harvester verfügbar (TEI Datei in OAI)

Page 5: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

5

In welchen Formaten? Fragmentiert in einem Suchindex (Text nicht rekonstruierbar) Durch Wortkoordinaten platziert, aber kein

Dokumentenzusammenhang (bin ich Teil eines Satzes?) Text einer Seite

(eventuell mit Absätzen / Zeilenumbruch / Spalten) Dokumenttext über mehrere Seiten

– PDF– TEI (Text Encoding Initiative)– Semantische Auszeichnung

Informationen, die der Anbieter wegwirft / wegsperrt, kann der Nutzer nicht wieder herstellen

Page 6: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

6

Vier Gruppen der Nutzung Suche / Retrieval

– Bekannt und gezeigt

Als Werkzeug zur Generierung händischer Metadaten Semantische / qualitative Analysen

– Themenkarrieren– Netzwerke (Personen)

Textarbeit– Virtuelle Forschungsumgebungen

Page 7: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

7

OCR als Produktionswerkzeug

Page 8: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

Semantische Graphen über

Themen Personen Personenbeziehungen

8

Page 9: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

Anwendungen Exploratives Browsing Relevanz von Metadaten für die Erschließungsqualität, oder: kann

man durch den Einsatz von Volltexten auf Meta- Strukturdatengenerierung verzichten?

Experiment: Vergleich der semantischen Graphen zu– Nur bibliographische Metadaten– Metadaten + Strukturdaten (Inhaltsverzeichnisse)– Nur Volltexte– Bibliographische Metadaten + Volltexte– Bibliographische Metadaten + Strukturdaten + Volltexte

– Ergebnisse auf dem Bibliothekartag in Leipzig

9

Page 10: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

10

Goethe

Semantische / qualitative Analysen

Page 11: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

11

GoetheSchiller

Page 12: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

Virtuelle Forschungsumgebungen

12

TextGridLab

Page 13: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

Empfehlungen Alle Qualität der OCR nutzt nichts, wenn es nicht bei unseren

Kunden ankommt auch fehlerhafte OCR Ergebnisse sind nützlich Explorative, semantische Verfahren werden viele

Textwissenschaften nachhaltig beeinflussen Aber: wir können nur einen Bruchteil der denkbaren und sinnvollen

Nutzungen vorhersehen / anbieten Darum: Volltexte in möglichst vielen Formaten und an möglichst

vielen Schnittstellen zur Nachnutzung anbieten (PDF, txt, TEI, OAI, ...)

13

Page 14: Stockmann Endnutzer Impact Workshop MUC

7 . .IMPACTis supported by the European Community underthe FP ICTWorkProgramme The project is coordinated by the National Library of the Netherlands

Ausblick Ulrich Johannes Schneider in der SZ am 1.3.

– Sollten wir nicht anerkennen, dass die neue Technik mindestens ebenso revolutionär wirkt wie der Buchdruck selbst vor über 500 Jahren?

14

Ja – aber nicht durch Image-Digitalisierung, sondern die Volltexterfassung.