integration von normdaten in bibliotheksanwendungen auf der basis von semantic webservices

Die ZBW ist Mitglied der Leibniz-Gemeinschaft

Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Webservices mit Semantic Web-Technologie Dr. Timo Borst

IT-EntwicklungDeutsche Zentralbibliothek für Wirtschaftswissenschaften /Leibniz-Informationszentrum WirtschaftKiel/Hamburg

I-KNOW Praxisforum1.-3. September 2010 in Graz

Seite 2

Übersicht1. Ausgangslage: Verteiltes Datenmanagement in

Bibliotheksanswendungen

2. Bisherige Ansätze zur Aggregierung und Homogenisierung

3. Integration und Aggregation von Normdaten auf der Basis von Semantic Web-Technologien

a) Grundideeb) Anwendungsfall_1: Verschlagwortungc) Anwendungsfall_2: Suched) Anwendungsfall_3: Erfassung von Autoren

4. “Leichtgewichtige” Integration in bestehende Systeme

5. Zusammenfassung und Fazit

Seite 3

Ausgangslage• Klassische Bibliotheksanwendungen erzeugen und verwalten

jeweils idiosynkratische (Meta-)Datenbestände (“Datensilos”)…

• …die dann im Web über jeweils eigene Frontends verfügbargemacht werden

• Wie können hinsichtlich

• Formate• Schemata• Vokabulare zur Erschließung• Erschließungsregeln• Vollständigkeit (Abstract ja/nein)• Herkunft

prinzipiell heterogene Metadaten zueinander in Beziehunggesetzt werden?

Seite 4

Ausgangslage

Beispiel Repositorien und ihre Vernetzung

• Repositorien sind allgemein genutzte Erfassungs-/Retrieval-/Verbreitungssysteme („Data Provider“), zumeist OSS und Community-getrieben

• Zahlreiche Installationen an Hochschulen, Bibliotheken, Rechenzentren

• Vernetzungsinitiativen, z.B. OA-Netzwerk

• „OA-Netzwerk stellt Dienste auf der Basis von aggregierten Daten der DINI-zertifizierten Repositorien bereit […] u.a. vorgesehen: Aggregation, Harmonisierung und Ähnlichkeitsanalyse“http://www.dini.de/fileadmin/workshops/oa-statistik-was-zaehlt/02_gerlach-oas.pdf

• Einschlägige OSS-Repositoriensoftware (DSpace, EPrints, OPUS) unterstützt derzeit noch nicht die Integration extern kontrollierter Normdaten

Seite 5

Ausgangslage

„The major difficulty we have found is with DSpace’s handling of metadata. While we feel that the number of fields in Dublin Core isadequate for most if not all uses (DCMI Usage Board 2006), we aretroubled by the lack of authority control when completing its fields. Without some control over uniform titles, authors and subjectsaccessing the items in the future will very problematic.“

S. Chabot (http://subjectobject.net/2006/11/09/the-dspace-digital-repository-a-project-analysis/)

„Neither the standards nor the software unterlyinginstitutional repositories anticipated performing namingauthority control on widely disparate metadata fromhighly unreliable sources.“

D. Salo (http://minds.wisconsin.edu/handle/1793/31735)

Seite 6

Ausgangslage

Typische Mängel• Daten (Autorennamen, beschreibende Schlagwörter, Herausgeber,

Dokumenttypen etc.) werden ohne semantische und syntaktische Anleitungen und Restriktionen teilweise im Freitext erfasst

• (Syntaktische) Suchen liefern nur eingeschränkte oder uneindeutige Ergebnisse, erfordern ggf. aus Anwendersicht subtilere Suchkenntnisse (Trunkierung etc.) (Suche nach „Abbott, Philip“ liefert nur Treffer für Nr. 2/3)

• Namensänderungen sind praktisch nicht nachvollziehbar• Selbst wenn syntaktische und semantische Eindeutigkeit in einem

Repository lokal erzielt werden können, erneuert und verschärft sich das Problem auf Seiten der Aggregatoren

Seite 7

Bisherige Ansätze zur Aggregierung & Homogenisierung

http://www.economistsonline.org/publications?page=3&q=thys-clement&lang=de

Seite 8

Bisherige Ansätze zur Aggregierung & Homogenisierung

Seite 9

Bisherige Lösungsansätze zur Aggregierung & HomogenisierungHomogenisierung im Vorhinein• Festlegung eines relativ granularen Metadatenschemas• Möglichst verbindliches und explizites Regelwerk, das auch von allen

Beteiligten konsequent befolgt wird• Verwendung einheitlicher Namen + Vokabulare• Lokale Anpassungen• Zentrales Harvesting bei minimierter Datenaufbereitung

Homogenisierung im Nachhinein• Beibehaltung der lokalen Ausprägungen bei kleinstem gemeinsamen

Nenner (etwa “Dublin Core”-Elemente)• Nachträgliche Maßnahmen zur Homogenisierung, u.a. “Name

Disambiguation”• Zentrales Harvesting bei aufwändiger DatenaufbereitungBeide Ansätze sind nicht optimal!

Seite 10

Integration und Aggregation von Normdaten -Grundidee

Seite 11

Integration und Aggregation von Normdaten -IdeeBeispieldaten und -anfragen (zu Personen und Themen):

http://zbw.eu/beta/stw-ws/suggest?query=finanzkr…liefert alle Terme, die mit “finanzkr” beginnen

http://zbw.eu/beta/stw-ws/stw-ws-wrapper.php?service=labels&concept=http://zbw.eu/stw/descriptor/19664-4&lang=en…liefert alle englischen Synonyme zu “Finanzkrise:

Seite 12

Anwendungsfall_1: Verschlagwortung mitNormdaten• DER Anwendungsfall für Bibliothekarinnen und Bibliothekare

• Nutzergruppen: Bibliothekarinnen und Bibliothekare + WissenschaftlerInnen (?) + BibliotheksnutzerInnen (?)

• Vorgang: Eingabe von beschreibenden Metadaten, die häufig aus einem kontrollierten Vokabular stammen

• Crosskonkordanzen herstellen zwischen verschiedenen kontrollierten Vokabularen

• Bestandteil von Open Access relevanten Vorgängen wie das „self-publishing“, das „self-archiving“ oder das „social tagging“

• Zielstellung: Den Vorgang der Verschlagwortung mit Hilfe von kontrollierten Vokabularen und Webservices unterstützen, so dass man einerseits zu „besseren“ im Sinne von normierten Metadaten kommt, die andererseits aber auch Flexibilität im Rahmen eines KOS erlauben („Lokalisierung“):• Alternative Schreibweisen bei Namen• Synonyme sowie Ober-/Unterbegriffe bei Schlagworten

Seite 13

Anwendungsfall_1: Verschlagwortung

Erfassungsmaske unter https://econstor.eu

Seite 14

Anwendungsfall_1: Verschlagwortung

Erfassungsmaske unter https://econstor.eu

Seite 15

Anwendungsfall_2: Suche

• Der häufigste Anwendungsfall in Bibliotheksanwendungen

• Nutzergruppen: Bibliothekarinnen und Bibliothekare + WissenschaftlerInnen + BibliotheksnutzerInnen

• Vorgang: Zumeist einfache Volltextsuche über Metadatenfelder (Titel/Abstract) und/oder Volltexte (soweit letztere verfügbar sind und im Suchmaschinenindex liegen)

• Zielstellung: Den Vorgang der Suche mit Hilfe von kontrollierten Vokabularen und Webservices unterstützen, so so dass man zu besseren Suchergebnissen gelangt (Erhöhung von Recall + Precision)

Seite 16


Erweiterte Suche unter http://econstor.eu nach „Finanzkrise“

Seite 17


Seite 18


Seite 19

“Leichtgewichtige” Integration in bestehende Systeme

Seite 20

“Leichtgewichtige” Integration in bestehende Systeme

Vorteile• „Leichtgewichtige“ Erweiterungen bestehender (Alt-)Systeme

• Strategie des „minimalen Eingriffs“

• Keine Änderungen am Systemkern, minimale Änderungen am Datenmodell nötig (Erweiterung um eine Spalte für den Authority-Key)

• Typen von (Web-)Bibliotheksanwendungen, die sich auf diese Weise zwanglos erweitern ließen:• Repositorien (zumeist OSS, Plugin-Architektur)• Kataloge (zumeist proprietäre SW und monolithisch)• Portale (zumeist OSS, heterogene Inhalte hinsichtlich Art und Herkunft) ->

WebService zur Verbesserung des Retrievals und zur Erzeugung von Mash-Ups

• …sowie alle offenen Systeme mit kollaborativ-verteilter Verschlagwortung(z.B. Academic Linkshare)

Seite 21

Zusammenfassung und Fazit

• Bibliotheksanwendungen erzeugen und verwalten jeweils eigene idiosynkratische Datenbestände.

• Dies erschwert die Pflege, den Austausch, die Aggregation und die Homogenisierung der (Meta-)Daten für erweiterte Dienste.

• Vorgelagerte Webservices als Teil einer übergreifenden Normdaten-Infrastruktur können frühzeitig zur Homogenisierung der Metadaten beitragen (bei gleichzeitiger Lokalisierung).

• Wenn diese Webservices verbreitet entstehen und genutzt werden, besteht die Chance zu einer weitergehenden Vernetzung lokal gepflegter Metadaten bei gleichzeitiger Verbesserung der datenbasierten Services.

• Die Möglichkeit zur „leichtgewichtigen Integration“ ist ein Angebot an Betreiber von Bibliotheksanwendungen, diese Webservices mit möglichst minimalem Aufwand in ihre Anwendungen zu integrieren.

Seite 22

Dr. Timo BorstDeutsche Zentralbibliothek für Wirtschaftswissenschaften / Leibniz-Informationszentrum Wirtschaft (ZBW)

[email protected]

Vielen Dank!

Seite 23

Anwendungsfall_3: Erfassung von Autoren

•Der Normalfall in Katalogen - in anderen Erfassungssystemen bisher der Ausnahmefall•Nutzergruppen: BibliothekarInnen + WissenschaftlerInnen (?) + BibliotheksnutzerInnen (?)•Vorgang: Eingabe von AutorInnen-Namen•Zielstellung: Den Vorgang der Autorenerfassung mit Hilfe von Normdaten zu verbessern, die durch Webservices bereit gestellt werden

Seite 24

Anwendungsfall_3: Erfassung von Autoren•Erfassungsmaske unter http://87.106.250.18/beta/econstor/

Seite 25

Bisherige Lösungsansätze zur Aggregierung & Homogenisierung

•Metadatensuche durch Aggregatoren• Parallele Abfrage entfernt-verteilter Systeme• Rückgabe und Aufbereitung des Suchergebnisses als

zusammengesetzte Trefferliste•Harvesting• Regelmäßiges Einsammeln von entfernt-verteilten

Metadaten• Homogenisierung ex ante oder ex post•Föderierte Suche

•…

Seite 26

Literatur•[1] http://wiki.dspace.org/index.php/Authority_Control_of_Metadata_Values•[2] http://minds.wisconsin.edu/handle/1793/31735•[3] http://dsug09.ub.gu.se/index.php/dsug/dsug09/paper/view/22/3•[4] http://subjectobject.net/2006/11/09/the-dspace-digital-repository-a-project-analysis/•[5] http://code.google.com/p/dspace-agrisap/wiki/ThesaurusAddOn•[6] http://edoc.hu-berlin.de/conferences/dc-2008/subirats-imma-199/PDF/subirats.pdf•[7] http://www.jisc.ac.uk/media/documents/programmes/sharedservices/names-phase-one-final-report,.pdf•[8] http://idea.library.drexel.edu/bitstream/1860/3173/1/20070051011.pdf•[9] http://ptsefton.com/blog/2006/06/06/the_affiliation_issue_in_institutional_repository_software/•[10] http://library.ust.hk/info/nac/nac-technical.html•[11] http://www.seco.tkk.fi/publications/2009/kurki-hyvonen-onki-people-2009.pdf•[12] http://journals.sfu.ca/archivar/index.php/archivaria/article/download/11883/12836•[13] http://www.dini.de/fileadmin/workshops/oa-netzwerk-juni2009/vernetzungstage_2009_malitz.pdf

integration von normdaten in bibliotheksanwendungen auf der basis von semantic webservices

Education