integration von normdaten in bibliotheksanwendungen auf der basis von semantic webservices
TRANSCRIPT
Die ZBW ist Mitglied der Leibniz-Gemeinschaft
Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Webservices mit Semantic Web-Technologie Dr. Timo Borst
IT-EntwicklungDeutsche Zentralbibliothek für Wirtschaftswissenschaften /Leibniz-Informationszentrum WirtschaftKiel/Hamburg
I-KNOW Praxisforum1.-3. September 2010 in Graz
Seite 2
Übersicht1. Ausgangslage: Verteiltes Datenmanagement in
Bibliotheksanswendungen
2. Bisherige Ansätze zur Aggregierung und Homogenisierung
3. Integration und Aggregation von Normdaten auf der Basis von Semantic Web-Technologien
a) Grundideeb) Anwendungsfall_1: Verschlagwortungc) Anwendungsfall_2: Suched) Anwendungsfall_3: Erfassung von Autoren
4. “Leichtgewichtige” Integration in bestehende Systeme
5. Zusammenfassung und Fazit
Seite 3
Ausgangslage• Klassische Bibliotheksanwendungen erzeugen und verwalten
jeweils idiosynkratische (Meta-)Datenbestände (“Datensilos”)…
• …die dann im Web über jeweils eigene Frontends verfügbargemacht werden
• Wie können hinsichtlich
• Formate• Schemata• Vokabulare zur Erschließung• Erschließungsregeln• Vollständigkeit (Abstract ja/nein)• Herkunft
prinzipiell heterogene Metadaten zueinander in Beziehunggesetzt werden?
Seite 4
Ausgangslage
Beispiel Repositorien und ihre Vernetzung
• Repositorien sind allgemein genutzte Erfassungs-/Retrieval-/Verbreitungssysteme („Data Provider“), zumeist OSS und Community-getrieben
• Zahlreiche Installationen an Hochschulen, Bibliotheken, Rechenzentren
• Vernetzungsinitiativen, z.B. OA-Netzwerk
• „OA-Netzwerk stellt Dienste auf der Basis von aggregierten Daten der DINI-zertifizierten Repositorien bereit […] u.a. vorgesehen: Aggregation, Harmonisierung und Ähnlichkeitsanalyse“http://www.dini.de/fileadmin/workshops/oa-statistik-was-zaehlt/02_gerlach-oas.pdf
• Einschlägige OSS-Repositoriensoftware (DSpace, EPrints, OPUS) unterstützt derzeit noch nicht die Integration extern kontrollierter Normdaten
Seite 5
Ausgangslage
„The major difficulty we have found is with DSpace’s handling of metadata. While we feel that the number of fields in Dublin Core isadequate for most if not all uses (DCMI Usage Board 2006), we aretroubled by the lack of authority control when completing its fields. Without some control over uniform titles, authors and subjectsaccessing the items in the future will very problematic.“
S. Chabot (http://subjectobject.net/2006/11/09/the-dspace-digital-repository-a-project-analysis/)
„Neither the standards nor the software unterlyinginstitutional repositories anticipated performing namingauthority control on widely disparate metadata fromhighly unreliable sources.“
D. Salo (http://minds.wisconsin.edu/handle/1793/31735)
Seite 6
Ausgangslage
Typische Mängel• Daten (Autorennamen, beschreibende Schlagwörter, Herausgeber,
Dokumenttypen etc.) werden ohne semantische und syntaktische Anleitungen und Restriktionen teilweise im Freitext erfasst
• (Syntaktische) Suchen liefern nur eingeschränkte oder uneindeutige Ergebnisse, erfordern ggf. aus Anwendersicht subtilere Suchkenntnisse (Trunkierung etc.) (Suche nach „Abbott, Philip“ liefert nur Treffer für Nr. 2/3)
• Namensänderungen sind praktisch nicht nachvollziehbar• Selbst wenn syntaktische und semantische Eindeutigkeit in einem
Repository lokal erzielt werden können, erneuert und verschärft sich das Problem auf Seiten der Aggregatoren
Seite 7
Bisherige Ansätze zur Aggregierung & Homogenisierung
http://www.economistsonline.org/publications?page=3&q=thys-clement&lang=de
Seite 8
Bisherige Ansätze zur Aggregierung & Homogenisierung
Seite 9
Bisherige Lösungsansätze zur Aggregierung & HomogenisierungHomogenisierung im Vorhinein• Festlegung eines relativ granularen Metadatenschemas• Möglichst verbindliches und explizites Regelwerk, das auch von allen
Beteiligten konsequent befolgt wird• Verwendung einheitlicher Namen + Vokabulare• Lokale Anpassungen• Zentrales Harvesting bei minimierter Datenaufbereitung
Homogenisierung im Nachhinein• Beibehaltung der lokalen Ausprägungen bei kleinstem gemeinsamen
Nenner (etwa “Dublin Core”-Elemente)• Nachträgliche Maßnahmen zur Homogenisierung, u.a. “Name
Disambiguation”• Zentrales Harvesting bei aufwändiger DatenaufbereitungBeide Ansätze sind nicht optimal!
Seite 10
Integration und Aggregation von Normdaten -Grundidee
Seite 11
Integration und Aggregation von Normdaten -IdeeBeispieldaten und -anfragen (zu Personen und Themen):
http://zbw.eu/beta/stw-ws/suggest?query=finanzkr…liefert alle Terme, die mit “finanzkr” beginnen
http://zbw.eu/beta/stw-ws/stw-ws-wrapper.php?service=labels&concept=http://zbw.eu/stw/descriptor/19664-4&lang=en…liefert alle englischen Synonyme zu “Finanzkrise:
Seite 12
Anwendungsfall_1: Verschlagwortung mitNormdaten• DER Anwendungsfall für Bibliothekarinnen und Bibliothekare
• Nutzergruppen: Bibliothekarinnen und Bibliothekare + WissenschaftlerInnen (?) + BibliotheksnutzerInnen (?)
• Vorgang: Eingabe von beschreibenden Metadaten, die häufig aus einem kontrollierten Vokabular stammen
• Crosskonkordanzen herstellen zwischen verschiedenen kontrollierten Vokabularen
• Bestandteil von Open Access relevanten Vorgängen wie das „self-publishing“, das „self-archiving“ oder das „social tagging“
• Zielstellung: Den Vorgang der Verschlagwortung mit Hilfe von kontrollierten Vokabularen und Webservices unterstützen, so dass man einerseits zu „besseren“ im Sinne von normierten Metadaten kommt, die andererseits aber auch Flexibilität im Rahmen eines KOS erlauben („Lokalisierung“):• Alternative Schreibweisen bei Namen• Synonyme sowie Ober-/Unterbegriffe bei Schlagworten
Seite 13
Anwendungsfall_1: Verschlagwortung
Erfassungsmaske unter https://econstor.eu
Seite 14
Anwendungsfall_1: Verschlagwortung
Erfassungsmaske unter https://econstor.eu
Seite 15
Anwendungsfall_2: Suche
• Der häufigste Anwendungsfall in Bibliotheksanwendungen
• Nutzergruppen: Bibliothekarinnen und Bibliothekare + WissenschaftlerInnen + BibliotheksnutzerInnen
• Vorgang: Zumeist einfache Volltextsuche über Metadatenfelder (Titel/Abstract) und/oder Volltexte (soweit letztere verfügbar sind und im Suchmaschinenindex liegen)
• Zielstellung: Den Vorgang der Suche mit Hilfe von kontrollierten Vokabularen und Webservices unterstützen, so so dass man zu besseren Suchergebnissen gelangt (Erhöhung von Recall + Precision)
Seite 16
Anwendungsfall_2: Suche
Erweiterte Suche unter http://econstor.eu nach „Finanzkrise“
Seite 17
Anwendungsfall_2: Suche
Seite 18
Anwendungsfall_2: Suche
Seite 19
“Leichtgewichtige” Integration in bestehende Systeme
Seite 20
“Leichtgewichtige” Integration in bestehende Systeme
Vorteile• „Leichtgewichtige“ Erweiterungen bestehender (Alt-)Systeme
• Strategie des „minimalen Eingriffs“
• Keine Änderungen am Systemkern, minimale Änderungen am Datenmodell nötig (Erweiterung um eine Spalte für den Authority-Key)
• Typen von (Web-)Bibliotheksanwendungen, die sich auf diese Weise zwanglos erweitern ließen:• Repositorien (zumeist OSS, Plugin-Architektur)• Kataloge (zumeist proprietäre SW und monolithisch)• Portale (zumeist OSS, heterogene Inhalte hinsichtlich Art und Herkunft) ->
WebService zur Verbesserung des Retrievals und zur Erzeugung von Mash-Ups
• …sowie alle offenen Systeme mit kollaborativ-verteilter Verschlagwortung(z.B. Academic Linkshare)
Seite 21
Zusammenfassung und Fazit
• Bibliotheksanwendungen erzeugen und verwalten jeweils eigene idiosynkratische Datenbestände.
• Dies erschwert die Pflege, den Austausch, die Aggregation und die Homogenisierung der (Meta-)Daten für erweiterte Dienste.
• Vorgelagerte Webservices als Teil einer übergreifenden Normdaten-Infrastruktur können frühzeitig zur Homogenisierung der Metadaten beitragen (bei gleichzeitiger Lokalisierung).
• Wenn diese Webservices verbreitet entstehen und genutzt werden, besteht die Chance zu einer weitergehenden Vernetzung lokal gepflegter Metadaten bei gleichzeitiger Verbesserung der datenbasierten Services.
• Die Möglichkeit zur „leichtgewichtigen Integration“ ist ein Angebot an Betreiber von Bibliotheksanwendungen, diese Webservices mit möglichst minimalem Aufwand in ihre Anwendungen zu integrieren.
Seite 22
Dr. Timo BorstDeutsche Zentralbibliothek für Wirtschaftswissenschaften / Leibniz-Informationszentrum Wirtschaft (ZBW)
Vielen Dank!
Seite 23
Anwendungsfall_3: Erfassung von Autoren
•Der Normalfall in Katalogen - in anderen Erfassungssystemen bisher der Ausnahmefall•Nutzergruppen: BibliothekarInnen + WissenschaftlerInnen (?) + BibliotheksnutzerInnen (?)•Vorgang: Eingabe von AutorInnen-Namen•Zielstellung: Den Vorgang der Autorenerfassung mit Hilfe von Normdaten zu verbessern, die durch Webservices bereit gestellt werden
Seite 24
Anwendungsfall_3: Erfassung von Autoren•Erfassungsmaske unter http://87.106.250.18/beta/econstor/
Seite 25
Bisherige Lösungsansätze zur Aggregierung & Homogenisierung
•Metadatensuche durch Aggregatoren• Parallele Abfrage entfernt-verteilter Systeme• Rückgabe und Aufbereitung des Suchergebnisses als
zusammengesetzte Trefferliste•Harvesting• Regelmäßiges Einsammeln von entfernt-verteilten
Metadaten• Homogenisierung ex ante oder ex post•Föderierte Suche
•…
Seite 26
Literatur•[1] http://wiki.dspace.org/index.php/Authority_Control_of_Metadata_Values•[2] http://minds.wisconsin.edu/handle/1793/31735•[3] http://dsug09.ub.gu.se/index.php/dsug/dsug09/paper/view/22/3•[4] http://subjectobject.net/2006/11/09/the-dspace-digital-repository-a-project-analysis/•[5] http://code.google.com/p/dspace-agrisap/wiki/ThesaurusAddOn•[6] http://edoc.hu-berlin.de/conferences/dc-2008/subirats-imma-199/PDF/subirats.pdf•[7] http://www.jisc.ac.uk/media/documents/programmes/sharedservices/names-phase-one-final-report,.pdf•[8] http://idea.library.drexel.edu/bitstream/1860/3173/1/20070051011.pdf•[9] http://ptsefton.com/blog/2006/06/06/the_affiliation_issue_in_institutional_repository_software/•[10] http://library.ust.hk/info/nac/nac-technical.html•[11] http://www.seco.tkk.fi/publications/2009/kurki-hyvonen-onki-people-2009.pdf•[12] http://journals.sfu.ca/archivar/index.php/archivaria/article/download/11883/12836•[13] http://www.dini.de/fileadmin/workshops/oa-netzwerk-juni2009/vernetzungstage_2009_malitz.pdf