Resource Discovery: Herausforderung und Chance
für die Sacherschließung
Prof. Magnus PfefferHochschule der Medien, [email protected]
8. November 2012 Fortbildung AjBD, Berlin 2
Vom Katalog zum Resource Discovery System
Herausforderungen
Chancen
Methoden
Ausblick
Überblick
8. November 2012 Fortbildung AjBD, Berlin 3
Vom Katalog zum Resource Discovery System
8. November 2012 Fortbildung AjBD, Berlin 4
Kataloge Boolesche Suche
Differenzierte Indexe Erweiterte Suche als Standard
Langsame Suche Hardware/Software begrenzen die
Suchgeschwindigkeit
Begrenzte Datenmenge Für jeden Bestand eine eigene Datenbank
8. November 2012 Fortbildung AjBD, Berlin 5
Einfache Suche Undifferenzierter „Google-Schlitz“ Erweiterte Suchmöglichkeiten verborgen
Schnelle Ergebnisse Suchgeschwindigkeit nur durch Bandbreite begrenzt
Allumfassend Wenn Google es nicht findet, existiert es nicht
Generation Google
8. November 2012 Fortbildung AjBD, Berlin 6
Wissenschaftliche Suchmaschinen Google Scholar
„Google Scholar includes scholarly articles from a wide variety of sources in all fields of research, all languages, all countries, and over all time periods. Chances are that your collection of research papers will be a welcome addition to the index.“
http://scholar.google.com/
8. November 2012 Fortbildung AjBD, Berlin 7
Wissenschaftliche Suchmaschinen Microsoft Academic Search
„Microsoft Academic Search encompasses the entire research spectrum, including STM (science, technology, and medicine), the social sciences, and the humanities. Microsoft Academic Search provides comprehensive results in 15 different disciplines and more than 200 subdomains. We continue to work with dozens of publishers and other content providers to increase our data coverage.“
http://academic.research.microsoft.com/
8. November 2012 Fortbildung AjBD, Berlin 8
Resource Discovery Fokus für neue Entwicklungen
Suchmaschinentechnologie Modernes und einheitliches User Interface Nutzung durch mobile Endgeräte
Kein neuer Katalog Gleichberechtigter, einheitlicher Zugang zu allen
Beständen der Bibliothek Volltext-Indexierung Web-Scale Discovery
Nach Breeding (2010)
8. November 2012 Fortbildung AjBD, Berlin 9
Produkte Summon (Serial Solutions/Proquest)
http://www.serialssolutions.com/en/services/summon
Primo mit Primo Central (Ex Libris) http://www.exlibrisgroup.com/de/category/PrimoUeberblick
EBSCO Discovery Service http://www.ebscohost.com/discovery/
Vgl. Jansen et. al. (2010)
8. November 2012 Fortbildung AjBD, Berlin 10
Komponenten Suchoberfläche
Rechercheportal im modernen Look Facettiertes Browsen der Ergebnisse Integration von Link Resolvern (Volltextzugang) Anbindung an Bibliothekssystem
Lokaler Index Eigene bibliografische Daten
Zentraler Index Gemeinsam genutzte bibliografische Daten
Ausschnitte wählbar
8. November 2012 Fortbildung AjBD, Berlin 11
Eigenschaften der Indexe „Megaindex“
Mehrere 100 Millionen Datensätze Nicht nur Metadaten, oft auch Volltexte indexiert
Hetrogene Herkunft Verlage und Datenbankproduzenten Bibliothekskataloge Frei verfügbares Open Access Material
Heterogene Inhalte Zeitschriften-/ Konferenzbeiträge Print- und E-Books Zeitungsartikel, Rezensionen, Working Papers, ...
Aber: sehr wenig deutsche/deutschsprachige Inhalte
8. November 2012 Fortbildung AjBD, Berlin 12
Unterschiede der Implementierung Installation
Lokal auf eigenem Server Gehostet beim Anbieter
Software-as-a-service
Konfiguration Oberfläche + Index vom Anbieter Zentraler Index als Datenquelle für eigene Oberfläche
8. November 2012 Fortbildung AjBD, Berlin 13
Unterschiede der Implementierung Selektion des Suchraums
Standardsuchraum Reduktion auf „klassischen“ Katalogbestand Erweiterung auf das „web scale discovery“
Navigation Anordnung und Inhalte der Facetten
Drill-down nach formalen und inhaltlichen Aspekten
8. November 2012 Fortbildung AjBD, Berlin 14
KonSearch
RDS der UB KonstanzSummon Oberfläche und Index
Beim Anbieter gehostet
8. November 2012 Fortbildung AjBD, Berlin 15
Wissensportal Primo
RDS der TU BerlinPrimo Oberfläche und Index
Beim KOBV gehostet
8. November 2012 Fortbildung AjBD, Berlin 16
HEIDI
RDS der UB HeidelbergEigene Oberfläche + Summon Index
Lokale Installation
8. November 2012 Fortbildung AjBD, Berlin 17
SULB Wissensportal
RDS der Saarländischen Universitäts-und Landesbibliothek
Ebsco Discovery Service Oberfläche und IndexBeim Anbieter gehostet
8. November 2012 Fortbildung AjBD, Berlin 18
Katalog Plus
RDS der UB FreiburgEbsco Discovery Service
Eigene Oberfläche + Index vom Anbieter
8. November 2012 Fortbildung AjBD, Berlin 19
Zusammenfassung RDS Einfache Suche
Einheitlicher Zugang Modernes Interface
Schnelle Ergebnisse Suchmaschinentechnologie
Umfassend Zugang zu allen Beständen der Bibliothek Umfassendere Suche möglich
→ Erwartungen werden erfüllt
8. November 2012 Fortbildung AjBD, Berlin 20
Herausforderungen
8. November 2012 Fortbildung AjBD, Berlin 21
Normierung Heterogene Quellen → Heterogene Inhalte
Elemente der Titelaufnahmen Ansetzung von Personennamen Inhaltliche Erschließung
Beobachtung Häufige Dubletten
Titel Erschließungselemente
Verweisungsformen sind nicht suchbar
8. November 2012 Fortbildung AjBD, Berlin 22
Heterogene Erschließung Suche nach „Linked Open Data“
Schlagwortfacette EDS, UB Freiburg: 100(!) Einträge Darunter für das Konzept „Linked Open Data“
Linked Data Linked Data (Ld) Linked Data (Semantic Web) Linked Open Data Linked Open Data (Lod)
8. November 2012 Fortbildung AjBD, Berlin 23
Ansetzung und Verweise
8. November 2012 Fortbildung AjBD, Berlin 24
Dubletten
8. November 2012 Fortbildung AjBD, Berlin 25
Nachvollziehbarkeit Inhalte sind nicht dokumentiert
Oft nur allgemeine Angaben zu Verlagen Keine Aussage zu spezifischen Quellen möglich
Indexing und Retrieval Metadaten / Abstracts / Volltext Normalisierung Linguistische Methoden
Ranking ist black-box
8. November 2012 Fortbildung AjBD, Berlin 26
Indexing und Ranking Konsearch
Suche nach „Linked open data libraries“ Treffer 1 bis 3
8. November 2012 Fortbildung AjBD, Berlin 27
Treffermengen Undifferenzierte Suche als Standard
Metadaten und Volltext indexiert Auch spezifische Anfragen liefern riesige Mengen
TU Berlin
UB Freiburg
8. November 2012 Fortbildung AjBD, Berlin 28
Chancen
8. November 2012 Fortbildung AjBD, Berlin 29
Traditionalle Stärken... Einheitliche Erschließung
Formal Inhaltlich
Strenge Normierung Gemeinsame Normdatei Zeitschriftendatenbank
Relevanz der Inhalte Aktive Auswahl
8. November 2012 Fortbildung AjBD, Berlin 30
… für besseres Suchen und Finden Zusammenbringen und Differenzieren
Alles zu einem bestimmten Thema finden Alles von einem Autor finden Klare Trennung von inhaltlich verschiedenem
Nutzer nicht mit großen Treffermengen alleine lassen Sinnvolle Facettierung der Ergebnisse Nicht nur formal, sondern auch inhaltlich
8. November 2012 Fortbildung AjBD, Berlin 31
Transparenz Inhalte
Was kann recherchiert werden? Was nicht? Und warum nicht?
Suchprozess Wie wird indexiert? Welche Normalisierungen wurden verwendet? Wurde die Suche verändert?
8. November 2012 Fortbildung AjBD, Berlin 32
Fragestellung
Wiesenmüller (2012)
8. November 2012 Fortbildung AjBD, Berlin 33
Ja!
Bild: Wikipedia / Public Domain
8. November 2012 Fortbildung AjBD, Berlin 34
Methoden
8. November 2012 Fortbildung AjBD, Berlin 35
Systemaufbau
Präsentation
Logik
Datenbank
Oberfläche
Such- und Kontoverwaltung
Index
8. November 2012 Fortbildung AjBD, Berlin 36
Präsentationsschicht Manipulation der Anzeige
Anbieten von externen Informationen Anbieten von alternativen Sucheinstiegen
Manipulation der Sucheingabe Erkennen von Personen
Sucherweiterung um alternative Schreibweisen
Erkennen von Konzepten Sucherweiterung um Synonyme Anbieten von Disambiguierung Anbieten von Ober- und Unterbegriffen für die Suche
8. November 2012 Fortbildung AjBD, Berlin 37
Mock-Up
Gorbatschow
Name erkannt.
Bekannte alternative Schreibeweisen:Gorbačëv
GhurbatshufGkormpatsoph
GorbačëvGorbačevGorbacëv
GorbachevGorbachovGorbaciovGorbač'ovGorbacsovGorbaczowGorbatchevGorbatsjovGorbats'ovGorbatxovГорбачев
Suche automatisch ergänzen?
8. November 2012 Fortbildung AjBD, Berlin 38
Mock-Up
Krebs
Meinen Sie:Krebs <Medizin>Krebs <Sterbild>
8. November 2012 Fortbildung AjBD, Berlin 39
Mock-Up
Mehr Infomationen
● GND Eintrag● Wikipedia
● Lexika
Neue Suchen
● Vom gleichen Autor● Über diesen Autor
8. November 2012 Fortbildung AjBD, Berlin 40
Datenbankschicht Ziel: Homogenisierung der Daten
Anpassen von Datenelementen Anreichern der Daten Anpassen der Indexierung
Aber: Zentraler Index im „Besitz“ der Anbieter
→ Zugang zu den Daten existentiell
8. November 2012 Fortbildung AjBD, Berlin 41
Auswerten der Erschließung Inhaltiche Erschließung vielfach vorhanden
Erschließungssysteme heterogen
Ansatz: Abgleich zwischen Erschließungssystemen Manuell erstellte Konkordanzen Automatisch generierte Mappings
8. November 2012 Fortbildung AjBD, Berlin 42
Auswertung der Hierarchie Erschließung auf unterschiedlichen Ebenen
Verlag / Reihe Zeitschrift / Sammelband Aufsatz
Ansatz: Akkumulieren und Verteilen „von unten nach oben“ „von oben nach unten“
8. November 2012 Fortbildung AjBD, Berlin 43
Auswertung der Redundanz „Echte“ Dubletten
Sehr ähnliche Einträge Ausgaben
Print, Elektronisch, Paperback, International
Auflagen und Versionen Working Paper, Pre- / Postprint
Übersetzungen
Ansatz: Übertragung von inhaltlicher und formaler Erschließung aus Dubletten und anderen Ausgaben
8. November 2012 Fortbildung AjBD, Berlin 44
Forschungsprojekt Clustering von Katalogdaten zur Übertragung von
Erschließungsinformationen
Daten SWB
Katalog des Südwestdeutschen Bibliotheksverbundes
Hebis Katalog des Hessischen Bibliotheks- und Informationssystems
HBZ Katalog des Hochschulbibliothekszentrum des Landes Nordrhein-
Westfalen
B3Kat Gemeinsamer Verbundkatalog von Bibliotheksverbund Bayern und
dem Kooperativen Bibliotheksverbund Berlin-Brandenburg
8. November 2012 Fortbildung AjBD, Berlin 45
Ergebnisse
Katalog Monografien Anteil RVK
Anteil RSWK
Zuwachs RVK
Zuwachs RSWK
SWB 13.330.743 4.217.226 4.083.113 581.780 957.275
Hebis 8.844.188 1.933.081 2.237.659 1.097.992 1.308.581
HBZ 13.271.840 1.018.298 3.322.100 2.272.558 1.080.162
B3Kat 22.685.738 5.750.295 6.055.164 2.969.381 2.765.967
8. November 2012 Fortbildung AjBD, Berlin 46
Ausblick
8. November 2012 Fortbildung AjBD, Berlin 47
(Linked) Open Data Bereitstellung in offenen Formaten
Bereitstellung unter freien Lizenzen
Verfügbarkeit großer bibliografischer Datensammlungen Nationalbibliografien Kataloge von Bibliotheken und /-verbünden Fachbibliografien Open-Access Repositorien Verlagsdaten Normdaten
8. November 2012 Fortbildung AjBD, Berlin 48
Gemeinsame Infrastruktur Culturegraph.org
Initiative von DNB und HBZ Ziel: Zusammenführen von bibliografischen
Informationen, die als Linked Open Data zur Verfügung stehen
Open Source Infrastruktur Parametrisierbare Metadatenverarbeitung Erweiterbar (Java) Skalierbar (Hadoop)
→ Ideale Ausgangsbasis
8. November 2012 Fortbildung AjBD, Berlin 49
Berufsfeld Metadatenmanagement als zentrale Aufgabe
Zusammenführen der Metadaten in eigenem Index Homogenisierung der Daten
Formal Inhaltlich
Anreicherung mit externen Quellen Empfehlungen Verknüpfungen Zusatzinformationen
8. November 2012 Fortbildung AjBD, Berlin 50
Die Konkurrenz schläft nicht
Google analysiert die Nutzereingaben
Erkannt werden:Personen
KunstwerkeBücherFilme
Computerspiele….
(auch abstrakte Konzepte)
Angezeigt werden Kurzinformationenund sinnvolle Verknüpfungen
zu anderen Entitäten
8. November 2012 Fortbildung AjBD, Berlin 51
Danke für Ihre Aufmerksamkeit!
Folien online unterhttp://www.slideshare.net/MagnusPfeffer/
Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.
8. November 2012 Fortbildung AjBD, Berlin 52
Links Wissensportal Primo
http://portal.ub.tu-berlin.de/
HEIDI http://heidi.ub.uni-heidelberg.de/
KonSearch http://konstanz.summon.serialssolutions.com/
Katalog Plus http://www.ub.uni-freiburg.de/index.php?id=opac&no_cache=1
SLUB Wissensportal http://www.sulb.uni-saarland.de/?id=115
Culturegraph Infrastruktur http://sourceforge.net/projects/culturegraph/
8. November 2012 Fortbildung AjBD, Berlin 53
Quellen Marshall Breeding: The State of the Art in Library Discovery 2010, in: Computers in
Libraries, 30 (1), 2010, S. 31
Heiko Jansen, Kirstin Kemner-Heek, Roswitha Schweitzer: Konkurrenzanalyse ausgewählter kommerzieller Suchindizes, Online-Veröffentlichung, 2010
Magnus Pfeffer: Using clustering across union catalogues to enrich entries with indexing information, in: Data Analysis, Machine Learning and Knowledge Discovery – Proceedings of the 36th Annual Conference of the German Classification Society, Springer, Heidelberg/Berlin, 2012 (noch nicht erschienen)
Heidrun Wiesenmüller: Resource Discovery Systeme, Vortrag auf der 36. Jahrestagung der Gesellschaft für Klassifikation, 2012