automatisches generieren von konkordanzen
DESCRIPTION
Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.TRANSCRIPT
Automatisches Generieren von Konkordanzen
Prof. Magnus PfefferHochschule der Medien, [email protected]
13. März 2013 5. Kongress Bibliothek und Information
Grundidee
Optimierung durch Clustering
Projekt: Konkordanz RVK ↔ DDC
Überblick
13. März 2013 5. Kongress Bibliothek und Information
Grundidee
13. März 2013 5. Kongress Bibliothek und Information
Instanzbasierter Vergleich Datenbasis:
Mehrfach erschlossene Einträge in Katalogen
13. März 2013 5. Kongress Bibliothek und Information
Instanzbasierter Vergleich Annahmen
Inhaltlich überlappende Klassen treten zusammen auf Häufigkeit des Auftretens ist ein Indiz für die Stärke des
Zusammenhangs
Aufbereitung Extraktion aller Paare aus zwei Erschließungssystemen Aufsummieren der vorkommenden Paare
13. März 2013 5. Kongress Bibliothek und Information
Beispiel
13. März 2013 5. Kongress Bibliothek und Information
Beispiel Titel 1
DDC: 179.9 RVK: CC 7200 RVK: CC 7250
Titel 2 DDC: 179.9 RVK: CC 7200
Paare 179.9 / CC 7200 179.9 / CC 7250 179.9 / CC 7200
13. März 2013 5. Kongress Bibliothek und Information
Instanzbasierter Vergleich Auswertung
am Beispiel zweier Klassifikationen A und B Zwei Klassen treten ausschließlich als Paar auf
1:1 Zuordnung = exakte Übereinstimmung
Klasse aus A hat immer denselben Partner aus B, der hat aber auch andere Partner aus A
N:1 Zuordnung = Klasse aus A ist engeres Konzept
Klasse aus A tritt mit mehreren Partnern auf 1:N Zuordnung = Klasse aus A ist weiter gefasstes Konzept
Aber: Klasse tritt nicht auf Keine Folgerung möglich
13. März 2013 5. Kongress Bibliothek und Information
Beispiel Auswertung für DDC
2 mal 179.9 / CC 7200 1 mal 179.9 / CC 7250
Ergebnis 179.9 narrowMatch CC 7200 179.9 narrowMatch CC 7250
13. März 2013 5. Kongress Bibliothek und Information
Beispiel Auswertung für RVK
2 mal CC 7200 / 179.9 1 mal CC 7250 / 179.9
Ergebnis CC 7200 broadMatch 179.9 CC 7250 broadMatch 179.9
13. März 2013 5. Kongress Bibliothek und Information
Optimierung durch Clustering
13. März 2013 5. Kongress Bibliothek und Information
Titeldaten sind anders Mehrere Auflagen
Mehrere Ausgaben
13. März 2013 5. Kongress Bibliothek und Information
Titeldaten Mehrere Ausgaben und Auflagen verfälschen die
Statistik Paare werden mehrfach erfasst Keine Vergleichbarkeit der absoluten Häufigkeiten
Lösung: Auswertung der Cluster anstelle der einzelnen Titel Häufigkeiten werden direkt vergleichbar „Stärke“ der Korrelationen können ermittelt werden „Ausreißer“ können sicher erkannt und entfernt werden
13. März 2013 5. Kongress Bibliothek und Information
Projekt:Konkordanz RVK ↔ DDC
13. März 2013 5. Kongress Bibliothek und Information
Datenbasis Alle deutschen Verbundkataloge
SWB BVB GBV HeBIS HBZ
DNB
13. März 2013 5. Kongress Bibliothek und Information
Umsetzung Metafactory
Aufbereiten von MAB2 und MARC21 Daten Clustering auf Werksebene
Keygenerierung für Matching-Prozess Matching und Clusterbildung (transitive Hülle) Sammeln der Erschließungsinformationen im Cluster
Statistik Auszählen des gemeinsamen Auftretens von Klassen
Ausgabe Mappings einzelner Klassen Beide Richtungen
13. März 2013 5. Kongress Bibliothek und Information
Offene Fragen Enthalten die Titeldaten nach dem Clustering
genügend auswertbare Erschließungen?
Macht es Sinn, einen globalen Cut-Off zu verwenden, um Ausreißer zu verwerfen? Oder ist es besser, jede Klasse gesondert
auszuwerten?
Wie kann eine effiziente Qualitätssicherung betrieben werden?
13. März 2013 5. Kongress Bibliothek und Information
Danke für Ihre Aufmerksamkeit!
Folien online unterhttp://www.slideshare.net/MagnusPfeffer/
Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.