kapitel 19 textstatistik - uni-duesseldorf.de · journal of documentation 28, 11-21. hhu...
TRANSCRIPT
HHU Düsseldorf, WS 2008/09 Information Retrieval 287
Kapitel 19
Textstatistik
HHU Düsseldorf, WS 2008/09 Information Retrieval 288
19. Textstatistik
Die These von Luhn: Termhäufigkeit als Signifikanzfaktor
Luhn, H.P. (1957): A statistical approach to mechanized encoding and searching of literary information. –In: IBM Journal 1(4), S. 309-317.
HHU Düsseldorf, WS 2008/09 Information Retrieval 289
19. Textstatistik
Luhn, H.P. (1958): The automatic creation of literature abstracts. – In: IBM Journal 2(2), S. 159-165.
HHU Düsseldorf, WS 2008/09 Information Retrieval 290
19. Textstatistik
Das informetrische Verteilungsgesetz
f (x)
f (x) = _____C
xa
ca. 80 %
xca. 20%
HHU Düsseldorf, WS 2008/09 Information Retrieval 291
19. Textstatistik
Termgewichtung: Was bedeutet "Term"?
– 1. unbearbeitete (flektierte) Wortform
– 2. Grundform / Wortstamm
– 3. Phrase
– 4. Kompositum und (sinnvolle) Teile
– 5. "named entities" erkannt
– 6. Stufen 1 bis 6 mit Eingabefehlerkorrektur
– 7. Begriff (Synonyme zugefügt - Homonyme getrennt)
– 8. Begriff inkl. der Anaphora seiner Wörter
Informationslinguistischer R
eifegrad des IR
-Systems
HHU Düsseldorf, WS 2008/09 Information Retrieval 292
19. Textstatistik
Termgewichtung: Aspekte
1. Dokumentspezifische Termgewichtung (TF)
2. Kollektionsspezifische Termgewichtung (IDF)
3. üblich: TF * IDF
HHU Düsseldorf, WS 2008/09 Information Retrieval 293
19. Textstatistik
Termgewichtung: Zählbasis• Häufigkeit eines Terms
Term t im Dokument d: Freq(t,d)• Position des Terms im Dokument (P)
– Term und Ort– Term in spezifischem Feld (bzw. Meta-Tag)
• Anzahl aller Terme in einem Dokument (L)• Häufigkeit desjenigen Terms, der im Dokument d am häufigsten
vorkommt: maxfreq(d)• Anzahl aller Dokumente in einer Datenbank, in denen ein
bestimmter Term (mindestens einmal) vorkommt (n)• Gesamtanzahl der Dokumente in einer Datenbank (N)
Harman, D. (1992): Ranking algorithms. – In: Frakes, W.B.; Baeza-Yates, R. (Hrsg.): Information Retrieval.Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 363-392.
HHU Düsseldorf, WS 2008/09 Information Retrieval 294
19. Textstatistik
Termhäufigkeit (TF)
– 0,1-Verfahren (0: Term kommt nicht vor; 1: Term kommt vor) untauglich
– absolute Häufigkeit; freq(t,d) untauglich
– relative Häufigkeit bezogen auf Dokumentlänge (Vorschlag von Salton) TF-relH-Salton(t,d) = freq(t,d) / L
– relative Häufigkeit bezogen auf auf den häufigsten Term; zusätzlich Gewichtungsfaktor K (Vorschlag von Croft) TF-relH-Croft(t,d) = K + (1 - K) * freq(t,d) / maxfreq(d)
– WDF (logarithmische Werte) gemäß HarmanWDF(t,d) = (ld [Freq(t,d) + 1]) / ld LFrage: Warum im Zähler "+1"?
HHU Düsseldorf, WS 2008/09 Information Retrieval 295
19. Textstatistik
WDF - Beispiele
Beispiel (1) nach Harman-Formel: Dokument 1 hat 1024 Terme; Term A kommt 7mal vorWDF (A,1) = (ld [7+1]) / ld 1024 = 3 / 10 = 0,3Vergleich: relative Häufigkeit(A): 7/1024 = 0,7%
Beispiel (2) nach Harman-Formel: Dokument 1 hat 1024 Terme; Term B kommt 15mal vorWDF (B,1) = (ld [15+1]) / ld 1024 = 4 / 10 = 0,4Vergleich: relative Häufigkeit(B): 15/1024 = 1,5%
Der Wertebereich nach Harman-Formel ist „gestauchter“ als die relative Häufigkeit in %.
HHU Düsseldorf, WS 2008/09 Information Retrieval 296
19. Textstatistik
Feld- oder positionsspezifische Termhäufigkeit (PWDF)Variante der WDF-Formel
PWDF(t,d) = {ld (2 * [freq(t-Titel,d)] + 1,7 * [freq(t-Sw,d)] + 1,3 * [freq(t-Abs,d)] + [freq(t-Text,d)] + 1)}
/ {ld (2 * L(Titel) + 1,7 * L(Sw) + 1,3 * L(Abs) + L(Text))}
Die Gewichtungswerte (hier: Titelterm: 2, Schlagwort Sw: 1,7; Term im Abstract Abs: 1,3; Term im Fließtext: 1) sind frei einstellbar.
HHU Düsseldorf, WS 2008/09 Information Retrieval 297
19. Textstatistik
Inverse Dokumenthäufigkeit (inverted document frequencyweight) IDF
• relative Häufigkeit des Vorkommens eines Terms in Dokumenten der gesamten Datenbank (je häufiger, desto kleiner IDF); je seltener ein Term ist, desto diskriminierender ist er
Berechnungsformel nach Karen Sparck Jones:IDF(t) = (ld N / n) + 1
Variante: IDF'(t) = (ld N / n) (Einsatz, wenn keine Stoppwortliste vorhanden ist)
• Beispiel: Datenbank hat 3584 Datensätze; Term A kommt in 7 Datensätzen vor
• IDF(A) = (ld 3584 / 7) + 1 = (ld 512) + 1= 9+1 = 10
Sparck Jones, K. (1972): A statistical interpretation of term specificity and its application in retrieval – In: Journal of Documentation 28, 11-21.
HHU Düsseldorf, WS 2008/09 Information Retrieval 298
19. Textstatistik
Gewichtung G eines Terms t im Dokument d:G(T,d) = TF(t,d) * IDF(t)
Der Retrievalstatuswert e des Dokuments ergibt sich durch Akkumulation der Gewichtungswerte– bei Booleschen Systemen: Zuordnung der Gewichtungswerte
zu den Termen; Beachtung der Regeln erweiterter Boolescher Systeme (--> Kapitel 12)
– bei natürlichsprachigen Systemen: Zuordnung der Gewichtungswerte zu den Termen
• Variante 1 ("ODER")e(d) = G(t1,d) + G(t2,d) + ... + G(tn,d) für alle Dokumente d
• Variante 2 ("UND")Schritt 1: e(d) = G(t1,d) + G(t2,d) + ... + G(tn,d) für solche Dokumente, die alle Suchterme enthaltenSchritt 2: e(d) = G(t1,d) + G(t2,d) + ... + G(tn-1,d) für solcheDokumente, die alle Suchterme bis auf einen enthaltenusw.
HHU Düsseldorf, WS 2008/09 Information Retrieval 299
19. Textstatistik
Sortierung nach Gewichtung.
Ablauf
Harman, D. (1992): Ranking algorithms. – In: Frakes, W.B.; Baeza-Yates, R. (Hrsg.): Information Retrieval.Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 363-392.
HHU Düsseldorf, WS 2008/09 Information Retrieval 300
19. Textstatistik
Sortiervariante 1: „ODER“. Beispiel: Freestyle• Errechnung der Gewichtungen durch WDF und IDF; Elimination
von Stoppworten und von Hochfrequenzworten• Abbildung der Gewichtungswerte für die Dokumente auf eine
Skala von >0 bis 100• Schaffen von Transparenz für den Nutzer
– Angabe von Dokumentenanzahl und (normiertem) IDF für die Suchworte (.WHY)
– Angabe der top-gerankten Dokumente mit dem Vorkommen bzw. Nichtvorkommen der Suchworte (.WHERE)
Stock, W.G. (1998): Lexis-Nexis‘ Freestyle. Natürlichsprachige Suche – More like this! –In: Password Nr. 11, 21-28.
HHU Düsseldorf, WS 2008/09 Information Retrieval 301
19. Textstatistik
• Anfragebeispiel: "Wolfgang Clement‘s opinions for the future of Rheinbraun in Hambach and Garzweiler" (max. 50 Dokumente)
.WHY: Welche Gewichtungswerte erhalten die Suchargumente?
HHU Düsseldorf, WS 2008/09 Information Retrieval 302
19. Textstatistik
.WHERE: Wo kommen die Suchargumente vor?
HHU Düsseldorf, WS 2008/09 Information Retrieval 303
19. Textstatistik
Sortiervariante 2: „UND“– Einsatz bei diversen Suchmaschinen (u.a. AltaVista,
Alltheweb/FAST) – Variante: Abbruch nach Schritt 1
Risiko:Informations-
verlust(Boolesches
UNDzu restriktiv)