vorlesungimsommersemester2020 information retrieval ·...

13
STOCHASTISCHE GRAMMATIKMODELLE Vorlesung im Sommersemester 2020 Prof. E.G. Schukat-Talamazzini Stand: 28. April 2020 Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ Teil IX Information Retrieval Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ Informationsgewinnung aus Dokumenten IE Information Extraction extrahiert relevante Information aus Dokumenten IR Information Retrieval findet relevante Dokumente aus einer Sammlung TC Topic Classification bestimmt relevante Themen eines Dokuments TM Topic Mapping strukturiert Dokumentsammlungen in Gruppen, Hierarchien, Netzwerke TA Text Abstracting erstellt sprachliche Kurzfassung eines Dokuments QA Question Answering beantwortet inhaltliche Fragen zum Dokument Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ Information Retrieval System Speicherung, Repräsentation und Zugriff auf Dokumente 1. Daten eine ungeordnete Sammlung von Dokumenten 2. Anfrage ein semantisch formuliertes Suchkriterium 3. Antwort eine Liste von Dokumenten EU 6. Rahmenprogramm Network of Excellence PS for Integrated Projects and Networks of Excellence PARTNER SEARCH ID : CZ30 DATE : 31.05.02 CALL : EOI FP6 2002 DEADLINE : 7 June 2002 Type of project : IP IST THEMATIC PRIORITY ADRESSED BY THIS EOI : 1.2.2 - Communication, computing and software technologies PROPOSAL NAME : Multimedial and hypermedial services and their implementation - MM&HP SUBJECT : Development of modern distribution systems of multimedia information and services, solutions in the access network, increasing the effectiveness of cryptographic methods, effective protection of audiovisual data diffusion in the next generation of Internet KEYWORDS : Access network, data communication, multimedia services, data speech compression, ISDN, xDSL, distribution systems, optimizing, optical networks, securing data transmission, cryptography, Internet, protection FURTHER INFO : http://www.ideal-ist.net/fp6/eoi/IP/122/CZ30.htm

Upload: others

Post on 27-Apr-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

STOCHASTISCHE GRAMMATIKMODELLE

Vorlesung im Sommersemester 2020

Prof. E.G. Schukat-Talamazzini

Stand: 28. April 2020

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Teil IX

Information Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Informationsgewinnung aus Dokumenten

IE Information Extractionextrahiert relevante Information aus Dokumenten

IR Information Retrievalfindet relevante Dokumente aus einer Sammlung

TC Topic Classificationbestimmt relevante Themen eines Dokuments

TM Topic Mappingstrukturiert Dokumentsammlungen in Gruppen,Hierarchien, Netzwerke

TA Text Abstractingerstellt sprachliche Kurzfassung eines Dokuments

QA Question Answeringbeantwortet inhaltliche Fragen zum Dokument

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Information Retrieval SystemSpeicherung, Repräsentation und Zugriff auf Dokumente

1. Daten eine ungeordnete Sammlung von Dokumenten2. Anfrage ein semantisch formuliertes Suchkriterium3. Antwort eine Liste von Dokumenten

EU 6. Rahmenprogramm Network of ExcellencePS for Integrated Projects and Networks of ExcellencePARTNER SEARCH ID : CZ30DATE : 31.05.02CALL : EOI FP6 2002DEADLINE : 7 June 2002Type of project : IPIST THEMATIC PRIORITY ADRESSED BY THIS EOI :1.2.2 - Communication, computing and software technologiesPROPOSAL NAME : Multimedial and hypermedial services and their implementation - MM&HPSUBJECT : Development of modern distribution systems of multimedia information and services,solutions in the access network, increasing the effectiveness of cryptographic methods,effective protection of audiovisual data diffusion in the next generation of InternetKEYWORDS : Access network, data communication, multimedia services, data speech compression,ISDN, xDSL, distribution systems, optimizing, optical networks, securing data transmission,cryptography, Internet, protectionFURTHER INFO : http://www.ideal-ist.net/fp6/eoi/IP/122/CZ30.htm

Page 2: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Dokumente mit/ohne Struktur

TextdatenbankenFachartikel Volltext oder ZusammenfassungLiteraturnachweise bibl. Angaben, Index, Kurzfassung, ZitatWWW-Seiten HTML/XML strukturiertFirmendokumente elektronisches Aktenregal im Intranet

Faktendatenbankene-Commerce Artikeleinträge, Bezugsquelle, Preise: B2BNaturwissenschaften verteilte Ressourcen: Genomprojekte, WerkstoffePersonaldaten e-Government, Staatssicherheit, KundenserviceInformationssysteme Krankenhaus IS, Geographische IS

Ultimative HerausforderungDer Stahl X2-CrNi-Mo18-16 verliert in 5%iger AlCl3-Lösung bei 323 K maximal0.11 mm/a und in 25%iger AlCl3-Lösung bei 293 K maximal 1.1 bis 11 mm/a(15) und ist daher in Aluminiumchloridlösungen geringer Konzentration beimäßig erhöhten Temperaturen beständig.

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Boolesche RechercheKatastrophales Information Retrieval mit prähistorischen Datenbankzugriffstechniken

Beispielanfrage„The side effects of drugs on memory or cognitive abilities, notrelated to aging “

Boolesche Anfragesitzung# `(Liste) Anfrage1 19248 DRUGS2 2412 DRUGS in TI3 2560 AGING4 19119 DRUG not AGING5 2349 #2 and #46 9305 MEMORY7 6 #5 and (DRUG near4 MEMORY)8 22091 COGNITIVE9 16 #5 and (DRUG near4 COGNITIVE)10 22 #7 or #911 2023 SIDE-EFFECTS-DRUG in DE12 0 #11 and #10

Boolesches IR:Suchbegriffe und logischeVerknüpfungen

Begriffe in Text u/o Index(TI/DE)

Problem:Anzahl der Angebotenicht steuerbar!

Beispiel: korrekte Anfrage(#12) erbringt 0 Treffer!

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Moderne IR-RechercheGewichtete Suchbegriffe — gereihtes Angebot von Trefferdokumenten

Dokumentenreihung durch RetrievalstatuswertSuchbegriff Gewicht d1 d2 d3 d4„side effect“ +1 √ √ √ √

„drugs“ +1 √ √ √ √

„memory“ +1 √ √

„cognitive ability“ +1 √ √ √

„aging“ −1 √

Retrievalstatuswert 3 2 4 3

Reihung1. d32. d13. d44. d2

RelevanzPasst d ∈ D zu q ∈ Q?

r :

{Q×D → {0, 1}D 7→ D+

q ] D−q

TermeSuchbegriffe einesfesten InventarsT = {t1, . . . , tK}

RSVGeschätzte Rele-vanzbewertungeines Dokumentsfür q ∈ Q

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Aufgabenstellung und Zielgrößen

Freitextverarbeitung

Boolesches, Fuzzy- und Vektorraum-Retrieval

Relevanzverstärkung

Latente semantische Indexierung

Binary Independence Retrieval

Google Page Rank

Zusammenfassung

Page 3: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Architektur eines IR-Systems

Dokumenten−

sammlung

Indexier−

funktion

Retrieval

metrik

Reihung

AN

DOK.

FRAGE

LISTE

Re

trie

va

lS

tatu

sw

ert

Ein Gespenst

geht um in

Europa − das

Gespenst des

Kommunismus.

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Single Representation TrickDokumente gewichtete Menge von Termen Anfragen

Vektorraumbasiertes Information Retrieval

• Dokumentensammlung D = {d1, . . . , dN}• Begriffinventar T = {t1, . . . , tK}

Urform = Wortschatz

• Indexierungsfunktion ι : D∪T ∪Q → IRK

Urform = invertierter Index

• Retrievalmetrik % : IRK × IRK → IR+0

• Retrievalstatuswert

% :

{Q×D → IR+

0(q, d) 7→ %(q,d) = %(ι(q), ι(d))

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Erfolgskriterien für IR-SystemeObjektive Gütemaße für die Algorithmenentwicklung

Optimale AbdeckungDie Antwortliste für q ∈ Q sollmöglichst alle d ∈ D+

q undkeine d ∈ D.q präsentieren

Reihendes AngebotDoch was verdammtnochmal ist die Antwortlisteeiner IRS-Anfrage?!Google: Ungefähr 1.350.000 Ergebnisse ...

Wann bricht die Benutzerin ihre Recherche ab?

• nach den ersten n Dokumenten

• nach n+ relevanten Dokumenten

• nach n− nicht relevanten Dokumenten

• nach n∗ irrelevanten Dokumenten in Folge

• nach Unterschreiten einer Mindesttrefferquote

• ... oder sobald der kleine rote Geduldsfaden reißt?

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Fehlertypen und RatenAngenommen, wir kennen n bzw. die Antwortliste ...

alle

Dokumente

relevant

ausgewählt

tp fpfntn

Absolute ZahlenNfn Fehler 1. ArtNfp Fehler 2. ArtNtp, Ntn korrekt

Globale RatenNf •/N FehlerrateNt•/N Akkuratheit

Relevanzbezogene RatenNtp/(Ntp+Nfn) TPR, recallNfp/(Nfp+Ntn) FPR, fallout

Relative Ausschöpfung

Auswahlbezogene RatenNtp/(Ntp+Nfp) precisionNfn/(Ntn+Nfn) waste

Relative Ausbeute

Page 4: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Algorithmenvergleicheine Anfrage — eine Abrissposition

Akkuratheit & FehlerrateWenig aussagefähig, da Ntp von Ntf dominiert

Ausbeute (precision)Schwindet mit n→ NMessung: Anfrage Prüfen Zählen

Ausschöpfung (recall)Wächst mit n→ NMessung: schwierig ( )

F -MaßGewichtetes harmonisches Mittel

Fβ =

p(n)+

1− βr(n)

)−1

aus Precision & Recall, aber n =??

Indirekte Messungder Ausschöpfung z.B.:

• Repräsentative ProbeD′ ⊂ D ziehen

• Anfrage erweitern undDq′ ⊃ Dq analysieren

• Bootstrap mittelsexternem IR-System

• Einzelfälle d ∈ D mitzahlreichen q ∈ Qprüfen

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Algorithmenvergleicheine Anfrage — alle Dokumente gereiht

WEITENGbesser

schlechter

?

?

10 precision

reca

ll

10 precision

reca

ll

Receiver−OperatorCurve

P/R−Ebene

1 1

Die P/R-Punkte zweier Resultatesind nur bedingt vergleichbar((IR2,≤) ist Halbordnung)

Die ROCs zweier Resultate sind nurvergleichbar, wenn sie sich nichtschneiden

Summarische Gütebewertung für eine ROC-KurveA Auswahl eines GleichgewichtspunktesB Flächeninhalt unterhalb des Kurvengraphen

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Antitonie zwischen TP-Rate und TN-Ratein Abhängigkeit von der Abrissschwelle

false rejection

correct rejection correct acceptance

TPFP TP

TP TPTP FP

TN

TN

FNFN

Ab

riss

TNTN

n

false acceptance

RSV(d)

Definition geeigneter ArbeitspunkteDie TP- und TN-Raten verlaufen antiton von 0→ 1 bzw. von 1→ 0

APTP,TN = TPR(n0) = TNR(n0) bzw. APp,r = p(n0) = r(n0)

(Für P/R gilt bis auf Oszillationen dasselbe)

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Mittlere AusbeuteArea under curve (AUC) a.k.a. Whitney-Mann-Wilcoxon-Statistik

Flächeninhalt im Intervall [0, 1]Mittelung der Precision-Werte bei äquidistanten Recall-Positionen:

AUCq =1|Dq|

·∑{

p(n) | dπ(n) ∈ Dq}

π(n) = Laufindex des n-ten Dokuments in RSV-Sortierung bzgl. Anfrage q ∈ Q

BemerkungDie Ausbeute p(n) fällt nicht unbedingt monoton mit der Position n.

ersetze p(n) beim Mitteln durch das optimistische maxm≥n p(m)

Performanzmittel über viele Anfragen q ∈ Q hinwegmacro-average AUC = 1

M ·∑

m AUCqm gleichgewichtete Anfragenmicro-average AUC (kumulierte Antwortlisten) gleichgewichtete Angebote

Page 5: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Beispielberechnung der mittleren AusbeuteEine Anfrage, drei IR-Verfahren, zehn RSV-beste Dokumente

Position Präzision1–5 6–10 r ≤ 10 r ≤ 5 average interpol

⊕ ⊕ ⊕ ⊕ ⊕ 0.5 1.0 1.0 1.0 ⊕ ⊕ ⊕ ⊕ ⊕ 0.5 0.0 0.3544 0.5 ⊕ ⊕ ⊕ ⊕ ⊕ 0.5 0.4 0.5725 0.644

Die Mittelung erfolgt über alle Trefferpositionen,weil dort die Recalls j/|Dq | angenommen werden:

AUC1 =15·(11

+22

+33

+44

+55

)= 1.0

AUC2 =15·(16

+27

+38

+49

+510

)= 0.3544

AUC3 =15·(12

+23

+36

+47

+58

)= 0.5726

AUC(IP)3 =

15·(23

+23

+58

+58

+58

)= 0.6417

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Aufgabenstellung und Zielgrößen

Freitextverarbeitung

Boolesches, Fuzzy- und Vektorraum-Retrieval

Relevanzverstärkung

Latente semantische Indexierung

Binary Independence Retrieval

Google Page Rank

Zusammenfassung

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

DokumentvorverarbeitungVom Freitext zum Termindex

Lexikalisches Filter (Negativcharakterisierung)

Entfernung von Metainformation (XML/HTML/Grafik)

Bedeutungsrelevanz (Stoppwortliste)

Tilgung von Funktionswörtern: PRON, PREP, CONJ, ...

GrundformreduktionMorphologische Schälung (Prä/Postfixliste)Lemmatisierung (Stammbildung) (Porter/Lovins Stemmer)Dekomposition (orthograf. Regeln, Stammverzeichnis)

TermbildungDesambiguierung

{Homographen („Tenor“, „übersetzen“)Polyseme („Bank“, „achten“)

}Terminologiewörterbücher (KWOC/KWIC) · Begriffsnetze (KL-ONE/OWL)

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Englische Stoppwortlistea also an and as at be butby can could do for fromgo have he her here hishow i if in into it its my ofon or our say she that thetheir there therefore theythis these those through tountil we what when wherewhich while who withwould you yourEin kleiner Teil des Wortschatzesist verantwortlich für etwa30–50% aller Wortvorkommeneines Textes, ohne wesentlich zuseiner inhaltlichenCharakterisierung beizutragen.

Wortformen vs. Terme• Anfrage q:

Mich interessiert, ob ein Befehleckige oder geschwungeneKlammern haben kann.

• Dokument d :Manche Befehle habenParameter, die zwischengeschwungenen Klammernangegeben werden müssen.Manche Befehle habenParameter, die weggelassen oderzwischen eckigen Klammernangegeben werden können.Manche Befehle haben Varianten,die durch das Hinzufügen einesSterns an den Befehlsnamenunterschieden werden.

Page 6: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Aufgabenstellung und Zielgrößen

Freitextverarbeitung

Boolesches, Fuzzy- und Vektorraum-Retrieval

Relevanzverstärkung

Latente semantische Indexierung

Binary Independence Retrieval

Google Page Rank

Zusammenfassung

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Boolesches Retrieval

Boolesche Indexierung

ι :

{D → {0, 1}K

d 7→ xd , xdkdef=

{1 #d (tk) 6= 00 #d (tk) = 0

Boolesches Retrievalgewicht%(tk , d) = xdk

%(q1∧q2, d) = min {%(q1, d), %(q2, d)}%(q1∨q2, d) = max {%(q1, d), %(q2, d)}%(¬q1, d) = 1− %(q1, d)

PROAussonderbarkeitbeliebiger Teilmengenvon D

CONTRAbinäre Relevanzbewertungkeine Reihungkeine explizite Anzahlkontrollekeine Gewichtung von Anfragetermenumständliche Anfrageformulierunggeringe IR-Qualität

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Fuzzy RetrievalAbgestufte Indexierung & Fuzzyset-Verknüpfungen

Häufigkeitsindikatoren

• Termhäufigkeit TFnk = #dn(tk)

• Dokumenthäufigkeit DFk = |{d ∈ D | #d (tk) 6= 0}|• Gesamthäufigkeit CFk =

∑d∈D#d (tk)

Indexvektordefinitionen (für Dokument d = dn)

• TFR-Gewicht xk = TFnk• IDF-Gewicht xk = TFnk · log2

NDFk

• LTC-Gewicht xk ∝ log2(TFnk + 1) · log2N

DFk

• Entropie-Gewichtxk = log2(TFnk + 1) ·

{1 + 1

log2 N·∑N

n=1TFnkCFk· log2

TFnkCFk

}

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Inverse Dokumenthäufigkeitbewertet den Informationsgehalteines Terms in Bezug auf denDokumenteninhalt

CFk DFk

„insurance“ 10 440 3 997„try“ 10 422 8 760

Fuzzy-Operationenim Detail fragwürdig:

Dokumente mit ι(d1) = (0.4, 0.4)und ι(d2) = (0.3, 0.9) liefern fürAnfrage q = t1∧t2 die RSV%(q, d1) = 0.4 bzw. %(q, d2) = 0.3— und es gewinnt leider q1

Ausbeute (Makrolevel) einiger LiteraturdatenbankenMEDLARS CISI INSPEC CACM

|D| 1033 1460 12684 3204|Q| 30 35 77 52Boolesches IR 0.2065 0.1118 0.1159 0.1789Fuzzy IR 0.2368 0.1000 0.1314 0.1551Vektorraummodell 0.5473 0.1569 0.2325 0.3027

(mittlere Ausbeute für r ∈{

1/4,1/2,

3/4})

US/NLM Medical Literature Analysis and Retrieval SystemThomson Reuters Institute for Scientific InformationIndexing Database of the Institution of Engineering and TechnologyCommunications of the Association for Computing Machinery

Page 7: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

VektorraummodellGemeinsame Repräsentation für Dokumente d ∈ D und Anfragen q ∈ Q

SMART-Modell (Salton, 1971)

• Dokumentindexierung ιk(d) = TFnk · log2N

DFk

• Anfrageindexierung ι(q) =∑m

i=1 λki · e(ki ) , λki ∈ {±1}• Retrievalstatuswert

%(q, d) = %(ι(q), ι(d)) = cos(q,d) = q>d‖q‖·‖d‖

Ausbeute (Makrolevel) von Beispielanfragenwie „side effects of drugs on memory and cognitive abilities, not aging “

CACM CISI CRAN INSPEC MEDBoolesche Indexierung 0.185 0.103 0.241 0.094 0.413SMART-Indexierung 0.363 0.219 0.384 0.263 0.562

(mittlere Ausbeute für r ∈{

1/4,1/2,

3/4})

Cranfield-Index aus dem Bereich der Aerodynamik

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Aufgabenstellung und Zielgrößen

Freitextverarbeitung

Boolesches, Fuzzy- und Vektorraum-Retrieval

Relevanzverstärkung

Latente semantische Indexierung

Binary Independence Retrieval

Google Page Rank

Zusammenfassung

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

RelevanzverstärkungRSV-starke Antworten enthalten wertvolle neue Suchmuster (Rocchio 1966)

Unüberwachte Verstärkung1 Anfrage q ∈ Q als ι(q) indexieren2 Dokumente gemäß RSV anordnen (Permutation π)3 Die top-M Dokumente zur Anfrageverschärfung nutzen:

ι(q) = ι(q) + CM ·M∑i=1

ι(dπ(i))

(RFB lebt vom Single Representation Trick!)

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

RelevanzverstärkungBenutzerfeedback = Anklicken relevanter Dokumente

Überwachte VerstärkungDie top-M Dokumente der Antwortliste Dq werden geklickt (DM+

q ) odernicht geklickt (DM−

q )

ι(q) = ι(q) + α · 1|DM+

q |

∑d∈DM+

q

ι(d)

︸ ︷︷ ︸µ+(q,M)

−β · 1|DM−

q |

∑d∈DM−

q

ι(d)

︸ ︷︷ ︸µ−(q,M)

Ausbeute (Makrolevel)CACM CISI CRAN INSPEC MED

ohne RFB 0.1459 0.1184 0.1156 0.1368 0.3346mit RFB 0.2552 0.1404 0.2955 0.1821 0.5630mit RFB* 0.2491 0.1623 0.2534 0.1861 0.5279

(mittlere Ausbeute für r ∈{

1/4,1/2,

3/4})

RFB⊕ überwacht

RFB* überwacht⊕ iteriert

Page 8: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Aufgabenstellung und Zielgrößen

Freitextverarbeitung

Boolesches, Fuzzy- und Vektorraum-Retrieval

Relevanzverstärkung

Latente semantische Indexierung

Binary Independence Retrieval

Google Page Rank

Zusammenfassung

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Dimensionsreduktion im Indexraum IR|T |

MerkmalselektionAuswahl „interessanter“ Terme tk nach den Kriterien• Signifikante Dokumenttrefferquote

DFk = #{dn ∈ D | TFnk 6= 0}

• Signifikanter Informationsgewinn (bezüglich dn ∈ D)

∆(tk) = H(PN)− P(tk) · H(PN|tk )− P(tk) · H(PN|tk )

• Signifikanter Einfluss auf die Relevanz

χ2-Test für die KontingenztabelleP(q, tk) P(q, tk)

P(q, tk) P(q, tk)

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Dimensionsreduktion im Indexraum IR|T |

MerkmaltransformationLineare Abbildung

φ :

{IRK → IRM

x 7→ U> · x mit Dimensionen M � K

von Termkoordinaten in semantische Koordinaten

Propagieren von Bedeutungsähnlichkeitenq „user“ „interface“

t1 t2 t3 t4d1 „user“ „interface“ „HCI“ „interaction“d2 „HCI“ „interaction“

IDEE:Verborgene semantische Achsen hinter den repräsentierenden Termen

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

LSI — Latente Semantische IndexierungSingulärwertanalyse der TF-Matrix (Deerwester 1990)

U A

VT

S Singulärwertzerlegung (SVD)jeder beliebigen Matrix:

A = U ·S ·V> mit

U>U = ES diagonalV>V = E

Löse EigenwertaufgabeNotwendige Bedingungen:

A · A> = U · S2 ·U>

A> · A = V · S2 · V>

Geordnete Singulärwerteσ1, . . . , σr , 0, . . . , 0 undr = ran(A)

Rangreduzierte SVDFür M < min {N,K} suche‖·‖2-minimale Darstellung

A ≈ A = U · S · V>

mit

U ∈ IRK×M

S ∈ IRM×M

V ∈ IRN×M

Page 9: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Beispiel — Dokumentenrepräsentation

Matrix A: d1 d2 d3 d4 d5 d6„cosmonaut“ 1 0 1 0 0 0„astronaut“ 0 1 0 0 0 0„moon“ 1 1 0 0 0 0„car“ 1 0 0 1 1 0„truck“ 0 0 0 1 0 1

Matrix U : x1 x2 x3 x4 x5„cosmonaut“ −0.44 −0.30 0.57 0.58 0.25„astronaut“ −0.13 −0.33 −0.59 0.00 0.73„moon“ −0.48 −0.51 −0.37 0.00 −0.61„car“ −0.70 0.35 0.15 −0.58 0.16„truck“ −0.26 0.65 −0.41 0.58 −0.09

Matrix B: d1 d2 d3 d4 d5 d6x1 −1.62 −0.60 −0.04 −0.97 −0.71 −0.26x2 −0.46 −0.84 −0.30 1.00 0.35 0.65

ZerlegungEs istA = U · B mitB = S · V>

DokumenteSpalten von Aoder BLinearkombinationender U-Spalten

ProjektionWegenB = U> · A gilt

b(n)

= U> · a(n)

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Beispiel — Termrepräsentation

Matrix A: d1 d2 d3 d4 d5 d6„cosmonaut“ 1 0 1 0 0 0„astronaut“ 0 1 0 0 0 0„moon“ 1 1 0 0 0 0„car“ 1 0 0 1 1 0„truck“ 0 0 0 1 0 1

V>: d1 d2 d3 d4 d5 d6x1 −0.75 −0.28 −0.20 −0.45 −0.33 −0.12x2 −0.29 −0.53 −0.19 0.63 0.22 0.41x3 0.28 −0.75 0.45 −0.20 0.12 −0.33x4 0.00 0.00 0.58 0.00 −0.58 0.58x5 −0.53 0.29 0.63 0.19 0.41 −0.22

Matrix C : t1 t2 t3 t4 t5x1 −0.95 −0.28 −1.03 −1.52 −0.57x2 −0.47 −0.53 −0.81 0.56 1.03x3 0.73 −0.75 −0.47 0.20 −0.53

ZerlegungEs istA> = V · Cmit C = S ·U>

TermeSpalten von A>

oder CLinearkombinationender V -Spalten

ProjektionWegenC = V> · A>gilt

c (k) = V> · a(k)

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Beispiel — Korrelation und SingulärwerteDiagonalmatrix S : x1 x2 x3 x4 x5x1 2.16 0 0 0 0x2 0 1.59 0 0 0x3 0 0 1.28 0 0x4 0 0 0 1.00 0x5 0 0 0 0 0.39

Corr[A] d1 d2 d3 d4 d5 d6d1 1.00d2 −0.17 1.00d3 0.41 −0.41 1.00d4 −0.17 −0.67 −0.41 1.00d5 0.41 −0.41 −0.25 0.61 1.00d6 −0.61 −0.41 −0.25 0.61 −0.25 1.00

Matrix Corr[A>] t1 t2 t3 t4 t5t1 „astronaut“ 1.00t2 „cosmonaut“ −0.32 1.00t3 „moon“ 0.25 0.63 1.00t4 „car“ 0.00 −0.45 0.00 1.00t5 „truck“ −0.50 −0.32 −0.50 0.00 1.00

SingulärwerteabsteigendgeordnetGewichte fürdie xm-Achsen

DokumenteA>A =VS2V> =B>B

TermeAA> =US2U> =C>C

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Latente AchsenTermgebundene versus bedeutungsgebundene Koordinaten

Die LSI-Transformation katapultiert die Dokumente vom IRK in einenRaum IRM , in dem nicht nur identische, sondern auch synonymeTerm(kombinationen) Ähnlichkeit zu stiften in der Lage sind.

dd

d

d

d

64

5

1

2

3d

x

1

2

x

(x1, x2)-Ebenemit cos(·, ·)-Distanz

Gruppe {d1, d2, d3}:raumfahrtorientierteDokumente

Gruppe {d4, d5, d6}:fahrzeugorientierte Dokumente

{d5, d6} termdisjunkt, abernichtsdestoweniger benachbart:wegen „car“ und „truck“ via d4 !

Page 10: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Aufgabenstellung und Zielgrößen

Freitextverarbeitung

Boolesches, Fuzzy- und Vektorraum-Retrieval

Relevanzverstärkung

Latente semantische Indexierung

Binary Independence Retrieval

Google Page Rank

Zusammenfassung

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Probability Ranking Principlevan Rijsbergen (1979)

„Ranking docs in order of decreasing probabilities is optimal.“IR = inkrementelle (gierige) Suchenach dem jeweils nächst wertvollen Dokument unter den Annahmen:

1. Dokumente sind statistisch unabhängig voneinander

2. Gesamtoptimum = Folge der Einzeloptima

3. Relevanzwahrscheinlichkeit ist verzerrungsfrei zu schätzen

RelevanzwahrscheinlichkeitRepräsentation: binäre Indexierung

P(R | q, d) ≈ P(R | ι(q)︸︷︷︸yq

, ι(d)︸︷︷︸xd

)

Zufallsvariable R mit:R = 1 d ist relevant für q

Binary Independencea Binärvektordarstellungb bed. Unabhängigkeit der{x1, . . . , xK} | r , qc Sparck-Jones-Hypothese

P(xk |R, yk) = P(xk |R, yk)falls yk = 0 war

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

BIR — Binary Independece Retrieval

odds(R | q, d) =P(R | q, d)

P(R | q, d)

=P(R|q) · P(d | R, q) / P(d |q)

P(R|q) · P(d | R, q) / P(d |q)

= odds(R|q) ·K∏

k=1

P(xk | R, q)

P(xk | R, q)

= odds(R|q) ·∏xk=1

ak

bk·∏xk=0

1− ak

1− bk

= odds(R|q) ·∏xkyk

ak

bk·∏xk yk

ak

bk·∏xkyk

1− ak

1− bk·∏xk yk

1− ak

1− bk

= odds(R|q) ·∏xkyk

ak

bk·∏xkyk

1− ak

1− bk∝∏xkyk

(1− bk) · ak

(1− ak) · bk

mit den Abkürzungen ak = ak(q) = P(xk = 1 | R, q) und bk = P(xk = 1 | R, q)

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Lernen der BIR-Parameter

Beweis.Chancenfunktion

Bayesformel für P(·|q)

Kürzen! Kürzen!

odds(R|q) ist d-unabh.

Fallunterscheidungxk ∈ {1, 0}

Fallunterscheidungyk ∈ {1, 0}

Spark-Jones:yk = 0 ak/bk = 1

Skalierung∏yk

1− ak

1− bk

Miniprodukt über{k | xk = 1 = yk}

Generatives ModellAuszählen eines (q, d , r)-Korpusak , bk = relative Häufigkeiten (MLS)

Diskriminatives ModellConditional Max-Ent (CME) Retrievallog P(R | q, d) = log odds(q,d)

1+odds(q,d)

= c0 +∑k

φk(x , y) · log (1−bk)·ak(1−ak)·bk

Iterative Skalierung

Vorteile des CME-RetrievalsElimination „windiger“ Annahmen:⊕ naive Bayes (bedingte Unabh.) xi ∼ xj⊕ Sparck-Jones (Neutralität) ak 6= bk⊕ Binärindex (vs. Freq/Proporz) xk ∈ IN

Page 11: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

TermverteilungsmodelleBinäre Indexierung Häufigkeitsindexierung

GEGEBEN:Sammlung D, Anfrage q,Term tk

GESUCHT:P(Xk = ξ | R, q) bzw.P(Xk = ξ | R, q)

? „Wie groß ist die Wahrscheinlichkeit für ein ξ-maligesAuftreten von tk in den Dokumenten aus D+

q bzw. D−q “ ?

BinomialverteilungDokument mit T Positionen; Term tk i.i.d. mit pk gezogen:

B(ξ | T , pk) =

(Tξ

)· pξk · (1− pk)T−ξ

Parameter: T · pk = E[Xk |T ] pk = CFk/∑

j CFj

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Poisson-TermverteilungsmodelleDas Auftreten eines Terms ist ein seltenes Ereignis

PoissonverteilungGrenzverteilung von B(T , pk) für T →∞ mit konstantemErwartungswert T · pk ≡: λk für die „Gesamttrefferzahl“

P(ξ | λk) = e−λk ·λξkξ!

Parameter: λk = E[Xk ] λk = CFk/N

Poissonmischung (2 Komponenten){privilegierteperiphere

}Dokumente Begriff tk spielt

{tonangebendeuntergeordnete

}Rolle

P2(ξ | π, λk,1, λk,2) = π · P(ξ | λk,1) + (1− π) · P(ξ | λk,2)

Parameter:EM-Algorithmus (theoretisch) — entscheidungsüberwacht (praktisch)

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Binomial- und Poissonverteilungen

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0 2 4 6 8 10 12

Wa

hrs

ch

ein

lich

ke

it

Anzahl Termvorkommen im Dokument

Binom (100, 0.064)Binom (100, 0.025)Binom (100, 0.008)

MixturePoisson (1/2,1,4)Poisson (6.4)

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Warum Poisson-Mixturen?Systematisches Überschätzen der Häufigkeit von Inhaltswörtern

Term tk DFk CFk λk DFk Faktor„follows“ 21744 23533 0.2968 20363 0.94„transformed“ 807 840 0.0106 835 1.03„soviet“ 8204 35337 0.4457 28515 3.48„students“ 4953 15925 0.2008 14425 2.91„ james“ 9191 11175 0.1409 10421 1.13„freshly“ 395 611 0.0077 609 1.54

Poissonrekonstruktionder Dokumenthäufigkeit

DFk = N ·(1− P(0|λk)

)aus der Nichttrefferwahrscheinlichkeit

Deftig überschätzt!Inhaltswörter wie „soviet“ oder„students“ verfügen überStreuvorkommen (1×/Dok)wie auch über epidemischeHäufungen.

Page 12: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Aufgabenstellung und Zielgrößen

Freitextverarbeitung

Boolesches, Fuzzy- und Vektorraum-Retrieval

Relevanzverstärkung

Latente semantische Indexierung

Binary Independence Retrieval

Google Page Rank

Zusammenfassung

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Google Page RankDie Qualität einer Webseite hat zwei Gesichter

Qualität a posteriori„Wie gut passt die Seite zumeiner Anfrage?“

Qualität a priori„Wie wertvoll erweist sich ihrInformationsgehalt?“

Ist das ein Problem für Suchmaschinen?JA — die Nutzer manövrieren im Fadenkreuz geschäftlicher Interessen!

Volkssport SuchmaschinenoptimierungWebseiten machen das Beste aus ihrem Typ (Botox für die Termliste)Das erste/letzte Google-Angebot: Beitragszahler & NSFW

Robuste(!) Kriterien für a priori Qualität?In/direkte Quantität (Textumfang und fan-out) . . . . PrimärmanipulationPopularität (Aufrufe/Zeiteinheit) . . . . . . . . . . . . . . . . . . . . . . . . . KlickroboterProminenz (fan-in) . . . . . . . . . . . . . . . . . . . . . Zitatkartelle, WebseitenfarmenSeriosität („seriöser“ fan-in) . . . . . . . . . . . . . . selbstreferenzielle Definition!

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Random Surfer Modell„Gute Webseiten werden von guten Webseiten erwähnt.“

Relevanz und QualitätSeitenbewertung = Anfragepassung + Seriositätsmaß

scoreGoogleq (doc) = Relq(doc) + rank(doc)

Worldwide Web als gerichteter GraphAdjazenzmatrix A ∈ {1, 0}T×T mit ast = 1 doci 7→ docj

IrrfahrtmodellDer „Random Surfer“ besucht Webseiten mit W’keit pj und der Politik

pj = (1− β) · 1T

+ β ·∑

i

pi · aij · 1/∑k aik

Die Gleichgewichtsverteilung gehorcht einer Eigenwertaufgabe (λ = 1):

B · p =

((1− β) · 1

T+ β · A

)·p = p = λ · p , aij

def= aij

/ ∑k

aik

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Aufgabenstellung und Zielgrößen

Freitextverarbeitung

Boolesches, Fuzzy- und Vektorraum-Retrieval

Relevanzverstärkung

Latente semantische Indexierung

Binary Independence Retrieval

Google Page Rank

Zusammenfassung

Page 13: VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Zusammenfassung (9)

1. Information Retrieval sucht die semantisch anfragerelevantenDokumente einer Sammlung.

2. Das boolesche Retrieval der DB-Technik verfehlt das ergonomische Zielmangels Reihung der Angebote nach Anfragepassung (RSV).

3. Objektive Gütekriterien für IR sind die Precision/Recall-Kurve (ROC)und summarische Merkmale wie AUC.

4. Moderne Vektorraum-Architekturen überführen Anfragen und Dokumentenach Freitextverarbeitung in eine gemeinsame Repräsentation (Index,z.B. IDF) und ermitteln den RSV aus der Vektorraumdistanz.

5. Von lexikalischem zu semantischem IR gelangen wir mittelsRelevanzverstärkung u/o latenter Indexierung (LSI).

6. Das Binary Independence IR folgt der naiven Bayesentscheidungsregel;deren Annahmen und Einschränkungen lassen sich durch expliziteTermverteilungsmodelle und diskriminative Lerntechniken (CME)abmildern.

7. Nutzerzufriedenheit hängt neben dem RSV auch an der a priori Qualitäteines Dokuments, messbar durch Kriterien wie den Pagerank.