generalisiertes vektorraummodell ( generalized vector space model, gsvm)

22
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt 15.1.2014

Upload: guang

Post on 09-Jan-2016

35 views

Category:

Documents


0 download

DESCRIPTION

Generalisiertes Vektorraummodell ( Generalized Vector Space Model, GSVM). Karin Haenelt 15.1.2014. Abkürzungen. Vektorraummodell Annahme: Indexterme sind voneinander unabhängig. Formale Darstellung der Annahme der Unabhängigkeit - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes Vektorraummodell(Generalized Vector Space Model, GSVM)

Karin Haenelt

15.1.2014

Page 2: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Abkürzungen

2

n Anzahl der Dokumente in der Dokumentsammlung di Dokument in der Dokumentsammlung, 1 ≤ i ≤ n t Anzahl der Terme in einer Dokumentsammlung ki Indexterm, 1 ≤ i ≤ t

Vektor zu Indexterm i , 1 ≤ i ≤ t wi,j ∊ , Gewicht des Term-Dokumentpaares [ki,di] mini minterm i, 1 ≤ i ≤ 2t gi(mini) Funktion, die das Gewicht {0,1} des Indexterms ki im minTerm mj liefert. vi assoziierter Basis-Vektor zu minterm i, 1 ≤ i ≤ 2t

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Page 3: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

VektorraummodellAnnahme: Indexterme sind voneinander unabhängig

Formale Darstellung der Annahme der Unabhängigkeit Darstellung der Terme durch Termvektoren

(Dimensionen sind Terme) Kennzeichnung der Abhängigkeiten:

falls Term j von Term i abhängig ist andernfalls

Annahme des Vektorraummodells: kii = 1 kij = 0 ; ij

3

ik

1ijk

0ijk

)1,...,0,0,0(

...

)0,...,0,1,0(

)0,...,0,0,1(

2

1

tk

k

k

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Page 4: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

VektorraummodellAnnahme: Indexterme sind voneinander unabhängig

Definition: Sei ein Vektor zum Indexterm ki. Die Annahme der Unabhängigkeit im Vektorraummodell impliziert, dass die Menge der Vektoren linear unabhängig ist und eine Basis für den betrachteten Unterraum bildet. Die Dimension dieses Raumes entspricht der Anzahl t der Indexterme in der Dokumentsammlung.

Zumeist Annahme der paarweisen Orthogonalität zwischen Indextermen, so dass für jedes Paar und gilt:

4

ik

nkkk ,...,, 21

ik jk 0 ji kk

Baeza-Yates/Ribeiro-Neto, 1999, 41

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Page 5: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

VektorraummodellDokument-Term-Vektoren

Dokumentrepräsentationen sind Linearkombinationen von Termvektoren sei { } die Menge der Termvektoren, 1 ≤ i ≤ t sei n die Anzahl der Dokumente in einer Kollektion, 1 ≤ j ≤ n sei dj ein Dokument der Kollektion dann gibt es für jedes dj in der Kollektion eine Linearkombination

von Termvektoren, die dj repräsentiert

Beispiel Linearkombination Tupel-Schreibweise

5© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

it

43215 8341 ttttd

)8,3,4,1(5 d

Page 6: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

VektorraummodellBeispiel: Ranking-Ergebnis für Beispieldokumente

6

k1 k2 k3 sim(di,q) (Cosinus) Rang d1 2 0 1 0.5976 3 d2 1 0 0 0.2673 6 d3 0 1 3 0.9297 2 d4 2 0 0 0.2673 7 d5 1 2 4 0.9915 1 d6 1 2 0 0.5976 4 d7 0 5 0 0.5345 5 q 1 2 3

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Page 7: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes Vektorraummodell

S. K. M. Wong, Woijciech Ziarko, Patrick C. N. Wong (1985). Generalized Vector Spaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S. 18-25

Indexterme können abhängig sein

7© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Page 8: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes VektorraummodellAnnahme: Indexterme sind voneinander abhängig

Formale Darstellung der Annahme der Abhängigkeit Termvektoren

sind keine orthogonalen Vektoren bilden nicht die Basis des Vektorraumes sind aus kleineren Komponenten zusammengesetzt, die

jeweils aus einer Kollektion hergeleitet werden orthonormale Basis des Generalisierten Vektorraumes:

Modellierung der Term-Kookkurrenzen durch Minterme Einführung einer Menge paarweise orthogonaler Vektoren ,

die den Mintermen zugeordnet werden die Menge dieser paarweise orthogonalen Vektoren bildet die

orthonormaliserte Basis des Generalisierten Vektorraumes

8

ik

iv

Baeza-Yates/Ribeiro-Neto, 1999, 42© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Page 9: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes Vektorraummodell Modellierung von Term-Kookkurrenzmustern durch Minterme

9

minterm k1 k2 k3 min1 0 0 0 min2 1 0 0 min3 0 1 0 min4 1 1 0 min5 0 0 1 min6 1 0 1 min7 0 1 1 min8 1 1 1

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Dokumente, die alle Terme enthalten

Dokumente, die Term 1 und Term 2 enthalten

wenn in einer Dokumentkollektion Dokumente enthalten sind,deren Termkookkurrenz einem Minterm mini entspricht,gilt der Minterm mini als aktiv.

Page 10: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes Vektorraummodell Mintermen mini, Vektoren vi und Zuordnung der Vektoren vi zu den Mintermen mini

10

Vektor min1 min2 min3 min4 min5 min6 min7 min8 v1 1 0 0 0 0 0 0 0 v2 0 1 0 0 0 0 0 0 v3 0 0 1 0 0 0 0 0 v4 0 0 0 1 0 0 0 0 v5 0 0 0 0 1 0 0 0 v6 0 0 0 0 0 1 0 0 v7 0 0 0 0 0 0 1 0 v8 0 0 0 0 0 0 0 1

minterm k1 k2 k3 min1 0 0 0 min2 1 0 0 min3 0 1 0 min4 1 1 0 min5 0 0 1 min6 1 0 1 min7 0 1 1 min8 1 1 1

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

MintermemodellierenTermkookkurrenzmuster

Vektoren vi,orthonormale Basisdes Vektorraumes

Page 11: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

MintermDefinition

Definition: Sei (B,+,,,0,1) eine Boolesche Algebra. Seien x1, x2, …, xn n Variablen. Eine Konjunktion (Produkt) der Form y1y2 … yn mit yi = xi oder xi für 1 ≤ i ≤ n heißt Minterm in n Variablen x1, x2, … ,xn. ∎

n Variablen erzeugen 2n Minterme. Beispiel für drei Variablen Minterme erfüllen die folgenden

Bedingungen mini minj = 0 für i j

11

x1 x2 x3 min1 1 1 1 min2 1 1 0 min3 1 0 1 min4 1 0 0 min5 0 1 1 min6 0 1 0 min7 0 0 1 min8 0 0 0

12

1

iimin

n

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Minterme modellieren Termkookkurrenzmuster

Page 12: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

nkkk ,...,, 21

Generalisiertes VektorraummodellAnnahme: Indexterme sind voneinander abhängig

Definition: Sei die Menge der Indexterme einer Kollektion, sei wi,j das einem Term-Dokumentpaar [ki,dj] zugeordnete Gewicht.Wenn die Gewichte alle binär sind, können alle möglichen Term-Kookkurrenz-Muster (innerhalb der Dokumente) durch eine Menge von 2t Mintermen repräsentiert werden mit min1 = (0,0,…,0), min2 = (1,0,…,0), …, min2

t = (1,1, …, ).Sei gi(mini) eine Funktion, die das Gewicht {0,1} des Indexterms ki im Minterm minj liefert.

12

Baeza-Yates/Ribeiro-Neto, 1999, 42

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Page 13: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes VektorraummodellAnnahme: Indexterme sind voneinander abhängig

Definition: ist die folgende Menge von Vektoren

und jeder Vektor ist dem entsprechenden Minterm mini zugeordnet.

Es gilt . Die Vektoren sind paarweise othogonal. Die Menge der Vektoren bildet die orthonormale Basis des

Generalsierten Vektorraummodells

13

Baeza-Yates/Ribeiro-Neto, 1999, 42

iv

)1,...,0,0,0(

...

)0,...,0,1,0(

)0,...,0,0,1(

2

2

1

tv

v

v

iv

jivv ji allefür 0

iv

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Page 14: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes Vektorraummodell Berechnung des Termkookkurrenzfaktors cir

l

14© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

lmingdgd

jiri

rljlj

wc allefür )()(|

,,

)( jl dg

ldg jl allefür )(

Gewicht {0,1} von Term l in Dokument j= Termokkurrenz von Term l in Dokument j

Termokkurrenzmuster von Dokument j

)( rl ming

lming rl allefür )(

Gewicht {0,1} von Term l in Minterm minr

Termokkurrenzmuster von Minterm minr

lmingdg rljl allefür )()( Termokkurrenzmuster von Dokument jentspricht Minterm minr

Page 15: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes Vektorraummodell Bestimmung des Termvektors ki zu Term ki

l

15© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

1)(,

2,

1)(, ,

ri

ri

mingr ri

mingr rri

ic

vck

Baeza-Yates/Ribeiro-Neto, 1999, 43

Page 16: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes Vektorraummodell Beispiel

16

Wong, Ziarko, Wong, 1985 V: 6

minterm k1 k2 k3 min1 0 0 0 min2 1 0 0 min3 0 1 0 min4 1 1 0 min5 0 0 1 min6 1 0 1 min7 0 1 1 min8 1 1 1

k1 k2 k3 minterm d1 2 0 1 min6 d2 1 0 0 min2 d3 0 1 3 min7 d4 2 0 0 min2 d5 1 2 4 min8 d6 1 2 0 min4 d7 0 5 0 min3 q 1 2 3

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Page 17: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

k1 k2 k3 minterm d1 2 0 1 min6 d2 1 0 0 min2 d3 0 1 3 min7 d4 2 0 0 min2 d5 1 2 4 min8 d6 1 2 0 min4 d7 0 5 0 min3 q 1 2 3

Generalisiertes Vektorraummodell Beispiel – Berechnung des Termkookkurrenzfaktors ci,r

17© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

minterm k1 k2 k3 min1 0 0 0 min2 1 0 0 min3 0 1 0 min4 1 1 0 min5 0 0 1 min6 1 0 1 min7 0 1 1 min8 1 1 1

lmingdgd

jiri

rljlj

wc allefür )()(|

,,

cTerm1, Termkookkurrenzmuster2 = wTerm1,Dok2 + w1,4 = 1 + 2 = 3 cTerm1, Termkookkurrenzmuster4 = w1,6 = 1 cTerm1, Termkookkurrenzmuster6 = w1,1 = 2 cTerm1, Termkookkurrenzmuster6 = w1,5 = 1

Wong, Ziarko, Wong, 1985 V: 6

Page 18: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes Vektorraummodell Beispiel: Berechnung des Termvektors ki zu Term ki

18© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

1)(,

2,

1)(, ,

ri

ri

mingr ri

mingr rri

ic

vck2

8,12

6,12

4,12

2,1

88,166,144,122,11

cccc

vcvcvcvck

Wong, Ziarko, Wong, 1985 V: 6

2222

86421

1213

1213

vvvvk

15

1213 86421

vvvvk

15

1,0,

15

2,0,

15

1,0,

15

3,01k

Page 19: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes VektorraummodellRanking

kombiniert die Gewichte des Standard-Vektorraummodells wi,j (Term-Dokument-Gewicht) mit dem Termkorrelationsfaktor ci,r

Umrechnung der Vektoren des klassischen Vektorraummodells

undin Vektoren des Generalisierten Vektorraummodells mit Formel

Anwendung der Rankingfunktion auf diese Vektoren mit Ähnlichkeitsfunktionen wie im Standard-Vektorraummodell

19

Baeza-Yates/Ribeiro-Neto, 1999, 43

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

1)(,

2,

1)(, ,

ri

ri

mingr ri

mingr rri

ic

vck

ii jij kwd , ii qi kwq

,

Page 20: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes VektorraummodellBeispiel – Umrechnung der Dokumentvektoren

20© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

ii jij kwd ,

1)(,

2,

1)(, ,

ri

ri

mingr ri

mingr rri

ic

vck

31 115

1,0,

15

2,0,

15

1,0,

15

3,02 kd

31,321,211,11 kwkwkwd

3211 102 kkkd

Page 21: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Generalisiertes VektorraummodellBedeutung

unklar, in welchen Fällen das Generalisierte Vektorraummodell bessere Ergebnisse liefert als das Standard-Vektormodell

erheblich höherer Rechenaufwand als für das Standard-Vektorraummodell Anzahl der aktiven Minterme kann proportional zur Anzahl der

Dokumente in der Kollektion werden alle aktiven Minterme müssen bei der Berechnung der ki-Vektoren

berücksichtigt werden (maximale Anzahl = Anzahl der Dokumente in der Kollektion)

Einführung einer Formalisierung, die theoretisch interessant ist

21

Baeza-Yates/Ribeiro-Neto, 1999, 44

© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Page 22: Generalisiertes Vektorraummodell ( Generalized Vector  Space Model, GSVM)

Literatur

Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985). Generalized Vector Spaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S. 18-25

Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985V). Generalized Vector Spaces Model in Information Retrieval. Vortragsfolien SIGIR 1985. http://berlin.csie.ntnu.edu.tw/PastCourses/2003F-InformationRetrievalandExtraction/Present_2003F/2003F_Generalized%20Vector%20Space%20Model%20In%20Information%20Retrieval_%E5%BC%B5%E5%BF%97%E8%B1%AA.pdf

Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010). Modern Information Retrieval. Essex: Addison Wesley Longman Limited.

22© Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014