fortgeschrittene link analyse in xml-dom bäumen mit xlink/xpointer attributen

12
Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen Carsten Greiveldinger

Upload: willow

Post on 06-Jan-2016

32 views

Category:

Documents


2 download

DESCRIPTION

Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen. Carsten Greiveldinger. Motivation. Finden spezifischer Informationen in XML-Daten Situation: Ganzes Dokument als Suchergebnis Interessant ist aber nur kleiner Teil. Produkte. Fahrzeuge. B. A. Produkt. A. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Fortgeschrittene Link Analyse in XML-DOM Bäumen mit

XLink/XPointer Attributen

Carsten Greiveldinger

Page 2: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Motivation• Finden spezifischer Informationen in XML-Daten

• Situation:

• Ganzes Dokument als Suchergebnis

• Interessant ist aber nur kleiner Teil

Page 3: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Grundidee

• Segmentieren von XML-Daten

• Berücksichtigen von Text und Dokumentstrukturen

• Basis ist HITS- Algorithmus auf vereinfachter DOM-Struktur

• Erweiterung von HITS wegen innerer Baumstruktur von DOM und Berücksichtigung von Text

AA

B

B

Produkte

Fahrzeuge

Produkt

Bez

Modell

LL

Page 4: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

XML - Linkstruktur

• Dokumentübergreifend mit XPointer Xpointer(//auto[hersteller=„BMW“and year=„1956“])

• Identifiziert ein Fragment eines Dokuments

• mit XPath auch mehrere Elemente als Ziel

• kann Text, Elemente und beides als Ziel haben

=> Art von XML-Webgraph

Page 5: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

HITS

• Algorithmus auf Linkstruktur

• Hubs h: Knoten mit Links auf „gute Seiten“

• Authorities a: Seiten, die oft referenziert sind

• Zu Beginn alle Werte auf 1

• Pro Iteration:

• Werte etwa stabil nach endlich vielen Iterationen

h E a

a E h

Page 6: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Erweiterung von HITS

• Bei Text und Linkanalyse gleiche Idee: Segmentieren in Teilbäume gleichen Inhalts

• Dafür Hub- und Auth-Werte für innere Knoten (bisher Auth-Werte für Dokument)

• Segment&Smooth für zusammenhängende Teilbäume

• HITS-Iteration auf inneren Knoten

Page 7: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Idee des Algorithmus

• Textähnlichkeit:Cosinusmaß zwischen Text eines Teilbaums (Featurevektor) und einer Grundmenge (Basiszentroid)

• Linkstruktur:Erweiterter HITS auf XPointer zu inneren Knoten

• Resultat: „Frontier mit Microhubs“ die relevante von nicht relevanten Segmenten trenntanalog Microauthorities

Page 8: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Textsuche

• Zu Beginn Basismenge => Basiszentroid

• TF-Werte als Grundlage

• Cosinusmaß zwischen Basiszentroid und aktuellem Teilbaum

• Wenn Ähnlichkeit größer als Schwellenparameter => Knoten in die Frontier

Page 9: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Linksuche (1)

• Für jeden Knoten: Vergleiche Kosten für Aufsplitten auf Kinder und Ähnlichkeit von Vater und Kind

• Kosten für Kodieren von Hv :

• Finde Frontier F mit

(Aufsplittkosten plus Kodierungskosten

der Teilbäume) minimal

0 v v

v

KL( ;... ) log Pr (h)v F h H

v

v

log Pr (h)h H

Dv

v

u

Referenzverteilung0

Page 10: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Linksuche (2)

• Splitte u auf Kinder v, wenn Kosten für Splitten plus Kosten für Teilbäume zu kodieren kleiner als die Kosten der Gesamtdaten in Hu zu kodieren. Sonst u in Frontier.

• Diskretisieren der Verteilungen der HUB-Werte mit „Buckets“

0,08

0,04

0,11 0,02 0,18

0,22

0,19

v

yx

00133

1,00.....0,300,200,10

00012

1,00...0,300,200,10

00120

1,00...0,300,200,10y

x

v

Annahme: Hubwerte sind poissonverteilt

=> KL = log(μ2/μ1) +(μ1/μ2 –1)

Kodierungskostenv: 7,029x: 1,909y: 1,909

Erwartungswerte:v: 12/70x: 4/10y: 7/30

KL = 0,395 => Kosten für Hv dominieren

=> v nicht in Frontier, weiter mit x und y

Page 11: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Segment & Smooth

• Die must-prune Knoten markieren• Microhub-Werte akkumulieren (analog für Authorities)• Die aggregierten Werte an die/den inneren Knoten weitergeben• Die aggregierten Werte „smoothen“• Eine Iteration des Algorithmus fertig

0,10

u1u2

0,05

0,15

0,20

segment&smooth

u1u2

0,40

0,40

0,400,10

0,10

0,10

0,40

0,40

Page 12: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Zusammenfassung

• Finden von zusammengehörenden (Web-) Graphsegmenten

• Genauere Suchergebnisse bei kleinen wie großen Datenmengen

• Erfolge bei html

• Ergebnisse für xml stehen noch aus• Wahl des Ähnlichkeitsparameters bei Text• Feinheit der Diskretisierung bei Links• Handhabung der Linkergebnisse von Hub- und Authority-

Bewertung