fortgeschrittene link analyse in xml-dom bäumen mit xlink/xpointer attributen
DESCRIPTION
Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen. Carsten Greiveldinger. Motivation. Finden spezifischer Informationen in XML-Daten Situation: Ganzes Dokument als Suchergebnis Interessant ist aber nur kleiner Teil. Produkte. Fahrzeuge. B. A. Produkt. A. - PowerPoint PPT PresentationTRANSCRIPT
Fortgeschrittene Link Analyse in XML-DOM Bäumen mit
XLink/XPointer Attributen
Carsten Greiveldinger
Motivation• Finden spezifischer Informationen in XML-Daten
• Situation:
• Ganzes Dokument als Suchergebnis
• Interessant ist aber nur kleiner Teil
Grundidee
• Segmentieren von XML-Daten
• Berücksichtigen von Text und Dokumentstrukturen
• Basis ist HITS- Algorithmus auf vereinfachter DOM-Struktur
• Erweiterung von HITS wegen innerer Baumstruktur von DOM und Berücksichtigung von Text
AA
B
B
Produkte
Fahrzeuge
Produkt
Bez
Modell
LL
XML - Linkstruktur
• Dokumentübergreifend mit XPointer Xpointer(//auto[hersteller=„BMW“and year=„1956“])
• Identifiziert ein Fragment eines Dokuments
• mit XPath auch mehrere Elemente als Ziel
• kann Text, Elemente und beides als Ziel haben
=> Art von XML-Webgraph
HITS
• Algorithmus auf Linkstruktur
• Hubs h: Knoten mit Links auf „gute Seiten“
• Authorities a: Seiten, die oft referenziert sind
• Zu Beginn alle Werte auf 1
• Pro Iteration:
• Werte etwa stabil nach endlich vielen Iterationen
h E a
a E h
Erweiterung von HITS
• Bei Text und Linkanalyse gleiche Idee: Segmentieren in Teilbäume gleichen Inhalts
• Dafür Hub- und Auth-Werte für innere Knoten (bisher Auth-Werte für Dokument)
• Segment&Smooth für zusammenhängende Teilbäume
• HITS-Iteration auf inneren Knoten
Idee des Algorithmus
• Textähnlichkeit:Cosinusmaß zwischen Text eines Teilbaums (Featurevektor) und einer Grundmenge (Basiszentroid)
• Linkstruktur:Erweiterter HITS auf XPointer zu inneren Knoten
• Resultat: „Frontier mit Microhubs“ die relevante von nicht relevanten Segmenten trenntanalog Microauthorities
Textsuche
• Zu Beginn Basismenge => Basiszentroid
• TF-Werte als Grundlage
• Cosinusmaß zwischen Basiszentroid und aktuellem Teilbaum
• Wenn Ähnlichkeit größer als Schwellenparameter => Knoten in die Frontier
Linksuche (1)
• Für jeden Knoten: Vergleiche Kosten für Aufsplitten auf Kinder und Ähnlichkeit von Vater und Kind
• Kosten für Kodieren von Hv :
• Finde Frontier F mit
(Aufsplittkosten plus Kodierungskosten
der Teilbäume) minimal
0 v v
v
KL( ;... ) log Pr (h)v F h H
v
v
log Pr (h)h H
Dv
v
u
Referenzverteilung0
Linksuche (2)
• Splitte u auf Kinder v, wenn Kosten für Splitten plus Kosten für Teilbäume zu kodieren kleiner als die Kosten der Gesamtdaten in Hu zu kodieren. Sonst u in Frontier.
• Diskretisieren der Verteilungen der HUB-Werte mit „Buckets“
0,08
0,04
0,11 0,02 0,18
0,22
0,19
v
yx
00133
1,00.....0,300,200,10
00012
1,00...0,300,200,10
00120
1,00...0,300,200,10y
x
v
Annahme: Hubwerte sind poissonverteilt
=> KL = log(μ2/μ1) +(μ1/μ2 –1)
Kodierungskostenv: 7,029x: 1,909y: 1,909
Erwartungswerte:v: 12/70x: 4/10y: 7/30
KL = 0,395 => Kosten für Hv dominieren
=> v nicht in Frontier, weiter mit x und y
Segment & Smooth
• Die must-prune Knoten markieren• Microhub-Werte akkumulieren (analog für Authorities)• Die aggregierten Werte an die/den inneren Knoten weitergeben• Die aggregierten Werte „smoothen“• Eine Iteration des Algorithmus fertig
0,10
u1u2
0,05
0,15
0,20
segment&smooth
u1u2
0,40
0,40
0,400,10
0,10
0,10
0,40
0,40
Zusammenfassung
• Finden von zusammengehörenden (Web-) Graphsegmenten
• Genauere Suchergebnisse bei kleinen wie großen Datenmengen
• Erfolge bei html
• Ergebnisse für xml stehen noch aus• Wahl des Ähnlichkeitsparameters bei Text• Feinheit der Diskretisierung bei Links• Handhabung der Linkergebnisse von Hub- und Authority-
Bewertung