fortgeschrittene link analyse in xml-dom bäumen mit xlink/xpointer attributen

Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen Carsten Greiveldinger

Upload: willow

Post on 06-Jan-2016

32 views

Category:

Documents

2 download

Report

Download

Embed Size (px):

DESCRIPTION

Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen. Carsten Greiveldinger. Motivation. Finden spezifischer Informationen in XML-Daten Situation: Ganzes Dokument als Suchergebnis Interessant ist aber nur kleiner Teil. Produkte. Fahrzeuge. B. A. Produkt. A. - PowerPoint PPT Presentation

TRANSCRIPT

Fortgeschrittene Link Analyse in XML-DOM Bäumen mit

XLink/XPointer Attributen

Carsten Greiveldinger

Motivation• Finden spezifischer Informationen in XML-Daten

• Situation:

• Ganzes Dokument als Suchergebnis

• Interessant ist aber nur kleiner Teil

Page 3: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Grundidee

• Segmentieren von XML-Daten

• Berücksichtigen von Text und Dokumentstrukturen

• Basis ist HITS- Algorithmus auf vereinfachter DOM-Struktur

• Erweiterung von HITS wegen innerer Baumstruktur von DOM und Berücksichtigung von Text

Produkte

Fahrzeuge

Produkt

Bez

Modell

Page 4: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

XML - Linkstruktur

• Dokumentübergreifend mit XPointer Xpointer(//auto[hersteller=„BMW“and year=„1956“])

• Identifiziert ein Fragment eines Dokuments

• mit XPath auch mehrere Elemente als Ziel

• kann Text, Elemente und beides als Ziel haben

=> Art von XML-Webgraph

Page 5: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

HITS

• Algorithmus auf Linkstruktur

• Hubs h: Knoten mit Links auf „gute Seiten“

• Authorities a: Seiten, die oft referenziert sind

• Zu Beginn alle Werte auf 1

• Pro Iteration:

• Werte etwa stabil nach endlich vielen Iterationen

h E a

a E h

Page 6: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Erweiterung von HITS

• Bei Text und Linkanalyse gleiche Idee: Segmentieren in Teilbäume gleichen Inhalts

• Dafür Hub- und Auth-Werte für innere Knoten (bisher Auth-Werte für Dokument)

• Segment&Smooth für zusammenhängende Teilbäume

• HITS-Iteration auf inneren Knoten

Page 7: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Idee des Algorithmus

• Textähnlichkeit:Cosinusmaß zwischen Text eines Teilbaums (Featurevektor) und einer Grundmenge (Basiszentroid)

• Linkstruktur:Erweiterter HITS auf XPointer zu inneren Knoten

• Resultat: „Frontier mit Microhubs“ die relevante von nicht relevanten Segmenten trenntanalog Microauthorities

Page 8: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Textsuche

• Zu Beginn Basismenge => Basiszentroid

• TF-Werte als Grundlage

• Cosinusmaß zwischen Basiszentroid und aktuellem Teilbaum

• Wenn Ähnlichkeit größer als Schwellenparameter => Knoten in die Frontier

Page 9: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Linksuche (1)

• Für jeden Knoten: Vergleiche Kosten für Aufsplitten auf Kinder und Ähnlichkeit von Vater und Kind

• Kosten für Kodieren von Hv :

• Finde Frontier F mit

(Aufsplittkosten plus Kodierungskosten

der Teilbäume) minimal

0 v v

KL( ;... ) log Pr (h)v F h H

log Pr (h)h H

Referenzverteilung0

Page 10: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Linksuche (2)

• Splitte u auf Kinder v, wenn Kosten für Splitten plus Kosten für Teilbäume zu kodieren kleiner als die Kosten der Gesamtdaten in Hu zu kodieren. Sonst u in Frontier.

• Diskretisieren der Verteilungen der HUB-Werte mit „Buckets“

0,08

0,04

0,11 0,02 0,18

0,22

0,19

00133

1,00.....0,300,200,10

00012

1,00...0,300,200,10

00120

1,00...0,300,200,10y

Annahme: Hubwerte sind poissonverteilt

=> KL = log(μ2/μ1) +(μ1/μ2 –1)

Kodierungskostenv: 7,029x: 1,909y: 1,909

Erwartungswerte:v: 12/70x: 4/10y: 7/30

KL = 0,395 => Kosten für Hv dominieren

=> v nicht in Frontier, weiter mit x und y

Page 11: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Segment & Smooth

• Die must-prune Knoten markieren• Microhub-Werte akkumulieren (analog für Authorities)• Die aggregierten Werte an die/den inneren Knoten weitergeben• Die aggregierten Werte „smoothen“• Eine Iteration des Algorithmus fertig

0,10

u1u2

0,05

0,15

0,20

segment&smooth

u1u2

0,40

0,400,10

0,10

0,40

Page 12: Fortgeschrittene Link Analyse in XML-DOM Bäumen mit XLink/XPointer Attributen

Zusammenfassung

• Finden von zusammengehörenden (Web-) Graphsegmenten

• Genauere Suchergebnisse bei kleinen wie großen Datenmengen

• Erfolge bei html

• Ergebnisse für xml stehen noch aus• Wahl des Ähnlichkeitsparameters bei Text• Feinheit der Diskretisierung bei Links• Handhabung der Linkergebnisse von Hub- und Authority-

Bewertung

제 10 장 Other Technologies (XBase, XPointer, XInclude, XHTML, XForms) 인공지능연구실 석사 3 학기 홍 정 연

Informatiestromen in het waterbeheer - Universiteit Twenteessay.utwente.nl/59311/1/scriptie_S_van_Lienden.pdf · informatiestructuur zijn de volgende attributen gebruikt: hiërarchie

Design, das bewegt. Bewegung, die sitzt. · für die Markenidentität Wagner, flankiert von den zentralen Attributen „Einzigartigkeit“, „Dynamik“ und „Schönheit“, war

Aufgabe: Erstellen Sie die Klasse Punkt, (mit den entsprechenden Attributen und Methoden), die einen Punkt (Pixel) in einer grafischen zweidimensionalen

Aplicaciones Webquegrande.org/apuntes/ETIS/OPT/IU/teoria/08-09/xhtml___css.pdf · XML, XPath, XSLT, XLink, XSD, ... MathML, SMIL, SVG... Estilo: separar contentido (HTML) de presentación

DAGKRANT 8 NOVEMBER MET GRONDPLAN€¦ · slides en wat attributen. Entertainment verzekerd! Tot 19u30 Investeren in vastgoed- i.s.m. Plus Magazine, Thomas Valkeniers – Rood Podium

Projekt-Dokumentation - dbis.informatik.uni-goettingen.de · Projekt-Dokumentation Bachelorarbeit „XLink-basierte personalisierte Grafikannotierung als Firefox-Plugin ... Der Kontext

Referat XLink/XPointer Martin Iordanidis

Ist die Parlamentarismus-Präsidentialismus- Dichotomie ... · Parlamentarismus-Präsidentialismus ZPol 2/09 171 Regierungsformen mit den Attributen „parlamentarisch“ und „präsidentiell“

XLINK - arelux.ro · Set de trei profile metalice pentru conectarea liniară a corpurilor de iluminat din gama XLINK. Set of three metallic profiles for the linear connection of the

Einstieg in die Objektorientierte Programmierung (OOP… · [email protected] OOP mit Delphi Seite 2 Einfache Objekt-Klassen kommen allein mit Eigenschaften (Attributen,