支援具有複雜關鍵字限制之 xml 查詢系統 supporting xml query processing with complex...

41
111/06/11 DBLAB @ NTOU 支支支支支支支支支支支支 支支支支支支支支支支支支 XML XML 支支支支 支支支支 Supporting Supporting XML Query Processing with XML Query Processing with Complex Keyword Constraints Complex Keyword Constraints 支支支支 支支支支 : : 支支支 支支 支支支 支支 支支支 支支支 : : 支支支 支支支 1/41

Upload: ronan-austin

Post on 03-Jan-2016

70 views

Category:

Documents


1 download

DESCRIPTION

支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints. 指導教授 : 張雅惠 博士 研究生 : 吳政儀. 大綱. 背景說明 延伸杜威編碼 TJ_IR 系統結構 SCU_Twig 系統架構 實驗 結論與未來方向. 背景說明. 針對 XML 文件中的兩種查詢方式 給定結構限制 XPath 利用關鍵字查詢 order 和 distance 之 IR 技術 本論文參考之兩種系統 TJ_IR 系統 處理結構限制 SCU_Twig 系統 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

112/04/20 DBLAB @ NTOU

支援具有複雜關鍵字限制之支援具有複雜關鍵字限制之 XMLXML 查詢系統查詢系統Supporting XML Query Processing with Supporting XML Query Processing with Complex Keyword ConstraintsComplex Keyword Constraints

指導教授指導教授 :: 張雅惠 博士張雅惠 博士

研究生研究生 :: 吳政儀吳政儀

1/41

Page 2: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

112/04/20 DBLAB @ NTOU

大綱 背景說明 延伸杜威編碼 TJ_IR 系統結構 SCU_Twig 系統架構 實驗 結論與未來方向

2/41

Page 3: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

背景說明 針對 XML 文件中的兩種查詢方式

給定結構限制 XPath

利用關鍵字查詢 order 和 distance 之 IR 技術

本論文參考之兩種系統 TJ_IR 系統

處理結構限制 SCU_Twig 系統

取出關鍵字處理

112/04/20 DBLAB @ NTOU 3/41

Page 4: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

XQuery XQuery 為一 FLWR(For-Let-Where-Return) 之結構 文數值限定

W3C XQuery User Case Full Text “ftcontains” :

ordered 語法和 distance 語法 為了方便處理 ordered 語法和 distance 語法,我們另外

給予每個關鍵字唯一的 position

112/04/20 DBLAB @ NTOU

For $p in document (“http://dblab.cs.ntou.edu.tw/book.xml”)/catalog/item

Where $p/description ftcontains (“database” and “design” ordered) ftand(“database” and “design” with distance at least 2 words) and $p//name ftcontains (“Peter” and “Rob” ordered)Return $p

4/41

Page 5: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

延伸杜威編碼

x: 該元素編碼最後的部份 y: 該元素在 XML 樹中哥哥節點 (left

sibling) 編碼最後的部份 n: 該 tagname 在 DTD 中共有幾個兄弟 k: 該 tagname 在 DTD 中的兄弟排序

(sibling position)

112/04/20 DBLAB @ NTOU

otherwisekn

n

y

knyifknn

y

x

,*

)mod(,*

5/41

Page 6: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

延伸杜威編碼 ( 續 )

XML 文件之 DTD

延伸杜威編碼的優點 可以將杜威編碼直接還原成完整的路徑

1.1.8 ->/catalog/item/description 加快路徑的判斷

112/04/20 DBLAB @ NTOU

<!ELEMENT catalog (item*)><!ELEMENT item (title, author*, publisher, description)><!ELEMENT title (#PCDATA)><!ELEMENT author (name)><!ELEMENT name (#PCDATA)><!ELEMENT publish(#PCDATA)><!ELEMENT description(#PCDATA)>

6/41

Page 7: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

XML 文件

112/04/20 DBLAB @ NTOU

catalog

item

title descriptionauthor

name

Peter Rob

10

14 1615 22 23

24

1

1.1

1.1.1 1.1.8title description

item

author

name

1.2

1.2.1 1.2.81.2.2

1.2.2.1

87

5251

9

56 57 58

49 50

59

author

name

1.1.2 1.1.6

1.1.2.1 1.1.6.1

Carlos CoronelPeter Rob

Elie Semaan

1.2.6

name1.2.6.1

Peter Rob83 84

Database

We have developed countless

database ... web interface design

1.3

1.3.2.1

1.3.41.3.21.3.1

item

title author

name

description

89 100

88878685

10199

Database Systems: Design ... a market-leader

for database texts, ... practical database design ...

Robs Databases: Design, Development ...

... through the use of Microsoft Access. 25 35343326 818079787776

82Database Systems:

Design, Implementation,

and Management

3

65

4

21Databases: Design,

Development, And

Deployment ...

38 39

4140

42

author

7/41

Page 8: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

TJ_IR 系統架構:建立查詢樹模組

將查詢句建成查詢樹

112/04/20 DBLAB @ NTOU

XQuery建立查詢樹模組BuildingXquery

資訊檢索模組OrderHandle andDistanceHandle

資料擷取模組RetrievingData

整合模組TJFAST match tree

T_match

C_match

XML資料

XQuery Tree

P_match

index

8/41

Page 9: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

查詢樹模組

112/04/20 DBLAB @ NTOU

catalog

item

description

[database, design]&

(database, design, >=, 2)

name

[Peter, Rob]

GNRF為True

Root

LNVF為True

LNVF為True

For $p in document (“http://dblab.cs.ntou.edu.tw/book.xml”)/catalog/item

Where $p/description ftcontains (“database” and “design” ordered) ftand(“database” and “design” with distance at least 2 words) and $p//name ftcontains (“Peter” and “Rob” ordered)Return $p

節點形態定義 葉子節點 (LN) 黏合節點 (GN) 內容限制節點 (VF) 回傳限制節點 (RF)

9/41

Page 10: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

TJ_IR 系統架構:資料擷取模組

由查詢樹中的樹葉節點取出符合的 XML 資料(T_match)

112/04/20 DBLAB @ NTOU

XQuery建立查詢樹模組BuildingXquery

資訊檢索模組OrderHandle andDistanceHandle

資料擷取模組RetrievingData

整合模組TJFAST match tree

T_match

C_match

XML資料

XQuery Tree

P_match

index

10/41

Page 11: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

元素編碼表 (preprocess)

Extended Dewey Code

Level Tagname Keyword Position

1.1.2.1 4 name Peter 71.1.2.1 4 name Rob 81.1.6.1 4 name Carlos 91.1.6.1 4 name Coronel 101.2.2.1 4 name Peter 491.2.2.1 4 name Rob 501.2.6.1 4 name Elie 511.2.6.1 4 name Semaan 521.3.2.1 4 name Peter 831.3.2.1 4 name Rob 84

112/04/20 DBLAB @ NTOU

/catalog/item/author/name 的元素編碼表

11/41

Page 12: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

資料擷取模組

112/04/20 DBLAB @ NTOU

item

descriptionname

(=,1)

(>=,3)(=,3)

(=,2)

catalog

...Database (14)

...Design (16)

…Database (25)

…Database (34)Design (35)

...

1.1.2.1,1.1.6.1,1.2.2.1 … 1.3.2.11.1.8 ,1.2.8 ,1.3.4

...Database (57)Design (58)

...Datsbase(75)

Termlist Termlist

Peter (7)Rob (8)

Peter (49)Rob (50)

Carlos (9)Coronel (10)

Termlist Termlist Termlist

Peter (83)Rob (84)

Termlist

…Database (89)

...Design (101)

Termlist

streamstream

12/41

Page 13: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

TJ_IR 系統架構:資訊檢索模組

透過 position 資訊處理 order 和 distance 限制(C_match)

112/04/20 DBLAB @ NTOU

XQuery建立查詢樹模組BuildingXquery

資訊檢索模組OrderHandle andDistanceHandle

資料擷取模組RetrievingData

整合模組TJFAST match tree

T_match

C_match

XML資料

XQuery Tree

P_match

index

13/41

Page 14: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

資訊檢索模組

112/04/20 DBLAB @ NTOU

item

descriptionname

(=,1)

(>=,3)(=,3)

(=,2)

catalog

...Database (14)

...Design (16)

…Database (25)

…Database (34)Design (35)

...

1.1.2.1,1.1.6.1,1.2.2.1 … 1.3.2.11.1.8 ,1.2.8 ,1.3.4

...Database (57)Design (58)

...Datsbase(75)

Termlist Termlist

Peter (7)Rob (8)

Peter (49)Rob (50)

Carlos (9)Coronel (10)

Termlist Termlist Termlist

Peter (83)Rob (84)

Termlist

…Database (89)

...Design (101)

Termlist

streamstream

14/41

For $p in document (“http://dblab.cs.ntou.edu.tw/book.xml”)/catalog/item

Where $p/description ftcontains (“database” and “design” ordered) ftand(“database” and “design” with distance at least 2 words) and $p//name ftcontains (“Peter” and “Rob” ordered)Return $p

Page 15: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

TJ_IR 系統架構:整合模組

先對元素路徑做判斷 (P_match) 最後透過 TJFast 方法整合查詢樹

112/04/20 DBLAB @ NTOU

XQuery建立查詢樹模組BuildingXquery

資訊檢索模組OrderHandle andDistanceHandle

資料擷取模組RetrievingData

整合模組TJFAST match tree

T_match

C_match

XML資料

XQuery Tree

P_match

index

15/41

Page 16: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

An example for TJFast

Document: Query:

item

description

catalogcatalog

item item item

description authorauthor

1.1

1.1.2

1.2

1.1.2.1

1.2.2

1.3

1.2.2.1

1.1.8, 1.3.4

1.1.2.1, 1.2.2.1, 1.3.2.1Tname:

Tdescription:

{ }

DTD:

catalog -> item*

item-> title, author*, publisher*,description

author-> name

publisher->name

1.3.2.1

A set for the branching node item

author description

name name name

1

1.3.21.1.8 1.3.4name

112/04/20 DBLAB @ NTOU 16/41

Page 17: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

1.1.8, 1.3.4

1.1.2.1, 1.2.2.1, 1.3.2.1

1.1.2.1 /catalog/item/author/namederive

1.1.8 /catalog/item/descriptionderive

Document:

catalog

item item item

description authorauthor

1.1

1.1.2

1.2

1.1.2.1

1.2.2

1.3

1.2.2.1 1.3.2.1

author description

name name name

1

1.3.21.1.8 1.3.4

Query:

{ }

Tname:

Tdescription:

item

description

catalog

name

An example for TJFast ( 續 )

112/04/20 DBLAB @ NTOU17/41

Page 18: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

1.1.8, 1.3.4

1.1.2.1, 1.2.2.1, 1.3.2.1

由於 item (1.1) 為分支節點 (GN) 因此將 item (1.1) 插入集合中 .

Query:

{ }

Document:

catalog

item item item

description authorauthor

1.1

1.1.2

1.2

1.1.2.1

1.2.2

1.3

1.2.2.1 1.3.2.1

author description

name name name

1

1.3.21.1.8 1.3.4

Tname:

Tdescription:

item

description

catalog

name

An example for TJFast ( 續 )

112/04/20 DBLAB @ NTOU 18/41

Page 19: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

1.1.8, 1.3.4

1.1.2.1, 1.2.2.1, 1.3.2.1 將 Tname 的指標從 name(1.1.2.1) 移動到 name(1.2.2.1) 並且輸出符合的路徑 <item, author, name>

Query:

{item (1.1) }

Tname:

Tdescription:

Document:

catalog

item item item

description authorauthor

1.1

1.1.2

1.2

1.1.2.1

1.2.2

1.3

1.2.2.1 1.3.2.1

author description

name name name

1

1.3.21.1.8 1.3.4

item

description

catalog

name

An example for TJFast ( 續 )

112/04/20 DBLAB @ NTOU 19/41

Page 20: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

1.1.8, 1.3.4

1.1.2.1, 1.2.2.1, 1.3.2.1 由於 Tname1.2.2.1 不符合結構限制因此不做處置 . 繼續往下個節點處理 , 將 Tdescription 的指標從 description(1.1.8) 移動到description(1.3.4), 輸出 <item, description>,同時將集合清除 .

Tname:

Tdescription:

Document:

catalog

item item item

description authorauthor

1.1

1.1.2

1.2

1.1.2.1

1.2.2

1.3

1.2.2.1 1.3.2.1

author description

name name name

1

1.3.21.1.8 1.3.4

1.2.2.1 /catalog/item/author/namederive

Query:

{item(1.1)}item

description

catalog

name

An example for TJFast ( 續 )

112/04/20 DBLAB @ NTOU 20/41

Page 21: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

1.1.8, 1.3.4

1.1.2.1, 1.2.2.1, 1.3.2.1Tname:

Tdescription:

Document:

catalog

item item item

description authorauthor

1.1

1.1.2

1.2

1.1.2.1

1.2.2

1.3

1.2.2.1 1.3.2.1

author description

name name name

1

1.3.21.1.8 1.3.4

Query:

{ }

由於不符合結構限制因此不做處置 . 繼續往下個節點處理 , 將 Tname 的指標從 name(1.2.2.1) 移動到name(1.3.2.1).

item

description

catalog

name

An example for TJFast ( 續 )

112/04/20 DBLAB @ NTOU 21/41

Page 22: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

1.1.8, 1.3.4

1.1.2.1, 1.2.2.1, 1.3.2.1Tname:

Tdescription:

Document:

catalog

item item item

description authorauthor

1.1

1.1.2

1.2

1.1.2.1

1.2.2

1.3

1.2.2.1 1.3.2.1

author description

name name name

1

1.3.21.1.8 1.3.4

Query:

{item(1.3) }

由於 item(1.3) 為分支節點 , 因此將 item3(1.3) 插入集合中 .

item

description

catalog

name

An example for TJFast ( 續 )

112/04/20 DBLAB @ NTOU 22/41

Page 23: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

1.1.8, 1.3.4

1.1.2.1, 1.2.2.1, 1.3.2.1 移動 Tname 的指標到達最後 , 並解輸出符合的路徑 <item, author, name>.

Tname:

Tdescription:

Document:

catalog

item item item

description authorauthor

1.1

1.1.2

1.2

1.1.2.1

1.2.2

1.3

1.2.2.1 1.3.2.1

author description

name name name

1

1.3.21.1.8 1.3.4

Query:

{item(1.3) }item

description

catalog

name

An example for TJFast ( 續 )

112/04/20 DBLAB @ NTOU 23/41

Page 24: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

1.1.8, 1.3.4

1.1.2.1, 1.2.2.1, 1.3.2.1 移動 Tdescription 的指標到達最後 , 並解輸出符合的路徑 <item, description>.

Tname:

Tdescription:

Document:

catalog

item item item

description authorauthor

1.1

1.1.2

1.2

1.1.2.1

1.2.2

1.3

1.2.2.1 1.3.2.1

author description

name name name

1

1.3.21.1.8 1.3.4

Query:

{item(1.3) }item

description

catalog

name

An example for TJFast ( 續 )

112/04/20 DBLAB @ NTOU 24/41

Page 25: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

1.1.8, 1.3.4

1.1.2.1, 1.2.2.1, 1.3.2.1 將最後所有符合的路徑做 merge-join 最後輸出符合的答案 .

Tname:

Tdescription:

Document:

catalog

item item item

description authorauthor

1.1

1.1.2

1.2

1.1.2.1

1.2.2

1.3

1.2.2.1 1.3.2.1

author description

name name name

1

1.3.21.1.8 1.3.4

Query:

{ }item

description

catalog

name

An example for TJFast ( 續 )

112/04/20 DBLAB @ NTOU 25/41

Page 26: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

catalog/item/author//name

<catalog1,item1,author2,name1>,

<catalog1, item3,author2,name1>

catalog/item/description:

<catalog1, item1,description8>,

<catalog1, item3,description4>

Phase 1. Intermediate paths

<catalog, item, author, name, description>

Phase 2. Final solutions

Join

Document:

catalog

Item(1.1) Item(1.3)

description(1.1.8)author author description(1.3.4)

name(1.1.2.1) name(1.3.2.1)

Query:

{ }

<catalog1, item1, author2, name1, description8>,

<catalog1, item3, author2, name1, description4>

item

description

catalog

name

An example for TJFast ( 續 )

112/04/20DBLAB @ NTOU

26/41

Page 27: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

SCU_Twig 系統架構:資料擷取模組

透過查詢句中的關鍵字,利用 Inverted List 抓取符合之關鍵字 (K_match)

112/04/20 DBLAB @ NTOU

XQuery資訊檢索模組

OrderHandle andDistanceHandle

資料擷取模組RetrievingData

整合模組TJFast

P_matchResult

C_match

XML資料

K_match

做LCA模組DoingLCA

27/41

Page 28: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

關鍵字編碼表 (preprocess)

112/04/20 DBLAB @ NTOU

DeweyID global_position

1.1.1 1.1.1.1

1.1.8 1.1.8.14

1.1.8 1.1.8.25

1.1.8 1.1.8.34

1.2.1 1.2.1.38

1.2.8 1.2.8.57

1.3.1 1.3.1.82

1.3.4 1.3.4.89

database的關鍵字編碼表

28/41

Page 29: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

112/04/20 DBLAB @ NTOU

1.1.1 1.1.1.11.1.8 1.1.8.141.1.8 1.1.8.341.2.1 1.2.1.381.2.8 1.2.8.571.2.8 1.2.8.751.3.1 1.3.1.821.3.4 1.3.4.89

1.1.1 1.1.1.31.1.8 1.1.8.161.1.8 1.1.8.351.2.1 1.2.1.391.2.8 1.2.8.58

1.3.4 1.3.4.101

get (database) get (design)

order

11.2.1.38 1.1.8.351.2.8.75 1.3.4.101

1.1 1.1.8.14 1.1.1.3

1.1.1Darabase design1.1.1.1 1.1.1.3

1.1.8 1.1.8.14 1.1.8.16

distance

(a) (b) (c)

1.1.8 1.1.8.34 1.1.8.16

1.1.8 1.1.8.34 1.1.8.35

1.2 1.2.8.57 1.2.1.39

1.2.1 1.2.1.38 1.2.1.39

1.2.8 1.2.8.57 1.2.8.58

1.2.8 1.2.8.75 1.2.8.58

1.3 1.3.1.82 1.3.4.101

1.3.4 1.3.4.89 1.3.4.101

11.2.1.38 1.1.8.351.2.8.75 1.3.4.101

...

1.1.1Database system1.1.1.1 1.1.1.3

1.1.8 1.1.8.14 1.1.8.16

1.1.8 1.1.8.34 1.1.8.35

1.2.1 1.2.1.38 1.2.1.39

1.2.8 1.2.8.57 1.2.8.58

1.3 1.3.1.82 1.3.4.101

1.3.4 1.3.4.89 1.3.4.101

11.2.1.38 1.1.8.351.2.8.75 1.3.4.101

...

1.1.1Database system1.1.1.1 1.1.1.3

1.1.8 1.1.8.14 1.1.8.16

1.3 1.3.1.82 1.3.4.101

1.3.4 1.3.4.89 1.3.4.101

Ismatch path

1.1.8 1.1.8.14 1.1.8.16

1.3.4 1.3.4.89 1.3.4.101

Save to the node of querytree

(d)

29/41

Page 30: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

SCU_Twig 系統架構:做 LCA 模組

取得關鍵字的最小共同祖先

112/04/20 DBLAB @ NTOU

XQuery資訊檢索模組

OrderHandle andDistanceHandle

資料擷取模組RetrievingData

整合模組TJFast

P_matchResult

C_match

XML資料

K_match

做LCA模組DoingLCA

30/41

Page 31: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

112/04/20 DBLAB @ NTOU

1.1.1 1.1.1.11.1.8 1.1.8.141.1.8 1.1.8.341.2.1 1.2.1.381.2.8 1.2.8.571.2.8 1.2.8.751.3.1 1.3.1.821.3.4 1.3.4.89

1.1.1 1.1.1.31.1.8 1.1.8.161.1.8 1.1.8.351.2.1 1.2.1.391.2.8 1.2.8.58

1.3.4 1.3.4.101

get (database) get (design)

order

11.2.1.38 1.1.8.351.2.8.75 1.3.4.101

1.1 1.1.8.14 1.1.1.3

1.1.1Darabase design1.1.1.1 1.1.1.3

1.1.8 1.1.8.14 1.1.8.16

distance

(a) (b) (c)

1.1.8 1.1.8.34 1.1.8.16

1.1.8 1.1.8.34 1.1.8.35

1.2 1.2.8.57 1.2.1.39

1.2.1 1.2.1.38 1.2.1.39

1.2.8 1.2.8.57 1.2.8.58

1.2.8 1.2.8.75 1.2.8.58

1.3 1.3.1.82 1.3.4.101

1.3.4 1.3.4.89 1.3.4.101

11.2.1.38 1.1.8.351.2.8.75 1.3.4.101

...

1.1.1Database system1.1.1.1 1.1.1.3

1.1.8 1.1.8.14 1.1.8.16

1.1.8 1.1.8.34 1.1.8.35

1.2.1 1.2.1.38 1.2.1.39

1.2.8 1.2.8.57 1.2.8.58

1.3 1.3.1.82 1.3.4.101

1.3.4 1.3.4.89 1.3.4.101

11.2.1.38 1.1.8.351.2.8.75 1.3.4.101

...

1.1.1Database system1.1.1.1 1.1.1.3

1.1.8 1.1.8.14 1.1.8.16

1.3 1.3.1.82 1.3.4.101

1.3.4 1.3.4.89 1.3.4.101

Ismatch path

1.1.8 1.1.8.14 1.1.8.16

1.3.4 1.3.4.89 1.3.4.101

Save to the node of querytree

(d)

31/41

Page 32: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

SCU_Twig 系統架構:資訊檢索模組

處理關鍵字限制 (C_match) 處理完限制接著針對查詢句路徑做判斷

(P_match) 之後透過 TJFast 合併回傳結果

112/04/20 DBLAB @ NTOU

XQuery資訊檢索模組

OrderHandle andDistanceHandle

資料擷取模組RetrievingData

整合模組TJFast

P_matchResult

C_match

XML資料

K_match

做LCA模組DoingLCA

32/41

Page 33: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

112/04/20 DBLAB @ NTOU

1.1.1 1.1.1.11.1.8 1.1.8.141.1.8 1.1.8.341.2.1 1.2.1.381.2.8 1.2.8.571.2.8 1.2.8.751.3.1 1.3.1.821.3.4 1.3.4.89

1.1.1 1.1.1.31.1.8 1.1.8.161.1.8 1.1.8.351.2.1 1.2.1.391.2.8 1.2.8.58

1.3.4 1.3.4.101

get (database) get (design)

order

11.2.1.38 1.1.8.351.2.8.75 1.3.4.101

1.1 1.1.8.14 1.1.1.3

1.1.1Darabase design1.1.1.1 1.1.1.3

1.1.8 1.1.8.14 1.1.8.16

distance

(a) (b) (c)

1.1.8 1.1.8.34 1.1.8.16

1.1.8 1.1.8.34 1.1.8.35

1.2 1.2.8.57 1.2.1.39

1.2.1 1.2.1.38 1.2.1.39

1.2.8 1.2.8.57 1.2.8.58

1.2.8 1.2.8.75 1.2.8.58

1.3 1.3.1.82 1.3.4.101

1.3.4 1.3.4.89 1.3.4.101

11.2.1.38 1.1.8.351.2.8.75 1.3.4.101

...

1.1.1Database system1.1.1.1 1.1.1.3

1.1.8 1.1.8.14 1.1.8.16

1.1.8 1.1.8.34 1.1.8.35

1.2.1 1.2.1.38 1.2.1.39

1.2.8 1.2.8.57 1.2.8.58

1.3 1.3.1.82 1.3.4.101

1.3.4 1.3.4.89 1.3.4.101

11.2.1.38 1.1.8.351.2.8.75 1.3.4.101

...

1.1.1Database system1.1.1.1 1.1.1.3

1.1.8 1.1.8.14 1.1.8.16

1.3 1.3.1.82 1.3.4.101

1.3.4 1.3.4.89 1.3.4.101

Ismatch path

1.1.8 1.1.8.14 1.1.8.16

1.3.4 1.3.4.89 1.3.4.101

Save to the node of querytree

(d) 33/41

Page 34: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

112/04/20 DBLAB @ NTOU

實驗 實驗環境

CPU : Pentium 4 3.0 GHz 記憶體 : 1.5GB 作業系統 : Windows XP 實作工具 : Visual C++ 6.0 和 Visual 2008

Data Set DBLP 10MB-50MB XMark 10MB-50MB

34/41

Page 35: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

112/04/20 DBLAB @ NTOU

各模組時間分析 XQuery 分析模組和建立查詢樹模組

主要將使用者 XQuery 查詢句建立成查詢樹 資料擷取模組

從 XML 文件中取出符合之元素或關鍵字 SCU_Twig 系統包含作 LCA 時間 以 Retrieval Data Time 紀錄

資訊檢索模組 利用 position 資訊判斷是否符合 IR 限制 以 Constraint Time 紀錄

整合模組 利用 TJFast 的合併方法將其整合 以 Combine Time 紀錄

35/41

Page 36: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

不同 Dataset 之實驗

112/04/20 DBLAB @ NTOU

For $p in document (“http:://dblab.cs.ntou.edu.tw/dblp.xml”)/dblp/inproceedings

where $p/booktitle ftcontains (System and System ordered) $p/title ftcontains (program and program ordered)return $p

取得資料之時間 number of partial data

取得資料之時間 ( 包含做 LCA) total 時間

Q1

36/41

Page 37: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

不同 Dataset 之實驗 ( 續 )

112/04/20 DBLAB @ NTOU

For $p in document (“http:://dblab.cs.ntou.edu.tw/xmark.xml”)/site//item

where $p/description//text ftcontains (master and master ordered) $p/mailbox//from ftcontains (Mehrdad and Mehrdad ordered)return $p

取得資料之時間 number of partial data

取得資料之時間 ( 包含做 LCA) total 時間

Q2

37/41

Page 38: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

不同關鍵字限制之實驗

112/04/20 DBLAB @ NTOU

For $p in document (“http:://dblab.cs.ntou.edu.tw/dblp.xml”)/dblp/inproceedings

where $p/booktitle ftcontains (System and System ordered) ftand(Advance and Course ordered) $p/title ftcontains (Language and Language ordered)return $p

For $p in document (“http:://dblab.cs.ntou.edu.tw/dblp.xml”)/dblp/inproceedings

where $p/booktitle ftcontains (System and System ordered) ftand (Advance and Course distance <= 2 words) $p/title ftcontains (Language and Language ordered)return $p

For $p in document (“http:://dblab.cs.ntou.edu.tw/dblp.xml”)/dblp/inproceedings

where $p/booktitle ftcontains (System and System ordered) ftand (Advance and Course ordered) ftand (Advance and Course distance <= 2 words) $p/title ftcontains (Language and Language ordered)return $p

Q3

Q5

Q4

38/41

Page 39: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

不同關鍵字限制之實驗 ( 續 )

112/04/20 DBLAB @ NTOU

處理不同限制所花之處理時間 處理不同限制所花之整體時間

39/41

Page 40: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

關鍵字頻率影響之實驗

112/04/20 DBLAB @ NTOU

system program Support language10mb 1334 250 244 76920mb 2960 414 492 126130mb 4595 647 850 183940mb 5437 762 1006 209950mb 6741 954 1260 2552

For $p in document (“http:://dblab.cs.ntou.edu.tw/dblp.xml”)/dblp/inproceedings

where $p/booktitle ftcontains (System and System ordered) $p/title ftcontains (Support and Support ordered)return $p

For $p in document (“http:://dblab.cs.ntou.edu.tw/dblp.xml”)/dblp/inproceedings

where $p/booktitle ftcontains (System and System ordered) $p/title ftcontains (language and language ordered)return $p

Q6

Q7

40/41

Page 41: 支援具有複雜關鍵字限制之 XML 查詢系統 Supporting XML Query Processing with Complex Keyword Constraints

112/04/20 DBLAB @ NTOU

結論與未來方向 實作 TJ_IR 和 SCU_Twig 兩個系統,並利用 TJFast 的

合併方式進行 XQuery 查詢處理,並可以處理複雜的關鍵字限制。

實驗結果得知資料量少時適用 SCU_Twig 系統,整體文件處理而言 TJ_IR 系統仍優於 SCU_Twig 系統。

未來的研究方向 針對關鍵字不同的屬性事先做更適當的處置 對不同的查詢句的限制提出對應的演算法

41/41