Infrastructure for B2B Exchanges with RosettaNet

Download Report

Transcript Infrastructure for B2B Exchanges with RosettaNet

具有結構及關鍵字限制之XML查詢最
佳化研究
The Research on Optimizing XML Queries with
Structural and Keyword Constraints
指導教授:張雅惠 老師
研 究 生: 羅誠正
國立臺灣海洋大學 資訊工程所
2011/7/19
DBLAB @ NTOU
1/55
大綱







研究背景與目的
主要貢獻
背景說明
系統架構與Operators
Cost-based Optimization
實驗
結論與未來方向
2011/7/19
DBLAB @ NTOU
2/55
研究背景與目的
2011/7/19
DBLAB @ NTOU
3/55
研究背景與目的

由於XML文件被普遍的使用,有效率的查詢則成為重要
的議題



XPath
XQuery
本論文所處裡的查詢範圍,包括XPath基本表示法、資
訊檢索限制,其中資訊檢索限制包含ordered及
distance
L01 For $p in document (“http://dblab.cs.ntou.edu.tw/book.xml”)
L02
/catalog/item
L03 Where $p/description ftcontains (“database” and “design” ordered)
L04
ftand(“database” and “design” with distance at least 2 words)
L05
and $p//name ftcontains (“Peter” and “Rob” ordered)
L06 Return $p
2011/7/19
DBLAB @ NTOU
4/55
研究背景與目的

在論文[吳09]當中提出了兩種作法



結構優先 Structure-first
關鍵字優先 Keyword-first
不過該論文並沒有辦法自動找出最佳的執行策略
2011/7/19
DBLAB @ NTOU
5/55
研究背景與目的

目的:



2011/7/19
找出兩者在不同查詢狀況下的優點,來提升整體查
詢的效率
利用不同運算子的執行順序重新排列,找出最佳的
執行計畫,使系統可以有最佳的執行效率
建立一套找尋最佳執行計畫的方法
DBLAB @ NTOU
6/55
主要貢獻
2011/7/19
DBLAB @ NTOU
7/55
主要貢獻




將「結構優先」與「關鍵字優先」各階段的演算法模組化,定義
成數個Operator,讓這兩個作法不同執行階段可以更加彈性,並
且能夠調整。
本論文定義了rewriting rule讓系統可以針對兩種不同的作法,產
生一系列不同的執行計畫。
本論文同時也對每個Operator定義了cost model讓系統能夠透過
這些cost model有效率的找出最佳的執行計畫。
本論文實作了這套系統,並且透過一系列的實驗,證明系統的正
確性以及效率。
2011/7/19
DBLAB @ NTOU
8/55
背景說明
2011/7/19
DBLAB @ NTOU
9/55
背景說明 – XML資料表示



XML文件一般以樹狀結構表示
本論文使用延伸杜威編碼對XML文件編碼
為了方便處理ordered語法和distance語法,本論文另外
給予每個關鍵字唯一的position
1
catalog
1.1
item
1.1.1
title
1.1.2.1
name
1.2.2.1 1.2.6.1
Databases: Design, name name
1.1.6.1
name
38
2
Design, Implementation,
3
4
and Management
5
6
1.3
item
1.2.2 1.2.6 1.2.8
1.3.1
author author description title
1.1.2
1.1.6 1.1.8
1.2.1
author author description title
Database Systems:
1
1.2
item
39
40
7
42
Carlos Coronel
9
Elie Semaan
41
51
Peter Rob
52
83
Deployment ...
8
10
1.3.2.1
name
82
Development, And
Peter Rob
Database
1.3.2 1.3.4
author description
We have developed countless
85
Peter Rob
49
50
86
14
15
16
22
23
24
2011/7/19
25
26
33
34
35
88
99
100
101
Robs Databases: Design, Development ...
56
for database texts, ... practical database design ...
87
database ... web interface design
89
Database Systems: Design ... a market-leader
84
57
58
59
... through the use of Microsoft Access.
76
77 78 79
DBLAB @ NTOU
80
81
10/55
背景說明 – 延伸杜威編碼

優點:



可以快速取得標籤到root的路徑
判斷結構時,只需存取符合葉節點限制的標籤元素即可
對於元素1.1.6.1,可直接得到路徑為
/catalog/item/author/name
1
catalog
1.1
item
1.1.1
title
1.1.2.1
name
1.2.2.1 1.2.6.1
Databases: Design, name name
1.1.6.1
name
38
2
Design, Implementation,
3
4
and Management
5
6
1.3
item
1.2.2 1.2.6 1.2.8
1.3.1
author author description title
1.1.2
1.1.6 1.1.8
1.2.1
author author description title
Database Systems:
1
1.2
item
39
40
7
42
Carlos Coronel
9
Elie Semaan
41
51
Peter Rob
52
83
Deployment ...
8
10
1.3.2.1
name
82
Development, And
Peter Rob
Database
1.3.2 1.3.4
author description
85
Peter Rob
49
50
86
14
15
16
22
23
24
2011/7/19
25
26
33
34
35
88
99
100
101
Robs Databases: Design, Development ...
56
for database texts, ... practical database design ...
87
database ... web interface design
89
Database Systems: Design ... a market-leader
84
We have developed countless
57
58
59
... through the use of Microsoft Access.
76
77 78 79
DBLAB @ NTOU
80
81
11/55
背景說明 – XQuery


XQuery為FLWR(For-Let-Where-Return)之結構
資訊檢索限制

W3C XQuery User Case Full Text “ftcontains” :
ordered語法和distance語法
L01 For $p in document (“http://dblab.cs.ntou.edu.tw/book.xml”)
L02
/catalog/item
L03 Where $p/description ftcontains (“database” and “design” ordered)
L04
ftand(“database” and “design” with distance at least 2 words)
L05
and $p//name ftcontains (“Peter” and “Rob” ordered)
L06 Return $p
2011/7/19
DBLAB @ NTOU
12/55
背景說明 – Query Tree

本論文將查詢句利用樹狀的方式來表示,稱作查詢樹
catalog
item
name
[Peter, Rob]
description
[database, design]&
(database, design, >=, 2)
2011/7/19
DBLAB @ NTOU
13/55
背景說明
結構優先
2011/7/19
DBLAB @ NTOU
14/55
背景說明 – 結構優先




先擷取出XML文件中符合查詢句內出現的標籤元素
然後判斷資訊檢索限制
再判斷是否符合路徑限制
最後將結果進行twig結構的判斷再整合起來
XQuery
Data Retrieving
Constraint
Handling
Path validate
Twig Join
Answer
XML
Database
2011/7/19
DBLAB @ NTOU
15/55
背景說明 – 結構優先
catalog

查詢樹的葉節點會對應到
一個stream,記錄符合該
節點標籤的元素編碼。

Termlist則是紀錄每一個
元素其內表示的所有關鍵
字及位置。
item
name
1.1.2.1,1.1.6.1,1.2.2.1 … 1.3.2.1
description
stream
Peter (7)
Rob (8)
Carlos (9)
Coronel (10)
Peter (49)
Rob (50)
Peter (83)
Rob (84)
Termlist
Termlist
Termlist
Termlist
2011/7/19
1.1.8 ,1.2.8 ,1.3.4
...
Database (14)
...
Design (16)
…
Database (25)
…
Database (34)
Design (35)
...
Termlist
stream
...
Database (57)
Design (58)
...
Datsbase(75)
…
…
Database (89)
...
Design (101)
…
Termlist
Termlist
DBLAB @ NTOU
16/55
背景說明 – 結構優先
1
catalog
1.2
item
1.1
item
catalog
item
1.1.1
title
1.1.2 1.1.6 1.1.8
author author description
1.2.1
title
1.2.2
author
1.3
item
1.2.6
author
1.1.2.1 1.1.6.1
name name
name
1.1.2.1,1.1.6.1,1.2.2.1 … 1.3.2.1
description
stream
Peter (7)
Rob (8)
Carlos (9)
Coronel (10)
Peter (49)
Rob (50)
Peter (83)
Rob (84)
Termlist
Termlist
Termlist
Termlist
2011/7/19
1.2.8
description
1.3.2
author
1.3.4
description
1.3.2.1
name
1.2.2.1 1.2.6.1
name name
1.1.8 ,1.2.8 ,1.3.4
...
Database (14)
...
Design (16)
…
Database (25)
…
Database (34)
Design (35)
...
Termlist
1.3.1
title
stream
...
Database (57)
Design (58)
...
Datsbase(75)
…
…
Database (89)
...
Design (101)
…
Termlist
Termlist

從stream判斷其節點內的
Termlist是否符合資訊檢
索條件
DBLAB @ NTOU
17/55
背景說明 – 結構優先
1
catalog
1.1
item
1.1.1
title
1.1.2 1.1.6 1.1.8
author author description
1.1.2.1 1.1.6.1
name name
1.2
item
1.2.1 1.2.2 1.2.6
title author author 1.2.8
description
1.3
item
1.3.1
title
1.3.2
author
1.3.4
description
1.3.2.1
name
1.2.2.1 1.2.6.1
name name

在符合資訊檢索條件的節點中,判斷是否符合查詢樹
結構,最後將符合結果的子樹輸出
2011/7/19
DBLAB @ NTOU
18/55
背景說明
關鍵字優先
2011/7/19
DBLAB @ NTOU
19/55
背景說明 – 關鍵字優先

先在XML文件中找尋符合查詢句內的資訊檢索限制之元素

接著找出這些元素的LCA(Lowest Common Ancestors)

再針對這些元素進行資訊檢索限制的判斷

然後判斷是否符合路徑,並且利用Twig Join將結果整合起來
XQuery
Data Retrieving
DoingLCA
Constraint
Handling
Path validate
Twig Join
Answer
XML
Database
2011/7/19
DBLAB @ NTOU
20/55
背景說明 – 關鍵字優先
For $p in document (“http://dblab.cs.ntou.edu.tw/book.xml”)
/catalog/item
Where $p/description ftcontains (“database” and “design” ordered)
ftand(“database” and “design” with distance at least 2 words)
Return $p
1
catalog
1.1
item
1.1.1
title
1.1.2.1
name
1.2.2.1 1.2.6.1
Databases: Design, name name
1.1.6.1
name
38
2
Design, Implementation,
3
4
and Management
5
6
1.3
item
1.2.2 1.2.6 1.2.8
1.3.1
author author description title
1.1.2
1.1.6 1.1.8
1.2.1
author author description title
Database Systems:
1
1.2
item
39
40
7
42
Carlos Coronel
9
Elie Semaan
41
51
Peter Rob
52
83
Deployment ...
8
10
1.3.2.1
name
82
Development, And
Peter Rob
Database
1.3.2 1.3.4
author description
We have developed countless
85
Peter Rob
49
50
86
14
15
16
22
23
24
25
26
33
2011/7/19
34
35
99
Robs Databases: Design, Development ...
56
for database texts, ... practical database design ...
87
88
database ... web interface design
89
Database Systems: Design ... a market-leader
84
57
58
59
100
101
↑ SCU Table
... through the use of Microsoft Access.
76
77 78 79
80
81
DBLAB @ NTOU
21/55
背景說明 – 關鍵字優先

SCU與QueryTree的關係
catalog
item
description
name
1.1.2.1
1.2.2.1
1.3.2.1
Peter
7
49
83
1.1.2.1
1.2.2.1
1.2.4
1.3.2.1
8
50
56
84
Rob
1.1.1
1.1.8
1.1.8
1.1.8
1.2.1
1.2.8
1.3.1
1.3.4
1
14
25
34
38
57
82
89
1.1.1
1.1.4
1.1.4
1.2.1
1.2.4
1.3.3
3
16
35
39
58
101
design
database
2011/7/19
DBLAB @ NTOU
22/55
背景說明 – 關鍵字優先

取得關鍵字的最小共同祖先
1
catalog
1.1
item
1.1.1
title
1.1.2.1
name
1.2.2.1 1.2.6.1
Databases: Design, name name
1.1.6.1
name
38
2
Design, Implementation,
3
4
and Management
5
6
1.3
item
1.2.2 1.2.6 1.2.8
1.3.1
author author description title
1.1.2
1.1.6 1.1.8
1.2.1
author author description title
Database Systems:
1
1.2
item
39
40
7
42
Carlos Coronel
9
Elie Semaan
41
51
Peter Rob
52
83
Deployment ...
8
10
1.3.2.1
name
82
Development, And
Peter Rob
Database
1.3.2 1.3.4
author description
We have developed countless
85
Peter Rob
49
50
86
14
15
16
22
23
24
2011/7/19
25
26
33
34
35
88
99
100
101
Robs Databases: Design, Development ...
56
for database texts, ... practical database design ...
87
database ... web interface design
89
Database Systems: Design ... a market-leader
84
57
58
59
... through the use of Microsoft Access.
76
77 78 79
DBLAB @ NTOU
80
81
23/55
背景說明 – 關鍵字優先


對兩個SCU Table內
的元素互相比對做
LCA。
形成的表格即為
Join之後的結果
2011/7/19
DBLAB @ NTOU
24/55
For $p in document (“http://dblab.cs.ntou.edu.tw/book.xml”)
/catalog/item
Where $p/description ftcontains (“database” and “design” ordered)
ftand(“database” and “design” with distance at least 2 words)
Return $p


2011/7/19
處理關鍵字限制的部分,
會先對處理完LCA的結果中
,逐一判斷是否符合限制
若是符合限制,則直接輸
出,若不符合,則會將其
關鍵字加入至其最近的祖
先,直到找到符合者後才
全部輸出
DBLAB @ NTOU
25/55
系統架構與Operators
2011/7/19
DBLAB @ NTOU
26/55
系統架構




首先將輸入的XQuery查詢句透過Parser轉換為預設的執行計畫
接著,將預設執行計畫送到Plan Generator內,套用Rewriting
Rules並且產生所有可能的組合
然後再將所產生出來的執行計畫集合送到Physical Plan Selector選
出最佳的執行計畫
最後,交給Plan Executor執行,將結果輸出
XQuery
Parser
Plan
Generator
Rewriting
Rules
2011/7/19
Physical Plan
Selector
Statistic
Data
DBLAB @ NTOU
Plan
Executor
Match Tree
XML
Database
27/55
Operators
Operators


T_match(t):若XML樹中某一
節點的標籤符合查詢樹中某標
籤t的限制,則稱該節點為一
個T_match(t)


1
catalog
1.1
item
1.1.1
title
1.1.2.1
name
1.2.2.1 1.2.6.1
Databases: Design, name name
1.1.6.1
name
38
2
Design, Implementation,
3
4
and Management
5
6
1.3
item
1.2.2 1.2.6 1.2.8
1.3.1
author author description title
1.1.2
1.1.6 1.1.8
1.2.1
author author description title
Database Systems:
1
1.2
item
Peter Rob
7
42
Carlos Coronel
9
Elie Semaan
41
51
Peter Rob
52
83
Deployment ...
8
10

82
Development, And
49
85
50
86
14
15
16
22
23
24
25
26
33
2011/7/19
34
35
88
99
100
如圖中節點1.1.1、1.1.4、1.2.1
、 1.2.4 、 1.3.1 和 1.3.3 , 皆 為
K_match(database)
101
Robs Databases: Design, Development ...
56
for database texts, ... practical database design ...
87
database ... web interface design
89
Database Systems: Design ... a market-leader
84
We have developed countless
Peter Rob
K_match(k):若XML樹中某一
節點的內容存在查詢樹中要求
的關鍵字k,則稱該節點為一
個K_match(k)
1.3.2.1
name
Database
39
40
1.3.2 1.3.4
author description
如圖中節點1.1、1.2和1.3,分別
符合查詢樹的標籤限制“item”
,也就是T_match(item)。
57
58
59
... through the use of Microsoft Access.
76
77 78 79
80
81
DBLAB @ NTOU
28/55
Operators
Operators


C_match(op) : 若 XML 樹 中 某 節
點的內容符合查詢樹中某個
ftcontains資訊檢索限制op,則稱
該節點為一個C_match(op)


1
catalog
1.1
item
1.1.1
title
1.1.2.1
name
1.2.2.1 1.2.6.1
Databases: Design, name name
1.1.6.1
name
38
2
Design, Implementation,
3
4
and Management
5
6
1.3
item
1.2.2 1.2.6 1.2.8
1.3.1
author author description title
1.1.2
1.1.6 1.1.8
1.2.1
author author description title
Database Systems:
1
1.2
item
40
7
42
Carlos Coronel
9
Elie Semaan
41
51
Peter Rob
52
83
10
49
85
50
86
14
15
16
22
23
24
25
26
33
2011/7/19
34
35
88
99
100
如 圖 中 節點 1.1.2.1, 其 標籤 路 徑為
“ /catalog/item/author/name” , 為
一
個
P_match(“/catalog/item//name”)
101
Robs Databases: Design, Development ...
56
for database texts, ... practical database design ...
87
database ... web interface design
89
Database Systems: Design ... a market-leader
84
We have developed countless
Peter Rob
P_match(p):若XML樹中某一個
節點其對應的標籤路徑 (labeled
path) ,符合查詢樹中root到某個
節點的路徑限制p,則稱該節點
為一個P_match(p)

82
Deployment ...
8
1.3.2.1
name
Database
39
Development, And
Peter Rob
1.3.2 1.3.4
author description
如 圖 中 節 點 1.1.1 、 1.1.3 、 1.1.4 、
1.2.1 、 1.2.3 、 1.3.3 為
C_match(ordered)
57
58
59
... through the use of Microsoft Access.
76
77 78 79
80
81
DBLAB @ NTOU
29/55
Operators
Operators


Match Tree:若在XML樹中的
一群節點,每一個節點皆為
P_match 或 FT_match , 且 整
體符合查詢樹的結構限制,則
這群節點形成的子樹為match
tree

1
catalog
1.1
item
1.1.1
title
1.1.2.1
name
1.2.2.1 1.2.6.1
Databases: Design, name name
1.1.6.1
name
38
2
Design, Implementation,
3
4
and Management
5
6
1.3
item
1.2.2 1.2.6 1.2.8
1.3.1
author author description title
1.1.2
1.1.6 1.1.8
1.2.1
author author description title
Database Systems:
1
1.2
item
7
82
40
41
42
Carlos Coronel
9
Elie Semaan
51
10
83
85
Peter Rob
50
86
14
15
16
22
23
24
25
26
33
2011/7/19
34
35
88
99
100

延 續 上 例 , 節 點 1.1 和 1.3 符 合
return路徑,所以為一個答案
101
Robs Databases: Design, Development ...
56
for database texts, ... practical database design ...
87
database ... web interface design
89
Database Systems: Design ... a market-leader
84
We have developed countless
49
answer:在match tree中符合
return路徑的元素
Peter Rob
52
Deployment ...
8

1.3.2.1
name
Database
39
Development, And
Peter Rob
1.3.2 1.3.4
author description
在 圖 中 的 節 點 集 合 {1 、 1.1 、
1.1.2.1 、 1.1.8} 和 {1 、 1.3 、
1.3.2.1、1.3.4} 為符合查詢樹之
match tree
57
58
59
... through the use of Microsoft Access.
76
77 78 79
80
81
DBLAB @ NTOU
30/55
統計資料

在統計資料中,系統會統計下列數據:



2011/7/19
同一元素名稱(Tagname)出現的次數
例如:圖中XML文件元素名稱 “item”的個數有3個
同一關鍵字出現的數量
例如:圖中XML文件關鍵字 “database”有9個
對應同一標籤所有元素內關鍵字的個數
例如:圖中XML文件的三個“title”內,分別是1.1.1有5個關鍵
字、1.2.1有10個關鍵字、1.3.1有1個關鍵字,因此“title”元素的
關鍵字個數共為16
DBLAB @ NTOU
31/55
Cost-based Optimization
2011/7/19
DBLAB @ NTOU
32/55
Cost-based Optimization – Cost Model

針對各個Operator所對應的Cost Model以及其對應的演
算法列表如下 :
2011/7/19
DBLAB @ NTOU
33/55
Cost-based Optimization – 係數

在上表中的c1, c2, c3, c4, c5, c6, c7, c8, c9, c10是該
Cost Model的執行係數
2011/7/19
DBLAB @ NTOU
34/55
Cost-based Optimization – 係數



係數是由演算法中的執行時間,經過多次的執行測試,並且利用
平均值取的得數值
我們選定四組針對DBLP以及五組針對XMark的測試Query (其中
DBLP以及XMark的大小皆為50MB),並且將每個Query重複執行20
次
每次執行時,針對本論文定義的係數,它的執行時間與該部分處
理到的資料量的比數都會被記錄下來,並透過下列公式計算得出
:
2011/7/19
DBLAB @ NTOU
35/55
Cost-based Optimization – 係數

下表為找出的係數:

可看到做I/O所花的時間較多,做order轉換最快,其餘的cost則大
小類似。
針對C_match以及P_match的Selectivity,我們都假設為0.5,只有
在使用SF時,P_match的Selectivity假設為0.8

2011/7/19
DBLAB @ NTOU
36/55
Cost-based Optimization – 計算分數

給一XQuery如下:

其Algebra表示如下:

該XQuery的分數計算公式則為:
For $p in document (“http:://dblab.cs.ntou.edu.tw/dblp.xml”)
/dblp/inproceedings
where $p/booktitle ftcontains (System and System ordered) ftand
(Advance and Course distance <= 2 words)
$p/title ftcontains (Language and Language ordered)
return $p
Cost = C1 * |T(booktitle)| +
C3 * |Termlistbooktitle| +
C3 * 0.5 *|Termlistbooktitle| +
C5 * |P/dblp/inproceedings/booktitle(Termlistbooktitle)| +
C1 * |T(title)| +
C3 * |Termlisttitle| +
C5 * |P/dblp/inproceedings/title(Termlisttitle)| +
C6 * |0.25*Termlisttitle+0.5*Termlistbooktitle| +
C7 * |(0.25*Termlisttitle+0.5*Termlistbooktitle) * 0.5 |
2011/7/19
DBLAB @ NTOU
37/55
Cost-based Optimization – Rewriting Rule

下表為我們定義的Rewriting Rule:
2011/7/19
DBLAB @ NTOU
38/55
Cost-based Optimization – Rewriting Rule

Rule 1 :

【範例1】:
給一Query,Q1如下:
For $p in document (“http:://dblab.cs.ntou.edu.tw/dblp.xml”)
/dblp/inproceedings
where $p/booktitle ftcontains (System and System ordered) ftand
(Advance and Course distance <= 2 words)
$p/title ftcontains (Language and Language ordered)
return $p
2011/7/19
DBLAB @ NTOU
39/55
Cost-based Optimization – Rewriting Rule


其Algebra 表示式之一如下(每個關鍵字我們只表示其
第一個英文字母):
若套用Rewriting Rule 1,則可改寫為:
2011/7/19
DBLAB @ NTOU
40/55
Cost-based Optimization – Rewriting Rule

Rule2 :

【範例2】:
延續範例4.1若再套用Rewriting Rule 2兩次,則可改寫為:
例如,我們將範例4.1中的表示式,僅套用rewriting rules 2一次
則會得到
2011/7/19
DBLAB @ NTOU
41/55
Cost-based Optimization – Rewriting Rule

Rule3-5 :

【範例3】:
我們將範例1的查詢句Q1套用關鍵字優先的Algebra表示式如下:
套用Rewriting Rule 3之後則為:
2011/7/19
DBLAB @ NTOU
42/55
Cost-based Optimization – PSA

先將Query轉換成Algebra Expression

產生預設執行計畫

套用Rewriting Rule,並且將套用後的結果丟入計畫池

計算計畫池內每個計畫的分數

選出計畫池內分數最小的,作為最佳執行計畫

執行選出的最佳執行計畫
2011/7/19
DBLAB @ NTOU
43/55
實驗
2011/7/19
DBLAB @ NTOU
44/55
實驗

實驗環境






Data Sets



CPU:Intel Core i7,CPU的每一顆核心時脈是3.7 GHz
記憶體:16GB
作業系統:Windows 7 Enterprise
實作工具:Visual C++ 2008
建立index:Oracle Berkeley DB
DBLP 107MB、872MB
XMark 116MB
Query:遞增IR限制、關鍵字頻率、不同高度節點限制、
標籤頻率、相同節點不同距離限制、遞增路徑限制
2011/7/19
DBLAB @ NTOU
45/55
實驗 – 遞增IR限制
DBLP
2011/7/19
Q1 /dblp/inproceedings[./title ftcontains (“system” and
10個IR限制
“system” ordered) ftand (“Advance” and “Course” ordered)
ftand (“Algorithm” and “Application” ordered) ftand
(“base” and “computer” ordered) ftand (“information” and
“image” ordered)
and ./booktitle ftcontains (“Language” and “Language”
ordered) ftand (“Conference” and “Conference” ordered)
ftand (“Data” and “performance” ordered) ftand (“Model”
and “management” ordered) ftand (“design” and “design”
ordered)]
DBLAB @ NTOU
46/55
實驗 – 遞增IR限制
2011/7/19
DBLAB @ NTOU
47/55
實驗 – 關鍵字頻率
2011/7/19
DBLAB @ NTOU
48/55
實驗 – 標籤頻率
2011/7/19
DBLAB @ NTOU
49/55
實驗 – 不同高度節點限制
XMark Q12 /site/regions/asia/item[.//description//text//keyword
ftcontains (“master” and “attend” distance at most 500
words) and .//shipping ftcontains (“ship” and “see”
ordered)]
XMark Q13 /site/regions/asia/item[.//description//text ftcontains
(“master” and “attend” distance at most 500 words)
and .//shipping ftcontains (“ship” and “see” ordered)]
XMark Q14 /site/regions/asia/item[.//description ftcontains (“master”
and “attend” distance at most 500 words) and .//shipping
ftcontains (“ship” and “see” ordered)]
2011/7/19
DBLAB @ NTOU
50/55
實驗 – 不同節點距離限制
XMark Q15 /site/regions/asia/item[.//desciption//text ftcontains
(“master” and “attend”
distance at least 5 words) and .//shipping ftcontains (“see”
and “see” ordered)]
XMark Q16 /site/regions/asia/item[.//desciption//text ftcontains
(“master” and “attend”
distance at least 50000 words) and .//shipping ftcontains
(“see” and “see” ordered)]
XMark Q17 /site/regions/asia/item[.//desciption//text ftcontains
(“master” and “attend”
distance at least 50000000000 words) and .//shipping
ftcontains (“see” and “see” ordered)]
2011/7/19
DBLAB @ NTOU
51/55
實驗 – 遞增的路徑限制
2011/7/19
DBLAB @ NTOU
52/55
實驗 – Heuristic Rules

在大多數的狀況下,選擇關鍵字優先的方法都可以產
生比較快速的結果

當資訊檢索限制中所需要截取的關鍵字數量,比使用
結構優先方法時需要截取的標籤元素數量多時,結構
優先則會比較有效率

因此得到下列Heuristic Rules :


2011/7/19
若關鍵字數量小於結構優先的標籤數量,則選擇KF的default
plan (Rule 1)
若資訊檢索限制>20,則選擇SF的Default Plan (Rule 2)
DBLAB @ NTOU
53/55
實驗 – Heuristic Rules
DBLP 107MB
Xmark 116MB
2011/7/19
DBLAB @ NTOU
54/55
結論與未來方向

透過本論文的系統可以充分發揮結構優先以及關鍵字優先這兩種
作法各自的長處,使得整體的效率提昇

在實驗的結果中,也可以看出,在具有複雜資訊檢索或是關鍵字
頻率較高時,關鍵字優先的效率則會比結構優先來的差

但是在大多數的狀況下,關鍵字優先都具有較好的效率

未來方向:

2011/7/19
針對XML文件進行前處理時,增加不同性質的統計數據,以便增加cost model
的準確度
DBLAB @ NTOU
55/55