业务 过程模型 库索引技术 研究

29
业业业业业业业业业业业业业 金金 金金金金

Upload: ryder

Post on 25-Feb-2016

157 views

Category:

Documents


7 download

DESCRIPTION

业务 过程模型 库索引技术 研究. 金 涛 清华大学. 业务过程管理技术应用广泛. Surveys  over  the  past  five  years  have shown  process management to be the number one concern of senior executives [Gartner, 2010] - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 业务 过程模型 库索引技术 研究

业务过程模型库索引技术研究金涛清华大学

Page 2: 业务 过程模型 库索引技术 研究

Surveys  over  the  past  five  years  haveshown  process management to be the number one concern of senior executives [Gartner, 2010]

Gartner Prediction: “By 2014, 40% of business managers and knowledge workers in Global 2000 enterprises will use comprehensive business process models to support their daily work, up from 6% in 2009.”

业务过程管理技术应用广泛

Page 3: 业务 过程模型 库索引技术 研究
Page 4: 业务 过程模型 库索引技术 研究
Page 5: 业务 过程模型 库索引技术 研究

SAP参考模型◦ 600+

Haier◦ 3,000+

SunCorp◦ 6,000+

北车集团◦ 200,000+

业务过程模型数据日益增多

Page 6: 业务 过程模型 库索引技术 研究

模型重用◦提高建模效率◦避免重复存储

业务整合◦相似业务过程的检索

北车集团 20多个子公司合并,业务流程整合 SOA

◦服务的查找与组合◦基于 BPEL

模型检索

Page 7: 业务 过程模型 库索引技术 研究

模型检索分类基于结构的精确查询 基于行为的精确查询

基于结构的相似检索 基于行为的相似检索

Page 8: 业务 过程模型 库索引技术 研究

问题◦ 子图匹配算法为NPC问题◦ 图的相似度计算为NPC问题

基于结构的检索Check stock avai labi l i ty

Reject order

Confi rm order

Send bi l l

Ship goods

Archive order

Regi ster order

Prepare shipment

Ship goods

Send bi l l

Contact customer

Receive payment

Archive order

p1 t1 p2

t2

t3

p7p3

p4

t4

t5

p5

p6

t6

t7 p8

pn1

pn2

Regi ster order

Prepare shipment

Ship goods

Send bi l l

Contact customer

Receive payment

Archive order

pn3

p1 t1

p2

p3

t2

t3

t4

p4

p5

t5

t6

p6

p7

p1 t1

p2

p3

t2

t3

p4

p5

t5

t6

t4

p6

p7

t7 p8

Regi ster order

Send goodsSend bi l l

Contact customer

Archive ordert5 p5

pn4

p1 t1 p2 t2

t3

p3 t4 p4

Ship goods

Send bi l l

Contact customer

p1 t1 p2

t2t3

Send bi l l

Contact customer

p1 t1 p2

t2

Prepare shipment

精确查询

相似检索

Page 9: 业务 过程模型 库索引技术 研究

问题行为的计算复杂度高

基于行为的检索A

B C

D

A

B C

D

C B

A

B C

D

pn1 pn2 pn3 精确查询 A->D && B||C

相似检索A

B

CD

Page 10: 业务 过程模型 库索引技术 研究

Filtering-verfication framework◦索引用于过滤

索引元素索引元素的快速提取基于索引的查询处理

使用索引过滤

Page 11: 业务 过程模型 库索引技术 研究

有效性( Effectiveness)◦ Precision: 100%◦ Recall: 100%

效率( Efficiency)◦时间( Time efficiency)

查询时间、索引建立(更新)时间◦空间( Space efficiency)

索引存储空间大小可扩展性( Scalability)

◦效率随规模的变化

评价指标

Page 12: 业务 过程模型 库索引技术 研究

基于结构的精确查询◦基于 feature:GraphGrep (PODS2002)、 gIndex

(SIGMOD2004,TODS2005)、 TreePi (ICDE2007)、 Tree+Delta (VLDB2007)、 FG-Index (FG*-Index) (SIGMOD2007,TODS2009)、 Swift-index (PVLDB2008)

◦基于 closure:Closure-tree (ICDE2006)◦基于分解:GDIndex (ICDE2007)◦基于编码: summarization graph index

(DASFAA2008)、Gstring (ICDE2007)、Gcoding (EDBT2008)◦ Diskbased benchmark: iGraph (PVLDB2010)

基于结构的相似检索◦ RASCAL (THE COMPUTER JOURNAL 2002)◦ Grafil (SIGMOD2005,TODS2006)

相关研究 1——图数据库管理

Page 13: 业务 过程模型 库索引技术 研究

AIDS Antiviral Screen dataset ◦ Chemical molecule

Count: 43,905 Avg: 25.4 vertices and 27.3 edges Max: 222 vertices and 251 edges Labels: 62 (vertex) and 3 (edge)

常用数据库

Page 14: 业务 过程模型 库索引技术 研究

有向图,唯一的源点和终点,边不带标签,变迁结点带标签(任意长度字符串)◦ Label多,频繁子图少◦需要考虑 label的相似性◦存在模型嵌套◦具有行为语义

业务过程模型特点

Register order

Prepare shipment

Ship goods

Send bi l l

Contact customer

Receive payment

Archive ordert7 p8p1 t1

p2

p3

t2

t3

t4

p4

p5

t5

t6

p6

p7

Check mai l sheet

By sea

By road

By ai r

Sign receipt

Page 15: 业务 过程模型 库索引技术 研究

BP-QL (VLDB2005,VLDB2006,IS2008) WISE (ICDE2009) VisTrail (SIGMOD2008) BPMN-Q (WWW2010,DASFAA2010)

n-gram index (ICWS2006) conf/otm/YanDG10 (CoopIS2010)

相关研究 2——业务过程模型查询

Page 16: 业务 过程模型 库索引技术 研究

Label相似性的考虑 基于结构的精确检索

◦ PathIndex 基于结构的相似检索

◦ TaskEdgeIndex 基于行为的精确检索

◦ TaskRelationIndex 基于行为的相似检索

◦ TARIndex

http://code.google.com/p/beehivez/

我们的工作

Page 17: 业务 过程模型 库索引技术 研究

用户决定是否考虑 label相似性用户在查询处理过程决定 label相似性阈值 Filtering:扩展查询条件 Verfication:结合 label相似性构造独立于其它索引的 label索引

Label相似性考虑

Page 18: 业务 过程模型 库索引技术 研究
Page 19: 业务 过程模型 库索引技术 研究

行为计算基于 unfolding技术基于行为的查询

[p1]A

p1 A

p2 p4

p6

B

C

D

p3 p5

(a) A Petri net

[p2, p3]

[p2, p5]

[p3, p4]

[p4, p5] [p6]

B

C B

C

D

p7Ep0 I

F

p1 Ap2 p4

p6B

CD

p3 p5 p7Ep0 I

F p1

[p0]I [p7]

E

F

(b) Reachability graph of the Petri net in (a)

(c) Complete prefix unfolding of the Petri net in (a)

G

G

G p7

Page 20: 业务 过程模型 库索引技术 研究

借鉴上下文无关文法◦ FIRST◦ FOLLOW◦ SELECT

未完工作——模型嵌套处理

A

B

pn1

C

D

pn2

E

F

pn3

A E

查询样例

Page 21: 业务 过程模型 库索引技术 研究

未完工作——基于bisimulation的相似性度量

AB

CD

AB

CD

C

B

pn1

pn2

pn1和 pn2等价吗?

Page 22: 业务 过程模型 库索引技术 研究
Page 23: 业务 过程模型 库索引技术 研究

http://code.google.com/p/beehivez/

Page 24: 业务 过程模型 库索引技术 研究

Q & A

Page 25: 业务 过程模型 库索引技术 研究

业务过程模型样本特征

数据集

模型数

变迁总数

路由变迁

标签总数# 1.0 0.9 0.8 0.7 0.6 0.5

DG 114 1035 153 819 806 802 747 710 595 464SAP 591 4013 1653 3146 3062 3058 2786 2693 2366 2036TC 123 1595 352 1262 1252 1249 1183 1136 1009 818

数据集

模型数

变迁数 库所数 弧数 图密度Avg Max Avg Max Avg Max Avg Max

DG 114 9 34 9.7 33 19.3 70 0.1 0.5SAP 591 6.8 53 10.6 65 17.7 142 0.2 0.5TC 123 13 39 11.5 32 26.3 80 0.1 0.2

Page 26: 业务 过程模型 库索引技术 研究

DG(114)

# 1.0 0.9 0.8 0.7 0.6 0.5

2/114 60478(33)

60481(35)

60481(35)

61084(47)

61073(46)

179607(50)

70567(67)

4/114 416(7)

416(7)

416(7)

419(11)

437(13)

434(10)

440(17)

7/114 59(7)

59(7)

59(7)

102(7)

122(9)

122(9)

122(8)

## 8/114 8/114 8/114 8/114 9/114 9/114 9/114

业务过程模型库频繁子图

Page 27: 业务 过程模型 库索引技术 研究

SAP(591)

# 1.0 0.9 0.8 0.7 0.6 0.5

4/591 1747(141)

1922(154)

1922(154)

2298(178)

2303(192)

3862(237)

2554(329)

6/591 199(84)

203(97)

203(97)

216(122)

219(125)

270(188)

322(270)

10/591 8(10)

8(10)

8(10)

9(20)

9(20)

18(69)

34(190)

## 11/591 11/591 11/591 11/591 11/591 33/591 44/591

业务过程模型库频繁子图

Page 28: 业务 过程模型 库索引技术 研究

TC(123)

# 1.0 0.9 0.8 0.7 0.6 0.5

3/123 2(15)

4(17)

4(17)

10(23)

13(26)

27(42)

81(73)

7/123 2(15)

2(17)

2(17)

2(17)

2(17)

2(17)

2(17)

10/123 1(10)

2(17)

2(17)

2(17)

2(17)

2(17)

2(17)

## 11/123 11/123 11/123 11/123 11/123 11/123 11/123

业务过程模型库频繁子图

Page 29: 业务 过程模型 库索引技术 研究

W(l): l中单词个数 SCW(l1,l2): l1中单词能在 l2中找到同义词的个数可替换为其他基于的 term的相似性度量

Label相似性度量