Transcript
Page 1: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

基于 RDF 自适应存储的 SPARQL查询技术优化研究

Page 2: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

大纲 动机 内容 方案 参考

Page 3: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

动机 互联网开放环境下数据管理新需求

企业信息系统SOADB2 9.0 PureXML

电子政务系统 搜索引擎 共同特点

XML 数据数据标签统一

Page 4: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

本体数据管理研究现状 本体存储研究

基于关系数据库基于原生态系统基于内存

数据库模式自适应研究 查询语言研究

SPARQL SQL 转换查询优化系统实现

实验室已有工作 经济学示范主题语义网 本体库管理系统技术研究 -- 双库结构

总结 自适应存储 – 基于 RDF SPARQL 的调整

Page 5: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

内容 RDF 数据存储模式的自适应技术

代价模型 稀疏表的分块 本体结构偏斜度 自调优日志和查询日志

实现 模式分析 模式调整 模式日志管理 调度器

对关系数据库存储管理的修改 LOB 数据 传递闭包索引 实例数据库与本体的映射表

Page 6: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

基于模式自适应的 SPARQL 查询 SPARQL SQL 动态转换

需要嵌入到数据库 查询优化

模式动态变化带来的查询效率查询自身的效率问题 – 传递闭包索引的使用语义不匹配 – OPTIONAL VS 左外连接

CODE3.0 体系结构 扩展的关系数据库 SPARQL 查询引擎

Page 7: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

_:a rdf:type foaf:Person

_:a foaf:name "Alice"

_:a foaf:mbox <mailto:[email protected]>

_:a foaf:mbox <mailto:[email protected]>

_:b rdf:type foaf:Person

_:b foaf:name "Bob"

SELECT ?name ?mbox

WHERE

{

?x foaf:name ?name .

OPTIONAL { ?x foaf:mbox ?mbox }

}

Name Mbox

"Alice" <mailto:[email protected]>

"Alice" <mailto:[email protected]>

"Bob"

Page 8: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

id rdf:type foaf:name

_:a foaf:Person "Alice"

_:b foaf:Person "Bob"

id foaf:mbox

_:a <mailto:[email protected]>

_:a <mailto:[email protected]>

A B

id rdf:type foaf:name foaf:mbox

_:a foaf:Person "Alice" <mailto:[email protected]>

_:a foaf:Person "Alice" <mailto:[email protected]>

_:b foaf:Person "Bob"

Page 9: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

D = { (B1, name, paul),(B1, phone, 777-3426),

(B2, name, john),(B2, email, [email protected]),

(B3, name, george),(B3, webPage, www.george.edu),

(B4, name, ringo),(B4, email, [email protected]),

(B4, webPage, www.starr.edu),(B4, phone, 888-4537)

}

Page 10: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

?A ?N ?E ?W

B1 Paul

B2 john [email protected]

B3 george www.george.edu

B4 ringo [email protected] www.starr.edu

?A ?N ?E ?W

B1 Paul

B2 John [email protected]

B3 george

B4 ringo [email protected] www.starr.edu

P2 = (((?A, name, ?N) OPT (?A, email, ?E)) OPT (?A, webPage, ?W))

P3 = ((?A, name, ?N) OPT ((?A, email, ?E) OPT (?A, webPage, ?W)))

Page 11: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

CODE3.0

SPARQL 查询引擎SPARQL 查询引擎优化器 转换器

关系数据库

SQL引擎SQL引擎

概念库 实例库

存储管理存储管理 模式自调优模块模式分析

(代价模型)

模式日志管理

调度器

模式调整

索引管理传递闭包索引

……

数据管理LOB 模式映射表

Page 12: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

方案与特色 离线调整 在线调整 难点

代价模型的建立 存储模式的分析 – NP

启发式 + 代价模型 模式调整过程中的吞吐率 实验数据 SPARQLSQL 的优化问题 传递闭包计算 语义不匹配

特色 模式变化的存储 – 与网络资源管理相结合

Page 13: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

参考 Wide Table

Eric Chu – SIGMOD 2007 Big Table

Fay Chang – OSDI 2006 Vertical Partitioning

Shamkant Navathe – SIGMOD Record 1989

Page 14: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

Data Partitioning

Useful for creating materialized projection views and covering indexes

speaker form factor

speaker qtyspeaker driver

speaker diameter

speaker type

Wide Table

Page 15: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

BigTable•<Row, Column, Timestamp> triple for key - lookup, insert, and delete API

•Arbitrary “columns” on a row-by-row basis

•Column family:qualifier. Family is heavyweight, qualifier lightweight

•Column-oriented physical store- rows are sparse!

•Does not support a relational model

•No table-wide integrity constraints

•No multirow transactions

列 anchor:cnnsi.com是指向 cnn 的网页

写成 com.cnn.www 是为了把 cnn 的网页聚到一起

Page 16: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

Vertical Partitioning

Page 17: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究
Page 18: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

Thank You !

Q&A


Top Related