基于 rdf 自适应存储的 sparql 查询技术优化研究

18
基基 RDF 基基基基基基 SPARQL 基基基基基基 基基

Upload: sandra-neal

Post on 04-Jan-2016

67 views

Category:

Documents


7 download

DESCRIPTION

基于 RDF 自适应存储的 SPARQL 查询技术优化研究. 大纲. 动机 内容 方案 参考. 动机. 互联网开放环境下数据管理新需求 企业信息系统 SOA DB2 9.0 PureXML 电子政务系统 搜索引擎 共同特点 XML 数据 数据标签统一. 本体数据管理研究现状 本体存储研究 基于关系数据库 基于原生态系统 基于内存 数据库模式自适应研究 查询语言研究 SPARQL  SQL 转换 查询优化 系统实现 实验室已有工作 经济学示范主题语义网 本体库管理系统技术研究 -- 双库结构 总结 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

基于 RDF 自适应存储的 SPARQL查询技术优化研究

Page 2: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

大纲 动机 内容 方案 参考

Page 3: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

动机 互联网开放环境下数据管理新需求

企业信息系统SOADB2 9.0 PureXML

电子政务系统 搜索引擎 共同特点

XML 数据数据标签统一

Page 4: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

本体数据管理研究现状 本体存储研究

基于关系数据库基于原生态系统基于内存

数据库模式自适应研究 查询语言研究

SPARQL SQL 转换查询优化系统实现

实验室已有工作 经济学示范主题语义网 本体库管理系统技术研究 -- 双库结构

总结 自适应存储 – 基于 RDF SPARQL 的调整

Page 5: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

内容 RDF 数据存储模式的自适应技术

代价模型 稀疏表的分块 本体结构偏斜度 自调优日志和查询日志

实现 模式分析 模式调整 模式日志管理 调度器

对关系数据库存储管理的修改 LOB 数据 传递闭包索引 实例数据库与本体的映射表

Page 6: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

基于模式自适应的 SPARQL 查询 SPARQL SQL 动态转换

需要嵌入到数据库 查询优化

模式动态变化带来的查询效率查询自身的效率问题 – 传递闭包索引的使用语义不匹配 – OPTIONAL VS 左外连接

CODE3.0 体系结构 扩展的关系数据库 SPARQL 查询引擎

Page 7: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

_:a rdf:type foaf:Person

_:a foaf:name "Alice"

_:a foaf:mbox <mailto:[email protected]>

_:a foaf:mbox <mailto:[email protected]>

_:b rdf:type foaf:Person

_:b foaf:name "Bob"

SELECT ?name ?mbox

WHERE

{

?x foaf:name ?name .

OPTIONAL { ?x foaf:mbox ?mbox }

}

Name Mbox

"Alice" <mailto:[email protected]>

"Alice" <mailto:[email protected]>

"Bob"

Page 8: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

id rdf:type foaf:name

_:a foaf:Person "Alice"

_:b foaf:Person "Bob"

id foaf:mbox

_:a <mailto:[email protected]>

_:a <mailto:[email protected]>

A B

id rdf:type foaf:name foaf:mbox

_:a foaf:Person "Alice" <mailto:[email protected]>

_:a foaf:Person "Alice" <mailto:[email protected]>

_:b foaf:Person "Bob"

Page 9: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

D = { (B1, name, paul),(B1, phone, 777-3426),

(B2, name, john),(B2, email, [email protected]),

(B3, name, george),(B3, webPage, www.george.edu),

(B4, name, ringo),(B4, email, [email protected]),

(B4, webPage, www.starr.edu),(B4, phone, 888-4537)

}

Page 10: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

?A ?N ?E ?W

B1 Paul

B2 john [email protected]

B3 george www.george.edu

B4 ringo [email protected] www.starr.edu

?A ?N ?E ?W

B1 Paul

B2 John [email protected]

B3 george

B4 ringo [email protected] www.starr.edu

P2 = (((?A, name, ?N) OPT (?A, email, ?E)) OPT (?A, webPage, ?W))

P3 = ((?A, name, ?N) OPT ((?A, email, ?E) OPT (?A, webPage, ?W)))

Page 11: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

CODE3.0

SPARQL 查询引擎SPARQL 查询引擎优化器 转换器

关系数据库

SQL引擎SQL引擎

概念库 实例库

存储管理存储管理 模式自调优模块模式分析

(代价模型)

模式日志管理

调度器

模式调整

索引管理传递闭包索引

……

数据管理LOB 模式映射表

Page 12: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

方案与特色 离线调整 在线调整 难点

代价模型的建立 存储模式的分析 – NP

启发式 + 代价模型 模式调整过程中的吞吐率 实验数据 SPARQLSQL 的优化问题 传递闭包计算 语义不匹配

特色 模式变化的存储 – 与网络资源管理相结合

Page 13: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

参考 Wide Table

Eric Chu – SIGMOD 2007 Big Table

Fay Chang – OSDI 2006 Vertical Partitioning

Shamkant Navathe – SIGMOD Record 1989

Page 14: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

Data Partitioning

Useful for creating materialized projection views and covering indexes

speaker form factor

speaker qtyspeaker driver

speaker diameter

speaker type

Wide Table

Page 15: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

BigTable•<Row, Column, Timestamp> triple for key - lookup, insert, and delete API

•Arbitrary “columns” on a row-by-row basis

•Column family:qualifier. Family is heavyweight, qualifier lightweight

•Column-oriented physical store- rows are sparse!

•Does not support a relational model

•No table-wide integrity constraints

•No multirow transactions

列 anchor:cnnsi.com是指向 cnn 的网页

写成 com.cnn.www 是为了把 cnn 的网页聚到一起

Page 16: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

Vertical Partitioning

Page 17: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究
Page 18: 基于 RDF 自适应存储的 SPARQL 查询技术优化研究

Thank You !

Q&A