基于 rdf 自适应存储的 sparql 查询技术优化研究
DESCRIPTION
基于 RDF 自适应存储的 SPARQL 查询技术优化研究. 大纲. 动机 内容 方案 参考. 动机. 互联网开放环境下数据管理新需求 企业信息系统 SOA DB2 9.0 PureXML 电子政务系统 搜索引擎 共同特点 XML 数据 数据标签统一. 本体数据管理研究现状 本体存储研究 基于关系数据库 基于原生态系统 基于内存 数据库模式自适应研究 查询语言研究 SPARQL SQL 转换 查询优化 系统实现 实验室已有工作 经济学示范主题语义网 本体库管理系统技术研究 -- 双库结构 总结 - PowerPoint PPT PresentationTRANSCRIPT
基于 RDF 自适应存储的 SPARQL查询技术优化研究
大纲 动机 内容 方案 参考
动机 互联网开放环境下数据管理新需求
企业信息系统SOADB2 9.0 PureXML
电子政务系统 搜索引擎 共同特点
XML 数据数据标签统一
本体数据管理研究现状 本体存储研究
基于关系数据库基于原生态系统基于内存
数据库模式自适应研究 查询语言研究
SPARQL SQL 转换查询优化系统实现
实验室已有工作 经济学示范主题语义网 本体库管理系统技术研究 -- 双库结构
总结 自适应存储 – 基于 RDF SPARQL 的调整
内容 RDF 数据存储模式的自适应技术
代价模型 稀疏表的分块 本体结构偏斜度 自调优日志和查询日志
实现 模式分析 模式调整 模式日志管理 调度器
对关系数据库存储管理的修改 LOB 数据 传递闭包索引 实例数据库与本体的映射表
基于模式自适应的 SPARQL 查询 SPARQL SQL 动态转换
需要嵌入到数据库 查询优化
模式动态变化带来的查询效率查询自身的效率问题 – 传递闭包索引的使用语义不匹配 – OPTIONAL VS 左外连接
CODE3.0 体系结构 扩展的关系数据库 SPARQL 查询引擎
_:a rdf:type foaf:Person
_:a foaf:name "Alice"
_:a foaf:mbox <mailto:[email protected]>
_:a foaf:mbox <mailto:[email protected]>
_:b rdf:type foaf:Person
_:b foaf:name "Bob"
SELECT ?name ?mbox
WHERE
{
?x foaf:name ?name .
OPTIONAL { ?x foaf:mbox ?mbox }
}
Name Mbox
"Alice" <mailto:[email protected]>
"Alice" <mailto:[email protected]>
"Bob"
id rdf:type foaf:name
_:a foaf:Person "Alice"
_:b foaf:Person "Bob"
id foaf:mbox
_:a <mailto:[email protected]>
_:a <mailto:[email protected]>
A B
id rdf:type foaf:name foaf:mbox
_:a foaf:Person "Alice" <mailto:[email protected]>
_:a foaf:Person "Alice" <mailto:[email protected]>
_:b foaf:Person "Bob"
D = { (B1, name, paul),(B1, phone, 777-3426),
(B2, name, john),(B2, email, [email protected]),
(B3, name, george),(B3, webPage, www.george.edu),
(B4, name, ringo),(B4, email, [email protected]),
(B4, webPage, www.starr.edu),(B4, phone, 888-4537)
}
?A ?N ?E ?W
B1 Paul
B2 john [email protected]
B3 george www.george.edu
B4 ringo [email protected] www.starr.edu
?A ?N ?E ?W
B1 Paul
B2 John [email protected]
B3 george
B4 ringo [email protected] www.starr.edu
P2 = (((?A, name, ?N) OPT (?A, email, ?E)) OPT (?A, webPage, ?W))
P3 = ((?A, name, ?N) OPT ((?A, email, ?E) OPT (?A, webPage, ?W)))
CODE3.0
SPARQL 查询引擎SPARQL 查询引擎优化器 转换器
关系数据库
SQL引擎SQL引擎
概念库 实例库
存储管理存储管理 模式自调优模块模式分析
(代价模型)
模式日志管理
调度器
模式调整
索引管理传递闭包索引
……
数据管理LOB 模式映射表
方案与特色 离线调整 在线调整 难点
代价模型的建立 存储模式的分析 – NP
启发式 + 代价模型 模式调整过程中的吞吐率 实验数据 SPARQLSQL 的优化问题 传递闭包计算 语义不匹配
特色 模式变化的存储 – 与网络资源管理相结合
参考 Wide Table
Eric Chu – SIGMOD 2007 Big Table
Fay Chang – OSDI 2006 Vertical Partitioning
Shamkant Navathe – SIGMOD Record 1989
Data Partitioning
Useful for creating materialized projection views and covering indexes
speaker form factor
speaker qtyspeaker driver
speaker diameter
speaker type
Wide Table
BigTable•<Row, Column, Timestamp> triple for key - lookup, insert, and delete API
•Arbitrary “columns” on a row-by-row basis
•Column family:qualifier. Family is heavyweight, qualifier lightweight
•Column-oriented physical store- rows are sparse!
•Does not support a relational model
•No table-wide integrity constraints
•No multirow transactions
列 anchor:cnnsi.com是指向 cnn 的网页
写成 com.cnn.www 是为了把 cnn 的网页聚到一起
Vertical Partitioning
Thank You !
Q&A