Download - Linked data: What for and How to
内容 什么是关联数据? 关联数据四原则 为什么要用关联数据? 关联数据与数字图书馆有什么关系? 关联数据应用举例 如何实现关联数据? 数据关联的知识产权问题
什么是关联数据? 由 Web 的发明人 Tim Berners-Lee 提出; 定义了一种 URI 规范,使得人们可以通过 HTTP/URI
机制,直接获得数字资源 (Thing) ; A richer Linking mechanism for the Web that takes
us from Hypertext Links (Document to Document) to Hyperdata Links (across things that documents are about) (一种 Web 上的富链接机制,将超文本链接( 由文件指向文件 ) 变为超数据链接 ( 链接文件所代表的事物 ) )
关联数据是实现 Data Web 的关键技术。
Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html
什么是 RDF ? RDF 是一个语法独立的数据模型 ( 不一定采用
XML) 可以以“主语 - 谓词 - 宾语”的三元组图形表
示 (A graph of triples) 所有的资源和术语都有 URI( 资源的定义 ) 空白节点 (Blank node) 是指没有全局 ID 的本
地资源 ( 没有定义命名域的 URI, 如 ISBN, DOI)
文本 (Literal) 指一个字串值 ( 可以有类型以及语言属性 )
完整解释请参见 http://www.rdfabout.com/ 以及 http://www.w3.org/TR/rdf-primer/.
什么是关联数据? 维基百科的定义:关联数据是一种推荐的
最佳实践,用来在语义网中使用 URI 和RDF 发布、分享、连接各类数据、信息和知识( “ a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.” )
什么是关联数据? 通俗地说,关联数据是数据的一种发布方式,
以 URL 的方式链接到一个数据对象,而不是一个文档。这个 URL 通常就是这个数据的URI ,并且这个数据对象基本上是由 RDF 来描述的(这样才能保证数据具有语义),而且RDF 文件中应该包含更多的由 URI 所标识的其它资源。
为什么叫关联数据?1 、 URI 所表示的是数据,而不是文档;2 、 URI 的数据资源以 RDF 形式表达,其中有
指向更多数据的 URI ,也就是链接;3 、 RDF 所表达的链接其实是有语义的,不是
仅仅一个 link 而已,而是表明了当前资源与被链接资源的关系。
关联数据的四项基本原则: 使用 URI 作为任何事物的标识名称,不仅是标识文
档 Use URIs as names for things
使用 HTTP URI ,使任何人都可以参引(dereference) 这一全局唯一的名称 Use HTTP URIs so that people can look up those names
当有人访问名称时,以 RDF 形式提供有用的信息 When someone looks up a name, provide useful
information
尽可能提供链接,指向其它的 URI ,以使人们发现更多的相关信息 Include links to other URIs so that they can discover more
things
为什么要关联数据?( 关联数据能够做什么?)
数据的 WEB 与关联数据的关系
来自: Alexandre Passant & Michael Hausenblas 在 WWW09(Madrid, Spain 2009-04-20) 上的演示“ Hello Open World!”
什么是数据的 WEB
信息资源对象越来越细小:从文献到数据; 信息资源需要结构化,有序组织(于是有各类
信息组织方式、语言); 信息服务的标准化、自助化、自动化(于是各
类私有的 API 和查询语言开始标准化); 上述特征再次证明了互联网和图书馆的一致性
数据的 WEB 的功能 提供统一的数据模型 (RDF) 提供统一的存取 API (RDF/SPARQL) 提供一致的语义描述方法 (RDFS/OWL) 提供可扩展的数据整合和混搭平台 提供了富于想象力的数据利用空间
趋势:从开放应用程序接口到开放数据
页面分析 •封闭系统CGI•大多数现有的一站式检索系统
基于API •数据封装,接口开放•Web Services, Mashup(开放服务)
开放数据 •REST, OpenURL•Linked Data
机器可理解,人也可读。
linkeddata.org/关联数据使 WEB 数据访问具有了标准统一的 API
关联数据与数字图书馆
图书馆 标准
能胜任新工作吗
?
图书馆关联数据的应用
术语注册的简单实现( DC 元数据) SKOS 作为关联数据( LCSH ) 书目数据(包括规范记录)作为关联数据:瑞典国家联合目录
各类实体的关联数据( FRBR 三类实体)
普遍存在的关联数据
举例
Slide © 2009, Thomson Reuters
QuickTime™ and aBMP decompressor
are needed to see this picture.
including Thomson Reuters
• 使用 Firefox插件 Tabulator浏览Tim Burners-Lee 的关联数据: http://www.w3.org/People/Berners-Lee/card
如何实现关联数据?
关联数据 URI 发布方式
Hash + data http 303 转向
详细请参见 How to publish Linked Data on the Web: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
( 该文档已由华东师大研究生史亚光翻译,即将公开)
关联数据的发布方式 (详细 )
URI 中避免使用空白节点,避免具体化 (reification) ,尽可能不使用 RDF 的集 (Collection) 和包 (Container)
内容协商 (Negotiation), URI 参引 (dereferencing), CoolURI (也就是采用 hash# 和 303转向方式指向资源)
RDF 链接 , URI 别名 本体 / 模式重用 , 术语定义最佳实践 在 RDF 描述中“必须包含”对该资源描述的内容 封装非 RDF 的数据库或 API, 使封闭世界的数据开放
出来
关联数据的知识产权声明
©无法适用
X• 数据及其服务的知识产权,无法适用版权保护声明。• 没有合适的知识产权保护规范,不利于开放数据链
接。
http://i
d.loc.g
ov/authoriti
es/about.h
tml#aboutT
OS
Open Data Commons
开放数据共用 (Open Data Commons) 是一种开放数据的知识产权声明
用以规范、约束、明确数据拥有着、发布者、使用者在获取、传播、利用、再生产数据时的权利和义务。
是一个 Open Knowledge基金会的项目 2008年 3月提出了第一种授权形式 PDDL(Public
Domain Dedication and License) 定义: A piece of knowledge is open if you are free
to use, reuse, and redistribute it (http://www.opendefinition.org/1.0/)
目前的两种形式
Public Domain Dedication and License (PDDL) — “Public Domain for data/databases”
Open Database License (ODbL) — “Share-Alike for data/databases”
定义和内容都还在不断发展变化中 中文版正在翻译,将在 nkos.org 中发布和
维护。
关联协议 Connected Commons
包含两种形式 : Open Data Commons Public Domain Dedicati
on Creative Commons CC0 license
由 Talis 提出,为了使 Talis 作为一个开放数据的服务商,吸引更多的数据提供商,开拓其 Web3.0 和云计算 (SaaS) 服务
关于 Open Data Commons 和 CC ,也已经请华东师大研究生李佳佳翻译,校对后即将公开。
展望
简单,可靠,灵活,松散耦合,富语义,自定义;
关联数据正在成为语义网的杀手应用; 链接无限,关联无限,语义无限;链接数
据将无所不在; 提供了进一步语义功能(包括推理)的一
个基础平台,语义网将从这里起飞。
谢谢!