理解和利用关联数据 --图情档博(lam)作为关联数据的提供者和消费者

37
理理理理理理理理理 理理理理理 --( LAM 理理理理理理理理理理理理理理 理理理理理 Marcia Lei Zeng 曾曾 Kent State University 曾曾曾曾曾“曾曾曾曾曾曾曾曾曾曾曾曾曾曾 2012.07.20-23, 曾曾曾曾曾”曾曾曾曾曾曾曾曾曾 http://www.slideshare.net/mzeng/lam-13972499

Upload: aims-agricultural-information-management-standards

Post on 07-Aug-2015

1.413 views

Category:

Education


13 download

TRANSCRIPT

Page 1: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

理解和利用关联数据--图情档博( LAM)作为关联数据的提供者和消费者

观念之转变Marcia Lei Zeng 曾蕾Kent State University

本讲座与在“关联数据技术与应用专题研讨班2012.07.20-23, 上海图书馆”的发言相呼应, 请参考

http://www.slideshare.net/mzeng/lam-13972499

Page 2: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

关联数据• 关联数据是国际互联网协会(W3C)推荐的一种规范,用来发布和联接各类数据、信息和知识– 在现有的万维网基础上,建立一个映射所有自然、社会和精神世界的数据网络

– 通过对大千世界万事万物及其相互之间关系进行机器可读的描述,使互联网进化为一个富含语义的、互联互通的知识海洋

– 任何人都能够借助整个互联网的计算设施和运算能力,在更大范围内,准确、高效、可靠地查找、分享、利用和关联信息和知识。

– 根据刘炜, 2011

Page 3: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

大纲1. 从文献的网络到数据的网络 2. 从小而全的自给自足方式

到去中心的、模块化的联合方式 3. 从放在网上到成为网的构架 4. 从“记录”到“陈述”

Page 4: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

1. 从文献的网络到数据的网络 Web of Documents Web of Data

Image from: http://24.media.tumblr.com/tumblr_lycejnya9w1qz6mrqo1_500.jpg

1989年伯纳斯 -李 Tim Berners-Lee写下了他的万维网初步构想。

Page 5: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

Photographer: Webb Chappellhttp://infostory.com/2010/09/02/tim-berners-lee-september-2009/

2009 年,他号召大家拿出原始数据进行关联

1. 从文献的网络到数据的网络 Web of Documents Web of Data

Page 6: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

Resource 不止是网页,文献资源,人、机构、物件、地里位置、主题概念都是资源联结不止是 links to 网页资源,而是通过对关系的描述来联结各种事物

语义网并不是天生的那么复杂而不可及,语义网语言的中心实际上非常简单,那就是事物之间的关系。-- Q&A with Tim Berners-Lee BusinessWeek Special Report April 9, 2007

Page 7: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

要做到这样,条件是什么?

# 1. 使用 URI (统一资源标识符)作为任何事物的标识名称Use URIs as names for things

资源 = 任何有 URI标识的东西就图书馆、信息中心、博物馆、档案馆、特藏等( LAM )而言,这是第一个要解决的问题。很多完成的数字信息服务成果还没有给其中包括的每个事物予以唯一的标识符号( identifier )。

Page 8: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

关联开放数据 -- 四项基本原则:Linked Open Data Basics

1. 使用 URI 作为任何事物的标识名称– Use URIs as names for things

2. 使用 HTTP URI 使任何人都可以访问名称– Use HTTP URIs so that people can look up those names

3. 当有人访问名称时,提供有用的 [rdf] 信息– When someone looks up a name, provide useful [rdf]

information

4. 尽可能提供相关的 URI 以使人们发现更多的信息– Include links to other URIs so that they can discover more

things

刘炜翻译 , 2008 12

Burners-Lee, Linked Data - Design Issues, 2006

Page 9: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

2. 从小而全的自给自足方式到去中心的、模块化的联合方式

Image: T.B.Lee at TED 2009 conference, "The Great Unveiling" in Long Beach, CA. USA, 4, Feb 2009

Page 10: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

1

2

3

4

5

三个又累又饿的士兵看到一个村庄

农人都赶快把食品藏起来

Page 11: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

6 7

8

9 10

Page 12: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

11

12

Page 13: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

Linking Open Data cloud diagram by RichardCyganiak and Anja Jentzsch. http://lod-cloud.net/

Linking Open Data ( LOD) 数据集云图 (as of 2011-09, dataset: 295); 实际组里已有 334 。

跨专业

生命科学

政府

媒体

地理

出版物

网络时代的石头汤 LOD

就图书馆、信息中心、博物馆、档案馆、特藏等( LAM )而言,让自己的数据“走出去”或者将别人的数据“请进来”都是可行方案。

Page 14: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

CKAN 关联数据中心 CKAN - the Data Hub ( 共有 5070 datasets) •其中最有名的一个组是关联的开放数据 LOD 云组, 云图中现含 295 个数据集 http://ckan.net/group/lodcloud 实际上该组已有 334 个。

•其它几十个组见 : http://ckan.net/group. 一个数据集可以注册到多个组,其中有些数据集也上了 LOD 云。

• 图书馆关联数据组 http://ckan.net/group/lld (现含 57 个数据集,大多数联接都是与非图书馆数据的联接)

• 文献书目数据组 : (现含 89 个数据集)• 艺术、气象数据、实验数据、考古、经济、能源数据、

地理、语言、国际发展数据、政府数据(加拿大、澳大利亚、英国等)。有些在试验阶段,有些还不开放。

•数据集的发行格式(可获取格式): CSV | RDF | XML | XBRL | SDMX | HTML+RDFa | 其它 LOD Cloud group

334 datasets

根据 2013年 1月 26 日数据

Page 15: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

3. 从放在网上到成为网的构架 On the Web Of the Web

Kobilarov et al., 2009

links from http://marciazeng.slis.kent.edu

英国广播公司的关联的数据 :本人的网页 , 通过超文本链接连到我的各项目网页 :

Page 16: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

我的数据中有哪些可以链接的字符串( string )

我的数据中包括哪些种类的事物资源 ( thing )

作品作品

source: from 中国国家图书馆opac.nlc.gov.cn/F

地点地点 时间时间

学科专业学科专业

人物人物

机构机构

换一种方式思考

主题概念主题概念

Page 17: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

例:欧洲数字图书馆 -目前分面检索方式

数据量太大,而且是 ' 别人的 ' 数据, 100多种格式,多语种,字段从只有 5 个到有 100 多的。

超检索只能利用到表面这一层:文件类型,语言,年代,国家,版权,提供者

根据 Antoine Isaac, 2010 ,截屏 2013-01-26

Page 18: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

走向能够采用语意的检索 Towards semantics-enabled search

建设一个语意层 "semantic layer" 来帮助深入到内容里

根据 Antoine Isaac, 2010

• 深入到各种关系( "located in", "lived in", "is more specific concept" );

• 利用规范词汇(分类法、主题词表、规范文档)

• 自动根据提问扩检

• 对检索结果自动聚类

• 发布开放的关联数据集让更多人联结

Page 19: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

• 关联数据是一种在网络中发布、分享、互相联接结构化的数据的方法• 主要建立在 3 种技术上:

– 用统一资源标识符 (Uniform Resource Identifier, URI) 来指代任何资源(真实世界物质、主题概念)

– 用RDF 三段式来描述和联接任何资源*

– 用HTTP 来检索资源或者检索对资源的描述

*RDF (资源描述框架)是语义网的语法。如果大家都采用同样的语法来描述事物资源,数据之间的交流就不会发生误解。

张三=“ http://…”武汉=“ http://…”《围城》=“ http://…”“辛亥革命”=“ http://…”… …

数据中对凡是有 URI 的资源,都用 URI指代。

不要说“武汉”,说 <http://dbpedia.org/page/Wuhan>

4. 从“记录”到“陈述”records statements

Page 20: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

* RDF 三段式: 事物—特性—值 (主体 - 谓词 - 客体) xxx -出生地-武汉 武汉-有事件-武昌起义

武昌起义-相关人物- xxx 武汉-人口为- 831.26万

31 2

资源A

资源A

资源A

资源A

资源B

资源B

与。。。相关

文字数据文字数据

被描述为张三张三名称为

http:// 某地http:// 某地

http:// 某事件http:// 某事件

有事件

http:// 某人http:// 某人

用 RDF 三段式来描述和联接任何资源:

Page 21: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

005557165

005557165

题名 史蒂夫 乔布斯传

005557165005557165著者 (美)艾萨克森

( Isaacson,Walter )005557165005557165

主题Jobs, Steve, 1955-2011

• 把‘记录’打开• 行成一条条的陈述(三段

式)• 在 RDF 三段式中,用 http

URI指代所有事物-比如,将作者名称字符串

换成名称规范文档中给他的 URI (下页)

Page 22: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

schema:about

<http://www.worldcat.org/oclc/758488991>

<http://id.loc.gov/authorities/names/n87883336>

<http://www.worldcat.org/oclc/758488991>

<http://www.worldcat.org/oclc/758488991>schema:author

<http://id.loc.gov/authorities/names/n83038709>

schema:name“史蒂夫 乔布斯传“

005557165

005557165

题名 史蒂夫 乔布斯传

005557165005557165著者

(美)艾萨克森( Isaacson,Walter )

005557165005557165主题

Jobs, Steve, 1955-2011

用 http URI指代所有事物

Page 23: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

1

2 3

1. 使用 URI作为任何事物的标识名称

2. 使用 HTTP URI使任何人都可以访问名称

3.当有人访问名称时,提供有用的 [rdf]信息

4.尽可能提供相关的 URI以使人们发现更多的信

这 4点是关联数据的四项基本原则

Page 24: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者
Page 25: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

25

RDF表述图的联接(示意)

主体 谓词 客体=主体

客体

谓词 客体

3

3

1

2

1 2

Background image borrowed from Andrea Kosavic: The Semantic Web, (some of) what you need to know. OLA Superconference 2009.01.30. Compiled by mzeng 2009-03-06.

注意:•是格式化数据的相联,不是文本的相联;•是机器可理解和可处理的数据;•是对现有数据的再利用;•产生新的资源;其又被利用、再利用•可无限扩展下去

Page 26: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

Tom Baker 的“菜谱”1. 决定你的数据中哪些最重要(如:主题、著者、

出版者等)。2. 在任何可能的情况下,用 URI作为事物的名称

(例如主题概念用联合国粮农组织的《农业主题词表》 Agrovoc 给概念的 URI )。

3. 将你的数据发布到网上,这样别人就能跟你关联了。

4. 保持简单,事半功倍。

翻译自 Baker, 2012

Page 27: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

Slide based on Tom Baker "The concepts of knowledge organization systems as hubs in the Web of data". UDC 2011 Seminar. http://seminar.udcc.org/2011/index.htm

知识组织系统 KOS 里定义的概念能够起到‘汇合点’的作用,令分散的资源很容易地通过已发布的三段式用 URI 来关联起来。--这包括同系统内的资料,以及外界各种文献资源和事实性数据。

过去:同系统内的文献检索

过去:同系统内的文献检索

农业词表概念

农业信息检索系统记录

维基百科 RDF 版数据集

康乃尔大学知识网络中的专家

英国 BBC新闻

英国 BBC 网页

维基百科词条

Page 28: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

“ 在任何可能的情况下,用 URI作为事物的名称”--我们从哪里做起?

措施1. 尽早对每个资源给予固定的唯一的

URI2. 尽量采用已经发布为关联数据的值词汇(规范数据) VIAF, LCSH, Agrovoc 等

3. 如果还没有做或者没有采用规范词汇,应该先进行规范

4. 如果采用的是自家的规范词汇,应该与 LOD值词汇映射

5. 元数据如果已经采用内部格式,要与发布成关联数据的元数据表和本体映射

LAM 的数据

文献数据-书目数据

-文献情报数据

事实数据 整合数据产品信息分析数据成果

规范数据• 受控词汇(主题、分类) • 人物机构名称规范• 地名规范• 产品规范

Page 29: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

措施 1. 尽早对每个资源给予固定的唯一的 URI

参见欧盟的欧洲行政互操作项目 ISA发布的关于 URI的调查报告和结论: 十条规则

Available at: https://joinup.ec.europa.eu/sites/default/files/D7.1.3%20-%20Study%20on%20persistent%20URIs.pdf

Page 30: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

• 在 CKAN 里有近 300 个数据集或者本身是值词汇,或者含有值词汇

查 "vocabularies" 得到 131 个

除去 11 个

共 120 个 ( 各种类型 )

查 "Bioportal" 得到 245 个

主要是非常专业领域的本体

同时也标为:结构化的词汇( structured vocabulary )

包括很多值词汇:•词单列表•字典•名称规范文档•分类法•标题表•主题词表•本体•术语注册系统

包括很多值词汇:•词单列表•字典•名称规范文档•分类法•标题表•主题词表•本体•术语注册系统

措施 2.尽量采用已经发布为关联数据的值词汇(规范数据)

Zeng, 2012

Page 31: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

• Agrovoc 、国会标题表、 dbpedia 已经与多个词汇映射,可以以之为桥梁措施 4.如果采用的自家的规范词汇,应该与 LOD值词汇映射

http://aims.fao.org/standards/agrovoc/linked-open-data

词表名称 主题范围 含概念数目 语种 关联数据 关联类型

《农业主题词表》

其它各种词汇

Page 32: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

http://sw.opencyc.org/concept/Mx4rvVjfjpwpEbGdrcN5Y29ycA

http://dbpedia.org/resource/Apple_Inc.

http://www.freebase.com/view/en/apple_inc

http://

data.nytimes.com/

6145302702357875852

http://www4.wiwiss.fu-berlin.de/flickrwrappr/photos/Apple_Inc.

CYC 本体

纽约时报

dbpedia

Freebase

dbpedia 图像

除了主题词汇以外,事实数据集也有很多映射,如 freebase, dbpedia, 纽约时报。与任何一个匹配,可有滚雪球效应。

Page 33: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

措施 5.元数据如果已经采用内部格式,要与发布成关联数据的元数据词汇和本体映射

参考资源: 1. W3C 图书馆关联数据孵化小组 : 数据集、属性值词汇和元数据元素集 ( 2011-10-25)译者:娄秀明 (同济大学图书馆)报告中列举了各种元数据词汇中文版 http://iskocn.org/lld/LLD_Datasets_Report_zh.html

2. Linked Open Vocabularies (LOV) (关联的开放词汇) 包括几百种发布成 RDF 的元数据词汇、本体,其互相引用、复用、和修改情况等 http://lov.okfn.org

Page 34: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

VIVO Core Ontology

The Statistical Core Vocabulary

别人采用 SCOVO 的: SCOVO采用别人的 :

别人采用 VIVO 的: VIVO采用别人的

基于扩充细化粗化。。。

source: Linked Open Vocabularies (LOV)

Page 35: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

相对于传统的 LAM 数据来说,关联的数据有如下优点

• 可分享 Shareable – 不管谁都能解析的唯一标识- URI– 可信赖的数据和元数据供大家使用

• 可无限伸展 Extensible – “无边无际的世界” - 没有什么描述是完成了的,任何人都可

以从他自己发布的空间添加描述信息

• 可再利用 Re-usable – 各种来源的描述谈的是同样的 thing – 完善、加注、等等

• 可国际化 Internationalizable– 多语种、翻译等都没有问题– 自然语言词串( strings )不被用来指代 things 。

This slide is based on a summary prepared by Antoine Isaac, for Talis Linked Data and Libraries day, London, July 14th 2011

Page 36: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

启示:图情博档在关联数据浪潮中属于什么角色?

• 作为关联数据的提供者– 书目信息资源、事实数据、整合数据产品、信息分析数据成果、受控名称规范文档、词表类表、元数据词汇、本体等

– 可供别人使用;直接利用规范成果• 作为关联数据的消费者

– 最起码的:将外面的 URI 请进来,或让自己资源的 URI被外面拿去联接

– 利用已有资源,扩充知识组织系统,充实元数据– 将各类文献目录和元数据变为知识服务的新起点,而不光是作为

一个提供查到、拿到文献的工具– 充分利用各种发布的关联数据资源去生产新的知识

http://www.slideshare.net/mzeng/lam-13972499

Page 37: 理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

参考文献 • Baker, Tom. (2011). The concepts of knowledge organization systems as hubs in the Web of data. UDC 2011 Seminar.

http://seminar.udcc.org/2011/index.htm• Baker, Tom. (2012). Linking your resources to the Data Web. Webinar presentation at "Linked Open Data @ AIMS", December 4, 2012.

http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web• Burners-Lee, Tim. (2006). Linked Data -Design Issues , 2006 http://www.w3.org/DesignIssues/LinkedData.html• 刘炜 . (2011). 关联数据:概念、技术及应用展望 . 大学图书馆学报 , 2011, 2• Q&A with Tim Berners-Lee. (2007). BusinessWeek Special Report April 9, 2007.• Cyganiak, Richard and Jentzsch, Anja. (2011). Linking Open Data cloud (diagram). http://lod-cloud.net/• CKAN. (2007?) The Data Hub. http://datahub.io/• 發人省思的繪本 -石頭湯 . (2007). 觀光資訊規劃與管理 . 2007-03-12日誌 . http://alturl.com/uo6og• Isaac, Antoine. ( 2010) . Semantic Web and Linked Data for cultural heritage materials Approaches in Europeana. Presentation at: DANS Linked

Data and RDF workshop, Den Haag, July 28th 2010. http://www.slideshare.net/antoineisaac/isaac-dans10• Zeng, Marcia Lei. (2012). The state of KOS in the Linked Data movement - The publishing, management, and interoperating of KOS for the Semantic

Web. Panel presentation at the ASIS&T 75th Annual Meeting, Baltimore, Maryland, October 26-30, 2012. PPT Available at: http://www.slideshare.net/MarciaZeng/zeng-asist2012

• Kobilarov, G et al. (2009). Media Meets Semantic Web – How the BBC Uses DBpedia and Linked Data to Make Connections. L. Aroyo et al. (Eds.): ESWC 2009, LNCS 5554, pp. 723–737, 2009. Springer-Verlag Berlin Heidelberg 2009. http://www.georgikobilarov.com/publications/2009/eswc2009-bbc-dbpedia.pdf