南宁会议 metadata
DESCRIPTION
TRANSCRIPT
DCMI Metadata UpdatesDCMI元数据进展
112009年11月4日星期三
ContentsDC元数据
DC应用纲要(DCAP)
DC抽象模型与新加坡框架
描述集纲要(DSP)及其编码
什么是规范的元数据应用纲要(举例)
当前国内元数据应用中的问题
未来(规范控制、RDA等)
222009年11月4日星期三
Elements1. Identifier2. Title3. Creator4. Contributor5. Publisher6. Subject7. Description8. Coverage9. Format10. Type11. Date12. Relation13. Source14. Rights15. Language
来自Tom Baker的演示文稿
不断增长的元素
552009年11月4日星期三
Elements1. Identifier2. Title3. Creator4. Contributor5. Publisher6. Subject7. Description8. Coverage9. Format10. Type11. Date12. Relation13. Source14. Rights15. Language
AbstractAccess rightsAlternativeAudienceAvailableBibliographic citationConforms toCreatedDate acceptedDate copyrightedDate submittedEducation levelExtentHas formatHas partHas versionIs format ofIs part of
Is referenced byIs replaced byIs required byIssuedIs version ofLicenseMediatorMediumModifiedProvenanceReferencesReplacesRequiresRights holderSpatialTable of contentsTemporalValid
RefinementsBoxDCMITypeDDCIMTISO3166ISO639-2LCCLCSHMESHPeriodPointRFC1766RFC3066TGNUDCURIW3CTDF
EncodingsCollectionDatasetEventImageInteractive ResourceMoving ImagePhysical ObjectServiceSoftwareSoundStill Image
Types
来自Tom Baker的演示文稿
不断增长的元素
552009年11月4日星期三
DC元数据标准规范体系
DC 1.0
{Element | (DCMES, DCTerms)}
DC 2.0
{Element | DCAMDCAP(DCTerms++)}
662009年11月4日星期三
元数据应用纲要(DCAP)
元数据工作的最重要的目标:制定AP
适用于领域应用(可以是标准文件)
包含元数据元素、相互关系及元素取值
的各种规定
元素和取值的术语尽可能重用
可以推荐编码方式,并制定编码规范
772009年11月4日星期三
新加坡框架(来自Tom Baker)
8
应用指南
功能需求 领域模型元素集描述
编码指南与数据格式
社区领域模型
元素词表DCMI抽象模型
DCMI句法指南
RDF/S RDF
标注 Annotate
建立基础
建立基础
建立基础
使用
使用 建立
基础建立基础
建立基础
建立基础
建立基础
建立基础基础标准
领域标准
DC应用纲要
新加坡框架提出了一个完整的框架,解决了“元数据规范体系包括哪些部分,各部分的相关关系是什么”的问题。
82009年11月4日星期三
元数据应用纲要的内容应用指南(可选)
规定元数据应用的目的和范围
功能需求(应备)
领域模型(必须)
包含功能需求所涉及的所有实体的数据模型
描述集纲要(必须)
描述所涉及的所有“类”及其“属性”,及其各类约束
编码规范(可选)
992009年11月4日星期三
应用指南对于所适用领域应用该元数据纲要(规范)的目的
和范围的说明,应该回答下列问题:
该应用纲要是否已经被/能够被哪些领域/类型的应用所采用?
应用纲要的目标用户群是谁?
应用纲要是由哪些组织机构或个人参与制定的,为什么
制定?
该应用纲要如需进一步开发和维护,包括部署、编写或
修改指南等,是否有责任实体?是谁?
10102009年11月4日星期三
功能需求
功能需求的详略程度决定了一个应用纲要适用范围
作为领域应用标准(如科技部项目)
作为系统开发文档
作为前者,通常可以笼统地定义这类功能需求,
如“find”, “identify”, “select”, “obtain”,也可以进行详细定义
11112009年11月4日星期三
领域模型是一种数据模型,而不是抽象模型
通常以“实体关系”模型建立,包含所涉及的、满足系统功能需求的所有实体及相互之间关系的描述
可以采用图形方式(例如用UML类图),也可以采用文本说明
可以复用或参考其它的外部定义的数据模型。
需要回答以下问题:
该模型是否析出了足够的实体,并描述了它们之间的关
系?
如果该模型采用了外部定义的数据模型,该模型是否被
明确标识?以及与被引用的模型与本应用是否有不同之
处?
12122009年11月4日星期三
DC抽象模型 (DCAM)规定了“资源如何被描述”,即元数据的最小组成单位——记录*的一般结构(源自RDF)
任何事物都是资源
资源有类型
任何资源都可以以URI标识
任何资源都包含一个或多个实体
实体可以由属性来描述,属性集构成描述集
描述由陈述集组成,一个属性-值对构成一个陈述
属性取值可以有领域和范围(domain & range)的约束
属性值可以是另一个资源,可以是文字(literal)
资源(类)、元素(属性)、取值(元素修饰词和编码体系修饰词)都可以进行规范控制,主要方法就是术语及模式的登记注册(赋予URI并进行管理维护,可利用关联数据技术等)。
注意:该“记录”不同于数据库中的记录)。14142009年11月4日星期三
DC属性元素的“领域和范围(Domain and Range)”见:http://dublincore.org/documents/domain-range/index.shtml
16162009年11月4日星期三
Record (encoded as html, XML, or RDF/XMLDescription set
Resource Description (URI)Resource Description (URI)
Resource Description (URI)
Statement
Statement
Statement
language (pt-BR)
DCAM图示(来自ANDY POWELL)
value string
value URIproperty (URI)
syntax encodingscheme
Vocabulary encoding scheme
19192009年11月4日星期三
Description Set
Description
Statement
Property URI
Resource URI
Literal Value Surrogate
Description
Statement
Property URI
Resource URI
Non-Literal Value Surrogate
Statement
Property URI
Non-Literal Value Surrogate
Value URI
Vocab Enc Scheme URI
Value URI
Value string
Value string
Value string
Syntax Enc Scheme URI
Language
Language
20202009年11月4日星期三
Description Set
Description
Statement
Property URI
Resource URI
Literal Value Surrogate
Description
Statement
Property URI
Resource URI
Non-Literal Value Surrogate
Statement
Property URI
Non-Literal Value Surrogate
Value URI
Vocab Enc Scheme URI
Value URI
Value string
Value string
Value string
Syntax Enc Scheme URI
Language
Language
20202009年11月4日星期三
描述集纲要(DSP)描述集规范(DSP)规定了描述一个资源的各个实体,其属性元素如何组合、有什么约束,等等,为
各种形式化(格式)提供了说明。DSP决定了一个元数据应用纲要的差异性。
描述集规范由描述模板和陈述模板进行定义。描述
模板对应于组成资源的各个实体,包含了一组陈述
模板,每个陈述模板对应于一个属性描述,包含了
元素及其各种约束。
21212009年11月4日星期三
DCAP举例
DC-CAP(完成)
http://dublincore.org/groups/collections/collection-application-profile/index.shtml
都柏林核心资源集合描述应用纲要
都柏林核心资源集合描述应用纲要概述
DC-Lib(草案)
http://dublincore.org/documents/library-application-profile/index.shtml
22222009年11月4日星期三
DCAP举例
Eprints Application Profile(已完成并投入应用):
http://www.ukoln.ac.uk/repositories/digirep/index/Scholarly_Works_Application_Profile;
http://dublincore.org/scholarwiki/SWAPDSP
http://www.ukoln.ac.uk/repositories/digirep/index/Eprints_Terms;
(参见eprints-application-profile-5732.ppt)
23232009年11月4日星期三
我们目前的AP存在的问题1、元素URI2、功能需求(用例)3、领域模型4、属性元素(DSP描述集纲要)5、属性取值规定及约束(规定描述模板及陈述模板,包括:词表修饰词,编码体系修饰词,语种,数据类型,重复次数及其它约束关系等内容)
6、著录时所需的其它规定(著录对象、著录单元的判断,部分所需的管理或技术元数据)
还要注意:AP并不当然包括编码方式(可以用多种形式编码),也不一定是一种格式。
可以举例:http://cdls.nstl.gov.cn/2003/SpcMetadata/
24242009年11月4日星期三
当前元数据研究和应用人读而非机读
语义的模糊性
模型的完整性(两类模型:FRBR和DCAM)
执行的一致性
数据的独立性
基本上无法编码实现(包括数据库系统开发)
我们目前的元数据方案可以说只完成了MARC数据格式的定义,还没有2709格式使其真正机器可读
从这一点来说,目前各类元数据著作、方案中值得推敲的地
方还是比较多的
25252009年11月4日星期三
一些建议建立本地化扩展术语的命名域参考
建立元数据应用纲要(词表)及编码的登记注册体系
修订目前的领域应用元数据应用纲要
推进元数据集成开发系统(IDE)软件和工具的开发建立数字图书馆标准规范的开放讨论维护机制
“机读版”元数据方案的推广、培训
随着元数据应用的开展和普及,一致性问题越来越严重。现在如果不重视,将后患无穷!
26262009年11月4日星期三
网络资源的规范控制
资源(类)、属性(元素)、编码体系、词表的控
制
规范控制的功能需求及其实现
常见的、一般的网络资源类型(DCType)
RDA作为一种领域应用的元数据著录规范
27272009年11月4日星期三
目前符合DCAM的术语前提是四类术语必须都具有URI;
应该有以下方式的RDF的声明: 1). 作为RDF属性词(RDF Property)也即DC元素(http://www.w3.org/1999/02/22-rdf-syntax-ns#Property 或其子元素;
2). 作为类(http://www.w3.org/2000/01/rdf-schema#Class or a subclass thereof).
3). 作为RDF数据类型(Datatype)或DCMES /DCT (http://www.w3.org/2000/01/rdf-schema#Datatype or a subclass thereof
4). 作为(http://purl.org/dc/dcam/VocabularyEncodingScheme or a subclass thereof).
RDF属性词。当然不仅仅是DC元素或子元素(http://dublincore.org/documents/dcmi-terms/)也包括很多其它如SKOS术语(http://www.w3.org/TR/2004/REC-rdf-schema-20040210/),以及RDFS(http://www.w3.org/TR/2004/REC-rdf-schema-20040210/)等等。
28282009年11月4日星期三
元数据编码
元数据模式与元数据记录的编码是两回事
DC元数据的编码并无统一,只是定义了符合DCAM的“最佳实践”,同样符合DCAM的编码最佳实践可能有多种,有细微的互操作差别
描述模版和陈述模版是DSP推荐的元数据记录打包方式。
29292009年11月4日星期三
元数据编码
DC-Text:http://dublincore.org/documents/dc-text/
HTML/XHTML meta and link elements http://dublincore.org/documents/dc-html/
DSP的编码:http://dublincore.org/documents/dc-ds-xml/
XML编码指南: http://dublincore.org/documents/dc-xml-guidelines/
RDF:http://dublincore.org/documents/dc-rdf/
30302009年11月4日星期三
未来—关于RDA1、适应了全球化浪潮,加强了国际性,消除了英美国家特有的内容,是第一部真正全球大同的编目规则。
2、扩展了适用对象,不只是针对纸质资源,而定位于描述和检索所有资源,从而能够作为复合型图书馆的“大一统”的元数据规范,并适用于互联网环境。
3、首次全面实践了FRBR,突破了传统MARC数据的的扁平结构,为MARC数据进入互联网,以及Web时代的信息资源描述和规范控制提供了概念模型。
4、不再仅仅是一套文本,同时也是一套Web工具;不仅具有方便的、“事件敏感”型查索功能(包含词表登记注册管理等功能),同时支持开发商集成到管理系统中,提供各类商业性的Web服务。
5、独立于编码和数据格式,定位于“内容”规范,从而能支持MARC、DC、MARCXML、MODS、RDF/XML等等众多输出格式。
6、成为连接过去与未来的桥梁。吸收了大量DC元数据的研究成果,使它能够“兼容”互联网,把遗留系统中的书目数据,带入到互联网时代,并为互联网提供一套经典的“书目控制”手段。
32322009年11月4日星期三
DCMI Metadata UpdatesDCMI元数据进展
谢谢!
33332009年11月4日星期三