基于 oai 和 mets 远程收集数据的 方法和流程 赵阳 [email protected]...

32
基基 OAI 基 METS 基基基基基基基 基基基基基 赵赵 [email protected] 赵赵赵赵赵 赵 赵赵赵赵赵赵赵 2007.09.27 赵赵

Upload: ferris-kirkland

Post on 14-Mar-2016

132 views

Category:

Documents


0 download

DESCRIPTION

基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 [email protected] 清华大学图书馆 学位论文项目组 2007.09.27 南京. 主要内容:. NOW. “ CALIS 学位论文全文数据库 ” 服务体系架构 基于 OAI 和 METS 数据收割模式 基于 OAI 和 METS 数据收割实施步骤. “ CALIS 学位论文数据库 ” 服务体系架构. CALIS 数字图书馆门户. CALIS 中心. 认证中心. 计费中心. 资源调度 中心. CALIS-OID 解析中心. CALIS 高校 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

基于 OAI 和 METS 远程收集数据的方法和流程 赵阳

[email protected]清华大学图书馆 学位论文项目组

2007.09.27 南京

Page 2: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

主要内容:“CALIS 学位论文全文数据库”服务体系架构基于 OAI 和 METS 数据收割模式基于 OAI 和 METS 数据收割实施步骤

NOW

Page 3: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

“CALIS 学位论文数据库”服务体系架构

参建馆本地系统

CALIS 数字图书馆门户

计费中心认证中心 资源调度中心 CALIS-OID解析中心

纸本扫描加工

CALISCALIS中心中心

学位论文提交与发布系统

DRM阅读器

读者

DRM数字版权保护

浏览器CALIS 高校学位论文数据库分中心

Page 4: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

CALIS 学位论文参建馆本地系统涉及到三个层面: 本馆层面

满足提交、审核、编目、标准化、回溯、发布、检索、管理、存储等需求 符合相关标准、规范 开放架构

CALIS 子项目(分中心)层面 纳入“ CALIS 高校学位论文数据库”服务体系

CALIS 中心层面 纳入“ CALIS 高等教育数字图书馆”服务体系

Page 5: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

学位论文参建馆本地系统结构图

Web检索全文检索引擎

专业编目 文档标准化 论文回溯 发布管理

论文元数据库 论文 (PDF) 对象库

服务接口层

应用层

存储层学位论文提交与发布系统

安全通信层DRM版权保护系统 (PDF)

纸本扫描加工系统

MQ服务器 METS接口模块OAI-DP服务器 认证接口 计费接口CLRC

OpenURL接口对象安全访问接口CALIS-OID本地解析

学位论文参建馆本地系统结构图

11 22 33 44 55 66 77 88

读者浏览器 DRM阅读器

Web审核Web提交

Page 6: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

参建馆本地系统与 CALIS 子项目中心的互操作关系

服务接口层安全通信层

MQ服务器 METS接口模块OAI 收割服务器CALIS-OID访问 数字对象请求

中心论文元数据仓库 论文 ( 前 16 页 )对象仓库仓储层

服务接口层应用层存储层

学位论文提交与发布系统

安全通信层DRM数字版权保护系统

MQ服务器 METS接口模块OAI-DP服务器 认证接口 计费接口CLRC

OpenURL接口对象安全访问接口CALIS-OID本地解析

11 22 33 44 55 66 77 88

参建馆参建馆

CALISCALIS学位论文学位论文分中心分中心

Page 7: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

学位论文提交与发布系统与 CALIS 中心的互操作关系CALISCALIS 中心中心

CALIS-OID解析中心认证中心 计费中心 资源调度中心

CALIS 数字图书馆服务门户

服务接口层应用层存储层

学位论文提交与发布系统

安全通信层DRM数字版权保护系统

MQ服务器 METS接口模块OAI-DP服务器 认证接口 计费接口CLRC

OpenURL接口对象安全访问接口CALIS-OID本地解析

11 22 33 44 55 66 77 88

参建馆参建馆

Page 8: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

本地系统升级的主要接口 OAI 和 METS 数据收割接口 , 实现元数据和对象数据的收集 ; CALIS_OID 解析接口 , 实现数字对象的解析和获取 ; 数字对象安全下载接口 , 实现数字对象的安全下载 ; CALIS ODL 接口 , 实现 CADLIS 各系统之间的统一检索 ; CADLIS 认证 / 计费接口 , 实现认证计费。

Page 9: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

系统接口 子项目学位论文 参建馆学位论文 CADLIS门户网站,统一检索系统

ODL-Search y ODL-Browse y ODL-Recent y

ODL-Recommend y CADLIS解析中心

CALIS-OID解析接口 y 子项目资源调度系统

Link源注册 y OpenURL接口 y Link目标注册 y

LCRC接口 y 数据对象交换

OAI接口 y y METS接口 y y

数字对象获取 数字对象安全下载接口 y y

CADLIS认证中心 认证接口 y y

用户管理功能扩展 y y CADLIS计费中心

计费接口 y y 信用核查接口 y

对帐接口 y y

本地系统升级的主要接口

Page 10: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

主要内容:“CALIS 学位论文全文数据库”服务体系架构基于 OAI 和 METS 数据收割模式基于 OAI 和 METS 数据收割实施步骤

NOW

Page 11: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

基于 OAI 和 METS 数据收割模式 模式一: OAI-DP / METS-DP+MQ 联动 模式二: 仅采用 OAI-DP

Page 12: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式一: OAI-DP / METS-DP+MQ 联动 --- 收割方式 (1) 实时自动收割

元数据通过 OAI-DP 发布。 OAI-DP 所发布出来的 OAI Record采用“ CALIS OAI Record V1.0” 数据格式;

本地系统的数字对象通过 METS-DP+MQ 发布。 METS-DP 负责将数字对象封装成 METS 数据包,然后通过 MQ 服务器发布出去,数据格式记为“ CALIS METS Record V1.0” ;

元数据和数字对象之间的关系通过 OAI Record 中的 CALIS_OBJ:objInfo 子元素所包含的 MetaID 进行关联;

学位论文中心系统接收到 OAI-DP 或 METS-DP+MQ 请求,自动收割参建馆本地系统中的数据;

Page 13: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式一: OAI-DP / METS-DP+MQ 联动 --- 收割方式 (2) 手动收割

用 OAI 数据导出工具将 OAI-DP 中的元数据导出成为包含 OAI Record 数据的 XML 文件,该文件称为 OAI 记录文件,数据格式为“ CALIS OAI Record V1.0” ;

用 METS 数据导出工具将 METS-DP 中的数字对象数据导出成为包含 METS Record 数据的 XML 文件,该文件称为 METS 记录文件,数据格式记为“ CALIS METS Record V1.0” ;

本地系统管理员手工将上述两类文件通过 FTP 上传至 CALIS 学位论文中心,由其完成数据汇总、统计工作;

Page 14: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式一: OAI-DP / METS-DP+MQ 联动 --- 数据格式 ( 元数据 )<record …… >

</record>

<header>……</header>

<metadata>

<about>

符合CALIS元数据规范的元数据片断

</metadata>

<CALIS_OBJ:objInfo ……>

</CALIS_OBJ:objInfo>

</about>

CALIS RECORD V1.0 用于维护元数据与 METS一致的四项信息

Page 15: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式一: OAI-DP / METS-DP+MQ 联动 --- 数据格式 ( 对象数据 )

Page 16: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式一: OAI-DP / METS-DP+MQ 联动 --- 实际收割测试 2006.03 月 ---2006.07 月 学位论文和特色库项目验收前,采用模式一方式收割 学位论文本地系统在部分参建馆完成升级、数据迁移和发布工作; 在厂商和参建馆配合下, CALIS 技术中心和学位论文子项目组共同进行数据收割 ; 参加测试的学校 :

TPI: 中国人民大学 , 中国农业大学 TRS: 清华大学 北大方正 : 北京大学 杭州麦达 : 北京大学医学院

Page 17: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式一: OAI-DP / METS-DP+MQ 联动 --- 实际收割测试 收割结果

实时自动收割: 本地系统和数据都存在问题 中心系统对本地系统的自动收割难以有效进行

手工收割 : 本地系统能顺利提交数据 但所上传的数据仍存在问题

本地系统存在的主要问题 系统 bugs 数据问题

Page 18: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式一: OAI-DP / METS-DP+MQ 联动 --- 实际收割测试 ( 系统 bugs) OAI-DP 本身的 bugs

比较容易发现。但本地管理员仍缺乏有效易用的工具 ; METS-DP 本身的 bug问题以及 MQ 配置问题

难以由本地管理员自行发现 ; OAI-DP+METS-DP+MQ 联动问题

厂商技术人员和本地管理员都难以测试和发现 ; 其他问题

著录和导入工具不完备 ; 本地 DP 所在机器软硬件系统的不稳定 ; DP 本身的稳定性和可靠性问题 ; METS 包传输丢包问题 ;

Page 19: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式一: OAI-DP / METS-DP+MQ 联动 --- 实际收割测试 ( 数据问题 ) 数据不符合 schema

导出的 OAI 和 METS 包文件,其数据不符合 schema 数据必备性问题

很多数据项缺乏,不符合子项目组的数据规范性要求 CALIS 元数据 schema 本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功能

数据内容不一致问题(尤其是OAI 记录和 METS 记录之间的不一致) OAI 记录中的 about 内容不合逻辑

如:有时间戳或类型而没有 calis-oid ;有 calis-oid而没有时间戳。 元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,才能保证联动收割时对这条记录重收。 METS 包中的时间戳应与 OAI-about 中的时间戳一致等。

数据的语义问题 张冠李戴

Page 20: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式一: OAI-DP / METS-DP+MQ 联动 --- 实际收割测试 ( 问题原因 ) 本地系统的著录工具问题

单条入库的元数据和数字对象在必备性、一致性等方面存在问题。 本地系统的批量导入工具问题

批量入库的元数据和数字对象在必备性、一致性等方面存在问题; 批量导入的数据的时间戳都为同一个时间点,这给 OAI-DP带来很大压力。

统计结果的一致性问题 本地 OAI-DP 、 METS-DP 实际发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员造成困惑。——由内部检索机制不一致因素所造成。

本地系统缺乏有效的“数据质量检测工具 / 模块” 在 OAI-DP 和 METS-DP 发布之前,系统本身对数据没有进行这种质量检测(包括必备性、一致性等)。 管理员无法自行发现上面的“数据问题”。

Page 21: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式二:仅采用 OAI-DP 收割 为解决模式一收割中的系统和数据问题 ,CALIS 管理中心于

2006年 10 月招集厂商开会 , 提出模式二 ; 厂商依据规范要求 ,改进和完善系统 ; 模式二 : 收割方式

实时自动收割 手动收割

Page 22: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式二:仅采用 OAI-DP 收割 --- 收割方式 (1) 实时自动收割

元数据和数字对象仅通过 OAI-DP 发布。发布出来的 OAI Record 采用“ CALIS OAI Record V2.0” 数据格式;

学位论文中心系统接收到 OAI-DP 或 METS-DP+MQ 请求,自动收割参建馆本地系统中的数据;

Page 23: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

手动收割 用新的 OAI 数据导出工具将本地系统中的元数据和数字对象

合并为一条 OAI 记录导出为 OAI 记录文件。该文件中的数据格式为“ CALIS OAI Record V2.0” ;

METS-DP 中的数字对象数据无需再单独导出; 本地系统管理员手工将上述两类文件通过 FTP 上传至 CALIS

学位论文中心,由其完成数据汇总、统计工作;

模式二:仅采用 OAI-DP 收割 --- 收割方式 (2)

Page 24: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式二:仅采用 OAI-DP 收割 --- 数据格式<record>

</record>

<header>……</header>

<metadata>

<about>

符合CALIS元数据规范的元数据片断

</metadata>

<CALIS_OBJ:objInfo ……>

</CALIS_OBJ:objInfo>

</about>

<METS:mets ……>

</METS:mets>

当前元数据所对应的METS包

<record>

</record>

<header>……</header>

<metadata>

<about>

符合CALIS元数据规范的元数据片断

</metadata>

</about>

用于维护元数据与METS一致性的四项信息

CALIS Record V1 CALIS Record V2

Page 25: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式二:仅采用 OAI-DP 收割 --- 数据格式<record>

</record>

<header>……</header>

<metadata>

符合CALIS元数据规范的元数据片断

</metadata>

CALIS Record V2, 无 Mets

Page 26: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

模式二:仅采用 OAI-DP 收割 --- 实际收割测试 2007.09月 参加测试的学校 :

TPI: 中国农业大学 TRS: 清华大学 北大方正 : 北京大学 杭州麦达 : 北京大学医学院

Page 27: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

比较 : 模式一与模式二 ---- 在系统部署和维护方面类型 模式 1 模式 2 说明部署内容 部署 OAI-DP服务器部署METS-DP服务器部署MQ服务器

只需部署OAI-DP服务器 前者部署、培训、管理成本都较大

数据校验和错误排查OAI文件METS文件OAI文件和METS文件对应关系(如相关文件个数一致、 ID一致等)

OAI文件(可含METS数据)对两类文件之间的对应关系的问题 ,模式 1排查工作量很大,排查难度很大

系统故障排查 OAI-DP服务器METS-DP服务器、MQ服务器以上三个系统之间的联动

OAI-DP服务器 前者工作量和难度(尤其是系统之间联动)都很大厂商技术支持工作量 较大,当出现复杂问题时,需厂商和 CALIS全力配合才能发现

大为降低

Page 28: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

比较 : 模式一与模式二 ----优缺点比较类型 模式 1 模式 2 优点 OAI-DP无需考虑大容量数据记录的传输问题,因此,模式 1 对 OAI-DP 在性能和超时处理等方面的要求较低;

只需部署与 OAI-DP ,无需部署METS-DP 和 MQ 服务器;OAI 记录和 METS 记录不再分离,一般不会出现一致性问题;系统出现故障或数据出现问题时,管理员利用相关工具能够自己检测出来;

缺点 需要部署METS-DP 和 MQ 服务器,需要这两个服务器与 OAI-DP 服务器联动;OAI 记录和 METS 记录之间的一致性较难维护;特别是:当上述三个服务器联动出现故障或者当 OAI 记录和 METS 记录之间出现不一致性时,系统管理员没有有效的问题排查手段,厂商也难以为管理员开发出来这种有效的检测工具;

对 OAI-DP 在性能方面有较高要求, OAI-DP应能对超大容量的数据记录予以正确响应。

Page 29: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

比较 : 模式一与模式二 ---- 结论 “ 模式二”是对”模式一”的简化,相应的系统改造、升级、部署、

维护等。 工作量和难度都得大为减少 , 模式二 的易用性和可管理性都大为提

高 ; 其中“模式二”的手动收割 ,更为安全稳定 ,CALIS 特色库的大批量数据收割均采用该方式 ;

学位论文本地系统的收割模块 : TPI: 支持模式二的实时自动收割、手动收割 ; 北大方正 :支持模式二的实时自动收割、手动收割 ; 麦达 :支持模式二的实时自动收割、手动收割 ; TRS:支持模式二的手动收割 ;

Page 30: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

主要内容:“CALIS 学位论文全文数据库”服务体系架构基于 OAI 和 METS 数据收割模式基于 OAI 和 METS 数据收割实施步骤NOW

Page 31: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

基于 OAI 和 METS 数据收割实施步骤 ---针对模式二 ( 手动收割 ) 1) 现有系统升级 ---- 公司介绍 2) 数据导出 ---- 公司介绍 3) 数据质量检测 4) 通过 FTP 方式提交

Page 32: 基于 OAI 和 METS 远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua 清华大学图书馆 学位论文项目组 2007.09.27    南京

谢谢大家 !