数字保存 digital preservation -- for the future of the past 曾蕾 2006·8 北京...

83

Click here to load reader

Upload: ursula-reynolds

Post on 12-Jan-2016

338 views

Category:

Documents


9 download

TRANSCRIPT

Page 1: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

数字保存 Digital Preservation-- For the Future of the Past

曾蕾

2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

Page 2: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

大纲1. 数字资源的类型2. 对数字资源长期保存的需求3. 数字资源的特点4. 什么应该得到长期保存,谁的责任5. 数字保存的方法

参考: 1 ) 2004 年 7 月 14 至 16 日,“中欧数字资源长期保存国际研讨会”,中国科学院文献情报中心2 ) 2006 年 3 月,教育部科技发展中心 “ 2006’ 教育行业信息存储大会”

Page 3: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

目前在座各位可能面对的资源

high low

low

high

stewardship

uni

que

ne

ssBooksJournalsNewspapersGov. docsCD, DVDMapsScores

Special collectionsRare booksLocal/Historical newspapersLocal history materialsArchives & Manuscripts, Theses & dissertations

Research and learning materials •ePrints/tech reports•Learning objects•Courseware•E-portfolios•Research data

Freely-accessible web resourcesOpen source softwareNewsgroup archives

正式出版物书、刊、报纸政府出版物CD, DVD地图乐谱

特藏

珍本书地方文献地方 / 历史报纸照片档案和手稿学位论文

开放的网络内容

免费网上资源开放资源软件新闻组的档案图像

机构 / 单位的内容电子版文献、技术报告学习物件、教学材料地方政府报告培训资料研究数据

摘译自 Lorcan Dempsey “Terms and conditions ... libraries, subject terminologies and the web 2004 http://www.oclc.org/research/presentations/dempsey/dewey_20040316.ppt

Page 4: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

目前在座各位可能面临的情况• 决定是否要担起保存数字资源的责任 • 拿出一个数字保存的计划来 • 生产 / 制造预计会有长期价值的数字物件 • 收藏数字物件并决定是否要长期保存之• 判断目前对数字典藏管理的长期保存安排是否有效• 进一步完善现有计划项目• 建立合作计划 • 鼓励和帮助其他单位建立新的保存计划

决定是否要担起保存数字资源的责任

是生产数字物件

收藏数字物件

注入

存储

索取

数字物件的生命周期管理

Source of the list: Report to ICABS on guidance for digital preservation National Library of Australia , July 2005 : page 6

Page 5: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

• 负责存档( archiving )和保存( preservation )

• 管理数字保存项目 • 与 生产制造者一起生产 / 制造可保存的数字内容 • 决定什么需要保存 • 将数字物件转到档案 ( archive )中• 为存档的数字物件起名、描述、控制管理等 • 处理对保存有影响的法律方面的事务 • 保护和存储数字信息资源的数据 (data) • 为重新显示存档物件以便获取而维护必需环境和

方式

目前在座各位可能面临的具体任务

Source of the list: Report to ICABS on guidance for digital preservation National Library of Australia , July 2005 : page 3

Page 6: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

1. 数字资源的类型

Page 7: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

• 数字资源中有一部分是对以前存在的物件 进行数字化再造的产品 digital “double” -- 数字拷贝 不声称与原作一模一样,只是原物的一

种表现形式 往往能利用数字化的特长将原物更好展

现和利用

第一大类:数字再造资源

Page 8: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

approximately one million pages of documents approximately one million pages of documents approximately one million pages of documents

approximately one million pages of documents

Source: The Nuremberg Trials Project website.

Page 9: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班
Page 10: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

数字米开朗琪罗项目Digital Michelangelo Project

height of gantry: 7.5 meters

weight of gantry: 800 kilograms

目的:•采用先进的 3 维扫描技术 •让技术为人文科学服务 •为一些最重要的文化遗产建立有长期保存价值的数字档案

Source: Marc Levoy, et al., 2000

Page 11: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

• 480 个专门定位的扫描

• 2 亿个多边形建模 • 7,000 彩色图像 • 32 gigabytes• 30 个通宵扫描 • 22 位老师和学生• 1998.9-1999.6

扫描大卫

Page 12: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

(20 cm tall)

用 1 百多万个多边形建模制作的小模型:

基础网格上有 8 百万个多边形建模

展现、拼接、运作这些数据需要特别的软件和硬件,成为该项目的长期任务

展览馆的三维显示

Page 13: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

• 第二类数字资源来自于那些仅仅以数字形式存在的数据– 例如:

•万维网网站•电子出版物•多媒体产品•文化或科技数据库•...

第二大类:天生的数字资源

Page 14: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

10-136 TB = total collection of Library Of Congress

若把全部国会图书馆馆藏数字化,将产生 10 到 136 TB 数据(因分辨度可能不同)

网上产生的资源,一年就比国会馆的百年收藏多几倍到几十倍

Source: UC Berkeley SIMS “How much Information”. (2000, 2002)

Page 15: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

NASA 每天收回的数据都上 terabytes

Page 16: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

人类基因组计划The Human Genome Project

• 人类基因组计划 (1990- 2003) 支持的数据库含有全球合作的结果(美国、英国、日本、法国、德国、中国等国家的科学家)– 阐明人类基因组 30 亿个碱基对( chemical base

pairs )的序列,– 发现所有人类基因 ( 20,000-25,000 )– 并搞清其在染色体上的位置 – 将这些信息存放在数据库中,不断更新– 改善数据分析的各种工具– 为 30 亿个碱基对构成的人类基因组精确测序,从而最终弄清楚每种基因制造的蛋白质及其作用

Sources: Human Genome Project website, 2004; Hughes, 2003 & http://www.bjkp.gov.cn/bjkpzc/kjqy/smkx/7108.shtml

Page 17: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

24 对人类染色体 human chromosomes

与某个染色体相关的特性和异常

Page 18: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

制造业更多依赖于软件系统来设计、生产、维护产品。有关一种飞机模型的信息必须在该种飞机服役的期间保留。医药品也是如此… 还有电子政府、电子银行 …

Page 19: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

越来越多的有价值的内容是‘天生的数字型’,而且只能以数字形式来管理、保存、使用之。

Page 20: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

2. 对数字资源长期保存的需求

数字技术在带来新机遇的同时也产生了新的威胁和问题

Page 21: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

有的数据已无法再读Example: 1960 美国人口调查统计数

据• 1960 人口调查统计数据

• 存储在只有用 UNIVAC type II-A tape drive 才能读的磁带上

• 全世界只有两台机器可以读,一台在日本,一台在Smithsonian 博物馆

• 很多类似的信息已经永远无法获取了,实例举不胜举 Source: CPA & RLG, 1996, p.2

Page 22: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

• 早期因特网的很多数字物件已不复存在

• 从 1995 到 1999 年在 IEEE Computer 和 Communications of the ACM 上被引用的文献在 2000 年时就有 28% 不再可获,到 2002 年增加到 41%

Source: Spinellis, D. (2002). & LC&NSF Announcement, 5/4/2005

Page 23: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

• 目前科研单位面临着管理海量的各式类型数据的挑战 – 有些每天就有成百上千个 GB.

• laboratory experiments, • life-size experiments • observations from various instruments

(satellites, radar, telescopes, probes, sensors, microscopic cameras, etc.),

– 其中有些包括永远不可能重复的历史性事件• 数字技术发展太快,人类还没有相应的完善的应

对计划和方法

Page 24: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

3. 数字资源的特点

Page 25: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

技术发明和有效年限• 作为信息载体的巨石已经存在了几千年

• 书本 -- 几百年 • 声像产品 -- 几十年• 因特网– - 才十年左右

Page 26: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

10TB = total collection of Library Of Congress

渺茫的万维网

Page 27: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

不稳定性• 预测英特网上有 1 亿多网页的寿命只有 44天到 2 年

• 生存下来的有很大一部分在一年内都会有变

Source: Abdelaziz Abid. 2004

Page 28: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

OCLC 的 IP 地址波动 (volatility) 研究在 A 年测到的网站的 IP 地址在 B 年仍然存在的百分比

所有网站 :  1998 1999 2000 2001 2002

1998 100% 56% 35% 25% 13%

1999 NA 100% 55% 37% 19%

2000 NA NA 100% 55% 33%

2001 NA NA NA 100% 51%

2002 NA NA NA NA 100%

Source: OCLC Web Characterization, 2003

Note: It doesn't indicate whether those resources still exist elsewhere on the Web or whether the content has changed.

Page 29: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

( 续 ) 在 A 年测到的网站的 IP 地址在 B 年仍然存在的百分比

公众网站 :

For example, only 8% of the IP addresses identifying a Web site in the 1998 sample

also identified one in the 2002 sample.

  1998 1999 2000 2001 2002

1998 100% 52% 28% 15% 8%

1999 NA 100% 50% 27% 14%

2000 NA NA 100% 47% 26%

2001 NA NA NA 100% 46%

2002 NA NA NA NA 100%

Source: OCLC Web Characterization, 2003

Page 30: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

被废弃的媒体 – 在数字环境中,要保留下来的不是酒瓶,

而是瓶中之酒 . – 电子文献采用的新媒体比以前的更脆弱易损,使用年限更短 .

Page 31: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

无固定住所的记忆

• 信息与载体分离– 内容 & – 容器

• 信息的这两个因素被彻底分开

Page 32: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

昙花一现的文件格式

看看现在的各种图像格式:

Page 33: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

容易受到外来攻击 • 病毒 Virus

– Code Red virus, -- 12,000 Web sites in the U.S

• 蠕虫 Worm– Nimda worm, 2001 -- 150,000 computers

• 特洛伊木马 Trojan Horse • Backdoor/Trapdoor• 黑客 Hackers• … …

Nimda worm, which took down 150,000

Page 34: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

法律和组织机构等问题

用数字化形式来将知识产权”移民” • 牵涉多个方面 :

– 知识产权的创造者– 知识产权的拥有者– 数字档案的管理者– 公众兴趣的代言人 – 知识财产的实际和潜在的用户

• 获取数字文件所需要的软件的版权问题 • 为了保存而拷贝的权利

Page 35: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

数字黑洞

Source: Jonas Palm, 2006. The Digital Black Hole.

Page 36: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

长期保存与获取使用之间的关系preservation & access

1. 保存或者获取使用 Preservation OR Access

• 二战前,保存即收藏• 要保证一本书可以有长一点的

寿命,最保险的办法是将之锁起来,或者弄个备份来用。

Page 37: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

2. 保存并且获取使用Preservation AND Access

• 现代的保存管理策略相信保存和获取是互补的。

• 对一个物件采取保存行动后,这个物件就可以被使用了。

Page 38: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

3. 保存就是获取使用Preservation IS Access

• 在数字时代,这两个概念被认为是因果关系。由于有了保存的行动才使得获取使用成为可能

• 一个文献的生存并不取决于其载体的寿命,而是取决于该文献的内容尽可能经常地被从一个载体转到另一个载体的可能性。

Page 39: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

4. 对获取途径的保存 Preservation OF Access – 在数字世界中,保存就是行动,而被保存的实

际上就是获取途径 – - 所以是对获取途径的保存的行动

– “ 可获取性的长期保存”

Page 40: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

•未来最明显的威胁就是在数字的长链中失去获取的途径。

• 如果失去了获取途径或者不可能获取,那么数字资源不能被称为被保存了。

• 数字资源保存的目的是维持其可获取型 : 获取其原始的信息或目的的能力

UNESCO: GUIDELINES FOR THE PRESERVATION OF DIGITAL HERITAGE

Page 41: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

4. 什么应该得到长期保存?谁的责任 ?

Page 42: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

• “天生的 (Born digital)” 数字资源应该明确地给以优先权 .

-- Charter on the Preservation of the Digital Heritage, Adopted at the 32nd session of the General Conference of UNESCO, 17 October 2003

Page 43: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

《 ICABS 数字保存指南报告中》包括的数字资料类型

• 综合– 包括各种材料 • 档案材料,包括电子邮件• 视听资料• 数字艺术作品和电子

文学作品 • 电子游戏,虚拟现实

和软件 • 电子“手稿”

• 图像 • 其它各种电子资料 • 联机信息和网络资源 • 数字资料的物理格式 • 科学、统计、研究数

据 • 太空、地理和类似数

据集 • 文献通报资源 Report to ICABS* on guidance for digital preservation

*ICABS: IFLA-CDNL Alliance for Bibliographic Standards

Page 44: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

Source: NSF Data Report. http://www.nsf.gov/pubs/2005/nsb0540/start.jsp

数据管理者

数据作者 数据用户

谁的责任 ?

Page 45: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

high low

low

high

stewardship

uni

que

ne

ssBooksJournalsNewspapersGov. docsCD, DVDMapsScores

Special collectionsRare booksLocal/Historical newspapersLocal history materialsArchives & Manuscripts, Theses & dissertations

Research and learning materials •ePrints/tech reports•Learning objects•Courseware•E-portfolios•Research data

Freely-accessible web resourcesOpen source softwareNewsgroup archives

正式出版物书、刊、报纸政府出版物CD, DVD地图乐谱

特藏

珍本书地方文献地方 / 历史报纸照片档案和手稿学位论文

开放的网络内容

免费网上资源开放资源软件新闻组的档案图像

机构 / 单位的内容电子版文献、技术报告学习物件、教学材料地方政府报告培训资料研究数据

摘译自 Lorcan Dempsey “Terms and conditions ... libraries, subject terminologies and the web 2004 http://www.oclc.org/research/presentations/dempsey/dewey_20040316.ppt

谁的责任 ?

Page 46: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

“ 数字资源正以我们不可能管理和保存的增长率增长。”

-- NSF and LOC, August, 2003

光靠图书馆、档案馆、博物馆是绝对不够的• 大家都要参与

– 政府 , – 政策决策者 , – 信息生产者 , – 文化遗产单位和专家 , – 软件工业 , – 标准化组织,– … …

• 每人不必什么都要做,也不用一次什么都做完• 迈出一小步总比原地不动强

Page 47: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

第一个专门的因特网档案机构 http://www.archive.org

Page 48: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

清华大学图书馆网站档案,由 www.archive.org存档

http://www.archive.org/web/web.php

Page 49: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

清华大学图书馆网站, 2000 年 3 月,由 www.archive.org存档

http://www.archive.org/web/web.php

Page 50: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

国际因特网资源保存集团

http://netpreserve.org/about/index.php

欧美主要国家图书馆,以及 Internet Archive

Page 51: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

Multiple copies of pages

Wayback Machine Enter URL in search box to view From late 1996 to six to ten months agofrom the Internet Archive

Single "Cached" Copy of a Page

Yahoo! Cached link to viewEstimate from yesterday to 3 months old, no date given

Google cache:URL or Cached link to view

Estimate from yesterday to 3 months old, no date given

Gigablast [cached] link to viewFrom recent to a year old, gives date of cache

ScrubTheWeb Cached link to viewSmall database, from 1-3 months old, no date given

IncyWincy cached link to viewSmall database based on ODP, about 6 months old, gives date of cache

Family Source Cached link to viewSmall database, 1 million+ "family friendly" pages. About 1 month old. Date on search results page, not cached page.

Daypop Cached date link to viewLast two weeks, blog postings and news articles, gives date of cache

Feedster Cached link to viewTypically caches only the first few lines from blog & news RSS feeds

BoardReader Cached link to viewWeb forum postings only, date unreliable

Blogging Ecosystem c link to viewVery small: top linked and linking blogs only

Finding Old Web Pages

http://www.searchengineshowdown.com/others/archive.shtml

检索引擎的短期存档

Page 52: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

详细的保存和管理

评估

传递

添加元数据

生产文件

选择文件格式

所有的机构和组织

保存方面的专家

信息专业人员

生命周期责任

Source: Maggie Jones, 2005,

Page 53: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

选择方式•随机抽样

– Internet Archive 的做法•按特定标准选择

– 按照主题、形式、语言、国别 •根据内容选择

– Sept.11, SARS

•根据表述的形式– Web radio, etc.

Page 54: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

国际合作、避免重复劳动• 最近,欧洲研究图书馆组织 LIBER 和

OCLC 决定交换关于数字主件 (Digital Masters) 的书目纪录

• 欧美图书馆已经数字化的印刷本资料的所有信息都将在一个数字主件注册中心(Registry of Digital Masters) 合并,并可免费查询。

• 这是建立一个全球注册中心的第一步。

Page 55: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

康乃尔大学注目的十个文件

1. OAIS 开放档案信息系统参考模型

2. PREMIS 保存元数据3. Audit Checklist认证可信任数字仓储的审核清单

4. PADI 国际数字保存资源主题门户网站

5. NSF Data Report

6. Tufts/Yale reports

7. PDF/A

8. DCC Manual

9. RLG DigiNews

10. DPM reader

Source: Nancy Y. McGovern , 2005“10 x 10: Tracing Cornell’s Digital Preservation Efforts”

Page 56: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

1. OAIS (Open Archival Information System) Reference Model

OAIS 开放档案信息系统参考模型OAIS 参考模型是致力于长期保护和维护数字信息可存取档案系统的一个

基本概念框架

http://ssdoo.gsfc.nasa.gov/nost/wwwclassic/documents/pdf/CCSDS-650.0-B-1.pdf

总的特征: Ingest 摄入 , data management 数据管理, access 访问, Common services (一般服务)保存有关的特征: preservation planning 保存计划, archival storage 档案存储, administration 行政管理(包括政策)

Page 57: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

2. RLG/NARA Audit Checklistfor the Certification of Trusted Digital Repositories

认证可信任数字仓储的审核清单

• 2002 RLG/OCLC: Trusted Digital Repositories: Attributes and Responsibilities (TDR) 在 OAIS 基础上进一步说明可信的、可依赖的、可持续的数字仓储的属性特征和责任

• 2003-2005 RLG/NARA 可信任数字仓储的认证

http://www.rlg.org/en/pdfs/rlgnara-repositorieschecklist.pdf

NARA=National Archives and Records Administration

Page 58: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

Source: Kenney and McGovern , 2005. The Three-Legged Stool: Institutional Response to Digital Preservation

TDR 的属性特征和责任1. 行政管理责任

Administrative Responsibility

2. 组织机构的活力 Organizational Viability

3. 经济上的可持续性 Financial Sustainability

4. 技术上和操作过程上的可持续性 Technological and Procedural Suitability

5. 系统的安全可靠性 System Security

6. 操作过程上的可靠性 Procedural Accountability

Page 59: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

TDR model + OAIS framework

TDR缺乏一个实施模型

OAIS脱离组织机构的环境

二者合并,可以促进以群体为基础的努力,使得合作起步成为可能

Page 60: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

康乃尔大学将自己的形势和任务放进模型

Page 61: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班
Page 62: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

3. PREMIS (Preservation Metadata: Implementation Strategies) 保存元数据

建立在 OAIS 模型上并具体化 • 数字保存的目标是维持数

字资源的:– 长期可生存能力– 可呈现能力– 可理解能力

• 其数字字典的注重点不在于描述型元数据

• 其元素有层次结构,有关系的

• 很多实例

http://www.oclc.org/research/projects/pmwg/premis-final.pdf

Page 63: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

4. PADI (Preserving Access to Digital Information ) -- 国际数字保存资源主题门户网站

http://www.nla.gov.au/padi/

Page 64: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

5. 数字保存的方法

Page 65: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

为了保证数字资源的持续的可获取性,必须在四个层次上能理解和管理数字物件:– 作为物理现象;– 作为逻辑的编码 ; – 作为对人类而言有意义的概念上的实物; – 作为一套套必须保存下来以便向未来的读者提供物件的原貌的原始的成分

– 数字资源在存储媒体上的可读性 – 数字字符串可以被人或电脑阅读和处理– 格式化内容可以被它的使用者理解– 数字资源与它所代表的原物相同

UNESCO (2004). Guidelines for the Preservation of Digital Heritage.

Page 66: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

数字保存的方法• 对原物进行处理

– 迁移 /旧移新 Migration– 规范化 Normalization– 数据抽取 Data extraction– 风干 Dessication

• 保持原物– 模仿 Emulation– 封装 Encapsulation– 技术保存 (硬件博物馆) Technology preservation

(hardware museum)– 重整 / 数据恢复 / 数码考古 Re-engineering/ data

recovery/ digital archaeology

Page 67: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

迁移 (旧移新 ) Migration

• 硬件迁移 – 将数据转到新的容器中

• 软件迁移 – 转移到同样格式的

新版本– 转移到新格式

• 在使用时才做迁移

Page 68: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班
Page 69: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

规范化 Normalization

• 把所有的物件转换成:– 一种或多种选定的格式 – 一种限定的保存格式 , e.g., XML– 一种更通用的格式

Example: National Archive of Australia, stores everything in XML format.

Page 70: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

• 硬件模仿• 软件模仿• 模仿另一种操作系统 • 通过一层中介或虚拟机器 来模仿

模仿 Emulation

Page 71: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

封装 Encapsulation

将内容‘塞进’一个描述中例如 :• 在 XML 文件中装进原文件 • 在描述中与文件一起装进与软件的链接 复杂的数据类型,如 records, class,

objects 常常很依赖包装

Example: Archival Information Packages (AIP) that contain metadata and content files

Page 72: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

技术保存Technology Preservation

• 常被称为硬件博物馆• 保留所有的东西: files, hardware and

software, and keep them alive• 几乎不可能做到维护•当数量太大时不可能做到

Page 73: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

重整 / 数据恢复 / 数据考古 Re-engineering

• 保存原码,然后恢复其可读性和可用性• 很费工,技术上很大难度 • 因为原件不一定还能找到,无法判断到底

应恢复成什么样

Page 74: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

风干 Dessication

补充措施现在最简单的技术对数字信息进行保存,将

来才有可能通过最简单的操作来读取和理解被保存的信息。

对于类似文档(如网页)的数字对象,在保

存原始格式的同时,应该同时派生出一个低技术含量的版本进行保存。

Page 75: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

http://www.kodak.com/global/images/mul/business/docimaging/repositories/migrationDilemma.gif

The tasks in digital preservation will only increase …

Page 76: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

“ 如有紧急情况,可到 174 公里处打紧急电话”

Page 77: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

结语

•我们的社会已经目睹了有数百年历史的书面形式的档案的模式的结束

• 现有的设备无法应付信息技术的进展和随之而来的信息膨胀

• 保存数字遗产的任务远远超出那些以保存和管理人类记忆为特长的机构的能力范围

• 每个单位都应该把数字保存提到议事日程上来

Based on Abdelaziz Abid. Preserving our Digital Heritage: A UNESCO Perspective

Page 78: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

重温目前在座各位可能面临的情况• 决定是否要担起保存数字资源的责任 • 拿出一个数字保存的计划来 • 生产 / 制造预计会有长期价值的数字物件 • 收藏数字物件并决定是否要长期保存之• 判断目前对数字典藏管理的长期保存安排是否有效• 进一步完善现有计划项目• 建立合作计划 • 鼓励和帮助其他单位建立新的保存计划

决定是否要担起保存数字资源的责任

是生产数字物件

收藏数字物件

注入存储索取

数字物件的生命周期管理

Source of the list: Report to ICABS on guidance for digital preservation National Library of Australia , July 2005 : page 6

Page 79: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

数字保存 刻不容缓Digital Preservation

For the Future of the Past

曾蕾 Based on the speech at the Distinguished Scholar Series,

College of Communication and Information, Kent State University. Kent, Ohio , 3/06

Page 80: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

References (1)

• The Commission on Preservation and Access and The Research Libraries Group, 1996. Preserving Digital Information-- Report of the Task Force on Archiving of Digital Information

• LC&NSF, 5/4/2005. Announcement. Library of Congress and National Science Foundation announce research award of $3 million to advance digital preservation. http://www.digitalpreservation.gov/about/pr_050405.html PR 05-118, 5-4-05, ISSN 0731-3527

• Hilde van Wijngaarden. (2004). Different Approaches to Digital Preservation. Chinese-European Workshop on Digital Preservation, July 14-16, 2004. Beijing.

• Abdelaziz Abid. (2004).Preserving our Digital Heritage: A UNESCO Perspective http://www.unesco.nl/images/preserving_our_digital_heritage.doc

• Maggie Jones (2005). Preserving the Digital Heritage: Principles and Policies, The Netherlands Commission for UNESCO, 4-5 November 2005, The Hague.

• National Digital Information Infrastructure and Preservation Program (NDIIPP). http://www.digitalpreservation.gov/

• UNESCO (2004). Guidelines for the Preservation of Digital Heritage. http://www.unesco.nl/images/guidelines.pdf

• UNESCO (2003). Charter on the Preservation of the Digital Heritage. Adopted at the 32nd session of the General Conference of UNESCO, 17 October 2003. http://portal.unesco.org/en/ev.php-URL_ID=17721&URL_DO=DO_TOPIC&URL_SECTION=201.html

• NSF and LOC, (August, 2003). It’s about time: Research challenges in digital archiving and long-term preservation. http://www.digitalpreservation.gov/repor/NSF_LC_Final_Report.pdf

Page 81: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

中欧数字资源长期保存国际研讨会,中国科学院文献情报中心, 2004 年 7 月 14 至 16 日教育部科技发展中心 “ 2006’ 教育行业信息存储大会” , 2006 年 3 月Report to ICABS on guidance for digital preservation National Library of Australia , July 2005 。 http://www.ifla.org/VI/7/pub/IFLAPublication-No119.pdfJonas Palm (2006). The Digital Black Hole. http://www.tape-online.net/docs/Palm_Black_Hole.pdfNancy Y. McGovern (2005). “10 x 10: Tracing Cornell’s Digital Preservation Efforts” http://www.library.cornell.edu/iris/dpo/docs/NC-DP%20at%20Cornell-1105.pptReference Model for an Open Archival Information System (OAIS) 。( 2002 ) CCSDS 650.0-B-1 http://ssdoo.gsfc.nasa.gov/nost/wwwclassic/documents/pdf/CCSDS-650.0-B-1.pdfRLG/NARA Audit Checklist for the Certification of Trusted Digital Repositories http://www.rlg.org/en/pdfs/rlgnara-repositorieschecklist.pdfRLG/OCLC: Trusted Digital Repositories: Attributes and Responsibilities (TDR)http://www.library.cornell.edu/iris/dpo/docs/Cuba-ark-nym_final.pptAnne R. Kenney and Nancy Y. McGovern, (2005). The Three-Legged Stool: Institutional Response to Digital Preservation http://www.rlg.org/longterm/repositories.pdfNSF. (2005). Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century. NSB-05-40 http://www.nsf.gov/pubs/2005/nsb0540/start.jsp

References (2)

Page 82: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

Data Sources

• OCLC Web Characterization, 2003. <http://wcp.oclc.org/> – Miscellaneous statistics http://

www.oclc.org/research/projects/archive/wcp/stats/misc.htm• How Much Information? 2003. Peter Lyman and Hal R. Varian

http://www.sims.berkeley.edu:8000/research/projects/how-much-info-2003/execsum.htm

• Spinellis, D. (2002). The decay and failures of web references. Communications of the ACM, 46, (1), 71 - 77.

• Hughes, Andrew (2003). Genomic Data Sets. Version 1.3: Jun 16, 2003. • The Human Genome Project: Human Genome Project website, 2004 http://

www.ornl.gov/sci/techresources/Human_Genome/home.shtml• Internet Archives: http://www.archive.org/• Search Engines archiving: http://

www.searchengineshowdown.com/others/archive.shtml

• Google Zeitgeist: Search patterns, trends, and surprises http://www.google.com/intl/en/press/zeitgeist.html

• Migration. http://www.kodak.com/global/images/mul/business/docimaging/repositories/migrationDilemma.gif

Page 83: 数字保存 Digital Preservation -- For the Future of the Past 曾蕾 2006·8 北京 数字图书馆前沿问题(发展战略与实践)高级研讨班

Image Credits

• UNIVAC II: http://www1.u-netsurf.ne.jp/~jr1yyt/image/QSL02L2.jpg• FIlmreader: http://www.ssa.gov/history/ssa/filmreader.jpg• Chained book: http://www.nationmaster.com/encyclopedia/University-of-Oxford• Early email: http://www.soon.org.uk/humor/email.gif• Obsolete computer component: http://www.fotosearch.com/ART292/bte004/• Medical records: Image: http://www.medgadget.com/archives/img/r745173893.jpg• Amazon Basin map http://boto.ocean.washington.edu/gifs/sa_basic.gif• Megalith from China 1536 年四川西昌地震遺跡

http://159.226.2.5:89/gate/big5/www.kepu.net.cn/gb/earth/quake/remains/images/rms00602_picb.jpg

• The Nuremberg Trials Project. http://nuremberg.law.harvard.edu/php/docs_swi.php?DI=1&text=overview

• The Digital Michelangelo Project: Marc Levoy, et al., The Digital Michelangelo Project: 3D Scanning of Large Statues http://graphics.stanford.edu/papers/dmich-sig00/

• Mellon International Dunhuang Archive. http://www.artstor.org/info/collections/mida.jsp

• NASA Image Gallery. http://www.nasa.gov/multimedia/imagegallery/index.html• Human Genome Landmarks Poster: Chromosome Viewer.

http://www.ornl.gov/sci/techresources/Human_Genome/posters/chromosome/chooser.shtml

• CNN page: http://edition.cnn.com• Internet Archives: http://www.archive.org/• IIPC: http://netpreserve.org/about/index.php