数字人文与关联数据

54
IT4L2014 2014年图书馆前沿技术论坛 “数字人文与语义技术” 主办: 上海市图书馆学会 DCMI都柏林核心元数据 中图学会数字图书馆研究与建设委员会 上海图书馆 承办: 上海市图书馆学会信息技术专业委员会 协办: 南京大学数图技术实验室 万达信息股份有限公司

Upload: keven-liu

Post on 31-May-2015

557 views

Category:

Technology


6 download

DESCRIPTION

Digital Humanities and Semantic Web Seminar in Shanghai China hosted by Shanghai Librarianship Society held in June 20, 2014 at Information Center of Shanghai Institutes for Biological Sciences.

TRANSCRIPT

Page 1: 数字人文与关联数据

IT4L20142014年图书馆前沿技术论坛 � 

“数字人文与语义技术”

主办: � 上海市图书馆学会 �  �  �  �  �  �  � DCMI都柏林核心元数据 � 

中图学会数字图书馆研究与建设委员会 �  �  �  �  �  �  � 上海图书馆

承办: � 上海市图书馆学会信息技术专业委员会

协办: � 南京大学数图技术实验室 �  � 万达信息股份有限公司

Page 2: 数字人文与关联数据

http://society.library.sh.cn

Page 3: 数字人文与关联数据

本次会议简要议程上午: � 

• 刘炜:数字人文与关联数据 � 

• 曾蕾:语义技术与知识再发现--探索心得 � 

茶歇(10:10-10:20) � 

• 秦健:从欧美数字人文奖助项目说开去 � 

• 林海青:用GIS数据呈现历史事件--以洋务运动为例 � 

• 张亮:数字人文中的IT推动力——以二十世纪中国人物志原型系统为例

Page 4: 数字人文与关联数据

本次会议简要议程午餐(12:00-13:30) � 

下午 � 

• 王曼隽:“上海年华”回顾与展望 � 

• 杨佳:数字人文中的可视化技术 � 

• 夏翠娟:以书目框架建模的上图家谱知识库系统 � 

• 陈涛、张永娟:关联数据在生化学会会员系统中的应用 � 

专家面对面(主持:曾蕾教授) � 

• 抽奖

Page 5: 数字人文与关联数据
Page 6: 数字人文与关联数据
Page 7: 数字人文与关联数据

刘炜 [email protected]

人文研究中的计算: 数据、平台与技术

IT4L2014

Page 8: 数字人文与关联数据

数字人文与关联数据 Digital Humanities and Linked Data

IT4L2014

刘炜 [email protected]

Page 9: 数字人文与关联数据

内容

•什么是数字人文?

•人文何以下嫁数字?

•数字人文与图书馆

•数字人文与关联数据

Page 10: 数字人文与关联数据

什么是数字人文?

Page 11: 数字人文与关联数据

什么是数字人文?

Page 12: 数字人文与关联数据

什么是数字人文?

数字人文是一个重要的多学科(交叉)领域,指应用数字技术从事人文科学研究。旨在建立应用和模型,不仅是一种以信息技术作为工具的新型研究,为人文科学创建新的应用和新的模型,而且促进计算机科学的进步。同时它也研究信息技术对于文化遗产和人类记忆机构,图书馆档案馆以及数字文化的影响。

Page 13: 数字人文与关联数据

什么是数字人文?

A working definition:

Application of digital resources and methods to humanistic inquiry. 应用数字资源与方法回答人文问题

——Waters 2013, 4

Page 14: 数字人文与关联数据
Page 15: 数字人文与关联数据

什么是“人文”? “人文”一词起源于文艺复兴时期意大利学者,指对于经典的研究(Classic Study),对应于以神为中心的神学研究

包括艺术、文学、音乐、舞蹈、喜剧、建筑、哲学等人类文化的各种表达

涉及语言学(古代或现代),文学,历史,哲学,宗教(有意思的是,甚至包括了神学),视觉和行为艺术等,有时还包括人类学、地区研究、传播学、文化研究、法律等。

Page 16: 数字人文与关联数据

数字人文是—— 应用计算机(数字)技术研究人文科学的统称。

Page 17: 数字人文与关联数据

• 并非一个学科,而是一个多学科交叉领域

• 数字与人文已超越了工具和对象的关系,是一种互相渗透、彼此强化的关系

• 数字方法正在为人文科学创建新的应用、建立新的范式和模型,人文科学又反过来促进了计算机科学的发展

Page 18: 数字人文与关联数据
Page 19: 数字人文与关联数据

https://twitter.com/scott_bot/status/465264351494955008/photo/1

Page 20: 数字人文与关联数据
Page 21: 数字人文与关联数据

人文就是人文。就像并不存在印刷人文一样,当所有的人文都负载于数字媒体的之上,其实就无所谓“数字”人文了 然而这并不是说我们可以无视数字技术的力量,或对数字技术的巨大缺陷视而不见,而只能说数字成了人性的一部分而变得更加重要,我们迫切需要有一种新的人文解释,来驾驭这种新的“人性”。

Page 22: 数字人文与关联数据

数字如何高攀人文?

Page 23: 数字人文与关联数据

罗伯特·•∙布撒神父(1913-2011) � 数字人文的先驱和奠基者 � 

耶稣会会士,计算机语言的发明者,超文本应用的先驱,伟大的和不朽的托马斯全集索引的编纂者

Page 24: 数字人文与关联数据

Saint Thomas Aquinas!1225 - 1274

Page 25: 数字人文与关联数据

Thomas Watson!1874 - 1956

Page 26: 数字人文与关联数据

Roberto A. Busa!1913 - 2011

Page 27: 数字人文与关联数据

• 词语在⽂文本中的位置 • 特殊参考标识 • 词语本⾝身 • ⽂文本中词语的数量 • 前⼀一个词语中第⼀一个字⺟母 • 后⼀一个词语中的第⼀一个字⺟母 • 表格卡⽚片号 • 款⺫⽬目卡⽚片号

Page 28: 数字人文与关联数据
Page 29: 数字人文与关联数据
Page 30: 数字人文与关联数据

数字人文典型案例

1. 经典案例:布撒神父托马斯全集索引

2. 莎士比亚及红楼梦研究

3. Europeana、DPLA、美国记忆等

4. Mapping the Republic of Letters 知识界通信地图

5. London Lives 伦敦生灵

6. Biblion 书世界

7. 达尔文、魏特曼、牛顿、唐吉坷德等项目

Page 31: 数字人文与关联数据

翻译⾃自 Willard MaCarty数字⼈人⽂文全景图(2002.5)

通讯与超媒体技术

方法论 � Methodological � Commons

文本分析

数据库设计

音乐检索与分析图像处理

数据分析

语⾔言⽂文学

宗教神学

哲学研究

法律

历史研究

表演艺术 物质

⽂文化

⾳音乐

哲学(本体论、科学哲学、认识论、历史哲学等)

计算机科学(编程、系统、界⾯面设计、⼈人⼯工智能、超⽂文本、数字图书馆、编码技术。)

语⾔言学(⽂文集语⾔言处理,计算语⾔言学)

社会学(学科观察、知识科学等)

历史学(历史学、⼈人类学、科技史)

⽂文学艺术(创造性想像⼒力、修辞学与设计、翻译)

Page 32: 数字人文与关联数据

数字人文关键技术 • 文本编码标准(TEI)、电子编辑与出版

• 数字文学

• 文本分析与挖掘

• 多媒体搜索中的沉浸与虚拟环境

• 3D 图像技术与激光扫描技术

• 数字图形设计

• 信息美学

• 计算机游戏与人文

• 人文领域的超级计算

• GIS高级应用

• 语义技术

Page 33: 数字人文与关联数据

data$

method''

• 数据和方法,是数字人文的两大支柱

• 目前这两大支柱都面临新的革命:

1. 数据-大数据:知识单元的细粒度化,知识组织的语义化,知识呈现的可视化

2. 方法-云计算:全网域,软件即服务,平台及服务,见所未见、能所不能

Page 34: 数字人文与关联数据
Page 35: 数字人文与关联数据

数字人文与图书馆

Page 36: 数字人文与关联数据

⽂文本分析

媒体库

专题资源库

名⼈人⼿手稿或档案

……

数字⼈人⽂文

数字图书馆

Page 37: 数字人文与关联数据

数字人文支持中心

• 美国国家人文基金会(NEH)

• 日本科学技术振兴机构(JST)

• 德国研究基金会(DFG)

• 英国信息系统联合委员会(JISC)

• 澳大利亚联邦政府创新、产业、科学与研究部(DIISR)

• 梅隆基金会(Mellon Foundation)

• 麦克阿瑟基金会(MacArthur Foundation)

• 国际图书馆联合会(IFLA)

• 图书馆与信息资源委员会(CLIR)

• 美国博物馆和图书馆服务协会(ARL)

Page 38: 数字人文与关联数据

图书馆已经在做的

• 获取资源

• 进行数字化工作

• 建立机构库

• 提供馆际互借服务

• 按需扫描及类似服务(数码相机翻拍)

• 参与研究(学科馆员融入一线嵌入过程)

• 数据庋藏以及数据图书馆员

来⾃自OCLC《Does Every Research Library Need a Digital Humanities Center?》 http://oclc.org/content/dam/research/publications/library/2014/oclcresearch-digital-humanities-center-2014.pdf

Page 39: 数字人文与关联数据

图书馆作为数字人文中心

• 将现有的服务打包为“虚拟数字人文中心”;

• 开展不同机构有关数字人文的项目合作

• 帮助学者制定保存性需求计划

• 拓展机构库以适应数字人文数字对象的管理

• 开展各类机构在国际间对数字人文的投入

• 拓展使用和强化学术元数据的渠道

• 在数字化开始初期咨询数字人文专家

• 参与数字人文项目并从开始就保证期可持续性

• 作为数字人文中心运作

来⾃自OCLC《Does Every Research Library Need a Digital Humanities Center?》 http://oclc.org/content/dam/research/publications/library/2014/oclcresearch-digital-humanities-center-2014.pdf

Page 40: 数字人文与关联数据

• 提供资源支持

• 开展项目研究

• 建设平台开发工具

• 作为成果与人才孵化器

• 举办示范与推介活动

• 申请研究经费,开展合作

• 使成果积淀下来、可持续发展

图书馆作为数字人文中心的作用

Page 41: 数字人文与关联数据

已开展数字人文研究的图书馆

Page 42: 数字人文与关联数据

• 古籍善本(3126)、稿本(4246 )、抄本(1733)、刻本(2022),共计11127种

• 普通古籍(12.9万种,MARC)

• 家谱(2.1万种)

• 盛宣怀档案(17.8万件)

• 近代图书(21.3万种)

• 近代期刊(8142种)

• 近代期刊论文(314万篇)

• 旧日文图书(4.1万种MARC)

• 旧西文图书(5.6万种)

全国报刊索引情况: 总体情况:从1833年至今,总量4500万条,报刊总数4.5万余种,年更新数据400余万条 !

数据库情况 1.全国报刊索引数据库(1833年至今) 收录万余种,年更新300万条。 2.晚清期刊全文数据库(1833-1911) 300余种期刊,28万篇文献 3.民国时期期刊全文数据库(1911-1949) 25000余种期刊,1000万篇文献 4.北华捷报/字林西报全文数据库(1850-1951) 50万版

Page 43: 数字人文与关联数据

数字人文与关联数据

Page 44: 数字人文与关联数据

关联数据的作用

一、数据发布

Page 45: 数字人文与关联数据

关联数据四原则• 原则一:使用URI作为任何事物的标识名称

Use URIs as names for things;

• 原则二:使用HTTP URI使任何人都可以访问名称 Use HTTP URIs so that people can look up those names;

• 原则三:当有人访问名称时,提供有用的[RDF]信息 When someone looks up a name, provide useful [RDF] information

• 原则四:尽可能提供相关的URI以使人们发现更多的信息 Include links to other URIs so that they can discover more things

Page 46: 数字人文与关联数据

二、数据关联

关联数据的作用

Page 47: 数字人文与关联数据

http://richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19_colored.png

Page 48: 数字人文与关联数据
Page 49: 数字人文与关联数据

各类数字化

各类标引加工

典藏管理(文献层+数据层)

上海年华*海上风华 整合检索服务

开放资源

数字人文 资源发现

Eupeana

DPLA

e-ScienceDigital Humanity

Page 50: 数字人文与关联数据

我们能做什么?1. 早期:莎士比亚及红楼梦研究

2. Eupeana、DPLA、美国记忆等

3. Mapping the Republic of Letters 知识界通信地图

4. London Lives 伦敦生灵

5. Biblion 书世界

6. 达尔文、魏特曼、牛顿等项目 叶永烈、名人手稿

上海年华*图片库*电影记忆...

盛宣怀档案

家谱、年谱、图片库、碑帖库

增强型电子书?

Page 51: 数字人文与关联数据

各类数字化

各类标引加工

典藏管理(文献层+数据层)

上海年华*海上风华 整合检索服务

外购资源 � 开放资源

数字人文 资源发现

叶永烈、名人手稿上海年华*图片库*电影记忆盛宣怀档案

家谱、年谱、图片库、碑帖库

增强型电子书?

Page 52: 数字人文与关联数据

家谱

本图由上海图书馆夏翠娟绘制

Page 53: 数字人文与关联数据

DH举例:盛宣怀档案本体

数量:17.8万件,1亿多字 时间:自1856年至1936年跨度80年(前20年为其父亲盛康所记,死后20年为后人所记) 类型:日记、信函、文稿、帐册、上谕、奏折、文件登记簿、号簿、目录、账册、单据、发票、剪报、请帖等等。 盛宣怀家族史、盛宣怀与赈灾、盛宣怀与铁路、盛宣怀与近代教育、盛宣怀与西学、盛宣怀与晚清官场等 涉及重大事件如洋务运动、义和团运动、辛亥革命、中日战争、中外商务谈判、四川保路运动、东南互保事件等; 涉及人物如孙中山、李鸿章、黄兴、谭嗣同、梁启超、翁同和、沈葆桢、郑观应、张之洞、左宗棠、丁汝昌、袁世凯、辜鸿铭、胡雪岩、詹天佑等三千余人;

王元化先生说:“‘盛档’原件如能公布,将能补史之阙,纠史之偏,正史之讹。”

Page 54: 数字人文与关联数据