知识获取 “ 五要素 ” 的研究与实践
DESCRIPTION
知识获取 “ 五要素 ” 的研究与实践. 吴广印 万方数据股份有限公司 研究员 2008-11-06. 3. 3. 解读知识获取 “ 五要素 ”. 1. 3. 基于 “ 五要素 ” 理念的知识库构建. 2. 基于 “ 五要素 ” 研究的阶段性成果. 主要内容. ----. ---- 解读知识获取“五要素”. “ 五要素 ” 的提出背景(一). 在信息资源不断丰富,甚至已经称之为 “ 信息爆炸 ” 的今天,获取有用的信息或者知识却越来越难;拥有的前所未有的知识财富,让我们越来越迷失在知识的海洋中。 - PowerPoint PPT PresentationTRANSCRIPT
www.wanfangdata.com.cn
知识获取知识获取““五要素五要素””的的研究与实践研究与实践
吴广印 万方数据股份有限公司 研究员
2008-11-06
www.wanfangdata.com.cn
主要内容主要内容
基于“五要素”理念的知识库构建2
解读知识获取“五要素”31
基于“五要素”研究的阶段性成果33
www.wanfangdata.com.cn
“ 五要素”的提出背景(一)
在信息资源不断丰富,甚至已经称之为“信息爆炸”的今天,获取有用的信息或者知识却越来越难;拥有的前所未有的知识财富,让我们越来越迷失在知识的海洋中。
目前的信息检索系统返回检索词的结果数量巨大,而用户所需要的仅仅是其中很小一部分,遍历每一个检索结果去寻找,费时费力效率低下。
造成这种结果的原因就是用户所输入的检索词与论文作者在论文中展现的元数据信息之间没有客观联系,用户往往是在“猜”作者用的是什么关键词,单位是否用了别名等等。
知识获取过程中的知识导航是知识服务的关键,导航重于检索。
--------解读知识获取“五要素”
www.wanfangdata.com.cn
“ 五要素”提出背景(二)
目前国内几家公司在知识服务系统开发方面,技术路线大同小异,主要精力放在数据本身的深加工方面,没有从核心要素方面入手进行研究(这是思路问题),从而投入了大量人力和物力,效果并不明显。
在导航方面基本上采用的是后端导航,所谓后端导航就是由用户输入一个不太明确的检索需求,由系统进行检索,然后根据检索结果进行按学科、人物、机构等进行分类,对用户进行选择继续检索,直到找到合适的文献为止。
后端导航明显缺点是计算量大,导航效果不理想。
----解读知识获取“五要素”
www.wanfangdata.com.cn
学科、主题、人物、机构和基金是知识发现的核心“五要素”,是知识获取的关键
学科 : 获取专业知识的基础限定条件,是知识的一种专业分类;
主题:用以表达文献主题(知识)的规范化的词或词组 ;
人物:直观的学科带头人、同行等,是专业知识的研究或传播主体;
机构:与学科、主题、人物紧密关联的研究、教学单位;
基金:国家或组织提供专项经费支持的事业。基金又能从一个侧 面真实反映出一个学术机构的科研能力 ( 各学科领域基金资 助的研究项目普遍具有方法先进、学术水平高、研究深入等 特点); 无论根据学科、主题发现人物,还是通过人物去关注主题,都是知识发现的基础
----解读知识获取“五要素”
www.wanfangdata.com.cn
“ 五要素”的基础是构建相关知识库
以学科为纽带,组成各个要素之间的相互关联关系,构成知识关联网络。各个知识库详细描述各个要素的信息,形成知识节点。
例如:机构-分类关联可以获得各个机构的研究学科,以及有哪些机构在研究该学科等知识;机构-分类-作者可以获得某个学科在某个机构中有哪些人在研究等。一次类推五要素之间的相互关联包含了整个学术界的科研情况,从各个角度,各个侧面都有无穷的知识让我们去挖掘使用。
----解读知识获取“五要素”
www.wanfangdata.com.cn
主要内容主要内容
基于“五要素”理念的知识库构建2
解读知识获取“五要素”31
基于“五要素”研究的阶段性成果33
www.wanfangdata.com.cn
“ 五要素”知识库
学科知识库:学科为主,包括学科注释、相关主题、作者、机构、基金
主题知识库:以主题为基础,包括学科、人物、机构、基金等项
人物 /作者知识库:包括姓名、学历、职称等履历性基础信息和相关研 究学科、主题、所在机构、完成基金项目等信息
机构知识库:包括机构名称、曾用名等基本信息和机构相关的学科、主 题行业带头人、完成基金项目等信息
基金知识库:包括基金名称、主体等基础信息和涉及的学科、主题、支 持项目的主要完成人、完成单位等信息
----基于“五要素”理念的知识库构建
www.wanfangdata.com.cn
通过数据海量挖掘构建“五要素”知识库
---通过对万方数据拥有的如下海量资源库进行数据挖掘。 期刊学位论文数据库; 硕、博士论文数据库; 会议论文数据库; 机构(科研机构、企业、教育等)数据库; 科研成果数据库; 标准数据库; 专利文献数据库
最后通过大量的专业人员的人工处理构建最终知识库。
----基于“五要素”理念的知识库构建
www.wanfangdata.com.cn
“ 五要素”知识库样例----基于“五要素”理念的知识库构建
www.wanfangdata.com.cn
主要内容主要内容
基于“五要素”理念的知识库构建2
解读知识获取“五要素”31
基于“五要素”研究的阶段性成果33
www.wanfangdata.com.cn
基于“五要素”的前端导航服务系统
建立一个高效的基于人物、学科、主题、机构和基金的知识服务前端导航系统,是知识服务的关键所在
学科
机构 基金
主题
人物
知识的核心要素
前端导航——目前Google,百度等搜索引擎都在提供简单的基于检索词的前端导航,由于其前端导航所用知识库的局限,导航效果一般,但前端导航这一交互式导航方式确引起了业界高度关注。
后端导航——目前万方、同方等服务系统所提供的导航服务为后端导航服务。即根据检索结果进行导航服务,即时计算而出的。效率低,导航效果差。
----基于“五要素”研究的阶段性成果
www.wanfangdata.com.cn
“ 五要素”知识库逻辑关系
“ 五要素”前端导航的基础是建立五要素知识库:
我们的“五要素”知识库是通过对我们的海量资源挖掘、整理所得到的。
人物知识库人物知识库
主题知识库主题知识库
基金知识库基金知识库机构知识库机构知识库
学科基础知识库不同学科对照知识库学科基础知识库
不同学科对照知识库
五要素知识库五要素知识库五要素知识库五要素知识库
学科知识库主要包括:学科代码、本学科下的主题、人物、机构及基金等字段项。比如:给出一个学科,可以知道与本学科相关的主题、人物、机构、基金等信息。其它知识库的结构类似,只是关键字段不一样而已。
----基于“五要素”研究的阶段性成果
www.wanfangdata.com.cn
“ 五要素”前端导航主要特点
“ 五要素”前端导航是在进入具体检索之前进行导航,根据用户的需要进行引导、建议并构造出标准检索式,大大提高了查准率,不会出现动辄成百上千检索结果。
通过交互式的“五要素”导航,用户可直接获得基于“五要素”知识库的精确检索表达式,表达式的构建符合 CQL标准。
“ 五要素”导航系统可以理解是一个独立的产品,其最终生成的检索表达式可提交到任意支持 CQL 的标准检索接口。
----基于“五要素”研究的阶段性成果
www.wanfangdata.com.cn
“ 五要素”知识库样例----基于“五要素”研究的阶段性成果
www.wanfangdata.com.cn
“ 五要素”导航结果示意----基于“五要素”研究的阶段性成果
www.wanfangdata.com.cn
⊙通过不断积累可形成基于学科、主题的专业人员数据库,用于行业评估和分析;
建立知识服务导航系统,实现基于人物的学科、主题、机构、基金导航,也可实现基于学科的人物、主题、机构、基金等导航服务。通过基于“五要素”的前端多维导航可构成高效准确的检索需求,可大大提高检索系统的查准率。
“ 五要素”知识库在知识服务中的重要作用
⊙通过规范学科知识库,可提高我们现有加工、服务系统的分类检索和服务的能力;
⊙作为产品可用于万方数据资源服务系统的导航,也可以作为独立产品与其它检索系统导航;
⊙“ 五要素”知识库可衍生其它研究成果,比如自动标引与分类系统
⊙通过新建主题知识库和实现科技文献的自动标引和分类;同时可实现基于关键词的词频统计和新主题发现;
----基于“五要素”研究的阶段性成果
www.wanfangdata.com.cn
基于“五要素”知识库的自动标引与分类系统的开发
基于“五要素”知识库我们完成了文献数据库的“自动标引和分类”系统;该产品具有如下特点:
分类标引准确度高,可以说高于一般专业人员; 速度快,满足海量数据处理需求,可实时工作; 提供基于 Web Service标准的开发接口,可远程提供接口调用服务,并与任何系统无缝集成
----基于“五要素”研究的阶段性成果
www.wanfangdata.com.cn
谢谢大家!