第二章 信息检索技术与策略 -...

Post on 21-Oct-2019

9 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

第一节 信息存储的基本知识

第二节 信息检索概述

第三节 现代信息检索策略

第四节 检索效果评价

第二章 信息检索技术与策略

第一节 信息存储的基本知识

信息存储是指利用一定的科学规则和方法,通

过对信息的特征进行分析、表征和提炼,并按给定

的参数和序列公式排列、存储在相应载体上,组织

成系统化的具有检索功能的系统过程。

第一节 信息存储的基本知识

一、信息筛选

二、信息描述

三、信息检索语言

四、信息存储

一、信息筛选

信息筛选是指对原始信息有无作用的挑选和鉴别,是建立信息

资源检索系统的基础和保障。

信息筛选原则:针对性、系统性、预见性、科学性、计划性和

及时性。

信息筛选方法:直观判断、分析、集体讨论、专家裁决、数学

核算、现场核实等方法。

二、信息描述

信息描述是指根据一定的规则和技术标准,对信息的外

部特征、物质形态和内容特征进行全面描述并给予记录的过

程。

一条信息之所以有别于其他信息,主要是它与其他信息

在外表和内容两方面的特征都有所不同。

二、信息描述

信息描述

外部特 征描述

信息名称

信息来源

信息加工者

类型及表现形式

内容特 征描述

分类号

主题词

关键词

信息外部特征的描述

期刊论文:

文献题目、著者、著

者工作单位、文献的

出处(刊名、刊号、

卷期、起止页码)、

语种、参考文献及图

表的数量等。

图书:

书名、著者(或编

者、译者)、出版

项(出版社、地点、

时间)稽核项(价

格、页数、参考文

献)、书号等。

信息内容特征的描述

信息内容特征描述:是指在对信息内容进行分析

的基础上,根据一定的规则对信息的内容予以揭示,

并赋予标识的过程。

信息内容特征的描述较为复杂,必须借助于特定

的信息检索语言。

三、信息检索语言

信息检索语言是根据信息组织和信息检索的需要

而创制的人工语言,又称信息组织语言、情报语言、

标引语言、索引语言等。

1. 分类检索语言

三、信息检索语言

分类检索语言是用分类号和类名来表达各种概念,

将各种概念按学科门类的逻辑次序或事物的性质进行

分类和系统排列。

如:中国图书馆分类法

美国国会图书馆分类法

杜威十进位分类法

中国图书馆分类法的体系结构:

部类(5个):

马克思主义、列宁主义、毛泽东思想

哲学

社会科学

自然科学

综合性图书

三、信息检索语言

中国图书馆分类法的体系结构:

大类(一级类目) 22 个

三、信息检索语言

中国图书馆分类法的体系结构:

S农业科学类目简表

三、信息检索语言

2.主题检索语言

主题检索语言是用语词作为概念标识,按字顺排列,并用参

照系统等方法间接显示概念间相互关系的一种信息检索语言,也

称主题法系统。

◆ 标题词语言(Heading) 受《词表》控制

◆ 元词(单元词)语言 (Uniterm) 受《词表》控制

◆ 叙词语言( Descriptor ) 受《词表》控制

◆ 关键词语言(Keyword) 不受《词表》控制

三、信息检索语言

四、信息存储

1. 数据库及其构成

数据库(database):至少由一种文档组成,并

能满足某一特定目的或某一特定数据处理系统需要的

一种数据集合。 通俗地说,数据库就是在计算机存储

设备上,按一定方式存储的相互关联的数据集合,是

信息检索的基础。

一条信息记录(record)是由若干个字段

(Field)所组成,字段是构成记录的基础;信息记

录的集合就形成文档,一个数据库可以包含有一个文

档,也可以含有若干个文档。

1. 数据库及其构成

四、信息存储

2.数据库记录的格式

“记录”是文献信息数据库的基本组成单位。

每一条记录是由三种类型的字段组成:检索系统存取

号、基本索引字段和辅助索引字段。

四、信息存储

2.数据库记录的格式

四、信息存储

第二节 信息检索概述

一、信息检索的发展历程及进展

二、信息检索的概念与原理

三、信息检索的类型和方法

四、信息检索工具

一、信息检索的发展历程及进展

(一)手工检索阶段

(二)机械检索阶段

(三)计算机检索阶段

1. 脱机批处理检索

2. 联机检索

3. 光盘检索

4. 网络检索

信息检索:是指将信息

(主要指文献信息)按一定

的方式组织和存储起来,并

根据用户的需要找出相关信

息的过程。

信息检索 存储

检索

存储:是对信息进行著录、 标引、整序,编制检索工 具和建立检索系统的过程。

检索:是指面向信息需求 而进行高度选择性的查找 过程。

二、信息检索的概念和原理

原始文献

加工整理

数据库

提 问

检 索

输 出 存 储

检 索

二、信息检索的概念和原理

信息检索原理

检索提问标识与存储标引标识进行比较,两者一

致或信息标引的标识包含着检索提问标识,则具有该

标识的信息就从检索系统输出,输出的信息就是检索

命中的信息。

二、信息检索的概念和原理

文献检索

数据检索

事实检索

全文检索

图像检索

超文本检索

按检索内容划分

三、信息检索的类型和方法

1. 信息检索的类型

文献检索

使用以二次文献为存储对象的信息系统,如目录型、题录

型、文摘型数据库,是一种相关性检索。特点:检索结果不直

接解答课题用户提出的技术问题,只提供与之相关的线索。

例如:查找有关“食品安全与人类健康 ”方面的国内外

信息有哪些?

三、信息检索的类型和方法

数据检索 以数值信息为检索对象,通过检索,用户可以获得所需

要的确切数据,是一种确定性检索。它一般以数据大全、手

册、年鉴等为检索工具。

例如:2013年申请中国发明专利和获得授权发明专利最

多的国家有哪些?

检索工具:中国统计年鉴

三、信息检索的类型和方法

事实检索 检索系统中存储的是从原始文献中抽取的各种事实,用户

通过检索可获得有关事物、事件的发生与发展情况及相关资料,

它也是一种确定性检索。一般利用字词典、年鉴、百科全书、

手册等为检索工具。

例如:禽流感最早出现于哪个国家

检索工具:兽医手册

三、信息检索的类型和方法

全文检索

从存储有大量原始文献全文的数据库中检索全文或某一

章节,属相关性检索的范畴。特点:是在书目信息检索基础

上更深层次的内容检索。

例如:检索由陈代文等撰写的“动物营养与免疫研究进

展 ”一文的全文

检索工具:中文科技期刊数据库等

三、信息检索的类型和方法

图像检索

以图像或图文信息为检索对象的检索方式。

超文本检索

利用非线性信息组织方法建立的数据库检索相关信息的方式。

三、信息检索的类型和方法

按信息检索手段划分

手工信息检索

计算机检索

三、信息检索的类型和方法

2. 信息检索的方法

(1)引文追溯法:利用文献所附的参考文献进行追溯查找。

(2)工具法:是指利用各种检索工具或数据库查找文献信息的

方法。包括顺查法和倒查法两种。

(3)循环法:是工具法与引文追溯法相结合的一种检索方法

三、信息检索的类型和方法

四、信息检索工具

信息检索工具是用来存储、报道和检索文献线索的工具,

具有存储和检索两个基本功能。

信息检索工具的类型按照不同的标准划分有不同的类型,

最常用的一种划分方式就是按照著录内容划分,可以分

为目录、题录、文摘三种。

第三节 现代信息检索策略

信息检索策略是为实现检索目标而制定的计划或方案。

一、分析检索课题,明确检索要求

二、选择检索系统

三、确定检索途径

四、选择检索词

五、构造检索式

六、实施检索

七、调整检索策略

八、原始文献的获取

一、分析检索课题,明确检索要求

1. 分析课题学科属性、专业范围及相关内容

2. 分析检索课题的信息类型和时间要求

3. 明确用户自身的信息需求

二、选择检索系统

选择检索系统要考虑三方面的因素:检索课题

的具体要求;检索系统的类型、性能;检索者对检

索系统的熟悉程度 。

三、确定检索途径

1.文献的外部特征为检索途径

(1)题名途径

(2)责任者(著者)途径

(3)号码途径

(4)机构途径

2.以文献信息的内容特征为检索途径

(1)分类检索途径

(2)主题检索途径

3.以文献的相互引证关系为检索途径

三、确定检索途径

四、选择检索词

选择检索词一般要考虑以下基本原则:

(1)优先选用叙词或主题词作为最基本的检索词;

(2)要从词表规定的专业范围出发,选用各学科内具有检索价

值的基本名词术语;

(3)如选择的检索词无词表可查,可选择自由词作为检索词;

(4)选词要适应待检数据库的检索用词规则;

(5)通常要选择常用的基本词汇进行匹配。

例如: 1.速溶绿豆酸奶制作工艺的研究

选择检索词:

速溶 绿豆 酸奶 制作工艺 乳酸菌 发酵

2.鹅细小病毒VP3基因疫苗两种不同免疫

方式对细胞免疫的影响

选择检索词:

雏鹅 细小病毒 基因疫苗 细胞免疫 肌肉注射

基因枪轰击 免疫方式 弱毒疫苗 免疫应答

五、构造检索式

1.单元词检索(概念检索)

检索标识是具体的检索词或词组,每个检索词表达一个概念。

2.布尔逻辑算符组配检索

将多个检索词进行逻辑组配形成的一种复合性检索要求。

用符号“or”或“+”表示,其逻辑表达式为:

A or B 或 A+B

其意义为检索记录中凡含有检索词A或检索词B,

或同时含有检索词A和B的,均为命中文献。

逻辑“或”(和)

A B

用符号“and”或“*”表示,其逻辑表达式为:

A * B 或 A and B

其意义为检索记录中必须同时含有检索词A和B的文献,

才算命中文献。

逻辑“与”

A B

用符号“not”或“-”,其逻辑表达式为:

A not B 或 A-B

其意义为:检索记录中含有检索词A,但不能

含有检索词B的文献,才算命中文献。

逻辑“非”

A B

布尔检索注意事项

“or”逻辑:

有些检索词表达的概念,存在整体与部分的关系。在检索中,

这类关系如 果处理的不 好,就不能达到满意的效果。如:

查:动物遗传育种的文献

检索式:动物 and 育种

检索式应修改为:

(动物 or 猪 or 牛 or 羊…)and 育种

With:设定需检索的两个词或词组在同一字段中,但不限制

位置的先后。

Near:设定需检索的两个词或词组在同一语句中,相对于

“with”更接近。此外,在使用“near”运算符时,还可以

在该运算符后添加一个数字以便进一步限定两个词之间的邻

近程度,如“near3” 设定需检索的两个词或词组在同一句

子中且相隔不超过3个单词。

3.位置逻辑算符

4.截词(模糊检索)

截词检索主要是利用检索词的词干或不完整的词形进行检索。

截词符一般用“?”、“ :”、“#”表示

(1)后方截词:用于前方一致的派生词检索。

如:信息?

则表示在数据库中含有信息、信息技术、信息检索等方面的

文献记录均为命中文献。

(2)前方截词:用于后方一致的派生词检索。

如:?经济

则数据库中含有经济、工业经济、农业经济等方面的文献均

为命中文献。

(3)有限截词

在检索词后面加上一个或一个以上(最多4个)的“?”,

空一格,再加一个“?”。如:

Comput??? ? 可检索出:

Computer,Computers,Computing

截词检索在不同的计算机检索系统中规定不同,请使用时

注意。

4.截词(模糊检索)

5. 比较运算符

=等于,> 大于,< 小于 ,>= 大于等于,

<= 小于等于

6. 优先运算符

( ) 、 ‘ ’ 、“ ”

六、实施检索

使用各种检索工具进行检索。

七、调整检索策略

1. 检索结果信息量过多

① 减少同义词与同族相关词。

② 增加限制概念,采用逻辑“与”连接检索词。

③ 使用字段限定,将检索词限定在一定的字段范围。

④ 使用逻辑“非”算符,排除无关概念。

⑤ 增加语种限制以及缩短检索期限。

⑥ 调整位置算符,由松变严。

⑦ 将截词的词根变长或减少截词算符的使用。

2. 检索结果信息量过少

① 选择同义词与相关词,并用逻辑“或”将它们连接起来,

增加网罗度。

② 减少逻辑“与”和逻辑“非”的运算,丢掉一些次要的或

者太专指的概念。

③ 去除某些字段限制。

④ 增加上位概念。

⑤ 重新选择更合适的数据库。

⑥ 调整位置算符,由严变松。

⑦ 增加截词算符的使用。

七、调整检索策略

3. 检索结果中误检率过高

① 对叙词进行相关的限定,如学科限定。

② 提高用户分析课题的能力,确定核心检索词。

③ 尽量少使用全文字段检索。

④ 正确使用缩写词。

七、调整检索策略

八、原始文献的获取

获取全文的途径:

首先是查找本单位购买的全文数据库;

其次可利用那些提供流量计费下载的全文数据库网站获取;

第三,向文献收藏单位联系馆际互借或文献传递;

第四,可直接向作者索取;

最后,都找不到的情况下,可向出版发行单位购买。

第四节 检索效果评价

检索效果评价主要是指信息检索的最终结果是否满

足用户需求或满足程度如何。

一、信息检索的效果评价指标

二、影响检索效率的主要因素

一、检索效果评价指标

以一个检索提问去检索任何一个数据库都会出现 4 个相关

量:检出的相关信息量、未被检出的相关信息量、检出的非相关

信息量、未检出的非相关信息量。

1. 查全率 查全率(R )= —— ×100%

查全率是对所需信息被检出程度的信息量指标,是指检索出的相关信息量与信息系统中的相关信息总量之比。 2. 查准率 查准率(P )= ——×100% 查准率是衡量拒绝非相关信息的指标,是指检索出的相关信息量和检索出的信息总量之比。

a

a+c

a

a+b

一、检索效果评价指标

3. 漏检率

漏检率(O)= ——×100%

漏检率是指未被检出的相关信息量与信息系统中的相关信息

总量之比。

4. 误检率

误检率(N) = ——×100%

误检率是指检索出的非相关信息量和检索出的信息总量之比。

c a+c

b

a+b

一、检索效果评价指标

二、影响检索效果的因素

1. 数据库的质量(客观因素)

(1)数据库搜集信息的数量与质量

(2)对每条信息揭示的深度与广度,著录标引的质量

(字段的数量,主题词的信息标引网罗度)

(3)检索途径及检索字段的数量

2. 检索策略的制定(主观因素)

(1)分析与研究课题的准确程度

(2)检索工具与数据库的选择是否恰当

(3)正确分析课题的主题内容,选择最佳检索词

注意对同义词、近义词、上位概念、下位概念的选取;

选用核心主题词及隐含的主题词,排出检索意义不大的概

念词,如:研究、进展、发展、现状、方法 ;

生物体的名称(学名、俗名、拉丁学名) ;

二、影响检索效果的因素

化学物质的名称(常用与代码);

检索词的专指度:专指度是指检索词揭示信息主题的准

确度。使用专指度高的检索词,查准率高,但查全率会相对

降低;使用专指度低的词,有利于提高查全率,但会降低查

准率。

(4)明确检索词之间的逻辑关系,制定合理检索策略

(5)在初次检索的基础上进一步修正与完善检索

2. 检索策略的制定(主观因素)

二、影响检索效果的因素

top related