第三章 文献信息检索基本理论

43
第第第 第第第第第第第第第第 第第 第第第第 第第第第 第第第第第第第第第第第第

Upload: nicholas-lamb

Post on 30-Dec-2015

76 views

Category:

Documents


11 download

DESCRIPTION

第三章 文献信息检索基本理论. 概述 检索语言 检索工具 文献信息检索的方法和途径. 第一节 概 述. 文献信息检索的基本原理 文献信息检索的类型. 一、 文献信息检索的基本原理. 文献信息→被选文献 ↓ 信息存储 概念分析 ↓ 标引 将概念转换成系统语言→用系统词表(分类、主题词表等) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第三章 文献信息检索基本理论

第三章 文献信息检索基本理论 第三章 文献信息检索基本理论

• 概述• 检索语言 • 检索工具•文献信息检索的方法和途径

Page 2: 第三章 文献信息检索基本理论

第一节 概 述

• 文献信息检索的基本原理• 文献信息检索的类型

Page 3: 第三章 文献信息检索基本理论

一、文献信息检索的基本原理文献信息→被选文献 • ↓ 信息存储 • 概念分析• ↓ 标引• 将概念转换成系统语言→用系统词表(分类、主题词表

等)• ↓• 检索工具(数据库)• ↓↑• 将概念转换成系统语言 ↑ 标引 信息检索信息用户→信息要求→概念分析

Page 4: 第三章 文献信息检索基本理论

二、文献信息检索的类型• 1 、按文献存贮内容分,• A 、文献检索 是指检索工具或计算机检索系统中所输入的内容是书目、题录或文摘,它们是文献内、外特征的描述和记载。

• B 、事实检索 是指检索工具或计算机检索系统中,存贮的是从原始文献中抽取的各种事实(如事物发生的时间、地点、人物、过程等)。

• C 、数据检索 是指检索工具或检索系统中,存贮的是大量数值型数据,如统计数据、科学技术常数等。

Page 5: 第三章 文献信息检索基本理论

2 、按文献存贮载体及检索手段分

• A 、手工检索• B、计算机检索 是用计算机来处理

和查找信息的检索方式。包括光盘检索、联机检索和因特网信息检索

• A 、手工检索• B、计算机检索 是用计算机来处理

和查找信息的检索方式。包括光盘检索、联机检索和因特网信息检索

Page 6: 第三章 文献信息检索基本理论

第二节、检索语言第二节、检索语言

•一、检索语言的含义•二、检索语言的作用 •三、检索语言的类型

Page 7: 第三章 文献信息检索基本理论

一、检索语言的含义• 检索语言——是根据情报检索的需要而编制的人工语言,它是信息检索系统存储与检索所使用的共同语言 , 即在文献存储时,文献的内容特征(如分类号、主题词)和外表特征(如书名、著者、出版项等)按照一定的语言来描述,检索文献的提问也按照一定的语言来加以表达,这种在文献存储和检索过程中,共同使用、共同遵守的语言就是检索语言。又称情报语言、标引语言、索引语言等等。

Page 8: 第三章 文献信息检索基本理论

二、检索语言的作用•( 1 )用以标引文献的主要概念,并保证不同标引人员标引文献的一致性。

• 标引——是对文献的内外特征及其它有检索意义的特征进行分析、描述,用检索标识记录下来,作为存取依据的文献处理过程。其实质就是将自然语言转换成系统语言,赋予文献主题以主题词或分类号的过程。

• 标识——揭示文献内外特征的标签。如I235

• 56 I31/12

Page 9: 第三章 文献信息检索基本理论

检索标识种

文献外部标识

文献内容标识

著者

文献号(报告号、专利号等)

其他(篇名、刊名、出版单位等)

分类号

主题词

关键词

单元词标题词

叙词

人工语

自然语言 主题词语

分类语言

Page 10: 第三章 文献信息检索基本理论

提取关键词练习• 1 、“森林飞机防火”• “ 森林防火;飞机防火”,而不用泛指意义的

“森林;飞机;防火”。 • 2 、“中国农业经济建设”,• 用“农业经济;经济建设;中国”,而不用“中

国;农业;经济;建设”。 • 3 、“青蛙洗衣粉”• 用“青蛙牌商品;洗衣粉”,或“青蛙洗衣粉”,

不用“青蛙;洗衣粉”。• 4 、“小麦的收获与加工”• 小麦收获;小麦加工

Page 11: 第三章 文献信息检索基本理论

• 提取关键词步骤:• 找出显性主题概念 (a)→ 找出隐性主题概念

(b)→ 排除无关和重复概念,确定核心概念(c) 。

• 例:土壤环境条件对豆科植物固氮作用的影响

• a :土壤条件 豆科植物 固氮作用 影响 • b :温度、湿度、 ph 值 大豆、花生等

固氮菌、根瘤菌等• C:去掉 影响

Page 12: 第三章 文献信息检索基本理论

二、检索语言的作用(续)• ( 2 )使内容相同及相关的文献集中化(保证文

献存储的集中和系统化),并揭示其相关性。如交通运输( U类)、生物科学( Q 类)、农作物( S5 )、林业( S7 )、 X (环境科学)。

• ( 3 )便于将标引用语与检索用语进行相符性比较,保证检索提问与文献标引的一致性,以及检索结果与检索要求的一致性。如马达 Y 电动机

•( 4 )保证检索者按不同需要检索文献时,都能获得最高的查全率和查准率。

Page 13: 第三章 文献信息检索基本理论

三、检索语言的类型

分类语言 体系分类

组面分类

(先组式,如《中图法》)

(先组式,如《冒号分类法》

主题语言

标题词

单元词

叙词

关键词

(先组式,如《工程标题词表》)

(后组式)

(后组式,如《汉语主题词表》)

(自然语言)

分类主题-体化语言

代码语言

引文索引语言

(如《分面叙词表》)

(先组式)

(自然语言)

Page 14: 第三章 文献信息检索基本理论

•以《中图法》为例:• 1.构成原理• 2.体系分类表• 3.体系分类语言的特点

(一)体系分类语言

Page 15: 第三章 文献信息检索基本理论

1 、构成原理• 体系分类法是以学科分类为基础,以文献内容所涉及的学科属性为对象,运用概念的划分与概括方法,按知识门类的学科系统,采用从总到分、采用从总到分、从一般到具体、从简单到复杂、从低级到高级的从一般到具体、从简单到复杂、从低级到高级的逻辑次序,进行层层划分。每划分一次,就产生逻辑次序,进行层层划分。每划分一次,就产生许多类目,逐级划分就产生许多级别的类目许多类目,逐级划分就产生许多级别的类目。各级类目层层隶属,形成一个严格有序、直线性的层累制知识门类等级体系。每个类目用分类号分类号(拼音字母(拼音字母 ++ 阿拉伯数字)阿拉伯数字)作标记符号(标识 ,如 S5 ),分类号表示类目在分类体系中的位置和排列次序。例如:F311

Page 16: 第三章 文献信息检索基本理论

2 、体系分类表,如《中图法》

体系分类表

附录类目索引复分表类目表编制说明

Page 17: 第三章 文献信息检索基本理论

体系分类表的构成

• 1 )编制说明: 说明分类法的编制目的、编制原则、结构、使用方法等

• 2 )类目表: 能很好地体现学科的系统性,也能反映事物的派生、隶属、平行关系。其类目表由基本部类、基本大类(一级类目)、简表(二级、三级类目)、详表(四级、五级、六级类目)几部分组成。

Page 18: 第三章 文献信息检索基本理论
Page 19: 第三章 文献信息检索基本理论

简表( 2-3 级)

S农业科学

水产渔业畜牧兽医狩猎蚕蜂林业园艺农作物植物保护农学农业工程农业基础

9

8

7

6

5

4

3

2

1

S

S

S

S

S

S

S

S

S

S1农业基础

农业生态学环境保护农业生物学农业地理学农业气象学土壤学肥料学农业化学农业物理学农业数学

19

18

17

16

15

14

13

12

11

S

S

S

S

S

S

S

S

S

Page 20: 第三章 文献信息检索基本理论

2-4级类目• S51 禾谷类作物• S52 豆类作用• S53 薯类作物• S54 饲料作用 S561纤维作物• S5 农作物 S55 绿肥作物 S562 棉 • S563 麻类作物• S564 纺织用纤维作物• S56 经济作物 S565 油料作物• S566 糖料作物• S567 药用作物• S571 饮料• S572 烟草

• •

Page 21: 第三章 文献信息检索基本理论

中草药 (4-5级类目,详表 )

• S567 药用作物

.1 木本

.2 草本 (.21 一年生 ,.22多年生 )

.3 菌类 ( 如灵芝 , 茯苓等 )

.4 喜阴药物 ( 人参 , 黄连等 )

.7 喜温药物 ( 甘草等 )

Page 22: 第三章 文献信息检索基本理论

又如: 2-3级类目

• S41 植物检疫• S42气象灾害及其防治• S4 植物保护 S43病虫害及其防治 • S44鸟兽类及其防治• S45 有害植物及其清除• S47各种防治方法

Page 23: 第三章 文献信息检索基本理论

TP 自动化技术、计算机技术• TP1 自动化基础理论• TP2 自动化技术及设备• TP3 计算技术、计算机技术• TP30 一般性问题• TP309 安全保密• TP31 计算机软件• TP311 程序设计、软件工程• TP312 程序语言、算法语言• TP313 汇编语言• TP314 编译程序、解释系统• TP315 管理程序、管理系统• TP316 操作系统• TP317 程序包 (应用软件 )• TP317.1 办公自动化系统• TP317.2 文字处理软件• TP317.3 表处理软件• TP317.4 图像处理软件• TP319 专用应用软件• TP32 一般计算器和计算机• TP33 电子数字计算机 (连续作用电子计

算机 )• TP34 电子模拟计算机 (连续作用电子计

算机 )• TP35 混合电子计算机

• TP36 微型计算机• TP368 各种微型计算机• TP37 多媒体技术与多媒体计算机• TP38 其他计算机• TP39 计算机的应用• TP391 信息处理 ( 信息加工 )• TP391.1 文字信息处理• TP391.12 汉字处理系统• TP391.13 表格处理系统• TP391.14 文字录入技术• TP391.7 机器辅助技术• TP393 计算机网络• TP393.08 计算机网络安全• TP393.09 网络应用程序• TP393.1 局域网、城域网• TP393.2 广域网• TP393.4 国际互联网• TP6 射流技术• TP7 遥感技术• TP73 探测仪器及系统• TP8 远动技术

Page 24: 第三章 文献信息检索基本理论

练习:给出下列各题的分类号烟草经营管理 F4烟草栽培、育种等 S572烟草加工工业 TS4 (烟草工业)• 中国农业经济 • F31• 日本等其它国家的农业经济 • F32-37• 园林植物育种、栽培等• S6• 园林规划、设计等• TU986 (园林规划与建设)

• 世界通史 • K10《陈毅》 (剧本 ) I23 (戏剧文学)《陈毅的足迹 》 K82 (中国人物 传记)《陈毅副总理答记者

问 》 D82( 中国外交)

Page 25: 第三章 文献信息检索基本理论

2 、体系分类表(续)

• 3 )辅助表(复分表): 辅助表分为通用复分表和专用复分表。通用复分表包括“总论复分表”、“世界地区表”、“中国地区表”、“国际时代表”、“中国时代表”、“中国民族表”等;专用复分表则插在主表中的有关部分。

Page 26: 第三章 文献信息检索基本理论

2 、体系分类表(续)

• 4 )类目索引: 是把分类表中的全部类目、类目的同义词、新旧词以及注释中包括的若干小主题作为标目,按字顺排列起来,并注明其相应的分类号,是从主题检索分类号的工具。

• 5 )附录: 是其它必要的补充部分。如《中国图书馆分类法》历届编委员等。

Page 27: 第三章 文献信息检索基本理论

3 、体系分类语言的特点1 )便于族性检索2 )用号码作标识,国际通用性较好3 )落后于学科的发展4 )不能反映学科之间的交叉性和多样性。5 )类目缺乏专指性、容纳性和广泛性(采

用等级列举表达从属关系,上位类目一定包含其各个下位类目,而下位类目一定带有上位类目的属性)

分类号越长,表示的学科范围越窄。为了清楚醒目 , 通常在分类号的第三位数字后,隔以,如F279.712, TQ321.4

Page 28: 第三章 文献信息检索基本理论

4 、中图法-索书号 (call number)

组成:分类号+书次号分类号+书次号 如 I231.12

45

分类号:按学科分类图书 书次号:区分同类图书,有两种取法:

–种次号:同一分类号的图书按到馆的先后顺序给予号码。

–著者号:按著者名称 (代码 ) 来区分同一分类号下的不同文献

Page 29: 第三章 文献信息检索基本理论

(二)主题词语言(二)主题词语言 (( 主题法)主题法)

•11 、关键词语言、关键词语言•22 、单元词语言、单元词语言•33 、标题词语言、标题词语言•44 、叙词语言、叙词语言•仅介绍关键词语言仅介绍关键词语言

Page 30: 第三章 文献信息检索基本理论

关键词语言关键词语言• ( 1 )关键词的来源—直接来源于文献篇名、正文和文摘,具有实际意义的带关键性的词语,禁用词( stop-

term )如冠词,介词,副词等除外,属自然语言。• (( 22 )关键词存在的主要问题:)关键词存在的主要问题:• A 、 同义词标引 -- 引起漏检

– 主题检索体系是按主题词字顺排列的,而用于标引的关键词呈现出多种字面形式——同义词时 , 将使同一主题的文献分散到不同的字顺位置,使查全率受到影响。

例:飞机 Airplane 马铃薯 洋芋 Aircraft 土豆 Planes

Page 31: 第三章 文献信息检索基本理论

同义词如:

名称 维普题录库检全率%

维普文摘库检全率%

山药 73 74

薯蓣 26 24

薯药 0 0

怀山 0 3

Page 32: 第三章 文献信息检索基本理论

B 、多义词标引--引起误检

• 多义词 杜鹃 花• 鸟

输入检索词“杜鹃”,结果是杜鹃花和杜鹃鸟均被检出

两个完全不同的概念

Page 33: 第三章 文献信息检索基本理论

第二节、检索工具

• 检索工具的检索工具的职能职能• 检索工具的检索工具的特征特征• 检索工具的检索工具的类型类型

Page 34: 第三章 文献信息检索基本理论

一、检索工具的职能

检索工具——用来报道、存储和检索文献线索的一种工具。分为手工检索工具、计算机检索工具和网络检索工具:

报道——它把大量分散的文献收集起来以题录或文摘等形式予以报导,揭示文献的具体内容。

存储——将文献的内外特征著录下来,成为一条条文献线索,并按一定的原则系统地排列起来,构成一个可供人们从不同途径加以利用的集合体。

检索——通过一定的检索途径和方法,从检索工具中查出所需文献的过程。

Page 35: 第三章 文献信息检索基本理论

二、检索工具的特征

1 、必须详细而又完整地著录文献的内外特征2 、必须提供多种检索标识3 、全部标识必须系统地科学地排列成一个有

机整体4 、能够提供多种检索途径

Page 36: 第三章 文献信息检索基本理论

三、检索工具的类型按编著方式:分为目录、题录、文摘等1 、目录——以单位出版物为著录对象,揭示出版物

的外部特征。(如国家书目、出版社与书店目录、联合目录、馆藏目录等)。

著录格式为:书名 编者 出版地 出版单位 年月 书号 定价 开本等(或刊名 出版单位 刊期 刊号 定价等)。如

计算机等级考试 5000题 / 瓮正科编 ( 著 ).—北京 : 清华大学出版社 ,1998.8 , ISBN 7-302-02933-4 山地农业生物学报 / 贵州大学学报编辑部,双月刊ISSN1008-0457, CN52-5013/S

按编著方式:分为目录、题录、文摘等1 、目录——以单位出版物为著录对象,揭示出版物

的外部特征。(如国家书目、出版社与书店目录、联合目录、馆藏目录等)。

著录格式为:书名 编者 出版地 出版单位 年月 书号 定价 开本等(或刊名 出版单位 刊期 刊号 定价等)。如

计算机等级考试 5000题 / 瓮正科编 ( 著 ).—北京 : 清华大学出版社 ,1998.8 , ISBN 7-302-02933-4 山地农业生物学报 / 贵州大学学报编辑部,双月刊ISSN1008-0457, CN52-5013/S

Page 37: 第三章 文献信息检索基本理论

2 、题录以单篇文献为著录对象,主要揭示出版物的外

部特征。主要包含以下内容:著者 题名(篇名)刊名 年 卷 ( 期 ) 起始页码

ISSN 等。如• 【论文题名 】 网络环境下信息检索与报道服务浅析

【英文题名 】 Information Retrieval and Report Service in Network Environment 【作  者 】 丁彩云  DING Cai-yun  【作者单位 】 湖南化工职业技术学院 , 图书馆 , 湖南 , 株洲 ,412004 【刊  名 】 株洲师范高等专科学校学报 【英文刊名 】 JOURNAL OF ZHUZHOU TEACHERS COLLEGE 【年 卷 期 】 2005 Vol.10 No.2 【关 键 词 】 图书馆 ; 网络环境 ; 信息搜集 ; 信息检索 ;信息报道 (计算机检索输出格式)

Page 38: 第三章 文献信息检索基本理论

3 、文摘• ISO214-1979( E )定义为:文摘是“一份文献内

容的缩短的精确表达而无须补充解释或评论”;GB3793-83 ,文摘是“对文献内容作实质性描述的文献条目”,即题录 +摘要,

• 【论文题名 】 网络环境下信息检索与报道服务浅析 【英文题名 】 Information Retrieval and Report Service in Network Environment 【作  者 】 丁彩云  DING Cai-yun  【作者单位 】 湖南化工职业技术学院 , 图书馆 , 湖南 , 株洲 ,412004 【刊  名 】 株洲师范高等专科学校学报 【英文刊名 】 JOURNAL OF ZHUZHOU TEACHERS COLLEGE 【年 卷 期 】 2005 Vol.10 No.2 【关 键 词 】 图书馆 ; 网络环境 ; 信息搜集 ; 信息检索 ; 信息报道 【摘  要 】 网络环境下的信息服务已对图书馆的机构组织、人员素质、服务水平和社会地位产了巨大影响 . 掌握网络环境下的信息服务特点和方法 , 尽快适应网络环境已成为图书馆提高信息服务质量的重要课题 .

• 分为指示性文摘(字数一般在 50-300 以内)和报导性文摘(字数在 300-700字左右)两种。

Page 39: 第三章 文献信息检索基本理论

第三节、文献信息检索的方法和途径一、主要检索方法

文献检索方法

综合法

引文法 ( 跟踪法、追溯法 )

常规法 顺查法

倒查法

拉网法

Page 40: 第三章 文献信息检索基本理论

主要检索方法1 、拉网法

2 、引文法 (跟踪法、追溯法 )

引文法就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。 3 、常规法(工具法) 是利用检索工具或检索系统进行查找的方法。

Page 41: 第三章 文献信息检索基本理论
Page 42: 第三章 文献信息检索基本理论

二、 检索途径文献信息的检索途径主要有:主题途径—根据主题词(标题词、关键词、单元词、叙词)查主题索引的。

分类途径—根据学科或分类号查目次表或分类索引。

著者途径—用个人著者或团体著者查著者索引(或机构索引)

号码途径—用某一号码(如报告号、专利号、合同号、 ISBN 等)查号码索引。

文献名称途径—用刊名或书名查刊名目录或书名目录

Page 43: 第三章 文献信息检索基本理论

小结• 检索语言的含义及作用• 《中图法》结构• 关键词的来源及提取• 目录、题录、文摘的著录格式• 文献信息检索的主要途径