信息检索概论及 检索基本策略与原则
DESCRIPTION
信息检索概论及 检索基本策略与原则. 主 要 内 容. 基 本 概 念. 一. 信 息 资 源. 二. 文献信息资源. 三. 信 息 检 索. 四. 检索基本策略与原则. 五. 一、基本概念. 1 、信息的概念 在不同的学科领域中其概念不同 《 辞海 》 :信息是指对消息接受者来说预先不知道的报道。 《 简明自然辩证法词典 》 :信息一般泛指我们听说的消息、情报、指令、数据、信号等有关周围环境的知识。 一些专家:信息是可供人们参考的事实和思想。 - PowerPoint PPT PresentationTRANSCRIPT
Logo
Add Your Company Slogan
山西医科大学信息检索教研室山西医科大学信息检索教研室袁 永 旭袁 永 旭2013.062013.06
信息检索概论及检索基本策略与原则
主 要 内 容基 本 概 念基 本 概 念一
二
三 文献信息资文献信息资源源
信 息 资 源信 息 资 源
四 信 息 检 索信 息 检 索
五 检索基本策略与原则
1 、信息的概念•在不同的学科领域中其概念不同•《辞海》:信息是指对消息接受者来说预先不知道的报道。•《简明自然辩证法词典》:信息一般泛指我们听说的消息、情报、指令、数据、信号等有关周围环境的知识。
•一些专家:信息是可供人们参考的事实和思想。•可以理解为:信息是指信息资源(各种载体)中所包含的事物事件的事实、思想或知识,即信息载体中传递的内容,信息系统传输和处理的对象。
•信息是用文字、数据或信号等形式通过一定的传递和处理来表现各种相互联系客观事物在运动变化中所具有特征内容的总称。
一、基本概念
•人类通过信息对自然界、人类社会及思维方式与运动规律的认识与概括,是人的大脑通过思维重新组合和系统化了的信息,是信息中最有价值的部分。
•知识来自于信息,知识是信息的一部分。•知识一经产生,就以声像信息、实物信息、文献信息的形式加以传播。
•知识是人类在认识和改造世界的社会实践中获得的对事物本质的认识的成果和结晶。
•知识具有意识性、信息性、实践性、规律性、继承性、渗透性。
2 、知识的概念
一、基本概念
3 、文献的概念•国际标准化组织的《文献情报术语国际标准》:在存贮、检索、利用或传递记录信息的过程中,可以作为一个单元处理的,在载体内、载体上或依附载体而存贮有信息或数据的载体。
•我国国家标准:文献是记录有知识的一切载体。•一些专家:文献是以文字、图形、符号、声频、视频、数字化等手段记录和传播知识的载体。
•更广义的理解:含有知识内容的信息载体就是文献。
一、基本概念
信息、知识、文献三者关系• 信息是生产知识的原料;• 知识是被人类系统化的信息;• 文献是存储、传递知识的载体。换句话说,文献是存储、传
递被人类系统化的信息的载体。
一、基本概念
•经人类开发与重新组织后的信息称信息资源。信息资源是信息世界中对人类有价值的那一部分信息,是附加了人类劳动的、可供人类利用的信息。
•构成信息资源的基本要素•信息:组成信息资源的原料;•人:信息资源的生产者和利用者;•符号:生产信息资源的媒介和手段;•载体:存储和利用信息资源的物质形式。
•就本课程而言,将信息资源等同于文献
二、信息资源1 、信息资源的概念
•口语信息资源 讲演、授课、讨论•体语信息资源 表情、手势、姿态、表演、舞蹈•实物信息资源 样品、模型、雕塑•文献信息资源 人类用文字、数据、图像、声频、视频等方式记录在一定载体上的信息资源。只要这些载体不损坏或消失,文献信息资源就可以跨越时空无限循环地为人类所利用,还可以按人类的需求整理成具有优化结构的文献信息资源体系。
2 、信息资源的类型(按表达方式和载体划分)
二、信息资源
文献信息资源
印刷型缩微型声像型电子型
按信息的加工深度划分
按载体材料、存储技术和传递方式划分
按文献的出版形式划分
零次文献一次文献二次文献三次文献
图书连续出版物会议文献学位论文科技报告
三、文献信息资源的分类
专利文献标准文献政府出版物产品资料技术档案
1. 零次文献• 还没有形成一次文献的非出版物• 如实验记录、设计草图、论文草稿、谈话记录、会议记录、内部档案等• 特点:内容新颖、不成熟、不定型。由于不公开交流,所以难以获得。2. 一次文献• 又称原始文献(简称原文,现多称全文)。• 作者以自己的经验和研究成果为依据而撰写的、未经加工的原始文献,
不论其载体形式或出版类型如何。• 包括大部分期刊论文、科技报告、专利文献、会议文献、学位论文等。• 特点是具有新颖性、创造性、价值性和分散性等。• 数量庞大、种类繁多,是最基本的信息资源,是科技文献的主体,也是
信息检索的主要对象。
按信息的加工深度划分
三、文献信息资源的分类
3. 二次文献•按一定的方法对一次文献进行整理加工,使之有序化而形成的文献。
•将分散的、无组织的各类一次文献收集起来,进行加工、整理、简化和组织,作为查找一次文献的工具。
•包括目录、题录或索引、文摘等•特点:汇集性、综合性和系统性•学习信息检索主要就是学习怎样利用二次文献的方法•它不产生新的知识。但具有汇集性和检索性。•其重要性在于:它提供了一次文献信息资源的线索,是打开一次文献信息资源知识宝库的钥匙。
三、文献信息资源的分类按信息的加工深度划分
4. 三次文献•围绕某个专题或出于特定目的,根据二次文献提供的线索,选用大量一次文献的内容,经过筛选、分析、综合和浓缩等深度加工而形成的文献。
•包括各种述评、进展报告、动态综述、专著、教科书、字典、词典、手册、年鉴和百科全书等。
•从一次文献到二次文献、三次文献是一个从分散到集中、从无序到有序、从片面到全面的文献加工过程。
•从信息检索的角度看,一次文献是检索对象,二次文献是检索手段,三次文献是信息研究的成果。
三、文献信息资源的分类按信息的加工深度划分
人作用于信息和信息作用于人
一次文献 ( 原始文献 ) = 情报源 二次文献 ( 检索工具 ) = 情报线索 三次文献 ( 综述专著 ) = 高级情报产物 零次文献 ( 作者原始创作阶段)
人作用于信息和信息作用于人
科研活动 = 知识创新 思考计划 ---------- 查阅文献 (查新检索) 科学实验 ---------- 查阅文献 编写报告 ---------- 查阅文献 情报线索 - 情报源 - 高级情报产物 - 情报源
科学家 = 情报专家
情报源
思考计划
科学实验
编写报告
查找文
献
查找文献
一次文献
零次文献
一次文献
情报线索
情报源
高级情报产物 三次文献
二次文献
文献加工存储
文献检索利用二次文献
一次文献 三次文献
检索系统或检索工具
图
书
馆
图
书
馆
用
户
用
户
1 、概念 从以任何方式组成的信息集合中,查找特定用户
在特定时间和条件下所需信息的方法与过程。
广义:信息检索包含信息组织、存储和信息查找、获取两个过程。
狭义:信息检索仅指信息查找。
四、信息检索
1 ) 按检索对象
•书目信息检索
•全文信息检索
•数据信息检索
•事实信息检索
2 、信息检索的类型
四、信息检索
2 ) 按检索方式
•传统信息检索(手工)
•现代信息检索(机检)
3 、信息检索原理
四、信息检索
4 、信息检索效率
四、信息检索
检全率: 指系统在进行课题检索时,检出的相关文献量与系统文献库中的相关文献总量的比率。衡量全面性。
检准率: 指系统在进行课题检索时,检出的相关文献量与检出文献总量的比率。衡量准确性。
4 、信息检索效率
四、信息检索
检索系统中的全部文献
检索系统中与某项情报需要 有关的全部文献
检索与某项情报需要有关的 文献时所检出 的全部文献
A 检准的文献 C 漏检的文献 B 误检的文献 D 无关的文献 R 检全率 = A/(A+C) P 检准率 =A/(A+B)
DC
A
B
D
CA
A B
• 拓宽知识面,改善知识结构• 启迪创造性思维• 提高自学和独立工作能力• 避免重复研究,节省科研经费和时间
5 、信息检索的作用
四、信息检索
查资料计划思考实验研究写报告
查资料 51%写报告 9%
实验研究 32%计划思考 8%
1 )定义: 用以描述文献信息特征,表达检索需求的一种专门的人工语言,是联系标引人员与检索人员的桥梁。 一种在文献存储和检索过程中共同使用的语言。 它的用途是描述文献特征,表达情报提问,并使两者能相互沟通。
6 、信息检索语言
四、信息检索
2 )分类:文献外表特征: 题名 著者 文献序号 引用文献等文献内容特征: 分类检索语言 主题检索语言 代码检索语言
6 、信息检索语言
四、信息检索
受控语言:
主题语言 分类语言 自然语言:
关键词语言 著者语言
7 、信息检索途径
四、信息检索
已知项检索:书名或刊名,作者 未知项检索:主题词、分类号、关键词
从文献内容特征: 从文献内容特征: ④分类途径 ⑤关键词途径 ⑥主题词途径 ④分类途径 ⑤关键词途径 ⑥主题词途径 ⑦分类主题途径 ⑦分类主题途径 ⑧ ⑧ 其它其它
从文献外表特征: 从文献外表特征: ①题名途径 ②著者途径 ③号码途径 ①题名途径 ②著者途径 ③号码途径
8 、信息检索技术1 )布尔逻辑检索
逻辑或 逻辑与 逻辑非运算符 or + and * not -
检索式A or BA + B
A and B A*B
A not B A - B
命中 A 和 B 有一个出现或两个都出现的记录
A 和 B 都出现的记录
只出现 A 而不出现 B 的记录
图示
优先级 () >not >and>or
四、信息检索
2)位置算符
位置算符 (proximation operator),又称邻近符,表示其连接的两个检索词之间的位置关系。不同检索系统的位置算符不尽相同, winspirs系统中的位置算符有 near, with等。仅用于自由词检索。
8 、信息检索技术
四、信息检索
• 同句检索: near要求参加检索运算的两个检索词必须在同一自然句中出现。( same sentence )
• 语法 检索词 nearN 检索词
检索词 near 检索词 例: tongue near3 base • 舌根 (tongue base,base of tongue ,base of the
tongue) 例: information near2 retrieval• 信息检索( information retrieval ,retrieval of
information )
8 、信息检索技术
四、信息检索
• 同字段检索: with 要求左右两个检索词出现在同一字段,词序也可颠倒,比 near 的检索范围宽。有的数据库中用“ filed” 表示
如: women with hepatoma (肝细胞瘤 )
8 、信息检索技术
四、信息检索
3)字段限定符 语法:检索词 in 字段标识符或字段标识符 = 检索词
例:肺癌 in TI AU= 郑杰 郑杰 in TI
• 年份限定 范围运算符: = 、 > 、 < 、 <= 、 >=
例: PY>2000 , PY=2000-2005
• 期刊范围限定 默认为全部,有些数据库分重要期刊和核心期刊
8 、信息检索技术
四、信息检索
4) 精确检索和模糊检索
主要是字段限定检索两种表达试精确检索语法:字段标识符 = 检索词
例: AU = 李明模糊检索语法:检索词 in 字段标识符 例:李明 in AU
8 、信息检索技术
四、信息检索
5 )截词检索 truncation 截词符:也称通配符 , 用来对检索词进行扩展。常用截词符号有“ ?”、“ *”或“ $”等。加在检索词的前、后或中间,具有将同一词干的词全部查出的功能,减少检索词的输入,同时也方便解决语言文字拼写方面的差异 (如美式英语和英式英语 ) ,避免漏检,扩大检索范围。
例: endoscop*, 可以检出: endoscope (内窥镜 ) endoscopy (内镜检查术 ) endoscopists (内镜师 )等
8 、信息检索技术
四、信息检索
6)扩展检索:•将某概念及其下位概念内容的文献全部检出的技术方法。可提高检全率。
•初始设定的检索范围太小,命中文献不多,需要扩大检索范围时用。
•主要有:概念的扩大,增加同义词,年代的扩大 .
7)缩小检索:•又称二次检索,指开始的范围太大,命中文献太多,或查准率太低,需要增加查准率的一种方法。
•主要有:概念的缩小,语种的限定,特定期刊的限定等 .
8 、信息检索技术
四、信息检索
9 、信息检索步骤
四、信息检索
根据实际需求,提出检索请求
选择数据库,确定检索途径
选择检索词,编写检索式
输入计算机,进行匹配运算
浏览检出文献,结果是否满意
输出检索结果
分析失败原因调整检索式
yes
no
当检出文献数太少时可用以下方法扩大检索范围: 删除不重要的用 and联接的词汇。 增加用 or连接的检索词。 用位置符放宽范围。 检索可用截词符扩大范围。 用主题词检索,可包含同义词、近义词,用下位词进行扩展检索。 用主题词检索,选用多个副主题词或全部副主题词检索 主题词检索 , 同时又用自由词检索,用 or连接。 从某个分类类目中输词检索改为在全部类目中输词检索。 选用多个数据库检索。用自由词检索或简单检索时选用“任意字段”检索。
通过索引词表选用近义词检索。
9 、信息检索步骤 - 调整检索策略
四、信息检索
当检出文献数量太大时可用下列方法缩小检索范围 :
增加用 and连接的检索词,或用“二次检索”。用特定的副主题词进行限定。用字段限定检索,如标题、主要主题词检索、加权
检索等。进行文献类型、语种、重要期刊、临床核心期刊、年份等限定检索。
进入更专指的分类范围输入检索。
9 、信息检索步骤 - 调整检索策略
四、信息检索
查找文献 VS 渔民打鱼
●打鱼的目的(填饱肚子 / 发点小财、小富即安 / 整点大的)
● 到哪里去打鱼?(鱼缸 / 池溏 / 大海?)● 用什么工具 -- 船(机帆船 / 核潜艇) --网(密
网 /稀网)●怎么打 ?●初步结果(鱼太多或没有打到鱼,大鱼或小鱼)● 打鱼策略的调整●达到目的,获得满意的结果
五、基本策略与原则
●医学文献数据库的基本选库策略● 主题词检索的重要意义、基本方法与技巧● 综述型文献的重要地位及查找方法● 检索词的选择原则● 检索策略调整的依据及检索结果的评价● 文献检索利用应遵循的信息伦理道德规范
六方面十原则五、基本策略与原则
1 、医学文献数据库的基本选库策略 原则一:“题录优先” ●什么是“文献”?什么是“文献检索”? ●“题录型数据库”( 二次文献)“全文数据库”(一次文献) CBM、NSTL
CMCC……
Medline/PubMed
EMBASE
BA / BIOSIS Previews
CA/SciFinder
IPA、EI……
清华同方中国期刊全文数据库( CNK
I )重庆维普中文科技期刊数据库( VI
P )北京万方数据知识服务平台Elsevier Science Direct Onsite
Springer Link 、 Nature
John Wiely InterScience
MD Consult 、 Karger 、… …FMJS/
EMCC
过刊
五、基本策略与原则
全文数据库(一次文献数据库)的不足●受版权限制,收录范围有限。 典型的鱼缸,至多是鱼塘,容易受到误导;●检索功能不够强大,检索入口(途径)不多;“傻瓜相机”; 极少提供“主题检索途径”, CNKI提供了一个“伪主题”
检索入口。●检索过程不容易控制,检索策略较难修正。 “MT/AT”●检索结果的呈现方式、输出控制、管理利用不够灵活。 文献类型、年代范围、特征词、年龄组等。
五、基本策略与原则
2 、主题词检索的意义、方法与技巧原则二:“主题优先”●“主题词”、“副主题词”、“加权”、“扩展”●主题词检索的意义:讨论同一主题的文献不至于分散,提高专
指度,使查准率与查全率保持在合理的水平。另一方面,方便过滤筛选文献。
●主题词检索的基本方法:●主题词检索的选词原则及技巧: 先使用先组主题词、其次采用主副组配、再次采用主主组配 参见原则五:“专指性原则”--“有专指用专指,没有专
指用泛指”
五、基本策略与原则
3 、综述型文献的重要地位及查找方法原则三:“综述优先”● 什么是“综述”( Review) ?(“三次文献”)●传统的“叙述性文献综述”( Narrative review )● Evidence-Based Medicine ( EBM )中的“系统评价”
( Systematic review )● 综述的重要作用:研究的起点、阶段进展的总结、临床诊疗措施的评价… .
● 检索方法: 综述 in PT ;
限定检索 : 限定文献类型“综述”。
五、基本策略与原则
4 、检索词的选择原则原则四: “抓大放小”(“非全面性原则”) ●“检索点”:有检索意义的概念 ●抓住问题的主要(大)方面,暂时放下次要(小)方面
,视检索结果多少决定是否真的放小 ●对选题的启示:“多弄点小的”
原则五:“专指性原则” ● 有专指用专指,没有专指用泛指
原则六:“准确客观” (“将错就错”)
五、基本策略与原则
5 、检索策略调整的依据及检索结果的评价
原则七:“ 多少转变原则”●根据文献数量的多少调整检索策略●多的变少,少的变多●多少还是一个相对的概念,还应因人而异
原则八: “相关性原则”● 文献质量评价--“相关性”●密切相关--相关--次相关--沾边 “河里无鱼虾也贵”
五、基本策略与原则
6 、文献检索利用应遵循的信息伦理道德规范
原则九:“按需获取,量力而行”(全文)●“做人要厚道”● 莫学“阿 Q”
原则十:“尊老爱幼”●“尊老”:尊重前人成果,参考引用前人文献必须标著出
处。( EndNote Web)(学术不端行为检测系统)。●“爱幼”:后人文献“引用”(“借用”)我文没有标著
,有原则地宽容与爱护。●共建和谐信息社会 -- “他们好,我们也好,大家都好”。
五、基本策略与原则