进展及热点...数字 dewey decimal classification (ddc) 20 classification for public libraries...
TRANSCRIPT
驳检索语言过时无用论
1.情报检索语言过时无用论
“……我们这个学科炼出的这样一套‘知识’组织方法,实在是过时了。……你可以说它曾经起到多大的作用,但是现在肯定没人会用这个东东了,特别是那些开发各类应用的计算机人士和各行各业的用户…… ”
Keven. 谈谈我们的分类主题词表.2006,7,17
http://blog.donews.com/kevenlw/category/68304.aspx
检索语言过时无用论的理由
驳检索语言过时无用论 2.检索语言在网络环境中的应用
元数据
DORC DC编辑栏 注释
Conference Name 会议名称作为主题
Corporate name 团体名称作为主题
DDC (国家机构)指定的《杜威十进分类法》分类号
DDC Local (地区性机构)指定的《杜威十进分类法》分类号
DDC Scorpion 由OCLC Scorpion软件指定的《杜威十进分类法》分类号
Geographic 《美国国会图书馆标题表》地理标目
Keyword 关键词
LCC (国家机构)指定的《国会图书馆分类法》分类号
LCC local (地区机构)指定的《国会图书馆分类法》分类号
LCSH 《国会图书馆标题表》标题词
MeSH 《医学主题词表》标题词
Name Personal 人名作主题
WSKeyword OCLC Wordsmith系统指定的关键词
驳检索语言过时无用论 2.检索语言在网络环境中的应用
网络数据库
数据库 使用的情报检索语言
美国教育资源信息数据库(http//searcheric.org/) ERIC主题词表
英国国家数字档案库(http://ndad.ulcc.ac.uk/search/ thesaurus. htm)
UNESCO主题词表
Pubmed数据库(http://www.ncbi.nlm.nih.gov/entrez/inesbbrows cc.cgi)
医学主题词表
STI数据库(http: //www.sti.nasa.gov/thesfrml.htm) NASA主题词表
UMI数据库(http: //www.umi.com/hp/support/Vocab/) ProQuest主题词表
重庆维普的中文科技期刊数据库 《中图法》
清华同方的中国期刊全文数据库(CNKI) 《中图法》
万方数据资源系统的学科分类浏览方式 《中图法》
北大方正集团的Apabi数字资源平台 《中图法》
驳检索语言过时无用论 2.检索语言在网络环境中的应用
网络检索工具 分类法 使用分类法的网络资源
字母 Göttinger Online Klassifikation (GOK) 3
Sveriges Allmänna Biblioteksförening (SAB) 2
数字 Dewey Decimal Classification (DDC) 20
Classification for Public Libraries (Finland) 1
Engineering Information (Ei) Classification Codes
1
Mathematics Subject Classification 2
Nederlandse Basisclassificatie 1
Universal Decimal Classification (UDC) 5
字母 -- 数字
AGRICOLA Subject Category Codes 1
ACM Computing Classification System 3
Library of Congress Classification (LCC) 7
National Library of Medicine (NLM) 2
驳检索语言过时无用论 2.检索语言在网络环境中的应用
数字图书馆
曾蕾国外介绍 使用类型 使用检索语言的系统或工程
Digital Gazetteer Alexandria Digital Library (ADL Feature Type Thesaurus)
Machine Aided Indexing (MAI) NASA Thesaurus Machine Aided Indexing(NASA Thesaurus)
Machine-Aided-Indexing, Rule-based
Data Harmony(词表由用户选择)
Multilingual term bank Asian Vegetables Thesaurus
Illustrated Thesaurus English-Heritage; National Monuments Record Thesauri
Visual thesaurus PlumbDesign
Search engine Froogle
Commercial website BestCellars.com
Cross-country and Cross-language Online Bibliographic Catalogs
MACS Multilingual Access to Subjects (SWD/RSWK,RAMEAU, LCSH)
Multilingual Thesaurus Food and Agriculture Organization of the United Nations(Agrovoc Thesaurus - agriculture.)
驳检索语言过时无用论
2.检索语言在网络环境中的应用
其他应用
主题网关(英国SOSIG ,EELS,OMNI, Kuopio,ADAM 和Renardus 等)
电子政务(英、澳、加等国)
电子商务(当当网,中国高校教材图书 网 ,北京市新华书店网站等 )
自动分类(Scorpion Project)
1.国内检索语言调查(130部词表调查)
◆编制年代
项目数量
年代
词表数量 所占比例
(%)
年平均编制表数
1976-1985 22 16.92 2.2
1986-1995 82 63.08 8.2
1996-2005 24 18.46 2.4
1.国内检索语言调查(130部词表调查)
◆词表规模
项目数量
年代
大型词表 中型词表 小型词表
词表数量
所占该类比例
(%)
年平均词表数
词表数量
所占该类比例
(%)
年平均词表数
词表数量
所占该类比例
(%)
年平均词表数
1986-1995 17 53.13 1.7 32 65.31 3.2 2 25 0.2
1996-2005 7 21.87 0.7 11 22.45 1.1 5 62.5 0.5
1.国内检索语言调查(130部词表调查)
◆大型词表及类表问世
※1997年 国防科学技术叙词表 (电子版,31816)
※2000年 中图法 (电子版)
※2002年 军用主题词表 (第2版)(52500 81890)
※2005年 中国分类主题词表 (电子版)(110837+59738)
※2005年 综合电子政务主题词表 (20252)
※2005年 中文新闻信息分类法
※2005年 军事信息分类法
※ …. 音像资料叙词表
1.国内检索语言调查(130部词表调查)
◆词表技术标准 GB13190—1991 单语种叙词表编制规则
GB15417—1994 多语种叙词表编制规则
信产部标准 网络信息分类系统(2002)
GB19486—2004 电子政务主题词表编制规则
GTB5098—2004 军用电子叙词表编制规则
(替代1993,1999年版)
&词表载体版本
词表数 占总词表比例
传统介质
印刷 53 34.4
缩微 3 0.7
共计 156 35.0
电子介质
光盘 26 5.8
磁盘 13 2.9
任何电子形式 45 10.1
特定电子形式 42 9.4
共计 126 28.3
网络介质
HTML下载 8 1.8
XML下载 12 2.7
其他格式下载 21 4.7
PDF下载 40 9.0
相关数据下载 3 0.7
CSV/TXT下载 18 4.0
网络联机 253 56.9
在线定制 3 7.4
共计 367 82.5
2.国外检索语言进展调查
&词表更新
0
20
40
60
80
1978 1981 1982 1986 1987 1990 1991 1992 1993 1995 1996 1997 1998 1999 2000 2001 2002 2003
更新词表数
3.网络时代检索的发展趋向
▲检索语言自然语言化
98部国外词表的等同率
大型词表 4部 等同率>1
中型词表 9部 等同率>1
小型词表 2部 等同率>1
词表数 叙词总数 非叙词总数 等同率%
大型词
(10000以上) 33 2918962 464302 15.9
中型表
(1000到10000) 50 123069 65270 53.0
小型词表
(1000以内) 15 4509 1944 43.1
3.网络时代检索的发展趋向
▲检索语言商业化(编制单位的变化)
三家专业词表公司
1.Gale Group, Inc. 52部
2.WAND,Inc. 36部
3.Cycorp,Inc. 11部
10.6
18.515 12.8 13.2
5.71.8
21.1
0 1.3
13.3
27.4
6.79 8.1
2.5
19.3
5.6 5.6 3.8
051015202530
联合国
政府机构
科研机构
学校
学术团体
个人
公司
文摘&情
报
互联网
其他
1989年统计比例 2006年统计比例
3.网络时代检索的发展趋向
纸本词表 → 纸质文献
纸本词表 → 电子文献;电子词表 →纸质文献
网络词表 → 网络信息资源
1989 2006
印刷版 (221/227) 97.4% (53/445) 11.8%
缩微版 (29/227) 12.8% (3/445) 0.67%
机读版 (79/227) 34.8%
网络版 (367/445) 82.5%
3.网络时代检索的发展趋向
▲检索语言本体化
检索工具书(thesauri) ——→ 知识组织系统(KOS)
本体 = 概念集 + 概念关系 + 形式化
※形式化(语义描述)
XML/RDF/SKOS/OWL ※功能多样化、集成化 (浏览、检索、标引、知识发现、 自动映射、 自动翻译、语义推理等技术服务) ※显示多样化、可视化 (词间关系显示有三种到几十种、上百种)