#-3 û :au1k /¥ : t âecÊ :l6 .) ¿ :!a [ v,È ð2ö é ¢,x î êµ c=a Ü 2ö...

73
浙江大学计算机科学技术与软件学院 硕士学位论文 垂直搜索引擎中的多元化信息融合检索研究 姓名:宁登鹏 申请学位级别:硕士 专业:软件工程 指导教师:陈刚;寿黎但 20080601

Upload: buinhan

Post on 11-Jul-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学计算机科学技术与软件学院

硕士学位论文

垂直搜索引擎中的多元化信息融合检索研究

姓名:宁登鹏

申请学位级别:硕士

专业:软件工程

指导教师:陈刚;寿黎但

20080601

Page 2: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕上学位论义 摘要

摘要

传统搜索引擎由于对用户的查询无法模式化,因而大多数只限于关键字搜

索。基于关键字的搜索常常导致搜索结果过多,用户无法准确定位其感兴趣信息。

垂直搜索引擎区别于传统的搜索引擎,其数据倾向于结构化数据并包含大量元数

据信息,因此可在文本检索、空间数据检索的基础上,结合结构化数据检索技术,

提供垂直搜索技术的支持,改进检索结果质量。

此外,现阶段互联网内容趋于广泛、网页数据类型更加丰富,垂直搜索引擎

还需提供多样数据(如结构化数据、文本数据、多媒体数据等)的融合检索技术,

比如结合名称、描述、地理信息等信息进行组合检索。因而需要对基于多种索引

方式的融合检索、不同数据索引类型的同步更新、如何提供方便简洁而又人性化

的用户查询接口等内容进行深入的研究。

本文的主要研究内容如下:

1.在已有分布式垂直搜索平台的体系结构基础上,利用网页抽取数据及自动

化数据分析挖掘结果; :‘

2.研究以文本检索、结构化检索、空间数据检索为一体的融合检索技术。

关键字:搜索引擎,多元化信息,融合检索

Page 3: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕士学位论义 Abstract

Abstract

The cunstomer’S queries can not be modeled by traditional search engine,thus

most of them are limited to keyword search.Keyword search always bring about

redundant results SO it is difficult to position users’favourate items.Vertical Search

Engine is different from traditional search which is associated with structured data and

contains plenty of metadata information.Therefore,the useful approach to improve

the quality of search is to take advantage of text search,Spatial search and vertical

search.

Nowadays,information on the web is massive and page types are rich in variety.

Vertical Search Engine thus needs to support integration search technology from

multi.datasources such as structured data,text data, multimedia data.SO we need

further study about a variety index way based Integration Search,synchronous update

of different types of data indexing and‘how to provide user query interface which is

convenient,simple and human.

The main content of paper includes:

1.In the basis of current distributed vertical search architecture, we use the

result of web data mining and automatic data analysis and mining;

2.Study the Integration Search Technology which is the combination of text

search, structural search and spatial data search.

Keywords: Search Engine,Hybrid Information,Vertical Search Engine

Page 4: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕上学位论文 图目录

图目录图2-1“多元检索”系统框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.25

图3-1中文分词算法流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33

图3-2“多元检索”中的中文分词结果页面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯34

图3—3基于首字hash和二分查找的最大匹配分词算法效果页面⋯⋯⋯⋯36

图4—1包含网页地理数据的网页截图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..39

图4.2网页地理数据的空间位置识别:WebGIS组件中地理位置信息提取..41

图4.3网页地理数据的空间位置识别:网页地理数据提取⋯⋯⋯⋯⋯⋯⋯43

图4.4没有相关地图定位信息(GIS坐标)的地理位置信息⋯⋯⋯⋯⋯..44

图4-5遍历网页地理数据集生成一颗地址索引树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.45

图4—6基于网页地理数据集的空间位置识别:语义匹配⋯⋯⋯⋯⋯⋯⋯..47

图5-1基于语义关联的多元化信息融合检索的实现界面⋯⋯⋯⋯⋯⋯⋯..53

图5—2使用AJAX技术进行结构化数据实时搜索和异步查询⋯⋯⋯⋯⋯⋯54

图5—3结构化数据实时搜索和异步查询实现界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..55

图5-4基于中文自然语言处理的检索界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..57

图5-5基于地理位置的融合检索界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯;:⋯⋯.58

图5-6基于触发器的索引一致性维护流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一60

Page 5: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕f:学位论文 独创性声明

浙江大学研究生学位论文独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的

研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发

表或撰写过的研究成果,也不包含为获得逝姿盘堂或其他教育机构的学位或

证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文

中作了明确的说明并表示谢意。

学位论文作者签名:寺殖鸣签字同期:≥彤年易月易同

学位论文版权使用授权书:‘

本学位论文作者完全了解逝姿盘鲎 有权保留并向国家有关部门或机构

送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权滥姿态堂可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影

印、缩印或扫描等复制手段保存、汇编学位论文。

(保密的学位论文在解密后适用本授权书)

学位论文作者签名:守壁扣易签字同期:文∞为年石月多R

导师签名:

签字日期: ∈同

Page 6: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕士学位论文 第1章绪论

1.1课题的背景

1.1.1垂直搜索引擎的发展

第1章绪论

互联网搜索引擎的出现,整合了众多网站信息,起到信息导航的作用。搜索

引擎⋯以一定的策略利用网络自动搜索功能,对各种信息资源进行索引、建库,

并对信息进行分析、提取、组织和处理,从而起到信息导航的作用,帮助人们从

不同形式的数字化信息中进行搜索。

目前中国2.1亿网民中使用搜索引擎的比例是72.4%,即已有1.52亿人从搜

索引擎获益,半年净增加3086万人。位列网络应用中网络音乐、即时通信、网

络影视和网络新闻之后的第五位,高于电子邮件【2】。

随着互联网普及程度的不断提高,网民群体已经扩展到不同职业、不同年龄

的群体。网络信息搜索的需求也随之变得越来越多样化、专业化。普通的网民有

着诸如租房、餐饮、找工作、交友等各项特定需求;企业用户则有着搜索客户群、

产品链、供应链等的需求;政府职能部门有着搜索文件、法规、机构、人员等的

需求;学校和科研单位则有着搜索文献、专利、著作等需求。传统通用搜索引擎

将无法满足这些需求的复杂性和多样性。06年艾瑞(IResearch)市场咨询发布

的报告中显示,57.9%的网民对搜索引擎结果中冗余信息多感到不满,主要问题

集中在冗余信息多、找不到足够的资料、有价值信息太少等方面。因此,必须有

更多面向这些特定需求的精细化、专业化的搜索引擎出现来弥补通用搜索引擎的

不足。另一方面,企业用户对搜索引擎的需求和依赖也逐渐在加深,传统的以互

联网广告为主体的搜索引擎盈利模式难以在提供专业化企业级搜索的服务中运

用。这在客观上也要求搜索引擎突破现有的市场盈利模式,开创新的产业格局。

垂直搜索引擎技术正是在这种背景下应运而生的。

Page 7: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕上学位论文 第l章绪论

垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提

出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特

定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深",且具

有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加

专注、具体和深入,为用户提供范围极为缩小、极具针对性的具体信息。

谷歌、百度等搜索引擎公司在大力发展综合性搜索市场的同时,纷纷推出或

进一步升级各类搜索引擎产品以抢占垂直搜索市场先机。比如百度,继社区化搜

索产品——“贴吧”、“知道”之后推出了“法律搜索”、“百度指数”、“大学搜索”、

“政府搜索”以及“少儿搜索”等垂直搜索产品。搜索技术的提高、搜索产品的

垂直细化、以用户的搜索需求为方向的搜索产品优化等等,所有这些变化不仅满

足了互联网行业垂直细分的发展趋势和广大网民专业化、垂直化的搜索需求,还

提高了用户的搜索体验和客户的投资回报率。

目前,国内的搜索引擎行业已逐渐深入到创新应用阶层,随着综合性搜索引

擎市场的竞争格局已经趋于稳定,用户对各行业专业化、个性化的搜索需求逐步

显露出来。国内垂直搜索市场的发展吸引了众多业内人和投资者的关注。垂直搜

索引擎的技术和开发虽然早在前几年就已经开始起步,但还有许多需要研究和突

破的地方。垂直搜索引擎的市场正在孕育和发展过程中,这既是机遇也存在挑战,

其赢利模式也已经在谷歌、百度等身上得到了验证。而且,很多风险投资对搜索

的概念已经认可。根据DCCI互联网数据中心2007年7月份作出的报告分析,国

内各业包括购物类、旅游类都已经启动了各种垂直搜索,且这个趋势将会越来越

生动,步伐也越来越快。用户的需求是推动垂直搜索的极大动力,垂直搜索引擎

能够有效解决信息扩展的问题。全社会都在加大互联网和电子商务的发展,对搜

索引擎来说是非常好的机遇。另外,移动终端的不断升级和移动技术的进步、3G

步伐的加快,为搜索引擎也提供了更广泛的发展空间。目前搜索引擎逐渐向移动

终端扩展,同时面向企业的搜索也正在成为广泛关注的焦点。

2

Page 8: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕上学位论文 第1章绪论

1.1.2网络信息资源现状

网络信息资源是指通过国际互联网可以利用的各种信息资源的总称。随着国

际互联网的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种

新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、

经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、

图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等

各个领域【221。与传统的非网络信息资源相比,网络环境下的信息资源具有以下几

个方面的特点:

(1)信息内容丰富,数量庞大且重复【2引。Internet己经成为全球最大的信息

资源基地,在Internet上几乎可以获得任何领域的信息。它的信息资源主要以

数据库为主体,还包括采用多媒体技术形成的集文本、图形、图像、声音、动画、

电影、音乐为一体的包罗力.象的综合性信息系统,而且信息量的增长十分迅速。

目前因特网上聚集的信息资源己经以TB级来衡量和计算,可索引的网页就有几

十亿个,而且这些信息分御在几百万台服务器上,不同的网站之间存在着大量的

网页引用关系,导致数据信息大量重复。

(2)信息变化频繁,处于动态变化之中。在Internet上,信息地址、信息链

接、信息内容经常处于变动之中,信息资源的更换、消亡更是无法预测,也许正

在浏览的信息正处在更新之中,因而,网络信息时时刻刻处在变化和发展之中。

信息处于动态变化之中。Web上的数据和服务的种类每天都在大量增加、更新,

各种信息时刻处于变化之中,新的页面在不断出现,旧的页面也在不断地更新和

删除(包括内容的改变和位置的移动等)。

(3)信息组织上处于无结构化、半结构化之中,结构复杂【31【271。Internet是

在自愿的基础上,通过TCP/IP协议将不同的网络连接起来的,对网络信息资源

本身的组织管理并无统+一的标准和规范,网络信息呈全球化分布结构。信息资源

分别存储在不同国家、不同地区的服务器上,不同的服务器采用不同的操作系统

及数据结构,字符界面、图型界面、菜单方式、超文本方式等缺乏集中统一的管

3

Page 9: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学顾l:学位论文 第l章绪论

理体制。从整体上看,网络信息源尚处于无序状态,因此在信息的组织和检索方

面比较复杂。Web上的信息通常是无组织的,没有关系数据库中数据的结构化特

性,或者是只有有限的结构特性,这使得信息的索引和管理相当困难,更不用说

要计算机理解其语义信息了121l。

(4)信息发布在异构平台上,格式多样。所谓格式就是最基本的计算机存储

单元的排列方式标准,即每个比特的排列组合标准。现代计算机信息存储的格式

很多,各种类型的信息都有各种不同的信息格式来描述,如文字信息的格式有:

TXT格式、RTF格式、DOC格式等;图像信息的格式有:BMP格式、GIF格式、JPG

格式等。加上声音、视频和动画等信息,这样就导致网络信息格式的多样化。因

特网上的信息分布在不同的平台上,站点结构各异,而且通过不同的协议(如

TCP/IP,HTTP等)相互连接,信息的结构形式也各不相同,多语种、多类型的信

息交织在一起,杂乱无序。

(5)信息价值不一。由于网络信息的发布具有很大的自由度和随意性,且缺

乏必要的过滤、质量控制和管理机制,正式出版物和非J下式出版物交织在一起,

学术信息、商业信息以及个人信息混为一体。因而网络信息资源具有不同的层次

与效用,既有科学前沿的研究报告,也有大众通俗读物;既有已经加工整理的信

息,也有无序的原始信息;既有较大参考价值的信息,也有毫无用处的信息垃圾,

甚至于还有不少有害的信息,可谓是良荞不齐。因此,如何评价选择和过滤信息

成为网络信息组织和检索的首要任务。传统的信息资源在发布之前都要经过严格

的审定、编辑和校对,但在因特网时代,人人都可以在网上随意发布信息,信息

杂乱无章,质量无法保证,太多的拼写错误和自定义用词等,所以Web上的信息

存在着不稳定性和不可靠性。

1.1.3垂直搜索适应多元化信息融合检索的需求

信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息

按一定的方式组织和存储起来,并根据用户的需求查找所需信息的过程和技术,

4

Page 10: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕}:学位论文 第l章绪论

所以信息检索的全称又叫“信息存储与检索”【291。狭义的信息检索仅指从信息集

合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程

【4Ⅱ27】o

针对互联网搜索存在的查询信息量大、查询不准确和深度不够等诸多问题,

对某一特定领域、特定人群或特定需求,能够提供有一定价值的信息和相关服务

的垂直搜索引擎获得了广泛关注。垂直搜索引擎具有的“专、精、深”等特点。

国内各行各业包括购物类、旅游类都已经启动了各种垂直搜索。用户的需求是推

动垂直搜索的极大动力,垂直搜索引擎能够有效解决信息扩展和融合检索的问

题。

从采集方式看,垂直搜索采用深度为先的策略挖掘出行业内所有相关的网页

中标引的元数据,整合上下游网页资源或者商业数据库,提供全面、准确的信息

服务。

由于行业内的一些有商业价值的信息采用动态发布的方式,如:机票数量,

酒店客房信息等,所以从动态网页采集的优先级看,垂直搜索对动态网页的采用

较高级别的优先采集,提供具有一定时效性的信息。

从结构化数据库信息采集来看,垂直搜索能够采集和集成关系数据库中的结

构化信息,如:酒店的介绍、位置。

从非结构化信息采集来看,垂直搜索还可以采集行业领域内不同类型信息,

包括声、图、文在内的多媒体信息、地理位置信息等,将它们集成在一起,呈现

在用户面前。

1.1.4多元化信息融合检索需要解决的问题

当前的多元化信息融合检索在很多方面尚无法满足用户的要求,主要表现在

以下几个方面【23】【241:

在查全率方面,例如全文检索,表面上只要含有要查的关键词,就可以查出

相应的文献,但由于用的是自然语言,搜索引攀无法准确地把握语言的模糊性,

Page 11: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕L学位论文 第1章绪论

造成同义词和近义词的查询结果相差很大。

在查准率方面,无关信息太多,以至于淹没目标信息。尤其对于汉语,由于

分词技术没有解决,更增加了无用信息数量。在实际网络检索中,遇到最明显的

难题就是面对同样海量般的查询结果,无能为力,无从下手。而通用搜索引擎对

于查准率方面的解决是优化排序算法,将信息量大的网页优先提供给用户而已,

并未从根本上解决分词技术带来的问题。

此外,多元化信息融合还存在其它一些需要解决的问题:

· 多媒体信息没有有效的查询方法【5】【251。网络信息既有文本、数据信息,

更有图形、图像、音频、视频等多媒体信息,这些不同的信息种类,使

用关键词查询非常困难。

· 自然语言的多义问题。网络信息无所不包,虽增加了查全的效果,但由

于学科不同,自然语言在不同学科中的一词多义现象的存在,造成查询

结果中真正有用的信息不多。

● 无法确定信息的有效性。网络信息发布或更新非常快,甚至由于修改与

发布的容易,使得在某一时刻查询是一种结果,而在另一时刻查询却又

是不同的结果,因而,快捷性造成了信息多变。

· 自动分类困难‘3们。计算机程序对自然语言理解能力的低下,带来自动分

类工作的准确度不高,与人工分类差距较大,由网络机器人进行自动分

类要想得到满意的结果,还是需要人的参与。

●搜索引擎信息搜盖率不高。由于网上信息数量以指数形式增长,涉及到

所有学科,而综合性的搜索引擎越来越难以全面覆盖这些内容,搜索引

擎对网络信息的覆盖率不断下降,而随搜索引擎对网络信息覆盖面的下

降,用户对网络信息的查全率将首当其冲受到影响【3l】。

1.2相关技术介绍

Page 12: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕i:学位论文 第l章绪论

1.2.I中文分词技术

1.2.1.i中文分词技术的发展

分词是汉语自然语言处理的第一步。目前,汉语自然语言处理应用系统处理

的对象越来越多的是大规模语料,因此分词的速度和分词算法的易实现性变得相

当关键。汉字的简体繁体转换、信息检索和信息摘录、搜索引擎、Web文本挖掘、

文本分类、文本校对等中文信息处理系统同样都首先需要分词作为其最基本的模

块。作为自然语言处理的前处理阶段,自动分词技术又是重中之重,它是机器翻

译、文献标引、智能检索、自然语言处理等必不可少的基础,也是制约中文信息

处理飞跃的“瓶颈”之一。汉语自动分词研究最早可追溯到50年代后期的俄汉

翻译机的研制时期,大约在1960年左右,苏联学者首先提出了“6-5-4-3-2-I"

的分词方法。这种方法中的匹配思想成为后来许多分词方法的基础。在我国80

年代以来,语言学界、人工智能领域和情报检索界的学者们,在汉语自动分词与

自动标引的研究与实践上进行了大量的研究。近年来,语言学界、人工智能领域

.和情报检索界的学者们,在汉语自动分词与自动标引的研究与实践上进行了大量

的研究,找到了许多解决汉语分词的方法。80年代以来见诸报端的自动分词方法

有:最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法

笙[6】寸。

归纳起来,目前国内公开报道过的分词系统采用的分词方法主要有三种类

型:

(1)机械分词法。机械分词法主要有最大匹配法、逆向最大匹配法、逐诃匹

配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹

配法等。

(2)语义分词法。语义分词法引入了语义分析,对自然语言自身的语言信息

进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合

匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等【71。

7

Page 13: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕.1:学位论文 第1章绪论

(3)人工智能法。人工智能是对信息进行智能化处理的一种模式,主要有两

种处理方式:一种是基于心理学的符号处理方法。模拟人脑的功能,像专家系统。

一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机

制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题,

应用到分词方法上,产生了专家系统分词法和神经网络分词法。这些方法又大体

上可分为两类:一类是基于规则的,一类是基于语料库的,但无论是基于规则还

是基于语料,最后都归结为计算词频的统计信息。但自然语言难以用一套完整的

规则去准确地预测正式汉语文本中所出现的各种变异。分词精度与分词速度永远

是一对矛盾,我们只能结合我们应用的需要努力提高分词的精度与速度两个指

标。

1.2.1.2中文分词技术的关键点

汉语分词是由计算机自动识别文本串中的词边界过程。从计算机处理过程上

看,分词系统的输入是连续的字符串,输出是汉语的词串,在这里,可以是单字

词也可以是多字词。

在分词问题上,由于一方面在理论上没有最终解决汉语词这个语言单位的性

质问题,另一方面也是更重要的方面是汉语词本身的特点造成困难,在实践中仍

有相当多的分词歧义问题、未定义词问题等困扰着研究人员【引。

(1)歧义切分:汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧

义(约占全部歧义的58%以上)和组合型歧义。其中交集歧义如果说还可以通过统

计,语法等角度来解决的话,那么组合歧义的解决基本上效果很差了。比如交集

歧义串“马上去"中,“马”作为单字词的频率大大低于“去”作为单字词的频

率,即“去”常常单独使用而“马"作为单字词使用的可能性较小,所以应切成

“马上、去”。但是在具体语义环境中,则需要看较长的一段文字,然后根据上

下文的句意来切分,这个对分词的要求就更高了,因为它需要计算机先理解再分

词。

Page 14: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕lj学位论文 第1章绪论

(2)识别未登录词:切分一般都是在字典基础上的,即使是无字典分词,语

料库之外的词互信息也得不到,也需要进行未登录词的识别。未登录词即未包括

在分词词表中但必须切分出来的词,包括各类专名(人名、地名、企业字号、商

标号等)和某些术语、缩略词、新词等等。未登录词的识别对于各种汉语处理系

统不仅有直接的实用意义,而且起到基础性的作用。因为各种汉语处理系统都需

要使用词频等信息,如果自动分词中对未登录词识别不对,统计到的信息就会有

很大误差。比如,一个分词系统若不做中外人名识别,分词后进行词频统计,可

能会发现“张”、“王’的频率比“却”、“如”、“你”的频率还要高,用这

样的统计结果做汉语处理,其效果肯定有问题。又比如校对系统,如果系统不具

备生词识别能力,就无法判断句子中大部分词的使用是否合理,也就不能检查真

正的错误所在。

1.2.1.3中文分词与搜索引擎

中文分词是搜索引擎的基础模块,分词形式与结果直接影响到其它相关处理

模块的处理结果。

中文分词的应用领域【9】:

1. 数据标引与分词:在数据标引中,根据是否采用词语切分技术,中文信

息检索可以分基于词的检索和基于字的检索。基于字的检索系统对文章中所有字

建立全文索引,在检索时得到每个单字的索引,而后加以适当地逻辑运算,得到

检索结果。而基于词的检索对词汇建立索引,检索时一次命中。由于汉语自动分

词的困难,很多搜索引擎退而求其次,采用基于字的检索。包括Google、、Sohu、

sina等影响力大的网站都是采用基于字的搜索方法。这种方法虽然可以保证较高

的查全率,但查准率较低,检索到的结果虽然很多,但是与检索要求相关的有用

结果却很少,可能检索的结果与用户的查询要求会大相径庭。因而进行切词,可

以大大提高检索的准确率。适当的分词颗粒度可以提高搜索引擎的查全率和查准

率。准确率越高的分词可以降低检索分词和索引分词的不一致率,否则,即使库

9

Page 15: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕I:学位论文 第l章绪论

罩存在这个词,但是由于分词语境不同,造成分词结果的不同,还是查不出来。

中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

2.网页的消重:目前互联网上转载的网页太多,基于分词的消重算法会起

很好的作用。

3.基于分词的敏感信息过滤:搜索引擎的分词还能传递出词的其他属性,

像一些反动的,黄色的敏感的字眼,可以经过适当处理,从而达到净化网页环境

的作用。

4.分词的速度对搜索引擎的升级非常重要:搜索引擎的核心升级需要重新

生成索引如果分词速度慢,那么成本会有大幅度地增加,分词准确率如果相差1%,

在查询体验上大约会差20%左右。因为分不准的地方往往是新词最需要查询的计

算的地方。

5.信息检索系统对分词的要求【l 5】:信息检索是找出包含了指定的一类特征

(关键字、检索表达式>的文档、段落或句群供用户阅读的过程。针对信息检索而

言,分词技术的主要问题是确定词的颗粒大小,对专用术语的识别、判别词与词

之间的语义关联。为了适应用户的各种查询,第一、词库的分词单位应该较小化,

也就是词典中的词条应是汉语中最基本的、最稳定的词。第二、尽可能的把各领

域的专用术语收录,这就要求分词系统要有一定的智能性地识别未登录词。第三、

分词速度要达到一定级别。因为分词是最基础的部件,因些不能占用太多时间。

由上面这些领域,我们可以看出分词技术会贯穿整个引擎中的各个部分。

1.2.2 Web地理信息系统(WebGIS)

WebGIS是Internet和WWW技术应用于地理信息系统(cis)开发的产物,是实现

GlS互操作的一条最佳解决途径。从Internet的任意节点,用户都可以浏览WebGIS

站点中的空间数据、制作专题图、进行各种空间信息检索和空间分析。因此,

WebG]S不但具有大部分乃至伞部传统GIS软件具有的功能,而且还具有利用

Internet优势的特有功能,即用户不必在自己的本地汁算机上安装GIS软件就可

lO

Page 16: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕l:学位论义 第1章绪论

以在Internet上访问远程的GIS数据和应用程序,在Internet上提供交互的地图

和数据。

1.2.2.1 WebGIS的基础技术

1.空间数据库管理技术:对象一关系数据库技术和面向对象的数据库技术正

在逐步成熟起来,成为未来GIS空间数据管理的主要技术。因为关系型数据库管

理系统已经相当成熟,商业化的RDBMS不仅支持C/S模式,而且支持数据分布,

通过SQL语言和ODBC,几乎所有的GIS软件通过公共标识号都能和其协同运

行。

2.面向对象方法:从面向对象技术的发展来看,它是描述地理问题非常理

想的方法。面向对象是一种认识方法。面向对象分析(OOA)、面向对象设计(OOD)、

面向对象语言(OOL)和面向对象数据管理(OODBM)贯穿整个信息系统的生命周

期。面向对象的空间数据库技术正在逐步成熟,空间对象查询语‘言(SOQL)、空间

对象关系分析、面向对象数据库管理、对象化软件技术等,都和GIS密切相关。

3.客户/服务器模式:客户/服务器的含义非常广泛,数据库技术和分布处理

技术都和它密切相关。通过平衡客户/服务器间的数据通信和地理运算,能够利用

服务器的高性能处理复杂的关键性业务,并降低网络数据流量:通过规划客户/

服务器模式的GIS系统,用户能够最大限度地利用网络上的各种资源。

4.组件技术:为避免系统重复编码,浪费软件资源,参照制造业成功经验,

使用插件(Plug—In)、组件(Activex)和中间件(Middleware)技术组装软件产品:如各

软件生产商制作自己最好的组件,其他软件开发人员和系统集成人员,可直接使

用该部件提供的功能,无须重新编码,从而扩大了软件开发社会分工,提高了软

件生产效率【Ⅲl。

1.2.2.2 WebGIS特性分析

WebGIS是Intemet和WWW技术应用于GIS开发的产物,是实现GIS互操

Page 17: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕f:学位论义 第l章绪论

作的一条最佳解决途径。从Intemet的任意节点,用户都可以浏览WebGIS站点

中的空间数据、制作专题图、进行各种空间信息检索和空间分析。因此,WebGlS

不但具有大部分乃至全部传统GIS软件具有的功能,而且还具有利用Intemet优

势的特有功能,即用户不必在自己的本地计算机上安装GIS软件就可以在Intemet

上访问远程的GIS数据和应用程序,在Intemet上提供交互的地图和数据。

从提供地理底图的方式看,WebGIS不再使用传统的方式一服务器端将矢量地

图临时生成栅格图发给客户端,而是事先生成好栅格图,用户请求时不必做任何

处理就可以即时发给客户端;

在客户端,摒弃了传统的一张地图的显示方式,客户端采用多幅小图拼接的

方式显示,总体看起来像是小图片填充一个大的栅格的效果;

采用强客户端设计,大量的逻辑坐标转换和图片行列号的计算都放在客户

端,服务器端主要处理图片资源的调度。

多幅小图在客户端缓存起来。用户在进行漫游时,尚在显示范围内的地图直

接从客户端缓存中读取,显示范围以外的地图再从服务器实时读取,这样就会实

现一种平滑的过渡的效果;如果用户想查看已经漫游过的区域时,仅仅需要从本

地磁盘读取图片,显示迅速。

在传统B/S结构中增加Ajax Engine层,由用户产生的页面事件交由这个引

擎处理,它负责向服务器发送请求,服务器传回的是业务数据而非HTML,引擎

接受之后,进行渲染,通过浏览器的解析在页面上显示出来。在Ajax Engine方

式下,HTTP基于请求/响应的范式仍然没有变化,但是由于有XmlHttpRequest

对象(Ajax Engine的核心)的支持,我们不需要像以前那样将每一次请求发到服务

器后,由服务器解析请求再进行事件发配,之后返回刷新用的HTML页面。在新

的方式下,由于事件的监听和处理在浏览器内部实现,它的反应周期可以被缩短,

事件的处理力度可以更方便的做到更细,而且由于支持异步方式发送Request请

求和接受Response响应,用户事件的控制有了更大的灵活性。

WebGIS客户端的实现基本使用JavaScript脚本语言。JavaScript可以使多种

任务仅在客户端就可以完成而不需要网络和服务器的参与,从而支持分布式的运

12

Page 18: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕{:学位论文 第1章绪论

算和处理。因此,把JavaScript技术应用于WebGIS,大大减轻了网络传输和服务

器的负担。在这种技术下,所有的GIS操作都是在本地完成的,服务器仅需提供

GIS数据服务,网络也只需将GIS数据一次性传输。

1.2.3元搜索技术

1.2.3.1元搜索引擎

元搜索引擎(Meta Search Engine)被称为搜索引擎之上的搜索引擎。这类搜

索引擎自身并不收集网站或网页信息,通常也没有自己的数据库,而是将用户递

交的检索请求经过多种转换处理后提交给多个预先选定的独立搜索引擎,并将所

有查询结果集中起来以整体统一的格式呈现在用户面前。由于采用了一系列的优

化机制,它能够在尽可能短的时间内提供相对全面、准确的信息。即使不能完全

满足用户需求,仍可以作为相对可靠的参考源进行扩展搜索,因此元搜索引擎已

成为信息扩展的常用工具【11】。

元搜索的工作原理通常为:元搜索引擎是将现有的多个搜索引擎看成一个整

体,为用户提供二个统一的查询接口,用户的查询请求由元搜索根据知识库中的

信息,转换为多个搜索引擎可以识别的格式,然后分别发送给各个搜索引擎,由

这些搜索引擎完成实际的信息检索,最后元搜索引擎再把从各个搜索引擎返回的

结果收集起来,进行比较分析,合并冗余信息,去除重复信息,以一定的格式返

回给用户。工作过程如下:

·接受用户的原始查询;

·把原始查询分别转换为各个成员搜索引擎能够接受的形式;

· 向成员搜索引擎发送查询;

●收集各个搜索引擎的原始查询结果;

· 对原始查询结果进行合成,形成最终结果;

●把最终查询结果递交给用户。

元搜索引擎通常主要由以下三个子部分构成【12】:1 3

Page 19: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕I:学位论义 第l章绪论

(1)检索请求预处理部分:实现用户的个性化检索设置的要求、成员搜索引

擎的调度方案、检索时间的限制、返回结果量的限制等;

(2)成员搜索引擎调度部分:决定把一个特定查询分配到哪些目标元搜索引

擎:

(3)检索结果处理部分:实现把调用的成员搜索引擎检索到的结果去重、合并、

排序和按一定的格式返回给用户。

1.2.3.2元搜索引擎分类

元搜索引擎按照其调用成员搜索引擎的方式分类,可分为串行元搜索引擎和

并行元搜索引擎。所谓串行元搜索引擎就是将用户的查询提交给某个成员搜索引

擎,待该成员搜索引擎返回结果后再对另外一个成员搜索引擎进行查询,这样查

询时间为所有成员搜索引擎查询时间的总和。而并行元搜索引擎是指各个成员搜

索引擎并发进行查询。

元搜索引擎按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。通过网

上调用方式在线使用的元搜索引擎称之为在线元搜索引擎,与它相对应的另一类

元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元搜索引擎,

称之为桌面元搜索引擎。桌面元搜索引擎是一个包括多个成员搜索引擎的完整系

统,它们往往允许用户自定义检索运行的搜索引擎集合,甚至可由用户添加新的

搜索引擎。

元搜索引擎按功能划分,可分为多线索式搜索引擎和A11-In-One式搜索引

擎。下面详细介绍一下【13】:

·多线索式元搜索引擎

多线索式元搜索引擎,指利用统一的检索界面,实现对多个独立搜索引擎的

索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。多线索式

元搜索引擎一般具有以下特征:

(1)统一检索界面提供统一界面,提供对各搜索引擎的特点介绍和选择机制,

14

Page 20: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕}:学位论文 第1章绪论

但所有目标源搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局

外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索。

(2)检索指令转换在具有唯一全局外部检索模式情况下,系统可提供统一的

全局指令语言,并自动地实现元搜索引擎指令与其目标源搜索引擎指令的转换,

用户使用同一指令语言检索不同搜索引擎的索引数据库。

(3)统一结果集的组织与显示元搜索引擎提供全局组织器,对各目标源搜索引

擎返回的结果进行处理,形成全局结果集并以统一格式显示,主要涉及数据格式

转换、去重、统一排序等。

●Al卜In—One式搜索引擎

All—In—One方式,是指元搜索引擎界面以任意顺序或分类罗列多个搜索引

擎,元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。用户可

通过这些信息了解有关的搜索引擎,连入要选择的搜索引擎。但元搜索引擎没有

统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户。

确切的说,这种All—In—One方式的元搜索引擎,只是搜索引擎的罗列。它们具有

以下特点:

(1)仅仅提供一个简单的界面帮助甩户选择和使用各搜索引擎。

(2)只能选择一个搜索引擎进行检索。

(3)对各目标源搜索引擎检索界面的复制可能是部分的或全部的。

(4)直接利用所选搜索引擎的显示格式将结果呈送给用户。

1.2.4人机交互界面

I.2.4.i人机交互界面

人机交互是关于设计、评价和实现人们使用的交互式计算机系统,且围绕这

些方面的主要现象进行研究的科学。人机交互技术主要是研究人与计算机之问的

信息交换,主要包括人到计算机和计算机到人的信息交换两部分。它涉及计算机

科学、心理学、认知科学和社会学以及人类学等诸多学科,足信息技术的一个重

15

Page 21: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕}j学位论文 第1章绪论

要组成部分,并将继续对信息技术的发展产生巨大的影响。

人机界面作为计算机系统的重要组成部分,主要是指人类与计算机系统之间

的通信方式,包括人机双向信息交换的支持软件和硬件【141。交互涉及主要是研究

如何确定人机通信方式一人机界面,侧重于人机交互通信方式的设计过程和设计

方法,而人机交互技术则侧重于研究这种通信方式如何用软硬件实现。作为计算

机系统的一个重要组成部分,人机交互一直随着计算机的发展而发展。人机交互

的发展过程也是从人适应计算机到计算机不断适应人的发展过程,主要经历了如

下几个阶段:(1)语言命令交互阶段;(2)图形用户界面(CUI)交互阶段;(3)自然

和谐的人机交互阶段。在未来的计算机系统中将更加强调“以人为本”、“自然

和谐”的交互方式,以此为宗旨实现人机高效合作。

在“多元检索”的设计中,人机交互界面为用户设计了基于自然语言处理的

智能人机交互界面。自然语言处理是这一人机交互界面的核心部分。人类语言本

身具有高度模糊性,人们在生活中常常习惯于使用大量的非精确的信息交流。因

此,在人机交互中,如何使计算机更好的自动捕捉人的语义、思想、上下文信息,

了解人的意图,并做出合适的反馈,提高交互活动的自然性和高效性,使得人机

之间的交互像人一人交互一样自然、方便,使计算机科学正在积极探索的重要内

容,也是信息检索系统需要攻克的重要课题。

1.2.4.2自然语言处理

人类表达自己思想最方便、最自然的方式是利用人类自身的语言,人与人之

间交流观点、传播信息最方便、最自然的方式也是利用自然语言。因此,最自然

的人及通信不应该是任何人工语言,而应该是自然语言。要使计算机能与人通过

自然语言进行通信,就要使计算机能够理解和运用自然语言。从某种意义上来说,

自然语言处理提供了一个解决人机异化问题的解决方案:计算机直接处理自然语

言,无需人去适应机器。自然语言处理的主流技术是基于规则的,利用规则柬描

述语言现象使之能为计算机所处理是计算语言学的主导方法。20世纪80年代末

Page 22: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕f:学位论文 第l章绪论

和90年代初,由于大量联机语料的出现,以及计算机处理能力的大幅度提高,

也由于规则方法迟迟未能达到人们预期的目标,统计自然语言处理逐渐兴起,成

为自然语言处理中与规则方法比肩发展的两个方向。同人类对自然语言的理解相

似,计算机进行自然语言也有赖于语法。计算机利用语法来分析句子分为两个层

次:(1)是识别一个句子是否合乎语法。通常把能完成该任务的计算机程序称为

句子识别器。(2)是分析句子的内部结构,确定句子的语法成分,为进一步的句

子分析和理解提供足够的基础。通常把能完成第二个任务的计算机程序称为句法

分析器。为了实现句子识别器活句法分析器,需要预先赋予计算机两样东西:

1.语法。这种面向机器处理的语法也称为形式语法,它是规定语言中允许

出现的结构的形式化说明。其中很重要的是如何表示形式语法,即形式语法的表

示方式。最常用的两种是重写规则和转移网络。

2.语法分析算法。机器依据形式语法来识别和分析与子并决定其机构的方

式。句法分析算法还应包括其中采用的数据结构的构造,在分析之后如何表示句

子的句法结构等各方面。

自然语言处理的常见应用有机器翻译与自动应答系统。前者得主要目的是试

图利用计算机把一种自然语言翻译为另外一种自然语言,后者是一种基于因特网

的高性能软件系统。在针对某一领域知识库进行特殊处理之后用户可以通过浏览

器以自然语言形式提出问题,系统可以自动给出答案,而且能够针对用户要求进

行相关的统计和针对具体情况给出适当的建议。与基于自然语言处理的自动应答

系统不同,信息检索系统中的自然语言处理,多是由计算机发问,由人,也就是

用户做出回答。而交互系统工作的重点是从用户的回答中抽取查询目标信息。

1.2.5索引

索引(index)最早出现在文献系统中,从这个意义上讲,索引是指文献集合中

包含的事项或从文献集合中引出的概念的一种系统指南,这些事项或引出的概念

是由按已知的或已说明了的可检顺序排列的条目表达出来的。由于计算机的出

Page 23: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江入学硕lj学位论义 第l章绪论

现,索引技术在现代得到了迅速的发展,特别是数据库系统中的索引技术。“索

引"在数据库的术语中是指根据某特定域(或属性)对数据库中数据的一种排序,

这一特定域(或属性)称为关键域或关键属性。对应的索引服务就是根据索引从数

据中提取信息,再对这些信息进行有效的组织、分析后,提供给用户。数据库中

采用了类似于看书查目录一样的索引技术,使得查询时不必扫描整个数据库就能

迅速查到所需要的内容。

1.2.5.1索引的更新技术

索引更新包括整体触发和内部更新。整体触发策略是指外部接口触发索引更

新的策略;内部更新策略是指索引内部采取的更新策略。整体触发是内部更新的

前提,只有整体先触发更新,内部更新才能开始。但是,并不是整体触发就一定

内部更新,这要看是否有更新的内容,即搜索器是否抓取了新的网页。其中内部

更新是索引更新的核心所在。

◆整体触发

整体触发是指外部接口触发索引更新的策略,它是触发搜索引擎内部更新的

导火索。整体触发是顺序触发搜索器、分词器、索引器的更新。

● 内部更新

传统索引模型更新性能差的主要原因是其索引文件存放连接,这样再要把新

加入的文件集添加入索引时必须打乱原来的索引,导致索引需要重新排序,造成

更新性能的下降,这主要是数组数据结构的缺点。由于附加索引存储容量小,对

其进行重新排序比较方便,当有新文档添加时,首先判断该诃在附加词语表中是

否存在,倘若不存在,将该词的偏移地址指向索引文件的末端:倘若存在,找到

该词偏移地址指向的位置,将其对应的ID和该词在该文档中出现的次数添加到该

地址,其下面的偏移地址顺序增加新添加文档中包含该词的文档总数所占的存储

空问。这样不必大的更改就实现了实时更新。

Page 24: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学颂lj学位论文 第l章绪论

1.2.5.2存储过程和触发器

存储过程是查询语句和控制流语句的集成。存储过程不同于普通的查询语句

和批处理的查询语句,这是由于过程在运算时会生成执行方式(预编译)。当首

次运行一个存储过程时,数据库的查询处理器将对其进行分析,并准备出最终被

存在系统表中的执行方案。由于查询处理的大部分工作都已经完成,所以其后续

执行速度会非常之快。数据库本身为用户提供了许多可以作为工具使用的存储过

程,也就是系统过程,但不同的数据库的存储过程不同。如果开发网络数据库应

用,由于存储过程在数据库服务器上执行,所以在有大量的查询、更新操作时可

以显著地减少网络数据流量,提高执行效率。

触发器则是一种特殊类型的存储过程,它在插入、删除或修改特定表中数据

时起作用,无论是直接在表中输入数据还是应用程序的影响,它都会响应执行。

触发器主要用于维护数据的相关完整性和进行相关表的连环更新,也可以用来产

生某些检验数据的复杂规则。

触发器是一种特殊类型的存储过程。主要是通过事件进行触发而被执行的,

而存储过程可以通过存储过程名字而被直接调用。当对某一表进行诸如 .

UPDATE、INSEIⅡ、DELETE这些操作时,就会自动执行触发器所定义的查询语

句,从而确保对数据的处理必须符合由这些查询语句所定义的规则。

触发器的主要作用就是其能够实现由主键和外键所不能保证的复杂的参照

完整性和数据的一致性。除此之外,触发器还有其它许多不同的功能:

(1)强化约束

触发器能够实现比CHECK语句更为复杂的约束。

(2)跟踪变化

触发器可以侦测数据库内的操作,从而不允许数据库中未经许可的指定更新

和变化。

(3)级联运行

触发器可以侦测数据库内的操作,并自动地级联影响整个数据库的各项内

19

Page 25: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学倾Ij学位论文 第l章绪论

容。例如,某个表上的触发器中包含有对另外一个表的数据操作(如删除,更新,

插入)而该操作又导致该表上触发器被触发。

(4)存储过程的调用

为了响应数据库更新触,发器可以调用一个或多个存储过程,甚至可以通过

外部过程的调用而在DBMS(数据库管理系统)本身之外进行操作。

由此可见,触发器可以解决高级形式的业务规则或复杂行为限带|』以及实现定

制记录等一些方面的问题。例如,触发器能够找出某一表在数据修改前后状态发

生的差异,并根据这种差异执行一定的处理。此外一个表的同一类型(INSERT、

UPDATE、DELETE)的多个触发器能够对同一种数据操作采取多种不同的处理。

总体而言,触发器性能通常比较低。当运行触发器时,系统处理的大部分时

间花费在参照其它表的这一处理上,因为这些表既不在内存中也不在数据库设备

上,而删除表和插入表总是位于内存中。可见触发器所参照的其它表的位置决定

了操作要花费的时间长短。

1.3课题主要研究内容

传统搜索引擎由于对用户的查询无法模式化,因而大多数只限于关键字搜

索。基于关键字的搜索常常导致搜索结果过多,用户无法准确定位其感兴趣信息。

垂直搜索引擎区别于传统的搜索引擎,其数据倾向于结构化数据并包含大量元数

据信息,因此可在文本检索、空间数据检索的基础上,结合结构化数据检索技术,

提供垂直搜索技术的支持,改进检索结果质量。

此外,现阶段互联网内容趋于广泛、网页数据类型更加丰富,垂直搜索引擎

还需提供多样数据(如结构化数据、文本数据、多媒体数据等)的融合检索技术,

比如结合名称、描述、地理信息等信息进行组合检索。因而需要对基于多种索引

方式的融合检索、不同数据索引类犁的同步更新、如何提供方便简洁而又人性化

的用户查询接口等内容进行深入的研究。

本文的主要研究内容如下:1.在已有分布式垂直搜索平台的体系结构基础

Page 26: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕Ij学位论文 第l章绪论

上,利用网页抽取数据及自动化数据分析挖掘结果;2.研究以文本检索、结构化

检索、空间数据检索为一体的融合检索技术。

垂直搜索引擎中的信息检索系统包含信息组织和信息检索两部分:数据集的

“创建”和对数据集的“查询”,数据集的逻辑组织和抽象是基础,数据集的查

询是目的。“多元检索”包含“多元化信息提取”和“多元化信息融合检索"两

个子系统。“多元化信息提取”子系统是数据集的“创建”,对输入到数据集中

的原始数据或数据集中的原始数据进行预处理和结构化,按照信息检索的要求对

原始数据进行组织,形成结构化数据库、文本数据库、多媒体数据库等。“多元

化信息融合检索”子系统是对数据集的“查询”,根据用户的信息查询要求,对

数据集进行信息搜索,并把结果返回给用户。

本课题组实现了一个旅游行业垂直搜索引擎中的多元化信息融合检索系统,

以下简称“多元检索”。

1.4论文组织

本论文共分五章。

第1章绪论。介绍了课题背景、多元化信息融合检索中运用的相关技术介绍

和课题主要研究内容。

第2章“多元检索"模型分析。介绍了“多元检索”系统功能和框架设计。

在框架设计中着重介绍了专家知识库、信息提取与索弓}、融合检索等三个功能模

块的功能。

第3章基于专家知识库的中文分词。介绍了“多元检索”中专家知识库的作

用,阐述了分词模块的设计,给出了系统中使用的两种分词算法和效果图。因为

中文分词在数据集的创建和查询中都会用到,所以单独予以介绍。

第4章多元化信息融合。分类介绍了地理位置信息、多媒体信息和文本信息

的处理和组织方法。本章在“多元检索"中是数据集的创建。

第5章多元化信息的融合检索。介绍了“多元检索”中的人机交互界面和多

Page 27: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕.t学位论文 第l章绪论

元化索引一致性维护的方法。本章在“多元检索”中是数据集的查询。

1.5本章小节

本章主要介绍了课题背景、多元化信息融合检索中运用的相关技术介绍和课

题主要研究内容。

Page 28: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕I:学位论文 第2章“多几榆索”模型分析

第2章“多元检索"模型分析

2.1“多元检索"系统功能

“多元检索”设计目标是在垂直搜索引擎的系统框架内实现对多元化数据的

全面高效的检索。利用领域相关的知识库实现的分词模块,为搜索引擎抓取的结

构化数据、文本数据、空间数据、多媒体数据建立索引,通过接口维护全文索引、

空问数据索引和关系数据的同步更新。并在此基础上充分结合关系数据库、全文

检索、空间数据检索等实现多元化数据的融合检索。通过良好的人机交互界面,

使用查询扩展和语义分析等处理操作,返回更全面、更准确的信息。

“多元检索”系统功能特点:

· 专家知识库:为垂直搜索引擎的网页数据抓取、网页数据提取、网页

数据对象分析、用户检索等多个阶段提供统一的、多层次的对象数据

语义分析、识别、关联服务,使之适应不同垂直搜索领域的不同语义,

服务需求。在改变垂直搜索领域时只需简单改变领域数据的语义库信

息,而不改变系统架构。

·友好的人机界面。用户可以很快地熟悉并且操作信息检索系统。

·可以提供更多的检索方式。包括传统搜索技术的条件检索和导航检索,

并且可以允许用户根据自己的喜好选择合适的检索方式。

● 具备一定的语义推理功能。能根据用户的查询条件进行相应的语义扩展

和推理处理,可用尽可能的返回用户想要的结果,从而也提高系统的查

全率和查准率。

· 允许用户灵活的添加和修改查询条件。用户在信息检索时很难一步到位,

需要通过不断的修J下查询条件,逐步逼近有价值的信息。

◆具有较快的服务器响应速度。信息检索和其它的软件系统一样,响应速

Page 29: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕.J:学位论文 第2章“多元榆索”模型分析

度也是查询系统性能的一个重要参数,因此采用多种性能优化措施,来

确保服务器的响应速度。

·支持对检索结果的多种排序方式。如按时间排序和按与查询条件的相关

程度排序。按相关程度排序是通过某种相关度计算方法,把最贴近用户

需求的信息以较为显著的形式展现出来。

2.2 “多元检索"框架设计

2.2.1“多元检索"框架结构

“多元检索”整体的结构设计如图2—1所示。其中,虚线框以外部分为信息

搜索部分,负责在网络上抓取网页,对网页内容进行过滤,采用智能的网页信息

提取技术,提取出信息格式不同的多元化信息,然后把提取后的内容进行分词处

理,并且对分词进行索引存储;虚线框以内部分为多元化信息融合检索部分,主

要负责响应用户的请求,将用户的请求进行分词处理,组合成规范的查询语句提

交给多个数据库处理,进行数据库融合查询,并排序,然后将结果返回到用户界

面。

Page 30: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙:;』=人学坝tj学位论文 第2争“多儿榆索”模型分析

高效准确的网页抓取策略 网页分析、评价体系

分布式的实时朗页采集搜带

2.2.2专家知识库模块

图2—1“多元检索”系统框架

专家知识库包含了被索引文档的信息、专业领域知识等信息。这些知识或信

息可以从文档库中进行抽取,或者从其它己存在的专家知识库中导入,并由行业

领域专家维护。专家知识库是查询检索形成、文档内容理解、搜索策略选择以及

反馈修萨查询等工作进行的基础。专家知识库包含着某一领域的专业知识,构成

形式是专业词典、并可以扩展到一个某一领域的专家系统。在用户查询提交阶段,

专家知识库包含的主题词表、概念问的关系可以用来进行查询扩展;在查询检索

阶段,专家知识库被检索引擎用来决定对哪些资源库进行检索:在信息提取阶段,

专家知识库中包含的有关领域的知识,可以用来指导如何索引文档、提取文档信

息和进行基于内容的文本知识的提取。专家知识库除了人工构建好基本的知识

外,还具有自学习机制与推理机制。它可以是词典构建技术提取出来的,也可以

通过与用户的交互来逐渐获取知识,不断完善本专业知谚{。

多儿化信息触<-检索机架

Page 31: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕J:学位论文 第2章“多几检索”模型分析

2.2.3信息提取模块

信息提取模块的主要功能就是从搜索结果中提取不同种类的信息,包括结构

化信息、文本信息、多媒体信息、地理位置信息等,经过创建索引后分别存储。

创建索引,一方面,提取网页文档特征进行索引,将其表示成一种便于检索的数

据格式并存储在索引数据库中;另一方面,提取有关的专题知识信息。建立索引,

涉及数据的表示、存储、组织方式。它首先对搜索引擎抓取的网页进行分析,分

析过程一般包括:编码识别与转换、过滤、分词、词法和语法分析、摘要生成、

语义理解。信息提取模块是决定搜索引擎质量好坏的关键技术,它与系统采用的

检索模型密切相关。已建立好的索引项存放在数据库中,索引数据库是检索的基

础,其数据量的高低直接影响到检索效果,索引数据库中的数据由索引器的索引

过程决定。

2.2.4融合检索模块

融合检索主要的功能是检索多元化信息,并提供给人机交互界面以显示给用

户。融合检索模块从人机交互界面获取规范的用户查询,并进行处理,将查询后

的结果融合显示。检索的过程其实就是从索引数据库中找出与用户查询请求相关

的多元化信息。

2.2.4.1人机交互界面

人机交互界面模块为用户提供查询输入与结果输出的界面,直接与用户进行

交互。它的主要功能是将用户输入的查询要求规范化,形成可以对索引数据库直

接操作的规范检索表达式,并将其提交给检索引擎,再将检索结果显示给用户。

(1)自然语言处理

自动处理和理解自然语言。自然语言具有语法灵活、不规范,语义模糊和与

语境相关性大等特点。用户可直接使用自然语言进行查询,由自然语言处理部分

26

Page 32: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕I:学位论文 第2章“多元榆索”模型分析

对用户的自然语言查询进行分析处理,将其转化成规范化的查询词以便于对索引

数据库进行查询。

(2)查询扩展

利用已经建立好的词典库或知识库来进行查询词条扩展,提高搜索引擎的查

全率与查准率。在对用户的初始查询特征词进行适当分析后,查询扩展将具有相

同概念属性的特征词加入初始化查询中,形成更加丰富的用户查询,以提高查询

精度。为了从文档数据库中获得所有与用户查询密切相关的文档,需要对用户提

出的检索词使用同义词或主题词词典进行查询扩展,以提高查询的查全率。

(3)用户视图界面

可以根据用户的要求对检索结果进行分类、动态主题聚类和目次层次聚类。

根据文档的自动聚类,将内容、主题相近的文档组织在一起,用户通过浏览不同

的聚类,较容易地查找到所需信息。系统的显示适应用户的任务和显示特征,适

应不同的用户的需要。

2.2.4.2多元化信息一致性维护

由于异构数据源异构特性,即每个数据源都有自己的模式,相同的信息可以

用不同的模式表示,相同的模式也可以表示不同的信息。对于某些结构化的数据

源来说,存储于其中的数据会根据自身的数据模式满足一定的完整性约束。然而

对于异构数据源的信息来说,还需要保持多元化信息的一致性。异构数据源的信

息约束形式也是各不相同的。

“多元检索”设计了基于存储过程和触发器的索引更新来实现多元化信息的

一致性维护。触发器(Trigger)是用户定义在关系表上的一类由事件驱动的特殊过

程。对数据的三种操作:插人、修改和删除,触发器也定义了三种类型:INSERT,

UPDATE,DELETE。任何用户对表的增、删、改操作均由服务器自动激活相应

的触发器,在DBMS核心层进行集中的多元化信息一致性维护。这样,可以扩展

数捌库的内置完整性和数据~致性维护功能。在触发器被触发的过程中可以检查

Page 33: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学颂I:学位论文 第2章“多几检索”模型分析

被插人或被删除的数据是否满足业务需求,如果不满足,则可以向用户报告错误

消息,并回滚插入或删除的操作。

2.3本章小节

本章主要介绍了“多元检索”系统功能和框架设计。在框架设计中着重介绍

了专家知识库、信息提取与索引、融合检索等三个功能模块的功能。

28

Page 34: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学顾l:学位论文 第3章基于专家知识库的中文分词

第3章基于专家知识库的中文分词

3.1专家知识库在信息检索中的作用

垂直搜索引擎面对的是特定领域,在对特定领域的信息进行分词时,如果选

择了相应领域的专家知识库,则可以使分词效率和准确率大大提高。

专家知识库是表达和描述一个行业内的文件、资料等领域相关内容并用于标

引和检索的标准化词汇集合。专家知识库来自于自然语言词汇,又不同于自然语

言语汇,能反映领域相关内容,同时包含一定的分类意义。专家知识库是查询检

索形成、文档内容理解、搜索策略选择以及反馈修正查询等工作进行的基础。专

家知识库包含着某一领域的专业知识,它可以简单到一个专业词典或专业主题词

表、也町以复杂到一个某一领域的专家系统。专家知识库可以用于全文检索索引

的建立和信息检索过程中的词典分词。在用户查询过程中,专家知识库可以为用

户检索策略的构造提供提示和导航,或者系统自动执行查询调整(主要是扩检)既

减轻了用户负担,又提高了系统的易用性和检索效率。在用户查询提交阶段,专

家知识库包含的主题词表、概念问的关系可以用来进行查询扩展;在查询检索阶

段,专家知识库被检索引擎用来决定对哪些资源库进行检索:在信息提取阶段,

专家知识库中包含的有关领域的知识,可以用来指导如何索引文档、提取文档信

息和进行基于内容的文本知识的提取。专家知识库可以是词典构建技术提取出来

的,也可以通过与用户的交互来逐渐获取知识,不断完善本专业知识。

在改变垂直搜索领域时只需简单改变专家知识库信息,即可实现新领域的信

息搜集抓取和检索,无须改变垂直搜索引擎系统架构。

“多元检索”中的专家知识库的应用领域有:

1.用户检索过程中的自然语言处理。用户以自然语言‘的方式提出检索请求

后,系统利用专家知识库对用户的问题进行语义分析,经过检索词处理(抽词)、

词性标注、句法分析、概念识别等一系列操作提取出检索词,抽词时使用抽词工

29

Page 35: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕士学位论义 第3章基于专家知识库的中文分词

具识别领域专有名词,并滤掉检索提问中没有实际意义的虚词和功能词;然后对

抽词结果进行词性标注,并在此基础上进行问题的语法分析;通过概念识别,明

确该问题所描述的概念的类型,减少信息检索的处理时间。

2.用户检索过程中检索范围的确定。指根据检索关键词及概念属性确定检

索的对象类型及相关信息范围。例如:根据旅游行业缩略语“新马泰”可以判断

检索对象类型为旅游景区,检索范围包括新加坡、.马来西亚、泰国三个国家的旅

游线路、旅游景点、交通住宿等数据。

3.信息提取过程中的自动分类。根据专家知识库中的专业词汇分类特征构

建对象特征集,对网页中提取的信息进行自动分类。

4.信息提取过程中寻找对象相关信息。指在信息提取阶段在网页信息中抽

取所有信息并判断信息之间的相关性,提取对象相关信息。例如在旅游线路介绍

的文本内容中出现了某个景点名称,则可以将此景点作为线路的相关信息提取。

5.索引建立过程中的词汇标引。指在信息提取阶段在网页信息中抽取能够

表达其核心内容的词或词组,并将这些词或词组转化为受控词的过程。专家词汇

标引有利于提高查全率和查准率,减轻用户构造索引的负担,缩短检索时间,便

于扩检和缩检。同时也用来维护空间数据索引、全文检索与结构化数据索引等不

同类型索引之问的一致性问题。例如:在索引建立过程中,应该将旅游行业缩略

语“新马泰”拆分为“新马泰、新加坡、马来西亚、泰国”分别建立索引。

3.2 “多元检索’’中分词模块设计

3.2.1专家知识库的建立

“多元检索”收集专家词汇的方法采用自动和人工相结合的方式,就是在垂

直搜索引擎采集的相关网页中,自动提取结构化数据,从中选择专业性较强的关

键词(比如酒店名称)充实到专家知识库中,添加前有一个人工(行业专家)确认

和补充的过程。另外针对垂直搜索的行业特点,人工收集行业内的术语、专有名

Page 36: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕f:学位论文 第3章基于专家知识库的中义分词

词、约定俗成的缩略语(比如昆大丽意指昆明、大理、丽江,常用于旅游线路的

简称中)等,并且需要随着行业的发展不断更新维护。

3.2.2分词算法一

“多元检索”选择采用基于字典的正向最大匹配分词与逆向最大匹配分词相

结合的分词算法。所谓最大匹配,就是尽可能的用最长的词来匹配句子中的汉字

串。中文分词的正向最大匹配法就是:对一个字符串只从前到后扫描,对扫描的

每个字,从词表中逐一找最长匹配;逆向最大匹配法就是:对一个字符串只从后

到前的扫描,对扫描的每个字,从词表中逐一找最长匹配,算法描述类似于正向

最大匹配。两种算法的结合算法即应用两种算法分别进行分词,将分词的结果进

行合并,去除重复,最终得到的即为分词结果。采用正向与逆向相结合的分词方

法可以使分词的错误率大大降低。

最大匹配分词法是一种基于词典的分词法,所以词典的权威与否将直接影响

这种分词法分词的好坏。“多元检索"中文通用词典中的词条采用了人民日报社

的词库2002版本,收录了几乎所有的通用词。由专家知识库转换而来的专业词

典用来实现对专业词汇的切分。

对网页内容进行分词处理时,首先需要读取两个词典文件进行合并,去除重

复,接下来用合并后的词典作为分词词典。分词处理程序读入字符串,并且根据

内容以及词汇的匹配进行正逆向最大分词处理。待字符串都被分词结束之后将正

逆向分词结果进行去重、专业词汇处理后,输出分词文件。

“多元检索”中的中文分词的正向最大匹配算法流程:

1.输入字符串S;

2.分词起始位置m=O,取字位置n:l,词序号i=O;

3.J下向取字C。;

4.组合成词W;=Cm+Cm+1+⋯+C。:

5.词典扫描W;存在,n=n+l,转到第3步;词典扫描W;不存在,则可以判断

Page 37: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕十:学位论文 第3章基于专家知识库的中义分访J

词W产Cm+C叶l+⋯+C。.I是词典中存在的词语,录入分词文件;

6.词序号i=i+l;分词起始位置m=n;取字位置n=n+l,转到第3步;

7.C。为空,即输入字符串处理完毕时,将分词结果进行处理输出。

图3—1给出了中文分词算法的流程图。

Page 38: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕}:学位论义 第3章基十专家知识库的中文分词

图3-1中文分词算法流程图

以“杭州到昆大丽的度假线路”为例,在进行正向最大匹配分词时,起始字

为“杭”,扫描到“州”时,组成“杭州”;继续扫描“到”字,组成“杭州到”,

33

Page 39: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕-:学位论义 第3章基于专家知识库的中义分词

此词不存在于词典中,因而取词“杭州”;起始字改为“到”字,继续正向取字。

在最后的分词结果中, “昆大丽”作为专业词汇存在于专业词典中,需要进一步

转换成“昆明、大理、丽江”。因此,在本例中的最后分词结果是“杭州、到、

昆大丽、昆明、大理、丽江、度假、线路”。

图3.2是“多元检索”对于用户查询“杭州到昆大丽的度假线路”的检索结

果,可以看到系统成功地检索出包含“昆大丽”和“昆明”、“大理”、“丽江”

关键词的度假线路。

3.2.3分词算法二

图3—2“多元检索”中的中文分词结果页面

最大匹配法基于的理念是找到最大的匹配词,每次比较时都有许多重复的匹

配操作,所以效率不高。因而利用hash和二分查找算法,我们提出了一种改进的

34

Page 40: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕七学位论义 第3章基于专家知识库的中义分词

基于首字hash和二分查找的最大匹配分词算法。

分词词典是汉语自动分词系统的一个基本组成部分,分词系统所需的各类信

息都要从分词词典中获取,在编码体系和汉语词分析的基础上,为了提高词库的

查找效率和存储利用率,以及查找速度,此方法使用以下数据结构:首字Hash

表和词索引表两级索引,所有以同一个字为首的词条都组织在一起。词库由两部

分组成,一部分为索引部分,另一部分为词库正文。索引部分由字、以该字为首

的词条的开始位置、以该字为首的词条数目三部分组成。正文部分为词条、词条

的一些属性组成,相同字首的词条按汉字内码值的升序排列。其中,如果有以词

条为首的词条,那么词条的属性为以该词条为首的词条的开始位置和结束位置,

否则为0。

分词算法首先由Hash计算首字的地址,然后利用二分法查找是否有以前两

字为首的词条。如果没有则作为单字词输出;否则以这两个字为首,依次利用二

分查找法比较下一个字是否相等,比较前先判断当前匹配成功的是否组成词,如

果是则输出。具体算法如下:

1.输入字符串S;

2.分词起始位置m=0,取字位置n=l,词序号i=0;

3.正向取字C。;

4.组合成词Wi_Cm+Cm+l+⋯+C。;

5.读取C。.1词条的属性,即以Wi-l=Cm+C附l+⋯+C。.1为首的词条的丌始位

置start和结束位置end;

6.以start和end为两端位置,使用二分查找法查找Wj,如果Wi存在,n---n+l,

转到第3步;如果Wi不存在,则可以判断词Wi=Cm+Cm+1+⋯+C。.1是词典中存在

的词语,录入分词文件;

7.词序号i=i+l;分词起始位置m=n;取字位置n--n+l,转到第3步;

8.C。为空,即输入字符串处理完毕时,将分词结果进行处理输出。

“多元检索”中将旅游信息结构化数据中的景点名称提取出来构成景点名称

词典,使用基于首字hash和二分查找的最大匹配分词算法,在旅游线路介绍、景

1S

Page 41: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕‘l:学位论文 第3章摹于专家知识库的中文分训

区景点概况等文本信息中快速地进行景点名称分词。由于词典较小,在实际使用

中可以将词典全部装载入内存,在对页面的文本切词时速度较快,获得较好的效

图3—3是基于首字hash和二分查找的最大匹配分词算法效果页面。在线路

介绍中能够看到相关景点名称已经标记了下划线。

上海到北京纯玩双飞5日游~精选系列;”≯;聱:上海驭工国旅

:i癌j,卺}餍0 5 。‘.。:扎 群7;蠹j誊。021-535132;:8

一一;il搿彩

第1夭#

上海票坐航空公司客机飞往北京,机场接轨.人谴獭店休息.

托京众嚣鑫疆玷壤酉菠名仕滔猪或万臻渤美藏长避舞湾

苹台餐

第2夭t鬟蜜门广场笼主席纪:客堂串出公溺敲菖北海公豳白搭

攀赞世界盎夫豹堀市中,0广场【嚣塞国£烫】,圭圭痿堡垒鞭伸宅主席渣窖,井观器家丈屠g铙:辩明穑甄代社稷坛【虫出公匿】,擞霹最夫的璺蕊菖歙建筑释【夔塞】-游懿离代璧嚣御离【塑夔睦

垦】,鏊髓墨上最小的城堡【霹域】·观搽高建筑【托蹲鱼整】,逛【王府井穗址衡】;豪华门小吃

街晶尝北豪蕊绦小屹,晚^往滔店休息.4:“ 北京众品鑫猹唐或西莲名位涵骆蛾万缀酒店或长蟪衰谵

黧毒≤ 不含餐

参3天,’万璧妖域J蝴长城十三陵妖羧

第罩天t豳鹳爨互lb抟§辔每

蹙冱塞丝疆壤穑华自卜段【2选鳖筮箍】,参观【明妻富(自理4酊移人)】,游览明代基家陵寝土三整之蕾陵【量夔】,观我嚣院存最丈捅术宫敷【陵辫懿】,遵固磁·舛溉2∞8年毙察舞逶台主含痨【图象体育场“鸟巢”】稻建筑缀强特色的翻寡游泳中心【“水立方”】,提前殛受奥运氛围.

;;《 北衷众鑫鑫港鹰袋百蓬名仕疆店或万程满店或长烧裹馐

%琴 不舍餐

游蹩璺为人擞,宛箸天成的【鞭期嗣】,可【自赞加瓣熙璺凰(自费40,留人)】,垒方发瑟受营曰

璺絮三出五圈之夔景,参观涪代第一责蒋釉譬牵府邸【恭王府(宙爱50元从)】,盐到i蔓爨【兰乾军

遵胡弼(毫理40无认)】,体毯老北京风籀,晚哥自费艘贳簧轮荑受翁睬杂技褒演(窘理60觉,^).

‘;一j 北京众品鑫酒艏或百蓬名{土滔店或万稷稻詹或长蠓宾薅

。弩晦 不窘餐

幽3—3基丁.首字hash利二分查找的最人匹配分词算法效果页面

3.3本章小节

本章t要介绍了“多元检索”中々家知识库的作用,阐述了分词模块的设计,

36

旒鬻蹙獠~露黪

Page 42: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学顾}学位论义 第3章皋于专家知识库的中义分词

给出了系统中使用的两种分词算法和效果图。

Page 43: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕士学位论义 第4章多元化信息提取

第4章多元化信息提取

4.1网页地理数据的空间位置识别

针对真实地理世界中的不同地理对象,只有在网页中提取出他们语义层面上

共同概念化部分,才能实现地理信息共享、集成和互操作。对于网页中的多种多

样的地理信息,可以归纳为地理信息系统(GIS)信息,地址信息,地理语义信

息三种。

GIS信息:采集网页样例、分析其中所包含的基于网页的GIS控件,通过协

议分析或者与GIS信息提供商合作的方式,识别和解析目前网页中常见的GIS控

件,提取网页的GIS坐标信息。

地址信息:对采集到的数据进行对象的自动结构化数据提取,采用规则系统,

标识对象结果中的地址信息,提取对象的地址。通过地址处理系统,将对象的地

址标准化。建立标准的道路GIS信息库,使用道路GIS信息,计算对象地址的

GIS坐标信息。

地理语义信息:分析对象间存在的语义关联,识别、合并重复对象的GIS信

息。分析对象问地理信息上的语义关联,建立对象间的相互位置关系,并计算为

对象的GIS坐标信息。

图4—1是垂直搜索引擎抓取的一个网站的网页截图,它是包含网页地理数据

的空间位置信息的一个较典型例子。在这个网页中,包含了W曲GIS,地址和地

理语义三种类型地理位置信息。

Page 44: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕I:学位论文 第4帝多几化信息提取

谭鱼头火锅爨孕搿. 影蔑。 露

,∥一11。 善

电旗:0571.87290999 D571.87290988

势蜷:杭州下{爱区爱毒路期鸣麓1雩C戈掌路jE口万襄谣趣市旁}公

要l溪

瓣秘:nifp黼洲tarrf'o[o co州ht[p幽黼t3rr&J[OU corn c吖

1 o:oo-22:oo

”50qo唬

。支付方式:茸咀羁卡

停车位:有车在

、m 7臻露片嚣致筐多;基型

苜蝴臻鑫4擎亭,国啄露公翅 。|

*串震广场北。

三篓黝够燃豁◇瑟警弱幔玻争 ”粥秒'砑

。一.一中 ·蹲毒文i螽店藐E+飙葳镧; 辔丢i篡磊葛

攀一中

嚷羯台器 谡爨+一公厦

嚣 。主衡匿公穗’”‘

型4髓毒葡辫.Ma#abr,com图4—1包含网页地理数据的网页截图

结合这个具体例子,以下分别阐述“多元检索”中不同类型的网页地理位置

信息的识别过程。

4.1.1常用WebGIS组件位置信息的发现和提取技术

4.1.1.1 WebGIS研究对象的选取

WebGlS在各种领域的应用日趋增多,在国外,目前较有典型示范作用的应

用有澳大利亚资源信息网络(http://www.efin.gov.au)、美国加州大学伯克利分校

数字图书馆计Jil](http://regis.Berkeley.edu/grasslinkslindex.html)、美国MapQuest

公司提供的网上地图服务(http://www.mapquest.com)等t16J。2007年中国在线地图

信息系统市场份额中,图为先(Mapbar)访问量份额为68%,图盟(Mapabc)占10.4%,

51地图(5lditu)和搜狗地图(G02map)各占10%和6.1%。Mapbar流量遥遥领

先于其他厂商,主要得益于其坚实、广泛的地图联盟政策,联盟网站不仅数量众

多,而且大多是重量级的网站。特别是作为战略合作伙伴的如百度、MSN、YAHOO

等,都是中国互联网行业的巨头,为Mapbar提供了大量访问量来源;另外包括

旅游出行等行业网站中,大部分选择了Mapbar为合作伙伴,如携程、艺龙、芒

果网、快乐E行等。国内互联网平台用户最常使用的服务品牌领域,综合类搜索

引擎还是首选。36.4%的用户通过百度使用地图,15.9%的用户通过谷歌使用地图,

其他地图应用平台份额较小;由此考虑到综合类搜索引擎背后的服务提供商,那

39

Page 45: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕卜学位论文 第4章多元化信息提取

么Mapbar将成为最大的赢家,Mapabc次之,其中Mapbar有近50%的用户首选

使用,而Mapabc也有18%的用户选择【1 71。

基于以上WebGIS市场情况分析,我们着重选取了Mapbar、Mapabc、51ditu

等十余种常用WebGIS组件,研究位置信息的发现和提取方法。

4.1.1.2 WebGIS组件中地理位置信息提取步骤

根据WebGIS特性分析,可以判断在WebGIS客户端使用的Ajax异步调用服

务请求的模式是用JavaScript脚本语言来实现的。因此需要具体分析网页数据中

的JavaScript脚本语言代码,大概过程是:根据WebGIS组件特征判断网页中所

使用的WebGIS组件类型;分析WebGIS组件客户端脚本函数;搭建测试平台,

模拟WebGIS客户行为;得到网页地理对象的位置信息,分析结果数据。

实现WebGIS组件中地理位置信息提取的具体步骤:

11分析常用W曲GIS组件客户端特征,构建特征数据集,使用特征数据集判

断网页中使用了哪种WebGIS组件。

2)分析常用WebGIS组件客户端接口函数。WebGIS组件客户端接口函数包

括地图显示、地图拖动、放大缩小、鹰眼操作、标尺事件、点信息下载、距离测

量、面积计算、键盘事件、放大镜等一系列功能的执行代码。在接口函数分析中

我们需要了解数据的运算过程,判断怎样得到返回的结果数据。

3)使用从页面中提取常用WebGIS组件客户端函数,搭建测试平台。在从输

入虚拟参数到接收WebGIS数据的整个WebGIS组件调用过程中,模拟W曲GIS

客户端行为,提取运算过程中的中间数据和最终结果数据。

4)模拟WebGIS客户端行为过程中,跟踪JavaScript函数各变量的变化情况,

分析地图中各标注点坐标变换规则。分析提取的中间数据和结果数据,如果足真

实的地理位置对象经纬度,则可以直接录入数据库;如果是加密经纬度,则需要

进一步模拟客户端地图操作,比如定点标注、地图拖动、点信息下载、距离测量、

面积计算等,最后经过数学计算可以得到真实的地理位置对象经纬度;如果是相

Page 46: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学倾I:学位论义 第4章多冗化信息提取

对坐标,则需找出坐标参照点的真实经纬度,换算出对象的真实经纬度。

5)根据以上分析结果编制WebGIS地理信息提取插件。针对常用的WebGIS

组件分别编制不同的地理位置信息提取插件,在网页信息提取过程中可以方便快

捷地运用这些插件提取出地理位置信息。

逶鱼头火镐蠢囊薹筘

{糍诱:0571.87290999 0571.87290988

羧毽:抗州下壤嚣茨謇貉潮鸣蔸1罨{大学路北口万裘福翅市旁)公

交驾曩

嬲锈:htr43:Y/wc*,wtanyoto corn/hflp"州懈}an叫ou corrl c掰

一e譬gj 10:00-22:00

。。 鸳:蔓50.10溉

-!。z :.j。,;支惭斌:可蝴特

停车位:膏车盥

m7残霉片萎差上蓬j j i萎囊扛筮

图4—2网页地理数据的空间位置识别:WebGIS fH4'l:q·地理位置信息提取

如图4.2中,虚线框内是WebGIS组件生成的地图。从该网页中提取地理位

置信息的过程如下:

提取网页源文件,根据常用WebGIS组件特征数据集,判断该网页使用的

W曲GIS组件(图盟Mapabc组件);抽取对象名称(谭鱼头火锅)和所在城市(杭

州),输入至W曲GIS地理信息提取插件,得到对象经纬度。

4.1.2网页地理数据提取

网页地理数据就是网络中常见的以文本方式描述的地址信息(如行政区、街

道地址,邮政编码等),它通常由所有者维护更新,更具权威性和时效性。

网页地理数据提取主要是指地址信息采集,即对采集到的数据进行对象的自

动结构化数据提取,采用规则系统,标识对象结果中的地址信息,提取对象的地

址;通过地址处理系统,将对象的地址标准化;建立标准的道路GIS信息库,使

用道路GIS信息,计算对象地址的GIS坐标信息。

网页地理数据提取包括地址信息标识和地址标准化两个过程。

1.地址信息标识。

4l

。≯。豢一攀:茹i《《争懿。雾谤釜

Page 47: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕.t:学位论文 第4章多元化信息提取

地址信息标识过程就是在Web内容中识别地址字符串以及学习判断所发现的

地址是否是地理实体位置。识别地址字符串就是利用预先定义好的地理词表来扫

描Web内容,抽取出的各级连续地理引用,按照地址格式进行相似性匹配,最大

相似度超过一定阀值的即被认为是地址串。如果一个地址表达得模糊并且能和多

个街道地址相匹配,用户就无法选定这个地址的具体位置,结果只能是输出这些

模糊的地址,分别处理它们。有的地址数据的地址名称相同,但所在的地理区域

不同,就不能只按街道地址进行地理编码,需要对地址数据加上空间区域或者范

围的限制。

地址的格式可以用BNF范式(Backus—NaurForm)表示为:

Address::=<City><District><Block>[<Building>]

City::=city—name<市>

District::=district—name<区>

Block::=<Street>I<Area>

Street::={street—name<路>l street-name<街>)<Number>

Area::={area—name<庄>l area-name<村>l area-name<旱>)<Number>

BuiIding::={bui lding—name<大厦>I buiIding-name<苑>)<Number>‘

Number::=number{<号>I<层>)

地址信息标识过程中出现的问题有:

·中国现有的地名、地址体系异常复杂,地名混乱、无序,缺乏规律性和

统一的标准;

●地址数据不完整或者有歧义性;

·地址数据中包含的某些字符或者是地址数据的格式不能被地理编码软件

正常处理;

·地址数据符合要求,但是作为地理参考的街道地图数据却不完整或者没

有及时更新;

●地址数据J下确,但是地址所在的区域范围或者边界有了变化;

地址信息标识过程中出现问题的解决思路:

42

Page 48: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕{j学位论文 笫4章多元化信息提取

一是不断地从搜索引擎返回的结果页面中提取地址信息来扩充和更新网页

地理数据集。二是明确网页地理数据提取的期望值,以决定在提取过程中能接受

的不精确数据的程度。例如街道门牌号码可以允许模糊匹配,只要号码接近就可

以。

2.地址标准化。

地址标准化是指在进行经纬度查找与计算之前必须将地址名称替换成对应

的唯一的全称名。将地址处理为唯一的全称名格式,纠『F地址名称的拼写形式,

能够增加经纬度信息检索的匹配度以及『F确性,目标是为任何输入的地址数据返

回最准确的匹配结果。

网页上的地址信息通常不规范,通过建立一个标准地名库可以有效地解决这

个问题:一方面根据标准地名库来规范地址,另一方面利用增加的地址信息扩充

地名库以利于新地址的识别与提取。

地址标准化处理过程中,我们以网页地理数据集中已经采集到经纬度信息的

数据为标准,只对能够与标准数据匹配上的地址名称进行替换,其余的错误的或

是没有采集到的地址名称都作为未采集到经纬度信息的数据进行处理。

谭鱼头火锅鎏锤囊。

唿选:0571.87290999 0571.87290988

戆皱:抗州下城区舞春蹉潮鸣苑1鞲大自自路北口万襄福趣市努}公⋯⋯⋯一翔臻

弼皱:mp黼eanyoio,corn/嗽p0协州Ian州ou corrl cn『

’!噍盼i 10:00—22:00

。t 缡’霎5。-10呒

茹乏,:蒌支付方式:可l黼捧晖位:有丰盘

一72张翟片荔荛琏

一+。一。差戴殓

昔鬻学惫逐霉谦哟8:·女

t中妒场北 室

。篡罗甲嗲囊警蘑·风被亭荔!扩溯⋯.妻 :·嘲皤燃g潲堋霉≯鎏署粼誓喇喜;糕蝴

图4—3网页地理数据的空间位置识别:网页地理数据提取

如图4.3,虚线框内是对象地址信息。经过地址信息标识和标准化处理后,我

们可以得到地址信息为:Address::=杭州市下城区庆春路潮鸣苑1号。

43

Page 49: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕卜学位论文 第4章多元化信息提取

4.1.3基于网页地理数据集的空间位置识别

网页中提取的地理数据可分为两类:一类是只包含地理位置信息(如街道地

址,邮政编码、行政区划等),而没有相关地图定位数据(即空间坐标)的地址

信息;另一类是已经包含了相关地图定位信息(GIS坐标)的地理位置信息。利

用从网页中提取的包含了相关地图定位信息(GIS坐标)的地理数据建立网页地

理数据集,从而可以使用网页地理数据集匹配没有相关地图定位数据的地址信

息,赋予其GIS坐标。

“多元检索”中基于网页地理数据集的空间位置识别方法有以下三种:

1.点匹配。

杭州大厦旅行社(武林广场分邵)

魂旗:0571—85060388 0571—8580281 6

缝璇:杭州下城区武林广场1号杭州大厦宾馆6楼公交驾乘 鬈9≈ji∥‘、嬲缓:暂无

≯。7;% 。

一| j|~o?眵

医终聪溺l B:30-17:30

竺 竺!高档 ‘我要上佶

图4-4没有相关地图定位信息(GIS坐标)的地理位置信息

如果查询目标的地址不在地址库中(图4-4),无法获得地图定位信息(GIS

坐标),则通过以下方式进行地址匹配:首先遍历网页地理数据集生成一颗地址

索引树,叶结点指向地址记录(图4-5),杭州大厦的索引编码为02037041400001。

经提取所得杭州大厦旅行社地址为“杭州市下城区武林广场1号杭州大厦6楼”,

按索引树查找其编码为02037041400001,与杭州大厦位于同一地点,因此,利用

杭州大厦的地图定位信息(GIS坐标)能够在地图上表示出杭州大厦旅行社。

Page 50: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕卜学位论文 第4章多冗化信息提取

图4-5遍历网页地理数据集生成一颗地士I}索引树

2.线匹配:以包含GIS坐标的地理数据为参考,建立标准的道路GIS信息

库,使用道路GIS信息,计算对象地址的GIS坐标信息。道路GIS信息库中应包

含门牌号码编排方式:是否区分奇偶排列或不区分奇偶按大小顺序排列。

得到地址包含的道路名称后,查找道路GIS信息库,就可以通过将地址包含

的门牌号码与道路GIS信息库中查找出的道路门牌号码进行比较,取与其门牌最

为接近的门址信息作为经纬度计算的依据。

·计算过程:

> 越界判别:对于大于道路GIS信息库中所对应道路最大门牌号码的地

址,做地址越界处理:

> 选取参照点:以便对于道路门牌号码区分奇偶排列和不区分奇偶按大

d,Jl页序排列两种情况,分别选取最为接近的信息参照点;

> 使用等分方式对经纬度进行计算,忽略建筑物面积、道路弯曲度等误

差。

·经纬度计算公式: (假定道路为直线,建筑物为质点)设对象0(N,X,

Y),其中N为门牌号码,X为经度坐标,Y为纬度坐标。选取道路GIS信息库

45

Page 51: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学颂Ij学位论文 第4章多元化信息提取

中最为接近的信息参照点01(N1,X1,Y1)、02(N2,X2,Y2)。X和Y的计

算公式分别如下:

>X=XI+(X2一X1)(N—N1)/(N2一N1)

> Y=YI+(Y2一YI)(N—N1)/(N2一N1)

·计算误差处理:设道路距离长度是L,该路段与地图纬线夹角为A,经度

最大近似误差△X和纬度最大近似误差△Y。△X和△Y的计算公式分别如下:

》 AX=L,SinA/2

》 z土Y=L*CosA/2

●提高道路GIS信息库信息准确度的方法:

> 采集道路起点和终点的经纬度,以确定道路坐标范围;

p 在经纬度计算过程中采用距离最近的坐标点坐标,减小误差;

> 采集道路转弯点的经纬度,以确定地图上道路曲线的拐点;

> 对于两边的门牌号码是基于奇偶对应关系的道路,应按门牌号码奇偶

成对采集,可以相互验证准确度;

3.语义匹配:以包含GIS坐标的地标物地理数据为参考,估算地标物周围一

定区域内对象地址的GIS坐标信息。

由于对象地址是由按照地标物周围区域描述,所以无法采用精确计算方法来

得到经纬度,只能依据距离地标物的距离和方位进行估算。如图4—6,虚线框中

的是在对象地址信息后伴随的位置描述信息: “大学路北口万家福超市旁"。根

据位置描述信息中的道路(大学路)、方位(北口)、地标物(万家福超市)等

信息,匹配网页地理数据集中的对应数据。在精确度要求不高的情况下,可将道

路起始点(大学路北口)或交叉口的坐标、地标物(万家福超市)的坐标信息赋

予对象。这要求网页地理数据集收集足够多的道路和地标物的经纬度信息。

Page 52: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

第4争多几化信息提取

图4-6基丁.网页地理数据集的空间位置识别:语义匹配

4.2使用元搜索技术采集对象相关信息

瓦联网的Web信息中最初是以文本信息为主的,但随着Web应用的R益多样

化,人们对Web信息的多样化也提出了新的需求并且也成为可能。在CNNIC的报告

中,国内用户对Webl乍文本信息的访问频率已经高达22.1%,并且有逐年增长的趋

势,其中静态图片的发展尤为迅速。图像是能为人类视觉系统所感知的一种重要

的信息形式,也是多媒体信息的一个重要组成部分。随着Web矛H数字化时代的到

来,网络上的图像资源日益丰富。所谓“一图胜千言”,图片在表意能力上相比

于文字拥有先天的优势,图片被越来越多的应用于内容的表达和信息的承载,特

别是在Web的应用上更是不可或缺。Web己经成为一个巨大的、分布的、动态的、

快速增长的资源库。因此,如何通过自动化的手段有效的获取和再利用这些图片

资源成为信息共享的一个重要课题。另外,在旅游行业中,评论信息是用户高度

关注的一个方面。“多元检索”将结构化数据中抽取的关键字输入到各个元搜索

引擎中,利用元搜索技术来为结构化数据补充图片和用户评论信息。搜索图片和

评论的过程是由各个元搜索引擎完成的, “多元检索”只需要关注元搜索结果提

取和元搜索结果中无用信息的过滤。

Page 53: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕t:学位论文 第4章多几化信息提取

4.2.1元搜索结果提取

元数据及其数据结构的定义:搜索引擎进行搜索后,返回的搜索结果中一般

包括链接地址、搜索结果内容简要介绍或摘要、搜索结果内容标题等数据,这些

数据按照顺序组织起来就是元数据。尽管在搜索引擎的搜索结果中元数据有一定

的标准,而且搜索结果的每条记录都是元数据的内容,然而很多搜索引擎都采用

自己的方式来显示搜索结果,也就是说在不同的搜索引擎中对元数据的描述形式

是不相同的,不但如此,即便是同一种搜索引擎,在不同的时期,元数据的表现

形式也可能不同(因为搜索引擎产商会根据需要以不同形式来组织元数据)。搜索

引擎中元数据的表现形式发生改变,那么元搜索引擎的处理过程也要相应变化。

对于各个成员搜索引擎的搜索结果,可以通过分别查找HTML网页中的标题、

摘要、链接,然后提取出相应的信息,最后把它们以元数据的形式进行存储。那

么元数据的数据结构就是每一结果条目的记录结构。每个搜索引擎的搜索结果都

是多条记录,这些记录被存储在一个链表中。由于现在的Web搜索引擎返回的信

息都是用HTML语言书写的,信息主要由两部分组成,一部分是起控制作用的标识

符(TagString),由“<”和“>”以及它们中间的字符串组成,如<TITLE>,另一

部分是字符串,也就是浏览网页时看到的字符。现在的页面由于多用框架结构,

还存在大量的广告等无关信息,HTML源文件的可读性较差,我们就要对成员搜索

引擎返回的检索结果信息进行分析过滤,提取出用户需要的信息,返回给用户。

HTML文档分析过滤的基本思路是:扫描全文,过滤起控制作用的标识符,与此同

时根据特定标识符,对其间的字符串组成一个完整的信息条目,即元数据。从搜

索引擎服务器端获得数据后,根据HTML文档的标识符,查找所需的元数据,然后

存储元数据条目。

HTML语言是标识性语言,HTML文档又有一定的结构,所以说HTML文

档是半结构化的文档,在搜索结果中的结果记录是通过各种各样的标识来进行表

示然后显示的,文档分析首先是要分析搜索结果中元数据的标识情况,这样就可

以通过匹配的形式来提取元数据。由于不同的成员搜索引擎返回的搜索结果页面

4R

Page 54: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕l:学位论文 第4章多元化信息提取

格式是不一样的,因此我们必须对每个成员搜索引擎返回的结果页面进行分析,

得到每个搜索引擎结果页面的数据结构。从上面的讨论我们知道,HTML语言是

一种标识性语言,同时搜索结果都是由元数据组成,因此,搜索引擎的结果页面

也具有一定的结构性,所以通过对结果页面的分析得到每个搜索引擎的搜索结果

页面中元数据的标识情况,我们就可以处理这些标识,然后得到其中的元数据。

我们分析结果网页提取的元数据包括标题、URL和摘要,搜索结果网页中使用

HTML语言来标识这些内容,不管是标题和URL,还是摘要,都会有标识符的开

始和结束,数据结构中各个开始标识和结束标识之间的内容就是要提取的元数据

的内容,包括URL、标题和摘要等。很显然,不同的搜索引擎的结果页面的数据

结构是不同的,各个标识也是不一样的,所以需要对每个结果页面进行分析,准

确取得各个标识位置。分析得到了每个搜索引擎的搜索结果页面标识情况,我们

就可以通过匹配来提取元数据。

4.2.2元搜索结果中无用信息的过滤

利用元搜索技术搜索的图片信息中含有较多的无用图片。“多元检索”中对

元搜索结果过滤主要是针对无用图片的过滤。无用图片的过滤指的是从互联网上

收集到的所有图片中剔除无用的图片而保留有用的图片。

通常情况下,我们认为广告图片,装饰页面的图片(通常是一些小箭头,横

条,图标之类)等意义不大的,而且对于这类图片通常也很难提取到相关的文字

信息,应该尽可能的过滤掉这一类的图片。可以基于以下规则来进行无用图片的

过滤工作【18】:

·图片文件尺寸较小,包括文件大小和图片长宽。当图片的长宽比较小时,

由于人眼视觉分辨率的原因,通常图片中很难承载有意义的信息。一般这类大小

的图片用于存放一些装饰性的图案,比如小箭头之类。同样的,如果文件大小比

较小的话(不同的图片文件类犁其最小闭值不同),其很难有足够的数据来表示图

片的意义,所以通常也是一些无意义图片。

49

Page 55: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕I:学位论文 第4章多兀化信息提取

·图片长宽比例较大。通常有意义的图片的长宽比例是比较协调的,如果

长宽比例过大,则通常这些图片用于存放一些装饰性的横条或者竖条。我们可以

对长宽的比例设定一个闭值,比例(或比例的倒数)大于该闭值的图片就认为是无

用图片。

●同一网页中有多个<img>标记指向同一图片。通常情况下,有意义的图片

由于需要表达网页作者的意图或者加强某事物的描述性,会被放在比较显眼的地

方,所以不需要在同一个网页中“出现”多次。这里的“出现”是对于<img>标

记所表示的、用户通过浏览器打开网页“直接可见”的图片来讲。而“出现”多

次的往往是一些装饰性的图片,比如箭头、图标等图片。

·JPG和GIF的区别。JP6年DGIF格式是Web中使用最多的图片格式。两种格式

由于本身的格式以及用途上都有很大的差别,从而在表达意义的时候也不尽相

同。JPG文件压缩比例相当高,通常用来储存文件尺寸较大的图片;而GIF图片只

有256色,但是能够显示动态的图片,所以常用作装饰性的小图片。一般来讲,

用户进行图片查询时通常希望得到内容比较丰富、能够承载某种意义的图片,而

不是装饰性图片,因此在一般情况下,JPG图片通常LLCIF图片更有意义,在同种

查询条件下更能满足用户的需求。

利用以上规则,可以过滤掉目前互联网上大量的无用图片(广告性、装饰性

图片),有效的提高系统所检索到的图片的质量。

4.3本章小节

本章主要分类介绍了多元化信息的融合方法。对于地理位置信息,可以从网

页中提取地址信息,从W|ebGIS中提取经纬度坐标,从网页地理数据集中合理推

断坐标信息;对于图片和评论信息,可以利用元搜索引擎采集。

50

Page 56: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕f:学位论文 第5章多元化信息的融合榆索

第5章多元化信息的融合检索

5.1人机交互界面

一个良好的用户界面应该能以比较恰当的形式将信息显示给用户。对于不同

的用户,对于不同内容格式的资料,能找到一种合适的形式呈现出来,让用户能

够从显示形式中正确地理解结果。对于特定的查询内容,也许有的用户喜欢以时

间为线索进行结果展开,有的用户更愿意以主题来进行浏览。为了减少用户浏览

信息的时间,系统应该提供更好的视图。比如,系统可以根据用户的需求对检索

结果进行分类、动态主题聚类和目次层次聚类。根据信息的自动聚类,将内容、

主题相近的信息组织在一起,用户通过浏览不同的聚类,较容易地查找到所需信

息。

考虑到垂直搜索引擎数据的多样性和专业性的特点,“多元检索”提供组合

了结构化数据检索、全文检索、空间数据检索等多元化数据检索的一体化检索模

块,在考虑各检索模块的查询选择率条件下进行查询计划的优化,从而为用户提

供一体化查询界面,充分利用数据不同类型属性,在保证查询结果准确性的同时

也尽可能多的返回用户关心的数据,提高查询的查全率。

5.1.1基于语义关联的多元化信息融合检索

在计算机信息表示领域中,不同的媒体格式具有不同的表现能力,图形用于

精确表现事物,图像适用于人的形象思维,文本用于论述,一个系统完备的领域

知识需要用各种各样的媒体来表示,比如旅客查询一个酒店,除了关心酒店的一

些文字描述信息,他还想察看该酒店的外貌,这需要酒店图片来表达;或者他想

知道酒店的地理位置,这需要提供地图显示。多元化信息表达能够让用户了解目

标领域知识的全貌。单纯的某一类型信息的检索不能满足用户对全方位信息的强

Page 57: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学颂I:学位论文 第5章多兀化信息的融合榆索

烈需求:第一,多媒体信息没有被深入标引和揭示导致查全率和查准率低下;第

二,各种不同的数据类型没有融入到统一的信息体系中去,而只能作为孤立的系

统分别存储,造成了形式不同而内容相关的信息不能互相反映;最后,用户对多

媒体信息不同的认知而采用不同的检索方式,而传统的信息检索系统并不支持其

中的大多数检索方式。解决上述问题的关键是建立多元化信息之问的语义关联,

用户查询时提供基于语义关联的多元化信息融合检索。基于语义关联的多元化信

息融合检索是指返回给用户的结果是与需求相关的各种类型信息(用户所指定的

类型),返回的记录(实例)基于语义关联。

“多元检索”中基于语义关联的多元化信息融合检索的实现过程:

1.存储多元化信息及关联关系:在完成多元化信息分类存储的基础上,生

成全局ID;生成基于语义关联的多元化信息关系框架,在此框架中存储多元化信

息的全局ID;存储全局ID的同时,存储描述旅游资源的各种多元化信息的唯一

标识数据。

2.用户通过输入检索在概念、属性、属性值以及概念之问的关系中进行检

索;系统使用专家知识库进行中文分词;在多元化信息关系数据库中查找所有相

关数据的全局ID;根据全局D检索多元化信息送至页面呈现。

3.页面排序:根据用户关心相关度排序。比如机票信息中用户关心的是价

格、时问、航空公司等;酒店信息中用户关心的星级、地理位置等。

图5—1显示了“多元检索”中的基于语义关联的多元化信息融合检索的实现

界面。从图中可以看到结构化信息(酒店名称、房间价格等)、图像信息(酒店

图片)、地理信息(地图显示)等多元化信息能够融合在一起,以一个整体的效

果呈现在用户面前。

Page 58: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学fⅣ!l。学位论文 第5章多儿化信息的融合榆索

图5-1基丁.语义关联的多元化信息融合检索的实现界面

5.1.2使用AJAX技术进行结构化数据实时搜索和异步查询

Web2.O时代,Web技术已经从一个静态的内容提供环境迅速发展为一个在

Intranet矛HInternet上运行的动态业务应用程序的可靠平台。过去几年中在后端

(后端机制,backend mechanics)投入了太多的时间,而在Web用户界面对用户交

互和响应灵敏方面却投入不足。用户在强大的业务逻辑背后,还忍受着“提交一

响应一等待一刷新”的同步运行机制,不管在页面呈现上的变化多么小,都需要

耐心地等待服务器将整个页面重新发送给客户端。

为了构建更为动态和响应更灵敏的Web应用程序,实现浏览器和服务器的异

步并行处理,减轻服务器端负担,Jesse James 6arrett提出TAJAX(Asynchronous

JavaScript and XML)【20】这一新的概念。AJAX是一种创建交互式网页应用的网页

丌发技术,由多种技术组合而成,包括11 0】:

≯基于XHTML和CSS标准的表示;

≯使用Document Object Model进行动态显示和交互;

53

Page 59: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕I:学位论义 第5章多兀化信息的融合检索

≯使用XMLHttpRequest对象与服务器进行异步通信;

>使用JavaScript绑定一切。

与传统的Web开发不同,AJAX并不是以一种基于静态页面的方式来看待Web应

用的。从AJAX的角度看来,Web应用应由少量的页面组成,其中每个页面是一个

更小型的AJAX应用,每个页面包括有一些使用JavaScript开发的AJAX组件。这些

组件使用XMLHttpRequest对象以异步的方式与服务器通信,从服务器获取需要的

数据后使用DOM API来更新页面内容。

根据旅旅游行业特点,我们将垂直搜索引擎抓取的结构化数据分为实时和非

实时信息。对于类似景点概况、酒店介绍等变动不大的信息,经搜索引擎抓取后

使用自动提取技术转换为结构化数据,存在于关系数据库;对于类似机票价格、

酒店空房数量等实时性强的信息,使用AJAx技术进行实时搜索,在实时数据返

回后同时进行页面显现和入库操作。

图5-2使用AJAX技术进行结构化数据实时搜索和异步查询

如图5-2, “多元检索”在用户和服务器之间加了一个中间层-AJAX;JI擎。

AJAXGI擎能够实现实时信息的即时搜索和异步查询功能,提供了良好的用户体

验。用户查询过程如下:

用户提交查询请求后,人机交互界面根据页面显示信息类别的不同,分别向

54

Page 60: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学坝Ij学位论文 第5章多几化信息的融合检索

关系数据库查询非实时实时信息和向AJAX弓I擎提交实时信息的查询请求。关系数

据库返回非实时信息,直接在页面显示;而AJAX,[擎则将实时查询的请求发送至

搜索服务器,由搜索服务器实时搜索网页信息。在实时信息抓取的同时,搜索服

务器将已经抓取到的实时信息返回,由AJAX弓I擎执行页面显示功能;同时将实时

信息保存至关系数据库内。这种实时信息的即时搜索和边搜索边显示的异步查询

功能,减少了用户等待的时间,提供了良好的用户体验。

图5—3显示了“多元检索”结构化数据实时搜索和异步查询的实现界面。图

中显示的某一航班的航班号、航空公司、起降时间等基本信息可以看做非实时信

息,由搜索引擎抓取后存放在关系数据库中,用户查询时可直接呈现;而图中的

方框中的最低价格和更新时间等属于实时信息,是AJAX引擎提交实时搜索的请

求,搜索服务器实时抓取数据,返回AJAX引擎进行异步呈现。

图5—3结构化数据实时搜索和异步查询实现界面

5.1.3基于中文自然语言处理的解决办法

用户提出检索请求后,检索系统能否正确地表达出用户的枪索意图是检索最

终能否取得成功的关键。传统的关键字检索效果不尽人意,主要原凼在于用户真

Page 61: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕l:学位论文 第5章多几化信息的融合榆索

正的检索意图很难用几个关键字表达清楚,这也是导致现有检索系统的精度不高

的原因之一。

“多元检索”为用户提供了“单栏输入”的基于中文自然语言查询。用户以

自然语言的方式向系统提问,系统利用领域相关知识对用户的问题进行语义分

析,得到用户真『F的检索意图,然后将检索请求提交给系统的检索部分。例如用

户想知道杭州西湖的“黄龙”附近的酒店,他可以直接以“杭州黄龙附近的酒店”

向系统提出检索请求,检索系统对这一提问进行分析,经过检索词处理(抽词)、

词性标注、句法分析、概念识别等一系列操作提取出检索词,供下一步检索使用。

抽词时使用抽词工具识别领域专有名词,并滤掉检索提问中没有实际意义的虚词

和功能词。然后对抽词结果进行词性标注,并在此基础上进行问题的语法分析。

通过概念识别,明确该问题所描述的概念的类型,如“杭州黄龙附近的酒店”这

一问题,经过概念识别就能知道用户的需求是酒店这个概念中的地理位置属性,

因此在进行检索时就可以只分析那些属于酒店概念的信息实体,减少信息检索的

处理时间。问题识别是将用户的问题根据问题库划分到一个指定的类型中,这能

简化检索工作,并使检索结果更趋于精确【19】。

图5-4显示了“多元检索”处理自然语言“杭州黄龙附近的酒店”后的结果

呈现界面中的部分结果。检索语句“杭州黄龙附近的酒店”经过自然语言处理后

可以分成两种类型查询:一是基于关键字“杭州、黄龙”的酒店查询,可用全文

检索查询包含关键字的所有酒店;二是基于关键字“杭州、黄龙、附近”的网页

地理数据集的查询,根据关键字“杭州、黄龙”查询出坐标点位置信息,关键字

“附近”可以转换成距离信息,在网页地理数据集中查询出距坐标点在一定距离

内的所有信息,之后按照“酒店”类型过滤出所要查询的结果。最后将两种类型

查询的结果融合呈现。

可以看出,图5—4中的检索结果都是名称或地址中含有“杭州”、“黄龙"

或地理位旨处于“杭州”、“黄龙”附近的“酒店”,符合自然语言“杭州黄龙

附近的酒店”的语义。

56

Page 62: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕士学位论义 第5章多几化信息的融合柃索

幽5-4基丁中文白然语言处理的检索界面

5.1.4基于地理位置的融合检索

越来越多的应用要求返回给用户的检索结果是与用户当前或提供的地理位

置相关的。在查询的用户接口上,我们设计了基于地理位置的地图拉框搜索。地

图拉框搜索主要是“找出某一位置内或附近的对象”。

拉框搜索,在地图上对所要查询的区域用鼠标拉个框,利用鼠标监测得到这

个框的页面坐标信息,通过与地图在页面的位置信息比较,可以计算出这个框的

经纬度坐标。

在网页地理数据集中通过经纬度坐标的比较,可以取出经纬度坐标在所要查

询区域内的所有对象(酒店、车站、景区景点、旅行社等)。

图5—5显示的是地图拉框搜索界面。为了便于检索结果的呈现,限定了检索

信息的类别,比如是景点还是酒店。

Page 63: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕l:学位论义 第5章多儿化信,睦.的融合榆索

图5—5基1j地理化置的融合检索界面

5.2多元化索引一致性维护

5.2.1索引结构

为了使索引满足搜索引擎实时更新索引的要求, “多元检索"中的全文检索

数据库采用了倒排索引结构,整个倒排索引由三个部分组成:主倒排索引、附加

倒排索引和删除文件列表。绝大部分索引都存储在主倒排索引中,它不支持索引

的插入和删除,要进行主倒排索引的更新需要对倒排索引重建;附加倒排索引存

储容量较小,采用链表结构,支持文档的实时插入,具有良好的更新性能,当有

文档插入时,主倒排索引并不更新,只需要把新加入的内容存储到附加倒排索引

中即可。

传统索引模型更新性能差的主要原因是其索引文件连续存放,这样再要把新

加入的文件集添加入索引时必须打乱原来的索引,导致索引需要重新排序,造成

更新性能的下降。由于附加索引存储容量小,对其进行重新排序比较方便,当有

新文档添加时,首先判断该词在附加词语表中是否存在,倘若不存在,将该词的

偏移地址指向索引文件的末端;倘若存在,找到该词偏移地址指向的位置,将其

对应的文档IDYll该词在该文档中出现的次数添加到该地址,其下面的偏移地址顺

SR

Page 64: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕I:学位论文 第5章多元化信息的融合检索

序增加新添加文档中包含该词的文档总数所占的存储空间。这样不必大的更改就

实现了实时更新。

索引的更新包括文档插入、删除和更改,一般对文档的修改比较少见,特别

是对网页文档的修改,同时对文档的修改也可以看成是先删除再插入,因此只需

要处理插入和删除操作。针对索引的特殊结构,“多元检索”的索引更新方式采

取以下两种:实时更新和全面更新。当有整体触发更新时,判断是否有新的网页

信息,如果有新信息,索引启动实时更新程序,只把文档索引插入到附加索引中,

主索引并不发生变化。当附加索引的大小超过一个阀值后,系统触发全面更新,

对主索引和附加索引进行合并,重新构建主索引,把删除文件列表中的文档从索

引中删除,清空附加索引和删除文件列表。因为词汇索引存储在主索引和附加索

引两部分,这就给文档的删除带来了很大的困难,为解决这一问题,“多元检索"

在索引结构中加入删除文件列表,当有文档需要删除时,并不需要直接到索引中

删除,而是将文档编号记录到删除文档列表中,这样大大节省了删除时间。检索

时在返回结果前对结果集进行检查,把其中已经删除的过滤即可。索引结构的优

点:附加索引较小,容易更新:采用删除文件列表避免了直接对索引文件进行删

除操作;同时针对附加索引和主索引的特点采用不同的实现方法,可进一步提高

索引的性能。

5.2.2基于触发器的索引一致性维护

多元化信息索引的一致性指当某一类型信息索引更新时,与之关联的其他类

型信息的索引也要随之更新。“多元检索”采用基于存储过程和触发器的方式维

护多元化信息索引的一致性。

触发器是存储在数据库中的过程,当数据库中某些事件发生的时候,这个过

程就会触发,或者说在后台自动运行而无须用户动手干涉。可以使用触发器做许

多事情,包括:维护不可能在表创建时声明件约束进行的复杂的完整性约束限制;

通过记录所进行的修改以及谁进行了修改束审计表中的信息;当表被修改的时

Page 65: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江火学硕上学位论义 第5章多兀化信息的融合榆索

候,自动给其它需要执行操作的程序发信号。一个触发器一般由以下部分组成:

触发触发器的事件;发生事件的对象(如数据库表、视图、甚至是数据库实例和用

户模式);可控制触发器何时触发的条件;在触发器被触发时进行的触发器体。因

为多元化信息的类型不确定,可以采用函数的方法,实现触发器的建立。针对数

据库管理系统多样性,数据库触发器的建立方法不同,可事先针对不同的数据库

系统分别建立不同的函数。当第一次集成的时候,自动加载相应的函数到数据库

管理系统当中去,并执行函数给每个要集成的表建立触发器。

图5-6给出了“多元检索”中基于触发器的的索引一致性维护流程。

5.3本章小节

图5-6基于触发器的索引一致性维护流程

本章主要介绍了“多元检索”中的人机交互界面和多元化索引一致性维护的

方法。在人机交互界面中列举了“多元检索”所使用的四种检索方法,分别给出

了检索效果图。

Page 66: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕士学位论文 第6章总结和展望

6.1总结

第6章总结和展望

垂直搜索引擎针对互联网搜索存在的查询信息量大、查询不准确和深度不够

等诸多问题,专注于某一行业范围,使得它可以提供行业信息深度和广度的整合,

提供更加细致周到的服务。随着Web技术的广泛采用,即便是在某一行业范围

内,信息资源也是以多种形式表现,如结构化数据、文本数据、多媒体数据等,

呈现出多媒体、多载体、内容覆盖范围广、分布无序等特点。因而需要对基于多

种形式信息的融合检索、不同数据索引类型的同步更新、如何提供方便简洁而又

人性化的用户查询接口等内容进行深入的研究。

本课题组实现了一个旅游行业垂直搜索引擎中的多元化信息融合检索系统,

研究了多样数据(如结构化数据、文本数据、多媒体数据等)的融合检索技术,

提供组合了结构化数据检索、全文检索、空间数据检索等多元化数据检索的一体

化检索模块;为用户提供一体化查询界面,充分利用数据不同类型属性,在保证

查询结果准确性的同时也尽可能多的返回用户关心的数据,提高查询的查全率;

另外还构建一个基于领域相关的专家知识库的中间层,解释和转换查询的语义,

同时也用来维护空间数据索引、全文检索与结构化数据索引等不同类型索引之间

的一致性问题。

6.2不足与展望

一、多元化信息间的联系,仅仅是基于简单的数据库中的关联规则技术,不

足以反应对象关系中语义层次上的联系。如果能够对领域本体技术进行研究,可

以对领域内的资源在语义层次上进行表述,使得领域内的资源从内容级别上升到

语义级别,就能够使得资源的管理和利用更加的有效和智能化。下一步的工作是

6l

Page 67: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕‘f:学位论文 第6章总结和展望

基于等价类的挖掘方法提取对象关系,并结合对象语义,通过运用本体论的相关

知识,提出基于本体构建的语义关联规则挖掘模型。该模型能够根据对象内容,

进行基于知识的推理,从而提高网页数据抽取结果和用户检索结果的相关度,并

且实现一定水平的语义检索。

二、信息过滤与推荐方面,还没有进行深入研究。下一步考虑采用基于内容

和基于用户相结合的协同过滤技术,同时为了解决协同过滤技术的扩展性能问

题,可以在用户数据上做一次聚类分析。随着标签系统在互联网上的广泛应用,

标签本身就不失为是一种很好的内容属性。可以考虑利用标签内容本身的属性,

将不同的相似性结合起来,这会给基于协同过滤的推荐技术带来新的动力。另外,

还应该带有从用户对推荐内容的反馈中自行调整和学习的自治模块。实际上每个

用户对于推荐的内容都有不同的要求,针对不同用户的反馈来不断学习每个用户

的特征,以避免算法本身先天的偏差,获得更理想的效果。

62

Page 68: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕}:学位论文 参考文献

参考文献

[1]查志华,李伟.搜索引擎的技术现状及发展趋势.兵团教育学院学报,

2006(3):28,29

[2]中国互联网络信息中心(CNNIC).中国互联网络发展状况统计报告.2008,http:

//www.cnniC.net.cn/index/OE/00/11/index.htm

[3]刘嘉.网络信息资源的组织一从信息组织到知识组织.北京图书馆出版

社,2002,4

[4]凌云,王勋,费玉莲等.智能技术与信息处理.科学出版社,2003.4

[5]庄越挺,潘云鹤,吴飞.网上多媒体信息分析与检索.清华大学出版社,北

京,2002.

[6]陈波,尹朝庆,中文web文档自动分类的研究与实现.清华大学,2005—03一01,

中国博硕士学位全文论文数据库,光盘号:D1200505

[7]李利.一种用于文本分类的语义SVM及其在线学习算法.计算机应用与软

件:2004,21(6)一78—81

[8]文庭孝等.汉语自动分词研究展望.现代图书情报技术,2004(7)

[9]吴栋.中文信息检索引擎中的分词与检索技术.计算机应用,2004(7)

[10]刘南,刘仁义.WebGIS原理及其应用.科学出版社.2002

[11]李广建,黄昆.元搜索引擎及其主要技术.情报科学,2002,20(2):

175,176,178

[12]张卫丰,徐宝文,周晓字等.元搜索引擎研究.计算机科学,2001,28(8):

36-4l

[13]刘丽,孙燕唐.智能型元搜索引擎的设计与实现.计算机工程,

2003,29(6):118—120

[14]刘永瞻.网络界面设计研究.北京理工大学出版社,2002年1 1月

[15]尚旭祥.基于关联的中文文本分类系统的设计与实现[D].解放军信息工

63

Page 69: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕L学位论文 参考义献

程大学,2006

[16]刘聚海,袁国华.国外土地信息系统概况[J].国土资源,2002.(8):48-5

[17]叟:瑞咨询.2007@}翻在线地图信息服务研究报告.艾瑞咨询,2007-10—12

[18]谢同.基于文本的Web图片搜索引擎的研究与实现[D].电子科技大学,

2007

[19]纪明奎.基于语义网的个性化信息检索模型研究[D].黑龙江大学,2007

[20]Jesse James Garrett.AJAX:A New Approach to Web Applications.

ht tp://www.adapt jvepath.corn/publ icatjons/cssays/a1’chi ves/000385.php

[21]Hammer J,et a1.Extracting Semistructured Information from the

Web.Workshop on Management of Semi structured Data,1997.

[22]Lin S H,Ho M J.Discovering informative content blocks from Web

documents.Proceedings of the Eight ACM SIGKDD International

Conference on Knowledge Discovery and Data Mining.2002.

[23]Yan H F,et a1.Architectural design and evaluation of an efficient

Web—crawl i ng system.Proceedings of 15‘“International Paral lel and

Distributed Processing Symposium.2001.

[24]Hawking D,et a1.Measuring search engine quality.Information

Retrieval.2001,4: 33、59.

[25]Yang Y,Zhang H.Page Analysis Based on Visual Cues.Poster

Proceedings of the 10”International WWW Conference.2001.

[26]Cho J.Crawl ing the Web:Discovery and maintenance of large—scale

Web data.Stanford University,doc tolal di ssertat i on,2002.

[27]P.Raghavan.Structured and Unstructured Search in Enterpri ses.

IEEE Data Engineering Bulletin,December 2001.

[28]S Agrawal,S Chaudhuri,G Das:DBXplorer:A system for

keyword—based search over relat i onal databases.ICDE 2002

[29]A.Si nghal.Modern information retrieval:A brief overview.IEEE

Page 70: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江人学硕士学位论义 参考文献

Data Eng.Bull.24(4),2001

[30]D.Grossman and 0.Frieder,Information Retrieval: Algorithms and

Heuristics,Springer Publishers,2nd Edition 2004

[31]L.Guo,J.Shanmugasundaram,K.Beyer, E.Shekita:Efficient

Inverted Lists and Query Algorithms for Structured Value Ranking

in Update—Intensive Relational Databases.ICDE 2005

65

Page 71: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕士学位论文 作者简历

作者简历

宁登鹏,男,汉族,1976年7月生,湖北大悟人。

一2006.9.2008.7在浙江大学计算机科学与技术学院软件工程硕士班学习。

同时进入计算机学院数据库实验室,从事垂直搜索引擎中的多元化信息

融合检索研究。在此期间,到网易杭州研究院实习,先后参与了电子文

档安全系统、旅游行业垂直搜索引擎等项目的研究工作。

Page 72: #-3 û :Au1k /¥ : T âECÊ :L6 .) ¿ :!A [ V,È ð2ö é ¢,X î êµ C=a Ü 2ö …ir.sdu.edu.cn/~zhuminchen/biye/project8/8.pdf · 2014-02-05 · Õã½ÈËѧ˶ʿѧλÂÛÒå

浙江大学硕上学位论文 致谢

致谢

随着两年研究生生活的结束,我的第二次学生生涯也将画上句号。这两年的

求学生活,不仅让我学会了如何求学,更重要是体会到了“求是”的精神。“求

是创新"的浙江大学校训会伴我终生。两年学习和生活让我一生都受益不尽,同

时在这两年里结识的良师益友,让自己感到非常的幸运。

首先感谢我的导师陈刚教授、实验室寿黎但副教授、胡天磊老师、吴羽博士、

江锦华博士。你们学识渊博、思想敏锐、平易近人;在学术上提倡开放创新,严

格论证;在工作上一丝不苟,兢兢业业。正是你们的教诲和帮助激励着我完成了

课题的研究和论文的写作。两年来,是你们无微不至的关心与指导,提供了如此

优越的实验环境,才使我在相关的学术领域里有所思考、有所实践。

感谢课题组里所有的同学。这些已经和正在为本课题作出贡献的同学,是你

们用丰富的理论与实践经验来帮助我的研究与学习,使我能够不断的进步。

感谢两年以来在校园里面新结识的室友、同学与朋友。与你们相伴,我度过

了可爱的、让人留恋的第二次学生时代。

最后,要感谢我的家人,特别是我的妻子。多年以来你们照顾家庭,含辛茹

苦,任劳任怨,为我付出一切,支持我的求学生涯。今后我要用更多的爱来回报

你们1

67

宁登鹏

2008年5月15日于网易杭州研究院