内容回顾 - buaa.edu.cnact.buaa.edu.cn/hsun/ir2016/slides/lecture7.pdf•...

1

1《信息检索原理理》课程 Beihang

内容回顾

•  Online search和indexed search的区别

•  基于倒排文件的索引方法有时会用到block indexing，请分析其优缺点。

•  用KMP和BM算法在下面文本中搜索“aba”，分别需要进行几次字符比较？

a e c d b a

《信息检索原理》课程

第七讲 Web检索技术

授课人：孙海龙

2016.10.28

2


提纲

•  Web检索历史 •  Web检索系统结构 •  信息采集系统 •  网页预处理系统 •  链接分析算法


The World Wide Web

•  1989年，伯纳斯·李在日内瓦欧洲粒子物理研究所（CERN）开发计算机远程控制时首次提出了Web概念，并在1990年圣诞节前推出了第一个浏览器。

•  接下来的几年中，他设计出HTTP、URL和HTML的规范，使网络能够为普通大众所应用

•  Ted Nelson 在1965年提出了超文本的概念. –  超文本传输协议(HTTP，HyperText Transfer

Protocol)是互联网上应用最为广泛的一种网络传输协议

–  超文本标注语言（HTML）

3


Web的发展

•  20世纪90年代，Tim Berners Lee 在欧洲CERN发明了WWW (World Wide Web)

•  Web 1.0 –  HTML –  URI –  HTTP

•  Web 2.0 –  Blog –  SNS –  WIKI –  …


Web Search 历史 •  1993, 早期的 web robots (spiders) 用于收集 URL:

–  Wanderer –  ALIWEB (Archie-Like Index of the WEB) –  WWW Worm (indexed URL’s and titles for

regex search) •  1994, Stanford 博士生 David Filo and Jerry Yang

开发手工划分主题层次的雅虎网站.

4


Web Search 历史

•  1994年初，WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎

•  Lycos（Carnegie Mellon University Center for Machine Translation Announces Lycos ）是搜索引擎史上又一个重要的进步。

•  DEC的AltaVista 是一个迟到者，1995年12月才登场亮相. AltaVista是第一个支持自然语言搜索的搜索引擎，AltaVista是第一个实现高级搜索语法的搜索引擎（如AND, OR, NOT等)


Web Search 近期历史

•  1995年博士生Larry Page开始学习搜索引擎设计，于1997年9月15日注册了google.com的域名

•  1997年底，开始提供Demo •  1999年2月，Google完成了从Alpha版到Beta版的蜕变

•  Google公司则把1998年9月27日认作自己的生日 •  主要的进步在于应用链接分析根据权威性对部分结果排序

5


Web Search 近期历史

•  北大天网由北大计算机系网络与分布式系统研究室开发，于1997年10月29日正式在CERNET上提供服务

•  2000年1月，超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇（加州伯克利分校博士）在北京中关村创立了百度（Baidu）公司

•  2001年8月发布Baidu.com搜索引擎Beta版（此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎）

•  2001年10月22日正式发布Baidu搜索引擎


用户输入查询词到得到检索结果过程

•  将网页爬取下来 •  预处理：网页去重，正文提取，分词等 •  建立索引 •  接受用户请求，检索词串的处理，查询重构 •  找到满足要求的网页列表 •  根据连接和文本中的词进行排序输出

6


Web搜索引擎系统组成

•  Web搜索引擎系统可以被分成以下四个大的子系统：

– Web数据采集系统 – 网页预处理系统 – 索引检索系统 – 检索结果排序系统


Web搜索引擎体系结构 •  小型的搜索引擎系统一般是集中式的结构

–  系统实现简单，花费的资源比较少 –  自身处理能力比较弱，能支持同时访问用户数量也比较小

•  很多搜索引擎采用了升级Web数据采集系统硬件的方法 –  使用大型机和并行机作为采集系统的硬件使采集能力提高 –  升级硬件的方法扩展性有限，性价比也不高

•  用网络连接多台微机组成一个分布式的机群系统提供的分布式网络服务

•  现代网络服务的体系结构已经由集中式向分布式转变

7


集中式Web数据采集系统的结构 •  主控模块 •  配置模块 •  已访问URL识别模块 •  采集策略控制模块 •  DNS模块 •  Robots协议模块 •  网页抓取模块 •  网页解析模块 •  存储网页模块


分布式Web数据采集系统的结构

•  由于网络上的网页数量越来越大，仅仅依靠升级集中式采集系统的硬件已经不能满足需要了

•  大规模的Web数据采集系统是分布式的结构，用网络连接起多个采集器，它们之间用分布式算法进行控制

•  一般有主次结构和对等结构

8


分布式结构:主次结构


分布式结构:对等结构

9


Web数据采集系统的分类


Spiders (Robots/Bots/Crawlers)

•  从一个URL根集开始搜索. •  根据这些网页的链接寻找另外的网页. •  将遇到的所有新的网页建立索引. •  也允许直接索引用户提交的网页.

10


Web信息采集当前研究方向

•  基于整个Web的信息采集(Scalable Web Crawling) •  增量式Web信息采集 (Incremental Web Crawling ) •  基于主题的Web信息采集(Focused Web Crawling ) •  基于用户个性化的Web信息采集(Customized Web

Crawling ) •  基于Agent的信息采集(Agent Based Web Crawling ) •  迁移的信息采集(Relocatable Web Crawling ) •  基于元搜索的信息采集(Metasearch Web Crawling)

实际的采集器往往是几种采集技术的结合


基于整个Web的信息采集 •  传统的采集方式

–  作为门户搜索引擎和大型的Web服务提供商的数据收集部分 –  是指从一些种子URL扩充到整个Web的信息采集

•  优点 –  采集数据广，采集速度快，适用于广泛主题的搜索

•  缺点 –  采集数据乱，数据利用率低，页面失效率高，采集周期长

•  目前在实际应用中占较为主流的地位 •  典型代表：Google Crawler, 百度

11


增量式Web信息采集

•  在页面刷新时，只需要采集新产生的或者已经发生变化的页面，而对于没有变化的页面不进行采集

•  预测变化的策略： –  基于统计的方法：观察网站的平均变化周期 –  基于数据建模的方法：通过网页中变化估计模型和参数

•  优点 –  极大地减小数据采集量进而极大地减小采集时空开销。

•  缺点 –  增加了一定的判别开销。

•  典型代表： Google Crawler, WebFountain。


统计资料表明

•  随机选择270个站点，132个.com站点，78个.edu站点，30个.net站点和30个.gov站点

•  下载72000个页面，40%的.com每天变化，.net和.org变化适中，.edu和.gov变化最为缓慢

•  需要为更新较快的页面提高刷新率

12


主题Web信息采集

•  选择性的搜寻那些与预先定义好的主题集相关页面进行采集 –  给定特定的种子URL

•  目前是研究热点，垂直搜索 •  优点

–  采集页面更加有针对性，采集效率更高。 •  缺点

–  采集速度较慢，判别相关性带来较大的开销。 •  典型代表：Focused Crwaler -- IIT&IBM

–  采集系统首先保存一个经典的主题分类 –  每个主题分类都保存若干个内容样本


用户个性化Web信息采集

•  轻量级的信息采集 •  不同的用户对一个搜索引擎提交同一个检索词，他们期望的返回结果是不同的

•  通过用户兴趣制导或与用户交互等灵活手段来采集信息

•  优点 –  灵活、小巧、针对性强。

•  缺点 –  实用性和有效性还有待提高。

•  典型代表：SPHINX

13


基于Agent的信息采集

•  智能Agent系统是指一种处于一定环境下包装的计算机系统 –  它除了具有自治性、社会能力、反应能力和自发行为 –  还具有一般人类所有的知识、信念、意图和承诺等心智状态,这使得智能Agent系统具有人类的社会智能

•  将Agent技术用于采集，像人一样感知用户的兴趣变化，使得采集有更强的灵活性、适应性和自主性

•  典型代表：InfoSpiders ，Letizia


迁移的Web信息采集

•  将自己上载到它所要采集的服务器中，在当地进行采集，并将采集结果压缩后，回传到本地

•  优点 –  大量的节省了Web资源，大量的剪裁工作将在被采集对象的服务器上完成

•  缺点 –  不被采集对象所信任

•  解决：信任机制，半迁移 •  典型代表：SPHINX

14


元搜索Web信息采集

•  元搜索引擎是这样一种搜索引擎系统，对用户提交的查询请求通过多个领域或门户搜索引擎搜索，并将结果整合后以统一的界面提交给用户

•  信息采集部分在元搜索引擎中有相当的退化 •  典型代表：

–  美国Binghamton大学：对数据选择问题进行了研究 –  美国华盛顿大学：实验发现大多数搜索引擎对于同一个查询要求返回的结果很不相同，重叠率很低。单一搜索引擎会错过许多相关网页


⽹网⻚页预处理理

15


网页预处理任务

•  网页去重 •  网络上可能会出现多个域名对应同一个网站的情况或者网站的互相转载

–  去除重复的网页是为了避免同一个网站的内容被多次采集和索引

•  网页正文提取 –  由于网页中有很多对建立索引无用的信息，比如广告信息，一些无用的连接信息，还有一些脚本语言

–  所以在建立索引之前，需要先清理一下垃圾信息，这个过程被称为正文提取

•  分词等


网页重复情况

•  内容相同的网页分情况 – 网页正文完全相同 – 网页正文大部分相同只是一些地方做了少量变动，一篇文章是另一篇的一部分

– 一种是两篇文章的某些段落相同 •  其中前两种情况在相同网页中所占比例最大，大致占到80%左右

16


网页去重算法

•  现在广泛使用的是基于指纹识别（fingerprinting）思想的网页内容重复性判断方法

•  主要思想 – 是抽取出网页内容中的一系列字符串，计算这些字符串hash值产生指纹

– 判断两网页是否相同时只需计算它们的相同指纹个数是否大于一定的阈值即可


使用文本块的网页去重方法 •  网页进行预处理，去除格式化信息以及非文字信息 •  对文本利用一定的策略进行分块，利用hash函数计算每一

块的hash值，产生记录文本块信息的三元组，其中h是利用此文本块计算出的hash值，r是文本块所属的文章的编号，l是此文本块在文章中的位置

•  将信息存放到hash表中 •  对与d具有相同文本块的所有文章进行统计 •  如果相同文本块个数占文章d中所有文本块个数的比例大

于一个阈值则认为文章d与r是相同的文章，它们对应网页是相同网页

17


利用shingle和超级shingle的网页去重方法

•  将文档中一段连续的文字串称为一个shingle •  判断重复的方法

–  获取网页，对每一篇网页进行预处理，去除结构信息和html信息，产生对应的文字信息

–  利用文本信息产生与每个网页对应的shingle集合。shingle集合的方法是抽取出所有长度为w个单词的shingle，其中每两个紧邻的shingle有w-1个单词重叠

–  利用两文本的shingle集合来计算两个文本的相同度，如果大于一个阈值则认为这两个网页是内容重复的网页

|)()(||)()(|),(

BSASBSASBAr

∪∩

=


利用shingle和超级shingle的网页去重方法

•  两种随机选择shingle的方法 –  将一篇文本D的所有shingle随机排序，然后挑选出前

m个保留，保留下来的shingle记为Fm(D) –  将D中随机排序后的所有shingle的序号对数m进行模运算，所有保留下所有计算结果为0即序号是m的倍数的shingle，这些shingle的集合记为Vm(D)

|)()(||)()(|

),(BVAVBVAV

BArmm

mm

∪∩

=

18


基于集合统计的网页去重方法

•  对文档进行预处理，移除文档中的格式信息等，将文档分解成单词流

•  利用从样本集合中统计出的词的idf，并利用一定的策略保留重要的单词（相同的单词只保留一个）

•  利用哈希算法将保留下来的单词计算出一个hash值，并且生成二元组

•  将按照hash值的大小存放到树形结构中，如果树形结构中已经存在和此文档相同hash值的文档则说明它们是内容重复的文档


其他方法

•  利用相似度计算和聚类来进行网页去重的方法

– 基本思想是利用向量余弦夹角的方法将所有相同网页聚成一类

– 判断一个网页的相同网页时需要将此网页的向量与每一个聚类中心向量计算两向量之间的余弦夹角值

– 时间复杂度是O(n2)，因此当数据量非常大

19


⽹网⻚页正⽂文提取


正文提取

20


正文提取

•  大部分网页中除了包含它的主要有用信息（正文）外还含有许多的噪声信息：

– 网站的导航信息 – 相关链接和广告等

•  正文提取的任务就是从给定的网页中抽取出正文信息


基于DOM树的正文提取

•  DOM（Document Object Model）是由W3C组织发布的一种访问和操作HTML文档的规范

Document

Element：

Text： I love IR-LAB

Element：

Text： Welcome to Html

Element：

Element：

21


基于DOM树的正文提取

•  利用网页的源文件建立一个DOM树结构 •  遍历DOM树，从网页中删除掉所有不是正文的信息

–  广告信息的移除：首先需要建立一个经常更新的广告服务器列表，如果地址是指向列表中的广告服务器地址则将此链接节点删除

–  链接群的移除：计算每一个节点所包含的链接个数相对非链接的词个数的比例，如果比例大于一个给定的阈值则删除此节点

–  删除不包含重要信息的节点：用户事先指定一些不重要的HTML标签以及一个有用标签至少需要包含多少字符

•  上述非正文信息移除掉后，DOM树中剩余的内容就是正文信息，可以直接从余下的树节点中抽取出正文信息


基于内容块的正文提取

•  将HTML文件分块，然后利用每一块关键词平均熵的大小来发现正文块 –  遍历网页的HTML文件，利用table标签将网页粗略地分为许多内容

块

–  对于每一个内容块提取出可以代表它的内容的一些特征词以便于后面计算内容块的熵，计算每一个特征Fi的熵：

–  对于内容块，如果它的熵大于一个阈值则认为是噪声信息，如果小于阈值则认为是正文块并包含了正文信息

∑=

−=n

jijniji wwFH

1log)(

22


举例

•  一个类别中含有两个网页，第一个网页含有F1, F2,…, F8这8个特征，第二个网页含有F1, F2,…, F6, F9, F10这8个特征，则

•  利用一个内容块中包含的所有特征的熵来计算此内容块的熵，如果熵大于一个阈值则认为是噪声信息

1)()()()()()(21log

21)( 654321

2

121 =======−= ∑

=

FHFHFHFHFHFHFHj

0)()()(0log011log)( 1098227 ====−−= FHFHFHFH

k

FHCBH

k

jj

i

∑== 1

)()(


正文提取其他技术

•  基于视觉效果的网页分割技术 – 用HTML标签中的分隔线以及一些视觉信息（如文字颜色、字体大小、文字信息等）把网页分割成不同的信息块

•  用中文标点符号提取正文

23


相关排序


搜索引擎的排序很重要

•  排序很重要 – 65%一70%的网民点击搜索结果的第一页。

– 20%-25%的网民点击搜索结果第二页 – 3%-4%的网民点击量其他的网页

• 排序算法： Google 拥有PageRank技术

24


传统的相关排序技术

•  文档d和查询q的相关性可以由它们包含的共有词汇情况来刻画

•  该方法只考虑网页中用户可见的文字部分，忽略标记和超链等内容


早期的基于词频和位置的排序

•  词频的加权 – VSM等模型

•  词位置的加权 – 网页标题元、网页描述/关键字元、正文标题、正文内容、文本链接、ALT标识等

– 版式包括:字体、字号、有无加粗强调等 •  早期的搜索引擎结果排序都是基于这一思想的，如Infoseek, Excite, Lycos等

25


网页和普通文本的不同

•  HTML设计有丰富的标签，主要追求的是视觉效果

• 网页的字体、布局等等标签能给我们提示其中文字的重要程度

• 许多著名搜索引擎在网页的预处理阶段记录了这些信息，并用于结果排序。例如Alta Vista, Inktomi, Excite, Infoseek等等


网页和普通文本的不同（续） –  网页之间的超链接

– 链接反映的是网页之间形成的“参考”、“引用”和“推荐”关系

– 可以合理的假设，若一篇网页被较多的其他网页链接，则它相对较被人关注，其内容应该是较重要、或者较有用

– 因此，可以认为一个网页的“入度”（指向它的网页的个数）是衡量它重要程度的一种有意义的指标。这和科技论文的情况类似，被引用较多的就是较好的文章

– 同时，人们注意到，网页的“出度”（从它连出的超链个数）对分析网上信息的状况也很有意义的，因此可以考虑同时用两个指标来衡量网页

26


搜索结果的排序技术

•  基于Web网页内容特征 –  考虑用户所查询的关键词在结果网页中的出现情况，包括出现频

率和出现位置等因素，以此来评价命中网页与用户查询请求的相关度大小，作为结果输出时的排序依据。

•  基于网页链接结构 –  Google PageRank –  IBM Clever的HITS

•  基于用户信息需求和需求行为 –  检索前主动询问用户 –  利用用户对搜索结果的评测与反馈 –  通过其他途径（如Gmail）收集用户个人信息

•  基于付费排序：竞价排名（百度）


PageRank 算法

•  基本思想 – 如果一个页面被多次引用，那么这个页面可能是重要的；

– 如果一个页面被一个重要页面引用，那么这个页面可能是重要的；

– 一个页面的重要性被均分，并传递到它所引用的页面

27


随机冲浪模型(Random Surfer Model)

•  用户随机的选择一个网页作为上网的起始网页

•  看完这个网页后，从该网页内所含的超链内随机的选择一个页面继续进行浏览

•  沿着超链前进了一定数目的网页后，用户对这个主题感到厌倦，重新随机选择一个网页进行浏览，如此反复


PageRank算法

1.  假定Nu是页面u的出度（u包含的链出页面的数量），而Rank(u)是u的重要性；

2.  u通过指向v的直接链接将一部分重要性（量化为Rank(u)/Nu）传递给了v页面；

3.  与u类似，所有直接链接到v的页面都将自己的一部分重要性传递给v，累积起来便形成了v的重要性。通过迭代算法，可以得到所有页面的重要性。

Rank(u) 页面u

Nu

Rank(v) 页面v Rank(u)/Nu

Rank(x)/Nx

∑∈

+ =Bvu

i1i Nu)/(u)(Rank (v)Rank

28


PageRank实例

链接源I D 链接目标 ID 1 2,3 ,4,5, 7 2 1 3 1,2 4 2,3,5 5 1,3,4,6 6 1,5 7 5


PageRank实例

A = [ 0, 1, 1, 1, 1, 0, 1; 1, 0, 0, 0, 0, 0, 0; 1, 1, 0, 0, 0, 0, 0; 0, 1, 1, 0, 1, 0, 0; 1, 0, 1, 1, 0, 1, 0; 1, 0, 0, 0, 1, 0, 0; 0, 0, 0, 0, 1, 0, 0;

]

1, 2, 3, 4, 5, 6, 7 1, 2, 3, 4, 5, 6, 7

29


PageRank实例 •  M: 将 A 转置后，把各个数值除以所在列中非零数值

的数量

M = [ 0, 1, 1/2, 0, 1/4, 1/2, 0; 1/5, 0, 1/2, 1/3, 0, 0, 0; 1/5, 0, 0, 1/3, 1/4, 0, 0; 1/5, 0, 0, 0, 1/4, 0, 0; 1/5, 0, 0, 1/3, 0, 1/2, 1; 0, 0, 0, 0, 1/4, 0, 0; 1/5, 0, 0, 0, 0, 0, 0;

]


PageRank实例

•  流入量＝(ID=2发出的Rank) +(ID=3发出的Rank) +(ID=5发出的Rank) +(ID=6发出的Rank) = 0.166+0.141/2+0.179/4+0.045/2 = 0.30375

30


PageRank算法（续）

•  增加衰减因子e (0

31


HITS算法相关知识 •  权威网页：一个网页被多次引用，则它可能是

很重要的；一个网页虽然没有被多次引用，但是被重要的网页引用，则它也可能是很重要的；一个网页的重要性被平均的传递到它所引用的网页。这种网页称为权威（Authoritive）网页。

•  Hub网页：提供指向权威网页的链接集合的WEB网页，它本身可能并不重要，或者说没有几个网页指向它，但是它提供了指向就某个主题而言最为重要的站点的链接集合，比如一个课程主页上的推荐参考文献列表。

•  在HITS算法中,对每个网页都要计算两个值:权威值(authority)与中心值(hub)


HITS算法介绍

•  HITS（Hyperlink－Induced Topic Search）是一种链接分析算法

•  算法如下： – 将查询q提交给传统的基于关键字匹配的搜索引擎．搜索引擎返回很多网页，从中取前n个网页作为根集合S(root set).

– 把根集合中的页面所指向的页面都包括进来,再把指向根集合中页面的页面也包括进来,这样就扩充成了基础集合(base set)T.

32


HITS算法介绍

•  对V1中的任一个顶点v，用h(v)表示网页v的Hub值，对V2中的顶点u，用a(u)表示网页的Authority值，开始时h(v)＝a(u)＝1

顶点集V1 Hub网页

顶点集V2 权威网页

边集E

超链接


•  在V中的每个页面p都有一对非负的权重值ap, hp,其中ap表示权威值,hp表示中心值

•  设指向页面p的页面为q,ap的值则更新为所有hq的和:

•  如果把页面p所指向的页面称为q,则hp的值更新为所有aq之和：

•  这两步将被重复多次,最后按照得到的权威值和中心值对页面进行排序.

HITS算法介绍

33


HITS算法的评价

•  若一个网页由很多好的Hub指向，则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和)

•  若一个网页指向许多好的权威页，则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和)

•  HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。


PageRank v.s. HITS

•  HITS算法依赖于查询q，而PageRank则独立于具体的查询请求；

•  HITS算法是实时进行的，PageRank基本是离线进行的；

•  从网页权重值的传播模型看，HITS基于网页的双向链接，网页权重会在authority和hub页面之间相互加强；而PageRank基于网页间的单向链接，权重只从一个页面传递到另一个页面；

•  从算法稳定性上看，HITS计算只针对一个很小的子图，子图微小的改变就会影响整个结果；而PageRank对整个Web进行计算，相对比较稳定。

34


链接分析技术分析

•  提供了一种衡量网页质量的客观方法 •  独立于语言，独立于内容，不需人工干预就能自动发现WEB上重要的资源

•  挖掘出WEB上重要的社区，自动实现文档分类


链接分析技术影响因素

•  根集的质量。根集质量应该是很高的，否则，扩展后的网页集会增加很多无关的网页，产生主题漂移，主题泛化等一系列的问题，计算量也增加很多。算法再好，也无法在低质量网页集找出很多高质量的网页

•  噪音链接。WEB上不是每个链接都包含了有用的信息，比如广告，站点导航，赞助商，用于友情交换的链接，对于链接分析不仅没有帮助，而且还影响结果。如何有效的去除这些无关链接，也是算法的一个关键点

•  查询的分类。每种算法都有自身的适用情况，对于不同的查询，应该采用不同的算法，以求获得最好的结果。因此，对于查询的分类也显得非常重要

35


小结

•  Web检索的体系结构 –  集中式 –  分布式

•  Web检索的四个子系统 –  采集系统 –  索引系统 –  预处理

•  网页去重 •  正文提取

–  链接排序技术 •  Pagerank算法 •  Hits算法

内容回顾 - buaa.edu.cnact.buaa.edu.cn/hsun/ir2016/slides/lecture7.pdf•...

Documents