基于ttcn-3的接入网源地址验证协议...

汉语搜索结果聚类系统研究与实现

答辩人：王俊俊

导师：周强

2013年6月6日

2

提纲

引言

研究背景与研究意义

相关研究综述

论文主要工作

汉语搜索结果聚类语料库构建

基于词义归纳的汉语搜索结果聚类系统

用户意图挖掘

意图挖掘在搜索结果聚类中的应用

总结与展望

3


研究背景

互联网时代，搜索引擎是获取信息的重要手段

搜索引擎返回一个搜索结果列表，往往不能很好地满

足用户的信息需求

研究意义

将搜索结果按照聚合成不同的类簇，并给每一个类簇

一个具有描述性的标签

应用价值

理论研究价值

4

相关研究综述

搜索结果聚类的输入输出

输入：搜索结果（标题、摘要、链接）集合

输出：一组带标签的类簇

典型框架

搜索结果获取

预处理

聚类和

类标签生成

结果可视化

查询结果类簇特征搜索结果

5

相关研究综述

搜索结果聚类与传统文本聚类的区别

搜索结果是一种特殊的文本

面向查询、链接信息、短文本

重视类簇标签的质量

主要研究方法

先聚类的策略

先描述的策略

处理短文本

查询本身信息在搜索结果聚类中的应用

6

先聚类的策略

先将搜索结果聚成不同的类簇，然后为每一个类簇生成标

签。

聚类

特征选择（VSM, TF-IDF）

(蔡国珍, 2010)：利用WordNet语义层次结构扩展VSM

(Cheng et al., 2012)：线性组合多种特征

聚类算法（K-MEANS, 层次聚类算法）

类簇标签生成

(Hearst and Pedersen, 1996)：高频词语

(Ngo and Nguyen, 2004)：包含高频词语的n-gram

(Treeratpituk and Callan, 2006)：多种特征综合得分

7

先描述的策略

先生成有意义的类簇标签，然后将搜索结果归入不同类簇中

类簇标签生成

(Zamir and Etzioni, 1999)：STC算法，构造后缀树找出多个

搜索结果中出现的共同短语

(Osiński, 2003)： Lingo算法，使用潜在语义索引抽取搜索结果

中的潜在概念

(Ferragina et al., 2004)、 (Bernardini et al., 2009)、

(Zeng et al., 2004)、 (Gelgi et al., 2007)

搜索结果类簇划分

STC算法：迭代合并基类

(Osinski and Weiss, 2005)：HSTC算法，基类之间领域关系

(Zhang and Dong, 2004)：SHOC算法，正交聚类

8

处理短文本

问题

摘要通常很短，特征稀疏

研究方法 (Campos and Dias et al., 2008)：使用全文进行聚类

(Ngo and Nguyen, 2004)：容错粗糙集

(Nguyen and Phan et al., 2009)：从全局语料库训练话

题模型，在话题空间建模

(Gabrilovich and Markovitch, 2006)：维基百科中的概

念空间中建模

(Hu and Zhang et al., 2009)：进一步考虑维基百科的类别

信息

9

查询本身在搜索结果聚类中的应用

问题

搜索结果具有面向查询的语义紧凑性

研究方法 (Navigli et al., 2010)：基于图的词义归纳技术

(Di Marco et al.,2011)、(Di Marco et al., 2012)：共

现图构建、基于图的词义推断、搜索结果与词义的映射

结论

查询本身信息对于搜索结果聚类具有指导意义，值得

进一步深入探索和挖掘

10

研究目标与研究方法

研究目标

构建满足一定性能要求的汉语搜索结果聚类系统

着力探索查询本身对于搜索结果聚类的指导意义

构建一个汉语搜索结果聚类的评测语料库

研究方法

查询

搜索结果

词义归纳

意图挖掘

搜索结果获取

词义

意图

聚

类

搜索结果类簇

11

提纲

引言


相关研究综述

论文主要工作



用户意图挖掘


总结与展望

12

现有搜索结果聚类语料库介绍

搜索结果聚类语料库

英文

AMBIENT

– 选自维基百科的44个歧义查询

– 若干子话题（维基百科消歧），Yahoo前100搜索结果

MORESQUE(Di Marco et al., 2012)

ODP239

汉语

新闻领域搜索结果聚类语料库(Cheng and Zhou

et al., 2012)

通用领域：暂无

13

标准子话题集合选择

汉语百科知识库的不足

数量和质量均与英文有较大差距

搜索结果聚类领域，有时候需要处理非歧义查询

标准子话题集合来源

NTCIR Intent Subtopic Mining任务人工标注语料

100个中文查询

14

查询选择

查询选取原则

意图数目在5个以上（包含5个）；

意图之间具有较大的区分性；

查询选择结果

10个

15

人工标注

搜索结果选择

Google前10页全部搜索结果

标注方法

标注每个<搜索结果，子话题>对之间的相关性

标注过程

2名标注员分别独立

如果两名标注员标注结果一致，则保存标注结果

如果两名标注员标注结果不一致，则协商确定相关性

16

数据统计

总共对10个查询、76个子话题（意图）、1029

个搜索结果（833个有效结果）进行了人工标注

17

实验分析

实验设计

算法选择：经典搜索结果聚类算法STC，Lingo

评价指标：F值

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9F值

查询

STC

Lingo

Recall i, j =𝑛𝑖𝑗

𝑛𝑖

Precision i, j =𝑛𝑖𝑗

𝑛𝑗

F i, j =2 ∗ Recall i, j ∗ Precision i, j

Recall i, j + Precision i, j

F = 𝑛𝑖𝑛max𝑗

F i, j

𝑖

18

提纲

引言


相关研究综述

论文主要工作



用户意图挖掘


总结与展望

19

词义归纳简介

词义归纳

对一个词语的多个词义进行归纳

从人工编辑的词典中获取词义

无指导的词义归纳技术：从无标注语料中自动获取一

个词语的不同词义

无指导词义归纳

基本思想：用词的上下文表示词的含义

基本流程

Feature Selection

ClusteringWord

ContextsWord

Senses

20

无指导词义归纳技术简介

基于上下文聚类的词义归纳技术

基本假设：词语的分布情况能够反映他们的语义

基于词聚类的词义归纳技术

将具有语义相似性的词语聚集到一起来传达词义

基于图的词义归纳技术

通过分析词语的共现情况来识别目标词语的词义集合

自动识别词义，且具有良好的性能(Korkontzelos

et al., 2010)

不依赖其他的技术或资源，只需一个生语料库

21

基于词义归纳的

汉语搜索结果聚类系统

系统框架

语料库选择及预处理

SogouT互联网语料库：1.3亿网页，5TB

基于PageRank得分过滤：4000万网页，1.5TB

词义归纳

搜索引擎

词义

搜索结果

聚类

查询

静态

语料库

搜索结果

类簇

22

共现图构建

共现关系

定性：两个词语出现在一个句子当中

共现强度： d w,𝑤 , =2c(w,𝑤,)

c w +𝑐(𝑤,)

共现图构建

𝐺𝑞 = (V, E)

V中节点是与q具有共现关系的词语，且达到一定的共

现强度

E中的边反映两个与q具有较强共现关系的词语(w,𝑤 ,)

之间的共现强弱程度，要求达到一定的强度

• 初始化V = ∅, E = ∅； • 将搜索结果集合B中所有的词语加入V • 将静态语料库中与查询q共现的词语w加入V，w满足：

𝑐 q,w

𝑐 q≥ 𝛿1

d q,w ≥ 𝛿2

• 对于V中每一对满足如下条件的词语对(w,𝑤 ,) ∈ V × V，在E中加入边{w,𝑤 ,}

d w,𝑤 , ≥ 𝜃

• 删除V中的不连通节点。

23

词义发现

HyperLex算法

通过识别出共现图中最核心（和其他点关联度最高）

的节点（称作“hubs”）来进行词义发现

关联度指标

节点的度（节点相连的边的个数）

节点与相连共现节点之间的共现强度

𝑑𝑒𝑔𝑟𝑒𝑒 𝑤

max𝑤,∈𝑉

𝑑𝑒𝑔𝑟𝑒𝑒(𝑤 ,)≥ 𝜎1

𝑑(𝑤,𝑤 ,){w,𝑤,}∈𝐸

𝑑𝑒𝑔𝑟𝑒𝑒(𝑤)≥ 𝜎2

• 识别Hubs 1. 将V中所有节点w按照其在静态语料库中出现的次数c(w)降序排

列，得到节点列表L。 2. 遍历列表L，对于当前节点w，若其满足上述条件，则选择w成

为一个“hub”，将w从列表中移除。同时，将所有与w相连的共现节点从列表中移除。

3. 重复2，直到当前节点不满足上述阈值条件，或者列表L为空。

• 节点划分 1. 在𝐺𝑞中加入一个新的节点q，代表给定查询本身。

2. 对于所有被选择成为“hub”的词语w，为节点q添加相连的边(q,w)，边的权重设置为“∞”。

3. 为新的共现图构造最大生成树T。由于节点q所有相连的边的权重都是“∞”，所以节点q必然成为T的根结点。

4. 从T中移除节点q以及与节点q相关联的边。

24

搜索结果聚类

搜索结果的词袋模型B = 𝑏1, 𝑏2, … , 𝑏𝑵

词义归纳的输出词义S= {𝑠1, 𝑠2, … , 𝑠𝑚}

相似度：“Degree Overlap”相似度

𝐺𝑗 = (𝑉𝑗 , 𝐸𝑗)表示𝑠𝑗相对应的子图

𝑆𝑖𝑚𝐷 𝑏𝑖, 𝑠𝑗 = 𝑑𝑒𝑔𝑟𝑒𝑒(𝑤, 𝑠𝑗)𝑤∈𝑏𝑖∩𝐸𝑗

|𝑏𝑖| × |𝐸𝑗|

聚类策略

为每个搜索结果赋予词义

Sense 𝑏𝑖 = argmax𝑗=1,2,…,𝑚

Sim 𝑏𝑖 , 𝑠𝑗 , 𝑖𝑓 max𝑗=1,2,…,𝑚

Sim 𝑏𝑖, 𝑠𝑗 > 0

0, else

聚类结果C = {𝑐1, 𝑐2, … , 𝑐𝑚}，其中𝑐𝑗 = {𝑟𝑖 ∈ R: Sense 𝑏𝑖 = j}

25

实验结果及分析

实验设置

实验数据：自行标注的汉语搜索结果聚类语料库

参数设置：

评价指标：F值

26


搜索结果聚类性能

00.10.20.30.40.50.60.70.80.9

F1

查询

WSI

STC

27


搜索结果聚类系统分析

词义归纳缺陷：有效识别“显著”词义，而不能很好

地识别和用户意图相关的词义

举例：蠕虫

“蠕虫游戏”

20个搜索结果

28

提纲

引言


相关研究综述

论文主要工作



用户意图挖掘


总结与展望

29

意图挖掘

意图挖掘目标

用户在向搜索引擎提交查询时通常有一个特定的意图

通过对查询进行分析，尽可能全面地挖掘用户所有可

能的潜在意图

NTCIR Intent Subtopic Mining任务

意图挖掘任务定义

对于给定查询，返回一个排序的子话题列表

排在前面的子话题兼具相关性和多样性

用户意图可以通过子话题的方式加以体现

30

意图挖掘相关工作

意图挖掘综合使用多种资源尽可能多地挖掘潜在子话题

THUIR (Y. Xue, F. Chen, et al, 2011)

ICTIR (R. Song, M. Zhang, et al, 2011)

HITCSIR (W. Song, Y. Zhang,et al, 2011)

子话题聚类有助于发现潜在意图

ICTIR (R. Song, M. Zhang, et al, 2011)

HITCSIR (W. Song, Y. Zhang,et al, 2011)

意图排序相关性是主要的排序指标

多样性的体现还不够充分

THUIR (Y. Xue, F. Chen, et al, 2011)

MSINT (J. Han, Q. Wang, et al, 2011)

31

系统框架

从更广泛的上下文中理解查询

查询本身、百科知识库、搜索结果以及用户统计数据

对子话题进行聚类来发现潜在的意图

设计统一的排序框架兼顾排序子话题列表的相关

性和多样性

32

系统框架

Query

Concept extraction

Wikipedia-based subtopic mining

Behavior-based subtopic mining

Statistical subtopic mining

Wikipidia

Wikipidia

Query log

Search engine recommendations

Search engine auto-complete

Top 100 search results

Filtering

Clutering

Ranking intents

Ranked subtopics

Ranking subtopics

Subtopic candidates

Query extension

33

候选子话题挖掘

概念抽取

武林外传续集播放

分词：武林外传续集播放

概念：武林外传续集播放

概念词典

维基百科词条

抽取算法

双向最大匹配

34

概念扩展

语言具有丰富的意义，同样的意图可以用不同的

查询来表达

同义扩展

维基百科重定向功能获取同义概念集合

利用这些同义概念扩展原始的查询

重构扩展

概念之间的相对位置

35


维基百科

消歧页

重定向

词条目录

相关词条：包含给定查询的词条

手机：智能手机、手机输入法…

搜索结果

话题模型：LDA(Blei and Ng et al., 2003)

Top 100搜索结果标题(Song et al., 2011)

36


用户行为数据

查询日志

查询日志记录了用户与搜索引擎交互的行为数据

SogouQ查询日志

Lucene检索结果前10名

查询自动完成和相关搜索

37

候选子话题过滤

过滤规则

如果候选子话题包含在给定查询中，则过滤掉。

如果候选子话题不包含查询中全部概念（或同义概

念），则过滤掉。

过滤结果

候选子话题集合总规模减小了约25%

降低了后续模块的处理规模

去除了噪音，提高了候选子话题集合的质量

38

候选子话题排序

影响子话题顺序的因素

子话题与查询的相关性wST(t)

子话题来源的重要性𝑤𝑆𝐶 𝑡

子话题所属意图的显著性𝑤𝐼𝑁(𝑡)

子话题与查询的相关性wST(t)

定量指标：

日全食：日全食原理 > 日全食作文

伪相关性反馈

子话题来源的重要性𝑤𝑆𝐶 𝑡

39

子话题所属意图的显著性𝑤𝐼𝑁(𝑡)

候选子话题聚类

亲和力传播算法（AP算法）

相似度（Similarity）矩阵M：

优先权（Preference）列表P

相似度：基于语义的文本模型(唐国瑜等, 2012)

优先权：

标准AP算法：相似度矩阵的平均值

改进AP算法：

意图显著性计算

𝑤𝐼𝑁 = (𝑤𝑆𝑇 𝑡𝑖 + 𝑤𝑆𝐶 𝑡𝑖𝑁𝑖=1

𝑝𝑡 = 𝑤𝑆𝑇 𝑡 + 𝑤𝑆𝐶 𝑡

40

候选子话题排序策略

基于相关性的排序算法

按照𝑤𝑆𝑇 𝑡 + 𝑤𝑆𝐶 𝑡 降序排列

整合相关性和多样性的统一排序框架

将全部意图按照𝑤𝐼𝑁降序排列。

将每个意图内的候选子话题按𝑤𝑆𝑇 𝑡 + 𝑤𝑆𝐶 𝑡 降序排

列。

迭代地从每个意图中选取得分最高的子话题，直到全

部子话题都被返回。

41

实验设置

模块编号

系统设置

43

实验结果和分析

各系统性能比较

概念扩展提高了相关性和多样性

改进AP算法优于标准AP算法

聚类提高多样性

44


不同查询上的性能比较

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97

D#-

nD

CG

@1

0

查询编号

系统1 系统2 系统3 系统4

45

提纲

引言


相关研究综述

论文主要工作



用户意图挖掘


总结与展望

46

系统框架

箭头1：意图扩展的词义归纳

将意图挖掘的结果融合到共现图中，改善词义归纳的结果

箭头2：意图扩展的搜索结果聚类

将意图应用到搜索结果聚类过程中，使聚类结果更符合用户需求

词义归纳

搜索引擎

词义

搜索结果

聚类

查询

搜索结果

类簇

意图挖掘意图

21

47

意图扩展的共现图构建

意图预处理

选取以下2种词语构成意图类簇描述I = {𝑤1, 𝑤2, … , 𝑤𝑛}

该意图类簇中相关性排序最高的子话题中的词语

该意图类簇中频率最高的词语

计算词语的意图得分

对意图得分𝑤𝐼𝑁(𝑡)进行归一化，归一化的意图得分𝑤(I)

即为I中每个词语的得分

48

意图扩展的共现图构建

扩展节点及节点集合V

为节点𝑤增加一个新的属性：意图得分𝑠𝑐𝑜𝑟𝑒(𝑤)

若意图描述中的词语在共现图中没有出现，则将其加

入节点集合V中，同时添加意图得分

扩展边及边集合E

为E中的成员 𝑤,𝑤 , 添加新属性：意图关联𝑟𝑒𝑙 𝑤,𝑤 ,

𝑟𝑒𝑙 𝑤,𝑤 , =𝑓(𝑤 ,)

𝑓(𝑤0)𝑤0∈𝑊𝐼

如果 𝑤,𝑤 , 在原始的共现图中并不相连，则在边集合E

中添加共现强度为0的新边 𝑤,𝑤 ,

49

意图-词义融合算法

“hub”选取标准

0.5 ∗𝑑𝑒𝑔𝑟𝑒𝑒 𝑤

max𝑤,∈𝑉

𝑑𝑒𝑔𝑟𝑒𝑒 𝑤 ,+ 0.5 ∗ 𝑠𝑐𝑜𝑟𝑒(𝑤) ≥ 𝜎1

(0.5 ∗ 𝑑 𝑤,𝑤 , + 0.5 ∗ 𝑟𝑒𝑙 𝑤,𝑤 , ){w,𝑤,}∈𝐸

𝑑𝑒𝑔𝑟𝑒𝑒(𝑤)≥ 𝜎2

预处理排序首先将𝑐(𝑤)归一化，得到𝑛𝑐(𝑤)，

将 (𝑛𝑐(𝑤)+ 𝑠𝑐𝑜𝑟𝑒(𝑤))作为新的排序指标。

词义发现

用(d w,w , + rel w,w , )作为新的权重构造最大生成树

50

搜索结果聚类

相似度计算

𝑆𝑖𝑚𝐷 𝑏𝑖 , 𝑠𝑗 = (𝑑𝑒𝑔𝑟𝑒𝑒 𝑤, 𝑠𝑗 + 𝑠𝑐𝑜𝑟𝑒 𝑤 )w∈𝑏𝑖∩𝐸𝑗

|𝑏𝑖| × |𝐸𝑗|

聚类策略搜索结果和查询意图之间并不是简单的多对一的关系

计算搜索结果𝑏𝑖和全部词义𝑠𝑗的相似度Sim 𝑏𝑖, 𝑠𝑗 (j = 1,2, … ,m)，

记其中最大值为max(𝑏𝑖)，最小非0值为min(𝑏𝑖)。

若Sim bi, sj 满足如下条件，则认为搜索结果bi和词义sj相关：

max(𝑏𝑖) − Sim bi, sj < 0.01 ∗ (max(𝑏𝑖) − min(𝑏𝑖))

51


实验设置

实验数据：汉语搜索结果聚类语料库

参数设置

评价指标：F值

52


意图信息对词义归纳的影响

53


搜索结果聚类性能

00.10.20.30.40.50.60.70.80.9

F值

查询

WSI

I-

WSISTC

54

提纲

引言


相关研究综述

论文主要工作



用户意图挖掘


总结与展望

55

总结与展望

论文工作和主要贡献

综述相关研究

人工构建了一个小规模汉语搜索结果聚类语料库，具

有与AMBIENT可比的质量

构建了基于词义归纳的汉语搜索结果聚类系统，性能

优于经典的搜索结果聚类算法STC和Lingo

提出了一个用户意图挖掘算法，在多样性和相关性上

均有良好表现

提出了融合用户意图的汉语搜索结果聚类算法，F值比

基线系统提高了4%

56

总结与展望

下一步工作

构建更大规模的汉语搜索结果聚类语料库

使用机器学习的方法自动调整参数

57

论文发表

周强, 王俊俊. 构建大规模的汉语事件知识库, 中文信息学

报, 2012, 26(3) : 86-91

58

参考文献

Di Marco, A. and R. Navigli (2011). "Clustering web search results with maximum

spanning trees." AI* IA 2011: Artificial Intelligence Around Man and Beyond: 201-212.

Di Marco, A. and R. Navigli (2012). "Clustering and Diversifying Web Search Results with

Graph-Based Word Sense Induction." Computational Linguistics, 2013: 1-76.

Frey, B. J. and D. Dueck (2007). "Clustering by passing messages between data points."

science 315 (5814): 972-976.

Navigli, R. (2009). "Word sense disambiguation: A survey." ACM Computing Surveys

(CSUR) 41 (2): 10.

Navigli, R. (2012). A quick tour of word sense disambiguation, induction and related

approaches. SOFSEM 2012: Theory and practice of computer science, Springer: 115-129.

Song, R. and M. Zhang, et al. (2011). Overview of the NTCIR-9 INTENT Task. Proceedings

of NTCIR-9 Workshop Meeting, Tokyo, Japan.

Treeratpituk, P. and J. Callan (2006). Automatically labeling hierarchical clusters[C],

Proceedings of the 2006 international conference on Digital government research. Digital

Government Society of North America, 2006: 167-176.

Wang, J. and G. Tang, et al. (2013). Understanding the query.Proceedings of NTCIR-10

Workshop Meeting.

White, R. W. and G. Marchionini (2007). "Examining the effectiveness of real-time query

expansion." Information Processing & Management 43 (3): 685-704.

Wong, P. and C. Chan (1996). Chinese word segmentation based on maximum matching

and word binding force. Proceedings of the 16th conference on Computational

linguistics-Volume 1, Association for Computational Linguistics.

59

参考文献

Xu, J. and W. B. Croft (1996). Query expansion using local and global document analysis.

Proceedings of the 19th annual international ACM SIGIR conference on Research and

development in information retrieval.

Xue, Y. and F. Chen, et al. (2011). "THUIR at NTCIR-9 INTENT Task." Proceedings of

NTCIR-9 Workshop Meeting, Tokyo, Japan.

Zamir, O. and O. Etzioni (1999). "Grouper: a dynamic clustering interface to Web search

results." Computer Networks 31 (11): 1361-1374.

Zeng, H. J. and Q. C. He, et al. (2004). Learning to cluster web search results,

Proceedings of the 27th annual international ACM SIGIR conference on Research and

development in information retrieval, 2004: 210-217.

Zhang, D. and Y. Dong (2004). "Semantic, hierarchical, online clustering of web search

results." Advanced Web Technologies and Applications: 69-78.

Zhang, S. and K. Lu, et al. (2011). ICTIR Subtopic Mining System at NTCIR-9 INTENT

Task. Proceedings of NTCIR-9 Workshop Meeting, Tokyo, Japan.

Zhang, X. and X. Hu, et al. (2008). A comparative evaluation of different link types on

enhancing document clustering. Proceedings of the 31st annual international ACM SIGIR

conference on Research and development in information retrieval.

蔡国珍 (2010). 一个基于语义知识的搜索聚类方法研究, 清华大学.

唐国瑜与夏云庆等 (2012). "基于跨语言广义向量空间模型的跨语言文档聚类方法." 中文信息学报26 (2):

116-120.

60

结束

谢谢大家！

请各位老师批评指正！

基于ttcn-3的 接入网源地址验证协议...

Documents

基于ttcn-3的接入网源地址验证协议...