稀疏查询的推荐算法与性能评价问题的研究

稀疏查询的推荐算法与性能评价问题的研究

答辩人：马中瑞 2009 级计算机应用技术指导教师：陆嘉恒副教授研究方向：信息检索、数据挖掘

2012 年 05 月 17 日

稀疏查询的推荐算法与性能评价问题的研究 2

• 绪论• 相关工作• 基于 Term-Query 图的随机游走模型• 基于查询文档的查询推荐算法• 查询推荐评价指标优化• 实验结果分析• 总结展望

大纲


• 研究背景与动机– 查询推荐在搜索引擎中应用

– 为什么是稀疏查询？• 稀疏查询在查询日志中出现频率偏低• 传统方法无法处理稀疏类查询

– Click-through 或 Session• 微软必应日志统计分析

– 33.95% 惟一查询，并占有 22.55% 的访问量

绪论

绪论相关工作基于 Term-Query 图随机游走模型基于查询文档的推荐算法总结展望实验结果分析优化评价指标


• 研究内容及贡献– 解决稀疏查询的生成推荐问题– 提出 Term-Query 图的随机游走模型算法– 提出查询文档概念及相关算法

• QSearch 算法• DSearch 算法

– 全新的查询推荐评价指标• 和

绪论


-NDCG -NDCG


• 基于会话日志的查询推荐– 基于关联规则

• [Fonseca et al., 2003]

– 基于 Query-Flow 图的推荐算法• [Boldi et al., 2008][Bordino et al., 2010] 等

• 基于点击日志的查询推荐– Query-URL 二部图

• 点击次数 [Mei et al., 2008]• 信息熵 [Deng et al., 2009]

– 随机游走算法

相关工作


query-flow图

query-url图


• 其他查询推荐– 合并 Click-through 和 Session 信息

• 基于概念序列的推荐算法 [Cao et al., 2008]• 基于查询优化图的推荐算法 [Sadikov et al., 2010]

– Anchor 日志 [Deng and Croft, 2010]– 基于语料库的查询推荐 [Bhatia et al., 2011]

• N-grams 抽取短语词库• 计算部分查询与短语的概率

相关工作



• 稀疏查询推荐算法– 基于隐式用户反馈信息 [Song and He, 2010]

• 点击 Query-URL 图，转移矩阵• 跳过 Query-URL 图，转移矩阵

– 基于查询模板的长尾查询推荐 [Szpektor et al., 2011]• 利用外部 Ontology 语料库，抽取查询模板• 建立 query-template-flow 图，计算相关的模板和查询相似度

– 拟合查询推荐方法 [Jain et al., 2011]• Query Relax Model 去除非关键词，得到• 为产生候选推荐

– Click-through 、 Session 、 Web 文档中的短语语料库• 拟合生成查询推荐

相关工作


W

W

( )r q( )r q


• 构造 Term-Query 图– 图

• 结点集合，其中表示词表中单词结点，表示查询日志中所有用户查询结点

• 表示二部图中所有的无向边。对于，和之间存在无向边当且仅当

• 是权重函数– 边权重函数

• 表示查询 q 的出现频率

基于 Term-Query 图的随机游走模型


( , , )G V E

1 2V V V 1V 2V

1 2E V V 1 2,w V q V w q

w q: E

qc

( ) ( , ) qe w q c


• 随机转移矩阵– 表示单词到查询的矩阵– 表示查询到单词的矩阵

• Term-Query 的随机方阵

Term-Query 图的随机方阵


A m nn mB

2

1

( , ), ( , ) ,

( , )

( , ), ( , ) .

( , )

i jm n

iq V

i jn m

jw V

w qa i j

w q

w qb i j

w q

A

B

0 AW

B 0

注意：或内部结点之间不存在无向边，因而主对角线用矩阵表示0

1V 2V

W


• 带重启动的随机游走算法

• 对某个单词执行随机游走

• 查询推荐算法– 对查询每个单词执行随机游走，计算概率分布– 合并所有单词的概率分布

随机游走模型


( 1) ( ) (1 )t ti i i π π W E

1, , 1, ,i i m i m i m n ir r r r π

iT ( )iTQ单词到查询的相

似度概率分布

( )iTQ

( | )( )i

q i iw q

weight w q

R TQ


• 单词关联矩阵（ Correlation Matrix ）– 单词之间的点互信息 PMI （ Pointwise Mutual Information ）

• 表示单词和同时出现在同一查询的次数• 表示查询集合中查询个数

• 查询关联矩阵– 查询之间的 PMI

• 表示查询和同时发生在同一会话内的次数• 表示会话日志中会话的个数

参数优化


( , ) ( , )( , ) log log

( ) ( ) ( ) ( )i j i j

i ji j i j

p w w c w w Npmi w w

p w p w c w c w

( , )i jc w wiw jw

N

( , ) ( , )( , ) log log

( ) ( ) ( ) ( )i j i j

i ji j i j

p q q f q q Spmi q q

p q p q f q f q

( , )i jf q q iq jq

S

Ground-Truth：单词关联矩阵查询关联矩阵

TQ


• 矩阵分解– 对所有元素执行随机游走，获得概率分布矩阵

分解得：

参数优化


π1,1 1, 1, 1 1,

,1 , , 1 ,

1,1 1, 1, 1 1,

,1 , , 1 ,

m m m n

m m m m m m m n

m m m m m m m n

m n m n m m n m m n m n

r r r r

r r r r

r r r r

r r r r

π

T TQπ

QT Q


• 损失函数（ Loss Function ）– 对于重启动参数，利用 Ground-Truth 最小化估计和

的损失来优化：

– 目标函数：

参数优化


T Q

argmin T T

argmin Q Q

( ) { ( , ) ( , )}i j

f i j i j T T T

( ) { ( , ) ( , )}i j

f i j i j Q Q Q


• 基本思想及系统框架– 查询文档（ Query Document ）

• 查询的搜索结果内容• 查询转换为查询文档的形式

– 系统框架

基于查询文档的推荐算法



• 日志清理– 启发式规则

• 没有 URL 点击信息的查询• 非英文查询• URL 类型查询• 数字类型查询和长关键字查询

– 错拼处理• Click-through聚类和 cluster 内分组（非本论文工作）• 选择每个分组中的最高的查询作为代表元

• 建立查询库– 扩展查询为查询文档

• 标题：查询本身• 内容：文档摘要（ Snippet）或文档全文内容（ Full-text ）前 10 个搜索文档

查询库 QCorpus



• 基本思想– 文本检索方式

• 建立倒排索引– Term-based倒排索引

• 相似度计算– 对于查询和文档的相似度，采用 BM25衡量

• 参数

QSearch 算法


q d

1 ,

1 ,

( 1)0.5( | ) log

0.5 ((1 ) )i

i di

dw q ii d

avg

k tfN dfRel d q

Ldf k b b tfL

1 2.3k 0.35b

排序后文档所对应的标题即为查询

推荐结果


• 基本思想– 将输入查询转换为查询

文档，采用查询文档进行搜索相关推荐

– K-NN 问题– 敏感位置哈希 LSH

• 适用于稠密向量• TF-IDF 向量是非稠密向量

• 基于 LDA 的文档分解– LDA变体—— SWB 模型

• 主题类型单词• 文档特殊词• 语料库背景单词

– 文档分解

• 表示 k维的文档主题向量

• 表示文档的特殊词集合

DSearch 算法


{ , }d

k=200保留前 15 个特殊词

q


• LSH 索引： QCorpus 所有文档– 文档主题向量

• 查询推荐算法– 对于查询扩展为查询文档– LDA 分解的主题向量和特殊词集合– 相似度计算公式

表示和之间的余弦值，表示和对应的 TF-IDF向量的余弦值。权重系数，本实验中

DSearch 算法


qqd

qd q q

( | ) ( | ) ( , ) (1 ) ( , )i i q q i q iRel d q Rel d d Sim Sim

( , )q iSim iq ( , )q iSim

q

qi

0.1


• 判断相关性– 对于查询 - 推荐对，判断是否相关 Relevant/Irrelevant– 不同等级的相关性判断

• Perfectly relevant, Approximately relevant, somewhat relevant, Approximately irrelevant, Perfectly irrelevant

• 衡量指标– Precision/Recall/F-Measure– P@K– Mean Average Precision(MAP)

传统评价指标


相关性 V.S.有用性


• 例如，查询“ aol instant mess” 和它的相应推荐– =“aol instant messenger”– =“aol aim”– =“windows live messenger”– =“yahoo! messenger”

• 如果的查询结果比较差，则和可能更适合；否则，和比较合适

优化的评价标准及指标



• 有用性标定（比较搜索结果质量）– 较好（ better ）– 较差（ worse ）– 相同（ same ）

• 关系分类标定– 相同意图（ same

intention ）– 普遍化

（ generalization ）– 特殊化（ specialization ）– 对等关系（ peer ）– 无关（ no association ）

优化的评价标准及指标


2

0

12

2

2

0

1

-NDCG -NDCG


• 实验环境搭建– 数据集： AOL查询日志

– 停用词， Porter Stemmer 取词根– 对比算法

• QFG 算法：建立 query-flow graph ，执行随机游走算法（参见 [Boldi et al., 2008] ）

• QBI 算法：对查询本身建立倒排索引，计算查询之间的 TF-IQF （ Term Frequency-Inverse Query Frequency ）余弦相似度进行排序

Term-Query 算法实验分析


查询实例惟一查询处理后剩余查询

Click-through记录

Session记录

28.8M 10.1M 4.7M 19.4M 10.7M


• 实验环境搭建– User Study

• 按照查询频率将查询日志分为 4组数据，分别抽样 25 个惟一查询，共计100 个测试查询用例

• 取 Term-Query 算法（简称 RW-TQ ）和两个对比算法各自的前 5 个推荐– 1068 个惟一查询 - 推荐对

• 判断相关性（ Relevant/Irrelevant ）– 原始查询与推荐比较包含关键字基本相同，则应被标定 Irrelevant– 例如，原始查询“ verizon wireless internet” 与推荐“ wireless internet

from verizon”



集合类型 Test-A Test-B Test-C Test-D

频率范围 [1, 4] [5, 9] [10, 19] [20, +]

平均单词数 3.4 2.92 2.32 2.24


• 覆盖率：至少返回一个推荐的查询所占的比率



前 5 个推荐结果数量在 100测试查询的分布图

不同测试集合上的覆盖率对比图


• 性能对比– P@K 和 MAP



方法 P@3 P@5 MAP

QFG 0.2467 0.22 0.1834

QBI 0.36 0.334 0.2855

RW-TQ 0.39 0.356 0.2976

a) QFG 算法偏向频率高的查询b) QBI 偏向包含关键词偏多的

查询c) RW-TQ 相对比较稳定（ Test-

A 除外）


• 参数调优




• 实验环境搭建– 数据集和查询库 QCorpus

• 微软 Bing查询日志（ 2010 年 12 月）

• 日志清理： 18.44M干净查询• 创建 QCorpus

– Bing 搜索 API ：前 10 个文档摘要– 集合大小： 18.35M

查询文档算法实验分析


查询实例惟一查询 Click-Through 惟一查询

（ Click-through）

会话惟一查询（ Co-occurrence）

137.5M 43.1M 104.2M 27.5M 31.3M 24.4M

抓取失败导致部分查询没有

结果


• 实验环境搭建– 对比算法： QFG 算法 +QBI 算法– 评价指标：和– 测试查询集合

• 判断查询搜索意图是否清晰– 150流行查询： 122 个清晰– 350 稀疏查询： 271 个清晰

• 100 个测试查询集合– 50 个来自清晰的 122 个流行查询– 50 个来自清晰的 271 个稀疏查询



-NDCG -NDCG标定有用性


• 标定结果



两种标定标准是描述的查询推荐结果的两个不同方面


• 覆盖率



前 10 个推荐结果数量在 Popular查询集合的分布图

前 10 个推荐结果数量在 Rare 查询集合的分布图


• 性能对比（ Popular 查询）




• 性能对比（ Rare 查询）




• 合并所有基础方法结果– 去除重复的推荐结果– 获得候选集合

• 重排序（ Re-rank ）方法– QSearch重排序：根据 BM25公式，重新对中所有推荐进行

计算相似度。– DSearch重排序：根据 DSearch 方法的相似度计算公式对候

选集合进行全新排序– TF-IDF重排序：根据查询所对应的查询文档的 TF-IDF 向量，

计算余弦相似度进行排序




• 重排序（ Popular 查询）




• 重排序（ Rare 查询）




• 总结

• 未来展望– NLP 来进一步优化 Term-Query 随机游走模型– 如何将 Click-through 等信息应用到查询文档概念上

总结展望


稀疏查询推荐

Term-Query 随机游走模型

查询文档算法

QSearch 算法

DSearch 算法

性能评价优化关系分类标定

有用性标定


• P. Boldi, F. Bonchi, C. Castillo, D. Donato, A. Gionis, and S. Vigna. The query-flow graph: model and applications. In CIKM, pages 609–618. ACM, 2008.

• I. Bordino, C. Castillo, D. Donato, and A. Gionis. Query similarity by projecting the query-flow graph. In SIGIR, pages 515–522. ACM, 2010.

• S. Bhatia, D. Majumdar, and P. Mitra. Query suggestions in the absence of query logs. In SIGIR, pages 795–804, New York, NY, USA, 2011. ACM.

• H. Cao, D. Jiang, J. Pei, Q. He, Z. Liao, E. Chen, and H. Li. Context-aware query suggestion by mining click-through and session data. In KDD, pages 875–883. ACM, 2008.

• V. Dang and B. W. Croft. Query reformulation using anchor text. In WSDM, pages 41–50. ACM, 2010.

• H. Deng, I. King, and M. R. Lyu. Entropy-biased models for query representation on the click graph. In SIGIR, pages 339–346, 2009.

• A. Jain, U. Ozertem, and E. Velipasaoglu. Synthesizing high utility suggestions for rare web search queries. In SIGIR, pages 805–814, New York, NY, USA, 2011. ACM.

• B. M. Fonseca, P. B. Golgher, E. S. de Moura, and N. Ziviani. Using association rules to discover search engines related queries. In LA-WEB, pages 66–71. IEEE Computer Society, 2003.

参考文献


• Q. Mei, D. Zhou, and K. W. Church. Query suggestion using hitting time. In CIKM, pages 469–478. ACM, 2008.

• E. Sadikov, J. Madhavan, L. Wang, and A. Halevy. Clustering query refinements by user intent. In WWW, pages 841–850. ACM, 2010.

• Y. Song and L. wei He. Optimal rare query suggestion with implicit user feedback. In WWW, pages 901–910. ACM, 2010.

• I. Szpektor, A. Gionis, and Y. Maarek. Improving recommendation for long-tail queries via templates. In WWW, pages 47–56, New York, NY, USA, 2011. ACM.

参考文献（续）


• 已录取论文– Zhongrui Ma, Yu Chen, Ruihua Song, Tetsuya Sakai, Jiaheng Lu

and Ji-Rong Wen. New Assessment Criteria for Query Suggestion. In Proceedings of ACM SIGIR (SIGIR'2012), poster, to appear, 2012.

• 已投稿论文– Zhongrui Ma, Yu Chen, Ruihua Song, Jiaheng Lu and Ji-Rong

Wen. Searching Suggestions for Rare Queries. In Proceedings of ACM CIKM (CIKM’2012), submission, 2012.

发表论文情况


谢谢各位答辩老师！

稀疏查询的推荐算法与性能评价问题的研究

Documents