稀疏查询的推荐算法与性能评价问题的研究
DESCRIPTION
稀疏查询的推荐算法与性能评价问题的研究. 答 辩 人:马中瑞 2009 级 计算机应用技术 指导教师:陆嘉恒 副教授 研究方向:信息检索、数据 挖掘 2012 年 05 月 17 日. 大 纲. 绪论 相关工作 基于 Term-Query 图的随机游走模型 基于查询文档的查询推荐算法 查询推荐评价指标优化 实验结果分析 总结展望. 绪论. 基于 Term-Query 图随机游走模型. 优化评价指标. 实验结果分析. 总结展望. 相关工作. 基于查询文档的推荐算法. 绪论. 研究背景与动机 查询推荐在搜索引擎中应用 - PowerPoint PPT PresentationTRANSCRIPT
稀疏查询的推荐算法与性能评价问题的研究
答 辩 人:马中瑞 2009 级 计算机应用技术指导教师:陆嘉恒 副教授研究方向:信息检索、数据挖掘
2012 年 05 月 17 日
稀疏查询的推荐算法与性能评价问题的研究 2
• 绪论• 相关工作• 基于 Term-Query 图的随机游走模型• 基于查询文档的查询推荐算法• 查询推荐评价指标优化• 实验结果分析• 总结展望
大 纲
稀疏查询的推荐算法与性能评价问题的研究 3
• 研究背景与动机– 查询推荐在搜索引擎中应用
– 为什么是稀疏查询?• 稀疏查询在查询日志中出现频率偏低• 传统方法无法处理稀疏类查询
– Click-through 或 Session• 微软必应日志统计分析
– 33.95% 惟一查询,并占有 22.55% 的访问量
绪论
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 4
• 研究内容及贡献– 解决稀疏查询的生成推荐问题– 提出 Term-Query 图的随机游走模型算法– 提出查询文档概念及相关算法
• QSearch 算法• DSearch 算法
– 全新的查询推荐评价指标• 和
绪论
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
-NDCG -NDCG
稀疏查询的推荐算法与性能评价问题的研究 5
• 基于会话日志的查询推荐– 基于关联规则
• [Fonseca et al., 2003]
– 基于 Query-Flow 图的推荐算法• [Boldi et al., 2008][Bordino et al., 2010] 等
• 基于点击日志的查询推荐– Query-URL 二部图
• 点击次数 [Mei et al., 2008]• 信息熵 [Deng et al., 2009]
– 随机游走算法
相关工作
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
query-flow图
query-url图
稀疏查询的推荐算法与性能评价问题的研究 6
• 其他查询推荐– 合并 Click-through 和 Session 信息
• 基于概念序列的推荐算法 [Cao et al., 2008]• 基于查询优化图的推荐算法 [Sadikov et al., 2010]
– Anchor 日志 [Deng and Croft, 2010]– 基于语料库的查询推荐 [Bhatia et al., 2011]
• N-grams 抽取短语词库• 计算部分查询与短语的概率
相关工作
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 7
• 稀疏查询推荐算法– 基于隐式用户反馈信息 [Song and He, 2010]
• 点击 Query-URL 图,转移矩阵• 跳过 Query-URL 图,转移矩阵
– 基于查询模板的长尾查询推荐 [Szpektor et al., 2011]• 利用外部 Ontology 语料库,抽取查询模板• 建立 query-template-flow 图,计算相关的模板和查询相似度
– 拟合查询推荐方法 [Jain et al., 2011]• Query Relax Model 去除非关键词,得到• 为 产生候选推荐
– Click-through 、 Session 、 Web 文档中的短语语料库• 拟合生成查询推荐
相关工作
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
W
W
( )r q( )r q
稀疏查询的推荐算法与性能评价问题的研究 8
• 构造 Term-Query 图– 图
• 结点集合 ,其中 表示词表中单词结点, 表示查询日志中所有用户查询结点
• 表示二部图中所有的无向边。对于 , 和 之间存在无向边当且仅当
• 是权重函数– 边权重函数
• 表示查询 q 的出现频率
基于 Term-Query 图的随机游走模型
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
( , , )G V E
1 2V V V 1V 2V
1 2E V V 1 2,w V q V w q
w q: E
qc
( ) ( , ) qe w q c
稀疏查询的推荐算法与性能评价问题的研究 9
• 随机转移矩阵– 表示单词到查询的 矩阵– 表示查询到单词的 矩阵
• Term-Query 的随机方阵
Term-Query 图的随机方阵
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
A m nn mB
2
1
( , ), ( , ) ,
( , )
( , ), ( , ) .
( , )
i jm n
iq V
i jn m
jw V
w qa i j
w q
w qb i j
w q
A
B
0 AW
B 0
注意: 或 内部结点之间不存在无向边,因而主对角线用 矩阵表示0
1V 2V
W
稀疏查询的推荐算法与性能评价问题的研究 10
• 带重启动的随机游走算法
• 对某个单词执行随机游走
• 查询推荐算法– 对查询每个单词执行随机游走,计算概率分布– 合并所有单词的概率分布
随机游走模型
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
( 1) ( ) (1 )t ti i i π π W E
1, , 1, ,i i m i m i m n ir r r r π
iT ( )iTQ单词到查询的相
似度概率分布
( )iTQ
( | )( )i
q i iw q
weight w q
R TQ
稀疏查询的推荐算法与性能评价问题的研究 11
• 单词关联矩阵( Correlation Matrix )– 单词之间的点互信息 PMI ( Pointwise Mutual Information )
• 表示单词 和 同时出现在同一查询的次数• 表示查询集合中查询个数
• 查询关联矩阵– 查询之间的 PMI
• 表示查询 和 同时发生在同一会话内的次数• 表示会话日志中会话的个数
参数优化
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
( , ) ( , )( , ) log log
( ) ( ) ( ) ( )i j i j
i ji j i j
p w w c w w Npmi w w
p w p w c w c w
( , )i jc w wiw jw
N
( , ) ( , )( , ) log log
( ) ( ) ( ) ( )i j i j
i ji j i j
p q q f q q Spmi q q
p q p q f q f q
( , )i jf q q iq jq
S
Ground-Truth:单词关联矩阵查询关联矩阵
TQ
稀疏查询的推荐算法与性能评价问题的研究 12
• 矩阵分解– 对所有元素执行随机游走,获得概率分布矩阵
分解得:
参数优化
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
π1,1 1, 1, 1 1,
,1 , , 1 ,
1,1 1, 1, 1 1,
,1 , , 1 ,
m m m n
m m m m m m m n
m m m m m m m n
m n m n m m n m m n m n
r r r r
r r r r
r r r r
r r r r
π
T TQπ
QT Q
稀疏查询的推荐算法与性能评价问题的研究 13
• 损失函数( Loss Function )– 对于重启动参数 ,利用 Ground-Truth 最小化估计 和
的损失来优化:
– 目标函数:
参数优化
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
T Q
argmin T T
argmin Q Q
( ) { ( , ) ( , )}i j
f i j i j T T T
( ) { ( , ) ( , )}i j
f i j i j Q Q Q
稀疏查询的推荐算法与性能评价问题的研究 14
• 基本思想及系统框架– 查询文档( Query Document )
• 查询的搜索结果内容• 查询转换为查询文档的形式
– 系统框架
基于查询文档的推荐算法
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 15
• 日志清理– 启发式规则
• 没有 URL 点击信息的查询• 非英文查询• URL 类型查询• 数字类型查询和长关键字查询
– 错拼处理• Click-through聚类和 cluster 内分组(非本论文工作)• 选择每个分组中的最高的查询作为代表元
• 建立查询库– 扩展查询为查询文档
• 标题:查询本身• 内容:文档摘要( Snippet)或文档全文内容( Full-text ) 前 10 个搜索文档
查询库 QCorpus
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 16
• 基本思想– 文本检索方式
• 建立倒排索引– Term-based倒排索引
• 相似度计算– 对于查询 和文档 的相似度,采用 BM25衡量
• 参数
QSearch 算法
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
q d
1 ,
1 ,
( 1)0.5( | ) log
0.5 ((1 ) )i
i di
dw q ii d
avg
k tfN dfRel d q
Ldf k b b tfL
1 2.3k 0.35b
排序后文档所对应的标题即为查询
推荐结果
稀疏查询的推荐算法与性能评价问题的研究 17
• 基本思想– 将输入查询 转换为查询
文档,采用查询文档进行搜索相关推荐
– K-NN 问题– 敏感位置哈希 LSH
• 适用于稠密向量• TF-IDF 向量是非稠密向量
• 基于 LDA 的文档分解– LDA变体—— SWB 模型
• 主题类型单词• 文档特殊词• 语料库背景单词
– 文档分解
• 表示 k维的文档主题向量
• 表示文档的特殊词集合
DSearch 算法
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
{ , }d
k=200保留前 15 个特殊词
q
稀疏查询的推荐算法与性能评价问题的研究 18
• LSH 索引: QCorpus 所有文档– 文档主题向量
• 查询推荐算法– 对于查询 扩展为查询文档– LDA 分解 的主题向量 和特殊词集合– 相似度计算公式
表示 和 之间的余弦值, 表示 和 对应的 TF-IDF向 量的余弦值。 权重系数,本实验中
DSearch 算法
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
qqd
qd q q
( | ) ( | ) ( , ) (1 ) ( , )i i q q i q iRel d q Rel d d Sim Sim
( , )q iSim iq ( , )q iSim
q
qi
0.1
稀疏查询的推荐算法与性能评价问题的研究 19
• 判断相关性– 对于查询 - 推荐对,判断是否相关 Relevant/Irrelevant– 不同等级的相关性判断
• Perfectly relevant, Approximately relevant, somewhat relevant, Approximately irrelevant, Perfectly irrelevant
• 衡量指标– Precision/Recall/F-Measure– P@K– Mean Average Precision(MAP)
传统评价指标
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
相关性 V.S.有用性
稀疏查询的推荐算法与性能评价问题的研究 20
• 例如,查询“ aol instant mess” 和它的相应推荐– =“aol instant messenger”– =“aol aim”– =“windows live messenger”– =“yahoo! messenger”
• 如果的查询结果比较差,则和可能更适合;否则, 和比较合适
优化的评价标准及指标
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 21
• 有用性标定(比较搜索结果质量)– 较好( better )– 较差( worse )– 相同( same )
• 关系分类标定– 相同意图( same
intention )– 普遍化
( generalization )– 特殊化( specialization )– 对等关系( peer )– 无关( no association )
优化的评价标准及指标
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
2
0
12
2
2
0
1
-NDCG -NDCG
稀疏查询的推荐算法与性能评价问题的研究 22
• 实验环境搭建– 数据集: AOL查询日志
– 停用词, Porter Stemmer 取词根– 对比算法
• QFG 算法:建立 query-flow graph ,执行随机游走算法(参见 [Boldi et al., 2008] )
• QBI 算法:对查询本身建立倒排索引,计算查询之间的 TF-IQF ( Term Frequency-Inverse Query Frequency )余弦相似度进行排序
Term-Query 算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
查询实例 惟一查询 处理后剩余查询
Click-through记录
Session记录
28.8M 10.1M 4.7M 19.4M 10.7M
稀疏查询的推荐算法与性能评价问题的研究 23
• 实验环境搭建– User Study
• 按照查询频率将查询日志分为 4组数据,分别抽样 25 个惟一查询,共计100 个测试查询用例
• 取 Term-Query 算法(简称 RW-TQ )和两个对比算法各自的前 5 个推荐– 1068 个惟一查询 - 推荐对
• 判断相关性( Relevant/Irrelevant )– 原始查询与推荐比较包含关键字基本相同,则应被标定 Irrelevant– 例如,原始查询“ verizon wireless internet” 与推荐“ wireless internet
from verizon”
Term-Query 算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
集合类型 Test-A Test-B Test-C Test-D
频率范围 [1, 4] [5, 9] [10, 19] [20, +]
平均单词数 3.4 2.92 2.32 2.24
稀疏查询的推荐算法与性能评价问题的研究 24
• 覆盖率:至少返回一个推荐的查询所占的比率
Term-Query 算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
前 5 个推荐结果数量在 100测试查询的分布图
不同测试集合上的覆盖率对比图
稀疏查询的推荐算法与性能评价问题的研究 25
• 性能对比– P@K 和 MAP
Term-Query 算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
方法 P@3 P@5 MAP
QFG 0.2467 0.22 0.1834
QBI 0.36 0.334 0.2855
RW-TQ 0.39 0.356 0.2976
a) QFG 算法偏向频率高的查询b) QBI 偏向包含关键词偏多的
查询c) RW-TQ 相对比较稳定( Test-
A 除外)
稀疏查询的推荐算法与性能评价问题的研究 26
• 参数调优
Term-Query 算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 27
• 实验环境搭建– 数据集和查询库 QCorpus
• 微软 Bing查询日志( 2010 年 12 月)
• 日志清理: 18.44M干净查询• 创建 QCorpus
– Bing 搜索 API :前 10 个文档摘要– 集合大小: 18.35M
查询文档算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
查询实例 惟一查询 Click-Through 惟一查询
( Click-through)
会话 惟一查询( Co-occurrence)
137.5M 43.1M 104.2M 27.5M 31.3M 24.4M
抓取失败导致部分查询没有
结果
稀疏查询的推荐算法与性能评价问题的研究 28
• 实验环境搭建– 对比算法: QFG 算法 +QBI 算法– 评价指标: 和– 测试查询集合
• 判断查询搜索意图是否清晰– 150流行查询: 122 个清晰– 350 稀疏查询: 271 个清晰
• 100 个测试查询集合– 50 个来自清晰的 122 个流行查询– 50 个来自清晰的 271 个稀疏查询
查询文档算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
-NDCG -NDCG标定有用性
稀疏查询的推荐算法与性能评价问题的研究 29
• 标定结果
查询文档算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
两种标定标准是描述的查询推荐结果的两个不同方面
稀疏查询的推荐算法与性能评价问题的研究 30
• 覆盖率
查询文档算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
前 10 个推荐结果数量在 Popular查询集合的分布图
前 10 个推荐结果数量在 Rare 查询集合的分布图
稀疏查询的推荐算法与性能评价问题的研究 31
• 性能对比( Popular 查询)
查询文档算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 32
• 性能对比( Rare 查询)
查询文档算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 33
• 合并所有基础方法结果– 去除重复的推荐结果– 获得候选集合
• 重排序( Re-rank )方法– QSearch重排序:根据 BM25公式,重新对中所有推荐进行
计算相似度。– DSearch重排序:根据 DSearch 方法的相似度计算公式对候
选集合进行全新排序– TF-IDF重排序:根据查询所对应的查询文档的 TF-IDF 向量,
计算余弦相似度进行排序
查询文档算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 34
• 重排序( Popular 查询)
查询文档算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 35
• 重排序( Rare 查询)
查询文档算法实验分析
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询的推荐算法与性能评价问题的研究 36
• 总结
• 未来展望– NLP 来进一步优化 Term-Query 随机游走模型– 如何将 Click-through 等信息应用到查询文档概念上
总结展望
绪论 相关工作 基于 Term-Query 图随机游走模型 基于查询文档的推荐算法 总结展望实验结果分析优化评价指标
稀疏查询推荐
Term-Query 随机游走模型
查询文档算法
QSearch 算法
DSearch 算法
性能评价优化关系分类标定
有用性标定
稀疏查询的推荐算法与性能评价问题的研究 37
• P. Boldi, F. Bonchi, C. Castillo, D. Donato, A. Gionis, and S. Vigna. The query-flow graph: model and applications. In CIKM, pages 609–618. ACM, 2008.
• I. Bordino, C. Castillo, D. Donato, and A. Gionis. Query similarity by projecting the query-flow graph. In SIGIR, pages 515–522. ACM, 2010.
• S. Bhatia, D. Majumdar, and P. Mitra. Query suggestions in the absence of query logs. In SIGIR, pages 795–804, New York, NY, USA, 2011. ACM.
• H. Cao, D. Jiang, J. Pei, Q. He, Z. Liao, E. Chen, and H. Li. Context-aware query suggestion by mining click-through and session data. In KDD, pages 875–883. ACM, 2008.
• V. Dang and B. W. Croft. Query reformulation using anchor text. In WSDM, pages 41–50. ACM, 2010.
• H. Deng, I. King, and M. R. Lyu. Entropy-biased models for query representation on the click graph. In SIGIR, pages 339–346, 2009.
• A. Jain, U. Ozertem, and E. Velipasaoglu. Synthesizing high utility suggestions for rare web search queries. In SIGIR, pages 805–814, New York, NY, USA, 2011. ACM.
• B. M. Fonseca, P. B. Golgher, E. S. de Moura, and N. Ziviani. Using association rules to discover search engines related queries. In LA-WEB, pages 66–71. IEEE Computer Society, 2003.
参考文献
稀疏查询的推荐算法与性能评价问题的研究 38
• Q. Mei, D. Zhou, and K. W. Church. Query suggestion using hitting time. In CIKM, pages 469–478. ACM, 2008.
• E. Sadikov, J. Madhavan, L. Wang, and A. Halevy. Clustering query refinements by user intent. In WWW, pages 841–850. ACM, 2010.
• Y. Song and L. wei He. Optimal rare query suggestion with implicit user feedback. In WWW, pages 901–910. ACM, 2010.
• I. Szpektor, A. Gionis, and Y. Maarek. Improving recommendation for long-tail queries via templates. In WWW, pages 47–56, New York, NY, USA, 2011. ACM.
参考文献(续)
稀疏查询的推荐算法与性能评价问题的研究 39
• 已录取论文– Zhongrui Ma, Yu Chen, Ruihua Song, Tetsuya Sakai, Jiaheng Lu
and Ji-Rong Wen. New Assessment Criteria for Query Suggestion. In Proceedings of ACM SIGIR (SIGIR'2012), poster, to appear, 2012.
• 已投稿论文– Zhongrui Ma, Yu Chen, Ruihua Song, Jiaheng Lu and Ji-Rong
Wen. Searching Suggestions for Rare Queries. In Proceedings of ACM CIKM (CIKM’2012), submission, 2012.
发表论文情况
稀疏查询的推荐算法与性能评价问题的研究 40
谢谢各位答辩老师!