2010 搜索研究视野拾零 -- 从 p@n 到 etr@n 的一种评测方法

20102010 搜索研究视野拾零搜索研究视野拾零---- 从从 P@NP@N 到到 ETR@NETR@N 的一种评测的一种评测

方法方法

20102010 搜索研究视野拾零搜索研究视野拾零---- 从从 P@NP@N 到到 ETR@NETR@N 的一种评测的一种评测

方法方法

李晓明，何靖北京大学网络与信息系统研究所（第六届全国信息检索学术会议， CCIR 2010）2010 年 8 月 12日

李晓明，何靖北京大学网络与信息系统研究所（第六届全国信息检索学术会议， CCIR 2010）2010 年 8 月 12日

互联网信息研究所互联网信息研究所

不断拓展的搜索领域前沿不断拓展的搜索领域前沿数据对象的演化数据对象的演化

Web 1.0, Web 2.0, …; Web 1.0, Web 2.0, …; 结构化，非结构化，结结构化，非结构化，结构化，构化，… …

用户环境的改变用户环境的改变固定，移动（位置，个性化，带宽固定，移动（位置，个性化，带宽 // 能源）能源）

搜索要求的多样性搜索要求的多样性通用，学术，生活，专业；文档，答案，服务通用，学术，生活，专业；文档，答案，服务

核心问题基本没变！


““Big issues” in IR and Big issues” in IR and search engine search engine RelevanceRelevance EvaluationEvaluation Information needsInformation needs PerformancePerformance Incorporating new Incorporating new

datadata ScalabilityScalability AdaptabilityAdaptability Specific problemsSpecific problems


评测的主要概念与方法评测的主要概念与方法 CranfieldCranfield 方法方法

测试集测试集 TT ：文档集：文档集 DD ，信息需求集，信息需求集 QQ ，相关关系，相关关系DDххQQ{0,1}{0,1}

对单个需求对单个需求 qq∈∈QQ 的响应，对的响应，对 QQ 中所有元素响应的综合中所有元素响应的综合用户研究（用户研究（ user studyuser study ））

实验室环境（少数用户），报告感受，满意度等实验室环境（少数用户），报告感受，满意度等隐反馈隐反馈

开放用户环境，通过对用户行为的收集与建模，推断文开放用户环境，通过对用户行为的收集与建模，推断文档与需求的相关性，档与需求的相关性， clickthroughclickthrough


CranfieldCranfield 方法的几个典型指标方法的几个典型指标 DDххqq

R-PR-P （（ FF ），）， P@NP@N ，， R-R-precisionprecision ，， APAP ，， RRRR （（ reciprocal reciprocal rankrank ））

DCGDCG ，， RBPRBP pprefppref ，， wprefwpref

DxQDxQ MAPMAP ，， GMAPGMAP nDCGnDCG ，，

共同特点共同特点（假设）：（假设）： qqd-listd-list


从用户时间的角度来理解系统性能从用户时间的角度来理解系统性能出发点：系统的效果可以通过用户在出发点：系统的效果可以通过用户在检索过程中所花时间的有效性来评测检索过程中所花时间的有效性来评测 –– 时间效率时间效率用户在审查系统返回内容的时候是要花时间的用户在审查系统返回内容的时候是要花时间的

，我们于是可以认为看“不相关的内容”浪费，我们于是可以认为看“不相关的内容”浪费了时间，看“相关的内容”则是时间的有效利了时间，看“相关的内容”则是时间的有效利用用

在一个搜索会话过程所花的时间中，有效时间在一个搜索会话过程所花的时间中，有效时间就是看相关文档的时间就是看相关文档的时间


Effective Time RatioEffective Time Ratio （（ ETRETR ，，时间效率）时间效率）

of getting relevant information

of total search


PrecisionPrecision （精度）（精度） :: ETRETR 的一个的一个特例特例 Assumption: Assumption: 在每个文档上花相同时间在每个文档上花相同时间 (T) (T)

P@5 = 0.4 ，需要将前面 5 个一一看过

of getting relevant information = 2T

of total search = 5T

ETR@5 = 0.4


搜索引擎：搜索引擎： query-snippet-query-snippet-documentdocument 模式模式


SnippetsSnippets ：： False PositiveFalse Positive

引导到不相关的文档，浪费了用户的时间{snippet=1 | doc=0}


SnippetsSnippets ：： False False NegativeNegative

没能反映相关文档{snippet=0 | doc=1}


Snippets Affect the Search Snippets Affect the Search

Engine Quality!Engine Quality!

除了搜索系统提供的精度外，片段的质除了搜索系统提供的精度外，片段的质

量也影响搜索引擎的质量！量也影响搜索引擎的质量！（即，（即， rankingranking 算法和算法和 snippetsnippet 生成算法生成算法

都影响系统性能）都影响系统性能）


搜索引擎：搜索引擎： query--query--snippet--documentsnippet--document

用户在考察系用户在考察系统返回结果的统返回结果的时候，自然地时候，自然地进行一个两阶进行一个两阶段过程段过程

可以有不同方可以有不同方式为这两阶段式为这两阶段过程建模过程建模


一种用户行为模型一种用户行为模型


用户行为模型背后的假设用户行为模型背后的假设 Examination AssumptionExamination Assumption

[Dupret+08,Craswell+08, Guo+09a,Guo+09b][Dupret+08,Craswell+08, Guo+09a,Guo+09b]

Cascade AssumptionCascade Assumption [Craswell+08, [Craswell+08, Guo+09a,Guo+09b, Chapelle+09]Guo+09a,Guo+09b, Chapelle+09]

Examination Time AssumptionExamination Time Assumption ，两阶，两阶段观察时间假设段观察时间假设 Snippet Examination TimeSnippet Examination Time （片段观察时间）（片段观察时间） : T1: T1 Doc Examination TimeDoc Examination Time （文档观察时间）（文档观察时间） : T2: T2

Position i Position (i+1)


ETR for Search Engine ETR for Search Engine with Snippetswith Snippets

of getting relevant information

of total search

T1 + T2

5T1 + 3T2


一般地，我们有一般地，我们有 ETRETR

N

i i

N

i ii

N

i i

N

i ii

sRcN

sRdRc

sRTNT

sRdRTTNETR

1

1

121

121

)(

)()()1(

)(

)()()(@

R=1 或 0 ，对应其中对象和信息需求的“相关”与“不相关”。令 c=T2/T1 ，从而 ETR 只和一个参数有关


ETRETR 的端点性质的端点性质

N

i i

N

i ii

sRcN

sRdRcNETR

1

1

)(

)()()1(@

0)()(,,0 ii sRdRiiffETR可有三方面的原因：文档相关性，片段相关性，文档与片段相关性的匹配

NsRdRsRiffETR iii )()()(,1

也是与直觉相符的


一般地，影响一般地，影响 ETRETR 的因素的因素 Retrieval System Performance(P@N)Retrieval System Performance(P@N) Snippet QualitySnippet Quality （片段质量，两种错误）（片段质量，两种错误）

First Type ErrorFirst Type Error （（ False PositiveFalse Positive ））

Second Type ErrorSecond Type Error （（ False NegativeFalse Negative ））

p1 = Pr{

p2 = Pr{

| }

| }


ETRETR ，有什么好处？，有什么好处？（理论上，应用上）（理论上，应用上）


理论上，我们希望说明理论上，我们希望说明和典型评测指标对比和典型评测指标对比

如果搜索引擎的如果搜索引擎的 snippetsnippet 生成算法足够生成算法足够好，好， ETRETR 是比是比 PrecisionPrecision 更好的一个指标（在更好的一个指标（在时间效率意义上）时间效率意义上）

用于比较两个搜索引擎系统用于比较两个搜索引擎系统如果两个系统的如果两个系统的 snippetsnippet 产生算法相同，则产生算法相同，则

ETRETR 比较两个系统结果与比较两个系统结果与 P@NP@N 一致一致如果两个系统的如果两个系统的 rankingranking 算法相同，则算法相同，则

snippetsnippet 生成算法的优劣决定了两个系统生成算法的优劣决定了两个系统 ETRETR的好坏的好坏


Expected ETR Expected ETR ：在错误概率下的：在错误概率下的期望值期望值为此，我们需要深入考虑为此，我们需要深入考虑 snippetsnippet 算法的算法的两种可能的错误对两种可能的错误对 ETRETR 的影响的影响 First Type ErrorFirst Type Error （（ False PositiveFalse Positive ））

Second Type ErrorSecond Type Error （（ False NegativeFalse Negative ））p1 = Pr{

p2 = Pr{

| }

| }


ETRETREETREETR

N

i i

N

i ii

sRcN

sRdRcNETR

1

1

)(

)()()1(@

NPNpc

pdRcsRdRcU iii

@)1)(1(

)1)(()1()()()1(

2

2

NPNdRN

dRNP i

i@)(,

)(@

NPppcNcNpN

pdRcpdRcN

dRsRdRsRcNsRcNL

ii

iiiii

@)1(

))(1()1)((

))(1)(()()(()(

211

12

}1)(|0)(Pr{

}0)(|1)(Pr{

2

1

dRsRp

dRsRp


Expected ETR@NExpected ETR@N

于是，我们有了用于是，我们有了用 P@NP@N ，以及两种可能错误的，以及两种可能错误的概率（概率（ pp11,p,p22 ）表达的）表达的 EETR@NEETR@N

容易看出，容易看出， EETREETR 是是 pp11, p, p22 的减函数（当然）的减函数（当然）


EETREETR 的性质的性质

也就是在片段产生无错误的情况下，也就是在片段产生无错误的情况下， ETRETR要比要比 P@NP@N 更有效更有效

（在实际意义上这其实是显然的，因为此（在实际意义上这其实是显然的，因为此时时 ETRETR 意味着用户没有在不相关的文档上意味着用户没有在不相关的文档上花时间，而花时间，而 P@NP@N 总是要求用户全部看过）总是要求用户全部看过）


进一步性质（两个系统的对比）进一步性质（两个系统的对比）

性质性质 22 说的是如果两个系统（说的是如果两个系统（ A,BA,B ）有相同的）有相同的snippetsnippet 生成算法，则生成算法，则 EETREETR 与与 P@NP@N 一致一致

性质性质 33 说的是如果两个系统的说的是如果两个系统的 rankingranking 相同，相同，则则 snippetsnippet 生成算法的优劣决定了生成算法的优劣决定了 EETREETR 的优的优劣，即劣，即 EETREETR 反映了反映了 snippetsnippet 生成算法生成算法


ETRETR 的实践意义的实践意义

能不能用？（参数能不能用？（参数 c=Tc=T22/T/T11 的确定）的确定）好不好用？与好不好用？与用户体验用户体验的关联性的关联性

(correlation)(correlation)

N

i i

N

i ii

sRcN

sRdRcNETR

1

1

)(

)()()1(@


ETRETR ，能不能用？，能不能用？ ---- 估计估计 cc 通常，搜索引擎日志能记通常，搜索引擎日志能记

录用户录用户 sessionsession 中的一些中的一些时间信息和点击信息等时间信息和点击信息等

在前面提到的三个用户行在前面提到的三个用户行为模型假设条件下为模型假设条件下点击第一个点击第一个 snippetsnippet 的时间，减的时间，减

去提交查询的时间，等于该去提交查询的时间，等于该snippetsnippet 的位置，乘以的位置，乘以 TT11

最后一次点击最后一次点击 snippetsnippet 的时间与的时间与提交查询时间之差由两部分构成提交查询时间之差由两部分构成：读前面所有：读前面所有 snippetsnippet 的时间，的时间，加上读若干文档的时间加上读若干文档的时间 TT22


利用用户日志估计利用用户日志估计 cc == TT22 /T/T11

1Trtt rankclickedfirstqclickfirst

21 )1(# TclicksTrtt ranklastqclicklast

除 T1,T2 外，其他都可以从搜索引擎日志中得到。在一个月的日志分析基础上，我们估计出 c≈10。


ETRETR ，好不好用？，好不好用？ ---- 用户实验用户实验研究研究 1010 个自愿者，个自愿者， 5050 个信息需求个信息需求对每个需求，从商用搜索引擎中获得前对每个需求，从商用搜索引擎中获得前 100100个结果（个结果（ snippetsnippet + + 文档）文档）

对每个需求，问每个人对结果的满意程度对每个需求，问每个人对结果的满意程度（（ 1-41-4 打分打分 ))

目的 : 用户的满意程度与多种评测指标对比

人工标出文档与信息需求的相关性（人工标出文档与信息需求的相关性（ R(dR(di)i) ），以及和），以及和 snippetsnippet 的相关性（的相关性（ R(si))R(si)) ，，从而可以算出各种指标从而可以算出各种指标


评测方法（指标）的对比验证评测方法（指标）的对比验证用户满意度与评测指标之间的关联性用户满意度与评测指标之间的关联性

CorrelationCorrelation[Huffman+07][Huffman+07] between between User reported satisfactionUser reported satisfaction Measure value based on judgmentsMeasure value based on judgments 取若干传统指标（取若干传统指标（ P@NP@N ，， DCGDCG 等），以及等），以及 ETRETR

较高关联性意味着该指标能较好反映用户较高关联性意味着该指标能较好反映用户的满意度感受的满意度感受


ResultsResults （用户满意度与评测（用户满意度与评测指标的关联性指标的关联性 correlationcorrelation ））传统指标传统指标

ETR and its cumulated versionETR and its cumulated version


Results Results （针对不同类型的需（针对不同类型的需求）求） Open QuestionsOpen Questions (( 可能有多个正确答案可能有多个正确答案 ))

Close Questions(Close Questions( 答案唯一答案唯一 ))


小结小结随着信息检索应用环境的变化，会涌现出一些新随着信息检索应用环境的变化，会涌现出一些新

的应用模式，也可能给一些经典概念赋予新的含的应用模式，也可能给一些经典概念赋予新的含义义

作为一个例子：审视现代搜索引擎的典型应用模作为一个例子：审视现代搜索引擎的典型应用模式，“查询式，“查询 -- 片段片段 -- 文档”，从用户时间效率的文档”，从用户时间效率的角度考虑搜索的有效性，我们可以获得比传统基角度考虑搜索的有效性，我们可以获得比传统基于“查询于“查询 -- 文档”模式更好的评测方法，文档”模式更好的评测方法， ETRETR

ETRETR既反映检索系统质量，也反映了片段生成算既反映检索系统质量，也反映了片段生成算法的优劣，能较好地反映用户对于搜索引擎效果法的优劣，能较好地反映用户对于搜索引擎效果的满意度的满意度


小结（续）小结（续）从研究方法来看，报告的这项工作综合运从研究方法来看，报告的这项工作综合运用了与评测有关的三个方面的概念与技术用了与评测有关的三个方面的概念与技术

ETRETR 指标设计指标设计 – – CranfieldCranfield 方法方法反映搜索引擎应用的特征反映搜索引擎应用的特征

参数（参数（ cc ）估计）估计 –– 用户隐反馈用户隐反馈不是随意尝试，而是从日志中统计出来不是随意尝试，而是从日志中统计出来

效果对比效果对比 –– 用户研究用户研究不是只在几个指标之间对比，而是都以用户满意度为不是只在几个指标之间对比，而是都以用户满意度为基准基准


欢迎讨欢迎讨论，论， [email protected]@pku.edu.cn

2010 搜索研究视野拾零 -- 从 p@n 到 etr@n 的一种评测方法

Documents