impact du « biais des ex aequo » dans les évaluations de recherche d’information

Impact du « biais des Impact du « biais des ex aequoex aequo » »dans les évaluationsdans les évaluations

de Recherche d’Informationde Recherche d’Information

Guillaume Cabanac, Gilles Hubert,

Mohand Boughanem, Claude Chrisment

CORIA’10: Conférence en Recherche d’Information et Applications18-20 mars, Sousse, Tunisie

2

Plan

1. Motivation scénario de participation à TREC

2. Contexte évaluer l’efficacité des SRI

Problématique biais des ex aequo influençant les résultats

3. Proposition stratégies de réordonnancement

4. Expérimentation impact du biais des ex aequo

5. Conclusion et perspectives

Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.

3

Plan








4

Scénario de participation à TREC (1/2)

1. Motivation illustration du biais des « ex aequo » G. Cabanac et al.

5 documents pertinentsTopic 031 “satellite launch contracts”

ChrisChris EllenEllenla seule différence

Pourquoi de telles différences ?malchanceuxmalchanceux chanceuxchanceux

5

Scénario de participation à TREC (2/2)

1. Motivation illustration du biais des « ex aequo » G. Cabanac et al.

ChrisChris EllenEllenla seule différence

Seule différence : le nom du document

Après 15 jours de dur labeur…

6

Plan








7

Mesurer l’efficacité des Systèmes de RI User-centered vs. System-focused [Spärk Jones & Willett, 1997]

Campagnes d’évaluation 1958 Cranfield

UK 1992 TREC Text Retrieval

Conference USA 1999 NTCIR NII Test

Collection for IR Systems Japon 2001 CLEF Cross-

Language Evaluation Forum Europe …

Méthodologie « Cranfield » Tâche Collection de test

Corpus Topics Qrels

Mesures : MAP, P@X...

2. Contexte & problématique Biais des « ex aequo » G. Cabanac et al.

[Voorhees, 2007]

8

Évaluer un run : réordonnancement de TRECQrels = qid, iter, docno, rel Run = qid, iter, docno, rank, sim,

run_id

Réordonnancement de TRECqid asc, sim desc, docno desc

Mesure d’efficacitéMAP, P@X, MRR…

2. Contexte & problématique Biais des « ex aequo » G. Cabanac et al.

9

Plan








10

Conséquences du biais des ex aequo Mesures d’évaluation d’un SRI s

RR(s,t) 1/rang pour le 1er document pertinent, pour le topic t

P(s,t,d) précision au document d, pour le topic t

AP(s,t) précision moyenne pour le topic t

MAP(s) précision moyenne globale

Biais des ex aequo

La collection Wall Street Journal serait-elle plus pertinente qu’Associated Press ?

Problème 1comparaison de 2

systèmes AP(s1, t) vs. AP(s2, t)

Problème 2 comparaison de 2

topics AP(s, t1) vs. AP(s, t2)

ChrisChris

EllenEllen

3. Proposition Stratégies de réordonnancement G. Cabanac et al.

Sensibles au rang des documents

11

Réordonnancements alternatifs non biaisés

Réordonnancement conventionnel (TREC) Ex aequo triés de Z à A qid asc, sim desc,

docno desc

Réordonnancement réaliste Les pertinents en dernier qid asc, sim desc, rel

asc, docno desc

Réordonnancement optimiste Les pertinents en premier qid asc, sim desc, rel

desc, docno desc

3. Proposition Stratégies de réordonnancement G. Cabanac et al.

ex aequo

ex aequo

12

Plan








13

Impact du biais des ex aequo Étude menée sur 4 tâches de TREC

22 éditions 1360 runs

Évaluation de l’impact du biais des ex aequo Proportion des ex aequo dans les runs soumis fréquence du biais Impact sur les valeurs des mesures

Top 5 des différences constatées Pourcentage de la différence observée Significativité de la différence observée : t-test pairé unilatéral

1993 1999 20001998 2002 20041997

routing webfiltering

adhoc

2009

3 Go de données issues de trec.nist.gov

4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.

14

Proportion des ex aequo dans les runs soumis4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.

En moyenne 10,6 docs par groupe de similarité En moyenne 25,2 % d’un run = docs ex aequo

15

Impact du biais sur Reciprocal Rank (RR)4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.

16

Impact du biais sur Average Precision (AP)4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.

17

Impact du biais sur Mean Average Precision (MAP)4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.

Différence en terme de rangs( de Kendall) non significative

18

Phénomène de « bourrage » des runs

ChrisChris

EllenEllen

4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.

... ... ...

... ... ...

gecrd2@adhoc-1993

Pourquoi restituer des documentsévalués non pertinents (sim = 0) ?

Éventuellement pour grappiller des points ?

Problème minimisé avec lastratégie de réordonnancement réalisteréaliste

pertinents en queue de liste

19

Travaux connexes en évaluation de la RI4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.

[Voorhees, 2007]

Fiabilité du nombre de topics ?[Buckley & Voorhees, 2000] 25[Voorhees & Buckley, 2002] tx erreur[Voorhees, 2009] n collections

Fiabilité des qrels ?[Voorhees, 1998] qualité[Al-Maskari et al., 2008] TREC vs. TREC

Fiabilité des mesures ?[Buckley & Voorhees, 2000] MAP [Sakai, 2008] ‘system biais’[Moffat & Zobel, 2008] nouvelles mesures[Mothe et al., 2010] redondance

Fiabilité du pooling ?[Zobel, 1998] approximation [Sanderson & Joho, 2004] manuel[Buckley et al., 2007] adapt. taille[Cabanac et al., 2010] biais des ex aequo

20

Plan








21

Conclusions et perspectives Contexte : évaluation de la RI

TREC et autres campagnes basées sur trec_eval

Identification du biais des ex aequo Facteur chance mesure = f (qualité_intrinsèque, chance) Phénomène de « bourrage » des runs

Proposition : stratégies de réordonnancement non biaisées Approche réaliste : parmi des ex aequo, les non pertinents seront en dernier

Impact significatif du biais des ex aequo Étude de (conventionnelle, réaliste) pour les mesures RR, AP et MAP

Corrélation forte, mais différence statistiquement significative Pas de différence significative sur les rangs issus de la MAP ( de Kendall)

Perspectives : étude du bourrage, mesures sans réordonnement


Merci

CORIA’10: Conférence en Recherche d’Information et Applications18-20 mars, Sousse, Tunisie

impact du « biais des ex aequo » dans les évaluations de recherche d’information

Documents