Сравнение методов оценки качества поиска — Роман...

Post on 11-Nov-2014

197 Views

Category:

Internet

10 Downloads

Preview:

Click to see full reader

DESCRIPTION

Краткая история возникновения задачи оценки качества, маркер. Понятие релевантности, метрики Average Precision, DCG, nDCG и т.д. Интересные факты об экспертной оценке запросов и документов. Время до результата, параллельное сравнение выдач. Позапросные кликовые метрики (abandonment rate, время до клика и т.п.). Смешивание результатов, team-draft-interleaving. Другие характеристики поведения пользователя (время отсутствия).

TRANSCRIPT

1

2

Disclaimer: чего сегодня не будет

• Цифр сравнения Яндекса с Google, Поиск@Mail.ru, Спутником

• Точной информации о том, какие именно из указанных методов применяются в Яндексе

• За что забанили мой сайт?!

3

Действия пользователя

Как мы их понимаем

4

Иерархия примерно такая

Задача

Инфопотребность

ЗапросСпланировать

отпуск

Узнать о достопримечательностях [сидней киты]

5

Экспертная оценка

Cranfield и все-все-все

6

Идеальная картинка

• Пусть есть набор запросов Q• Пусть есть две поисковые системы• Пусть мы можем сопоставить выдаче системы S по запросу q число (значение метрики)• Тогда можно усреднить метрику по всем q Q• Выборки связанные, все удобно

7

Как все начиналось

• Cyril Cleverdon, College of Aeronautics, Cranfield, 1957 (!)• Решал задачу поиска статей по заданной теме• Создал тестовую коллекцию документов (1100)• Сравнивал точность и полноту поисковых алгоритмов

8

Точность и полнота

Наш лось Не наш лосьРелевантно a(true positive) b(false negative)Нерелевантно c(false positive) d(true negative)

Точность (precision) = a / (a + c)Полнота (recall) = a / (a + b)

9

В Интернете все чуть-чуть иначе

• Документов много (все не оценишь ;-)• Разных запросов тоже много• Пользователь просматривает не все, что нашлось

10

Кстати о пользователе

Модельный пользователь ведет себя так:• Просматривает выдачу сверху вниз• Открывает каждый документ• Останавливается, когда нашел ответ или устал

11

Так вот, про точность (1 запрос)

Precision@n=

Rel

Rel

Rel

Irrel

Irrel

Irrel

Irrel

Rel

Rel

Rel

Precision@5 = 0.6 для обеих выдач; хорошо ли это?Хочется учесть позиции документов.

12

Бинарна ли релевантность?

Пусть запрос [в контакте] и есть 3 документа:• http://vk.com• Статья об отставке Павла Дурова• Контакты фирмы по доставке пиццы

13

Бинарна ли релевантность?

Пусть запрос [макроэкономические показатели канады 2000 2010] и есть 3 документа:• ВВП Канады за1999-2013• ВВП, ВНД ,<другие непонятные экономические буквы> Канады за 2000-2006• ВВП, ВНД ,<другие непонятные экономические буквы> Канады за 2000-2012

14

Discounted Cumulated Gain

DCG

• Gain зависит от уровня релевантности• Подбирать значения Gain’ов – целая отдельная

наука• В знаменатель можно ставить тоже не логарифм

15

Рассмотрим сложные запросы

[символика молочной продукции советских лет фото]

16

nDCG: равные права для запросов

Плохой

Так себе

Хороший

Отличный

Хороший

Отличный

Хороший

Хороший

Так себе

Плохой

Результат по запросу q Идеальный результат

Свойства:• [0, 1]• Видит потери на “слабых” запросах

17

Кроме релевантности

В вычислении Gain’ов могут участвовать: • Популярность ресурса• Тематичность ресурса• Наличие на странице рекламы• …

18

Работа экспертов

А идеальны ли они?

19

Вводные

• Тысячи запросов, десятки тысяч документов• Качество оценок надо синхронизировать

20

Эксперты тоже ошибаются

Можно моделировать систематические ошибки• Случайные оценки• Оптимистичные оценки• Пессимистичные оценки• Хорошие в начале работы, плохие в конце

Пессимисты рулят!

21

Пример сложной темы

Кто автор хода 9.h3?

22

Если не хватает знаний

• Оценки чаще завышаются• Релевантным кажется документ, который объясняет смысл запроса, а не отвечает на него• Релевантность документа чаще оценивают по наличию слов запроса

23

Неучтенное

Все гораздо, гораздо хуже

24

Как выбирать запросы для оценки?

ГоловаТорс Хвост

в контакте

порно

риф

кутузов скажите пожалуста а лена и виктор михалыч в следущем сезоне будут

вместе или это мои пустые надежды

25

Запросы могут значить разное

Наполеон – это торт или император?

26

А еще есть

• Персонализация• Новости• Запросы-однодневки• Дубли

27

Эксперименты

Что нам скажут пользователи?

28

Запустим в полет сразу два поиска

Контрольная группа Экспериментальная группа

На какие бы показатели посмотреть?

29

Показателей довольно много

Название ЛучшеНекликнутые выдачи ↓Запросы с переформулировками ↓Запросы на сессию ↓Клики на запрос ↑Клики @ 1 ↑pSkip ↓Доля кликов длиннее n секунд ↑Позиция первого клика ↓Время до первого клика ↓Время до последнего клика ↓

30

Трудности со статистикой

в контактеодноклассникипорномой миригры для девочек

• Запросы и пользователи не все одинаковые

31

Работает ли оно вообще?

• Сделать поиск A > B• Проверить метрику• Проблема: как проверить, что A > B?• Не улучшим, а испортим!

Результат1

Результат2

Результат3

Результат4

Результат5

Результат6

Результат7

Результат8

Результат9

Результат10

32

Хорошие некликнутые

US JP CN0.00

20.00

40.00

60.00

80.00

100.00

120.00

nomaybeyes

Подумаем о телефоне в сниппете…

33

И еще немного о сниппетах

Результат1

Результат2

Результат3

Результат1

Результат2

Результат3

Результат4

Результат5

34

Balanced Interleaving

ABCDEJ

FACGHJ

AFBCDG

Ура! Полное пересечение запросов!

35

Team-Draft Interleaving

ABCDEJ

FACGHJ

AFCBGD

36

Поднимем уровень абстракции

Нет, это не просто бла-бла

37

Вспомним о пользователе

Задача

Инфопотребность

Запрос

38

Есть еще сигналы

Вот есть такая полезная штука:

Те, кто ею пользуются, говорят нам о своем недовольстве.

39

А можно замерять лояльность

Вася

Марина

Коля

Можно заметить, что периоды отсутствия на поиске у них разные

40

Знание – сила!

Список литературы

41

Для понимания истории

Cleverdon

The Cranfield Tests on Index Language Devices

Mizzaro

Relevance: the Whole History

Jarvelin, J. Kekalainen

Cumulated Gain-Based Evaluation of IR Techniques

42

Об экспертной оценке

Caterette, Soboroff

The Effect of Assessor Errors on IR System Evaluation

Bailey, Craswell, Soboroff, Thomas, de Vries, Yilmaz

Relevance Assessment: Are Judges Exchangeable and Does it Matter.

Kazai, Craswell, Yilmaz, Tahaghoghi

An Analysis of Systematic Judging Errors in Information Retrieval.

43

Эксперименты на пользователях

Chapelle, Joachims, Radlinski, Yue

Large-Scale Validation and Analysis of Interleaved Search Evaluation

Li, Huffman, Tokuda

Good Abandonment in Mobile and PC Internet Search

Chakraborty, Radlinski, Shokouhi, Baecke

On Correlation of Absence Time and Search Effectiveness

44

Спасибо за внимание!

top related