Ольга Мегорская "Несколько интересных фактов об...

Post on 16-Jun-2015

650 Views

Category:

Technology

5 Downloads

Preview:

Click to see full reader

DESCRIPTION

Ольга Мегорская "Несколько интересных фактов об экспертной оценке" Я.Субботник в Санкт-Петербурге О докладе: Служба асессоров Яндекса – это развитая система сбора экспертных оценок. За время работы над ней мы узнали много интересного не только о качестве поиска Яндекса, но и о самих асессорах. В этот раз мы бы хотели поделиться с вами нашими наблюдениями. Мы расскажем о том, чем отличаются оценки оптимистов и пессимистов и чем вторые лучше первых; о том, что при попарном сравнении находятся «любители левого» и «любители правого»; о том, как можно автоматически выявить недобросовестного асессора, и еще о некоторых интересных фактах из области экспертной оценки.

TRANSCRIPT

Я.Субботник, Санкт-Петербург, 3 декабря 2011 года

Руководитель группы асессоров Ольга Мегорская

Несколько интересных фактов об экспертной оценке

Экспертная оценка в Интернете

2

Где это используется? • Интернет-поиск

• Научные исследования

• Интернет-бизнес, в т.ч. спам

3

Асессоры Яндекса

• Релевантность: случайные запросы + документы к ним

• Относительные оценки

• Классификации и пр

4

5

Абсолютная шкала: релевантность документов

6

Абсолютная шкала: картинки/видео

7

Попарное сравнение

Amazon Mechanical Turk CrowdSourcing

8

Amazon Mechanical Turk

9

Итак, факты!

10

№1: Оптимисты VS Пессимисты

11

• Оптимисты: когда сомневаются, завышают оценку

• Пессимисты: когда сомневаются, занижают оценку

• Негативные оценки - чаще верные

12

Пессимизм приходит с опытом

13

20,0%

30,0%

40,0%

50,0%

60,0%

70,0%

400 900 1300 1700 2100 2500 2900 2300 3700

Positive

Negative

№2: Дороже – не значит лучше

14

• Две стратегии: «сделать побольше, пока не выгнали» VS «аккуратная работа, долгое сотрудничество»

• Задания с высокой стоимостью привлекают первых

• Поэтому повышение стоимости задания может увеличить скорость его выполнения, но не повышает качество работы

15

№3: Оценки сами говорят о своем качестве

16

• Входной контроль

• Постпроверка случайной выборки заданий

• Предпроверенные задания («голденсет»)

• Ловушки

• Согласованность

• Распределение оценок

Контроль качества: ручной и автоматический

17

Сравнение «лучше/хуже/одинаково»

18

-1

0

1

1 2 3 4 5 6 7 8 9 10 11

Нормальный

-1

0

1

1 2 3 4 5 6 7 8 9 10 11

Хитрый

-1

0

1

1 2 3 4 5 6 7 8 9 10 11 12

Ленивый

№4: Эксперты среди экспертов

19

Если нужны специальные знания, а их нет:

• Если человек плохо разбирается в теме, он склонен завышать оценку

• Релевантным кажется документ, который объясняет смысл запроса, а не отвечает на него

• Релевантность документа часть оценивают по наличию слов запроса

20

[Фортепиано с нуля+нотная грамота](Москва)

21

№5: Чего не могут эксперты

22

23

Вакансия: писатель положительных отзывов

24

• Используют больше превосходных степеней

• Меньше конкретных определений

• Избегают пространственных определений

• Чаще упоминают не относящиеся к самому объекту отзыва вещи

• Чаще упоминают первое лицо

25

Фальшивые отзывы

• Towards Building a High-Quality Workforce with Mechanical Turk, 2010 PaulWais, Shivaram Lingamneni, Duncan Cook, Jason Fennell, Benjamin Goldenberg, Daniel Lubarov, David Marin, and Hari Simons Yelp, Inc

• An Analysis of Assessor Behavior in Crowdsourced Preference Judgments, 2010 Dongqing Zhu and Ben Carterette; Department of Computer & Information Sciences University of Delaware

• The Effect of Assessor Errors on IR System Evaluation, 2010 Ben Carterette, Dept. of Computer and Information Sciences University of Delaware; Ian Soboroff, National Institute of Standards and Technology, Gaithersburg, MD

• How evaluator domain expertise affects search result relevance judgments, 2007 Kenneth A. Kinney, Scott B. Huffman, and Juting Zhai. Google, Inc. Mountain View, CA

• Crowdsourcing Document Relevance Assessment with Mechanical Turk, 2010 Catherine Grady and Matthew Lease, School of Information, University of Texas at Austin

• Finding Deceptive Opinion Spam by Any Stretch of the Imagination, 2011 Myle Ott Yejin Choi Claire Cardie, Department of Computer Science, Cornell University; Jeffrey T. Hancock, Department of Communication, Cornell University

26

Ссылки

Спасибо!

27

Руководитель группы асессоров

omegorskaya@yandex-team.ru

Ольга Мегорская

top related