Извлечение объектов из поисковых запросов

24
Извлечение объектов из поисковых запросов Михаил Обухов, Михаил Долинин

Upload: fathi

Post on 15-Feb-2016

85 views

Category:

Documents


0 download

DESCRIPTION

Извлечение объектов из поисковых запросов. Михаил Обухов, Михаил Долинин. Что такое объекты?. ООО « Мэйл.Ру ». Названия организаций Имена людей Названия должностей Адреса Названия программ и т.д. Яхрома. 15-18 февраля 2012 г. ISBN: 978-1405187848. ГОСТ 2.001-93. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Извлечение объектов из поисковых запросов

Извлечение объектов из поисковых запросов

Михаил Обухов, Михаил Долинин

Page 2: Извлечение объектов из поисковых запросов

Что такое объекты?• Названия организаций• Имена людей• Названия должностей• Адреса• Названия программ• и т.д.

ООО «Мэйл.Ру»

15-18 февраля 2012 г.ГОСТ 2.001-93

ISBN: 978-1405187848

Яхрома

Page 3: Извлечение объектов из поисковых запросов

Справочники

Свойство ЗначениеКласс Лекарственное средствоНазвание НавтизинМеждународное название НафазолинДозировка Детская

… …

Парсер запросов

детский нафтизин инструкция

Page 4: Извлечение объектов из поисковых запросов

Для чего нужны объекты?• Классификация поисковых запросов• Вопросно-ответные задачи• Переформулировки• Индексация• Обогащение поисковых запросов• …

Page 5: Извлечение объектов из поисковых запросов

Лог поисковых запросов

NEX* Объекты

Задача

ИндексацияПарсинг запросов*NEX – Named Entity eXtraction

Page 6: Извлечение объектов из поисковых запросов

Какие решения существуют?• Машинное обучение– Классификаторы (Naïve Bayes, ME Models, …)– Последовательные модели (HMM, CRF, …)

• Системы основанные на правилах– Ручное составление– Автоматическое

• Использование онтологий– Wikipedia, DbPedia– Imdb

Page 7: Извлечение объектов из поисковых запросов

Особенности поисковых запросов• Малая длина (в среднем 3 слова)• Слабая грамматическая структура• Не являются текстом на ЕЯ• Отражают потребности пользователей

Купить квартиру бесплатноЕ мобиль когда начнут продаватьМать и сынКино где купитьИстория происхождения шотландских вислоухих

Page 8: Извлечение объектов из поисковых запросов

Основные предположения• Объекты одного типа встречаются в

одинаковых контекстах• Объект является самостоятельным поисковым

запросом

Page 9: Извлечение объектов из поисковых запросов

Общая структура метода

Фаза извлечения шаблонов

Лог запросов

SeedШаблоны

Фаза генерации объектов

Фаза генерации объектов

Фаза извлечения объектов

Объекты

Лог запросовЛог запросовЛог запросов

Page 10: Извлечение объектов из поисковых запросов

Фаза извлечения шаблонов

Фаза извлечения шаблонов

Лог запросов

SeedШаблоны

Фаза генерации объектов

Фаза генерации объектов

Фаза извлечения объектов

Объекты

Лог запросовЛог запросовЛог запросов

Page 11: Извлечение объектов из поисковых запросов

Фаза извлечения шаблонов• Исходные данные:– Лог поисковых запросов– Начальный список шаблонов (1-2 шаблона)

• Результат: список шаблонов с весами

Page 12: Извлечение объектов из поисковых запросов

Шаг 1:извлечение начальных объектов

• Для каждого запроса из лога– Пробуем извлечь объект– Если получилось, сохраняем

• Очистка извлеченных объектов– Не встречающихся как самостоятельный запрос

смотреть <название>смотреть сериал <название> \d+ сезон \d+ серия онлайн бесплатно в хорошем качестве

Начальные шаблоны должны быть точными!

Page 13: Извлечение объектов из поисковых запросов

Шаг 2: извлечение кандидатов• Для каждого начального объекта– Из каждого запроса, где он встречается– Создаем шаблон

смотреть сериал счастливы вместе онлайн серия 2

смотреть сериал <название> онлайн серия \d+

Page 14: Извлечение объектов из поисковых запросов

Шаг 3: Взвешивание кандидатов• Рассчитываем вес для каждого кандидата• Удаляем кандидатов имеющих низкий вес

Полнота (кандидат) =кол-во извлеченных начальных объектов

общее кол-во начальных объектов

Точность (кандидат) =кол-во извлеченных доверенных*объектов

общее кол-во извлеченных объектов

*Доверенный – объект извлеченный N и более различными шаблонами

Page 15: Извлечение объектов из поисковых запросов

сериал (.+) \d+ сезон смотреть онлайн бесплатно:0.95

сериал (.+) \d+ сезон \d+ серия смотреть онлайн:0.93

(.+) \d+ сезон смотреть онлайн:0.90

(.+) смотреть:0.07

скачать (.+):0.03

Page 16: Извлечение объектов из поисковых запросов

Фаза извлечения объектов

Фаза извлечения шаблонов

Лог запросов

SeedШаблоны

Фаза генерации объектов

Фаза генерации объектов

Фаза извлечения объектов

Объекты

Лог запросовЛог запросовЛог запросов

Page 17: Извлечение объектов из поисковых запросов

Фаза извлечения объектов• Исходные данные:– Лог поисковых запросов– Список шаблонов (полученный ранее)

• Результат: список объектов с весами

Page 18: Извлечение объектов из поисковых запросов

Шаг 1: извлечение кандидатов• Для каждого шаблона из списка– Сохраняем все объекты, которые он может

извлечь• Очистка извлеченных объектов– Не встречающихся как самостоятельный запрос– Не частотные объекты– Содержащие слова из списка шаблонов

Page 19: Извлечение объектов из поисковых запросов

Шаг 2: Взвешивание объектов• Рассчитываем вес для каждого объекта в

списке• Удаляем объекты имеющие низкий вес

Вес (объект) =Log(сколько раз объект был извлечен)

Log(кол-во уникальных запросов содержащих объект)

Page 20: Извлечение объектов из поисковых запросов
Page 21: Извлечение объектов из поисковых запросов

Метод оценки результата• Точность первых N объектов (10, 50, 100 …)• Точность случайной выборки (100)

Page 22: Извлечение объектов из поисковых запросов

Результаты:Класс @10 @50 @100 Средняя

точностьфильмы 100% 94.2% 89.4% 81.6%

рецепты 100% 96.1% 90.7% 84.3%

книги 94.3% 80.9% 74.3% 68.7%

Page 23: Извлечение объектов из поисковых запросов

Достоинства и недостатки• Достоинства– Простая реализация– Масштабируемость– Хорошая точность

• Недостатки– Требует ручного вмешательства (начальный

список шаблонов)– Требует задания порогов

Page 24: Извлечение объектов из поисковых запросов

СПАСИБО! ВОПРОСЫ?Михаил Обухов[email protected]Михаил Долинин[email protected]