кулагин поиск близких по смыслу языковых выражений

Post on 22-May-2015

169 Views

Category:

Education

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

2013 осень

TRANSCRIPT

Поиск близких по смыслу языковых выражений

Кулагин Илья, 525

Синонимы

Синонимы – слова, тождественные или очень близкие по своему значению («Большой толковый словарь» В.И.Даль)

2

«Академический» поиск синонимов

3

«Академический» поиск синонимов

1) Замена слов друг на друга в разных примерах;

3

«Академический» поиск синонимов

1) Замена слов друг на друга в разных примерах;

2) Больше число примеров => ближе значения;

3

«Академический» поиск синонимов

1) Замена слов друг на друга в разных примерах;

2) Больше число примеров => ближе значения;

3) Обобщение

3

«Академический» поиск синонимов

1) Замена слов друг на друга в разных примерах;

2) Больше число примеров => ближе значения;

3) Обобщение

Недостаток: небольшой набор примеров

3

Метод «Яндекса» поиска синонимов

Время – до 2012 года

Цель – получить базу «синонимов», по которой можно будет расширять поисковые запросы

(«Майнинг близких по смыслу языковых выражений для поисковой системы Яндекс» Алексей Сокирко)

4

«Синонимы»

Синонимы – слова, тождественные или очень близкие по своему значению («Большой толковый словарь» В.И.Даль)

+

Словоформы, аббревиатуры и тд

5

Классы близких по смыслу языковых выражений

Можно выделить два больших класса близких по смыслу языковых выражений:

6

Классы близких по смыслу языковых выражений

Можно выделить два больших класса близких по смыслу языковых выражений:

• С соответствиями между внутренними элементами (буквами, слогами, любыми морфологическими элементами);

6

Класс с соответствиями между внутренними элементами

• Морфологическое словоизменение:

мама – мамой – мамами

• Морфологическое словообразование:

Москва – московский

Компиляция - компилирование

• Аббревиатуры

МГУ - Московский государственный университет

7

Класс с соответствиями между внутренними элементами

• Транслиты

Гугл - Google

• Слитно - раздельно

ватер-поло – ватерполо

• Орфоварианты

colour – color

бильярд - биллиард

8

Классы близких по смыслу языковых выражений

Можно выделить два больших класса близких по смыслу языковых выражений:

• С соответствиями между внутренними элементами (буквами, слогами, любыми морфологическими элементами);

• Без поддержки внутренних элементов.

9

Класс без поддержки внутренних элементов

• Переводы

стол - table

• Чистые синонимы

бегемот – гиппопотам

10

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов

11

Построение списка гипотез

В рамках рассматриваемой нами задачи гипотезой будем считать пару слов (выражений) - синонимов

Пример:

кавалерия – конница

реферат – доклад

12

Построение списка гипотез

• Выравнивненные параллельные тексты;

• База гиперссылок («Линковая база»);

• Скобочные написания;

• Открытые словари (Википедия и др);

• Переформулировки запросов.

13

Выравненные параллельные тексты

Русское словосочетание Английский аналог Частота

киотский протокол kyoto protocol 20

киотские соглашения kyoto treaty 10

киотские соглашения kyoto protocol 11

киотский протокол kyoto treaty 40

киотский протокол kyoto agreement 1

Два русских выражения можно объявить гипотезами синонимов, когда они переводятся в одно и то же английское выражение. Общих английских выражений может быть много, чем больше, тем лучше. 14

База гиперссылок («Линковая база»)

<a href=1.html> кавалерия </a> <a href=1.html> конница </a>

База гиперссылок («Линковая база») – это набор приссылочных текстов на гиперлинках, которые ведут на один сайт

15

База гиперссылок («Линковая база»)

База гиперссылок («Линковая база») – это набор приссылочных текстов на гиперлинках, которые ведут на один сайт

<a href=1.html> кавалерия </a> <a href=1.html> конница </a>

<a href=>смотри подробнее здесь</a>

15

Скобочное написание

Скобочное написание – это набор n-gram, которые встречаются с текстах рунета в контексте скобок:

Московский государственный университет (МГУ)

Владимир Путин (Vladimir Putin)

16

Открытые словари

Русская Википедия содержит около миллиона строгих соответствий, типа:

Абрикос сибирский --- Даурсат

Авачинская бухта --- Авачинская губа

17

Переформулировки запросов

1) Переформулировки запросов - это пары запросов, которые часто возникают внутри поисковых сессий

[Апокалипсис смотреть] –> [Апокалипсис фильм]

2) Кликовые данные - это пары разных запросов, с которых пользователи кликнули по одному и тому же сайту на поисковой выдаче

18

Нормализация

Нормализация – это приведение гипотез к нормальной (словарной) форме (как они должны быть в любом бумажном словаре)

Государственной Думы

-> Государственная Дума

Государственную Думу

20

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов

21

Машинное обучение

Результаты работы всех методов объединяются в одну таблицу (примерно 200 млн. гипотез)

Обучающая выборка: 40 000 вручную размеченных пар

22

Машинное обучение

Признаки:

• FactorAnd – встречаемость двух выражений рядом в тексте;

• FactorCtxt – встречаемость выражений в похожих контектсах;

• ExtTypes - тип поискового расширения (транслит, аббревиатура и т.д.) ;

• Leven, Translit – близость по Левенштейну, транслитности;

Результат:

В соответсвие любой гипотезе ставим число – степень синонимичности

23

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов

24

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов

~ 200 миллионов гипотез

25

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов

~ 200 миллионов гипотез

~ 150 миллионов гипотез

25

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов – выделяем несколько миллионов и объявляем словарем

~ 200 миллионов гипотез

~ 150 миллионов гипотез

25

Результаты

26

Hum ML

яник yanik 1 1

топограф землемер 0 1

москва moskwa 1 0

племена роды 0 1

характерный отличительный 1 1

Ошибки

• Ошибки первого рода – ложное применение синонимов:

<кормящая, содержать> - разные значения

<освещение, света> - омонимия

<топограф, землемер> - искусственные синонимы

27

Ошибки

• Ошибки второго рода – ложное неприменение синонимов:

<москва, moskwa>

<гоголь, гоголевский>

<сайт, веб страница>

<забеременеть, беременность>

<шины, шинный>

<шины, резина>

<курсовые, реферат>

28

Заключение

• Система успешно существовала в компании «Яндекс» до 2012 года;

• Размеры обучающих выборок сопоставимы с размерами небольших опубликованных словарей синонимов;

• «Ручные» факторы очень важны для машинного обучения

29

Спасибо за внимание!

30

Список литературы

• «Майнинг близких по смыслу языковых выражений для поисковой системы Яндекс (до 2012 года)» Алексей Сокирко

• Wikipedia

• «Большой толковый словарь русского языка» В.И.Даль

31

top related