Интерактивное разрешение неоднозначности различных...

31
Интерактивное разрешение неоднозначности различных типов в машинном переводе И.М. Богуславский, Л.Л. Иомдин, А.В. Лазурский, Л.Г. Митюшин, А.С. Бердичевский, В.Г. Сизов, Л.Г. Крейдлин Работа поддержана грантом № 02-06-80085 РФФИ и стипендией Яндекса #102921

Upload: eithne

Post on 20-Feb-2016

80 views

Category:

Documents


0 download

DESCRIPTION

Интерактивное разрешение неоднозначности различных типов в машинном переводе И.М. Богуславский, Л.Л. Иомдин, А.В. Лазурский, Л.Г. Митюшин, А.С. Бердичевский , В.Г. Сизов, Л.Г. Крейдлин Работа поддержана грантом № 02-06-80085 РФФИ и стипендией Яндекса #102921. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Интерактивное разрешение неоднозначности различных типов в

машинном переводе

И.М. Богуславский, Л.Л. Иомдин, А.В. Лазурский, Л.Г. Митюшин,

А.С. Бердичевский, В.Г. Сизов, Л.Г. Крейдлин

Работа поддержана грантом № 02-06-80085 РФФИ и стипендией Яндекса #102921

Page 2: Интерактивное разрешение неоднозначности различных типов в машинном переводе

— Мы, управление дома, — с ненавистью заговорил Швондер, — пришли к вам после общего собрания жильцов нашего дома, на котором стоял вопрос об уплотнении квартир дома...

— Кто на ком стоял? — Крикнул Филипп Филиппович, — потрудитесь излагать ваши мысли яснее.

М. А. Булгаков, «Собачье сердце».

Page 3: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Вечная проблема неоднозначности

• Разрешение на основе все более детальной лексической и грамматической информации

• Недостатки: Огромный объем работы Ограниченная эффективность

Page 4: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Вечная проблема неоднозначности

• Разрешение на основе статистических данных Представляется очень перспективным, но

максимальная эффективность на сегодняшний день около 75%

Page 5: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Интерактивное разрешение• Идея была впервые выдвинута примерно 25 лет назад

(по данным В. Хатчинза, Hutchins 1986) • Системы ALPS и Weidner в штате Юта: начало 1980-х• Maruyama et al. 1990: для японского языка• Christian Boitet и Hervé Blanchon в Гренобле (1994) • Lidia, Systran, ALT-J/E (NTT Communication Science

Laboratories of Japan), система МП университета UMIST, группа Spoken Translation в США, система многоязычного поиска и навигации в интернете, разработанная DFKI и университетом земли Саар

Page 6: Интерактивное разрешение неоднозначности различных типов в машинном переводе

ЭТАП-3: синтаксический анализатор

• Переводит морфологическую структуру предложения в дерево зависимостей:

Page 7: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Этап-3: перевод• На вход модуля перевода подается

нормализованная древесная структура; если заданное предложение неоднозначно – несколько структур

• Содержание узлов и синтаксические отношения переводятся на выходной язык; применяются тривиальные и нетривиальные правила, происходит обращение к комбинаторному словарю

Page 8: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Интерактивное разрешение лексической неоднозначности

• Я попадаю в кабак и кучу с тремя девицами

Page 9: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Слово кучу неоднозначно. Что вы имеете в виду?

КУЧА: существительное. ГРУДА. Куча земли. (heap)

КУТИТЬ: глагол. ПРАЗДНОВАТЬ, ТРАТЯ ДЕНЬГИ. Мы сегодня кутим! (revel)

Page 10: Интерактивное разрешение неоднозначности различных типов в машинном переводе

I get to a tavern and a heap with three girls

Page 11: Интерактивное разрешение неоднозначности различных типов в машинном переводе

I get to a tavern and I revel with three girls

Page 12: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Подготовка лексического разрешения

Для омонимичных слов (с совпадающими леммами или словоформами) в КС включаются КОММЕНТАРИИ: 1) аналитическое толкование значения слова или его существенный фрагмент; 2) маркер части речи, 3) простые синтаксические признаки, 4) синонимы и/или антонимы слова.и ПРИМЕРЫ

Page 13: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Точки, в которых может запрашиваться мнение эксперта

• Непосредственно перед выбором вершины дерева

• После проверки всех синтаксических гипотез (бинарных поддеревьев)

• Непосредственно перед выбором вариантов перевода

Page 14: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Достижения и намерения

Обработано: 20000 русских омонимичных словОбрабатывается: 20000 английскихЦель – два возможных режима работы системы:• «Автоматический»: максимально используются вероятностные соображения, маловероятные гипотезы отсекаются на ранних стадиях анализа• «Интерактивный»: максимально используются знания пользователя, что позволяет получить более адекватную интерпретацию

Page 15: Интерактивное разрешение неоднозначности различных типов в машинном переводе

American National Standards Institute

Необходимость выбрать вариант перевода.Противоречия в словарях.Противоречия среди экспертов.Противоречия в справочных данных.

Есть ли здесь вообще омонимия в пределах английского языка?

Page 16: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Опрос носителей• Есть те, кто замечает омонимию, есть те,

кто не замечает• Среди не замечающих омонимию нет

выбирающих National Institute• Один носитель пкак Standards Institute

for American Nationals

Page 17: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Ответ ЭТАПа:• Американские национальные стандарты

учреждают • Стандарты американского подданного учреждают • Американские стандарты подданного учреждают • Национальные в отношении американца стандарты

учреждают• Американский национальный стандартный

институт • Стандартный институт американского подданного• Американский стандартный институт подданного • Национальный в отношении американца

стандартный институт

Page 18: Интерактивное разрешение неоднозначности различных типов в машинном переводе

The word Institute is ambiguous. What does it mean?

A noun: a scientific or educational institution. I work at the Medical Institute (институт)

A verb: institutionalize, establish. To institute a society (учреждать)

Page 19: Интерактивное разрешение неоднозначности различных типов в машинном переводе
Page 20: Интерактивное разрешение неоднозначности различных типов в машинном переводе

The word American is ambiguous. What does it mean?

Adjective: of or referring to America. American food (американский)

Noun: a resident or citizen of America. An American was first on the competition (американец)

Page 21: Интерактивное разрешение неоднозначности различных типов в машинном переводе
Page 22: Интерактивное разрешение неоднозначности различных типов в машинном переводе

The word National is ambiguous. What does it mean?

Adjective: of or referring to a nation. National anthem (национальный)

Noun: a citizen. British nationals are known for their patriotism (подданный)

Page 23: Интерактивное разрешение неоднозначности различных типов в машинном переводе
Page 24: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Синтаксическая омонимия• Разрешение лексической устраняет

значительную часть синтаксической• Существуют механизмы и для разрешения

чисто синтаксической, но требуют хорошего знания используемых формализмов

• Ведется разработка механизмов, которые позволят вести диалог с неподготовленным пользователем

Page 25: Интерактивное разрешение неоднозначности различных типов в машинном переводе

He studies buzzes and whistles

This phrase is ambiguous. What does it mean?

He studies buzzes and he whistles.

He studies buzzes and he studies whistles.

Page 26: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Он изучает жужжание и свистит

Page 27: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Он изучает жужжание и свист

Page 28: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Внутренняя и переводная неоднозначность

• Некоторые случаи неоднозначностей следует различать вне зависимости от выходного языка

• Мужу изменять нельзя• Я попадаю в кабак и кучу с тремя

девицами

Page 29: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Внутренняя и переводная неоднозначность

• Некоторые неоднозначности возникают только при переводе на конкретный язык

• Не нужно различать рыбу как животное и рыбу как еду при переводе с русского на английский, французский или немецкий

• Но нужно при переводе на испанский, где pez – рыба как животное и pescado – рыба как еда

Page 30: Интерактивное разрешение неоднозначности различных типов в машинном переводе

Внутренняя и переводная неоднозначность

• Различие, последовательно проводимое в ЭТАПе

• Различные типы обрабатываются на разных этапах: анализа и перевода

• Важно для многоязычной среды: режим интерактивного разрешения включается в зависимости от выходного языка

Page 31: Интерактивное разрешение неоднозначности различных типов в машинном переводе

СПАСИБО ЗА ВНИМАНИЕ