Яков Длугач
DESCRIPTION
Яков Длугач. Бригадир, отдел лингвистических технологий. Перестановки в машинном переводе. План. Зачем? Что и куда? Как? Ну и как?. Зачем?. Порядок слов в разных языках отличается но Модель канала с шумами (Noisy channel) подразумевает последовательный перевод. - PowerPoint PPT PresentationTRANSCRIPT
Яков ДлугачБригадир, отдел лингвистических технологий
Перестановки в машинном переводе
План
1.Зачем?
2.Что и куда?
3.Как?
4.Ну и как?
Зачем?
• Порядок слов в разных языках отличается
но
• Модель канала с шумами (Noisy channel) подразумевает последовательный перевод
Пример (из «Вавилонского разговорника»)
Пример (из «Вавилонского разговорника»)
Кто
Вы
такой
,
и
что
мне
от
Вас
нужно
?
Wer
sind
Sie
und
was
möchte
ich
von
Sie
?
Phrase-based модели часто правильно обрабатывают «локальные» перестановки
Перестановки в phrase table
sind SieВы такой
мне от вас нужноmöchte ich von Sie
У коротких фраз больше вероятность встретиться в параллельном корпусе.
vs.
Distortion (post-reordering)
• Позволяет переставлять фразы при переводе (по языковой модели)
• Сильно замедляет процесс перевода
• Плохо учитывает «окружающие» конструкции (например, “ne … pas”)
Что и куда?
• Pre-reordering (preordering)
• Куда?
• Типы моделей
Preordering
• Идея – поменять порядок слов до перевода
• Особенно нужно для языков с разной типологией порядка слов (например, SVO и OSV)
• Улучшает автоматические выравнивания (GIZA++)
When you reachmy age, you will not
look as good.
When my age youreach, look as good
you will not.
Куда?
Предложение
Предложение
c изменённым
порядком слов
Перевод
reordering
Предложение
Предложение
c изменённым
порядком слов
Параллельное предложение
Типы моделей
Как?
• Описание модели
• Обучение
• Декодирование
Немного про индийский кинематограф
series binding require skill much
does not.
Описание модели: синхронные контекстно-свободные грамматики
[S]
[NP;1]
[VP;2]
[X]
[X;1]
[X;2]
• Были придуманы для компиляторов• Используются в синтаксическом SMT, а также
для построения семантических зависимостей
• Обучение
Как?
Дерево как набор помеченных отрезков
S
NPVP
NN VBGVBZ RB
VP
VBNP
JJ NN
.
series binding does not require much skill .VPrequire much skill
require skill muchСогласованный
VPrequire much skill
require skill ... muchНесогласованный
Согласованность в выравнивании
Согласованный Несогласованныйse
ries
seriesbindingdoesnot
requiremuchskill
bind
ing
requ
iresk
illm
uch
does not
serie
s
seriesbindingdoesnot
requiremuchskill
bind
ing
requ
iresk
illm
uch
does not
Извлечение правилS
NPVP
NN VBGVBZ RB
VP
VBNP
JJ NN
.
series binding does not require much skill .
VP: VBZ RB VP → VP VBZ RB
S
NPVP
NN VBGVBZ RB
VP
VBNP
JJ NN
.
series binding does not require much skill .
VP: VBZ not VB NP → VB NP VBZ not
Реализация
• Основной инструмент – утилиты фреймворка Moses: extract и score
• Модель языка – IRSTLM
• Декодирование
Как?
Алгоритм Кока-Янгера-Касами (CYK)
• Для каждой группы слов, следующих друг за другом, строим возможные «гипотезы»
• Начинаем с однословных групп
• Увеличиваем размер групп динамическим программированием
Построение гипотез
NN VBG VBZ RB VB JJ NN .
NP X X X X NP X
X X X X VP X
X X X X X
X X VP X
X X X
X X
S
seri
es
bi n
di n
g
do
es
no
t
r eq
uir
e
mu
ch
skil
l .
Гипотеза №1 Гипотеза №2
Правило склейки (gluing)
NN VBG VBZ RB VB JJ NN .
NP X X X X NP X
X X X X VP X
X X X X X
X X VP X
X X X
X
S
series
bi ndi ng
does
not
require
much
s kill .
X
Реализация
• “Chart” decoder – имеет реализацию в Moses
• Вывод пословного выравнивания
• Настройка весов – MERT или batch-MIRA
Ну и как?
• Проверили на 3 языковых направлениях: Английский-Фарси, Английский-Итальянский и Английский-Урду
• Использовали данные RSMT12.
• Baseline: не менять порядок слов
• Соревновались с двумя другими командами
Метрики
1.BLEU
2.Kendall τ-distance
3.Расстояние Хэмминга
Результаты (BLEU/Hamming/Kendall)
Система Eng-Far Eng-Ita Eng-Urdu
Baseline 50.0/0.42/0.72 65.1/0.71/0.86 38.3/0.27/0.49
Dlougach & Galinskaya 65.56/0.55/0.75 76.65/0.77/0.88 55.79/0.43/0.59
Gupta et al. 55.7/0.43/0.71 73.0/0.75/0.87 44.7/0.31/0.51
Лексические модели
TSP (задача коммивояжёра) –“A Word Reordering Model For Improved Machine Translation” (Visweswariah et al., 2011)
Результаты (BLEU/Hamming/Kendall)
Система Eng-Far Eng-Ita Eng-Urdu
Baseline 50.0/0.42/0.72 65.1/0.71/0.86 38.3/0.27/0.49
Dlougach & Galinskaya 65.6/0.55/0.75 76.7/0.77/0.88 55.8/0.43/0.59
Gupta et al. 55.7/0.43/0.71 73.0/0.75/0.87 44.7/0.31/0.51
Visweswariah et al. 68.7/0.58/0.76 83.0/0.82/0.89 63.3/0.507/0.643