Яков Длугач

Яков ДлугачБригадир, отдел лингвистических технологий

Перестановки в машинном переводе

План

1.Зачем?

2.Что и куда?

3.Как?

4.Ну и как?

Зачем?

• Порядок слов в разных языках отличается

но

• Модель канала с шумами (Noisy channel) подразумевает последовательный перевод

Пример (из «Вавилонского разговорника»)

Пример (из «Вавилонского разговорника»)

Кто

Вы

такой

,

и

что

мне

от

Вас

нужно

?

Wer

sind

Sie

und

was

möchte

ich

von

Sie

?

Phrase-based модели часто правильно обрабатывают «локальные» перестановки

Перестановки в phrase table

sind SieВы такой

мне от вас нужноmöchte ich von Sie

У коротких фраз больше вероятность встретиться в параллельном корпусе.

vs.

Distortion (post-reordering)

• Позволяет переставлять фразы при переводе (по языковой модели)

• Сильно замедляет процесс перевода

• Плохо учитывает «окружающие» конструкции (например, “ne … pas”)

Что и куда?

• Pre-reordering (preordering)

• Куда?

• Типы моделей

Preordering

• Идея – поменять порядок слов до перевода

• Особенно нужно для языков с разной типологией порядка слов (например, SVO и OSV)

• Улучшает автоматические выравнивания (GIZA++)

When you reachmy age, you will not

look as good.

When my age youreach, look as good

you will not.

Куда?

Предложение


c изменённым

порядком слов

Перевод

reordering



c изменённым

порядком слов

Параллельное предложение

Типы моделей

Как?

• Описание модели

• Обучение

• Декодирование

Немного про индийский кинематограф

series binding require skill much

does not.

Описание модели: синхронные контекстно-свободные грамматики

[S]

[NP;1]

[VP;2]

[X]

[X;1]

[X;2]

• Были придуманы для компиляторов• Используются в синтаксическом SMT, а также

для построения семантических зависимостей

• Обучение

Как?

Дерево как набор помеченных отрезков

S

NPVP

NN VBGVBZ RB

VP

VBNP

JJ NN

.

series binding does not require much skill .VPrequire much skill

require skill muchСогласованный

VPrequire much skill

require skill ... muchНесогласованный

Согласованность в выравнивании

Согласованный Несогласованныйse

ries

seriesbindingdoesnot

requiremuchskill

bind

ing

requ

iresk

illm

uch

does not

serie

s

seriesbindingdoesnot

requiremuchskill

bind

ing

requ

iresk

illm

uch

does not

Извлечение правилS

NPVP

NN VBGVBZ RB

VP

VBNP

JJ NN

.

series binding does not require much skill .

VP: VBZ RB VP → VP VBZ RB

S

NPVP

NN VBGVBZ RB

VP

VBNP

JJ NN

.

series binding does not require much skill .

VP: VBZ not VB NP → VB NP VBZ not

Реализация

• Основной инструмент – утилиты фреймворка Moses: extract и score

• Модель языка – IRSTLM

• Декодирование

Как?

Алгоритм Кока-Янгера-Касами (CYK)

• Для каждой группы слов, следующих друг за другом, строим возможные «гипотезы»

• Начинаем с однословных групп

• Увеличиваем размер групп динамическим программированием

Построение гипотез

NN VBG VBZ RB VB JJ NN .

NP X X X X NP X

X X X X VP X

X X X X X

X X VP X

X X X

X X

S

seri

es

bi n

di n

g

do

es

no

t

r eq

uir

e

mu

ch

skil

l .

Гипотеза №1 Гипотеза №2

Правило склейки (gluing)

NN VBG VBZ RB VB JJ NN .

NP X X X X NP X

X X X X VP X

X X X X X

X X VP X

X X X

X

S

series

bi ndi ng

does

not

require

much

s kill .

X

Реализация

• “Chart” decoder – имеет реализацию в Moses

• Вывод пословного выравнивания

• Настройка весов – MERT или batch-MIRA

Ну и как?

• Проверили на 3 языковых направлениях: Английский-Фарси, Английский-Итальянский и Английский-Урду

• Использовали данные RSMT12.

• Baseline: не менять порядок слов

• Соревновались с двумя другими командами

Метрики

1.BLEU

2.Kendall τ-distance

3.Расстояние Хэмминга

Результаты (BLEU/Hamming/Kendall)

Система Eng-Far Eng-Ita Eng-Urdu

Baseline 50.0/0.42/0.72 65.1/0.71/0.86 38.3/0.27/0.49

Dlougach & Galinskaya 65.56/0.55/0.75 76.65/0.77/0.88 55.79/0.43/0.59

Gupta et al. 55.7/0.43/0.71 73.0/0.75/0.87 44.7/0.31/0.51

Лексические модели

TSP (задача коммивояжёра) –“A Word Reordering Model For Improved Machine Translation” (Visweswariah et al., 2011)

Результаты (BLEU/Hamming/Kendall)

Система Eng-Far Eng-Ita Eng-Urdu

Baseline 50.0/0.42/0.72 65.1/0.71/0.86 38.3/0.27/0.49

Dlougach & Galinskaya 65.6/0.55/0.75 76.7/0.77/0.88 55.8/0.43/0.59

Gupta et al. 55.7/0.43/0.71 73.0/0.75/0.87 44.7/0.31/0.51

Visweswariah et al. 68.7/0.58/0.76 83.0/0.82/0.89 63.3/0.507/0.643

Яков Длугач

Бригадир

[email protected]

Спасибо

http://yadi.sk/d/RVn9IVaC2_fkq

Яков Длугач

Documents