翻訳精度の最大化による同時音声翻訳のための文分割法 (nlp2014)

翻訳精度の最大化による同時音声翻訳のための文分割法

小田　悠介 (@odashi_t)Graham Neubig 　　　清水　宏晃

Sakriani Sakti 　　　戸田　智基　　　中村　哲

情報科学研究科 , NAIST2014/3/18 (NLP2014)

2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 1

1. 研究背景2. 関連研究3. 提案手法4. 実験と結果


同時音声翻訳　―　機械翻訳の応用

©2014 by Yusuke Oda, AHC-Lab, IS, NAIST2014/3/18 (NLP2014) 3

• 講義・スピーチの同時音声翻訳(Simultaneous Speech Translation: SST)

– 原発話を連続的に音声認識、翻訳（、音声合成）– 同時性（訳出時間の短さ）を重視

同時音声翻訳システム (English → Japanese)

今から 18 分間で皆様を旅にご案内します

可能な限り短時間で訳出

In the next 18 minutesI'm going to take you on a journey

©2014 by Yusuke Oda, AHC-Lab, IS, NAIST

従来の音声翻訳と文分割法• 従来の音声翻訳　…

2014/3/18 (NLP2014) 4

しかし…

同時性が大きく損失• 講義など　「文が長い」「文末が曖昧」

EN JA

in the next 18 minutes I 'm going to take you on a journey and it 's a

journey that you and i have been on for many years now and ...

翻訳単位＝文末推定 [Matusov+ 2006]

in the next 18 minutesI 'm going to take you

on a journey

文分割

より短い単位の翻訳が必要　　　　文分割法の適用

今から 18 分間であなたを連れていきます

旅に

翻訳

翻訳単位を細分化

高速な訳出を実現（翻訳精度も低下：トレードオ

フ）

関連研究


• [Rangarajan-Sridhar+ 2013]– 予測された句読点の挿入位置 ( コンマ、ピリオド、その他 ) を使用

• 線型 SVM で学習 ( 素性 : word 1,2,3-gram / POS 1, 2, 3-gram)• 数種類の手法を比較検討　…　句読点による手法が最高性能

• [Fujita+ 2013]– 分割位置の右確率 (Right Probability: RP) を使用

• 右確率　…　ある位置の前後で語順が同じになる確率

• [Bangalore+ 2012]– 音声認識の無音区間（＝発話の休止）を用いて文を分割

すべてヒューリスティクスに基づく手法音韻的情報、言語的情報　…

関連研究の問題点

• 分割位置が翻訳精度に与える影響を考慮せず• 翻訳器に対して分割位置が最適化されていな

い


提案手法への要件• 提案手法が満たすべき要件


機械翻訳の評価尺度に基づいて最適な分割位置を決定

1. 定式化2. 文分割アルゴリズムの提案


文ごとの評価値の総和：

文分割　→個別に翻訳　　→結合

定式化

2014/3/18 (NLP2014) 10

学習データ中の文分割位置集合

機械翻訳の評価尺度

学習済み翻訳器

対訳文（学習デー

タ）

• 対訳文・翻訳器・評価尺度が与えられたとき、文ごとの評価尺度の合計を最大化する文分割位置を探索

11

文分割モデル

モデル化

S*

分割位置の選択

アルゴリズムの概要

2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST

3. 分割位置を素性でモデル化

2. 　　個の分割位置を学習データから選択

翻訳器 MT対訳

評価尺度 EV

K

今回メインの話題3 種類の手法

1. 学習データ（対訳コーパス）全体で分割する数　　　を決定（＝分割頻度の制約）


例

I ate lunch but she left

手法 1: 貪欲法に基づく探索• 次の分割位置を決めるとき、今までに選んだ分割位置を保

持( ＝貪欲法 : greedy search)

2014/3/18 (NLP2014) 12

最初の分割位置ω = 0.7 ω = 0.5 ω = 0.8 ω = 0.6 ω = 0.6

2 番目の分割位置ω = 0.7 ω = 0.5 ω = 0.7 ω = 0.8

3 番目の分割位置ω = 0.5 ω = 0.8ω = 0.9



選ばれた分割位置の素性を SVM で学習


I ate lunch but she left代名詞動詞名詞接続詞代名詞　動詞

I ate an apple and an orange代名詞動詞限定詞名詞　接続詞　限定詞　　名詞

例　（素性：前後の品詞）

手法 2: 素性によるグループ化

2014/3/18 (NLP2014) 13

• 翻訳器・評価尺度　…　複雑な関数　ノイズが多い– 学習データの性能が偶然良くなる分割位置で過学習

• 解決策　…　同じ素性を持つ分割位置をグループ化、同時に分割

グループ (代名詞 +動詞 ) グループ (名詞 +接続詞 ) グループ ( 限定詞 +名詞 )

• 動的計画法 (DP) で探索、　探索で素性が得られるので　モデル化は不要


手法 3: 正則化の追加

2014/3/18 (NLP2014) 14

• 素性によるグループ化を行っても、滅多に現れない素性に対して過学習してしまう可能性

正則化項

• 素性の数に対する正則化項を導入

• 大きな α 　…　最終的に選択される素性の数が減少– α = 0 のときはグループ化のみの場合と等価


実験設定• テストデータのドメイン …　 TED 翻訳タスク [WIT3: Cettolo+ 2012]• 言語対 ... 　英語→ドイツ語　・　英語→日本語• トークン化・品詞推定 ... 　 Stanford POS Tagger, KyTea• ... 　 BLEU+1• ... 　 Moses(PBMT)• テストデータの評価 ... 　 BLEU, RIBES

2014/3/18 (NLP2014) 16

言語対用途形態素数（英）形態素数（独 /

日）

英語→ドイツ語

PBMT 学習 21.8M 20.3M

文分割学習 424k 390k

テスト 27.6k 25.4k

英語→日本語

PBMT 学習 13.7M 19.7M

文分割学習 401k 550k

テスト 8.20k 11.9k

17

比較対象

手法名概要

従来手法Punct-Predict 句読点位置の予測 [Rangarajan+ 2013]

RP 右確率 [Fujita+ 2013]

提案手法

Greedy 手法 1: 貪欲法（＋ SVM によるモデル化）

Greedy+DP 手法 2: 貪欲法＋素性によるグループ化

Greedy+DP (α = 0.5) 手法 3: 貪欲法＋素性によるグループ化＋正則化



実験結果 - BLEU

2014/3/18 (NLP2014) 18

翻訳単位の平均単語数

BLEU

Greedyは性能が低い（過学習？）

Greedy+DPはRP よりも高性能（英→独： 1程度向上）

翻訳性能を維持して未分割より 3～ 5倍、句読点予測より 2～ 3倍の分割頻度を実現


実験結果 - RIBES

2014/3/18 (NLP2014) 19


RIBE

S

英→独、英→日両方で RP より高性能（英→独： 1程度向上）（英→日： 3程度向上）


実験結果 - 学習データの BLEU

2014/3/18 (NLP2014) 20


BLEU

Greedyは学習データに対し非常に高い性能

しかしテスト結果は悪い

過学習

Greedy+DPグループ化制約

過学習を抑制

21

学習結果 (Greedy+GP)

　　（高頻度順）


1 NN / CC 7 NN / RB2 NN / VBZ 8 NNS / VBP3 CC / PRP 9 NN / VBD4 NN / PRP 10 CC / IN5 CC / DT 11 CC / NN6 CC / RB 12 CC / LS

まとめ• 同時音声翻訳の実現には文分割法が必要

• 従来手法　＝　ヒューリスティクス• 提案手法　＝　翻訳精度を直接最適化

– 貪欲法– 動的計画法– 素性の数による正則化

• 実験結果– BLEU 英→独　で性能向上– RIBES 英→独、英→日　で性能向上– 分割頻度未適用より 3～ 5倍、従来手法（句読点予測）

より 2～ 3倍


23

今後の課題• Greedy+DP アルゴリズムの改良

– 多数の素性を使用できるようにする– 学習データの大規模化　（要：高速化・省メモリ化）

• 履歴を考慮した翻訳 [Rangarajan-Sridhar+ 2013] の適用– 翻訳精度が向上することが既知

• 文末推定・品詞推定のオンライン化

• 人手評価による検証


References• [Matusov+ 2006]

Evgeny Matusov, Arne Mauser, and Hermann Ney. Automatic sentence segmentation and punctuation prediction for spoken language translation. In Proc. IWSLT, pages 158-165, 2006.

• [Bangalore+ 2012]Srinivas Bangalore, Vivek Kumar Rangarajan Sridhar, Prakash Kolan, Ladan Golipour, and Aura Jimenez. Real-time incremental speech-to-speech translation of dialogs. In Proc. NAACL HLT, pages 437-445, 2012.

• [Rangarajan-Sridhar+ 2013]Vivek Kumar Rangarajan Sridhar, John Chen, Srinivas Bangalore, Andrej Ljolje, and Rathinavelu Chengalvarayan. Segmentation strategies for streaming speech translation. In Proc. NAACL HLT, pages 230-238, 2013.

• [Fujita+ 2013]Tomoki Fujita, Graham Neubig, Sakriani Sakti, Tomoki Toda, and Satoshi Nakamura. Simple, lexicalized choice of translation timing for simultaneous speech translation. In InterSpeech, 2013.

• [WIT3: Cettolo+ 2012]Mauro Cettolo, Christian Girardi, and Marcello Federico.2012. Wit3: Web inventory of transcribed and translated talks. In Proc. EAMT, pages 261–268.


翻訳精度の最大化による同時音声翻訳のための文分割法 (nlp2014)

Technology