中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
Post on 16-Jan-2017
382 Views
Preview:
TRANSCRIPT
中間⾔語モデルを⽤いた多⾔語機械翻訳の精度向上
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 1
第3回 AAMT⻑尾賞学⽣激励賞 研究発表
奈良先端科学技術⼤学院⼤学知能コミュニケーション研究室
三浦 明波 (Akiva Miura)
⽬次
1. 研究背景2. 従来のピボット翻訳⼿法3. 提案⼿法4. 実験的評価5. まとめ・今後の課題6. Appendix
16/06/20 2Akiva Miura AHC-Lab, IS, NAIST
⽬次
1. 研究背景(ピボット翻訳の必要性)2. 従来のピボット翻訳⼿法3. 提案⼿法4. 実験的評価5. まとめ・今後の課題6. Appendix
16/06/20 3Akiva Miura AHC-Lab, IS, NAIST
ü ⼈⼿によるルール記述が不要
統計的機械翻訳l 統計的機械翻訳(Statistical Machine Translation ; SMT) :
[Brown et al., 1993]
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 4
対訳コーパス
⽬的⾔語コーパス
翻訳モデル
⾔語モデル
デコーダ(翻訳機)
学習データ ⼊⼒⽂
出⼒⽂
翻訳システム
ü 学習データの⽂量が増えるほど訳出の精度が向上
多⾔語翻訳における課題
16/06/20 5
l ⾔語対によって対訳コーパスの取得性が⼤きく異なる
(例)
• ⼗分な⽂量の対訳コーパスが得られない場合は…?
Akiva Miura AHC-Lab, IS, NAIST
OKü ⽇本語 ⇔ 英語:
Web上で1000万⽂以上の⼤規模データが取得可能
NG✗ ⽇本語 ⇔ イタリア語: ? (⽂単位で対訳になっているデータは多くない)
ピボット翻訳
翻訳したいが⼗分な対訳コーパスが無い…
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 6
⽇本語 イタリア語✗ピボット⾔語(中間⾔語)を導⼊!
⽇本語 イタリア語英語
ピボット⾔語を介して翻訳が可能に!!
⽇本語 イタリア語英語✔
Source Pivot Target
⽬次
1. 研究背景2. 従来のピボット翻訳⼿法3. 提案⼿法4. 実験的評価5. まとめ・今後の課題6. Appendix
16/06/20 7Akiva Miura AHC-Lab, IS, NAIST
ü 実現が容易、機械翻訳⽅式に依らず組合せ可能✗ 翻訳誤りが伝播される、システム全体の最適化困難
15/03/15 Akiva Miura AHC-Lab, IS, NAIST 8
SMTS → P
SMTP → TS⽂ P⽂ T⽂
l パイプライン処理によって中間⾔語⽂を介して翻訳 [De Gispert et al.,2006]
逐次的ピボット翻訳 (Cascade)
S: 原⾔語P: 中間⾔語T: ⽬的⾔語
ü 独⽴したモデルを⽣成、最適化が容易ü 逐次的ピボット翻訳よりも⾼精度• 翻訳確率の推定⽅法に精度が依存
テーブル合成⽅式 (Triangulation)
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 9
SMTS → P
SMTP → T
S⽂ T⽂SMTS → T
l 2つの翻訳モデルを1つに合成 [Cohn et al., 2007]
S: 原⾔語P: 中間⾔語T: ⽬的⾔語
テーブル合成⼿法の例
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 10
approach近似
アプローチ approximation
access接近
approccio
accesso
ravvicinamentoSource(⽇) Pivot(英) Target(伊)
l 学習済みのSource-Pivot、Pivot-Targetのフレーズ対応
Ø Source-Targetのフレーズ対応を推定(翻訳確率の推定も必要)近似 approccio近似 accesso
・・・
近似 ravvicinamentoアプローチ approccio
✗ 多義語・⽤語法の差異により適切なフレーズ対応の推定は困難
⽬次
1. 研究背景2. 従来のピボット翻訳⼿法3. 提案⼿法4. 実験的評価5. まとめ・今後の課題6. Appendix
16/06/20 11Akiva Miura AHC-Lab, IS, NAIST
着想
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 12
ü 翻訳時に⽬的⾔語と中間⾔語の⽂を同時に⽣成ü 中間⾔語では、豊富な単⾔語資源を取得可能Ø 中間⾔語⽂の⾃然性を考慮することで適切な語彙選択に貢献?
近似 approccio(via: approach)
近似 ravvicinamento(via: approach, approximation)
・・・
l 従来法:テーブル合成後には、関連していたピボットの情報が消失
近似 〈approccio, approach〉近似 〈ravvicinamento, approach〉近似 〈ravvicinamento, approximation〉
l 提案法:テーブル合成時に、関連するピボットフレーズも記憶
・・・
提案⼿法: 複数同期ルール合成
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 13
• First train source-pivot and pivot-target SCFG rules using the standard methodX → 〈 src1, pvt1 〉X → 〈 src2, pvt1 〉X → 〈 src3, pvt2 〉 . . .
X → 〈 pvt1, trg1〉X → 〈 pvt2, trg2〉X → 〈 pvt2, trg3〉 . . .
• Combine source, target and pivot strings as a Multi-SCFG [Neubig+ 15] rules for each common pivot string
X → 〈 src1, trg1, pvt1 〉X → 〈 src2, trg1, pvt1 〉X → 〈 src3, trg2, pvt2 〉X → 〈 src3, trg2, pvt3 〉 . . .
• First train source-pivot and pivot-target SCFG rules using the standard methodX → 〈 src1, pvt1 〉X → 〈 src2, pvt1 〉X → 〈 src3, pvt2 〉 . . .
X → 〈 pvt1, trg1〉X → 〈 pvt2, trg2〉X → 〈 pvt2, trg3〉 . . .
• Combine source, target and pivot strings as a Multi-SCFG [Neubig+ 15] rules for each common pivot string
X → 〈 src1, trg1, pvt1 〉X → 〈 src2, trg1, pvt1 〉X → 〈 src3, trg2, pvt2 〉X → 〈 src3, trg2, pvt3 〉 . . .
X → 〈 src1, pvt1 〉X → 〈 src2, pvt1 〉X → 〈 src3, pvt2 〉 . . .
X → 〈 pvt1, trg1〉X → 〈 pvt2, trg2〉X → 〈 pvt2, trg3〉 . . .
l Source-Pivot、Pivot-Targetの同期ルール(Chiang 2007)を個別に学習
Ø 共通するピボットフレーズ毎にSource-Target-Pivotの複数同期ルール(Neubig et al., 2015)を合成
X → 〈 src1, trg1, pvt1 〉X → 〈 src2, trg1, pvt1 〉X → 〈 src3, trg2, pvt2 〉X → 〈 src3, trg2, pvt3 〉 . . .
同時翻訳確率を推定
φ(trg,pvt | src) φ(src | pvt,trg)
翻訳確率
φ(pvt | src)φ(src | pvt)φ(trg | pvt)φ(pvt | trg)
⽬次
1. 研究背景2. 従来のピボット翻訳⼿法3. 提案⼿法4. 実験的評価5. まとめ・今後の課題6. Appendix
16/06/20 14Akiva Miura AHC-Lab, IS, NAIST
翻訳タスク
16/06/20 15
直接:SMT
S → TS T
SMTS → PS P SMT
P → T T
逐次:
無記憶合成 (ベースライン):
SMTS → P
SMTP → T
SMTS → T
S T
記憶合成 (提案法):SMT
S → PSMT
P → T
SMT (Multi)S → T, PS
T
PAkiva Miura AHC-Lab, IS, NAIST
実験設定
使⽤ツール単語アラインメント推定: GIZA++ [Och et al., 2003]
⾔語モデル学習: KenLM (5-gram) [Heafield, 2011]翻訳モデル学習、翻訳機: Travatar (SCFG, MSCFG) [Neubig, 2013]
⾃動評価尺度: BLEU-4 [Papineni et al., 2002]
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 16
データセット欧州議会議事録多⾔語コーパス(Europarl) [Koehn, 2003]
対訳学習: 100k,最適化: 1.5k,評価: 1.5kTarget⾔語モデル: 100kPivot⾔語モデル: 2M
Pivot : 英語 (en)Source, Pivot (全組み合わせ): ドイツ語 (de) スペイン語 (es) フランス語 (fr) イタリア語 (it)
実験結果
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 17
Src TrgBLEU-4 スコア [%]
直接 逐次 無記憶合成 記憶合成+PivotLM 2M
de
es 27.10 25.05 25.31 25.75 *
fr 25.65 23.86 24.12 24.58 *
it 23.04 20.76 21.27 22.29 **
es
de 20.11 18.52 18.77 19.40 *
fr 33.48 27.00 29.54 29.95 *
it 27.82 22.57 25.11 25.64 **
fr
de 19.69 18.01 18.73 19.19 *
es 34.36 27.26 30.31 31.00 **
it 28.48 22.73 25.31 26.22 **
it
de 19.09 14.03 17.35 18.52 **
es 31.99 25.64 28.85 29.31 *
fr 31.39 25.87 28.48 29.02 *
* : p < 0.05 ** : p < 0.01
全ての組合せで、
逐次 < 無記憶合成
無記憶合成 < 記憶合成(0.4〜1.2 %の精度向上)
中間⾔語モデル規模の影響
16/06/20 18
21.2 21.4 21.6 21.8
22 22.2 22.4 22.6 22.8
23 23.2
0 500000 1x106 1.5x106 2x106
BLEU
Sco
re [%
]
Pivot-LM Size [sent.]
Direct Tri. SCFG Tri. MSCFG
l 中間⾔語(英語)モデルサイズが翻訳精度に与える影響(例:独伊ピボット翻訳)
✔ 中間⾔語モデル規模の増加に伴い、⽬的⾔語でも精度向上Akiva Miura AHC-Lab, IS, NAIST
↑直接翻訳
↑記憶合成
↓無記憶合成
曖昧性が解消された例
⼊⼒⽂ (ドイツ語):Ich bedaure , daß es keine gemeinsame Annäherung gegeben hat .
正解訳 (イタリア語):Sono spiacente del mancato approccio comune .
無記憶合成 (ベースライン):Mi rammarico per il fatto che non si ravvicinamento comune . (BLEU+1: 13.84)
記憶合成 (提案法):Mi dispiace che non esiste un approccio comune . (BLEU+1: 25.10)I regret that there is no common approach . (同時⽣成された英⽂)
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 19
✔ ピボットフレーズの情報と中間⾔語モデルが曖昧性解消に寄与
↑✗◯↓
曖昧性を解消できなかった例
⼊⼒⽂ (フランス語):Vous avez tout à fait raison et je vous remercie dʼavoir attire´ lʼattention sur ce point .
正解訳 (スペイン語):Tiene usted toda la razón y le agradezco que nos llame la atención sobre este punto .
直接翻訳 (上限):Tiene usted razón y le agradezco que haya llamado la atención sobre este punto . (BLEU+1: 56.00)
記憶合成 (提案法):Tiene usted mucha razón y gracias por haber conseguido la atención sobre este punto . (BLEU+1: 38.91) You have quite right and I thank you for having courageously brought the attention on this point . (同時⽣成された英⽂)
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 20
✗ 多品詞語「thank」の影響で訳が変わってしまっている
⽬次
1. 研究背景2. 従来のピボット翻訳⼿法3. 提案⼿法4. 実験的評価5. まとめ・今後の課題6. Appendix
16/06/20 21Akiva Miura AHC-Lab, IS, NAIST
まとめl 提案: 中間⾔語情報を記憶するテーブル合成⼿法
16/06/20 22
近似 〈approccio, approach〉近似 〈ravvicinamento, approach〉近似 〈ravvicinamento, approximation〉
・・・
Ø 結果: 従来のテーブル合成⼿法より有意に精度向上
21.2 21.4 21.6 21.8
22 22.2 22.4 22.6 22.8
23 23.2
0 500000 1x106 1.5x106 2x106
BLEU
Sco
re [%
]
Pivot-LM Size [sent.]
Direct Tri. SCFG Tri. MSCFG
Akiva Miura AHC-Lab, IS, NAIST
Ø 課題: 多品詞語の問題や統語情報の⽋如などは未解決
今後の計画
l 表層的な単語列(語順)の扱いのみでは限界Ø 統語情報を取り⼊れることで更なる曖昧性の解消を狙う
Ø 構⽂部分⽊を中間表現に⽤いるピボット翻訳⼿法
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 23
NP
NN
X1:DT book
[X1] 本 [X1] 書
( b ) 部分構⽂⽊が中間表現 (多品詞語に対応可)
[X1] 本
( a ) 記号列が中間表現 (多品詞語による問題)
[X1] book [X1] 預訂✗
✔
ご清聴ありがとうございました
l 本会の受賞および発表のきっかけを作って下りました⻑尾真先⽣、選考に携わって下さった皆様やAAMT役員の皆様に⼼より感謝申し上げます
l 本発表の元となりました修⼠論⽂の執筆にあたって、様々な指導をして下さりました中村哲先⽣指導および本賞へ推薦して下さりましたGraham Neubig先⽣に⼼より感謝申し上げます
16/06/20 Akiva Miura AHC-Lab, IS, NAIST 24
top related