reducing the impact of data sparsity in statistical machine translation

13
Reducing the Impact of Data Sparsity in Statistical Machine Translation 長岡技術科学大学 自然言語処理研究室 高橋寛治 Karan Singla, Kunal Sachdeva, Diksha Yadav, Srinivas Bangalore, Dipti Misra Sharma, Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation , pages 51–56, October 25, 2014, Doha, Qatar. 文献紹介 2016年6月3日

Upload: takahashi-kanji

Post on 06-Jan-2017

149 views

Category:

Engineering


0 download

TRANSCRIPT

Page 1: Reducing the Impact of Data Sparsity in Statistical Machine Translation

Reducing the Impact of Data Sparsity in Statistical Machine Translation

長岡技術科学大学 自然言語処理研究室

高橋寛治

Karan Singla, Kunal Sachdeva, Diksha Yadav, Srinivas Bangalore, Dipti Misra Sharma, Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, pages 51–56, October 25, 2014, Doha, Qatar.

文献紹介 2016年6月3日

Page 2: Reducing the Impact of Data Sparsity in Statistical Machine Translation

概要•形態論情報が豊富な言語の翻訳には大量のコーパスが必用•大規模コーパスに代替する方法

ØRNNベースの言語モデルの利用ØWordNetで内容語のスパースさの軽減

•SMTの性能の向上

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 3: Reducing the Impact of Data Sparsity in Statistical Machine Translation

はじめに•SMTのモデルの良さはコーパスのサイズに依存

Ø言語モデル、ディストーションモデル•同コーパス規模での性能向上

ØRNNベースの言語モデルでPBSMTの出力を利ランキング

ØWordNetのSynsetでOOVによる訳質の問題を改善

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 4: Reducing the Impact of Data Sparsity in Statistical Machine Translation

関連研究•MTにおける再ランキングは翻訳のn-bestの再スコア付けØDungarwalら2014は再ランキングØMikolovら2010, Liuら2014 RNNLMにより音声認識の

精度を向上•MTへの統合

ØRazmaraら2013, Cohnら2007はフレーズのカバレッジを知識の結合により強化

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 5: Reducing the Impact of Data Sparsity in Statistical Machine Translation

ベースライン• ICLIコーパス(英語-ヒンディー語)

Øトレーニング:48970文Øテスト:500文、デベロップメント:500文

•言語モデル作成のためのコーパスはWMT14•フレーズベースの統計的機械翻訳

ØMosesØGIZA++ØSRILM

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 6: Reducing the Impact of Data Sparsity in Statistical Machine Translation

英語の語順並び替え•スタンフォードパーサーを用いて規則に基づいて並び替えØInput: the girl in blue shirt is my sister.ØOutput: in blue shirt the girl is my sister.ØHindi: neele shirt waali ladki meri bahenhai(blue)(shirt)(Mod)(girl)(my)(sister)(Vaux)

•BLEU: 20.04->21.84

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 7: Reducing the Impact of Data Sparsity in Statistical Machine Translation

1.再ランキング•関連研究に習い、RNNLMの素性を選択

Ø原形、品詞、number-caseØヒンディーWikipediaの50万文を用いて学習

•RNNLMによりリランキングØPBSMTのN-bestをRNNLMでリランキングØ素性による変化

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 8: Reducing the Impact of Data Sparsity in Statistical Machine Translation

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 9: Reducing the Impact of Data Sparsity in Statistical Machine Translation

2.WordNetを用いたデータスパースネス問題の軽減•OOVに対してSynsetIDの置換により対応

Ø原言語側•置換する為には語義の選定が必用

Ø語義選定は(Tammewarら2013)を参考•固有表現は対象外とした

Ø同義語を持たないと考えた

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 10: Reducing the Impact of Data Sparsity in Statistical Machine Translation

語義選定•単一

Ø品詞タグが対応する語が所属するSynsetで始めに見つかったもの(頻度順に並んでいるらしい)

•結合Ø品詞タグが同一の語が所属するSynsetすべてØ共通する親を利用ØTravel go

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 11: Reducing the Impact of Data Sparsity in Statistical Machine Translation

機械翻訳モデルへの結合•MANYを利用(Eng(synset)-HindiとBaseline)

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 12: Reducing the Impact of Data Sparsity in Statistical Machine Translation

実験結果

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

Page 13: Reducing the Impact of Data Sparsity in Statistical Machine Translation

OOVについて• NE:固有表現• VB:動詞• NN:名詞・代名詞• ADJ:形容詞• AD:副詞• OTH:英語で意味を持

たない語• SM:スペルミス

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation