reducing the impact of data sparsity in statistical machine translation

Reducing the Impact of Data Sparsity in Statistical Machine Translation

長岡技術科学大学自然言語処理研究室

高橋寛治

Karan Singla, Kunal Sachdeva, Diksha Yadav, Srinivas Bangalore, Dipti Misra Sharma, Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, pages 51–56, October 25, 2014, Doha, Qatar.

文献紹介２０１６年６月３日

概要•形態論情報が豊富な言語の翻訳には大量のコーパスが必用•大規模コーパスに代替する方法

ØRNNベースの言語モデルの利用ØWordNetで内容語のスパースさの軽減

•SMTの性能の向上

ReducingtheImpactofDataSparsityinStatisticalMachineTranslation

はじめに•SMTのモデルの良さはコーパスのサイズに依存

Ø言語モデル、ディストーションモデル•同コーパス規模での性能向上

ØRNNベースの言語モデルでPBSMTの出力を利ランキング

ØWordNetのSynsetでOOVによる訳質の問題を改善


関連研究•MTにおける再ランキングは翻訳のn-bestの再スコア付けØDungarwalら2014は再ランキングØMikolovら2010, Liuら2014 RNNLMにより音声認識の

精度を向上•MTへの統合

ØRazmaraら2013, Cohnら2007はフレーズのカバレッジを知識の結合により強化


ベースライン• ICLIコーパス（英語-ヒンディー語）

Øトレーニング:48970文Øテスト:500文、デベロップメント：500文

•言語モデル作成のためのコーパスはWMT14•フレーズベースの統計的機械翻訳

ØMosesØGIZA++ØSRILM


英語の語順並び替え•スタンフォードパーサーを用いて規則に基づいて並び替えØInput: the girl in blue shirt is my sister.ØOutput: in blue shirt the girl is my sister.ØHindi: neele shirt waali ladki meri bahenhai(blue)(shirt)(Mod)(girl)(my)(sister)(Vaux)

•BLEU: 20.04->21.84


1.再ランキング•関連研究に習い、RNNLMの素性を選択

Ø原形、品詞、number-caseØヒンディーWikipediaの50万文を用いて学習

•RNNLMによりリランキングØPBSMTのN-bestをRNNLMでリランキングØ素性による変化


2.WordNetを用いたデータスパースネス問題の軽減•OOVに対してSynsetIDの置換により対応

Ø原言語側•置換する為には語義の選定が必用

Ø語義選定は(Tammewarら2013)を参考•固有表現は対象外とした

Ø同義語を持たないと考えた


語義選定•単一

Ø品詞タグが対応する語が所属するSynsetで始めに見つかったもの(頻度順に並んでいるらしい)

•結合Ø品詞タグが同一の語が所属するSynsetすべてØ共通する親を利用ØTravel go


機械翻訳モデルへの結合•MANYを利用(Eng(synset)-HindiとBaseline)


実験結果


OOVについて• NE:固有表現• VB:動詞• NN:名詞・代名詞• ADJ:形容詞• AD:副詞• OTH:英語で意味を持

たない語• SM:スペルミス


reducing the impact of data sparsity in statistical machine translation

Engineering