reducing the impact of data sparsity in statistical machine translation
TRANSCRIPT
Reducing the Impact of Data Sparsity in Statistical Machine Translation
長岡技術科学大学 自然言語処理研究室
高橋寛治
Karan Singla, Kunal Sachdeva, Diksha Yadav, Srinivas Bangalore, Dipti Misra Sharma, Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, pages 51–56, October 25, 2014, Doha, Qatar.
文献紹介 2016年6月3日
概要•形態論情報が豊富な言語の翻訳には大量のコーパスが必用•大規模コーパスに代替する方法
ØRNNベースの言語モデルの利用ØWordNetで内容語のスパースさの軽減
•SMTの性能の向上
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
はじめに•SMTのモデルの良さはコーパスのサイズに依存
Ø言語モデル、ディストーションモデル•同コーパス規模での性能向上
ØRNNベースの言語モデルでPBSMTの出力を利ランキング
ØWordNetのSynsetでOOVによる訳質の問題を改善
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
関連研究•MTにおける再ランキングは翻訳のn-bestの再スコア付けØDungarwalら2014は再ランキングØMikolovら2010, Liuら2014 RNNLMにより音声認識の
精度を向上•MTへの統合
ØRazmaraら2013, Cohnら2007はフレーズのカバレッジを知識の結合により強化
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
ベースライン• ICLIコーパス(英語-ヒンディー語)
Øトレーニング:48970文Øテスト:500文、デベロップメント:500文
•言語モデル作成のためのコーパスはWMT14•フレーズベースの統計的機械翻訳
ØMosesØGIZA++ØSRILM
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
英語の語順並び替え•スタンフォードパーサーを用いて規則に基づいて並び替えØInput: the girl in blue shirt is my sister.ØOutput: in blue shirt the girl is my sister.ØHindi: neele shirt waali ladki meri bahenhai(blue)(shirt)(Mod)(girl)(my)(sister)(Vaux)
•BLEU: 20.04->21.84
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
1.再ランキング•関連研究に習い、RNNLMの素性を選択
Ø原形、品詞、number-caseØヒンディーWikipediaの50万文を用いて学習
•RNNLMによりリランキングØPBSMTのN-bestをRNNLMでリランキングØ素性による変化
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
2.WordNetを用いたデータスパースネス問題の軽減•OOVに対してSynsetIDの置換により対応
Ø原言語側•置換する為には語義の選定が必用
Ø語義選定は(Tammewarら2013)を参考•固有表現は対象外とした
Ø同義語を持たないと考えた
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
語義選定•単一
Ø品詞タグが対応する語が所属するSynsetで始めに見つかったもの(頻度順に並んでいるらしい)
•結合Ø品詞タグが同一の語が所属するSynsetすべてØ共通する親を利用ØTravel go
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
機械翻訳モデルへの結合•MANYを利用(Eng(synset)-HindiとBaseline)
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
実験結果
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
OOVについて• NE:固有表現• VB:動詞• NN:名詞・代名詞• ADJ:形容詞• AD:副詞• OTH:英語で意味を持
たない語• SM:スペルミス
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation