reducing the impact of data sparsity in statistical machine translation
Post on 06-Jan-2017
149 Views
Preview:
TRANSCRIPT
Reducing the Impact of Data Sparsity in Statistical Machine Translation
長岡技術科学大学 自然言語処理研究室
高橋寛治
Karan Singla, Kunal Sachdeva, Diksha Yadav, Srinivas Bangalore, Dipti Misra Sharma, Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, pages 51–56, October 25, 2014, Doha, Qatar.
文献紹介 2016年6月3日
概要•形態論情報が豊富な言語の翻訳には大量のコーパスが必用•大規模コーパスに代替する方法
ØRNNベースの言語モデルの利用ØWordNetで内容語のスパースさの軽減
•SMTの性能の向上
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
はじめに•SMTのモデルの良さはコーパスのサイズに依存
Ø言語モデル、ディストーションモデル•同コーパス規模での性能向上
ØRNNベースの言語モデルでPBSMTの出力を利ランキング
ØWordNetのSynsetでOOVによる訳質の問題を改善
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
関連研究•MTにおける再ランキングは翻訳のn-bestの再スコア付けØDungarwalら2014は再ランキングØMikolovら2010, Liuら2014 RNNLMにより音声認識の
精度を向上•MTへの統合
ØRazmaraら2013, Cohnら2007はフレーズのカバレッジを知識の結合により強化
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
ベースライン• ICLIコーパス(英語-ヒンディー語)
Øトレーニング:48970文Øテスト:500文、デベロップメント:500文
•言語モデル作成のためのコーパスはWMT14•フレーズベースの統計的機械翻訳
ØMosesØGIZA++ØSRILM
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
英語の語順並び替え•スタンフォードパーサーを用いて規則に基づいて並び替えØInput: the girl in blue shirt is my sister.ØOutput: in blue shirt the girl is my sister.ØHindi: neele shirt waali ladki meri bahenhai(blue)(shirt)(Mod)(girl)(my)(sister)(Vaux)
•BLEU: 20.04->21.84
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
1.再ランキング•関連研究に習い、RNNLMの素性を選択
Ø原形、品詞、number-caseØヒンディーWikipediaの50万文を用いて学習
•RNNLMによりリランキングØPBSMTのN-bestをRNNLMでリランキングØ素性による変化
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
2.WordNetを用いたデータスパースネス問題の軽減•OOVに対してSynsetIDの置換により対応
Ø原言語側•置換する為には語義の選定が必用
Ø語義選定は(Tammewarら2013)を参考•固有表現は対象外とした
Ø同義語を持たないと考えた
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
語義選定•単一
Ø品詞タグが対応する語が所属するSynsetで始めに見つかったもの(頻度順に並んでいるらしい)
•結合Ø品詞タグが同一の語が所属するSynsetすべてØ共通する親を利用ØTravel go
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
機械翻訳モデルへの結合•MANYを利用(Eng(synset)-HindiとBaseline)
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
実験結果
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
OOVについて• NE:固有表現• VB:動詞• NN:名詞・代名詞• ADJ:形容詞• AD:副詞• OTH:英語で意味を持
たない語• SM:スペルミス
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
top related