文献紹介:morphological analysis for statistical machine translation
TRANSCRIPT
Morphological Analysis for Statistical Machine Translation
長岡技術科学大学 自然言語処理研究室高橋寛治
Young-Suk Lee, Morphological Analysis for Statistical Machine Translation, Proceedings of HLT-NAACL 2004: Short Papers, pp.57-60, 2004
文献紹介 2016年5月16日
概要•アラビア語−>英語の翻訳•2言語間で形態論をうまく合わせる
Øprefix(es)-stem-suffix(es)• IBM Model1およびフレーズ翻訳モデルで性能が向上
DistributedRepresentationsofWordsandPhrasesandtheirCompositionally
はじめに•形態論が大きく異なる言語間でも統計翻訳で翻訳(Brown et al. 1993)•低頻度語の語幹はうまく翻訳されない•1対多
DistributedRepresentationsofWordsandPhrasesandtheirCompositionally
方針•単語->prefix(es)-stem-suffix(es)• 1対1でアラインメント•ある手法で結合・削除
DistributedRepresentationsofWordsandPhrasesandtheirCompositionally
単語分割•単語から「接頭辞-語幹-接尾辞」に分割•接尾辞や接頭辞は機能語を含む•接頭辞は#、接尾辞は+で示される
• w# s# y# Hl sA}q Al# tjArb fy jAgwAr Al# brAzyly lwsyAnwbwrty mkAn AyrfAyn fy Al# sbAq gdA Al# AHd Al*y s# y# kwnAwly xTw +At +h fy EAlm sbAq +At AlfwrmwlA
DistributedRepresentationsofWordsandPhrasesandtheirCompositionally
形態素解析
•機能語を語幹に結合・削除•女性の単数形は+p、男性の複数形は+yn•英語に対応(girlとgirls)
DistributedRepresentationsofWordsandPhrasesandtheirCompositionally
手法• IBM Model 1を使って対訳コーパスの品詞同士のアラインメントを取る•アラビア語の接頭辞の品詞と接尾辞の品詞に対して、英語の品詞の条件付き確率を取得
DistributedRepresentationsofWordsandPhrasesandtheirCompositionally
アルゴリズム•英語の品詞:tagE、アラビア語の品詞:tagA
Ø(1) Pr(tagE | tagA)• stemtagAはある接頭・接尾辞と共起する代表的な品詞(形容詞・動詞・名詞・・・)•アラビア語の接尾辞と英語の品詞
Ø(2) Pr(tagE | stemtagA, suffix_tagjk)•アラビア語の接頭辞と英語の品詞
Ø Pr(tagE | prefixi_tagik, stemtagA)
DistributedRepresentationsofWordsandPhrasesandtheirCompositionally
IBM Model 1•1.ある品詞が翻訳先のある品詞に頑健な対応をする場合は翻訳•2.対応が頑健でない場合、語幹に結合するか削除を行う
•頑健かどうかØPr(tage|tagA)の上位3に、ある語幹Aに対する
tagE|tagikかtagE|tagjkがある場合
DistributedRepresentationsofWordsandPhrasesandtheirCompositionally
評価•コーパスはAFPとXinhuaニュースから作られたLDC-distributed Multiple Translation Arabic Part I•BLEUで評価
DistributedRepresentationsofWordsandPhrasesandtheirCompositionally
結果•morph_analysisは形態素解析したものを学習および入力、評価に用いる•BLEUスコアは向上
DistributedRepresentationsofWordsandPhrasesandtheirCompositionally
automatically
0.21
0.25
0.33
0.36