文献紹介:morphological analysis for statistical machine translation

11
Morphological Analysis for Statistical Machine Translation 長岡技術科学大学 自然言語処理研究室 高橋寛治 Young-Suk Lee, Morphological Analysis for Statistical Machine Translation, Proceedings of HLT-NAACL 2004: Short Papers, pp.57-60, 2004 文献紹介 2016年5月16日

Upload: takahashi-kanji

Post on 06-Jan-2017

238 views

Category:

Education


2 download

TRANSCRIPT

Page 1: 文献紹介:Morphological analysis for Statistical Machine Translation

Morphological Analysis for Statistical Machine Translation

長岡技術科学大学 自然言語処理研究室高橋寛治

Young-Suk Lee, Morphological Analysis for Statistical Machine Translation, Proceedings of HLT-NAACL 2004: Short Papers, pp.57-60, 2004

文献紹介 2016年5月16日

Page 2: 文献紹介:Morphological analysis for Statistical Machine Translation

概要•アラビア語−>英語の翻訳•2言語間で形態論をうまく合わせる

Øprefix(es)-stem-suffix(es)• IBM Model1およびフレーズ翻訳モデルで性能が向上

DistributedRepresentationsofWordsandPhrasesandtheirCompositionally

Page 3: 文献紹介:Morphological analysis for Statistical Machine Translation

はじめに•形態論が大きく異なる言語間でも統計翻訳で翻訳(Brown et al. 1993)•低頻度語の語幹はうまく翻訳されない•1対多

DistributedRepresentationsofWordsandPhrasesandtheirCompositionally

Page 4: 文献紹介:Morphological analysis for Statistical Machine Translation

方針•単語->prefix(es)-stem-suffix(es)• 1対1でアラインメント•ある手法で結合・削除

DistributedRepresentationsofWordsandPhrasesandtheirCompositionally

Page 5: 文献紹介:Morphological analysis for Statistical Machine Translation

単語分割•単語から「接頭辞-語幹-接尾辞」に分割•接尾辞や接頭辞は機能語を含む•接頭辞は#、接尾辞は+で示される

• w# s# y# Hl sA}q Al# tjArb fy jAgwAr Al# brAzyly lwsyAnwbwrty mkAn AyrfAyn fy Al# sbAq gdA Al# AHd Al*y s# y# kwnAwly xTw +At +h fy EAlm sbAq +At AlfwrmwlA

DistributedRepresentationsofWordsandPhrasesandtheirCompositionally

Page 6: 文献紹介:Morphological analysis for Statistical Machine Translation

形態素解析

•機能語を語幹に結合・削除•女性の単数形は+p、男性の複数形は+yn•英語に対応(girlとgirls)

DistributedRepresentationsofWordsandPhrasesandtheirCompositionally

Page 7: 文献紹介:Morphological analysis for Statistical Machine Translation

手法• IBM Model 1を使って対訳コーパスの品詞同士のアラインメントを取る•アラビア語の接頭辞の品詞と接尾辞の品詞に対して、英語の品詞の条件付き確率を取得

DistributedRepresentationsofWordsandPhrasesandtheirCompositionally

Page 8: 文献紹介:Morphological analysis for Statistical Machine Translation

アルゴリズム•英語の品詞:tagE、アラビア語の品詞:tagA

Ø(1) Pr(tagE | tagA)• stemtagAはある接頭・接尾辞と共起する代表的な品詞(形容詞・動詞・名詞・・・)•アラビア語の接尾辞と英語の品詞

Ø(2) Pr(tagE | stemtagA, suffix_tagjk)•アラビア語の接頭辞と英語の品詞

Ø Pr(tagE | prefixi_tagik, stemtagA)

DistributedRepresentationsofWordsandPhrasesandtheirCompositionally

Page 9: 文献紹介:Morphological analysis for Statistical Machine Translation

IBM Model 1•1.ある品詞が翻訳先のある品詞に頑健な対応をする場合は翻訳•2.対応が頑健でない場合、語幹に結合するか削除を行う

•頑健かどうかØPr(tage|tagA)の上位3に、ある語幹Aに対する

tagE|tagikかtagE|tagjkがある場合

DistributedRepresentationsofWordsandPhrasesandtheirCompositionally

Page 10: 文献紹介:Morphological analysis for Statistical Machine Translation

評価•コーパスはAFPとXinhuaニュースから作られたLDC-distributed Multiple Translation Arabic Part I•BLEUで評価

DistributedRepresentationsofWordsandPhrasesandtheirCompositionally

Page 11: 文献紹介:Morphological analysis for Statistical Machine Translation

結果•morph_analysisは形態素解析したものを学習および入力、評価に用いる•BLEUスコアは向上

DistributedRepresentationsofWordsandPhrasesandtheirCompositionally

automatically

0.21

0.25

0.33

0.36