a beam-search decoder for normalization of social media text with application to machine translation

15
A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation 自然言語処理研究室 高橋 寛治 Pidong Wang, Hwee Tou Ng, Proceedings of NAACL-HLT 2013, pp.471-481, June 2013 文献紹介 2016年9月27日

Upload: takahashi-kanji

Post on 06-Jan-2017

43 views

Category:

Engineering


1 download

TRANSCRIPT

A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation

自然言語処理研究室高橋 寛治

Pidong Wang, Hwee Tou Ng, Proceedings of NAACL-HLT 2013, pp.471-481, June 2013

文献紹介 2016年9月27日

概要• SNSなど崩れた表記を解析するための正規化•正規化候補を列挙し、ビームサーチで選択•機械翻訳の性能向上を確認

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

はじめに• SMS, SNSのテキストは崩れており解析性能が低下

Ø品詞付与90%→76%(Ritter et al. 2011)Ø依存構造解析20ポイントの低下(Foster et al. 2011)

•学習データを作るのは大変Ø正規化が一番の近道

•従来は単語の置換Ø消えた語の復元や句読点の復元も含む

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

関連研究•単語単位での置換、盛んに研究されている

ØNoisy channel modelによる置換(Aw et al. 2005)ØCRFによるEメールの正規化(Zhu et al. 2007)ØHMMによる単語の正規化(Choudhury et al. 2007)Ø崩れ語と語のフレーズペアの獲得(Li and Yarowsky 2008)ØSMSの省略語(Pennell and Liu 2011)ØSNSの正規化(Xue et al. 2011)

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

崩れ語を観察する• 中国語

ØWeiboから200メッセージを取得Ø代名詞の”我[I]”がよく消えるØ感嘆詞の”哦[oh] ”がよく使われるØ単語分割がうまくいかない

• 英語ØNUS SMSコーパスから200メッセージ取得Ø省略語が多いØ冗長な感嘆詞が多いØ“be”が消える

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

手法•候補の生成とデコード•候補の生成

Ø句読点の復元Ø消失した語の復元

•正規化のためのデコーダ

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

句読点の復元•挿入、削除、置換•句読点の復元は文境界の検出• 2層のDCRFを用いる

•学習コーパスが足りないので、人為的に作成

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

消失した語の復元•中国語では「我」、英語では「be」がよく消える• CRFで復元

ØNone, BE, IS, ARE, AMの5つのタグを用いるØ同じn-gram素性を用いるØbeは人為的

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

デコーダ•最適な正規化を探索

Ø現段階の推測から、文単位での新しい推測を行う

Ø良い仮説を残すために評価する

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

スコア計算•仮説:h•素性:f

Ø言語モデルのスコアØ崩れ語の頻度によるペナルティØ復元の回数の素性

•重み:λ

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

実験•翻訳モデル

ØIWSLT2009の中英コーパス•言語モデル

ØLDCのGigawordコーパス•テストとチューニング

Ø中英:Weiboから1000メッセージを集めるØ英中はNUS SMSから2000メッセージØ半分はチューニング、もう半分はテストセット

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

その他•デコードの早さ

Ø0.2秒/文(2.27GHzのXeon 32GB)•人手評価

Ø入力u“yeah must sign up , im in lt25”u“yeah must sign up, i ’m in lt25 .”

Ø出力u“对[yeah] 必须[must] 签署[sign up] , im 在[in] lt25“u“对必须签署,我在lt25。 “

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation

まとめ•ビームサーチでSNSテキストを正規化•挿入や置換など様々な方法で正規化•正規化により統計翻訳の精度を向上させた

2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation