a beam-search decoder for normalization of social media text with application to machine translation
TRANSCRIPT
A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
自然言語処理研究室高橋 寛治
Pidong Wang, Hwee Tou Ng, Proceedings of NAACL-HLT 2013, pp.471-481, June 2013
文献紹介 2016年9月27日
概要• SNSなど崩れた表記を解析するための正規化•正規化候補を列挙し、ビームサーチで選択•機械翻訳の性能向上を確認
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation
はじめに• SMS, SNSのテキストは崩れており解析性能が低下
Ø品詞付与90%→76%(Ritter et al. 2011)Ø依存構造解析20ポイントの低下(Foster et al. 2011)
•学習データを作るのは大変Ø正規化が一番の近道
•従来は単語の置換Ø消えた語の復元や句読点の復元も含む
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation
関連研究•単語単位での置換、盛んに研究されている
ØNoisy channel modelによる置換(Aw et al. 2005)ØCRFによるEメールの正規化(Zhu et al. 2007)ØHMMによる単語の正規化(Choudhury et al. 2007)Ø崩れ語と語のフレーズペアの獲得(Li and Yarowsky 2008)ØSMSの省略語(Pennell and Liu 2011)ØSNSの正規化(Xue et al. 2011)
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation
崩れ語を観察する• 中国語
ØWeiboから200メッセージを取得Ø代名詞の”我[I]”がよく消えるØ感嘆詞の”哦[oh] ”がよく使われるØ単語分割がうまくいかない
• 英語ØNUS SMSコーパスから200メッセージ取得Ø省略語が多いØ冗長な感嘆詞が多いØ“be”が消える
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation
手法•候補の生成とデコード•候補の生成
Ø句読点の復元Ø消失した語の復元
•正規化のためのデコーダ
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation
句読点の復元•挿入、削除、置換•句読点の復元は文境界の検出• 2層のDCRFを用いる
•学習コーパスが足りないので、人為的に作成
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation
消失した語の復元•中国語では「我」、英語では「be」がよく消える• CRFで復元
ØNone, BE, IS, ARE, AMの5つのタグを用いるØ同じn-gram素性を用いるØbeは人為的
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation
デコーダ•最適な正規化を探索
Ø現段階の推測から、文単位での新しい推測を行う
Ø良い仮説を残すために評価する
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation
スコア計算•仮説:h•素性:f
Ø言語モデルのスコアØ崩れ語の頻度によるペナルティØ復元の回数の素性
•重み:λ
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation
実験•翻訳モデル
ØIWSLT2009の中英コーパス•言語モデル
ØLDCのGigawordコーパス•テストとチューニング
Ø中英:Weiboから1000メッセージを集めるØ英中はNUS SMSから2000メッセージØ半分はチューニング、もう半分はテストセット
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation
その他•デコードの早さ
Ø0.2秒/文(2.27GHzのXeon 32GB)•人手評価
Ø入力u“yeah must sign up , im in lt25”u“yeah must sign up, i ’m in lt25 .”
Ø出力u“对[yeah] 必须[must] 签署[sign up] , im 在[in] lt25“u“对必须签署,我在lt25。 “
2016/9/27 ABeam-SearchDecoderforNormalizationofSocialMediaTextwithApplicationtoMachineTranslation