bilingual correspondence recursive autoencoders for statistical machine translation @小町研...

13
Bilingual Correspondence Recursive Autoencoders for Sta7s7cal Machine Transla7on Jinsong Su, Deyi Xiong, Biao Zhang, Yang Liu, Junfeng Yao and Min Zhang Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing 紹介者 叶内 晨 (@shin_kan0) @小町研 EMNLP読み会2015

Upload: shin-kanouchi

Post on 08-Apr-2017

262 views

Category:

Science


1 download

TRANSCRIPT

Page 1: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

Bilingual  Correspondence  Recursive  Autoencoders  for  Sta7s7cal  

Machine  Transla7on   Jinsong  Su,  Deyi  Xiong,  Biao  Zhang,  Yang  Liu,  

 Junfeng  Yao  and  Min  Zhang      

Proceedings  of  the  2015  Conference  on  Empirical  Methods  in  Natural  Language  Processing    

紹介者 叶内 晨  (@shin_kan0)    @小町研  EMNLP読み会2015  

Page 2: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

この論文について

•  SMTのために句対の分散表現を同時に学習  

•  子ノードの構造を揃えて,対応した子ノード同士のエラーを 小化  – アライメントに忠実な句対の分散表現を学習  – 2言語の異なるレベルの意味対応を獲得  – 中英  SMT  の State-­‐of-­‐the-­‐art  を達成  

F   E ^ ^ ? ? 原言語 目的言語 ? ?

Page 3: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

関連研究:分散表現の句への適応

•  Recursive  AutoEncoder  で句を表現[Socher+  10]  

     

•  2言語の句をRAEで表現  – SMTの並べ替えモデルに応用[Li+  13]  •  A  Neural  ITG  Reordering  Model  

– SMTの翻訳モデルに応用[Zhang+  14]  •  Bilingually-­‐constrained  Recursive  Auto-­‐encoder    

Page 4: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

Bilingually-constrainedRecursive Auto-encoder

f   e e’:  対応していない句

今まで

[Zhang+  14]

Page 5: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

問題点: 句と句の内部構造を考慮していない

今まで

アライメント  

•  句対全体としては分散表現で対応している  •  nf1,  nf2,  ne  は,それぞれ対応していない  •  中身を対応させたら,より良い句対になるのでは?

Page 6: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

Bilingual  Correspondence  Recursive  Auto-­‐encoder  (BCorrRAE)

提案手法

アライメント  

•  各ノードの句と対応する句を探す  •  複数対応するときは 小のものを選択  

•  全ての句対を記憶(SAC  node)  •  句対ごとに学習  

逆方向もやる

0-­‐2  2-­‐1  3-­‐0  

Page 7: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

エラーの計算方法

①  

②  

③  

①句を作ったときの RAE  の Reconstruc7on  Error  ②2言語で対応していないノード  (non-­‐SAC)  への罰則                  (Consistency  Error)  ③2言語で対応しているノード  (SAC)  の類似具合    

 (Cross-­‐Lingual  Reconstruc7on  Error  )  ④正則化項  

α=  0.12,  β  =  0.63,  γ  =  0.25

Page 8: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

②Consistency  Error  

Inc→

cns→

cns→

•  句がcnsであるほどエラーが少ない

Page 9: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

③Cross-­‐Lingual  Reconstruc7on  Error  

a.  ベクトルを目的言語側に飛ばす  b.  その子ノードを生成  c.  目的言語側のベクトルとの差が誤差

a.

b.

c.

Page 10: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

実験設定

•  翻訳機:log-­‐linear  framework  [Och  and  Ney  02]  1.  rule  transla7on  probabili7es  in  two  direc7ons  2.  lexical  weights  in  two  direc7ons  3.  targets-­‐side  word  number  4.  phrase  number  5.  language  model  score  (SRILM  5gram)  6.  Score  of  maximal  entropy  based  reordering  model  (MEBTG)  7.  proposed  feature    

•  DataSets  –  Train:  FBIS  corpus  and  Hansards  part  of  LDC2004T07  corpus    

•  1M  parallel  sentences  (25M  Chinese  words,  29M  English  words)    –  Dev:  MT05  –  Test:  MT06,  MT0    

Page 11: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

実験結果(BLEU)

Page 12: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

句の翻訳結果の例

•  意味は類似した句が対応  

•  SRC側とTGT側の文法は必ずしも一致せず  

•  句の意味が類似しつつ,アライメントに矛盾しないような句が対応  

Page 13: Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

まとめ

•  SMTのための木構造の同時句分散表現を学習  

•  子ノードの構造を揃えて,対応した子ノード同士のエラーを 小化  – アライメントに忠実な句対の分散表現を学習  – 2言語の異なるレベルの意味対応を獲得  – 中英  SMT  の State-­‐of-­‐the-­‐art  を達成