読解支援@2015 06-09

15
Learning to simplify sentences using Wikipedia. William Coster, David Kauchak. In Proceedings of the Workshop on Monolingual TextToText GeneraDon, pp.1–9, 2011. プレゼンテーション 関沢祐樹 2015/06/09 1

Upload: sekizawayuuki

Post on 08-Aug-2015

32 views

Category:

Education


4 download

TRANSCRIPT

Learning  to  simplify  sentences  using  Wikipedia.  

William  Coster,  David  Kauchak.      In  Proceedings  of  the  Workshop  on  

Monolingual  Text-­‐ToText  GeneraDon,  pp.1–9,  2011.

プレゼンテーション  関沢祐樹

2015/06/09 1

概要

•  本論文が行ったこと  – 英語の文を、簡単な英語に翻訳する  – English  Wikipedia  と Simple  English  Wikipedia  を

対応づけて抽出した137,000文からなるコーパスを用いて簡単化  

– テキスト簡単化への新たな翻訳モデルの紹介  •  BLEU,word-­‐F1,SSAという3つの評価手法を用いると、     T3や句に基づく翻訳システムよりも良い成果

2015/06/09 2

はじめに

•  目標  – 普通の英語(normal)を簡単な英語(simple)に          翻訳するシステムの学習  

•  必要な作業  – 削除 : 主要でない部分を削除、この作業が多い  – 語の言い換え  – 場所の移動 : 語や句の位置を変える  – 挿入    *要約:単語削除に重点    

2015/06/09 3

はじめに

•  必要な変換に用いるもの  – 句に基づく統計翻訳モデルを拡張したもの  

•  確率翻訳モデルに、句の削除を追加したもの  •  ベースモデルは、1つの句の中でしか削除できない  

•  簡単化の利点  – 子ども、お年寄り、聴覚障害者、失語症などの人

にも理解しやすい  – NLPの、意味役割付与、関係抽出の成果の向上  

2015/06/09 4

先行研究

•  最初の文の簡単化  – データに基づいた考え方ではなかった  – 商業的なアプローチ、プロセスの前処理扱い  

•  2010年の実験  – データに基づいたが、評価値は悪かった  

•  今回のアプローチ  – 3つの評価手法で十分な向上を獲得

2015/06/09 5

テキスト簡単化のコーパス

•  テキスト簡単化のデータ数は少ない  •  テキスト要約のデータセットも少ない  – わずか1,000の文アラインメント  

•  Wikipediaから得た文アラインメント  – 137,000  組を獲得  – これを文アラインメントコーパスとして使用

2015/06/09 6

簡単化のモデル

•  使用したシステム:Moses  •  簡単化の計算  

 •  GIZA++を用いて、単語アラインメントを抽出  – 変換確率を算出  

2015/06/09 7

モデルの問題点

•  句の削除が一般的におこる(文単位で47%)

•  このままだと削除に対応できない  •  制約を緩くする  – normalをsimpleにする際、     simpleの部分を空っぽにする              

2015/06/09 8

NULLに対応させる方法1

•  normal文の語が、simpleの文の語に非対応  –  simpleの文の適切な場所にNULLを挿入  –  対応先をNULLとする    Sergio  Rodriguez  Garcia  ,  aka  Rodri  ,  is  a  spanish  footballer  ...    Sergio  Rodriguez  Garcia       is  a  spanish  football  player  ...        Sergio  Rodriguez  Garcia      NULL      is  a  spanish  football  player  ...      

2015/06/09 9

NULLに対応させる方法2

•  normalの単語集合が全て、simpleの1語に    対応し、normalのある1語が、simpleと同じ  –  残りのnormalの単語全てをNULLに対応させる  –  句読点や機能語がNULLに対応することが多い  

president  Obama                                      Obama  NULL                  Obama

2015/06/09 10

実験

•  5つのアプローチでテキスト簡単化の比較  –  none:何もしない (ベースライン)  –  K&M:文の要約をする  –  T3:誤りのある構文木を誤りのない構文木へ変換  – Moses:句に基づく機械翻訳  – Moses+Del:Mosesに削除の機能を追加  

– 後半3つの手法のパラメータはデフォルト値  –  none以外は、simpleに対してn-­‐gram言語モデルで訓練  

2015/06/09 11

詳細設定

•  使われたデータ:全137,000文  – 訓練:124,000文、開発:12,000文、テスト1,300文

– Mosesの使用には、ハイパーパラメータを設定  •  訓練データの終わり500文を用いて最適化  

•  T3に全てのデータを使うことができなかった  – 時間とメモリの問題によるもの  – 訓練データの最初の30,000文を使用  

2015/06/09 12

実験結果

2015/06/09 13

実験結果

•  Moses+Delを30,000文で実験  – 訓練:最初の29,700文、残り300文でチューニング  – BLEU値:0.5952  >  0.2437  (T3のBLEU値)  

•  Oracle:各文翻訳確率上位1000で構成  

2015/06/09 14

結論

•  Wikipediaから文の簡単化の学習を実験  – 提案手法は、語彙変換、言い換え、挿入、削除  – 比較手法よりも良い評価値を獲得  – 削除が重要であるとわかった  

•  今後の課題  – 文法の複雑さを除去  

•  句に基づくモデルは、文法を考慮しない  •  階層的構造の導入で改善されると思われる  

2015/06/09 15