読解支援@2015 06-09

Learning to simplify sentences using Wikipedia.

William Coster, David Kauchak. In Proceedings of the Workshop on

Monolingual Text-‐ToText GeneraDon, pp.1–9, 2011.

プレゼンテーション関沢祐樹

2015/06/09 1

概要

•  本論文が行ったこと – 英語の文を、簡単な英語に翻訳する – English Wikipedia と Simple English Wikipedia を

対応づけて抽出した137,000文からなるコーパスを用いて簡単化

– テキスト簡単化への新たな翻訳モデルの紹介 •  BLEU,word-‐F1,SSAという３つの評価手法を用いると、　 T３や句に基づく翻訳システムよりも良い成果

2015/06/09 2

はじめに

•  目標 – 普通の英語（normal）を簡単な英語（simple）に翻訳するシステムの学習

•  必要な作業 – 削除　：　主要でない部分を削除、この作業が多い – 語の言い換え – 場所の移動　：　語や句の位置を変える – 挿入＊要約：単語削除に重点

2015/06/09 3

はじめに

•  必要な変換に用いるもの – 句に基づく統計翻訳モデルを拡張したもの

•  確率翻訳モデルに、句の削除を追加したもの •  ベースモデルは、１つの句の中でしか削除できない

•  簡単化の利点 – 子ども、お年寄り、聴覚障害者、失語症などの人

にも理解しやすい – NLPの、意味役割付与、関係抽出の成果の向上

2015/06/09 4

先行研究

•  最初の文の簡単化 – データに基づいた考え方ではなかった – 商業的なアプローチ、プロセスの前処理扱い

•  ２０１０年の実験 – データに基づいたが、評価値は悪かった

•  今回のアプローチ – 3つの評価手法で十分な向上を獲得

2015/06/09 5

テキスト簡単化のコーパス

•  テキスト簡単化のデータ数は少ない •  テキスト要約のデータセットも少ない – わずか１,０００の文アラインメント

•  Wikipediaから得た文アラインメント – 137,000 組を獲得 – これを文アラインメントコーパスとして使用

2015/06/09 6

簡単化のモデル

•  使用したシステム：Moses •  簡単化の計算

•  GIZA++を用いて、単語アラインメントを抽出 – 変換確率を算出

2015/06/09 7

モデルの問題点

•  句の削除が一般的におこる（文単位で４７％）

•  このままだと削除に対応できない •  制約を緩くする – normalをsimpleにする際、　 simpleの部分を空っぽにする　　　　　　　　　　　　

2015/06/09 8

NULLに対応させる方法１

•  normal文の語が、simpleの文の語に非対応 –  simpleの文の適切な場所にNULLを挿入 –  対応先をNULLとする Sergio Rodriguez Garcia , aka Rodri , is a spanish footballer ... Sergio Rodriguez Garcia 　　　　　is a spanish football player ... Sergio Rodriguez Garcia NULL is a spanish football player ...

2015/06/09 9

NULLに対応させる方法２

•  normalの単語集合が全て、simpleの１語に　対応し、normalのある１語が、simpleと同じ –  残りのnormalの単語全てをNULLに対応させる –  句読点や機能語がNULLに対応することが多い

president Obama Obama NULL Obama

2015/06/09 10

実験

•  ５つのアプローチでテキスト簡単化の比較 –  none：何もしない　(ベースライン) –  K&M：文の要約をする –  T3：誤りのある構文木を誤りのない構文木へ変換 – Moses：句に基づく機械翻訳 – Moses+Del：Mosesに削除の機能を追加

– 後半３つの手法のパラメータはデフォルト値 –  none以外は、simpleに対してn-‐gram言語モデルで訓練

2015/06/09 11

詳細設定

•  使われたデータ：全137,000文 – 訓練：124,000文、開発：12,000文、テスト1,300文

– Mosesの使用には、ハイパーパラメータを設定 •  訓練データの終わり500文を用いて最適化

•  T3に全てのデータを使うことができなかった – 時間とメモリの問題によるもの – 訓練データの最初の30,000文を使用

2015/06/09 12

実験結果

2015/06/09 13

実験結果

•  Moses+Delを30,000文で実験 – 訓練：最初の29,700文、残り300文でチューニング – BLEU値：0.5952 > 0.2437 (T3のBLEU値)

•  Oracle:各文翻訳確率上位１０００で構成

2015/06/09 14

結論

•  Wikipediaから文の簡単化の学習を実験 – 提案手法は、語彙変換、言い換え、挿入、削除 – 比較手法よりも良い評価値を獲得 – 削除が重要であるとわかった

•  今後の課題 – 文法の複雑さを除去

•  句に基づくモデルは、文法を考慮しない •  階層的構造の導入で改善されると思われる

2015/06/09 15

読解支援@2015 06-09

Education