a neural attention model for sentence summarization [rush+2015]

2015/10/24 EMNLP2015読み会@PFI

kiyukuta

“文の要約” 文を短くする（言い換えとかも含めて） !

“文の要約” 文を短くする（言い換えとかも含めて） !

≠ Document Summarization 文書から短い文書を作る

≠ Sentence Compression 文から単語を削除して短くする

語順の入れ替えも無し

headline generationやvery short summary とか言われるタスクとほぼおなじ

NN機械翻訳で話題のAttentionモデルを移植（ただし，各コンポーネントを簡易化している）

背景

This

（3.2節の最後）

　機械翻訳からインスパイアされた手法が以前から存在＋

　最近はNeural Networkベースの機械翻訳が盛ん

提案手法

まず論文の図を使ってざっくり説明そのあと式を使って説明

Figure1. 提案手法の処理（終了時）の例

論文にある実例でざっくりイメージをつかむ

…

？

…

？結論からいうと入力単語ベクトルを荷重平均して使うときの荷重

途中状態で説明

システムが“russia calls for joint front” まで出力した状態次の出力単語　　(against)をどう決めるか

途中状態で説明

weighted average

次の単語　　　をどう決めるか過去の自分の予測単語c個と入力文中の単語を利用

単語ベクトルの荷重平均ベクトル

×

荷重はそのときの文脈情報でその都度決める

attention!!＝

式使った説明

原文xが与えられた時の要約文yの条件付き確率

今回の出力単語過去c個の出力入力

calls for

ニューラル言語モデル[Bengio2003]文脈から次の単語を予測

softmax

大きく

加重平均ベクトル　　を求める関数

３種類うち一つが本命のattention

×

エンコーダー１

単なる単語ベクトルの平均 - 過去の出力情報使わない - 全ての単語が同じ重み

使わない

エンコーダー２

×… …

… …

- 畳み込み - max-pooling (size: 2) のセットをn回繰り返す

これも使わない

↑ は無いけどイメージとしては

エンコーダー3

×

エンコーダー3

×…

…

( )

エンコーダー3

×…

…

i

＝

エンコーダー3

×…

…

エンコーダー3

×…

…

……

エンコーダー3

×…

…weighted average

……

負の対数尤度を最小化

ビームサーチ

時には原文の単語をそのまま抽出した方が良いかもしれない

提案モデルunigram素性bigram素性trigram素性reordering素性

を学習することで提案モデルのスコアが低い時はそのまま抽出

細かい設定は割愛

DUC2003,2004の公式データ : 500事例 Gigaword corpusの一文目とタイトル : 400万事例

実験

from authors slide http://people.seas.harvard.edu/~srush/emnlp2015_slides.pdf

抽出のやつ

ROUGEによる既存研究との比較

ROUGEは「正解との表層の被り」がスコアになるので Extraction要素を加えたABS＋の方が良い

場所や人などのキーワードは拾える !

構文的に誤った並べ替えが発生してしまったり

事例観察

誤った主語

人手要約者の「短くしたいバイアス」があるのでnzみたいな省略は頻繁に起きている（はず）なので，対応が取れている（はず）

foreign minister→fmも同様

なんかすごい言い換え

+

なんかすごい言い換えてるけど間違っている

more examples in the author’s slide: http://people.seas.harvard.edu/~srush/emnlp2015_slides.pdf

http://people.seas.harvard.edu/~srush/emnlp2015_slides.pdf

a neural attention model for sentence summarization [rush+2015]

Technology