building evaluation sets for textual entailment recognition

1

語彙知識を用いたテキスト含意認識の評価セット構築と認識実験

07319483 村松祐希山本研究室

Building Evaluation Sets for Textual Entailment Recognition Using Lexical Knowledge and Recognition Experiments

2

Outline• 研究背景と目的

• 関連研究

• 提案手法

• 実験と考察

• まとめ

3


• 関連研究

• 提案手法

• 実験と考察

• まとめ

4

研究背景

• 自然言語処理には数多くの応用技術が存在する中、共通する基本問題が未解決

• テキスト間における論理の共通と差異部分の認識が困難

テキスト含意認識に可能性

5

テキスト含意認識（必要性）

私はペンを持っている。僕は筆を持っている。

I have a pen.

機械翻訳の例

機械翻訳正解データ

翻訳対象

テキスト含意認識によって同一と認識

6

テキスト含意認識（実際の例）テキスト

「世界最大のトウモロコシ生産国であるアメリカは、2006年にバイオエタノールの生産量でも世界のトップに立った」

仮説「アメリカは世界最大のトウモロコシ生産国である」

含意判定真

7

テキスト含意認識（まとめ）

• テキスト(T)と仮説(H)を与え、両文が包含関係であるかを判断するタスク

• 質問応答や情報検索などの応用技術に対し、テキストの内容理解が問われる部分において貢献

8

目的

テキスト含意認識(RTE)の手法を提案

→より高精度な含意認識の実現

→既存手法の問題点を明らかに

高精度な認識に何が必要であるか？

9


• 関連研究

• 提案手法

• 実験と考察

• まとめ

10

関連研究

• SVMと文字列類似度を用いたテキスト含意認識学習 (Prodromosら, 2007)

–編集距離、品詞情報、分かち書き

–精度は約62%

• Recognising Textual Entailment Challenge

(Daganら, 2005)

–RTEワークショップを開催

–全17のＲＴＥ手法を分類

11

問題提起（Daganらの分類から）

RTE problem

ＲＴＥの問題には複数の要因が混在

12


• テキスト含意認識

• 提案手法

• 実験と考察

• まとめ

13

訓練データWord

Overlap

Mutual

Information

Subpath

Set

SVM TrueFalse

T:本文H:仮説

含意判定

SVM features ResourceProcessing

提案手法（システム図）

14

訓練データ

• 含意する事例（文字列）をスコア化（数値化）

–評価事例の含意判定を推定

中高中

低中中

中高高

中中高

手法Ｃ手法Ｂ手法Ａ

訓練事例 i （含意）

訓練事例 j（含意）

訓練事例 k（含意しない）

評価事例 l （?）

15

訓練データ

• 含意する事例（文字列）をスコア化（数値化）

–評価データの含意判定を推定

中高中

低中中

中高高

中中高

手法Ｃ手法Ｂ手法Ａ

訓練事例 i （含意）

訓練事例 j（含意）

訓練事例 k（含意しない）

評価事例 l （含意）

16

訓練データ

T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。含意判定: Talw

Talw: Hが必ず真であるといえる場合

Tmay :Hが正しいと考えられる場合

Fmay : Hが真である可能性がある程度考えられる場合

Falw : Hが全くの誤りだとわかる場合

17

提案手法（Word Overlap）

1

( , ) exp( log( ) / )

exp(1 max{1, / })

n

i

i

Bleu A B BP p n

BP r c

=

=

= −

∑

BLEUを用いた手法(Perez and Alfonseca, 2005)をベースとしたWord Overlapを使用

– A,B : 文

– pi : n-gramの被覆率

– n : n-gram.

– c : 文Aの長さ

– r : 文Bの長さ

18


T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。BLEU ?

単語の重なりが高いほど含意

19


T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。BLEU 0.5

単語の重なりが高いほど含意

強：計算結果が人間に分かり易い

弱：似ている語に対応できない

20

提案手法(Mutual Information)

,

1( 1| ) max ( , )

( )( , ) log

( ) ( )

V tu h

u v

u v

P Trh t lep u v

p nlep u v

p n p u

∈∈= =

≈ −⋅

∏u

– u : 仮説中の単語, v : テキスト中の単語

– P(nu) : 単語uの出現確率

– P(nv) : 単語vの出現確率

– P(nu,v) :単語uとvの共起確率

Glickmanら(Glickmanら, 2005)の手法をベースとした相互情報量を使用

21


T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。MI ?

相互情報量が高いほど含意

22


T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。MI = Ｉ（トヨタ:レクサス）×Ｉ（レクサス:高級車）


23


T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。MI 0.6


強：似ている語にも統計から計算可

弱：同じ文が最大値にならない

24

提案手法（Subpath Set）

• Herreraらはテキストと仮説の構文類似度から含意判定を行う手法を提案（Herreraら, 2005）

– 構文解析結果が日本語に対して適用が困難

• 市川らはTree Kernel法をベースとした構文類似度を提案

– 構文木のノードの被覆度を計算

25



• 提案手法

• 実験と考察

• まとめ

26

実験条件（認識手法）

• 評価方法は平均適合率をベースとしたCWSを使用 (Daganら., 2005)

• オープンテスト

– 10分割交差検定（one leave out）

• 訓練データ

–真データ Talw:924,Tmay: 662

–偽データ Fmay:262 ,Falw:624

27

認識手法の実験結果（オープンテスト）

64.1%61.9%49.9%SVM

61.1%59.7%45.0%Subpath Set

67.4%55.6%53.4%Mutual

Informaition

59.3%60.2%39.0%Word Overlap

Talw and TmayTmayTalw

CWS

28

考察

T:大潮は、満月と新月の時に起こる。H:大潮には、太陽と月の引力が関係している。含意判定:真

T:あの木の下に立っている人はA子です。H:あの木の下に立っている人は、女性です。含意判定:真

WO 誤、ＭＩ正、ＳＶＭ正

WO 正、ＭＩ誤、ＳＶＭ正

29

考察

• 正解条件によって組み合わせの有効性が変わる？

– 訓練データの汎化（分離超平面）に違いがある

– 境界条件に近い訓練事例がより多くの貢献

• ＳＶＭに用いた素性の有効性は？

– 素性を組み合わせを変えて実験

– 本手法の3つの素性から2つを選択し、比較

30

考察

64.1%61.9%49.9%WO+MI+SS

62.2%60.9%48.6%SS+WO

63.4%59.8%55.2%MI+SS

65.3%61.5%41.2%WO+MI

Talw and TmayTmayTalw

CWS

31

考察（分離平面のイメージ Tmay使用）

含意度高

含意度低

32

考察 (分離平面のイメージ Talw使用）

33



• 提案手法

• 実験と考察

• まとめ

34

おわりに

• テキスト含意認識の高精度な手法を検討

– 含意認識に貢献可能な素性を調べて実験

• 一部の評価セットに対して有効性を確認

– 訓練データによって分離超平面に変化

– 分離超平面付近の訓練データがより貢献

• 分離超平面に近い事例の傾向

– Tmayの中から言語的な調査が必要

building evaluation sets for textual entailment recognition

Technology