building evaluation sets for textual entailment recognition
Post on 10-Jul-2015
78 views
TRANSCRIPT
1
語彙知識を用いたテキスト含意認識の評価セット構築と認識実験
07319483 村松 祐希 山本研究室
Building Evaluation Sets for Textual Entailment Recognition Using Lexical Knowledge and Recognition Experiments
2
Outline• 研究背景と目的
• 関連研究
• 提案手法
• 実験と考察
• まとめ
3
Outline• 研究背景と目的
• 関連研究
• 提案手法
• 実験と考察
• まとめ
4
研究背景
• 自然言語処理には数多くの応用技術が存在する中、共通する基本問題が未解決
• テキスト間における論理の共通と差異部分の認識が困難
テキスト含意認識に可能性
5
テキスト含意認識(必要性)
私はペンを持っている。僕は筆を持っている。
I have a pen.
機械翻訳の例
機械翻訳 正解データ
翻訳対象
テキスト含意認識によって同一と認識
6
テキスト含意認識(実際の例)テキスト
「世界最大のトウモロコシ生産国であるアメリカは、2006年にバイオエタノールの生産量でも世界のトップに立った」
仮説「アメリカは世界最大のトウモロコシ生産国である」
含意判定 真
7
テキスト含意認識(まとめ)
• テキスト(T)と仮説(H)を与え、両文が包含関係であるかを判断するタスク
• 質問応答や情報検索などの応用技術に対し、テキストの内容理解が問われる部分において貢献
8
目的
テキスト含意認識(RTE)の手法を提案
→より高精度な含意認識の実現
→既存手法の問題点を明らかに
高精度な認識に何が必要であるか?
9
Outline• 研究背景と目的
• 関連研究
• 提案手法
• 実験と考察
• まとめ
10
関連研究
• SVMと文字列類似度を用いたテキスト含意認識学習 (Prodromosら, 2007)
–編集距離、品詞情報、分かち書き
–精度は約62%
• Recognising Textual Entailment Challenge
(Daganら, 2005)
–RTEワークショップを開催
–全17のRTE手法を分類
11
問題提起(Daganらの分類から)
RTE problem
RTEの問題には複数の要因が混在
12
Outline• 研究背景と目的
• テキスト含意認識
• 提案手法
• 実験と考察
• まとめ
13
訓練データWord
Overlap
Mutual
Information
Subpath
Set
SVM TrueFalse
T:本文H:仮説
含意判定
SVM features ResourceProcessing
提案手法(システム図)
14
訓練データ
• 含意する事例(文字列)をスコア化(数値化)
–評価事例の含意判定を推定
中高中
低中中
中高高
中中高
手法C手法B手法A
訓練事例 i (含意)
訓練事例 j(含意)
訓練事例 k(含意しない)
評価事例 l (?)
15
訓練データ
• 含意する事例(文字列)をスコア化(数値化)
–評価データの含意判定を推定
中高中
低中中
中高高
中中高
手法C手法B手法A
訓練事例 i (含意)
訓練事例 j(含意)
訓練事例 k(含意しない)
評価事例 l (含意)
16
訓練データ
T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。含意判定: Talw
Talw: Hが必ず真であるといえる場合
Tmay :Hが正しいと考えられる場合
Fmay : Hが真である可能性がある程度考えられる場合
Falw : Hが全くの誤りだとわかる場合
17
提案手法(Word Overlap)
1
( , ) exp( log( ) / )
exp(1 max{1, / })
n
i
i
Bleu A B BP p n
BP r c
=
=
= −
∑
BLEUを用いた手法(Perez and Alfonseca, 2005)をベースとしたWord Overlapを使用
– A,B : 文
– pi : n-gramの被覆率
– n : n-gram.
– c : 文Aの長さ
– r : 文Bの長さ
18
提案手法(Word Overlap)
T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。BLEU ?
単語の重なりが高いほど含意
19
提案手法(Word Overlap)
T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。BLEU 0.5
単語の重なりが高いほど含意
強:計算結果が人間に分かり易い
弱:似ている語に対応できない
20
提案手法(Mutual Information)
,
1( 1| ) max ( , )
( )( , ) log
( ) ( )
V tu h
u v
u v
P Trh t lep u v
p nlep u v
p n p u
∈∈= =
≈ −⋅
∏u
– u : 仮説中の単語, v : テキスト中の単語
– P(nu) : 単語uの出現確率
– P(nv) : 単語vの出現確率
– P(nu,v) :単語uとvの共起確率
Glickmanら(Glickmanら, 2005)の手法をベースとした相互情報量を使用
21
提案手法(Mutual Information)
T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。MI ?
相互情報量が高いほど含意
22
提案手法(Mutual Information)
T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。MI = I(トヨタ:レクサス)×I(レクサス:高級車)
相互情報量が高いほど含意
23
提案手法(Mutual Information)
T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。MI 0.6
相互情報量が高いほど含意
強:似ている語にも統計から計算可
弱:同じ文が最大値にならない
24
提案手法(Subpath Set)
• Herreraらはテキストと仮説の構文類似度から含意判定を行う手法を提案(Herreraら, 2005)
– 構文解析結果が日本語に対して適用が困難
• 市川らはTree Kernel法をベースとした構文類似度を提案
– 構文木のノードの被覆度を計算
25
Outline• 研究背景と目的
• テキスト含意認識
• 提案手法
• 実験と考察
• まとめ
26
実験条件(認識手法)
• 評価方法は平均適合率をベースとしたCWSを使用 (Daganら., 2005)
• オープンテスト
– 10分割交差検定(one leave out)
• 訓練データ
–真データ Talw:924,Tmay: 662
–偽データ Fmay:262 ,Falw:624
27
認識手法の実験結果(オープンテスト)
64.1%61.9%49.9%SVM
61.1%59.7%45.0%Subpath Set
67.4%55.6%53.4%Mutual
Informaition
59.3%60.2%39.0%Word Overlap
Talw and TmayTmayTalw
CWS
28
考察
T:大潮は、満月と新月の時に起こる。H:大潮には、太陽と月の引力が関係している。含意判定:真
T:あの木の下に立っている人はA子です。H:あの木の下に立っている人は、女性です。含意判定:真
WO 誤、MI 正、SVM 正
WO 正、MI 誤、SVM 正
29
考察
• 正解条件によって組み合わせの有効性が変わる?
– 訓練データの汎化(分離超平面)に違いがある
– 境界条件に近い訓練事例がより多くの貢献
• SVMに用いた素性の有効性は?
– 素性を組み合わせを変えて実験
– 本手法の3つの素性から2つを選択し、比較
30
考察
64.1%61.9%49.9%WO+MI+SS
62.2%60.9%48.6%SS+WO
63.4%59.8%55.2%MI+SS
65.3%61.5%41.2%WO+MI
Talw and TmayTmayTalw
CWS
31
考察(分離平面のイメージ Tmay使用)
含意度 高
含意度 低
32
考察 (分離平面のイメージ Talw使用)
33
Outline• 研究背景と目的
• テキスト含意認識
• 提案手法
• 実験と考察
• まとめ
34
おわりに
• テキスト含意認識の高精度な手法を検討
– 含意認識に貢献可能な素性を調べて実験
• 一部の評価セットに対して有効性を確認
– 訓練データによって分離超平面に変化
– 分離超平面付近の訓練データがより貢献
• 分離超平面に近い事例の傾向
– Tmayの中から言語的な調査が必要