identifying cascading errors using constraints in dependency parsing (...

17
Identifying Cascading Errors using Constraints in Dependency Parsing Dominick Ng and James R. Curran ACL 2015 紹紹紹紹紹紹紹 ( 紹紹紹 )

Upload: miho-matsunagi

Post on 12-Apr-2017

125 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

Identifying Cascading Errors using Constraints in Dependency Parsing

Dominick Ng and James R. Curran

ACL 2015

紹介者: 馬緤美穂 ( 東工大 )

Page 2: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

目的• 構文解析の誤りにおける重要度を分析– どれだけ cascading error が発生するか

2

gold standard

parsing result (MSTparser)

名詞句中の誤り :この部分だけ

root 特定の誤り :他の部分にも大きな影響

Page 3: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

関連研究:エラー分析 on 構文解析3

• Kummerfeld et al. (2012)–構文解析エラーの内訳を複数のパーザ間で 

比較–単独のエラーの割合–本研究:エラーの割合+他のエラーへの影響• 誤りやすい label の分類を参照している

Kummerfeld et al. (2012) より

Page 4: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

• 各エラー (label) クラスについて「その クラスだけは正解データを出力する」と制約を加える

4

手法

parsing resultNP attachment の正解が与えられた上での解析結果・制約による直接変化・↑の変化による間接的変化

graph-based (MSTParser) or

transition-based (ZPar)

NPattachment

NPinternal

PPattachment

ROOTattachment

parser

NPattachment

Page 5: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

エラークラスの定義• 係り受け label 単位で設定 (8 classes +

other)– NP attachment…NP への修飾– NP internal…NP の内部における修飾

– PP attachment… 前置詞句への修飾

the cat on the dogpobj(on, dog) … NP attachment

det(dog, the) … NP internal

5

pet the cat with a handprep(pet, with)

Page 6: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

6

エラークラスの定義• 係り受け label 単位で設定 (8 classes +

other)NP attachment

appos, dobj, iobj, nsubj, nsubjpass, pobj, and xsubj.

NP internalabbrev, det, nn, number, poss, possessive, and predet.

PP attachmentprepを含む係り受け

clause attachment

advcl, ccomp, csubj, csubjpass, purpcl, rcmod, and xcomp.

Page 7: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

パーザへの実装• MSTParser…2 次の Einser 法–対象のクラスについての制約に違反しないも

ののみ、完全な部分木を作成してよい

• ZPar…arc-eager + beam search–対象のクラスについての制約に違反した弧は

作成できない

7

pet a cat with a hand pet a cat with a hand

[pet a cat] [with a hand][pet] [with a hand]a cat

Page 8: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

評価

• WSJ で構文解析• 9(8+other) の制約について– 1 つも制約を適用しない– 1 つずつ制約を適用した–全ての制約を適用した–場合の精度を調べる• 制約さえ入れれば既存の• システムで評価可能

8

( その他)( 全部 )

Page 9: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

結果9

各制約によるエラー数 (eff)/ label ごとのエラー率 (eff%)

制約によって動いた他の単語の平均数 (disp)

UAS の上昇幅 (ΔUAS) の内、制約によって直接改善 (Δc)

cascading error の改善 (Δu)

(ZPar)カバレッジ(何%の文を解析

できたか、 ZPar 基準)

Page 10: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

6.1 パーザの比較 ( 全体 )• ΔUAS: ZPar > MSTParser の傾向–特に clause, punctuation, NP attachment–カバレッジの小さい ( 解析できない文が多

い ) label に多い• ZPar は制約なしだと解析できない文を大きく間

違える

• 制約ごとの UAS ランキングは類似–両者の振る舞いは一致している

10

Page 11: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

6.2 NP• NP attachment … eff%( エラー率 ) は高く

ないものの ΔUAS が最大–コーパス中で NP attachment が与える影響は大

きい– NP internal の影響は小さい

• ZPar の方が eff( エラー数 ) の割に Δu が高い– ZPar はエラーを含む状態を beam( 解析候補 ) か

ら除去するからではないか

11

Page 12: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

12

6.3 Coordination, Modifiers, and PPs

• PPs & coordination … label のエラー自体は多いが単独でのエラーが多く、 Δu は小さい– 係り先の選択肢がある程度小さい部分木の中に 

しかない– 実際、制約による係り受けの変化数 (disp) も少な

い• modifiers ( 形容詞・副詞 ) … 比較的できて 

いるようだが数が多いのでエラー源となる

Page 13: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

• MSTParser の方が ZPar よりエラー率 (eff%) が高いが、 Δu は大差なし–MSTParser の余計なエラーは self-

contained ?–難しいタスクではある (eff% が MSTParser

では 1 位、 ZPar でも 2 位 )

13

6.4 Clause attachment

(MSTParser)

(ZPar)

Page 14: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

• ほとんどない (1 つ / 文 ) が、影響を受ける数 (disp) が多い–ほとんどないので ΔUAS は大きくない

14

6.5 Root attachment

Page 15: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

• 句読点への係り受けは評価には入らないことが多いが…–修正によって多くの語が変化 (disp)–また、 cascading error も多く修正される

(Δu)–評価対象でないとしても影響は大きい

15

6.6 punctuation error

Page 16: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

結論• 構文解析中のエラーが引き起こす

cascading error を分析–手法:パーザに制約を加え、対象の label のみ

を正解させた場合の精度を見る–結果:単独のエラーだけではなく、エラーに 

よる他の要素への影響も考慮した分析が可能に– NP attachment や punctuation の影響を示す

• 今後の展望–他の解析器や交差ありの構文解析への適用

16

Page 17: Identifying Cascading Errors using Constraints in Dependency Parsing ( 2015ACL読み会@すずかけ台 )

感想• 興味深く思えた点

– cascading error という指標– NP attachment の cascading error の大きさから構文解析に

与える影響が大きいことを示す– PP attachment( よく問題にはなる ) の他に与える影響は大き

くないと示す• これらを客観的な数字で示している

• 引っかかった点– cascading error 自体は興味深いが、 ZPar (transition-

based) に有利そうな条件 (ZPar が解析できなかった文は分母に入らない ) であることが少し気になった• 解析器自体の比較は一番大きな目的ではないためおそらく問題では

ないけど、数字を見る時には気をつけた方がいい

17