identifying cascading errors using constraints in dependency parsing (...
TRANSCRIPT
Identifying Cascading Errors using Constraints in Dependency Parsing
Dominick Ng and James R. Curran
ACL 2015
紹介者: 馬緤美穂 ( 東工大 )
目的• 構文解析の誤りにおける重要度を分析– どれだけ cascading error が発生するか
2
gold standard
parsing result (MSTparser)
名詞句中の誤り :この部分だけ
root 特定の誤り :他の部分にも大きな影響
関連研究:エラー分析 on 構文解析3
• Kummerfeld et al. (2012)–構文解析エラーの内訳を複数のパーザ間で
比較–単独のエラーの割合–本研究:エラーの割合+他のエラーへの影響• 誤りやすい label の分類を参照している
Kummerfeld et al. (2012) より
• 各エラー (label) クラスについて「その クラスだけは正解データを出力する」と制約を加える
4
手法
parsing resultNP attachment の正解が与えられた上での解析結果・制約による直接変化・↑の変化による間接的変化
graph-based (MSTParser) or
transition-based (ZPar)
NPattachment
NPinternal
PPattachment
ROOTattachment
parser
NPattachment
エラークラスの定義• 係り受け label 単位で設定 (8 classes +
other)– NP attachment…NP への修飾– NP internal…NP の内部における修飾
– PP attachment… 前置詞句への修飾
the cat on the dogpobj(on, dog) … NP attachment
det(dog, the) … NP internal
5
pet the cat with a handprep(pet, with)
6
エラークラスの定義• 係り受け label 単位で設定 (8 classes +
other)NP attachment
appos, dobj, iobj, nsubj, nsubjpass, pobj, and xsubj.
NP internalabbrev, det, nn, number, poss, possessive, and predet.
PP attachmentprepを含む係り受け
clause attachment
advcl, ccomp, csubj, csubjpass, purpcl, rcmod, and xcomp.
…
パーザへの実装• MSTParser…2 次の Einser 法–対象のクラスについての制約に違反しないも
ののみ、完全な部分木を作成してよい
• ZPar…arc-eager + beam search–対象のクラスについての制約に違反した弧は
作成できない
7
pet a cat with a hand pet a cat with a hand
[pet a cat] [with a hand][pet] [with a hand]a cat
評価
• WSJ で構文解析• 9(8+other) の制約について– 1 つも制約を適用しない– 1 つずつ制約を適用した–全ての制約を適用した–場合の精度を調べる• 制約さえ入れれば既存の• システムで評価可能
8
( その他)( 全部 )
結果9
各制約によるエラー数 (eff)/ label ごとのエラー率 (eff%)
制約によって動いた他の単語の平均数 (disp)
UAS の上昇幅 (ΔUAS) の内、制約によって直接改善 (Δc)
cascading error の改善 (Δu)
(ZPar)カバレッジ(何%の文を解析
できたか、 ZPar 基準)
6.1 パーザの比較 ( 全体 )• ΔUAS: ZPar > MSTParser の傾向–特に clause, punctuation, NP attachment–カバレッジの小さい ( 解析できない文が多
い ) label に多い• ZPar は制約なしだと解析できない文を大きく間
違える
• 制約ごとの UAS ランキングは類似–両者の振る舞いは一致している
10
6.2 NP• NP attachment … eff%( エラー率 ) は高く
ないものの ΔUAS が最大–コーパス中で NP attachment が与える影響は大
きい– NP internal の影響は小さい
• ZPar の方が eff( エラー数 ) の割に Δu が高い– ZPar はエラーを含む状態を beam( 解析候補 ) か
ら除去するからではないか
11
12
6.3 Coordination, Modifiers, and PPs
• PPs & coordination … label のエラー自体は多いが単独でのエラーが多く、 Δu は小さい– 係り先の選択肢がある程度小さい部分木の中に
しかない– 実際、制約による係り受けの変化数 (disp) も少な
い• modifiers ( 形容詞・副詞 ) … 比較的できて
いるようだが数が多いのでエラー源となる
• MSTParser の方が ZPar よりエラー率 (eff%) が高いが、 Δu は大差なし–MSTParser の余計なエラーは self-
contained ?–難しいタスクではある (eff% が MSTParser
では 1 位、 ZPar でも 2 位 )
13
6.4 Clause attachment
(MSTParser)
(ZPar)
• ほとんどない (1 つ / 文 ) が、影響を受ける数 (disp) が多い–ほとんどないので ΔUAS は大きくない
14
6.5 Root attachment
• 句読点への係り受けは評価には入らないことが多いが…–修正によって多くの語が変化 (disp)–また、 cascading error も多く修正される
(Δu)–評価対象でないとしても影響は大きい
15
6.6 punctuation error
結論• 構文解析中のエラーが引き起こす
cascading error を分析–手法:パーザに制約を加え、対象の label のみ
を正解させた場合の精度を見る–結果:単独のエラーだけではなく、エラーに
よる他の要素への影響も考慮した分析が可能に– NP attachment や punctuation の影響を示す
• 今後の展望–他の解析器や交差ありの構文解析への適用
16
感想• 興味深く思えた点
– cascading error という指標– NP attachment の cascading error の大きさから構文解析に
与える影響が大きいことを示す– PP attachment( よく問題にはなる ) の他に与える影響は大き
くないと示す• これらを客観的な数字で示している
• 引っかかった点– cascading error 自体は興味深いが、 ZPar (transition-
based) に有利そうな条件 (ZPar が解析できなかった文は分母に入らない ) であることが少し気になった• 解析器自体の比較は一番大きな目的ではないためおそらく問題では
ないけど、数字を見る時には気をつけた方がいい
17