2013.06.22.kappa

κ値について

中山祐輝 2013/06/22（土）

1

はじめに

•  研究を行う際にタグ付きコーパスの一致率を求める必要があったため，一致率の求め方をまとめた – 特にκ値に焦点を当てた – 内容に多少の間違いがあるかもしれません…

•  参考にしたページ – h+p://d.hatena.ne.jp/asanote/20081011/1223736381

– h+p://aoki2.si.gunma-‐u.ac.jp/lecture/Kappa/kappa.html

2

背景

•  学術研究において，実験時に評価用のデータセットを用意する場合がある

•  自然言語処理の分野では，何らかの仕様に基づきタグ付けされたコーパスを用意する – 第一著者が付けました！信頼度高いっす（笑） – 信頼性の低いタグ付きコーパスによる実験

•  論文をリジェクトするための都合の良い理由となる

•  論文を通すためには，信頼性の高い客観的な指標を持つタグ付きコーパスが必要→κ値

3

κ値[Cohen 60]とは

•  二人の作業者の判定結果がどの程度一致しているかを表す指標（一致率） – 多くの論文ではこの指標が使われている – 三人以上にも使えるように拡張した手法もある

•  以降のページからκ値の計算過程を説明 1.  タグ付け結果のクロス表を作成 2.  偶然一致の割合を計算 3.  κ値の計算

4

1. タグ付け結果のクロス表を作成

•  （例）AさんとBさんはコーパス中の名詞に対し

て，固有名詞かどうかの判定を行ったとする

①： AさんもBさんも固有名詞と判定した名詞の数 ②〜④も同様 •  選択肢がN個あるとN×Nのクロス表ができる

5

Bさん付けた

Bさん付けなかった

合計

Aさん付けた ①515 ②141 656 Aさん付けなかった ③174 ④6486 6660

合計 689 6627 7316

2. 偶然一致の割合を計算

•  単純な一致率ではだめなのか？ – つまり，（①＋④）/7316≒0.957ではだめ？

•  問題点: 偶然一致の割合を考慮していない – 作業者二人がでたらめに，もしくはわからないと

判断したときに生じる一致の割合 – κ値は偶然一致を除いたものが真の一致率と考

える

6

Bさん付けた

Bさん付けなかった

合計

Aさん付けた ①515 ②141 656 Aさん付けなかった ③174 ④6486 6660

合計 689 6627 7316

偶然一致の割合を

どのように計算するか？ •  実際には観測できないため，期待値を利用し

て推定 – 起こりうることが期待される値

•  期待値の求め方 – ①の期待値について考えてみる

7

Bさんが付けた Bさんが付けなかった

合計

Aさん付けた ①？ ②？ 656 Aさん付けなかった ③？ ④？ 6660

合計 689 6627 7316

期待値の計算

•  p.7の表より – Aさんが固有名詞と付ける確率は656/7316 –  Bさんが固有名詞と付ける確率は689/7316

•  AさんもBさんも固有名詞と付ける確率は –  （656/7316）×（689/7316）≒ 0.0084445 – ここではAさんとBさんのタグ付けは独立と仮定

•  相談しながらタグ付けは行っていないなどAさんの結果がBさんの結果に影響を及ぼさない

•  つまり，7316語で両者とも固有名詞と付ける期待値は –  7316×0.008445 ≒ 61.04

•  61.04個の名詞が考えずとも一致するという意味

8

期待値を用いた偶然一致の割合

•  ②〜④の期待値も同様に考えると以下のような表になる

•  よって，偶然一致の割合は – （①+④/7316）≒0.834

•  一致している数の中で，約83%の割合が考えずとも一致しますということ

9

Bさん付けた Bさん付けなかった

合計

Aさん付けた ①61.04 ②589.96 651 Aさん付けなかった ③624.96 ④6040.04 6665

合計 686 6630 7316

3. κ値の計算

•  κ値は以下のような式で求められる – κ＝(A0-‐Ae)/(1-‐Ae)　　（-‐1≦κ≦1）

•  A0: 実際に一致した割合 •  Ae: 偶然に一致することが期待される割合

– 今回の例では •  κ=（0.957-‐0.834）/（1-‐0.834）= 0.741

•  上式の意味 – 偶然一致することが期待される分は除いて，残り

がどれだけの割合で一致したかを表す

10

κ値の絶対評価（目安）

•  0.0<κ≦0.4: 小程度の一致 –  全然だめ！タグ付けの仕様もしくは作業者に問題がある

からやり直し！ •  0.4<κ≦0.6：中程度の一致 –  まあまあ一致してるけどリジェクトのネタに成りかねない…

もうちょっとκ値が高くなるようにタグ付けの仕様を変更したほうがよいよ！

•  0.6<κ≦0.8: かなりの一致 –  論文に書けるレベルだよ！でも，査読者次第ではリジェク

トされるかも…運ゲーだね… •  0.8<κ：ほぼ完璧の一致 –  エクセレント！でもκ値ではダメだという査読者もいるらし

いから油断はできないね！

11

まとめ

•  主要会議になればなるほど実験に用いたデータセットの品質は重要 – 特に計算言語学の会議はうるさいみたいです

•  信頼性を見極める客観的な指標にκ値がある – 広く使われている指標

•  κ値だけが全てではない – κ値ではダメだという査読者もいると聞く – 用いる指標は扱うデータセットによる？

12

2013.06.22.kappa

Documents