2013.06.22.kappa
TRANSCRIPT
![Page 1: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/1.jpg)
κ値について
中山 祐輝 2013/06/22(土)
1
![Page 2: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/2.jpg)
はじめに
• 研究を行う際にタグ付きコーパスの一致率を求める必要があったため,一致率の求め方をまとめた – 特にκ値に焦点を当てた – 内容に多少の間違いがあるかもしれません…
• 参考にしたページ – h+p://d.hatena.ne.jp/asanote/20081011/1223736381
– h+p://aoki2.si.gunma-‐u.ac.jp/lecture/Kappa/kappa.html
2
![Page 3: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/3.jpg)
背景
• 学術研究において,実験時に評価用のデータセットを用意する場合がある
• 自然言語処理の分野では,何らかの仕様に基づきタグ付けされたコーパスを用意する – 第一著者が付けました!信頼度高いっす(笑) – 信頼性の低いタグ付きコーパスによる実験
• 論文をリジェクトするための都合の良い理由となる
• 論文を通すためには,信頼性の高い客観的な指標を持つタグ付きコーパスが必要→κ値
3
![Page 4: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/4.jpg)
κ値[Cohen 60]とは
• 二人の作業者の判定結果がどの程度一致しているかを表す指標(一致率) – 多くの論文ではこの指標が使われている – 三人以上にも使えるように拡張した手法もある
• 以降のページからκ値の計算過程を説明 1. タグ付け結果のクロス表を作成 2. 偶然一致の割合を計算 3. κ値の計算
4
![Page 5: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/5.jpg)
1. タグ付け結果のクロス表を作成
• (例)AさんとBさんはコーパス中の名詞に対し
て,固有名詞かどうかの判定を行ったとする
①: AさんもBさんも固有名詞と判定した名詞の数 ②〜④も同様 • 選択肢がN個あるとN×Nのクロス表ができる
5
Bさん付けた
Bさん付けなかった
合計
Aさん付けた ①515 ②141 656 Aさん付けなかった ③174 ④6486 6660
合計 689 6627 7316
![Page 6: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/6.jpg)
2. 偶然一致の割合を計算
• 単純な一致率ではだめなのか? – つまり,(①+④)/7316≒0.957ではだめ?
• 問題点: 偶然一致の割合を考慮していない – 作業者二人がでたらめに,もしくはわからないと
判断したときに生じる一致の割合 – κ値は偶然一致を除いたものが真の一致率と考
える
6
Bさん付けた
Bさん付けなかった
合計
Aさん付けた ①515 ②141 656 Aさん付けなかった ③174 ④6486 6660
合計 689 6627 7316
![Page 7: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/7.jpg)
偶然一致の割合を
どのように計算するか? • 実際には観測できないため,期待値を利用し
て推定 – 起こりうることが期待される値
• 期待値の求め方 – ①の期待値について考えてみる
7
Bさんが付けた Bさんが付けなかった
合計
Aさん付けた ①? ②? 656 Aさん付けなかった ③? ④? 6660
合計 689 6627 7316
![Page 8: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/8.jpg)
期待値の計算
• p.7の表より – Aさんが固有名詞と付ける確率は656/7316 – Bさんが固有名詞と付ける確率は689/7316
• AさんもBさんも固有名詞と付ける確率は – (656/7316)×(689/7316)≒ 0.0084445 – ここではAさんとBさんのタグ付けは独立と仮定
• 相談しながらタグ付けは行っていないなどAさんの結果がBさんの結果に影響を及ぼさない
• つまり,7316語で両者とも固有名詞と付ける期待値は – 7316×0.008445 ≒ 61.04
• 61.04個の名詞が考えずとも一致するという意味
8
![Page 9: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/9.jpg)
期待値を用いた偶然一致の割合
• ②〜④の期待値も同様に考えると以下のような表になる
• よって,偶然一致の割合は – (①+④/7316)≒0.834
• 一致している数の中で,約83%の割合が考えずとも一致しますということ
9
Bさん付けた Bさん付けなかった
合計
Aさん付けた ①61.04 ②589.96 651 Aさん付けなかった ③624.96 ④6040.04 6665
合計 686 6630 7316
![Page 10: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/10.jpg)
3. κ値の計算
• κ値は以下のような式で求められる – κ=(A0-‐Ae)/(1-‐Ae) (-‐1≦κ≦1)
• A0: 実際に一致した割合 • Ae: 偶然に一致することが期待される割合
– 今回の例では • κ=(0.957-‐0.834)/(1-‐0.834)= 0.741
• 上式の意味 – 偶然一致することが期待される分は除いて,残り
がどれだけの割合で一致したかを表す
10
![Page 11: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/11.jpg)
κ値の絶対評価(目安)
• 0.0<κ≦0.4: 小程度の一致 – 全然だめ!タグ付けの仕様もしくは作業者に問題がある
からやり直し! • 0.4<κ≦0.6: 中程度の一致 – まあまあ一致してるけどリジェクトのネタに成りかねない…
もうちょっとκ値が高くなるようにタグ付けの仕様を変更したほうがよいよ!
• 0.6<κ≦0.8: かなりの一致 – 論文に書けるレベルだよ!でも,査読者次第ではリジェク
トされるかも…運ゲーだね… • 0.8<κ: ほぼ完璧の一致 – エクセレント!でもκ値ではダメだという査読者もいるらし
いから油断はできないね!
11
![Page 12: 2013.06.22.kappa](https://reader036.vdocuments.pub/reader036/viewer/2022082503/55a6de791a28aba67e8b478a/html5/thumbnails/12.jpg)
まとめ
• 主要会議になればなるほど実験に用いたデータセットの品質は重要 – 特に計算言語学の会議はうるさいみたいです
• 信頼性を見極める客観的な指標にκ値がある – 広く使われている指標
• κ値だけが全てではない – κ値ではダメだという査読者もいると聞く – 用いる指標は扱うデータセットによる?
12