第一回ぞくパタ

39
@siero5335 #ぞくパタ ドワンゴ様@東銀座 2014/12/02 第1回「続・わかりやすいパターン認識」読書会 第1章: ベイズ統計学

Upload: akifumi-eguchi

Post on 07-Jul-2015

901 views

Category:

Data & Analytics


1 download

DESCRIPTION

第1回 「続・わかりやすいパターン認識」の発表資料になります。

TRANSCRIPT

Page 1: 第一回ぞくパタ

@siero5335

#ぞくパタ ドワンゴ様@東銀座 2014/12/02

第1回「続・わかりやすいパターン認識」読書会第1章: ベイズ統計学

Page 2: 第一回ぞくパタ

 目次

1.1  試行と事象    1.2  ベイズの定理    1.3  頻度から確信度へ    1.4  逆確率  –結果から原因を−    1.5  3つの扉問題  

Page 3: 第一回ぞくパタ

 1.1 試行と事象: 用語の解説

Page 4: 第一回ぞくパタ

 1.1 試行と事象: 用語の解説 コインを投げる、サイコロを振る、気温を測る… 繰り返し実行できる実験、調査、観察を試行と呼ぶ。 試行により得られる結果を事象という。 1 ‒ 6の目が出る → 事象

1 ‒ 6いずれかの目が出る(それ以下にはわけられない) → 根源事象

偶数、もしくは奇数の目が出る(根源事象の組み合わせ) → 複合事象

起こりうるすべての根源事象の集合 → 標本空間

集合の各要素 → 標本点

Page 5: 第一回ぞくパタ

 1.1 試行と事象: 用語の解説

・集合を{}で表すと…  サイコロ一回投げて出た目を観測する試行に伴う標本空間は

{1, 2, 3, 4, 5, 6}

で表される。奇数であれば

{1, 3, 5}

・ここで、事象Aが起きる確率をP(A)で表すことにする。  上のようにサイコロを投げて奇数が出る事象をAとすると、

A = {1, 3, 5} P(A) = 1/2

と書ける。

Page 6: 第一回ぞくパタ

 1.1 試行と事象: 用語の解説 ・確率変数・確率関数・確率密度関数    

標本空間上の各根源事象に対して数値を対応させたとき、それらのいずれかの値を取る変数X。Xの値が得られる確率がxと定まっている時にXを確率変数と呼ぶ。    

・サイコロの例  X  =  x  

x  ∈ {1,  2,  3,  4,  5,  6} P(X  =  1)  =  1/6  

 

ここで、P(X  =  x)をxの関数とみてP(x)と記し、確率関数と呼ぶ    ・気温などの連続値を変数とした場合は、      となるようなxの関数p(x)が定義でき、確率密度関数と呼ぶ        

Page 7: 第一回ぞくパタ

 1.1 試行と事象: 用語の解説 ・確率分布    

確率変数について確率関数または確率密度関数が明示できるとき、  その確率変数は、与えられた確率分布に従うという。     ・確率関数の確率変数    → 離散的な値をとる離散型確率変数      その確率分布は離散型確率分布     ・確率密度関数の確率変数    → 連続的な値をとる連続型確率変数      その確率分布は連続型確率分布     Xが離散か連続かで使い分け    

Page 8: 第一回ぞくパタ

 1.2 ベイズの定理

当 当

当 当

Page 9: 第一回ぞくパタ

 1.2 ベイズの定理

当 当

S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

・同時確率

取り出したカードが「白」かつ「当」 = 2/10: 同時確率 当たり/外れと色を組みにした同時確率は P(X,S) と表され、

P(白, 当) = 2/10

と書く。また、

P(X,S) = P(S,X)

である。

Page 10: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

P(当) = P(白, 当) +P(黒, 当) = 3/10

P(外) = P(白, 外) +P(黒, 外) = 7/10 ! ! = ! !(!, !)

!

当たり/外れ,  色  (X,  S)

・周辺確率

Page 11: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

P(白) = P(当, 白) +P(外, 白) = 4/10

P(黒) = P(当, 黒) +P(外, 黒) = 6/10 ! ! = ! !(!, !)

!

当たり/外れ,  色  (X,  S)

・周辺確率

Page 12: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

P(S), P(X) は  の周辺に並んでいるので周辺確率と呼ばれる

また、これを求めるための演算を周辺化と呼ぶ

当たり/外れ,  色  (X,  S)

P(白) = P(当, 白) +P(外, 白) = 4/10

P(黒) = P(当, 黒) +P(外, 黒) = 6/10 ! ! = ! !(!, !)

!

・周辺確率

Page 13: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

また、同時確率・周辺確率においては以下が成り立つ

!(!, !)!!

= 1 !(!)!

= ! ! !!

= 1

当たり/外れ,  色  (X,  S)

Page 14: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

当たり/外れ,  色  (X,  S)

条件付き確率 白という条件付きで当たり → P(当|白) と表記, P(当|白) = 1/2

一般化すると カードの色がわかった上での当外 → P(S|X) カードの当外がわかった上でのカードの色 → P(X|S)

Page 15: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

当たり/外れ,  色  (X,  S)

!(!|!)!

= ! ! !|!!

= 1 条件付き確率については以下が成り立つ

P(X,  S)  =  P(X|S)P(S)  =  P(S|X)P(X)

条件付き確率 白という条件付きで当たり → P(当|白) と表記, P(当|白) = 1/2

一般化すると カードの色がわかった上での当外 → P(S|X) カードの当外がわかった上でのカードの色 → P(X|S)

Page 16: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

当たり/外れ,  色  (X,  S)

独立とは?

P(X, S) = P(X|S)P(S) = P(S|X)P(X) のとき、

P(X|S) = P(X) または P(S|X) = P(S) なら、

P(X, S) = P(X)P(S) が成り立つ

この時、事象XとSは独立であるという(互いに影響を及ぼさない)

Page 17: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

当たり/外れ,  色  (X,  S)

以下もまた成り立つ

P(X, Y|S) = P(X|Y, S)P(Y|S) = P(Y|X, S)P(X|S)

ここで、

P(X|Y, S) =P(X|S) または P(Y|X, S) = P(Y|S)であるなら、

P(X, Y|S) = P(X|S) P(Y|S)

が成り立つ。このとき、Sが与えられた下で、事象XとYは 「条件付き独立」であるという。

Page 18: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

当たり/外れ,  色  (X,  S)

!(!|!)!

= ! ! !|!!

= 1 P(X,  S)  =  P(X|S)P(S)  =  P(S|X)P(X)  

より、

! ! ! = !! !, !! !

= !! !, !! ! ! !

= ! ! !! ! ! ! ! !(!)

ベイズの定理

Page 19: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

当たり/外れ,  色  (X,  S)

!(!|!)!

= ! ! !|!!

= 1 P(X,  S)  =  P(X|S)P(S)  =  P(S|X)P(X)  

より、

! ! ! = !! !, !! !

= !! !, !! ! ! !

= ! ! !! ! ! ! ! !(!)

P(当,  白)    =      =      =    1/2    

! � �! � ! � � + ! � ! � �

!(�)

2/3( 310)�(

23)+ (

710)�(

27)�3/10

Page 20: 第一回ぞくパタ

 1.2 ベイズの定理 S = 当 S = 外 計  

X = 白 2枚, 2/10 2枚, 2/10 4枚, 4/10

X = 黒 1枚, 1/10 5枚, 5/10 6枚, 6/10

計   3枚, 3/10 7枚, 7/10 10枚

当 当

当 当

当たり/外れ,  色  (X,  S)

!(!|!)!

= ! ! !|!!

= 1 P(X,  S)  =  P(X|S)P(S)  =  P(S|X)P(X)  

より、

! ! ! = !! !, !! !

= !! !, !! ! ! !

= ! ! !! ! ! ! ! !(!)

P(S) → 色を観測する前の当たりの確率 → 事前確率 P(S|X) → 観測後の当たりの確率 → 事後確率

Page 21: 第一回ぞくパタ

 1.3 頻度から確信度へ

事前確率が事後確率に変化する!

Page 22: 第一回ぞくパタ

 1.3 頻度から確信度へ 確率が変わるなんて本当に?

(1) 当たりの確率は最初にとった時の3/10で決まってるんじゃね? (2) 取り出す前ならともかくとった後だともう確定してるから意味ない

(3) カードが白かつ当たりだし2/10なんじゃね?

(1) (2) 「確率 = 確信の度合い」という結果に慣れてない?      確信の度合いなので、新情報が得られたら確率が変わる (3) 条件付き確率と同時確率を混同

普通の確率の考え方は「相対頻度の極限」 サイコロn回投げて1が出た回数がn0とした時、n0/n が n → ∞のとき、

n0/n → 1/6

でもベイズでは絶対当たるという確信があれば確率は1になる。

Page 23: 第一回ぞくパタ

 1.4 逆確率 –結果から原因を−  

Page 24: 第一回ぞくパタ

 1.4 逆確率 –結果から原因を−  

! ! ! = !! !, !! !

= !! !, !! ! ! !

= ! ! !! ! ! ! ! !(!)

本当にベイズの定理が威力を発揮するのは、右辺のP(X|S)は求めやすいけど左辺のP(S|X)が求めにくい時。

Ex: Sが原因、Xが結果を表すような場合。 結果がわかった時、その原因を求める式になってる。 このように、結果から原因を探る問題を逆問題という。

P(X|S) != ! ! ! !P X ! ! ! �!(!) X S,  Xを入れ替え

Page 25: 第一回ぞくパタ

 1.4 逆確率 –結果から原因を−  例題1  

罹患率0.001の病気の検査薬A 感染してれば0.98で陽性 なくても0.01で陽性(擬陽性) 検査薬Aで陽性が出た時に感染している確率P(感|陽)は? = 0.089  意外と陽性が出ても感染している確率は高くない  人間は事前確率を過小評価しがち

S = 非 S = 感

X = 陰 P(陰|非) = 0.99 P(陰|感) = 0.02

X = 陽 P(陽|非) = 0.01 P(陽|感) = 0.98

事前確率 P(非) = 0.999 P(陽) = 0.001

P(�|�) != ! ! � �P � ! � � + ! � !(�|�)

�!(�)

= 0.98 ∗ 0.0010.999 ∗ 0.01+ 0.001 ∗ 0.98

Page 26: 第一回ぞくパタ

 1.4 逆確率 –結果から原因を−  例題1  

罹患率0.001の病気の検査薬A 感染してれば0.98で陽性 なくても0.01で陽性(擬陽性) 検査薬Aで陽性が出た時に感染している確率P(感|陽)は?  

1    

                                                                                       非感染:  0.999                                                                          感染:  0.001            

                                                                                                                                                                               擬陽性 陽性                               0.999*0.01 0.001*0.98  

S = 非 S = 感

X = 陰 P(陰|非) = 0.99 P(陰|感) = 0.02

X = 陽 P(陽|非) = 0.01 P(陽|感) = 0.98

事前確率 P(非) = 0.999 P(陽) = 0.001

Page 27: 第一回ぞくパタ

 1.4 逆確率 –結果から原因を−  例題2  

Aで陽性だったのでBでも確認 感染してれば0.97で陽性 なくても0.04で陽性(擬陽性) 検査薬Bでも陽性だった時に感染している確率P(感|陽)は?                                                    =  0.704    

 Aで陽性という情報が得られたため、事前確率が変化して  陽性である確率が高くなっている。

S = 非 S = 感

X = 陰 P(陰|非) = 0.96 P(陰|感) = 0.02

X = 陽 P(陽|非) = 0.04 P(陽|感) = 0.97

事前確率 P(非) = 0.911 P(陽) = 0.089

P(�|�) != ! ! � �P � ! � � + ! � !(�|�)

�!(�)

= 0.97 ∗ 0.0890.911 ∗ 0.04+ 0.089 ∗ 0.97

Page 28: 第一回ぞくパタ

 1.5 3つの扉問題  

条件付き確率の「条件」に当たる要素とは  

Page 29: 第一回ぞくパタ

 1.5 3つの扉問題 例題  

A B C

3つの扉のどこかに司会者が商品を隠した。  挑戦者が扉(A)を選んだ後、司会者が外れの扉(B)を開けてみせ、  最初に選んだ扉(A)のままでもいいけどもう一つの開けてない扉(C)を選びなおしてもいいよ、と告げてくる。    (1) 最初に選んだ扉Aが当たりの確率は?  

(2) 外れの扉Bを司会者が開けた時、最初の扉Aが当たりの確率は?  

(3) 扉を選択しなおしたほうが良い?  

Page 30: 第一回ぞくパタ

 1.5 3つの扉問題 例題  

A B C

 (1) 最初に選んだ扉Aが当たりの確率は?    →  1/3  

(2)  外れの扉Bを司会者が開けた時、最初の扉Aが当たりの確率は?    →  1つ間違いの可能性が減ったし1/2    

(3)  扉を選択しなおしたほうが良い?                    →  選んでも選び直さなくてもいっしょ  

Page 31: 第一回ぞくパタ

 1.5 3つの扉問題 例題  

A B C

 (1) 最初に選んだ扉Aが当たりの確率は?    →  1/3  

(2)  外れの扉Bを司会者が開けた時、最初の扉Aが当たりの確率は?    →  1つ間違いの可能性が減ったし1/2    

(3)  扉を選択しなおしたほうが良い?                    →  選んでも選び直さなくてもいっしょ  

Page 32: 第一回ぞくパタ

 1.5 3つの扉問題 例題  

A B C

 (1) 最初に選んだ扉Aが当たりの確率は?    →  1/3  

(2)  外れの扉Bを司会者が開けた時、最初の扉Aが当たりの確率は?    →  1/3のまま    

(3)  扉を選択しなおしたほうが良い?                    →  Cの扉に選び直した方がいい    

Page 33: 第一回ぞくパタ

 1.5 3つの扉問題 例題  

A B C

 (1) 最初に選んだ扉Aが当たりの確率は?    →  1/3  

(2)  外れの扉Bを司会者が開けた時、最初の扉Aが当たりの確率は?    →  1/3のまま    

(3)  扉を選択しなおしたほうが良い?                    →  Cの扉に選び直した方がいい    

なんでさ?  

Page 34: 第一回ぞくパタ

 1.5 3つの扉問題 例題  (2)  外れの扉Bを司会者が開けた時、最初の扉Aが当たりの確率は?    

           Aが当たりの時              P(OB|ωA)  =  1/2,  P(OC|ωA)  =  1/2       P(OB|ωA)  はAが当たりの時に司会者がBを開ける確率のこと    

           Bが当たりの時              P(OB|ωB)  =  0,  P(OC|ωB)  =  1    

           Cが当たりの時              P(OB|ωC)  =  1,  P(OC|ωC)  =  0        A B C

Page 35: 第一回ぞくパタ

 1.5 3つの扉問題 例題   ベイズの定理に代入すると                                                                                    =  1/3    

 図で書くと              

P ω! O! = ! P ω! P O! ω!P ω! P O! ω! + P ω! P O! ω! + P ω! P O! ω!

= ! (1/3)�(1/2)1/3 � 1/2 + 1/3 �0+ 1/3 �1

Bを開ける  OB

Cを開ける  OC

Bを開ける  OB

Cを開ける  OC

Aに隠す  (ωA  =  1/3) Bに隠す  (ωB  =  1/3) Cに隠す  (ωC  =  1/3)

(a) (b)

Page 36: 第一回ぞくパタ

 1.5 3つの扉問題 例題   司会者が応え知らない時も同じことが言える?   

Page 37: 第一回ぞくパタ

 1.5 3つの扉問題 例題   司会者が応え知らない時も同じことが言える?   →  No  !  場合によっては当たりを開けちゃうこともある。    そのため司会者が開けた扉の当たり外れを考慮しないとダメ     図で書くと    

Bを開き外  OB

Aに隠す  (ωA  =  1/3) Bに隠す  (ωB  =  1/3) Cに隠す  (ωC  =  1/3)

(c) (d)

Cを開き当  OC

* Cを開き外  

OC

Cを開き外  OC

Bを開き当  OB

* Bを開き外  

OB

Page 38: 第一回ぞくパタ

 1.5 3つの扉問題 例題  

B "OB

C "OC

B "OB

C "OC

A "(ωA"="1/3) B "(ωB"="1/3) C "(ωC"="1/3)

(a) (b)

B "OB

A "(ωA"="1/3) B "(ωB"="1/3) C "(ωC"="1/3)

(c) (d)

C "OC

*C "

OC

C "OC

B "OB

*B "

OB

この時条件付き確率P(ωA|OB)は知ってる時(a)/((a)  +  (b)),  知らない時(c)/((c)  +  (d))    

(a)/((a)  +  (b))  ≠  (c)/((c)  +  (d))  

Page 39: 第一回ぞくパタ

 まとめ

1.1  試行と事象:  用語の意味を抑えておこう    1.2  ベイズの定理:  定理の証明を確認    1.3  頻度から確信度へ:  確信度の考え方に慣れよう    1.4  逆確率:  ベイズ統計が実際の問題にどう使えるのか    1.5  3つの扉問題:  条件付き確率の条件に注意!