introduction to statistical estimation (統計的推定入門)

Post on 18-Jul-2015

494 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

統計的推定入門

手塚 太郎

1

なぜ確率?

世界を記述するために大変有効な枠組み。

未知であるものを確率で表わせばよい。

あらゆる場面で使われるようになってきている。

2

さらに……

人間は誰でも“確率的直観”を持っている。

日々確率論を利用しながら推論を行っていると言える。

何げなく使っている推論が明確に定式化されると嬉しい。

3

分からないものは確率で

明日の天気が決まる仕組みが複雑

→確率的に決まるとみなす

降水確率を割り当てる

サイコロの目が決まる仕組みが複雑

→確率的に決まるとみなす

各面に1/6の確率を割り当てる

文書の意味構造が複雑

→確率モデルで定式化

文の生成を確率事象と捉える4

機械学習

訓練データを用いて分布のパラメータを推定し、テストデータに対して予測や識別を行う。

5

訓練データ

テストデータ

学習器

分布

パラメータ

学習予測・識別

推定

機械学習と確率統計

機械学習は確率論とは独立に発展したが、現在は両者は不可分の関係にあることが分かってきている。

6

統計

確率

機械学習

統計的機械学習

確率論の基礎

7

確率の表記法の基本

8

6.0)( 1axP 3.0)( 2axP 1.0)( 3axP

明日の天気を確率的に捉える例。

明日の天気を確率変数xで表す。

晴れをa1で表す。明日晴れる確率は0.6。

小雨をa2で表す。明日小雨の確率は0.3。

大雨をa3で表す。明日大雨の確率は0.1。

問題: これらの知識を三つの等式で表せ。

確率分布

確率変数xのそれぞれの値に対し、その値が生じる確率を値として持つ関数

9

6.0)( 1axP

)(xP

3.0)( 2axP 1.0)( 3axP

同時確率(同時分布)

複数の事象が同時に起きる確率の分布

10

02.0),( 11 byaxP

),( yxP

05.0),( 21 byaxP

03.0),( 12 byaxP..............

04.0),( nm byaxP

同時確率の例

それぞれの事象が同時に生じる確率の分布

すべての事象の確率を足した時に1

になる必要がある。

11

明日の天気 x

晴 雨

明後日の天気y

晴 0.4 0.1

雨 0.2 0.3

三つ以上の確率変数の同時確率

確率変数が二つの場合と同じように定義できる。

12

006.0),,( 111 czbyaxP

),,( zyxP

007.0),,( 121 czbyaxP

001.0),,( 211 czbyaxP..............

002.0),,( knm czbyaxP

周辺化

N個の確率変数(ここではxとy)に関する分布である同時確率から、N-1個の確率変数(ここではx)の分布を作る操作。

13

),(...),(),(

),()(

21 n

y

byxPbyxPbyxP

yxPxP

yについてすべての可能性について考えて確率を足し合わせたら、xについてだけの確率分布になる。

周辺化の例

明日の天気xの確率分布 P(x) を同時確率から求める。

明後日の天気yの確率分布 P(y) を同時確率から求める。

14

明日の天気xP(y)

晴 雨

明後日の天気y

晴 0.4 0.1 0.5

雨 0.2 0.3 0.5

P(x) 0.6 0.4

条件付き確率

条件付き確率は「確率分布を値とする関数」。

区切り記号「|」の後に条件を入れることで、その条件のもとでの確率分布が得られる。

15

)|( byaxP

条件付き確率の値は同時確率と周辺確率の商として求められる。

)(

),()|(

yP

yxPyxP

条件付き確率の例

明日の天気が決まった上での明後日の天気の確率分布。

16

明日の天気xP(y)

晴 雨

明後日の天気y

晴0.4/0.6

= 0.666

0.1/0.4

= 0.250.5

雨0.2/0.6

= 0.333

0.3/0.4

= 0.750.5

P(x) 0.6 0.4

)(

),()|(

xP

yxPxyP

条件付き確率と“割合”

条件付き確率の計算では全体に対する“割合”が求められている。

総和 p(x=晴) のうち、

p(x=晴,y=雨)が占める割合が求められている。

1717

明日の天気x

明後日の天気y

晴0.4/0.6

= 0.666

雨0.2/0.6

= 0.333

P(x) 0.6雨晴晴晴

雨晴

yxPyxP

yxP

,,

,

)(

),()|(

雨晴晴雨

xP

yxPxyP

独立性

xとyが同時に起きる確率(同時確率)がxが起きる確率とyが起きる確率の積で表せる時、xとyは独立であるという。

18

)()(),( yPxPyxP

独立性の判定例

血液型xと性格yが以下の分布に従っているとする。

19

血液型と性格は独立か?

血液型x

A B O AB

性格y

几帳面 0.12 0.06 0.09 0.03

だらしない 0.08 0.04 0.06 0.02

普通 0.2 0.1 0.15 0.05

独立性の評価

20

血液型xP(y)

A B O AB

性格y

几帳面 0.12 0.06 0.09 0.03 0.3

だらしない 0.08 0.04 0.06 0.02 0.2

普通 0.2 0.1 0.15 0.05 0.5

P(x) 0.4 0.2 0.3 0.1

同時分布が周辺分布の積で求められるので、独立。

実際、xとyのすべての値について以下が成り立っている。

)()(),( yPxPyxP

条件付き独立性

条件部の値を固定した時に独立である時、条件付き独立であるという。

21

)|()|()|,( zyPzxPzyxP

)|()|()|,( 111 czyPczxPczyxP

..............

)|()|()|,( kkk czyPczxPczyxP

)|()|()|,( 222 czyPczxPczyxP

条件付き独立性の例

x:横浜スタジアムで野球の試合が開催されるか

y: 赤レンガパークで野外ライブが開催されるか

z: 天候

22

)|()|(

)|,(

晴開催晴開催

晴開催開催

zyPzxP

zyxP

)|()|(

)|,(

雨中止雨開催

雨中止開催

zyPzxP

zyxP

などの式が成り立つと考えられる。

条件付き独立性の例

23

)|()|()|,( 晴晴晴 zyPzxPzyxP

)|()|()|,( 雨雨雨 zyPzxPzyxP

しかしxとyの値はzを通して関係するので、独立とは限らない。

もしxとyのすべての値について以下の関係式が満たされていれば、xとyはzのもとで条件付き独立。

確率の間の関係式のまとめ

同時確率

周辺確率

条件付き確率

周辺化

24

)(

),()|(

yP

yxPyxP

y

yxPxP ),()(

yxP ,

yPxP ,

周辺化

練習問題1

ある店にあるスロットマシンについて。

設定が甘く、30分で大当たりが出る確率は0.1

設定が甘く、30分で大当たりが出ない確率は0.2

設定が厳しく、 30分で大当たりが出る確率は0.1

設定が厳しく、 30分で大当たりが出ない確率は0.6

30分で大当たりが出た時、設定が甘い確率はどれだけか。

同時分布・周辺分布・条件付き分布の表を求めよ。

25

練習問題1 回答(同時分布/周辺分布)

同時分布 P(x,y)、周辺分布 P(x)、P(y) は以下のように求められる。

26

設定xP(y)

甘い 厳しい

大当たりy

出る

0.1 0.1 0.2

出ない

0.2 0.6 0.8

P(x) 0.3 0.7

y

yxPxP ),()(

x

yxPyP ),()(

練習問題1 回答(条件付き確率)

27

設定xP(y)

甘い 厳しい

大当たりy

出る

0.1/0.2

= 0.50.1/0.2

= 0.50.2

出ない

0.2/0.8

= 0.25

0.6/0.8

= 0.750.8

P(x) 0.3 0.7

大当たりが出た時に設定が甘い確率は0.5になる。

※ 設定xをパラメータとすると、これは観測変数yからパラメータを推定することの一例。

大当たりが出た時の分布は P(x|y) なのでP(y)で割る。

練習問題1 回答(独立性)

xとyは独立ではない。

28

設定xP(y)

甘い 厳しい

大当たりy

出る

0.1≠

0.3×0.2

0.1≠

0.7×0.20.2

出ない

0.2≠

0.3×0.8

0.6≠

0.7×0.80.8

P(x) 0.3 0.7

)()(),( yPxPyxP

練習問題2

マウスの集団について。

疾患xを持ち、タンパク質yが発現している確率が0.08

疾患xを持たず、タンパク質yが発現している確率が0.12

疾患xを持ち、タンパク質yが発現していない確率が0.32

疾患xを持たず、タンパク質yが発現していない確率が0.48

同時分布・周辺分布・条件付き分布の表を求めよ。

29

練習問題2 回答

xとyは独立である。

30

疾患xP(y)

あり なし

タンパク質y

あり

0.08/0.2

= 0.4

0.12/0.2

= 0.60.2

なし

0.32/0.8

= 0.4

0.48/0.8

= 0.60.8

P(x) 0.4 0.6

ここでは P(x|y) を載

せているが、同様にP(y|x)も求められる。

xPyP

yPxP

yP

yxPyxP

,|

このため、以下が成り立っている。

離散分布と連続分布

31

離散分布と連続分布

離散分布

観測データが離散値を取る。

観測データのそれぞれの値について確率値が定まる。

• 事象の例: サイコロの目,引いたトランプのスート(マーク)

• 分布の例: ベルヌーイ分布、二項分布

連続分布

観測データが連続値を取る。

観測データの値の関数として確率密度が決まる。

• 事象の例: 人間の身長、生物の寿命、測定誤差

• 分布の例: ガウス分布、指数分布 32

離散分布の例

試験の正解数

33

1問 5問3問2問 4問0問

確率

連続分布の例

生物の寿命

34

5年

確率密度

10年 20年15年0年

確率密度

「すべての事象の確率を足したら1になる」という制約のため、細かく分けるにつれて個々の事象の生じる確率が小さくなっていく。

35

連続値の分布を考えるには無限回の分割が必要であり、個々の事象の生じる確率は0になる。

ゆえに従来の意味での確率分布を定義できない。

連続値をとる確率変数の分布を考えるため、分割を細かくしていく。(1年単位→1日単位→1秒単位……)

0 1 2 0 0.5 1 1.5 2 0 0.25 0.5 1 1.25 1.5 1.75 2

0.5 0.5 0.5

確率密度関数

確率密度関数の値は確率そのものではなく、密度の大きさを表す。

一定の範囲で積分することで確率になる。

36

確率密度関数を「確率分布」と呼ぶことも多く、ここでもその言い方を使用する。

誤差の確率密度関数を考えた場合、誤差が0.8と1.1の

間の値である確率は積分によって求められる。

0.8 1.1

確率密度関数の例 0と1の間の任意の実数がそれぞれ等しい確率で現れる分

布(一様分布)の場合

37

0 0.5 1

0.5

棒グラフで表そうとした場合

確率密度関数を使用した場合

0 0.5 1

1

0.5

0 0.5 1

0.5

0 0.5 1

確率密度関数を積分すると確率になる

あとx年生きられる確率

38

5年 10年 20年15年

5年未満しか生きられない確率=この範囲の面積

10年以上11年未満生きる確率=この範囲の面積

確率分布と確率密度

確率分布は確率変数のそれぞれの値に対する確率を与える。

39

確率密度は確率変数の一定の範囲で積分することでその範囲内の事象が生じる確率を与える。

標本とパラメータ

40

標本とパラメータ推定

今までの例では「晴れる確率」「雨が降る確率」等が分かっているとして計算を行ってきた。

しかし実際には確率の大きさや確率分布の形は分からないことがほとんどである。

観測された「標本」から真の確率分布を求めること、すなわち(分布を規定する)「パラメータ」を推定することが一般的な問題である。

41

推定と予測

システムの内部に潜むパラメータを明らかにするのが推定。

明らかになったパラメータと新たに与えられたテストデータを使って、未知の値を求めるのが予測。

42

観測変数とパラメータ データとして観測されるのが観測変数。

xなどアルファベットで表記することが多い。

観測することはできないが、分布を決める条件になっているのがパラメータ。

人間には観測できず、推定しかできない。

θなどのギリシャ文字で表記することが多い。

ガウス分布では平均μと分散σ2がパラメータ。

機械学習や統計的推定の目的は主にパラメータの推定と、それに基づく予測。

訓練データからμとσ2を推定する。それを使って未観測のデータの値を予測する。 43

サイコロにおけるパラメータ その1

44

x 1 2 3 4 5 6

μ 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6

P(x|μ) 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6

有限個の値をとる観測変数xの分布のパラメータμ

は有限個の数値(それぞれの値が生じる確率)になる。

例: サイコロの目の確率分布はそれぞれの目が出る確率の表で完全に表現できる。

偏っていないサイコロの目の確率分布:

1が出る確率から5が出る確率までが決まれば、6が出る確率は自動的に決まる。ゆえに1が出る確率から5

が出る確率までのみをパラメータとしてもよい。

サイコロにおけるパラメータ その2

45

x 1 2 3 4 5 6

μ 15 / 60 1 / 6 1 / 6 1 / 6 1 / 6 5 / 60

P(x|μ) 15 / 60 1 / 6 1 / 6 1 / 6 1 / 6 5 / 60

1が出やすいイカサマのサイコロの目の確率分布:

パラメータは「確率分布を決定する数値の集合」。

サイコロの目の確率分布はこれらの6つのうち5

つの数字が与えられれば自動的に決定される。

ゆえにそれがサイコロの目の確率分布のパラメータとなる。

連続値確率変数の分布とパラメータ

有限個の値を取る離散値確率変数であれば、それぞれの値が生じる確率を並べることで分布を完全に定義できる。これらの確率がパラメータになる。

連続値確率変数の場合、取り得る値の種類が無限個である(たとえば10と0の間には無限個の数値が存在する)ため、「それぞれの値における確率密度をすべて並べる」ということができない。

46

余命x 10年 1年 0.1年 0.01年 0.001年 ….

P(x) 0.5 0.7 0.9 0.92 0.96 ….

連続値確率変数の分布とパラメータ

ゆえに連続値確率変数の場合、確率密度分布がある関数(確率密度関数)で表せるとし、その関数の形を決める有限個の値をパラメータと呼ぶ。

例: ガウス分布(正規分布)のμとσ2

47

μ

σ

x

P(x)ガウス分布ではμとσ2によって確率密度関数の形が決定する。ゆえにパラメータはμとσ2。

パラメータと条件付き分布

「観測変数の分布がパラメータによって決定する」という関係は条件付き確率を使って表現できる。

【復習】 条件付き確率とは、「値として確率分布(あるいは確率密度分布)が得られる関数」であった。

48

2

2

22

2

1),|(

x

exp

例: ガウス分布(正規分布)を条件付き確率で表現

ガウス分布(正規分布)

ガウス分布は以下のように定義される連続値確率変数xの分布である。

49

μ

測定誤差はガウス分布に従うとされることが多く、様々な場面に現れる。

分布の形はμを中心として左右対称である。σ2

が小さければ細く尖った分布、σ2が大きければ横に広がった分布になる。

x

P(x)

2

2

22

2

1),|(

x

exp

最尤推定

50

トランプのスート(マーク)の推定

♥ と ♠ しか入っていないトランプを考える。

4枚のカードを選んでおく。その中から一回ごとに戻し、3回引いた。その結果が以下であった。

51

4枚のカードのスート( ♥ と ♠ の枚数)はどのようになっていると考えるのがよいか?

♥, ♠, ♥

トランプのカード集合のパラメータ

この分布のパラメータθは何にするのがよいか?

52

→「4枚のカードに含まれるハートの枚数」をθとして使うことにする。

ハートの枚数が決まればスペードの枚数が決まるため、「トランプから引く」という確率モデルを記述するのに十分な情報がある。

ここでは「パラメータの推定」は「4枚のカードに含まれるハートの枚数を当てること」になる。

最尤法(最尤推定)と尤度

観測されたデータが生じる確率がもっとも高いパラメータを推定値として採用するのが最尤法。

53

P(x|θ)のxは観測済みのデータなので、P(x|θ)はθ

の関数になる。その値はθの尤度(もっともらしさ)と呼ばれ、関数P(x|θ)は尤度関数と呼ばれる。

すなわちP(x|θ)を最大にするθを求める。

もっとももっともらしい(最も尤もらしい)パラメータを求めている、というのが最尤法という名前の由来。

トランプに対する最尤法

♥ をH、♠をSで表す。♥, ♠, ♥ は(H,S,H)Tと表記。

54

θ(=ハートの枚数)

0 1 2 3 4

P(x=HSH|θ) 0 3 / 64 8 / 64 9 / 64 0

)1|HS,, H(T

P x

θ=1(つまり♥が1枚、 ♠が3枚)の時に♥, ♠, ♥ が得られる確率は以下のように表される。

♥, ♠, ♥, ♥ がそれぞれθのもとで条件付き独立で生じたとみなし、以下のように計算できる。

他のθについても計算してまとめると以下のようになる。

64

3

4

1

4

3

4

1

)1|H()1|()1|H( 321 xPSxPxP

最尤解

尤度関数 P(x|θ) の値を最大にするθを最尤解と呼ぶ。

さきほどの問題では θ = 3 が最尤解。

55

最尤法の例1

♥ と ♠ しか入っていないトランプから4枚の

カードを選んでおく。その中から一回ごとに戻し、5回引いた。その結果が以下であった。

56

θ(=♥の枚数) 0 1 2 3 4

P(x=HHHHH|θ) 0 1 / 1024 32 / 1024 243 / 1024 1

♥, ♥ , ♥ , ♥ , ♥ ♥ の枚数をθで表すと、θのそれぞれの値に対する尤度は以下のようになる。

ゆえに ♥ の枚数θに対する最尤解は 4 である。

最尤法の例2

♣ と ♦ しか入っていないトランプから5枚のカ

ードを選んでおく。その中から一回ごとに戻し、6回引いた。その結果が以下であった。

57

θ(=Kの枚数) 0 1 2 3 4 5

P(x=KKDKKD|θ) 0 16 / 56 144 / 56 324 / 56 256 / 56 0

♣, ♣, ♦, ♣, ♣, ♦ ♣の枚数をθで表すと、θのそれぞれの値に対する尤度は以下のようになる。

ゆえに♣の枚数θに対する最尤解は 3 である。

尤度関数と確率分布の違い

58

P(x|θ)は尤度関数とも呼ばれる。

θの尤度関数とxの条件付き確率分布は関数の形は同じ。(離散分布であれば同じ確率値の表)

P(x|θ)に対し、

xを固定し(xを知っていて)、θの変化に対する動きを見たら、「θの尤度関数」

θを固定し(θを知っていて)、xの変化に対する動きを見たら、「xの確率分布」

離散パラメータと連続パラメータ

離散パラメータの取り得る値が有限個の場合、すべての組み合わせの尤度を計算して比較すればよい。

トランプから引く例では♥の枚数が離散値しか取れないので、パラメータも離散値になる。

連続パラメータではそれができない。そのために微分を使って極値を求めることになる。

ガウス分布に従うデータからパラメータμやσ2を推定する場合。

偏ったサイコロの目の分布を推定する場合。

無限種類の値があるので、すべてを比較して最大値を見つけるということができない!

59

離散値パラメータの尤度関数の例

♥, ♠, ♥ が出た時の♥ の枚数θの尤度関数

60

1 32 40

尤度p(x|θ)

離散値パラメータの尤度関数はヒストグラムで表せる。

すべてのθについて p(x|θ) を計算して比較すれば最大値を与えるθが求まる。

θ

最大値

連続値パラメータの尤度関数の例

コインが表, 裏, 表, 表と出た時、表が出る確率θ

の尤度関数

61

0.25 0.5 1.00.75

尤度p(x|θ)

連続値パラメータの尤度関数は曲線になる。

最大値を与えるθを求めるにはθで微分して0とおけばよい。

θ

最大値

連続パラメータに対する最尤法

尤度関数を微分し、0とおいて解く。

または、

ラグランジュ未定乗数法を使って最大化する。

62

ガウス分布(正規分布)

ガウス分布は以下のように定義される連続値確率変数xの分布である。

63

μ

測定誤差はガウス分布に従うとされることが多く、様々な場面に現れる。

分布の形はμを中心として左右対称である。σ2

が小さければ細く尖った分布、σ2が大きければ横に広がった分布になる。

x

P(x)

2

2

22

2

1),|(

x

exp

ガウス分布のパラメータ推定の例

ある実験を5回行い、生成された化合物の重さを測定した所、以下のような数値(単位ミリグラム)を得た。

64

データがガウス分布に従うと考えた時、そのμ、すなわち一番起きやすい値は何であると考えるのが良いか?

1.3 1.1 1.0 1.3 1.3

データの平均は 1.2。しかしμが1.2であると推定してよいのか?

ガウス分布のパラメータμの推定

65

n回試行を行い、それぞれの試行で得られた値xiを用いてμを最尤推定する。

尤度関数は以下である。

),|,...,,( 2

21 nxxxP

μx

P(x)

2

2

22

2

1),|(

x

exp

ガウス分布のパラメータμの推定

各試行(観測変数xi)の間の(μとσ2のもとでの)条件付き独立性を仮定する。

この時、同時確率を積に分解できる。つまり尤度関数を積に分解できる。

66

n

i

iixnn

i

x

n

i

in

ee

xPxxxP

12

2

2

2

2

1

2

1

22

21

2

1

2

1

),|(),|,...,,(

ガウス分布のパラメータμの推定

尤度関数 p(x|μ,σ2) をμで微分して0とおく。

67観測値xiの平均がμの最尤推定量になる。

n

i

i

n

i

i

xn

xn

nx

e

n

i

i

1

1

2

1

0

02

11

2

2

対数尤度の最大化

「指数分布族」と呼ばれる確率分布の場合、尤度ではなく対数尤度 log p(x|θ) を最大化することが多い。

対数尤度を使った方が計算が容易になる場合に使う。

対数関数は単調増加のため、log p(x)が最大値をとるxはp(x)についても最大値を与える。

ガウス分布や多項分布など、多数の分布が指数分布族に属す。

68

対数の単調増加性の利用

対数関数は単調増加のため、log p(x|θ)の最大値を与えるθは p(x|θ) の最大値を与えるθと等しい。

69

p(x|θ)

log p2

p2p1 p3

log p3

log p1

p(x|θ)=1

対数尤度の最大化を用いたμの推定

対数尤度関数 log p(x|μ,σ2) をμで微分して0とおく。

70観測値xiの平均がμの最尤推定量になる。

n

i

iML

n

i

i

n

i

i

xn

nx

xn

1

1

12

2

1

0

022

1log

推定量

観測値を変数とし、パラメータの推定値を値とする関数を推定量と呼ぶ。

ガウス分布の場合、μの最尤推定量は観測値xiの平均という関数であった。

最尤推定量はML推定量とも呼ばれる。(ML

はmaximum likelihood)。後にMAP推定量なども定義される。

71

ベイズ統計

72

最尤推定とベイズ推定の違い

最尤推定では尤度 p(x|θ) を最大化するθ

を求める。

73

ベイズ推定のひとつであるMAP推定では事後確率 p(θ|x) を最大化するθを求める。

)|(maxarg: xPML

)|(maxarg: xPMAP

θの尤度関数はθの確率分布ではない

もし P(x|θ) がθの確率分布であれば、θが取り得るすべての値について P(x|θ) を足したら1にならなくてはならない。

しかしそのようになっていないことから、P(x|θ) がθについての確率分布でないことが分かる。

P(x|θ)はxについての確率分布だが、θについての確率分布ではない。ゆえに「θの尤度関数」と呼ぶ。

74和は 1300 / 1024 になる。

θ(=♥の枚数) 0 1 2 3 4

P(x=HHHHH|θ) 0 1 / 1024 32 / 1024 243 / 1024 1

パラメータの確率

確率はもともと「事象の起こりやすさ」として考案されたものだったが、現代ではパラメータに対しても確率分布を考える。しかし「パラメータの起こりやすさ」という概念は変。(パラメータは“起きたり”しない)。

ベイズ統計では確率を「確信の度合い」とみなす

P(x): 事象xが起きることに対する確信の度合い

P(θ): パラメータの値がθであることに対する確信の度合い

確信の度合いと考えると、P(θ)やP(θ|x)も不自然な概念ではない。

75

ベイズ主義

確率を「確信の度合い」と捉える見方。

「主観確率」とも呼ばれる。(“確信”は主観的)

観測データxの確率分布は、「事象が取り得る個々の可能性のそれぞれに対する確信の度合いの割り当て」と捉える。

パラメータθの確率分布は、「パラメータの値が取り得る個々の可能性に対する確信の度合いの割り当て」と捉える。

76

最尤法・ベイズ推定とベイズの定理

ベイズの定理が最尤法とベイズ推定の根拠になる。(最尤法は特殊なベイズ推定と言える)

ベイズ統計が定式化されるまで、最尤法は理論的根拠が弱く、批判されることも多かった。

そのためまずベイズの定理について述べる。

77

ベイズの定理

以下を証明せよ

78

)(

)()|()|(

xP

PxPxP

ベイズの定理の証明

以下のように証明できる。

79

)()|(),()()|(

)(

),()|(

)(

),()|(

PxPxPxPxP

P

xPxP

xP

xPxP

)(

)()|()|(

xP

PxPxP∴

80

ある店にあるスロットマシンについて。

設定が甘ければ、30分で大当たりが出

る確率は0.6。設定が厳しければ、

30分で大当たりが出る確率は0.1。設

定が甘い確率は0.2。

30分で大当たりが出た時、設定が甘い確率はどれだけか。

同時分布・周辺分布・条件付き分布の表を求めよ。

練習問題3 回答

条件付き分布P(x|θ)と周辺分布P(θ)を表に

すると以下のようになる。

81

条件付き

設定θ

甘い 厳しい

大当たりx

出る

P(x|θ)=

0.6P(x|θ)=

0.1

出ない

P(x|θ)=

0.4P(x|θ)=

0.9

周辺設定θ

甘い 厳しい

P(θ) 0.2 0.8

練習問題3 回答

同時分布 P(x,θ)と周辺分布P(x)、P(θ)の表を求める

と以下のようになる。

82

同時設定θ

P(x)甘い 厳しい

大当たりx

出る

P(x,θ)=

0.12P(x,θ)=

0.080.2

出ない

P(x,θ)=

0.08P(x,θ)=

0.72 0.8

P(θ) 0.2 0.8

y

yxPxP ),()(

)()|(),( PxPxP

練習問題3 回答

条件付き分布P(θ|x)

の表を求めると以下のようになる。

83

条件付き

設定θP(x)

甘い 厳しい

大当たりx

出る

P(θ|x)=

0.6P(θ|x)=

0.40.2

出ない

P(θ|x)=

0.1P(θ|x)=

0.9 0.8)(

)()|(

)(

),()|(

xP

PxP

xP

xPxP

30分で大当たりが

出た場合、設定が甘い確率は0.6

ベイズの定理とベイズ推定

ベイズの定理は任意の確率変数xとyについて成り立つが、特に観測変数xとパラメータθ、事後分布、事前分布、尤度関数を結び付けるのに使い、θの分布の推定に利用するのがベイズ推定。

84

)(

)()|()|(

xP

PxPxP

P(θ|x):事後分布

P(θ): 事前分布

P(x|θ):尤度関数

P(x): 正規化定数(θの関数ではないため「定数」)

ベイズ推定

ベイズ推定ではパラメータθの事前分布P(θ)を使うことで、パラメータに関する外部の知識や予想を組み込むことができる。

例:

「 ♥ しか入っていないということはありえないなぁ」

「 ♥ と ♠ が同じ数入っている確率が一番高いんじゃないだろうか」

85

事前分布

P(θ)に関して、データの観測の前の(事前の)分布を事前分布と呼び、P(θ)で表す。

自分の主観的な知識を入れた分布を使ってよい。

86

例:

「 ♥ しか入っていないということはありえないなぁ」↓

413210

04

PPPP

P

以下のような事前分布を使うとよい。

事後分布

事前分布と異なり、データxを観測した後の分布を事後分布と呼び、P(θ|x)で表す。

xという「条件」のもとでθがどのような分布を持つかを表しているため、条件付き確率の形になる。

データ(xの値)とモデル(尤度関数P(x|θ))と事前分布P(θ)を使い、事後分布P(θ|x)を求めるのがベイズ推定の目的。

87

ベイズの定理は事前分布と事後分布を結びつける式

事前分布と事後分布は共にパラメータに関する分布であり、ベイズの定理で結びつけられている。

88

)(

)()|()|(

xP

PxPxP

P(θ|x):事後分布

P(θ): 事前分布

P(x|θ):尤度関数(モデル)

P(x): 正規化定数(θの関数ではないため「定数」)

(θを周辺化しているので周辺尤度とも呼

正規化定数 P(x)は尤度関数P(x|θ)と事前分布P(θ)の積をθについて積分する(あるいは総和をとる)ことで求められる。

89

ゆえにベイズの定理は以下のように表すこともできる。

')'()'|(

)()|()|(

dPxP

PxPxP

θ’は積分のための変数であり、θとは異なることに注意。

')'()'|(')',()( dPxPdxPxP

''

)'()'|()',()( PxPxPxP

ハイパーパラメータ θが連続パラメータの時、事前分布p(θ)の形を決めるパラメータαをハイパーパラメータと呼ぶ。

ベイズの定理でαを明示すると以下のようになる。

90

θが連続パラメータの場合、すべてのθに事前確率を割り当てるのは不可能なため、θの確率分布が少数のパラメータによって決定されると考える。

例: θの事前分布にガウス分布を仮定する場合、ハイパーパラメータαはμ’とσ’2である。(パラメータμとσ2とは区別すること)

')|'()'|(

)|()|(

)|(

)|()|(),|(

dPxP

PxP

xP

PxPxP

MAP推定(maximum a posteori estimation)

パラメータθの事後分布P(θ|x)はたくさんの情報を持っているが、情報が多すぎて使いにくいことも多い。

例: 「この台は設定が甘い確率が 0.6、設定が厳しい確率が 0.4」と言われるより、「この台は設定が甘い!」と言い切って欲しい。

つまり「P(θ=甘) = 0.6, P(θ=厳) = 0.4」という答えよりも「θ=甘」という答えが欲しい。

θに関する推定結果としてひとつの数値だけを求めるのがMAP推定。

「P(θ|x) がもっとも高くなるθを求める」。91

点推定

最尤法(ML推定)とMAP推定ではθの分布ではなくθのもっとも良い値だけを求めるため、点推定と呼ばれる。

MAP推定はベイズ推定に基づく点推定であり、最尤法はMAP推定の特殊例である。

92

MAP推定と正規化定数ベイズの定理におけるP(x)はθについて最大化する時には無視できる。

ゆえに事後確率 P(θ|x) を最大化するθを求めるためには、P(x|θ)P(θ)を最大化するθを求めれば良い。

93

)()|(maxarg)|(maxarg: PxPxPMAP

)(

)()|()|(

xP

PxPxP

ベイズの定理

MAP推定

ベイズ推定/MAP推定/最尤推定

ベイズ推定ではθの事後分布P(θ|x)全体を求めるが、MAP推定ではP(θ|x)を最大にするθの値のみを求める。

最尤法は事前分布P(θ)を定数(すべてのθについて同じ値)とおいた場合のMAP推定に等しい。

94

)|(maxarg: xPML

ML推定(最尤推定)

MAP推定

)()|(maxarg)|(maxarg: PxPxPMAP

ML推定(最尤法)とMAP推定

尤度関数P(x|θ)を最大化するパラメータθを求めるのがML推定

maximum likelihood

事後確率P(θ|x)を最大化するパラメータθを求めるのがMAP推定

事前分布P(θ|α)も考慮した上で最大化が行われていることになる。

maximum a posteriori probability

95

MAP推定の例1

3枚のトランプのうち、何枚かがハートで残りはスペードである。一回ずつ戻しながら2回引いたところ、ハートが2回出た。しかし3枚ともハートである確率は低い(ハートの枚数が他である確率に比べて1/3である)ことが分かっている。

θでハートの枚数を表し、この情報(事前知識)を事前分布によって以下のように表すことにする。

96

この時、事後確率 p(θ|x) を最大にするθを求めよ。

103210

1013

PPP

P

MAP解の計算1

MAP解はθ=2になる。97

90

9

10

1

3

3

3

333|

90

12

10

3

3

2

3

222|

90

3

10

3

3

1

3

111|

010

3

3

0

3

000|

PHHP

PHHP

PHHP

PHHP

X

X

X

X

MAP推定の例2

先ほどと同じ状況(モデルとデータ)において、ハートの枚数がどの数である確率も等しいという事前知識を用いた時、事後確率p(θ|x)を最大にするθを求めよ。

どの枚数である確率も等しいという事前分布は以下のように表せる。

98

413210 PPPP

この時、事後確率 p(θ|x) を最大にするθを求めよ。

→この結果はθに対する最尤推定と同じになる。

MAP解の計算2

MAP解はθ=3になる。99

36

9

4

1

3

3

3

333|

36

4

4

1

3

2

3

222|

36

1

4

1

3

1

3

111|

04

1

3

0

3

000|

PHHP

PHHP

PHHP

PHHP

X

X

X

X

尤度/尤度関数と事後確率値/事後分布

θ = 3 の尤度

x = ♥, ♠, ♥ の生起確率

(ひとつの値に確定)

100

)3|HS,, H(T

P x

)HS,, H|3(T

P x

θ = 3 の事後確率の値

)HS,, H|(T

P x

θ の事後分布

θ の尤度関数

x = ♥, ♠, ♥ の生起確率

(θの値に依存)

)|HS,, H(T

P x

お薦め書籍

1. 基礎統計学シリーズ「統計学入門」統計に関して最初に読む入門書として最適。

2. ビショップ「パターン認識と機械学習」

確率統計の立場で機械学習の様々な手法をまとめてあり、非常に良い。

3. 杉山将「統計的機械学習」コンパクトにまとめた入門書。

Octaveによるプログラム例もあるので

自分で実験できる。101

top related