prml復々習レーン#2 2.3.6 - 2.3.7

PRML復々習レーン 2.3.6 – 2.3.7

2012-06-17

Yoshihiko Suhara

@sleepy_yoshi

1

アウトライン

• 2.3.6 ガウス分布に対するベイズ推論

• 2.3.7 スチューデントのt分布

2

2.3.6 ガウス分布に対するベイズ推論

3

必須知識 (おさらい)

• 尤度関数

– 𝐿 𝜃; 𝑿 = 𝑝 𝑿 𝜽 = 𝑝 𝒙𝑛 𝜽𝑁𝑛=1

• パラメータの事後分布∝尤度×事前分布

𝑝 𝜽 𝑿 ∝ 𝑝 𝑿 𝜽 𝑝 𝜽 = 𝑝 𝒙𝑛 𝜽

𝑁

𝑛=1

𝑝(𝜽)

4

キモ

• ベイズ推定で求めるのはパラメータの分布

–点推定するのではなく，パラメータの確率密度関数を求める

–点推定したい場合にはパラメータの事後分布の最頻値を利用すればよい (MAP推定)

5

2.3.6 のポイント (1/2)

• ガウス分布のパラメータの事後分布は以下のとおり

6

事後分布 1変量多変量

平均パラメータ（分散既知）ガウス分布ガウス分布

精度パラメータ（平均既知）ガンマ分布ウィシャート分布

分散パラメータ（平均既知）逆ガンマ分布逆ウィシャート分布

平均，精度パラメータガウス―ガンマ分布ガウス―ウィシャート分布

2.3.6 のポイント (2/2)

• ガウス分布の各パラメータの事後分布

– (1) 分散既知，平均パラメータの事後分布

– (2) 平均既知，精度（分散）パラメータの事後分布

– (3) 平均と精度パラメータの事後分布

–上記について一次元版と多変量版

7

(1) 分散既知，平均パラメータの事後分布

8

1次元ガウス分布の尤度関数

• 分散𝜎2は既知とする

• N個の観測データから平均𝜇を推定する

• N個のデータが与えられたとき尤度関数は

𝑝 𝑿 𝜇 = 𝑝 𝑥𝑛 𝜇 =1

2𝜋𝜎2𝑁2

exp −1

2𝜎2 𝑥𝑛 − 𝜇

2

𝑁

𝑛=1

𝑁

𝑛=1

9

𝜇については二次形式の指数の形 ⇒ 事前分布にガウス分布を選べば事後分布も同じ関数形式になる

平均パラメータの事後分布

• 事前分布: 𝑝 𝜇 = 𝒩 𝜇 𝜇0, 𝜎02

• パラメータの事後分布: 𝑝 𝜇 𝑿 ∝ 𝑝 𝑿 𝜇 𝑝(𝜇)

• 指数部分の平方完成 (演習2.38) を行うと以下を得る． 𝑝 𝜇 𝑿 = 𝒩 𝜇 𝜇𝑁, 𝜎𝑁

2

• ただし，

𝜇𝑁 =𝜎2

𝑁𝜎02 + 𝜎2𝜇0 +

𝑁𝜎02

𝑁𝜎02 + 𝜎2𝜇𝑀𝐿

1

𝜎𝑁2 =1

𝜎02 +𝑁

𝜎2

10

𝜇𝑀𝐿 =1

𝑁 𝑥𝑛

𝑁

𝑛=1

演習2.38

• 指数関数の中身を平方完成して整理

11

−1

2𝜎2 𝑥𝑛 − 𝜇

2

𝑁

𝑛=1

−1

2𝜎02 𝜇 − 𝜇0

2

= −1

2

1

𝜎2 𝑥𝑛2

𝑁

𝑛=1

−1

𝜎22𝜇 𝑥𝑛

𝑁

𝑛=1

+1

𝜎2𝑁𝜇2 +

1

𝜎02 𝜇2 −2

𝜎02 𝜇𝜇0 +

1

𝜎02 𝜇02

= −1

2

𝑁

𝜎2+1

𝜎02 𝜇2 + 2∑𝑥𝑛𝜎2+𝜇0

𝜎02 𝜇 + const.

𝑘𝑎2 + 𝑏 =1

𝑘𝑎2 +𝑏

2𝑘

2

−𝑏

2𝑘

2

平方完成

= −1

2

𝑁

𝜎2+1

𝜎02 𝜇 −

𝑁𝜇𝑀𝐿𝜎2+𝜇0𝜎02

𝑁𝜎2+1𝜎0

2

+ 𝑐𝑜𝑛𝑠𝑡.

事後分布の解釈

• 事後分布の平均

– 事前分布の平均𝜇0と最尤推定解𝜇𝑀𝐿の間をとった値

– 𝑁 = 0のとき事前分布の平均，𝑁 → ∞のとき，最尤推定解

• 事後分布の分散

– 観測データ点が増えるにつれ，精度が増加

– 𝑁 = 0のとき事前分布の分散，𝑁 → ∞のとき，分散𝜎𝑁2は0に近づく

12

ガウス分布の平均のベイズ推論

13

逐次的推定としてのベイズ推論

• 𝑝 𝜇 𝑋 ∝ 𝑝 𝜇 𝑝 𝑥𝑛 𝜇𝑁−1𝑛=1 𝑝 𝑥𝑁 𝜇

• ベイズ更新によって求められる推定量が先ほどのRobbins-Monroアルゴリズムによる推論と一致する (演習2.39)

14

N-1個観測した事後分布

※ 共役事前分布のご利益

多次元の場合

15

多次元への拡張

• 演習2.40 (→ see @takmin さんの資料)

16

(2) 平均既知，精度（分散）パラメータの事後分布

17

精度パラメータの尤度関数

• 扱いやすいので精度パラメータ 𝜆 ≡1

𝜎2 とする

• 𝜆についての尤度関数は

𝑝 𝑋 𝜆 = 𝒩 𝑥𝑛 𝜇, 𝜆−1 ∝ 𝜆

𝑁2 exp −

𝜆

2 𝑥𝑛 − 𝜇

2

𝑁

𝑛=1

𝑁

𝑛=1

• 事後分布を同じ関数形にするためには事前分布は， – (1) 𝜆のべき乗と – (2) 𝜆の線形関数の指数の積

• に比例する必要がある (⇒ ガンマ分布)

18

ガンマ分布

• Gam 𝜆 𝑎, 𝑏 =1

Γ 𝑎𝑏𝑎𝜆𝑎−1 exp −𝑏𝜆

– Γ 𝑎 はガンマ関数 (次頁で紹介)

– 𝑎 = 1のとき，パラメータbに従う指数分布となる

19

補足: ガンマ関数とは

• ガンマ関数は階乗の一般化

Γ 𝑥 ≡ 𝑢𝑥−1𝑒−𝑢∞

0

d𝑢

• 𝑥が整数のとき，階乗と一致Γ 𝑥 = (𝑥 − 1) Γ 𝑥 − 1 = (𝑥 − 1)! (𝑥 ∈ ℕ)

Γ 1 = 1

20

演習2.41: 正規化の確認

21

𝐺𝑎𝑚 𝜆 𝑎, 𝑏∞

0d𝜆 = 1 を確認する

𝑏𝑎

Γ 𝑎 𝜆𝑎−1 exp −𝑏𝜆∞

0

d𝜆

=𝑏𝑎

Γ 𝑎

1

𝑏 𝑥𝑏

𝑎−1

exp −𝑥∞

0

d𝑥

ここで 𝑏𝜆 = 𝑥 とおく

𝑑𝜆

𝑑𝑥=1

𝑏

=𝑏𝑎−1

Γ 𝑎

1

𝑏𝑎−1 𝑥𝑎−1 exp −𝑥∞

0

d𝑥

=1

Γ 𝑎Γ 𝑎 = 1

ガンマ分布の平均と分散

• ガンマ分布の平均と分散は以下のとおり (演習2.42)

–平均 𝔼 𝜆 =𝑎

𝑏

–分散 var 𝜆 =𝑎

𝑏2

–最頻値 mode 𝜆 =𝑎−1

b

22

演習2.42 (略解)

• 平均

–演習2.41と同じノリで

• 分散

– 𝔼 𝜆2 − 𝔼 𝜆 2で求める

• 最頻値

–極値を求める→微分して0とおく (黒板でフォロー)

23

事後分布

• 事前分布Gam 𝜆 𝑎0, 𝑏0 を尤度関数(2.145)にかけると以下の事後分布を得る

𝑝 𝜆 𝑋 ∝ 𝜆𝑎0−1𝜆𝑁2 exp −𝑏0𝜆 −

𝜆

2 𝑥𝑛 − 𝜇

2

𝑁

𝑛=1

• これはパラメータを次のように設定したガンマ分布Gam 𝜆 𝑎𝑁 , 𝑏𝑁 となる

– 𝑎𝑁 = 𝑎0 +𝑁

2

– 𝑏𝑁 = 𝑏0 +1

2∑ 𝑥𝑛 − 𝜇

2 = 𝑏0 +𝑁

2𝜎𝑀𝐿2𝑁

𝑛=1

24

事後分布の解釈

• (2.150)より，𝑁個のデータを観測すると𝑎を𝑁

2だけ

増やす効果がある – 事前分布のパラメータ𝑎0は2𝑎0個の「有効な」観測値が事前にあることを示すと解釈できる

• (2.151)より，𝑁個のデータ点は𝑁𝜎𝑀𝐿2

2だけパラメー

タ𝑏に影響を及ぼす

– 事前分布のパラメータ𝑏0は，その分散が2𝑏0

2𝑎0=𝑏0

𝑎0であ

るような2𝑎0個の「有効な」観測値が事前にあることを示すと解釈できる

25

分散の事後分布

• 精度ではなく分散について考えることもできる

• 逆ガンマ分布

– この分布についてこれ以上は触れない (終)

26

多次元の場合

27

ウィシャート分布

• 𝐷次元変数の多変量ガウス分布𝒩 𝒙 𝝁,𝚲−1 の場合，平均が既知で精度行列𝚲が未知なら共役事前分布はウィシャート分布になる

𝒲 𝚲 𝑾, 𝜈 = 𝐵 𝚲𝜈−𝐷−12 exp −

1

2Tr 𝑾−1𝚲

• 𝑾は𝐷 × 𝐷の尺度行列，Tr(⋅)はトレースを表す．正規化定数𝐵は

𝐵 𝑾, 𝜈 = 𝑾 −𝜈2 2𝜈𝐷2 𝜋𝐷 𝐷−14 Γ

𝜈 + 1 − 𝑖

2

𝐷

𝑖=1

−1

28

ウィシャート分布が共役事前分布であることの確認

• 演習2.48 (→ see @takmin さんの資料)

29

逆ウィシャート分布

• 精度行列ではなく，分散行列上の共役事前分布

– ここではこれ以上は触れない．

30

(3) 平均と精度パラメータの事後分布

31

平均と精度パラメータの尤度関数

• 平均と精度が未知の場合，尤度関数は

𝑝 𝑿 𝜇, 𝜆 = 𝜆

2𝜋

12

exp −𝜆

2𝑥𝑛 − 𝜇

2

𝑁

𝑛=1

∝ 𝜆 12 exp −

𝜆𝜇2

2

𝑁

exp 𝜆𝜇 𝑥𝑛 −𝜆

2 𝑥𝑛2

𝑁

𝑛=1

𝑁

𝑛=1

• 尤度関数と同じ𝜇と𝜆への関数依存性を備えた事前分布𝑝(𝜇, 𝜆)が求めたい

32

平均と精度パラメータの事前分布

• よって以下を得る

𝑝 𝜇, 𝜆 ∝ 𝜆12 exp −

𝜆𝜇2

2

𝛽

exp 𝑐𝜆𝜇 − 𝑑𝜆

= exp −𝛽𝜆

2𝜇 −𝑐

𝛽

2

𝜆𝛽2 exp − 𝑑 −

𝑐2

2𝛽𝜆

– ここで𝑐, 𝑑, 𝛽は定数

33

ガウス―ガンマ分布

• 正規―ガンマ分布とも呼ばれる 𝑝 𝜇, 𝜆 = 𝒩 𝜇 𝜇0, 𝛽𝜆

−1 Gam(𝜆|𝑎, 𝑏)

• 𝜆が共有されているため，独立なガウス分布とガンマ分布の積ではないことに注意

34

多次元の場合

35

ガウス―ウィシャート分布

• 平均と精度が両方とも未知の場合の共役事前分布 𝑝 𝝁, 𝚲 𝝁0, 𝛽,𝑾, 𝜈= 𝒩 𝝁 𝝁0, 𝛽𝚲

−1 𝒲 𝚲 𝑾, 𝜈

• 正規―ウィシャート分布とも呼ばれる

36

2.3.6のまとめ

• 以下の各分布がガウス分布における各パラメータの事後分布と共役事前分布であることを (部分的に) 示した

37

事後分布 1変量多変量

平均パラメータ（分散既知）ガウス分布ガウス分布

精度パラメータ（平均既知）ガンマ分布ウィシャート分布

分散パラメータ（平均既知）逆ガンマ分布逆ウィシャート分布

平均，精度パラメータガウス―ガンマ分布ガウス―ウィシャート分布

小休止

38

2.3.7 スチューデントのt分布

39

2.3.7 のポイント

• スチューデントのt分布の導出

• スチューデントのt分布の定性的な意味づけ

–頑健性

–自由度パラメータの意味

40

スチューデントのt分布

• ぱっと見，ガウス分布ぽい

• 何に使われる?

–平均の差の検定とか

• なんでスチューデント?

41

Student = William S. Gosset (1876-1937)

• イギリスの統計学者，醸造技術者

– ギネス社に勤務

42

ギネスでは企業秘密の問題で社員が論文を出すことを禁止していたので、ゴセットは Student というペンネームで論文を発表した。彼のもっとも有名な業績はスチューデントのt分布と呼ばれる。1908年の「平均値の誤差の確率分布（The probable error of a mean）」をはじめ、ほとんどの論文がピアソンの主宰する Biometrika 誌に発表された。(Wikipediaより抜粋)

t分布の導出 (1/2)

• ガウス分布において，ガンマ分布を精度の事前分布とし，精度を積分消去する (演習2.46) と，𝑥の周辺分布は，

𝑝 𝑥 𝜇, 𝑎, 𝑏 = 𝒩 𝑥 𝜇, 𝜏−1∞

0

Gam 𝜏 𝑎, 𝑏 d𝜏

= 𝑏𝑎𝑒−𝑏𝜏𝜏𝑎−1

Γ 𝑎

∞

0

𝜏

2𝜋

12exp −

𝜏

2𝑥 − 𝜇 2 d𝜏

=𝑏𝑎

Γ 𝑎

1

2𝜋

12

𝑏 +𝑥 − 𝜇 2

2

−𝑎−12

Γ 𝑎 +1

2

43

t分布の導出 (2/2)

• 慣例により，𝜈 = 2𝑎 と 𝜆 =𝑎

𝑏 のパラメータを

新たに定義すると分布𝑝 𝑥 𝜇, 𝑎, 𝑏 は

St 𝑥 𝜇, 𝜆, 𝜈 =Γ𝜈2+12

Γ𝜈2

𝜆

𝜋𝜈

12

1 +𝜆 𝑥 − 𝜇 2

𝜈

−𝜈2−12

44

これはスチューデントのt分布と呼ばれる

演習2.46 (1/2)

45

𝑝 𝑥 𝜇, 𝑎, 𝑏 = 𝑏𝑎𝑒−𝑏𝜏𝜏𝑎−1

Γ 𝑎

𝜏

2𝜋

12exp −

𝜏

2𝑥 − 𝜇 2 d𝜏

∞

0

=𝑏𝑎

Γ 𝑎

1

2𝜋

12

𝜏𝑎−12 exp −𝜏 𝑏 +

𝑥 − 𝜇 2

2d𝜏

∞

0

ここで 𝑧 = 𝜏Δ, Δ = 𝑏 +𝑥−𝜇 2

2 というテクい置換をする

=𝑏𝑎

Γ 𝑎

1

2𝜋

12

Δ−𝑎−12 𝑧𝑎−

12 exp −𝑧 d𝑧

∞

0

=𝑏𝑎

Γ 𝑎

1

2𝜋

12

Δ−𝑎−12 Γ 𝑎 +

1

2

演習2.46 (2/2)

46

あとは Δ = 𝑏 +𝑥−𝜇 2

2 , 𝑎 =

𝜈

2, 𝑏 =

𝜈

𝜆 を代入すると

=Γ𝜈2+12

Γ𝜈2

𝜆

𝜋𝜈

12

1 +𝜆 𝑥 − 𝜇 2

𝜈

−𝜈2−12

(中略)

t分布のパラメータ

• 精度 𝜆

• 自由度 𝜈

47

• 自由度 𝜈 = 1 でコーシー分布

• 自由度 𝜈 → ∞ で平均𝜇 精度が𝜆のガウス分布 (演習2.47)

演習2.47 (1/4)

48

lim𝜈→∞

Γ𝜈2 +12

Γ𝜈2

𝜆

𝜋𝜈

12

1 +𝜆 𝑥 − 𝜇 2

𝜈

−𝜈2−12

がガウス分布になることを証明

(A) (B)

2つの道具を使って証明する

演習2.47 (2/4)

49

lim𝜈→∞

Γ𝜈2 +12

Γ𝜈2

𝜆

𝜋𝜈

12

= lim𝜈→∞

Γ𝜈2 +12

Γ𝜈2𝜈2

12

𝜆

2𝜋

12

= 1 ⋅𝜆

2𝜋

12

(A) ガンマ関数の定義より lim𝑛→∞

Γ 𝑛+𝑥

Γ 𝑛 𝑛𝑥= 1

(A)

演習2.47 (3/4)

50

(B) 自然対数の定義より lim𝑥→∞1 +1

𝑥

𝑥= 𝑒

lim𝜈→∞1 +𝜆 𝑥 − 𝜇 2

𝜈

−𝜈2−12

= lim𝜈→∞1 +𝜆 𝑥 − 𝜇 2

𝜈

𝜈𝜆 𝑥−𝜇 2

𝜆 𝑥−𝜇 2

𝜈−𝜈2−12

= 𝑒−12𝜆 𝑥−𝜇

2

= lim𝜈→∞1 +𝜆 𝑥 − 𝜇 2

𝜈

𝜈𝜆 𝑥−𝜇 2

−𝜆 𝑥−𝜇 2

2 −𝜆 𝑥−𝜇 2

2𝜈

(B)

演習2.47 (4/4)

• (A)と(B)を組み合わせて

lim𝜈→∞

Γ𝜈2 +12

Γ𝜈2

𝜆

𝜋𝜈

12

1 +𝜆 𝑥 − 𝜇 2

𝜈

−𝜈2−12

=𝜆

2𝜋

12

exp −𝜆

2𝑥 − 𝜇 2

51

補足: lim𝑛→∞

Γ 𝑛+𝑥

Γ 𝑛 𝑛𝑥= 1の証明

52

Γ 𝑥 = lim𝑛→∞

𝑛 − 1 ! 𝑛𝑥

𝑥 𝑥 + 1 𝑥 + 2 ⋯(𝑥 + 𝑛 − 1)

1

Γ 𝑥= lim𝑛→∞

𝑥 𝑥 + 1 𝑥 + 2 ⋯(𝑥 + 𝑛 − 1)

𝑛 − 1 ! 𝑛𝑥

1 = lim𝑛→∞

Γ 𝑥 𝑥 𝑥 + 1 𝑥 + 2 ⋯(𝑥 + 𝑛 − 1)

𝑛 − 1 ! 𝑛𝑥

1 = lim𝑛→∞

Γ 𝑥 + 𝑛

Γ 𝑛 𝑛𝑥

ガンマ関数の定義より

t分布の頑健性

• (2.158)よりt分布は平均は同じで，精度が異なるようなガウス分布を無限個足し合わせたものであることがわかる – ガウス分布の無限混合分布と解釈できる

– ガウス分布よりも「すそ」が長い ⇒ 頑健性を持つ (外れ値に強い)

53 t分布 t分布 vs. ガウス分布

t分布の最尤推定解

• 解析的には求まらない

– EMアルゴリズムを利用 (→12章)

54

多変量スチューデントt分布 (1/2)

• 多変量の場合，

St 𝒙 𝝁, 𝚲, 𝜈 = 𝒩 𝒙 𝝁, 𝜂𝚲 −1 Gam 𝜂𝜈

2,𝜈

2

∞

0

d𝜂

• 積分を計算する (演習2.48) と

St 𝒙 𝝁, 𝚲, 𝜈 =Γ𝐷2+𝜈2

Γ𝜈2

Λ12

𝜋𝜈𝐷2

1 +∆2

𝜈

−𝐷2−𝜈2

• を得る． – ただし𝐷は𝒙の次元数，∆2= 𝒙 − 𝝁 𝑇𝚲(𝒙 − 𝝁)

55

多変量スチューデントt分布 (2/2)

• 多変量スチューデントt分布は次の性質を満たす (演習2.49)

• 𝔼 𝒙 = 𝝁 (𝜈 > 1のとき)

• cov 𝒙 =𝜈

𝜈−2𝚲−1 (𝜈 > 2のとき)

• mode 𝒙 = 𝝁

56

スチューデントt分布まとめ

• 平均は同じで，精度が異なるようなガウス分布を無限個足し合わせたもの – ガウス分布よりも外れ値に強い

• 自由度 𝜈=1 でコーシー分布

• 自由度 𝜈→∞ で平均𝜇 精度が𝜆のガウス分布

• パラメータ推定はEMアルゴリズムによる数値解法が必要

57

参考文献

• PRML復習レーン 2.3.6 by @takmin さん

– http://www.slideshare.net/takmin/chapter236/

58

おしまい

59

Thank you @takmin さん!!

prml復々習レーン#2 2.3.6 - 2.3.7

Technology