prml勉強会第3回 2章前半 2013/11/28

30
PRML勉強会 2章前半 2013/11/28 東京大学 工学部システム創成学科 松尾研究室 黒滝 紘生 [email protected]

Upload: kurotakiweblab

Post on 13-Jul-2015

352 views

Category:

Education


6 download

TRANSCRIPT

PRML勉強会 2章前半 2013/11/28 !

東京大学 工学部システム創成学科 松尾研究室 黒滝 紘生

[email protected]

目次

第2章 確率分布 •2.1 二値変数

• 2.1.1 ベータ分布 •2.2 多値変数

• 2.2.1 ディリクレ分布 •2.3 ガウス分布

• 2.3.1 条件付きガウス分布 • 2.3.2 周辺ガウス分布 • 2.3.3 ガウス変数に対するベイズの定理

!2

第2章 確率分布 の内容・標本データから、確率変数の確率分布を推定したい !・選んだ確率分布が、少数のパラメータのみで決まるか? ・決まる → パラメトリック (2.1-2.4) ・決まらない → ノンパラメトリック (2.5) !・パラメータさえ推定出来れば済む → どうやって決める? ・最尤推定 (p.22, 26) ・ベイズ推論 (第2章で扱う) ・パラメータ自体もまた、確率分布に従う、確率変数と考える ・分布の2段構え ・標本を観測→パラメータの事後確率を計算 (ベイズの法則) !・パラメトリックな手法を中心に紹介しつつ、必要な確率分布と性質を述べる ・関連して、「共役事前分布」「指数型分布族」の概念に触れる (2.4)

!3

第2章前半の構成

・二項分布 (2.1) ・予測したい確率変数 : 離散、二値 ・パラメータの分布 : ベータ分布 (2.1.1) !・多項分布 (2.2) ・予測したい確率変数 : 離散、多値 ・パラメータの分布 : ディリクレ分布 (2.2.1) !・ガウス分布 (2.3) ・予測したい確率変数 : 連続 ・パラメータの分布 : ガウス分布、ガンマ分布 (2.3.6) !・二値 → 多値 → 連続 という順で、ほぼ同じ流れを3回説明している ・ガウス分布は重要なので、様々な性質も共に解説している

!4

目次

第2章 確率分布 •2.1 二値変数

• 2.1.1 ベータ分布 •2.2 多値変数

• 2.2.1 ディリクレ分布 •2.3 ガウス分布

• 2.3.1 条件付きガウス分布 • 2.3.2 周辺ガウス分布 • 2.3.3 ガウス変数に対するベイズの定理

!5

ベルヌーイ分布コイン投げの結果をモデリングしたい 表 : x = 1 裏 : x = 0 表が出る確率 : µ

!6

ベルヌーイ分布

分布の立場からみると、「この分布は1つのパラメータはµのみで決まる。µはコインの表が出る確率と解釈できる」という言い方になる

ベルヌーイ分布に対する最尤推定

!7

観測されたデータの集合

尤度関数

(確率の積の法則を考えている)

対数を取ってµについて微分して解くと、µの最尤推定量µMLは、

特に、x=1となった回数をmと置けば、上式は

最尤推定の問題点

!8

例えば、 のとき、

しかし、 のとき、

「必ず表が出る」と推測したことになる。これは直感に反する 最尤推定法は、データ数が少ない場合over fittingに陥る ベイズ推定を用いると、もっと常識的な結果を得ることができる(後述)

二項分布・ベルヌーイ分布は、1回の試行について、確率変数xの値を与える確率分布 ・今度は、x=1となった回数mの分布を考える

!9

今度も、Nはコインを投げた回数、µはコインの表が出る回数と解釈できる

二項分布の例N = 10, µ = 0.25の二項分布を、mの関数として示したヒストグラム

!10

m : x=1が何回観測されたか

確率

目次

第2章 確率分布 •2.1 二値変数

• 2.1.1 ベータ分布 •2.2 多値変数

• 2.2.1 ディリクレ分布 •2.3 ガウス分布

• 2.3.1 条件付きガウス分布 • 2.3.2 周辺ガウス分布 • 2.3.3 ガウス変数に対するベイズの定理

!11

ベイズ主義的推定・ベルヌーイ分布における、パラメータの最尤推定法は、データ集合が少ないとき、µ=1、つまり「毎回表が出るでしょう」と推定してしまった ・データ集合が小さいとき、over fittingを起こす !・ベイズ主義的に扱いたい →パラメータµを確率変数と考え、事前分布p(µ)を導入する ・事前分布は、数学的に便利なよう、恣意的に決めてよい ・モデルとして妥当なのは大前提 ・解析的に便利 ・解釈が簡単 ・頻度主義から批判されるポイントである(p.23) ・評価にbootstrapなどの、頻度主義的な方法を使うことでカバー ・交差確認(1.3)などのテクニックにより、モデルの妥当性を担保

!12

ベータ分布二項分布のパラメータµは、ベータ分布でモデル化すると良い

!13

ただし

・この事前分布も、モデルとしてふさわしいだけでなく、解析的に有利で、かつ解釈が容易なように定められている。 ・超パラメータa,bは、それぞれx=1,x=0の有効観測数として解釈できる。 ・共役性という性質を満たす。(次頁。詳しくは2.4にある) ・ガンマ(Γ)関数は階乗の一般化であり、Γ(n+1) = n!を満たす。

共役性

!14

同じ積の形に選ぶ

事前分布Betaと同じ関数形式(積の形)になる。これを共役性(conjugacy)と呼ぶ。 2.4にて詳述

p.22(1.44)より、(事後分布) (尤度) × (事前分布) なので、

正規化係数

ここも同じ積の形になる

ベータ分布の例µの超パラメータaとbをいろいろな値にしたときの、Beta(µ | a, b)のグラフ

!15

a、つまりx=1の観測数が増えると、分布の山も1に近づく。これは、「今まで表が多く出たコインだから、表が出やすいコインだろう」という直感と一致

逐次学習

!16

x=1を観測

初期状態

a=2, b=2のベータ分布

a=3, b=2のベータ分布 N=m=1の尤度関数

目次

第2章 確率分布 •2.1 二値変数

• 2.1.1 ベータ分布 •2.2 多値変数

• 2.2.1 ディリクレ分布 •2.3 ガウス分布

• 2.3.1 条件付きガウス分布 • 2.3.2 周辺ガウス分布 • 2.3.3 ガウス変数に対するベイズの定理

!17

多値変数の場合ベルヌーイ分布、二項分布を拡張する。多項分布を定義

!18

多値に拡張

頻度

頻度

ベルヌーイ分布

二項分布

(名前が付いていない分布)

多項分布

目次

第2章 確率分布 •2.1 二値変数

• 2.1.1 ベータ分布 •2.2 多値変数

• 2.2.1 ディリクレ分布 •2.3 ガウス分布

• 2.3.1 条件付きガウス分布 • 2.3.2 周辺ガウス分布 • 2.3.3 ガウス変数に対するベイズの定理

!19

ディリクレ分布多項分布のパラメータ{µ_k}に対する事前分布の族

!20

3変数µ1, µ2, µ3上のディリクレ分布は、 右図のような2次元単体、つまり三角形上に 制限される。

ただし

3変数上のディリクレ分布の例

!21

α_kを変化させたとき、前ページの三角形上各点において、確率密度がどのように分布しているかを表している。 α_kが小さい → 一部のµ_kのみが大きい → 一部の値のみ出やすい α_kが大きい → 全てのµ_kが大きい → どの値も出やすい

0.1 1 10

9.51350769867 1 362880.0

ディリクレ分布によるパラメータの事後分布

!22

こちらでも共役性が成り立っている

目次

第2章 確率分布 •2.1 二値変数

• 2.1.1 ベータ分布 •2.2 多値変数

• 2.2.1 ディリクレ分布 •2.3 ガウス分布

• 2.3.1 条件付きガウス分布 • 2.3.2 周辺ガウス分布 • 2.3.3 ガウス変数に対するベイズの定理

!23

ガウス分布・連続変数の分布のモデルとして、ガウス分布がよく用いられる !・正規分布とも呼ばれる !・多変量ガウス分布は、µとΣで決まる µ : D次元の平均ベクトル Σ : D×Dの共分散行列 !

!24

中心極限定理「区間[0,1]上の一様分布に従うN個の確率変数」の平均は、Nが大きくなるに従って、ガウス分布に近づく

!25

ガウス分布の幾何的形状(2次元の場合)

1つの頂点を持つ、山なりの形になる

!26

赤い楕円は、確率密度が等しい面(2次元の言葉で等高線)を表している。 !p.78-80の方法でy座標系に変換すると、D個(この場合2個)の独立な1次元ガウス分布の積に分解できる。

ガウス分布の計算量と制約・D次元のガウス分布は、D(D+3)/2個のパラメータを持つ。 ・パラメータの個数がO(D^2)のオーダーで大きくなる。 ・計算量が非常に大きくなってしまう。 ・計算量を減らすため、共分散行列Σに制約を加えて、パラメータを減らす。

!27

Σの制約なし

パラメータ個数 : D(D+3)/2 パラメータ個数 : 2D パラメータ個数 : D+1

Σに制約を加えたときの、ガウス分布の等高線

ガウス分布の問題点と、対処・ガウス分布は、単峰形(極大値が1つ)という制限があるため、多峰形の分布を上手く近似できない。 !・潜在変数や非観測変数を導入した、ガウス複合分布を用いることで、表現力を増すことができる。 ・離散潜在変数 (2.3.9) ・連続潜在変数 (12章) ・マルコフ確率場 → 画像の確率モデル (8.3) ・線形動的システム → 時系列データのモデル (13.3) ・確率的グラフィカルモデル (8章)

!28

条件付き/周辺ガウス分布、ベイズの法則

・2.3.1~2.3.3は、ガウス分布絡みの証明と、その過程で用いられる計算テクニックの説明に費やされている。 !・2つの確率変数集合の同時分布、p(x_a, x_b)がガウス分布に従うならば、条件付き分布p(x_a | x_b)もガウス分布に従う。(2.3.1) !・また、周辺分布 p(x_a)やp(x_b)もガウス分布に従う。(2.3.2) !・p(x_a)とp(x_b | x_a)が与えられたとき、ベイズの定理を適用した形  p(x_a | x_b)も、またガウス分布に従う。(2.3.3)

!29

条件付き/周辺ガウス分布の例

左図のような等高線を持つガウス分布に対する、周辺分布p(x_a)と、条件付き分布p(x_a|x_b = 0.7)

!30