chapter6.4

76
PRML読書会復々讐レーン 6.4.6, 6.4.7 2013/05/05 Presented by takmin

Upload: takuya-minagawa

Post on 21-Jun-2015

3.396 views

Category:

Spiritual


0 download

DESCRIPTION

PRML読書会発表資料

TRANSCRIPT

Page 1: Chapter6.4

PRML読書会復々讐レーン 6.4.6, 6.4.7

2013/05/05

Presented by takmin

Page 2: Chapter6.4

概要

• ガウス過程の分類問題

111 , NNNp C0aa

)exp(1

11

1

111

N

NNNa

aatp

ガウス過程

分類問題

ロジスティックシグモイド関数

TNNN aaa 111 ,,, a

(6.74)

Page 3: Chapter6.4

目的

• ガウス過程の分類問題

–以下の予測分布を求めたい。

11111 11 NNNNNNN daapatptp tt

近似して解く •変分推論法(10.1節) • EP法(10.7節) •ラプラス近似(6.4.6節)

解析的に解けない

(6.76)

Page 4: Chapter6.4

導出の流れ

)exp(1

11

1

111

N

NNNa

aatp

11111 11 NNNNNNN daapatptp tt

予測分布

ロジスティックシグモイド関数

Page 5: Chapter6.4

導出の流れ

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11(6.77)

この導出は後ほど

Page 6: Chapter6.4

導出の流れ

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11

NN

T

NN

T

NNN caap kCktCka11

11 ,

(6.77)

(6.78)

この導出は後ほど

Page 7: Chapter6.4

導出の流れ

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11

1*,)( Haaata NNNNN qp

ラプラス近似

(6.86)

(6.77)

Page 8: Chapter6.4

導出の流れ

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11

1*,)( Haaata NNNNN qp

ラプラス近似

(6.86)

(6.77)

Page 9: Chapter6.4

の導出

NNap t1 NNNN dap ata,1

NNNNNN

N

dapapp

aatat

,,)(

111

NNNNNN

N

dppapp

aataat

1)(

1

NNNNN dpap ataa1

ベイズの定理

(6.77)

tNはaN+1とは無関係

ベイズの定理

NNap t1

Page 10: Chapter6.4

の導出

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11(6.77)

NNap t1

Page 11: Chapter6.4

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11

2

1111 )(),( NNNNN maap xxa

(6.77)

ガウス過程 (6.66) (6.67)

の導出 NNap a1

Page 12: Chapter6.4

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11

NN

T

NN

T

NNN caap kCktCka11

11 ,

(6.77)

(6.78)

の導出 NNap a1

Page 13: Chapter6.4

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11(6.77)

ガウス分布

もしガウス分布なら、(6.77)が解析的に計算可能!

ラプラス近似を使う!

の導出 NNp ta

Page 14: Chapter6.4

ラプラス近似(復習)

)(1

)( zz fZ

p zz dfZ )(

1

0 ,)( Azzzp

0)(0

zz

zf

0

)(ln1

zzzA

f

確率分布p(z)が以下で表せる時、

ガウス分布で次のように近似できる。

Page 15: Chapter6.4

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11(6.77)

NNp ta

N

NNN

p

pp

t

aat

ベイズの定理

ラプラス近似のために、対数の1次微分、2次微分を求める。

の導出 NNp ta

Page 16: Chapter6.4

NNp ta

N

NNN

p

pp

t

aat

NNNNNN pppp taatta lnlnlnln

対数

NNNN pp aata lnln)( (6.80)

定数略

の導出 NNp ta

Page 17: Chapter6.4

N

n

t

n

t

nNNnn aap

1

1)(1)( at (6.79)

(6.80) NNNN pp aata lnln)(

の導出 NNp at

Page 18: Chapter6.4

N

n

t

n

t

nNNnn aap

1

1)(1)( at

N

n

n

ta

N

na

taN

na

ata

N

na

ataN

n

t

a

t

a

ta

N

n

t

a

at

a

N

n

t

a

t

a

ae

ee

e

ee

ee

eee

e

e

eee

nn

n

nn

n

n

nn

n

nnn

n

n

n

n

nn

n

n

nn

n

n

n

n

n

1

11

11

1

)1(

1

1

1

1

)(

1

1

1

1

1

1

1

1

1

11

1

1

11

1

1

(6.79)

の導出 NNp at

Page 19: Chapter6.4

(6.79)

(6.80)

N

n

n

ta

NN aep nn

1

)(at

NNNN pp aata lnln)(

の導出 NNp at

Page 20: Chapter6.4

の導出

(6.79)

(6.80)

N

n

n

ta

NN aep nn

1

)(at

N

n

a

N

T

N

N

nann

N

n

n

ta

NN

n

n

nn

ee

ta

aep

11

1

1ln1

1ln

)(lnln

at

at

対数

NNNN pp aata lnln)(

Na

Page 21: Chapter6.4

(6.80)

N

n

a

N

T

NNNnep

1

1lnln atat

NNNN pp aata lnln)(

の導出 Na

Page 22: Chapter6.4

(6.80)

NNNp Caa ,0)( (6.60)

NN

T

NN

NN

T

N

N

NN

N

p

aCaC

aCaC

a

1

1

2/12/

2

1ln

2

12ln

2

2

1exp

1

2

1lnln

対数

NNNN pp aata lnln)(

の導出 Na

Page 23: Chapter6.4

(6.80)

NN

T

NNN

Np aCaCa

1

2

1ln

2

12ln

2ln

N

n

a

N

T

NNNnep

1

1lnln atat

NNNN pp aata lnln)(

の導出 Na

Page 24: Chapter6.4

(6.80)

NN

T

NN

N

n

a

N

T

N

N

e n

aCaC

at

1

1

2

1ln

2

12ln

2

1ln

NNNN pp aata lnln)(

の導出 Na

Page 25: Chapter6.4

ラプラス近似

(6.80)

NN

N

n

a

NNne aCta

1

1

1ln)(

NN

T

NN

N

n

a

N

T

N

N

e n

aCaC

at

1

1

2

1ln

2

12ln

2

1ln

NNNN pp aata lnln)(

Page 26: Chapter6.4

ラプラス近似

NN

N

n

a

NNne aCta

1

1

1ln)(

N

T

N

T

aaa

T

a

a

a

a

a

aN

n

a

aaa

eee

e

e

e

e

e

ee

N

N

N

n

σ

)(,),(),(

1

1,,

1

1,

1

1

1,,

1,

11ln

21

1

21

2

2

1

1

Page 27: Chapter6.4

ラプラス近似

NNNNN aCσta1

)(

TNN aaa )(,),(),( 21 σ

1)(

NNN Cσa

)(1)()(

nn

n

n aaa

a

(4.88)

TNN aa )(,),( 1 σ

NNN aaaadiag W )(1)(,,)(1)( 11

より

(6.81)

Page 28: Chapter6.4

ラプラス近似

NNNNN aCσta1

)(

TNN aaa )(,),(),( 21 σ

1)(

NNN CWa

)(1)(,,)(1)( 11 NN

NN

aaaadiag

σW

(6.81)

(6.82)

Page 29: Chapter6.4

ラプラス近似

0)( Na となる をニュートン-ラフソン法で求める。 Na

ニュートン-ラフソン法

)(1)()( oldoldnew E wHww

)(oldE wH

(4.92)

(4.94)

Naw

)(ln NpE awtw

Page 30: Chapter6.4

ラプラス近似

0)( Na となる をニュートン-ラフソン法で求める。 Na

)( NaH

ニュートン-ラフソン法

)(1)()( old

N

old

N

new

N aHaa

Page 31: Chapter6.4

演習6.25

NNNNNNNN

NNNNNNNN

NNNNNN

NNNNNNNNNN

NNNNNNN

NNN

NN

new

N

σtaWICWC

σtaWCICW

σtaWCW

σtaWaCWCWa

aCσtCWa

aaa

aHaa

1

11

11

111

111

1

1)(

Page 32: Chapter6.4

ラプラス近似

0)( Na となる をニュートン-ラフソン法で求める。 Na

)( NaH

ニュートン-ラフソン法

NNNNNNNN

new

N σtaWICWCa 1)(

(6.83)

Page 33: Chapter6.4

ラプラス近似

0)( Na となる をニュートン-ラフソン法で求める。 Na

0)(*1*

NNNNN aCσta

NNNN σtCa *

(6.84)

*

Na に収束

1)(

NNN CWaH (6.85)

Page 34: Chapter6.4

ラプラス近似

NNNN σtCa *

(6.84)

1)(

NNN CWaH (6.85)

1*,)( Haaata NNNNN qp (6.86)

Page 35: Chapter6.4

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11

1*,)( Haaata NNNNN qp

ラプラス近似

(6.86)

(6.77)

求まった!

の導出 NNp ta

Page 36: Chapter6.4

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11

1*,)( Haaata NNNNN qp

ラプラス近似

(6.86)

(6.77)

の導出 NNap t1

Page 37: Chapter6.4

NNNNNNN dpapap ataat 11

1*,)( Haaata NNNNN qp (6.86)

(6.77)

NN

T

NN

T

NNN caap kCktCka11

11 ,

(6.78)

の導出 NNap t1

Page 38: Chapter6.4

演習6.26

1, Λμxxp

1, LbAxyxyp

Tp AAΛLbAμyy11,

Nax

(2.113)

(2.114)

(2.115)

の時、以下が成り立つ

1 Nay*

Naμ 11 HΛ

1 N

TCkA 0b kCkL

11 N

Tc

Page 39: Chapter6.4

演習6.26

1*, Haaa NNNp

kCkaCka11

11 ,

N

T

NN

T

NNN caap

NNNNNN aap tata 1111 var,

(6.86)

(6.78)

の時、以下が成り立つ

*1

1 NN

T

NN aCkta

TN

T

N

T

N

T

NN

c1111

1

var

CkHCkkCk

ta

Page 40: Chapter6.4

演習6.26

*1

1 NN

T

NN aCkta

NNNN σtCa *

(6.84)より

NN

T

NNNN

T

σtk

σtCCk

1

(6.87)

Page 41: Chapter6.4

演習6.26

kCCWCCk

kCCWCkkCk

CkHCkkCkta

11111

11111

1111

1

var

NNNNN

T

NNNN

T

N

T

T

N

T

N

T

N

T

NN

c

c

c

1111111 CABCADBAACBDA

kWCk11

NN

Tc

(C.7)より

(6.88)

Page 42: Chapter6.4

演習6.26

1*, Haaa NNNp

kCkaCka11

11 ,

N

T

NN

T

NNN caap

NNNNNN aap tata 1111 var,

(6.86)

(6.78)

の時、以下が成り立つ

NN

T

NN σtkta 1

kWCkta11

1var

NN

T

NN c

(6.87)

(6.88)

Page 43: Chapter6.4

予測分布の導出

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11(6.77)

NNNNNa tata 111 var,

Page 44: Chapter6.4

予測分布の導出

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN aap tatat 1111 var,

)exp(1

11

1

111

N

NNNa

aatp

)(,)( 22 daμaa

2/122 8/1)(

(4.153)

(4.154)

Page 45: Chapter6.4

予測分布の導出

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNN tata 11var

NN

T

NN σtkta 1

kWCkta11

1var

NN

T

NN c

(6.87)

(6.88)

Page 46: Chapter6.4

ガウス過程による分類(ラプラス近似)アルゴリズムまとめ

1. ガウス過程のパラメータを計算

2. ニュートン-ラフソン法により を計算 *

Na

3. 予測分布を計算する。

Page 47: Chapter6.4

ガウス過程による分類(ラプラス近似)アルゴリズムまとめ

1. 以下のガウス過程のパラメータを計算

111 , NNNp C0aa

cT

N

Nk

kCC 1 I

xxxx

xxxx

C

),(),(

),(),(

1

111

NNN

N

N

kk

kk

TNNN kk ),(,),,( 111 xxxxk

),( 11 NNkc xx

Page 48: Chapter6.4

ガウス過程による分類(ラプラス近似)アルゴリズムまとめ

2. ニュートン-ラフソン法により を計算

NNNNNNNN

new

N σtaWICWCa 1)(

NNNN σtCa *

)(1)(,,)(1)( 11 NNN aaaadiag W

TNN aaa )(,),(),( 21 σ

更新式

以下に収束

*

Na

Page 49: Chapter6.4

ガウス過程による分類(ラプラス近似)アルゴリズムまとめ

3. 予測分布が以下の通り求まる

NNNNNNtp tatat 111 var1

2/122 8/1)(

NN

T

NN σtkta 1

kWCkta11

1var

NN

T

NN c

(6.87)

(6.88)

Page 50: Chapter6.4

パラメータの推定

NNNNN dppp aθaatθt (6.89)

m

T

nnmmnk xxxxxx 32

210

2exp),(

(6.63)

カーネル関数のパラメータ を推定したい。 θ

例:

最尤推定:

を最大化する を求める。 θ

Page 51: Chapter6.4

パラメータの推定

2/1

2/

0

)2()()(

Azzz

M

fdfZ

(4.135)

)(1

)( zz fZ

p

1

0 ,)()( Azzzz qp

(4.125)

が、以下のラプラス近似で表わされる時、

Zは以下で近似できる

NNN ppf aatz )(

Page 52: Chapter6.4

パラメータの推定

(6.86)

が、以下のラプラス近似で表わされる時、

p(t)は以下で近似できる

2/1

2/** )2(

H

aat

aθaatt

N

NNN

NNNNN

pp

dppp

1*,)( Haaata NNNNN qp

NNN

N

NN ppp

p aatt

ta1

(ベイズの定理)

Page 53: Chapter6.4

パラメータの推定

NNNNN dppp aθaatθt (6.89)

2/1

2/** )2(

Haat

N

NNN pp

)2ln(2

ln2

1lnln

**

Nppp NNNN Haatθt

対数

)(*

Na (6.80) 1

NN CW (6.85)

= =

Page 54: Chapter6.4

パラメータの推定

)2ln(2

ln2

1lnln

**

Nppp NNNN Haatθt

)2ln(2

ln2

1 1*

NNNN

CWa (6.90)

θtNplnθ に対する勾配を求めることで、 の最大値をとる を非線形最適化で求める。 θ

Page 55: Chapter6.4

対数尤度の勾配

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt

を変更 θNC が変更

*

Na が変更 NW が変更

Nσ が変更

Page 56: Chapter6.4

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt

を変更 θNC が変更

*

Na が変更 NW が変更

Nσ が変更

対数尤度の勾配( 依存) NC

Page 57: Chapter6.4

対数尤度の勾配( 依存)

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt

(6.80)

NN

T

NN

N

n

a

N

T

NN

N

e n

aCaC

ata

1

1

2

1ln

2

12ln

2

1ln)(

NC

Page 58: Chapter6.4

対数尤度の勾配( 依存)

ICWaCa

CW

aCaC

NN

j

NN

T

N

j

NN

j

NN

T

N

j

N

j

ln2

1

ln2

1

2

1ln

2

1

*1*

1

*1*

NC

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt

Page 59: Chapter6.4

対数尤度の勾配( 依存) NC

ICWaCa

θtNN

j

NN

T

N

jj

Npln

2

1ln *1*

*1*

NN

T

N

j

aCa

ICW

NN

j

ln

をそれぞれ として計算 0

*

j

N

a

Page 60: Chapter6.4

対数尤度の勾配( 依存) NC

*1*

NN

T

N

j

aCa

*11*

NN

j

NN

T

N aCC

Ca

111

A

AAA

xx(C.21)より

*1

*

N

j

NT

N aC

a

Page 61: Chapter6.4

ICW

NN

j

ln

j

NNNN

CWIWC

1Tr

ICWICW NN

j

NN

1Tr

対数尤度の勾配( 依存) NC

xx

AAA

1Trln (C.22)より

対称行列

Page 62: Chapter6.4

対数尤度の勾配( 依存) NC

ICWaCa

θtNN

j

NN

T

N

jj

Npln

2

1ln *1*

*11**1*

NN

j

NN

T

NNN

T

N

j

aCC

CaaCa

j

NNNNNN

j

CWWCICW

1Trln

Page 63: Chapter6.4

対数尤度の勾配( 依存) NC

ICWaCa

θtNN

j

NN

T

N

jj

Npln

2

1ln *1*

j

NNNN

NN

j

NN

T

N

CWWC

aCC

Ca

1

*11*

Tr2

1

2

1

(6.91)

Page 64: Chapter6.4

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt

を変更 θNC が変更

*

Na が変更 NW が変更

Nσ が変更

対数尤度の勾配( 依存) *

Na

Page 65: Chapter6.4

対数尤度の勾配( 依存)

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt

*

Na

N

n j

nNNN

n

a

a1

*1*

*ln

2

1

CWa

N

n j

n

n

NN a

a1

*

*

1ln

2

1

CW

勾配=0

Page 66: Chapter6.4

N

n j

n

n

NN a

a1

*

*

1ln

2

1

CW

対数尤度の勾配( 依存) *

Na

Page 67: Chapter6.4

対数尤度の勾配( 依存) *

Na

*

11

*

111

*

1

TrTrln

n

NNN

n

NNNN

n

NN

aaa

WCW

CWCW

CW

(C.22)より

0

)(1)(**

*

,

*

nn

n

jin

Naa

aa

W

)(1)(,,)(1)( 11 NNN aaaadiag W

なので

)( nji

others

)(21)(1)()(1)(*****

* nnnnn

n

aaaaaa

Page 68: Chapter6.4

対数尤度の勾配( 依存) *

Na

*

11

*

111

*

1

TrTrln

n

NNN

n

NNNN

n

NN

aaa

WCW

CWCW

CW

(C.22)より

)(21)(1)(***11

nnnnnNN aaa

CW

NNNNNNNN CWCIIWCCCW11111

)(21)(1)(***1

nnnnnNNN aaa

CWCI

Page 69: Chapter6.4

N

n j

n

n

NN a

a1

*

*

1ln

2

1

CW

(6.92)

対数尤度の勾配( 依存) *

Na

N

n j

nnnnnnNNN

a

1

****1

2112

1

WWC

)(21)(1)(ln

***1

*

1

nnnnnNNN

n

NN

aaaa

CWCICW

より

Page 70: Chapter6.4

j

NNNNN

j

NNNN

jj

N

*

***

σtCσt

CσtC

a

(6.84)

対数尤度の勾配( 依存) *

Na

j

NNN

N

n j

n

n

NN

j

NNN

a

a

*

1

*

*

**a

WCσ

Cσt

C

j

NNNNN

j

N

** a

WCσtC

(6.93)

Page 71: Chapter6.4

j

NNNNN

j

N

j

N

*

**

aWCσt

Ca

対数尤度の勾配( 依存) *

Na

(6.93)’

**

NN

j

N

j

NNN σt

CaWCI

*1*

NN

j

NNN

j

N σtC

WCIa

n

NN

j

NNN

nj

N

j

na

*1**

σtC

WCIa

(6.94)’

Page 72: Chapter6.4

パラメータ推定まとめ

• 最尤推定でカーネルのパラメータを計算する。

• 対数尤度のパラメータ の勾配を求める。

– に依存する項:(6.91)式

– に依存する項:(6.92)+(6.94)式

• この勾配から非線形最適化のアルゴリズムを用いてパラメータの値を決定する。

θ

NC

Na

疑問:具体的にどのように(6.91)と(6.92)を使い分けて最適化するのか?

Page 73: Chapter6.4

ガウス過程による分類

黒線:ガウス過程で求まった決定面

緑線:最適な決定面 赤・青:それぞれのクラスの事後分布

黒線:ガウス過程で求まった決定面

Page 74: Chapter6.4

6.4.7 ニューラルネットワークとの関係

• ニューラルネットによる識別問題(復習)

・・・

・・・ ・・・

xkt

閾値

)1(w

)2(w

ky

K

k

t

k

t

kkk yyp

1

1),(1),(),|( wxwxwxt (5.22)

Page 75: Chapter6.4

6.4.7 ニューラルネットワークとの関係

• ベイズニューラルネット(復習)

),|()|( 1I0ww

Np (5.162)

事前分布を追加

予測分布を求める

wwwxtxt dDppDp )|(),|(),|( (5.168)

K

k

t

k

t

kkk yyp

1

1),(1),(),|( wxwxwxt (5.22)

Page 76: Chapter6.4

6.4.7 ニューラルネットワークとの関係

• ベイズニューラルネットの中間層の数MがM→∞の極限において、ガウス過程に近づく。

–出力変数が独立になる。

• ベイズニューラルネットからカーネル関数を計算

–重みの事前分布を平均0のガウス分布とした場合、カーネル関数 は不変にならない。 ),( xx k