chapter6.4

PRML読書会復々讐レーン 6.4.6, 6.4.7

2013/05/05

Presented by takmin

概要

• ガウス過程の分類問題

111 , NNNp C0aa

)exp(1

11

1

111

N

NNNa

aatp

ガウス過程

分類問題

ロジスティックシグモイド関数

TNNN aaa 111 ,,, a

(6.74)

目的

• ガウス過程の分類問題

–以下の予測分布を求めたい。

11111 11 NNNNNNN daapatptp tt

近似して解く •変分推論法（10.1節） • EP法（10.7節） •ラプラス近似（6.4.6節）

解析的に解けない

(6.76)

導出の流れ

)exp(1

11

1

111

N

NNNa

aatp

11111 11 NNNNNNN daapatptp tt

予測分布

ロジスティックシグモイド関数

導出の流れ

11111 11 NNNNNNN daapatptp tt (6.76)

予測分布

NNNNNNN dpapap ataat 11(6.77)

この導出は後ほど

導出の流れ


予測分布

NNNNNNN dpapap ataat 11

NN

T

NN

T

NNN caap kCktCka11

11 ,

(6.77)

(6.78)

この導出は後ほど

導出の流れ


予測分布


1*,)( Haaata NNNNN qp

ラプラス近似

(6.86)

(6.77)

の導出

NNap t1 NNNN dap ata,1

NNNNNN

N

dapapp

aatat

,,)(

111

NNNNNN

N

dppapp

aataat

1)(

1

NNNNN dpap ataa1

ベイズの定理

(6.77)

tNはaN+1とは無関係

ベイズの定理

NNap t1

の導出


予測分布


NNap t1


予測分布


2

1111 )(),( NNNNN maap xxa

(6.77)

ガウス過程 (6.66) (6.67)

の導出 NNap a1


予測分布


NN

T

NN

T

NNN caap kCktCka11

11 ,

(6.77)

(6.78)

の導出 NNap a1


予測分布


ガウス分布

もしガウス分布なら、(6.77)が解析的に計算可能！

ラプラス近似を使う！

の導出 NNp ta

ラプラス近似(復習)

)(1

)( zz fZ

p zz dfZ )(

1

0 ,)( Azzzp

0)(0

zz

zf

0

)(ln1

zzzA

f

確率分布p(z)が以下で表せる時、

ガウス分布で次のように近似できる。


予測分布


NNp ta

N

NNN

p

pp

t

aat

ベイズの定理

ラプラス近似のために、対数の1次微分、2次微分を求める。

の導出 NNp ta

NNp ta

N

NNN

p

pp

t

aat

NNNNNN pppp taatta lnlnlnln

対数

NNNN pp aata lnln)( (6.80)

定数略

の導出 NNp ta

N

n

t

n

t

nNNnn aap

1

1)(1)( at (6.79)

(6.80) NNNN pp aata lnln)(

の導出 NNp at

N

n

t

n

t

nNNnn aap

1

1)(1)( at

N

n

n

ta

N

na

taN

na

ata

N

na

ataN

n

t

a

t

a

ta

N

n

t

a

at

a

N

n

t

a

t

a

ae

ee

e

ee

ee

eee

e

e

eee

nn

n

nn

n

n

nn

n

nnn

n

n

n

n

nn

n

n

nn

n

n

n

n

n

1

11

11

1

)1(

1

1

1

1

)(

1

1

1

1

1

1

1

1

1

11

1

1

11

1

1

(6.79)

の導出 NNp at

(6.79)

(6.80)

N

n

n

ta

NN aep nn

1

)(at

NNNN pp aata lnln)(

の導出 NNp at

の導出

(6.79)

(6.80)

N

n

n

ta

NN aep nn

1

)(at

N

n

a

N

T

N

N

nann

N

n

n

ta

NN

n

n

nn

ee

ta

aep

11

1

1ln1

1ln

)(lnln

at

at

対数

NNNN pp aata lnln)(

Na

(6.80)

N

n

a

N

T

NNNnep

1

1lnln atat

NNNN pp aata lnln)(

の導出 Na

(6.80)

NNNp Caa ,0)( (6.60)

NN

T

NN

NN

T

N

N

NN

N

p

aCaC

aCaC

a

1

1

2/12/

2

1ln

2

12ln

2

2

1exp

1

2

1lnln

対数

NNNN pp aata lnln)(

の導出 Na

(6.80)

NN

T

NNN

Np aCaCa

1

2

1ln

2

12ln

2ln

N

n

a

N

T

NNNnep

1

1lnln atat

NNNN pp aata lnln)(

の導出 Na

(6.80)

NN

T

NN

N

n

a

N

T

N

N

e n

aCaC

at

1

1

2

1ln

2

12ln

2

1ln

NNNN pp aata lnln)(

の導出 Na

ラプラス近似

(6.80)

NN

N

n

a

NNne aCta

1

1

1ln)(

NN

T

NN

N

n

a

N

T

N

N

e n

aCaC

at

1

1

2

1ln

2

12ln

2

1ln

NNNN pp aata lnln)(

ラプラス近似

NN

N

n

a

NNne aCta

1

1

1ln)(

N

T

N

T

aaa

T

a

a

a

a

a

aN

n

a

aaa

eee

e

e

e

e

e

ee

N

N

N

n

σ

)(,),(),(

1

1,,

1

1,

1

1

1,,

1,

11ln

21

1

21

2

2

1

1

ラプラス近似

NNNNN aCσta1

)(

TNN aaa )(,),(),( 21 σ

1)(

NNN Cσa

)(1)()(

nn

n

n aaa

a

(4.88)

TNN aa )(,),( 1 σ

NNN aaaadiag W )(1)(,,)(1)( 11

より

(6.81)

ラプラス近似

NNNNN aCσta1

)(

TNN aaa )(,),(),( 21 σ

1)(

NNN CWa

)(1)(,,)(1)( 11 NN

NN

aaaadiag

σW

(6.81)

(6.82)

ラプラス近似

0)( Na となるをニュートン-ラフソン法で求める。 Na

ニュートン-ラフソン法

)(1)()( oldoldnew E wHww

)(oldE wH

(4.92)

(4.94)

Naw

)(ln NpE awtw

ラプラス近似


)( NaH


)(1)()( old

N

old

N

new

N aHaa

演習6.25

NNNNNNNN

NNNNNNNN

NNNNNN

NNNNNNNNNN

NNNNNNN

NNN

NN

new

N

σtaWICWC

σtaWCICW

σtaWCW

σtaWaCWCWa

aCσtCWa

aaa

aHaa

1

11

11

111

111

1

1)(

ラプラス近似


)( NaH


NNNNNNNN

new

N σtaWICWCa 1)(

(6.83)

ラプラス近似


0)(*1*

NNNNN aCσta

NNNN σtCa *

(6.84)

*

Na に収束

1)(

NNN CWaH (6.85)

ラプラス近似

NNNN σtCa *

(6.84)

1)(

NNN CWaH (6.85)

1*,)( Haaata NNNNN qp (6.86)


予測分布



ラプラス近似

(6.86)

(6.77)

求まった！

の導出 NNp ta


予測分布



ラプラス近似

(6.86)

(6.77)

の導出 NNap t1


1*,)( Haaata NNNNN qp (6.86)

(6.77)

NN

T

NN

T

NNN caap kCktCka11

11 ,

(6.78)

の導出 NNap t1

演習6.26

1, Λμxxp

1, LbAxyxyp

Tp AAΛLbAμyy11,

Nax

(2.113)

(2.114)

(2.115)

の時、以下が成り立つ

1 Nay*

Naμ 11 HΛ

1 N

TCkA 0b kCkL

11 N

Tc

演習6.26

1*, Haaa NNNp

kCkaCka11

11 ,

N

T

NN

T

NNN caap

NNNNNN aap tata 1111 var,

(6.86)

(6.78)


*1

1 NN

T

NN aCkta

TN

T

N

T

N

T

NN

c1111

1

var

CkHCkkCk

ta

演習6.26

*1

1 NN

T

NN aCkta

NNNN σtCa *

(6.84)より

NN

T

NNNN

T

σtk

σtCCk

1

(6.87)

演習6.26

kCCWCCk

kCCWCkkCk

CkHCkkCkta

11111

11111

1111

1

var

NNNNN

T

NNNN

T

N

T

T

N

T

N

T

N

T

NN

c

c

c

1111111 CABCADBAACBDA

kWCk11

NN

Tc

(C.7)より

(6.88)

演習6.26

1*, Haaa NNNp

kCkaCka11

11 ,

N

T

NN

T

NNN caap

NNNNNN aap tata 1111 var,

(6.86)

(6.78)


NN

T

NN σtkta 1

kWCkta11

1var

NN

T

NN c

(6.87)

(6.88)

予測分布の導出


予測分布


NNNNNa tata 111 var,



予測分布

NNNNNNN aap tatat 1111 var,

)exp(1

11

1

111

N

NNNa

aatp

)(,)( 22 daμaa

2/122 8/1)(

(4.153)

(4.154)



予測分布

NNNN tata 11var

NN

T

NN σtkta 1

kWCkta11

1var

NN

T

NN c

(6.87)

(6.88)

ガウス過程による分類（ラプラス近似）アルゴリズムまとめ

1. ガウス過程のパラメータを計算

2. ニュートン-ラフソン法によりを計算 *

Na

3. 予測分布を計算する。


1. 以下のガウス過程のパラメータを計算

111 , NNNp C0aa

cT

N

Nk

kCC 1 I

xxxx

xxxx

C

),(),(

),(),(

1

111

NNN

N

N

kk

kk

TNNN kk ),(,),,( 111 xxxxk

),( 11 NNkc xx


2. ニュートン-ラフソン法によりを計算

NNNNNNNN

new

N σtaWICWCa 1)(

NNNN σtCa *

)(1)(,,)(1)( 11 NNN aaaadiag W

TNN aaa )(,),(),( 21 σ

更新式

以下に収束

*

Na


3. 予測分布が以下の通り求まる

NNNNNNtp tatat 111 var1

2/122 8/1)(

NN

T

NN σtkta 1

kWCkta11

1var

NN

T

NN c

(6.87)

(6.88)

パラメータの推定

NNNNN dppp aθaatθt (6.89)

m

T

nnmmnk xxxxxx 32

210

2exp),(

(6.63)

カーネル関数のパラメータを推定したい。 θ

例：

最尤推定：

を最大化するを求める。 θ


2/1

2/

0

)2()()(

Azzz

M

fdfZ

(4.135)

)(1

)( zz fZ

p

1

0 ,)()( Azzzz qp

(4.125)

が、以下のラプラス近似で表わされる時、

Zは以下で近似できる

NNN ppf aatz )(


(6.86)

が、以下のラプラス近似で表わされる時、

p(t)は以下で近似できる

2/1

2/** )2(

H

aat

aθaatt

N

NNN

NNNNN

pp

dppp


NNN

N

NN ppp

p aatt

ta1

(ベイズの定理)


NNNNN dppp aθaatθt (6.89)

2/1

2/** )2(

Haat

N

NNN pp

)2ln(2

ln2

1lnln

**

Nppp NNNN Haatθt

対数

)(*

Na (6.80) 1

NN CW (6.85)

= =


)2ln(2

ln2

1lnln

**

Nppp NNNN Haatθt

)2ln(2

ln2

1 1*

NNNN

CWa (6.90)

θtNplnθ に対する勾配を求めることで、の最大値をとるを非線形最適化で求める。 θ

対数尤度の勾配

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt

を変更 θNC が変更

*

Na が変更 NW が変更

Nσ が変更

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt


*


Nσ が変更

対数尤度の勾配( 依存) NC

対数尤度の勾配( 依存)

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt

(6.80)

NN

T

NN

N

n

a

N

T

NN

N

e n

aCaC

ata

1

1

2

1ln

2

12ln

2

1ln)(

NC


ICWaCa

CW

aCaC

NN

j

NN

T

N

j

NN

j

NN

T

N

j

N

j

ln2

1

ln2

1

2

1ln

2

1

*1*

1

*1*

NC

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt


ICWaCa

θtNN

j

NN

T

N

jj

Npln

2

1ln *1*

*1*

NN

T

N

j

aCa

ICW

NN

j

ln

をそれぞれとして計算 0

*

j

N

a

と


*1*

NN

T

N

j

aCa

*11*

NN

j

NN

T

N aCC

Ca

111

A

AAA

xx(C.21)より

*1

*

N

j

NT

N aC

a

ICW

NN

j

ln

j

NNNN

CWIWC

1Tr

ICWICW NN

j

NN

1Tr


xx

AAA

1Trln (C.22)より

対称行列


ICWaCa

θtNN

j

NN

T

N

jj

Npln

2

1ln *1*

*11**1*

NN

j

NN

T

NNN

T

N

j

aCC

CaaCa

j

NNNNNN

j

CWWCICW

1Trln


ICWaCa

θtNN

j

NN

T

N

jj

Npln

2

1ln *1*

j

NNNN

NN

j

NN

T

N

CWWC

aCC

Ca

1

*11*

Tr2

1

2

1

(6.91)

1*ln

2

1ln

NN

j

N

jj

NpCWa

θt


*


Nσ が変更

対数尤度の勾配( 依存) *

Na


1*ln

2

1ln

NN

j

N

jj

NpCWa

θt

*

Na

N

n j

nNNN

n

a

a1

*1*

*ln

2

1

CWa

N

n j

n

n

NN a

a1

*

*

1ln

2

1

CW

勾配=0

N

n j

n

n

NN a

a1

*

*

1ln

2

1

CW


Na


Na

*

11

*

111

*

1

TrTrln

n

NNN

n

NNNN

n

NN

aaa

WCW

CWCW

CW

(C.22)より

0

)(1)(**

*

,

*

nn

n

jin

Naa

aa

W

)(1)(,,)(1)( 11 NNN aaaadiag W

なので

)( nji

others

)(21)(1)()(1)(*****

* nnnnn

n

aaaaaa


Na

*

11

*

111

*

1

TrTrln

n

NNN

n

NNNN

n

NN

aaa

WCW

CWCW

CW

(C.22)より

)(21)(1)(***11

nnnnnNN aaa

CW

NNNNNNNN CWCIIWCCCW11111

)(21)(1)(***1

nnnnnNNN aaa

CWCI

N

n j

n

n

NN a

a1

*

*

1ln

2

1

CW

(6.92)


Na

N

n j

nnnnnnNNN

a

1

****1

2112

1

WWC

)(21)(1)(ln

***1

*

1

nnnnnNNN

n

NN

aaaa

CWCICW

より

j

NNNNN

j

NNNN

jj

N

*

***

σtCσt

CσtC

a

(6.84)


Na

j

NNN

N

n j

n

n

NN

j

NNN

a

a

*

1

*

*

**a

WCσ

Cσt

C

j

NNNNN

j

N

** a

WCσtC

(6.93)

j

NNNNN

j

N

j

N

*

**

aWCσt

Ca


Na

(6.93)’

**

NN

j

N

j

NNN σt

CaWCI

*1*

NN

j

NNN

j

N σtC

WCIa

n

NN

j

NNN

nj

N

j

na

*1**

σtC

WCIa

(6.94)’

パラメータ推定まとめ

• 最尤推定でカーネルのパラメータを計算する。

• 対数尤度のパラメータの勾配を求める。

– に依存する項:(6.91)式

– に依存する項:(6.92)+(6.94)式

• この勾配から非線形最適化のアルゴリズムを用いてパラメータの値を決定する。

θ

NC

Na

疑問：具体的にどのように(6.91)と(6.92)を使い分けて最適化するのか？

ガウス過程による分類

黒線：ガウス過程で求まった決定面

緑線：最適な決定面赤・青：それぞれのクラスの事後分布

黒線：ガウス過程で求まった決定面

6.4.7 ニューラルネットワークとの関係

• ニューラルネットによる識別問題（復習）

・・・

・・・・・・

xkt

閾値

)1(w

)2(w

ky

K

k

t

k

t

kkk yyp

1

1),(1),(),|( wxwxwxt (5.22)


• ベイズニューラルネット（復習）

),|()|( 1I0ww

Np (5.162)

事前分布を追加

予測分布を求める

wwwxtxt dDppDp )|(),|(),|( (5.168)

K

k

t

k

t

kkk yyp

1

1),(1),(),|( wxwxwxt (5.22)


• ベイズニューラルネットの中間層の数MがM→∞の極限において、ガウス過程に近づく。

–出力変数が独立になる。

• ベイズニューラルネットからカーネル関数を計算

–重みの事前分布を平均0のガウス分布とした場合、カーネル関数は不変にならない。 ),( xx k

chapter6.4

Spiritual