chapter6.4
DESCRIPTION
PRML読書会発表資料TRANSCRIPT
PRML読書会復々讐レーン 6.4.6, 6.4.7
2013/05/05
Presented by takmin
概要
• ガウス過程の分類問題
111 , NNNp C0aa
)exp(1
11
1
111
N
NNNa
aatp
ガウス過程
分類問題
ロジスティックシグモイド関数
TNNN aaa 111 ,,, a
(6.74)
目的
• ガウス過程の分類問題
–以下の予測分布を求めたい。
11111 11 NNNNNNN daapatptp tt
近似して解く •変分推論法(10.1節) • EP法(10.7節) •ラプラス近似(6.4.6節)
解析的に解けない
(6.76)
導出の流れ
)exp(1
11
1
111
N
NNNa
aatp
11111 11 NNNNNNN daapatptp tt
予測分布
ロジスティックシグモイド関数
導出の流れ
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11(6.77)
この導出は後ほど
導出の流れ
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11
NN
T
NN
T
NNN caap kCktCka11
11 ,
(6.77)
(6.78)
この導出は後ほど
導出の流れ
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11
1*,)( Haaata NNNNN qp
ラプラス近似
(6.86)
(6.77)
導出の流れ
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11
1*,)( Haaata NNNNN qp
ラプラス近似
(6.86)
(6.77)
の導出
NNap t1 NNNN dap ata,1
NNNNNN
N
dapapp
aatat
,,)(
111
NNNNNN
N
dppapp
aataat
1)(
1
NNNNN dpap ataa1
ベイズの定理
(6.77)
tNはaN+1とは無関係
ベイズの定理
NNap t1
の導出
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11(6.77)
NNap t1
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11
2
1111 )(),( NNNNN maap xxa
(6.77)
ガウス過程 (6.66) (6.67)
の導出 NNap a1
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11
NN
T
NN
T
NNN caap kCktCka11
11 ,
(6.77)
(6.78)
の導出 NNap a1
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11(6.77)
ガウス分布
もしガウス分布なら、(6.77)が解析的に計算可能!
ラプラス近似を使う!
の導出 NNp ta
ラプラス近似(復習)
)(1
)( zz fZ
p zz dfZ )(
1
0 ,)( Azzzp
0)(0
zz
zf
0
)(ln1
zzzA
f
確率分布p(z)が以下で表せる時、
ガウス分布で次のように近似できる。
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11(6.77)
NNp ta
N
NNN
p
pp
t
aat
ベイズの定理
ラプラス近似のために、対数の1次微分、2次微分を求める。
の導出 NNp ta
NNp ta
N
NNN
p
pp
t
aat
NNNNNN pppp taatta lnlnlnln
対数
NNNN pp aata lnln)( (6.80)
定数略
の導出 NNp ta
N
n
t
n
t
nNNnn aap
1
1)(1)( at (6.79)
(6.80) NNNN pp aata lnln)(
の導出 NNp at
N
n
t
n
t
nNNnn aap
1
1)(1)( at
N
n
n
ta
N
na
taN
na
ata
N
na
ataN
n
t
a
t
a
ta
N
n
t
a
at
a
N
n
t
a
t
a
ae
ee
e
ee
ee
eee
e
e
eee
nn
n
nn
n
n
nn
n
nnn
n
n
n
n
nn
n
n
nn
n
n
n
n
n
1
11
11
1
)1(
1
1
1
1
)(
1
1
1
1
1
1
1
1
1
11
1
1
11
1
1
(6.79)
の導出 NNp at
(6.79)
(6.80)
N
n
n
ta
NN aep nn
1
)(at
NNNN pp aata lnln)(
の導出 NNp at
の導出
(6.79)
(6.80)
N
n
n
ta
NN aep nn
1
)(at
N
n
a
N
T
N
N
nann
N
n
n
ta
NN
n
n
nn
ee
ta
aep
11
1
1ln1
1ln
)(lnln
at
at
対数
NNNN pp aata lnln)(
Na
(6.80)
N
n
a
N
T
NNNnep
1
1lnln atat
NNNN pp aata lnln)(
の導出 Na
(6.80)
NNNp Caa ,0)( (6.60)
NN
T
NN
NN
T
N
N
NN
N
p
aCaC
aCaC
a
1
1
2/12/
2
1ln
2
12ln
2
2
1exp
1
2
1lnln
対数
NNNN pp aata lnln)(
の導出 Na
(6.80)
NN
T
NNN
Np aCaCa
1
2
1ln
2
12ln
2ln
N
n
a
N
T
NNNnep
1
1lnln atat
NNNN pp aata lnln)(
の導出 Na
(6.80)
NN
T
NN
N
n
a
N
T
N
N
e n
aCaC
at
1
1
2
1ln
2
12ln
2
1ln
NNNN pp aata lnln)(
の導出 Na
ラプラス近似
(6.80)
NN
N
n
a
NNne aCta
1
1
1ln)(
NN
T
NN
N
n
a
N
T
N
N
e n
aCaC
at
1
1
2
1ln
2
12ln
2
1ln
NNNN pp aata lnln)(
ラプラス近似
NN
N
n
a
NNne aCta
1
1
1ln)(
N
T
N
T
aaa
T
a
a
a
a
a
aN
n
a
aaa
eee
e
e
e
e
e
ee
N
N
N
n
σ
)(,),(),(
1
1,,
1
1,
1
1
1,,
1,
11ln
21
1
21
2
2
1
1
ラプラス近似
NNNNN aCσta1
)(
TNN aaa )(,),(),( 21 σ
1)(
NNN Cσa
)(1)()(
nn
n
n aaa
a
(4.88)
TNN aa )(,),( 1 σ
NNN aaaadiag W )(1)(,,)(1)( 11
より
(6.81)
ラプラス近似
NNNNN aCσta1
)(
TNN aaa )(,),(),( 21 σ
1)(
NNN CWa
)(1)(,,)(1)( 11 NN
NN
aaaadiag
σW
(6.81)
(6.82)
ラプラス近似
0)( Na となる をニュートン-ラフソン法で求める。 Na
ニュートン-ラフソン法
)(1)()( oldoldnew E wHww
)(oldE wH
(4.92)
(4.94)
Naw
)(ln NpE awtw
ラプラス近似
0)( Na となる をニュートン-ラフソン法で求める。 Na
)( NaH
ニュートン-ラフソン法
)(1)()( old
N
old
N
new
N aHaa
演習6.25
NNNNNNNN
NNNNNNNN
NNNNNN
NNNNNNNNNN
NNNNNNN
NNN
NN
new
N
σtaWICWC
σtaWCICW
σtaWCW
σtaWaCWCWa
aCσtCWa
aaa
aHaa
1
11
11
111
111
1
1)(
ラプラス近似
0)( Na となる をニュートン-ラフソン法で求める。 Na
)( NaH
ニュートン-ラフソン法
NNNNNNNN
new
N σtaWICWCa 1)(
(6.83)
ラプラス近似
0)( Na となる をニュートン-ラフソン法で求める。 Na
0)(*1*
NNNNN aCσta
NNNN σtCa *
(6.84)
*
Na に収束
1)(
NNN CWaH (6.85)
ラプラス近似
NNNN σtCa *
(6.84)
1)(
NNN CWaH (6.85)
1*,)( Haaata NNNNN qp (6.86)
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11
1*,)( Haaata NNNNN qp
ラプラス近似
(6.86)
(6.77)
求まった!
の導出 NNp ta
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11
1*,)( Haaata NNNNN qp
ラプラス近似
(6.86)
(6.77)
の導出 NNap t1
NNNNNNN dpapap ataat 11
1*,)( Haaata NNNNN qp (6.86)
(6.77)
NN
T
NN
T
NNN caap kCktCka11
11 ,
(6.78)
の導出 NNap t1
演習6.26
1, Λμxxp
1, LbAxyxyp
Tp AAΛLbAμyy11,
Nax
(2.113)
(2.114)
(2.115)
の時、以下が成り立つ
1 Nay*
Naμ 11 HΛ
1 N
TCkA 0b kCkL
11 N
Tc
演習6.26
1*, Haaa NNNp
kCkaCka11
11 ,
N
T
NN
T
NNN caap
NNNNNN aap tata 1111 var,
(6.86)
(6.78)
の時、以下が成り立つ
*1
1 NN
T
NN aCkta
TN
T
N
T
N
T
NN
c1111
1
var
CkHCkkCk
ta
演習6.26
*1
1 NN
T
NN aCkta
NNNN σtCa *
(6.84)より
NN
T
NNNN
T
σtk
σtCCk
1
(6.87)
演習6.26
kCCWCCk
kCCWCkkCk
CkHCkkCkta
11111
11111
1111
1
var
NNNNN
T
NNNN
T
N
T
T
N
T
N
T
N
T
NN
c
c
c
1111111 CABCADBAACBDA
kWCk11
NN
Tc
(C.7)より
(6.88)
演習6.26
1*, Haaa NNNp
kCkaCka11
11 ,
N
T
NN
T
NNN caap
NNNNNN aap tata 1111 var,
(6.86)
(6.78)
の時、以下が成り立つ
NN
T
NN σtkta 1
kWCkta11
1var
NN
T
NN c
(6.87)
(6.88)
予測分布の導出
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN dpapap ataat 11(6.77)
NNNNNa tata 111 var,
予測分布の導出
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNNNNN aap tatat 1111 var,
)exp(1
11
1
111
N
NNNa
aatp
)(,)( 22 daμaa
2/122 8/1)(
(4.153)
(4.154)
予測分布の導出
11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
NNNN tata 11var
NN
T
NN σtkta 1
kWCkta11
1var
NN
T
NN c
(6.87)
(6.88)
ガウス過程による分類(ラプラス近似)アルゴリズムまとめ
1. ガウス過程のパラメータを計算
2. ニュートン-ラフソン法により を計算 *
Na
3. 予測分布を計算する。
ガウス過程による分類(ラプラス近似)アルゴリズムまとめ
1. 以下のガウス過程のパラメータを計算
111 , NNNp C0aa
cT
N
Nk
kCC 1 I
xxxx
xxxx
C
),(),(
),(),(
1
111
NNN
N
N
kk
kk
TNNN kk ),(,),,( 111 xxxxk
),( 11 NNkc xx
ガウス過程による分類(ラプラス近似)アルゴリズムまとめ
2. ニュートン-ラフソン法により を計算
NNNNNNNN
new
N σtaWICWCa 1)(
NNNN σtCa *
)(1)(,,)(1)( 11 NNN aaaadiag W
TNN aaa )(,),(),( 21 σ
更新式
以下に収束
*
Na
ガウス過程による分類(ラプラス近似)アルゴリズムまとめ
3. 予測分布が以下の通り求まる
NNNNNNtp tatat 111 var1
2/122 8/1)(
NN
T
NN σtkta 1
kWCkta11
1var
NN
T
NN c
(6.87)
(6.88)
パラメータの推定
NNNNN dppp aθaatθt (6.89)
m
T
nnmmnk xxxxxx 32
210
2exp),(
(6.63)
カーネル関数のパラメータ を推定したい。 θ
例:
最尤推定:
を最大化する を求める。 θ
パラメータの推定
2/1
2/
0
)2()()(
Azzz
M
fdfZ
(4.135)
)(1
)( zz fZ
p
1
0 ,)()( Azzzz qp
(4.125)
が、以下のラプラス近似で表わされる時、
Zは以下で近似できる
NNN ppf aatz )(
パラメータの推定
(6.86)
が、以下のラプラス近似で表わされる時、
p(t)は以下で近似できる
2/1
2/** )2(
H
aat
aθaatt
N
NNN
NNNNN
pp
dppp
1*,)( Haaata NNNNN qp
NNN
N
NN ppp
p aatt
ta1
(ベイズの定理)
パラメータの推定
NNNNN dppp aθaatθt (6.89)
2/1
2/** )2(
Haat
N
NNN pp
)2ln(2
ln2
1lnln
**
Nppp NNNN Haatθt
対数
)(*
Na (6.80) 1
NN CW (6.85)
= =
パラメータの推定
)2ln(2
ln2
1lnln
**
Nppp NNNN Haatθt
)2ln(2
ln2
1 1*
NNNN
CWa (6.90)
θtNplnθ に対する勾配を求めることで、 の最大値をとる を非線形最適化で求める。 θ
対数尤度の勾配
1*ln
2
1ln
NN
j
N
jj
NpCWa
θt
を変更 θNC が変更
*
Na が変更 NW が変更
Nσ が変更
1*ln
2
1ln
NN
j
N
jj
NpCWa
θt
を変更 θNC が変更
*
Na が変更 NW が変更
Nσ が変更
対数尤度の勾配( 依存) NC
対数尤度の勾配( 依存)
1*ln
2
1ln
NN
j
N
jj
NpCWa
θt
(6.80)
NN
T
NN
N
n
a
N
T
NN
N
e n
aCaC
ata
1
1
2
1ln
2
12ln
2
1ln)(
NC
対数尤度の勾配( 依存)
ICWaCa
CW
aCaC
NN
j
NN
T
N
j
NN
j
NN
T
N
j
N
j
ln2
1
ln2
1
2
1ln
2
1
*1*
1
*1*
NC
1*ln
2
1ln
NN
j
N
jj
NpCWa
θt
対数尤度の勾配( 依存) NC
ICWaCa
θtNN
j
NN
T
N
jj
Npln
2
1ln *1*
*1*
NN
T
N
j
aCa
ICW
NN
j
ln
をそれぞれ として計算 0
*
j
N
a
と
対数尤度の勾配( 依存) NC
*1*
NN
T
N
j
aCa
*11*
NN
j
NN
T
N aCC
Ca
111
A
AAA
xx(C.21)より
*1
*
N
j
NT
N aC
a
ICW
NN
j
ln
j
NNNN
CWIWC
1Tr
ICWICW NN
j
NN
1Tr
対数尤度の勾配( 依存) NC
xx
AAA
1Trln (C.22)より
対称行列
対数尤度の勾配( 依存) NC
ICWaCa
θtNN
j
NN
T
N
jj
Npln
2
1ln *1*
*11**1*
NN
j
NN
T
NNN
T
N
j
aCC
CaaCa
j
NNNNNN
j
CWWCICW
1Trln
対数尤度の勾配( 依存) NC
ICWaCa
θtNN
j
NN
T
N
jj
Npln
2
1ln *1*
j
NNNN
NN
j
NN
T
N
CWWC
aCC
Ca
1
*11*
Tr2
1
2
1
(6.91)
1*ln
2
1ln
NN
j
N
jj
NpCWa
θt
を変更 θNC が変更
*
Na が変更 NW が変更
Nσ が変更
対数尤度の勾配( 依存) *
Na
対数尤度の勾配( 依存)
1*ln
2
1ln
NN
j
N
jj
NpCWa
θt
*
Na
N
n j
nNNN
n
a
a1
*1*
*ln
2
1
CWa
N
n j
n
n
NN a
a1
*
*
1ln
2
1
CW
勾配=0
N
n j
n
n
NN a
a1
*
*
1ln
2
1
CW
対数尤度の勾配( 依存) *
Na
対数尤度の勾配( 依存) *
Na
*
11
*
111
*
1
TrTrln
n
NNN
n
NNNN
n
NN
aaa
WCW
CWCW
CW
(C.22)より
0
)(1)(**
*
,
*
nn
n
jin
Naa
aa
W
)(1)(,,)(1)( 11 NNN aaaadiag W
なので
)( nji
others
)(21)(1)()(1)(*****
* nnnnn
n
aaaaaa
対数尤度の勾配( 依存) *
Na
*
11
*
111
*
1
TrTrln
n
NNN
n
NNNN
n
NN
aaa
WCW
CWCW
CW
(C.22)より
)(21)(1)(***11
nnnnnNN aaa
CW
NNNNNNNN CWCIIWCCCW11111
)(21)(1)(***1
nnnnnNNN aaa
CWCI
N
n j
n
n
NN a
a1
*
*
1ln
2
1
CW
(6.92)
対数尤度の勾配( 依存) *
Na
N
n j
nnnnnnNNN
a
1
****1
2112
1
WWC
)(21)(1)(ln
***1
*
1
nnnnnNNN
n
NN
aaaa
CWCICW
より
j
NNNNN
j
NNNN
jj
N
*
***
σtCσt
CσtC
a
(6.84)
対数尤度の勾配( 依存) *
Na
j
NNN
N
n j
n
n
NN
j
NNN
a
a
*
1
*
*
**a
WCσ
Cσt
C
j
NNNNN
j
N
** a
WCσtC
(6.93)
j
NNNNN
j
N
j
N
*
**
aWCσt
Ca
対数尤度の勾配( 依存) *
Na
(6.93)’
**
NN
j
N
j
NNN σt
CaWCI
*1*
NN
j
NNN
j
N σtC
WCIa
n
NN
j
NNN
nj
N
j
na
*1**
σtC
WCIa
(6.94)’
パラメータ推定まとめ
• 最尤推定でカーネルのパラメータを計算する。
• 対数尤度のパラメータ の勾配を求める。
– に依存する項:(6.91)式
– に依存する項:(6.92)+(6.94)式
• この勾配から非線形最適化のアルゴリズムを用いてパラメータの値を決定する。
θ
NC
Na
疑問:具体的にどのように(6.91)と(6.92)を使い分けて最適化するのか?
ガウス過程による分類
黒線:ガウス過程で求まった決定面
緑線:最適な決定面 赤・青:それぞれのクラスの事後分布
黒線:ガウス過程で求まった決定面
6.4.7 ニューラルネットワークとの関係
• ニューラルネットによる識別問題(復習)
・・・
・・・ ・・・
xkt
閾値
)1(w
)2(w
ky
K
k
t
k
t
kkk yyp
1
1),(1),(),|( wxwxwxt (5.22)
6.4.7 ニューラルネットワークとの関係
• ベイズニューラルネット(復習)
),|()|( 1I0ww
Np (5.162)
事前分布を追加
予測分布を求める
wwwxtxt dDppDp )|(),|(),|( (5.168)
K
k
t
k
t
kkk yyp
1
1),(1),(),|( wxwxwxt (5.22)
6.4.7 ニューラルネットワークとの関係
• ベイズニューラルネットの中間層の数MがM→∞の極限において、ガウス過程に近づく。
–出力変数が独立になる。
• ベイズニューラルネットからカーネル関数を計算
–重みの事前分布を平均0のガウス分布とした場合、カーネル関数 は不変にならない。 ),( xx k