特異モデルのベイズ学習における 交換モンテカルロ法について
DESCRIPTION
特異モデルのベイズ学習における 交換モンテカルロ法について. 永田賢二 渡辺澄夫 東京工業大学 知能システム科学専攻 東京工業大学 精密工学研究所. 発表概要. 背景 特異モデル ベイズ学習 MCMC 法 提案法 交換モンテカルロ法 ベイズ学習への適用 実験・考察 まとめ. 背景:特異モデル. ニューラルネットワーク. 混合正規分布. ベイズネットワーク. これらのモデルは特異モデルと呼ばれ、パターン認識、 システム制御、時系列予測などの応用に用いられている。. ベイズ事後分布:. 規格化定数:. ベイズ予測分布:. 背景:ベイズ学習. - PowerPoint PPT PresentationTRANSCRIPT
特異モデルのベイズ学習における
交換モンテカルロ法について
永田賢二 渡辺澄夫東京工業大学 知能システム科学専攻東京工業大学 精密工学研究所
発表概要背景
特異モデル ベイズ学習 MCMC法
提案法 交換モンテカルロ法 ベイズ学習への適用
実験・考察まとめ
背景:特異モデル
ニューラルネットワーク 混合正規分布 ベイズネットワーク
これらのモデルは特異モデルと呼ばれ、パターン認識、システム制御、時系列予測などの応用に用いられている。
)())(exp()(
1)|(
0
wwnHXZ
Xwp nnn
dwwwnHXZ nn )())(exp()(0
背景:ベイズ学習)|( wxp
)(w
},,,{ 21 nn XXXX )(xq
dwXwpwxpXxp nn )|()|()|(
ベイズ事後分布:
規格化定数:
ベイズ予測分布:
解析的な計算が困難⇒期待値計算をMCMC法により計算
経験カルバック距離:
n
i i
in wXp
Xq
nwH
1 )|(
)(log
1)(
背景:MCMC法))(ˆexp()( wHwp ある確率分布
に従うサンプルを発生させるアルゴリズム
w
<メトロポリス法>
を採択確率 で を
採択確率 で を採択
wwHwH )(ˆ)(ˆ
P1 w
))](ˆ)'(ˆexp([ wHwHP
)(ˆ)(ˆ wHwH P w)|( wwp
Kww ,,1 ~ )|( nXwp
dwXwpwxpwxpK
nK
kk )|()|()|(
1
1
)(log)()(ˆ wwnHwH n
w
背景:MCMC法)())(exp(
)(
1)|(
0
wwnHXZ
Xwp nnn ベイズ事後分布:
学習データ数:小 学習データ数:大
学習データ数に応じて、ステップ幅を最適にする必要がある
背景:MCMC法)())(exp(
)(
1)|(
0
wwnHXZ
Xwp nnn ベイズ事後分布:
学習データ数:小 学習データ数:大
特異モデルのベイズ事後分布+
メトロポリス法•マルチカノニカル法•シミュレーテッド・テンパリング法•交換モンテカルロ法
<拡張アンサンブル法>
計算量が爆発
対策
目的
特異モデルのベイズ学習において、交換モンテカルロ法を適用することを提案
その有効性をいくつかの実験により検証
交換モンテカルロ法[Hukushima,96]以下の同時分布に従うサンプルを生成することを考える。
L
lllll wPtwP
1
)(; ))(ˆexp()( wHtwP ll
<アルゴリズム>1. それぞれの分布 に対して、メトロポリス法によりそれぞれの分布からのサンプルを生成する。
2. 上記の操作に加え、数ステップごとに、状態 と を以下の確率 で交換する。
)(wPl
lw 1lw 11 ,;, llll ttwwP
)(ˆ)(ˆ)(,;,
))exp(,1min(,;,
1111
11
llllllll
llll
wHwHttttww
ttwwP
交換モンテカルロ法[Hukushima,96]<メトロポリス法>
<交換モンテカルロ法>
)(1 wP
)(2 wP
)(3 wP
)(4 wP
)(wP
ベイズ学習への適用)())(exp(
),(
1),|(
0
wwntHtXZ
tXwp nnn
0t 10 t 1t(事前分布) (事後分布)
緩和しやすい 緩和しにくい
)()()(,;,
))exp(,1min(,;,
1111
11
lnlnllllll
llll
wHwHttnttww
ttwwP
実験条件①
)())(exp()(
1)(
0
wwnHnZ
wp ベイズ事後分布:
dxwxp
xqxqwH
)|(
)(log)()(
<学習モデルの設定>
d
j
jwwH1
2)()(
djww j ,,1:
)(w :標準正規分布
学習データの出方について平均した場合を考える。
)1(loglog)1(log2
1)(log)( 0 OndnnZnF 確率的複雑さ:
( :確率的複雑さの理論値、 :実験値)評価関数(誤差率):0
0
f
ff 0f f
( )
実験条件②
<メトロポリス法の条件>•初期値:事前分布からのランダムサンプル•
•
)|( wwp : の一様分布とし、 採択率が6割から8割になるように を設定
)],(),,([ tnDtnD),( tnD
初期値の影響をなくすため、サンプル系列の後半50%を期待値計算に使用
32:},,{ 1 Ltt L lt Ll 2
0
( otherwise)
・交換の頻度は、メトロポリス法1ステップに対し1回 ・交換を試行する状態の取り方
ステップ数が奇数ならステップ数が偶数なら )},(,),,(),,{(
)},(,),,(),,{(
31305432
32314321
wwwwww
wwwwww
1l
<交換モンテカルロ法の条件>
実験結果(サンプル系列の様子)
メトロポリス法 交換モンテカルロ法
2,10000,10000 dnK
)())(exp()(
1)(
0
wwnHnZ
wp
実験結果(事後分布からのサンプル数と誤差率の関係)
log(事後分布からのサンプル数 )
誤差
率
2
100000
d
n
メトロポリス法 交換モンテカルロ法
学習データ数:
パラメータの次元数:
実験結果(学習データ数と誤差率の関係)
誤差
率
log(学習データ数 )
メトロポリス法 交換モンテカルロ法
2
8000
d
K事後分布からのサンプル数:
パラメータの次元数:
実験結果(パラメータの次元数と誤差率の関係)
誤差
率
パラメータの次元数
メトロポリス法 交換モンテカルロ法
100000
8000
n
K事後分布からのサンプル数:
学習データ数:
まとめ 特異モデルのベイズ学習に交換モンテカルロ法を適用することを提案した。
実験の結果、以下のことが明らかになった。 メトロポリス法よりも少ないサンプル数で、事後分布を精度よく近似できる。
特に、その効果は、学習データ数が多いときや、パラメータの次元数が高いときに顕著に現れる。
今後の課題 より複雑なモデルへの適用 交換モンテカルロ法の予測精度の解明 変分ベイズ学習との比較
1
1
1
1
1 0
10
10
0
10
20
0
10
0
0
)())(exp(
)())(exp())()(exp(
)(
)(
)(
)1(
)(
)(
)0(
)(
)0(
)1(
L
l nl
nlnll
L
l l
l
L
dwwwHnt
dwwwHntwHttn
tZ
tZ
tZ
Z
tZ
tZ
Z
tZ
Z
Z
追加資料:確率的複雑さの計算法
)(log)( 0nn XZXF 確率的複雑さ:
モデル選択やハイパーパラメータの決定の際の基準
dwwwntHtZ n )())(exp()(0
<MCMC法による計算法>
1)0(0 Z
)1,0( 1 Ltt
),|( ln tXwp
1
10 ),|())(exp()1(log)(
L
ll
nnl
n dwtXwpwHtnZXF
)( 1 lll ttt
追加資料(サンプル1系列での期待値計算の比較)
メトロポリス法 交換モンテカルロ法
2
100000
d
n学習データ数:
パラメータの次元数:
log(パラメータのサンプル数 )
誤差
率