特異モデルのベイズ学習における交換モンテカルロ法について

特異モデルのベイズ学習における

交換モンテカルロ法について

永田賢二　渡辺澄夫東京工業大学　知能システム科学専攻東京工業大学　精密工学研究所

発表概要背景

特異モデルベイズ学習 MCMC法

提案法交換モンテカルロ法ベイズ学習への適用

実験・考察まとめ

背景：特異モデル

ニューラルネットワーク混合正規分布ベイズネットワーク

これらのモデルは特異モデルと呼ばれ、パターン認識、システム制御、時系列予測などの応用に用いられている。

)())(exp()(

1)|(

0

wwnHXZ

Xwp nnn

dwwwnHXZ nn )())(exp()(0

背景：ベイズ学習)|( wxp

)(w

},,,{ 21 nn XXXX )(xq

dwXwpwxpXxp nn )|()|()|(

ベイズ事後分布：

規格化定数：

ベイズ予測分布：

解析的な計算が困難⇒期待値計算をMCMC法により計算

経験カルバック距離：

n

i i

in wXp

Xq

nwH

1 )|(

)(log

1)(

背景：MCMC法))(ˆexp()( wHwp ある確率分布　　　　　　　　　　　　

　　に従うサンプルを発生させるアルゴリズム

w

＜メトロポリス法＞

を採択確率　　で　　　を

採択確率　　　　　で　　　を採択

wwHwH )(ˆ)(ˆ

P1 w

))](ˆ)'(ˆexp([ wHwHP

)(ˆ)(ˆ wHwH P w)|( wwp

Kww ,,1 ～ )|( nXwp

dwXwpwxpwxpK

nK

kk )|()|()|(

1

1

)(log)()(ˆ wwnHwH n

w

背景：MCMC法)())(exp(

)(

1)|(

0

wwnHXZ

Xwp nnn ベイズ事後分布：

学習データ数：小学習データ数：大

学習データ数に応じて、ステップ幅を最適にする必要がある

背景：MCMC法)())(exp(

)(

1)|(

0

wwnHXZ

Xwp nnn ベイズ事後分布：

学習データ数：小学習データ数：大

特異モデルのベイズ事後分布＋

メトロポリス法•マルチカノニカル法•シミュレーテッド・テンパリング法•交換モンテカルロ法

＜拡張アンサンブル法＞

計算量が爆発

対策

目的

特異モデルのベイズ学習において、交換モンテカルロ法を適用することを提案

その有効性をいくつかの実験により検証

交換モンテカルロ法[Hukushima,96]以下の同時分布に従うサンプルを生成することを考える。

L

lllll wPtwP

1

)(; ))(ˆexp()( wHtwP ll

＜アルゴリズム＞1. それぞれの分布　　　　に対して、メトロポリス法によりそれぞれの分布からのサンプルを生成する。

2. 上記の操作に加え、数ステップごとに、状態　　　と　　　　を以下の確率　　　　　　　　　　　　　で交換する。

)(wPl

lw 1lw 11 ,;, llll ttwwP

)(ˆ)(ˆ)(,;,

))exp(,1min(,;,

1111

11

llllllll

llll

wHwHttttww

ttwwP

交換モンテカルロ法[Hukushima,96]＜メトロポリス法＞

＜交換モンテカルロ法＞

)(1 wP

)(2 wP

)(3 wP

)(4 wP

)(wP

ベイズ学習への適用)())(exp(

),(

1),|(

0

wwntHtXZ

tXwp nnn

0t 10 t 1t（事前分布）（事後分布）

緩和しやすい緩和しにくい

)()()(,;,

))exp(,1min(,;,

1111

11

lnlnllllll

llll

wHwHttnttww

ttwwP

実験条件①

)())(exp()(

1)(

0

wwnHnZ

wp ベイズ事後分布：

dxwxp

xqxqwH

)|(

)(log)()(

＜学習モデルの設定＞

d

j

jwwH1

2)()(

djww j ,,1:

)(w ：標準正規分布

学習データの出方について平均した場合を考える。

)1(loglog)1(log2

1)(log)( 0 OndnnZnF 確率的複雑さ：

（　　：確率的複雑さの理論値、　　：実験値）評価関数（誤差率）：0

0

f

ff 0f f

（　　　　）

実験条件②

＜メトロポリス法の条件＞•初期値：事前分布からのランダムサンプル•　

•　

)|( wwp ：　　　　　　　　　　　　　　の一様分布とし、　採択率が６割から８割になるように　　　　　　を設定

)],(),,([ tnDtnD),( tnD

初期値の影響をなくすため、サンプル系列の後半５０％を期待値計算に使用

32:},,{ 1 Ltt L lt Ll 2

0

（ otherwise）

　　　・交換の頻度は、メトロポリス法１ステップに対し１回　　　・交換を試行する状態の取り方

ステップ数が奇数ならステップ数が偶数なら )},(,),,(),,{(

)},(,),,(),,{(

31305432

32314321

wwwwww

wwwwww

1l

＜交換モンテカルロ法の条件＞

実験結果（サンプル系列の様子）

メトロポリス法交換モンテカルロ法

2,10000,10000 dnK

)())(exp()(

1)(

0

wwnHnZ

wp

実験結果（事後分布からのサンプル数と誤差率の関係）

log(事後分布からのサンプル数 )

誤差

率

2

100000

d

n


学習データ数：

パラメータの次元数：

実験結果（学習データ数と誤差率の関係）

誤差

率

log(学習データ数 )


2

8000

d

K事後分布からのサンプル数：


実験結果（パラメータの次元数と誤差率の関係）

誤差

率

パラメータの次元数


100000

8000

n

K事後分布からのサンプル数：

学習データ数：

まとめ特異モデルのベイズ学習に交換モンテカルロ法を適用することを提案した。

実験の結果、以下のことが明らかになった。メトロポリス法よりも少ないサンプル数で、事後分布を精度よく近似できる。

特に、その効果は、学習データ数が多いときや、パラメータの次元数が高いときに顕著に現れる。

今後の課題より複雑なモデルへの適用交換モンテカルロ法の予測精度の解明変分ベイズ学習との比較

1

1

1

1

1 0

10

10

0

10

20

0

10

0

0

)())(exp(

)())(exp())()(exp(

)(

)(

)(

)1(

)(

)(

)0(

)(

)0(

)1(

L

l nl

nlnll

L

l l

l

L

dwwwHnt

dwwwHntwHttn

tZ

tZ

tZ

Z

tZ

tZ

Z

tZ

Z

Z

追加資料：確率的複雑さの計算法

)(log)( 0nn XZXF 確率的複雑さ：

モデル選択やハイパーパラメータの決定の際の基準

dwwwntHtZ n )())(exp()(0

＜MCMC法による計算法＞

1)0(0 Z

)1,0( 1 Ltt

),|( ln tXwp

1

10 ),|())(exp()1(log)(

L

ll

nnl

n dwtXwpwHtnZXF

)( 1 lll ttt

追加資料（サンプル１系列での期待値計算の比較）


2

100000

d

n学習データ数：


log(パラメータのサンプル数 )

誤差

率

特異モデルのベイズ学習における 交換モンテカルロ法について

Documents

特異モデルのベイズ学習における交換モンテカルロ法について