3.3節変分近似法(前半)

『トピックモデルによる潜在的意味解析』読書会「3.3 変分近似法 (3.3.1～3.3.3)」

#トピ本 2015.7.7

by @tn1031

contents

• 変分法 [3.3.1]

• 変分ベイズ法 [3.3.2,3.3.3]

– まとめ

– 因子分解

– 重要ポイント

– アルゴリズムと疑似コード

– (補足)アルゴリズムの幾何的解釈

• まとめ

1

変分法

2

変分法

• 関数を入力とする汎関数の極値となる関数を求めるための方法

⇒ 関数を関数で微分する方法

のとき

0)()]([ dxxfxfL

)cos(x

)sin(x

0)cos()]([0

dxxxfL

2)sin()]([0

dxxxfL

KL情報量の最適化に使う予定

L[ f (x)]f

のとき

汎関数の例）積分

(3.39)

3

変分法

• 関数が関数によって構成されている場合，と表記する

)(log)(),( xqxqqxf

(変分ベイズ法で頻繁に登場する関数)

0)(

),(

xq

qxf

f (x) q(x) f (x,q)

(3.40)

• 汎関数の極値を与えるは，以下のオイラー・ラグランジュ方程式(微分方程式)によって与えられる

dxqxfxfL ),()]([ q

4

変分ベイズ法

5

変分ベイズ法まとめ

• 観測に対して，潜在変数，パラメータをすべて確率変数として，その確率分布を求める(事後確率でない！)

),|(log :1 nxp

d

qzq

zxpqzq

n

nn

n)()(

),|,,(log)()(

;1

;1:1

;1

)(qF

)(:1:1

)(:1:1:1

:1

)|,(logexp)()(

)|,(logexp)(

nzqnn

qnnn

zxppq

zxpzq

dzxp nn ),|,,(log ;1:1

)|(~izii xpx

)|(~ ii zMultiz

)|(~ kk p

)|(~ Dir

生成過程(今回扱うモデル)

n

K

izk

ix

潜在変数とパラメータの分布を交互に更新

z1:n },{

• を，について最大化 F(q) )(q q(z1:n )

x1:n

6 http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdfより

因子分解

• 解析的に解けない事後分布を，計算が可能な分布で近似する

• 変分ベイズ法で必要になるのは「分解可能である」という仮定のみ

),,|,,( :1:1 nn xzp

n

K

iz

k

ix

事後分布(解析的に解けない)

),|,,( :1

nzq

変分事後分布(解析的に解ける分布で近似)

ddppzpzxp

ppzpzxp

z k

k

i

ikii

k

k

i

ikii

)|()|()|(),|(

)|()|()|(),|(

分母の組み合わせがツライ

その1：共役性がある場合[3.3.2]

n

K

iz

k

ix

その2：共役性がない場合[3.3.3]

),,( :1 nzq

n

K

iz

k

ix

)|()|()(11

qqzqK

k

k

n

i

i

k

特定の確率分布を仮定しない

Dir

Dir

ディリクレ分布を仮定

確率分布を決め打ち

因子分解

(3.72)

(3.42)

K

k

k

n

i

i qqzq11

)()()(

7

変分ベイズ法の最重要ポイント

),|(log :1 nxp

dd

qqzq

zxpqqzq

n

nn

n)()()(

),|,,,(log)()()(

;1

;1:1

;1)],,([ :1 nzqF

)],,|,,(||),,([)],,([ :1:1:1:1 nnnn xzpzqKLzqF

変分事後分布(近似事後分布)を実際の事後分布にできるだけ近づけたい

),,( :1 nzq)],,|,,(||),,([minarg :1:1:1

),,( :1

nnnQzq

xzpzqKLn

ところが、式(3.43) は計算が困難な項を含む ),,|,,( :1:1 nn xzp

)43.3(

対数周辺尤度について、KL情報量に関する関係を用いることで上の最適化問題は迂回可能

対数周辺尤度とKL情報量の満たす関係

変分下限 KL情報量

(3.46)

(3.47)

8

変分ベイズ法の最重要ポイント(続き)

),|(log :1 nxp対数周辺尤度は，変分事後分布と無関係 ),,( :1 nzq

変分下限最適化のイメージ

⇒ はの変化に影響されず一定 ),|(log :1 nxp ),,( :1 nzq

変分下限

最適化

),|(log :1 nxp

][qF

]||[ pqKL

),|(log :1 nxp

]||[ pqKL

][qF

得られる解は，とのKL情報量を最小にする ),,( :1 nzq),|(log :1 nxp

9

(一定) (一定)

解きたい問題

結局、変分ベイズ法では以下の最適化問題を解くことになる

)],,([maxarg),,( :1),,(

:1

:1

nQzq

n zqFzqn

展開すると、

)],,([ :1 nzqF

nz n

nnn dd

zq

zxpqqzq

:1)(

),|,(log)()()(

:1

:1:1:1

)]|(||)([)]|(||)([1

pqKLpqKLK

k

k

式(3.52)と式(3.53)は，それぞれが変分ベイズ法の性質を説明している

• 式(3.52) ・・・ (特定の条件下で)最尤推定としてみなせる項

• 式(3.53) ・・・正則化項

)51.3(

)52.3(

)53.3(

10

式から見る変分ベイズ法の性質(1)

(3.52)について

nz n

nnn dd

zq

zxpqqzq

:1)(

),|,(log)()()(

:1

:1:1:1

nz n

nnn

zq

zxpzq

:1)(

),|,(log)(

:1

:1:1:1

一般的にイメージする連続分布

今考えている確率分布

【参考】EMアルゴリズム

)),(()|(log :1:1 nn zqFxp

nz nn

nnnn

xzq

zxpxzq

:1)ˆ,|(

)|,(log)ˆ,|(

:1:1

:1:1:1:1

として下限をについて交互に最大化する )),(( :1 nzqF ),( :1 nzq

• これを最大化するを求める手法はEMアルゴリズム ,),( izq

)52.3(

(3.54)

11

式から見る変分ベイズ法の性質(2)

(3.53)について

• この項は変分事後分布とそれぞれの事前分布のKL情報量

• 変分事後分布が事前分布から離れすぎることを防止

)]|(||)([)]|(||)([1

pqKLpqKLK

k

k

)53.3(

：の類似度(離れると値が増加) )|(),( pq)]|(||)([ pqKL k

)]|(||)([ pqKL ：の類似度(離れると値が増加) )|(),( pq

変分事後分布(求めたい分布)

事前分布

(既知・データに依らない)

正則化の効果

ちなみに、

• データ数∞でMDL/BICと一致

))ˆ()ˆ(log(log)2

|ˆ|

2

|ˆ|(

ppN MDL,BIC：

12

アルゴリズムと疑似コード

• 変分事後分布の更新式は以下のようになる

• 実装上はこれらをひたすら更新することになる

• Step1：初期化

– ハイパーパラメータの初期化

– 潜在変数の初期化

• Step2：以下を繰り返す

– パラメータの更新(M-step)

– 潜在変数の更新(E-step)

)( kzq i

)|(log)(exp)|()( :1:1

:1

n

z

n zpzqpqn

)|(log)(exp)|()(1

k

n

i

iikk xpkzqpq

潜在変数の更新(E-step) パラメータの更新(M-step)

ddkzxpqq ii ),|,(log)()(exp

(3.61)

(3.67)

(3.71)

変分ベイズ法

13

アルゴリズム理解のための補足

(本の内容から外れます)

14

情報幾何

• ある構造をもつ空間の中で確率分布を解釈する

• 統計，情報理論など異分野の問題を統一的に解釈できる

• 幾何学は直感的理解を得られる可能性がある(なお実際は…)

情報幾何の分野では，確率分布(確率モデル)を点と空間で表現する

例) 正規分布

1 2

1

2

ここまで扱ってきたモデルの場合は，モデル空間はの軸で表現可能

1 2

1

2

),,( :1

1 nzq

z),,( :1 nzq

,,z

),,( :1

2 nzq

?),,( :1 nzq

n

i

K

k

ki qqzq1 1

)()()(

変分事後分布

最適なモデルに対応する座標はどこか？ 15

点の間隔の大きさを表す量がKL情報量

情報幾何的世界観

• 情報幾何的に解釈すると，機械学習はデータをモデル空間(部分空間)に射影した時のモデル空間上の座標を求める問題

• この考え方は変分ベイズ法だけでなく，EMアルゴリズムやアンサンブル学習など様々な学習アルゴリズムを説明することが可能

モデル

データ

結果

世の中

部分空間M

十分統計量

射影

16 https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより

情報幾何を用いた変分ベイズアルゴリズムの解釈

直感的解釈

真の分布p

モデルM(e平坦)

S e射影

初期解

• 因子分解によってモデル空間が得られる

• KL情報量から目指す座標を特定

• E/M各Stepで1変数についての最適化を繰り返す

)()()(),,|,,( :1:1:1 qqzqxzp nnn

)],,|,,(||)()()([min :1:1

)()(

:1

)( nn

tt

n

t xzpqqzqKL

：モデルM(e平坦)

：e射影

• Step1：初期化

– ハイパーパラメータの初期化

– 潜在変数の初期化

• Step2：以下を繰り返す

– パラメータの更新(M-step)

– 潜在変数の更新(E-step)

変分ベイズ法

17

https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより

交互最適化の軌跡

まとめ

18

まとめ

• 解析的に計算不可能なモデルに対する近似解法 – 因子分解を利用して事後分布を解析可能な分布で近似

• MCMCのような確率的な手法とは異なる，決定論的なアルゴリズム – 目標とする対数周辺尤度は定数

– これの下限(変分下限)を最大化する

– 変分下限の最大化 = 変分事後分布と本来の事後分布のKL情報量の最小化

• EMアルゴリズムを内包する – パラメータの分布q(z)，q(θ)が求まる

– q(θ)がデルタ関数のとき，EMアルゴリズムと一致する

• 過学習を防止する仕組みを有する – パラメータの事前分布と変分事後分布とのKL情報量が正則化項として機能する

19

参考

• トピックモデルによる統計的潜在意味解析

• パターン認識と機械学習(下)

• http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdf

• https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdf

• http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf

20

3.3節 変分近似法(前半)

Documents

3.3節変分近似法(前半)