3.3節 変分近似法(前半)
TRANSCRIPT
『トピックモデルによる潜在的意味解析』読書会 「3.3 変分近似法 (3.3.1~3.3.3)」
#トピ本 2015.7.7
by @tn1031
contents
• 変分法 [3.3.1]
• 変分ベイズ法 [3.3.2,3.3.3]
– まとめ
– 因子分解
– 重要ポイント
– アルゴリズムと疑似コード
– (補足)アルゴリズムの幾何的解釈
• まとめ
1
変分法
2
変分法
• 関数 を入力とする汎関数 の極値となる関数 を求めるための方法
⇒ 関数を関数で微分する方法
のとき
0)()]([ dxxfxfL
)cos(x
)sin(x
0)cos()]([0
dxxxfL
2)sin()]([0
dxxxfL
KL情報量の最適化に使う予定
L[ f (x)]f
のとき
汎関数の例)積分
(3.39)
3
変分法
• 関数 が関数 によって構成されている場合, と表記する
)(log)(),( xqxqqxf
(変分ベイズ法で頻繁に登場する関数)
0)(
),(
xq
qxf
f (x) q(x) f (x,q)
(3.40)
• 汎関数 の極値を与える は,以下の オイラー・ラグランジュ方程式(微分方程式)によって 与えられる
dxqxfxfL ),()]([ q
4
変分ベイズ法
5
変分ベイズ法まとめ
• 観測 に対して,潜在変数 ,パラメータ をすべて確率変数として,その確率分布を求める(事後確率でない!)
),|(log :1 nxp
d
qzq
zxpqzq
n
nn
n)()(
),|,,(log)()(
;1
;1:1
;1
)(qF
)(:1:1
)(:1:1:1
:1
)|,(logexp)()(
)|,(logexp)(
nzqnn
qnnn
zxppq
zxpzq
dzxp nn ),|,,(log ;1:1
)|(~izii xpx
)|(~ ii zMultiz
)|(~ kk p
)|(~ Dir
生成過程(今回扱うモデル)
n
K
izk
ix
潜在変数とパラメータの分布を交互に更新
z1:n },{
• を , について最大化 F(q) )(q q(z1:n )
x1:n
6 http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdfより
因子分解
• 解析的に解けない事後分布を,計算が可能な分布で近似する
• 変分ベイズ法で必要になるのは「分解可能である」という仮定のみ
),,|,,( :1:1 nn xzp
n
K
iz
k
ix
事後分布(解析的に解けない)
),|,,( :1
nzq
変分事後分布(解析的に解ける分布で近似)
ddppzpzxp
ppzpzxp
z k
k
i
ikii
k
k
i
ikii
)|()|()|(),|(
)|()|()|(),|(
分母の組み合わせがツライ
その1:共役性がある場合[3.3.2]
n
K
iz
k
ix
その2:共役性がない場合[3.3.3]
),,( :1 nzq
n
K
iz
k
ix
)|()|()(11
qqzqK
k
k
n
i
i
k
特定の確率分布を仮定しない
Dir
Dir
ディリクレ分布を仮定
確率分布を決め打ち
因子分解
(3.72)
(3.42)
K
k
k
n
i
i qqzq11
)()()(
7
変分ベイズ法の最重要ポイント
),|(log :1 nxp
dd
qqzq
zxpqqzq
n
nn
n)()()(
),|,,,(log)()()(
;1
;1:1
;1)],,([ :1 nzqF
)],,|,,(||),,([)],,([ :1:1:1:1 nnnn xzpzqKLzqF
変分事後分布(近似事後分布)を実際の事後分布にできるだけ近づけたい
),,( :1 nzq)],,|,,(||),,([minarg :1:1:1
),,( :1
nnnQzq
xzpzqKLn
ところが、式(3.43) は計算が困難な項 を含む ),,|,,( :1:1 nn xzp
)43.3(
対数周辺尤度について、KL情報量に関する関係を用いることで上の最適化問題は迂回可能
対数周辺尤度とKL情報量の満たす関係
変分下限 KL情報量
(3.46)
(3.47)
8
変分ベイズ法の最重要ポイント(続き)
),|(log :1 nxp対数周辺尤度 は,変分事後分布 と無関係 ),,( :1 nzq
変分下限最適化のイメージ
⇒ は の変化に影響されず一定 ),|(log :1 nxp ),,( :1 nzq
変分下限
最適化
),|(log :1 nxp
][qF
]||[ pqKL
),|(log :1 nxp
]||[ pqKL
][qF
得られる解 は, とのKL情報量を最小にする ),,( :1 nzq),|(log :1 nxp
9
(一定) (一定)
解きたい問題
結局、変分ベイズ法では以下の最適化問題を解くことになる
)],,([maxarg),,( :1),,(
:1
:1
nQzq
n zqFzqn
展開すると、
)],,([ :1 nzqF
nz n
nnn dd
zq
zxpqqzq
:1)(
),|,(log)()()(
:1
:1:1:1
)]|(||)([)]|(||)([1
pqKLpqKLK
k
k
式(3.52)と式(3.53)は,それぞれが変分ベイズ法の性質を説明している
• 式(3.52) ・・・ (特定の条件下で)最尤推定としてみなせる項
• 式(3.53) ・・・ 正則化項
)51.3(
)52.3(
)53.3(
10
式から見る変分ベイズ法の性質(1)
(3.52)について
nz n
nnn dd
zq
zxpqqzq
:1)(
),|,(log)()()(
:1
:1:1:1
nz n
nnn
zq
zxpzq
:1)(
),|,(log)(
:1
:1:1:1
一般的にイメージする連続分布
今考えている確率分布
【参考】EMアルゴリズム
)),(()|(log :1:1 nn zqFxp
nz nn
nnnn
xzq
zxpxzq
:1)ˆ,|(
)|,(log)ˆ,|(
:1:1
:1:1:1:1
として下限 を について交互に最大化する )),(( :1 nzqF ),( :1 nzq
• これを最大化する を求める手法はEMアルゴリズム ,),( izq
)52.3(
(3.54)
11
式から見る変分ベイズ法の性質(2)
(3.53)について
• この項は変分事後分布とそれぞれの事前分布のKL情報量
• 変分事後分布が事前分布から離れすぎることを防止
)]|(||)([)]|(||)([1
pqKLpqKLK
k
k
)53.3(
: の類似度(離れると値が増加) )|(),( pq)]|(||)([ pqKL k
)]|(||)([ pqKL : の類似度(離れると値が増加) )|(),( pq
変分事後分布(求めたい分布)
事前分布
(既知・データに依らない)
正則化の効果
ちなみに、
• データ数∞でMDL/BICと一致
))ˆ()ˆ(log(log)2
|ˆ|
2
|ˆ|(
ppN MDL,BIC:
12
アルゴリズムと疑似コード
• 変分事後分布の更新式は以下のようになる
• 実装上はこれらをひたすら更新することになる
• Step1:初期化
– ハイパーパラメータの初期化
– 潜在変数の初期化
• Step2:以下を繰り返す
– パラメータの更新(M-step)
– 潜在変数の更新(E-step)
)( kzq i
)|(log)(exp)|()( :1:1
:1
n
z
n zpzqpqn
)|(log)(exp)|()(1
k
n
i
iikk xpkzqpq
潜在変数の更新(E-step) パラメータの更新(M-step)
ddkzxpqq ii ),|,(log)()(exp
(3.61)
(3.67)
(3.71)
変分ベイズ法
13
アルゴリズム理解のための補足
(本の内容から外れます)
14
情報幾何
• ある構造をもつ空間の中で確率分布を解釈する
• 統計,情報理論など異分野の問題を統一的に解釈できる
• 幾何学は直感的理解を得られる可能性がある(なお実際は…)
情報幾何の分野では,確率分布(確率モデル)を点と空間で表現する
例) 正規分布
1 2
1
2
ここまで扱ってきたモデルの場合は,モデル空間は の軸で表現可能
1 2
1
2
),,( :1
1 nzq
z),,( :1 nzq
,,z
),,( :1
2 nzq
?),,( :1 nzq
n
i
K
k
ki qqzq1 1
)()()(
変分事後分布
最適なモデルに対応する座標はどこか? 15
点の間隔の大きさを表す量がKL情報量
情報幾何的世界観
• 情報幾何的に解釈すると,機械学習はデータをモデル空間(部分空間)に 射影した時のモデル空間上の座標を求める問題
• この考え方は変分ベイズ法だけでなく,EMアルゴリズムやアンサンブル学習など様々な学習アルゴリズムを説明することが可能
モデル
データ
結果
世の中
部分空間M
十分統計量
射影
16 https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより
情報幾何を用いた 変分ベイズアルゴリズムの解釈
直感的解釈
真の分布p
モデルM(e平坦)
S e射影
初期解
• 因子分解によってモデル空間が得られる
• KL情報量から目指す座標を特定
• E/M各Stepで1変数についての最適化を繰り返す
)()()(),,|,,( :1:1:1 qqzqxzp nnn
)],,|,,(||)()()([min :1:1
)()(
:1
)( nn
tt
n
t xzpqqzqKL
:モデルM(e平坦)
:e射影
• Step1:初期化
– ハイパーパラメータの初期化
– 潜在変数の初期化
• Step2:以下を繰り返す
– パラメータの更新(M-step)
– 潜在変数の更新(E-step)
変分ベイズ法
17
https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより
交互最適化の軌跡
まとめ
18
まとめ
• 解析的に計算不可能なモデルに対する近似解法 – 因子分解を利用して事後分布を解析可能な分布で近似
• MCMCのような確率的な手法とは異なる,決定論的なアルゴリズム – 目標とする対数周辺尤度は定数
– これの下限(変分下限)を最大化する
– 変分下限の最大化 = 変分事後分布と本来の事後分布のKL情報量の最小化
• EMアルゴリズムを内包する – パラメータの分布q(z),q(θ)が求まる
– q(θ)がデルタ関数のとき,EMアルゴリズムと一致する
• 過学習を防止する仕組みを有する – パラメータの事前分布と変分事後分布とのKL情報量が正則化項として機能する
19
参考
• トピックモデルによる統計的潜在意味解析
• パターン認識と機械学習(下)
• http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdf
• https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdf
• http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf
20