prml chap.10 latter half

14
PRML 10近似推論法 10.3-10.7 なりひら 1

Upload: narihira-takuya

Post on 07-Jul-2015

1.030 views

Category:

Education


2 download

DESCRIPTION

一言まとめてきなもの かなり適当なので間違い指摘してください 2012/03/09 10.7を更新しました。

TRANSCRIPT

Page 1: PRML chap.10 latter half

PRML 10章 近似推論法 10.3-10.7

なりひら

1

Page 2: PRML chap.10 latter half

目次

• 10.3 変分線形回帰

• 10.4 指数分布族

• 10.5 局所変分推論法

• 10.6 変分ロジスティック回帰

• 10.7 EP法

2

Page 3: PRML chap.10 latter half

10.3 変分線形回帰

• 3.3 ベイズ線形回帰をさらにベイズ拡張

– 𝛼についても確率変数として推論にいれる 𝑝 𝑤, 𝑡, 𝛼 = 𝑝 𝑡 𝑤 𝑝 𝑤 𝛼 𝑝 𝛼

– 𝑝 𝑤, 𝛼 が積分困難なので、変分近似 𝑞 𝑤, 𝛼 = 𝑞 𝑤 𝑞 𝛼

–あとは、10.9式に当てはめゴリゴリ計算

–大事な性質 • 𝛼で周辺化された答えが求まる

• ln 𝑝(𝑡)の下限ℒ(𝑞)を最大化 モデルエビデンスの最大化の近似ともいえる 過学習しにくい

3

Page 4: PRML chap.10 latter half

10.4 指数分型布族

• 指数型分布族の混合分布の変分ベイズ推定 – 指数型分布族の周辺化は必ずしも指数型分布族にならない 変分近似により指数型分布族になる

– 変分ベイズのEMの導出 • 潜在変数を2つの考え方に分ける

– intensive var: 𝛉 データにより変化しない

– extensive var: 𝐙 データによりサイズが変わる

• E-step 十分統計量(2章)の期待値 E[𝐮(𝐱𝑛, 𝐳𝑛)]計算

• M-step パラメータの期待値E[𝛈𝑇]計算

4

Page 5: PRML chap.10 latter half

10.4.1 変分メッセージパッシング

• グラフィカルモデルと変分ベイズの関連

– 𝑝 𝐱 = 𝑝 𝐱𝑖 𝑝𝑎𝑖)𝑖

• ノードxiは潜在変数でも観測変数でも良い

• 𝑞 𝐱 = 𝑞𝑖(x𝑖)𝑖 変分推定の枠組みだ

• しかも、paiはマルコフブランケット(8章)を考えると効率的に計算できる

5

Page 6: PRML chap.10 latter half

10.5 局所的変分推論法

• 10.6への準備

– 𝐼 = ∫ 𝜎 𝑎 𝑝 𝑎 𝑑𝑎 の一つの因子𝜎(𝑎)が原因で積分が困難になる場合、

𝜎 𝑎 ≥ 𝑓 𝑎, 𝜉 となるような積分可能な下限を利用する

I ≥ ∫ 𝑓 𝑎, 𝜉 𝑝 𝑎 𝑑𝑎 = 𝐹(𝜉)

• 凸関数f(x)の下限関数(変分下限)の作り方 – 凸関数の下限は

𝑦 𝑥, 𝜂 = 𝜂𝑥 − 𝑔 𝜂 という形だとすると、

𝑓 𝑥 = max𝜂

{𝜂𝑥 − 𝑔(𝜂)}

とかける – 次式を解き、変分下限𝑦(𝑥, 𝜂)を得る

𝑔 𝜂 = max𝑥

{𝜂𝑥 − 𝑓 𝑥 }

6

Page 7: PRML chap.10 latter half

10.6 変分ロジスティック回帰

• 10.6.1 - 10.6.2 ベイズ推定

–局所変分近似で積分可能に変形

• 10.6.3 変分ベイズでハイパーパラメータの推論

–局所変分近似と大局変分近似をMIX!

7

Page 8: PRML chap.10 latter half

10.6.1 変分事後分布

• 本当は事後分布を求めたい

– 𝑝 𝑍 𝑋 =𝑝 𝑋 𝑍 𝑝(𝑍)

∫ 𝑝 𝑋|𝑍 𝑝(𝑍)𝑑𝑍

–分母の積分が困難

• 𝑝(𝑋|𝑍) がロジスティックシグモイドの積だから

• 変分下限p X Z ≥ ℎ(𝑋, 𝜉)を使う

• 𝑝 𝑍 𝑋 ≥ 𝑞 𝑍 =ℎ 𝑋,𝜉 𝑝(𝑍)

∫ ℎ 𝑋,𝜉 𝑝 𝑍 𝑑𝑍

8

Page 9: PRML chap.10 latter half

10.6.2 変分パラメータの最適化

• 周辺尤度の下限の最大化

– 10.169式

• 解き方は2通り

– EM(wを潜在変数として)

–解析的に解く(積分可能な形に変換するために下限をとったはずなのでできる)

9

Page 10: PRML chap.10 latter half

10.6.3 超パラメータの推論

• 10.172がすべて

–下限(大局変分近似)の下限(局所変分近似)の最大化

• 𝑤, 𝛼は従来通り10.9式を使う

• 𝜉は𝛼を積分消去すると10.6.2と同様になる

10

Page 11: PRML chap.10 latter half

2.4 指数型分布族 復習

• 指数型分布族

–次式で定義 (2.194) 𝑝 𝐱 𝛈 = ℎ 𝐱 𝑔 𝛈 exp(𝛈𝑇𝐮 𝐱 )

– 𝑔(𝛈)は正規化係数役割 (2.195) 𝑔 𝛈 ∫ ℎ 𝐱 exp 𝛈𝑇𝐮 𝐱 𝑑𝐱 = 1

–正規化係数の微分は十分統計量の期待値 (2.226)

−∇ ln 𝑔 𝛈 = E[𝐮(𝐱)]

11

Page 12: PRML chap.10 latter half

10.7 EP法

• KLダイバージェンスの最小化(変分ベイズとの違い) – 変分ベイズ: 𝐾𝐿(𝑞| 𝑝

pの局所的に欲近似する – EP: 𝐾𝐿(𝑝||𝑞)

pを全体的に近似。単峰性の分布の近似に向いている

• 近似 – 同時分布: 𝑝 D, 𝜃 = 𝑓𝑖(𝜃)𝑖

– 事後分布: 𝑝 𝜃 𝐷 =1

𝑝(𝐷) 𝑓𝑖(𝜃)𝑖

– 近似事後分布: 𝑞 𝜃 =1

𝑍 𝑓𝑖

(𝜃)𝑖

– 𝐾𝐿(𝑝(𝜃|𝐷)| 𝑞 𝜃 の最小化 • EP法ではfiごとに最適化するが、最適化の条件はすべての因子を考慮しているところがポイント

• 指数分布族の場合は十分統計量が一致すれば良い

12

Page 13: PRML chap.10 latter half

10.7.1 雑音データ問題

• データの生成モデル – 新のデータ: 𝑁(𝐱|𝛉, 𝐈) – 背景雑音:𝑁(𝐱|𝟎, 𝑎𝐈)

• 背景雑音が重みwで混じった混合分布

– 𝛉以外は既知。これの事後分布𝑝(𝛉|𝐷)を知るのが目的

• 近似 – 同時分布は指数関数的に要素数が増える混合ガウス分布(10.211)。intractable

– 事後分布をシングルガウシアンで近似(10.212) • 近似分布𝑓 𝑛(𝜃)は指数二次関数で良い(10.213)

– あとは205,206,207に代入して更新式を求め、繰り返すだけ

13

Page 14: PRML chap.10 latter half

10.7.2 グラフィカルモデルとEP法

• この節の目的は次を導くこと – 近似分布が完全分解近似であるときのEP法は積和アルゴリズムになる

• やるための式 – 注目する𝑍𝑗の周辺分布はKLの最小化に相当

• minq 𝐾𝐿(𝑝||𝑞) 𝑞𝑗∗ 𝐙𝑗 = ∫ 𝑝 𝐙 𝑑𝐙𝑖 = 𝑝(𝐙𝑗)𝑖≠𝑗

• 式(10.229)の𝑝 (𝐱)を使えば新しい𝑞∗(𝐱)が求まる – 𝑞𝑗

∗(𝐱𝑗) = 𝑝(𝐱𝑗) (10.230-233)であり、𝑞∗(𝐱) = 𝑞𝑗∗(𝐱𝑗)𝑗

• 完全分解近似とは – 分布(10.236)を変数ノードをすべて独立に扱うようにする完全に分解した近似(10.237)

14