prml復々習レーン#15 前回までのあらすじ

16
PRML復々習レーン#15 前回までのあらすじ 2013-11-09 Yoshihiko Suhara @sleepy_yoshi v.1.0

Upload: sleepyyoshi

Post on 28-May-2015

1.376 views

Category:

Documents


5 download

DESCRIPTION

PRML復々習レーン#15 前回までのあらすじ

TRANSCRIPT

Page 1: PRML復々習レーン#15 前回までのあらすじ

PRML復々習レーン#15 前回までのあらすじ

2013-11-09

Yoshihiko Suhara

@sleepy_yoshi

v.1.0

Page 2: PRML復々習レーン#15 前回までのあらすじ

前回のおさらい

• 復々習レーンの復習を10分程度でやります – 得られた結論にポイントを絞る – 「よーするに」な内容

• 好きなところをたくさん喋る • よくわからないところは誤魔化す • まちがってたら指摘してください

• 目的 – 前回の復習 – 不参加の方に流れを伝えるため – 自分自身の勉強のため

ポイントだよ

2

ポイント小僧の向きに意味はありません

ポイントだよ

Page 3: PRML復々習レーン#15 前回までのあらすじ

前回の範囲

• 9章 混合モデルとEM – 9.1 K-means クラスタリング

• 9.1.1 画像分割と画像圧縮

– 9.2 混合ガウス分布 (Mixture of Gaussians) • 9.2.1 最尤推定

• 9.2.2 混合ガウス分布のEMアルゴリズム

– 9.3 EMアルゴリズムのもう一つの解釈 • 9.3.1 混合ガウス分布再訪

• 9.3.2 K-means との関連

• 9.3.3 混合ベルヌーイ分布

• 9.3.4 ベイズ線形回帰に関するEMアルゴリズム

– 9.4 一般のEMアルゴリズム

3

前回の範囲

Page 4: PRML復々習レーン#15 前回までのあらすじ

9章 混合モデルとEM

4

Page 5: PRML復々習レーン#15 前回までのあらすじ

9 混合モデルとEM

観測変数と潜在変数の同時分布を定義することにより 単純な分布から複雑な分布を構成することが可能になる (混合モデル) その際,最尤推定に (一般的に) 利用されるのがEMアルゴリズム

• 混合ガウスの例 – 観測データはいずれかのガウス分布から生成されると仮定

ポイントだよ

5

Page 6: PRML復々習レーン#15 前回までのあらすじ

9.1 K-means クラスタリング

6

Page 7: PRML復々習レーン#15 前回までのあらすじ

9.1 K-means クラスタリング

収束するまで以下の2ステップを繰り返すクラスタリング手法 (1) データ点のクラスタへの再割り当て (Eステップに相当)

(2) クラスタ平均の再計算 (Mステップに相当)

• 以下の損失関数を最小化する割り当て𝑟𝑛𝑘 ∈ 0, 1 と,クラスタ平均𝝁𝑘を求めている

𝐽 = 𝑟𝑛𝑘 𝒙𝑛 − 𝝁𝑘 22

𝐾

𝑘=1

𝑁

𝑛=1

• 非凸であるため,大域的最適解の保証はないが,局所最適解への収束保証はあり (初期値によって解

が変わる)

ポイントだよ

7 #iteration

Page 8: PRML復々習レーン#15 前回までのあらすじ

9.1.1 画像分割と画像圧縮

各画素をデータ点とみなしてクラスタリングし, 同一クラスタに対して同じ色をアサインすることで

画像圧縮を実現できる

• 画素をRGBの3次元空間のデータ点と解釈して,K-meansクラスタリングを実行した例 – クラスタの平均値を利用して色を表現 – ベクトル量子化とも呼ばれる枠組み

ポイントだよ

8

Page 9: PRML復々習レーン#15 前回までのあらすじ

9.2混合ガウス分布 (Mixture of Gaussians)

9

※ どうでもいいがなぜこれだけ英訳つき? Gaussian Mixture Model (GMM) という呼び方の方が よく見かける気も…

Page 10: PRML復々習レーン#15 前回までのあらすじ

9.2 混合ガウス分布

ガウス分布の線形重ねあわせで混合ガウス分布を表現する 潜在変数を用意し,データを観測した際の負担率を計算する

• 𝑝 𝒙 = 𝑝 𝒛 𝑝 𝑥 𝒛𝒛 = 𝜋𝑘𝒩 𝒙 𝝁𝑘 , 𝚺𝑘𝐾𝑘=1

• ベイズの定理より潜在変数の事後確率は以下の形で計算できる

𝛾 𝑧𝑘𝑛 ≡ 𝑝 𝑧𝑘 = 1 𝒙𝑛 =𝑝 𝑧𝑘 = 1 𝑝 𝒙𝑛 𝑧𝑘 = 1

𝑝 𝑧𝑗 = 1 𝑝 𝒙𝑛 𝑧𝑗 = 1𝐾𝑗=1

=𝜋𝑘𝒩 𝒙𝑛 𝝁𝑘 , 𝚺𝑘

𝜋𝑗𝒩 𝒙𝑛 𝝁𝑗 , 𝚺𝑗𝐾𝑗=1

– ここで 𝛾(𝑧𝑘𝑛)を混合要素𝑘がデータ𝑛を「説明する」度合いを表す負担率と呼ぶ

ポイントだよ

10

Page 11: PRML復々習レーン#15 前回までのあらすじ

9.2.1 最尤推定

混合ガウス分布を最尤推定する…際の注意点

• 各データ点が独立に生成されたと仮定すると,対数尤度関数は以下のように表せる

ln 𝑝 𝑿 𝝅, 𝝁, 𝚺 = ln 𝜋𝑘𝒩 𝒙𝑛 𝝁𝑘 , 𝚺𝑘

𝐾

𝑘=1

𝑁

𝑛=1

• あるデータ点と等しい平均パラメータを持つガウス分布の尤度関数は以下の形になる

𝒩 𝒙𝑛 𝒙𝑛, 𝜎2𝐼 =

1

2𝜋 1/21

𝜎𝑗

• ここで𝜎𝑗 → 0 で尤度は無限に発散してしまう – ベイズ的アプローチやヒューリスティクスで避けられる

ポイントだよ

11

Page 12: PRML復々習レーン#15 前回までのあらすじ

9.2.2 混合ガウス分布のEMアルゴリズム

以下の2ステップを繰り返す (1) 現在のパラメータにおいて負担率を計算,

(2) 計算した負担率にしたがって新しいパラメータを計算

• Eステップ

– 𝛾 𝑧𝑛𝑘 =𝜋𝑘𝒩 𝑥𝑛 𝝁𝑘,𝚺𝑘 𝜋𝑗𝒩 𝑥𝑛 𝝁𝑗,𝚺𝑗𝐾𝑗=1

• Mステップ

– 𝝁𝑘new =

1

𝑁𝑘 𝛾 𝑧𝑛𝑘 𝒙𝑛𝑁𝑛=1

– 𝚺𝑘new =

1

𝑁𝑘 𝛾 𝑧𝑛𝑘 𝒙𝑛 − 𝝁𝑘

new 𝒙𝑛 − 𝝁𝑘new 𝑇𝑁

𝑛=1

– 𝜋𝑘new =

𝑁𝑘

𝑁

– ただし,𝑁𝑘 = 𝛾 𝑧𝑛𝑘𝑁𝑛=1

ポイントだよ

12

負担率に無視すれば,通常のガウス分布の最尤推定と 同じ形をしていることに注目

Page 13: PRML復々習レーン#15 前回までのあらすじ

9.3 EMアルゴリズムのもう一つの解釈

13

Page 14: PRML復々習レーン#15 前回までのあらすじ

9.3 EMアルゴリズムのもう一つの解釈

一般のEMアルゴリズムについて考える ※ 完全データ集合における対数尤度の最大化は

容易であるという仮定をおく

• 潜在変数を持つモデルの対数尤度を考える

– ln 𝑝 𝑿 𝜽 = ln 𝑃 𝑿, 𝒁 𝜽𝒛 – 総和が対数の中にあるため,計算が困難

• 指数型分布族を考えると log exp となる

• そこで 𝑿, 𝒁 という完全データ集合に対する対数尤度ln 𝑝 𝑿, 𝒁 𝜽を考え,Zに関する期待値を最大化する

– 𝒬 𝜽, 𝜽𝑜𝑙𝑑 = 𝑝 𝒁 𝑿, 𝜽𝑜𝑙𝑑 ln 𝑝 𝑿, 𝒁 𝜽𝒁

– 𝜽𝑛𝑒𝑤 = argmax𝜽 𝒬 𝜽, 𝜽𝑜𝑙𝑑

ポイントだよ

14

Page 15: PRML復々習レーン#15 前回までのあらすじ

9.3.1 混合ガウス分布再訪

完全データに対する対数尤度と 不完全データに対する対数尤度を見比べる

• 完全データ対数尤度

ln 𝑝 𝑿, 𝒁 𝝁, 𝚺, 𝝅 = 𝑧𝑛𝑘 ln 𝜋𝑘 + ln𝒩 𝒙𝑛 𝝁𝑘, 𝚺𝑘

𝐾

𝑘=1

𝑁

𝑛=1

• 不完全データ対数尤度 (完全データ対数尤度関数の期待値)

𝔼𝒁[ln 𝑝 𝑿, 𝒁 𝝁, 𝚺, 𝝅 ] = 𝛾 𝑧𝑛𝑘 ln 𝜋𝑘 + ln𝒩 𝒙𝑛 𝝁𝑘, 𝚺𝑘

𝐾

𝑘=1

𝑁

𝑛=1

ポイントだよ

15

𝜋

𝝁 𝚺 𝑧1 𝑧2 𝑧𝑛

𝒙1 𝒙2 𝒙𝑛

プレート表現 を展開

マルコフブランケットが観測されているので各𝑧𝑛は条件付き独立

演習9.5 事後分布のもとで{𝑧𝑛}が独立を示す

Page 16: PRML復々習レーン#15 前回までのあらすじ

つづく さぁ今日も一日 がんばるぞ

16