deep mixtures of factor analysers

13
Deep Mixtures of Factor Analysers [ICML 2012] Yichuan Tang, Ruslan Salakhutdinov, Geoffrey HintonUniversity of Toronto斎藤 淳哉 間違い等ありましたらご連絡ください junya【あっと】fugaga.info 論文紹介 2013/04/20

Upload: junya-saito

Post on 20-Jun-2015

8.250 views

Category:

Technology


1 download

DESCRIPTION

論文紹介

TRANSCRIPT

Page 1: Deep Mixtures of Factor Analysers

Deep Mixtures

of Factor Analysers [ICML 2012]

Yichuan Tang, Ruslan Salakhutdinov,

Geoffrey Hinton(University of Toronto)

斎藤 淳哉

間違い等ありましたらご連絡ください

junya【あっと】fugaga.info

論文紹介

2013/04/20

Page 2: Deep Mixtures of Factor Analysers

概要

PRMLで解説されている「Factor Analyzer(因子分析)」を

拡張した「Mixture of Factor Analyze(混合因子分析)」を

多層化した「Deep Mixtures of Factor Analyzer」の提案

Page 3: Deep Mixtures of Factor Analysers

因子分析の目的

2/16

次元削減 • 特徴ベクトルの次元が大きいことは一般的に非常にまずい

• 直感に反する訳のわからないことが起こったりする(次元の呪い) • 学習データも凄まじくたくさん必要になる

• 計算時間もかかる

• 統計学では、因子分析はデータ理解のためデータの中から共通因子を探り出す方法で

主成分分析が次元削減らしいけど、機械学習だと数式上の差しかない?

• まあどちらもできるけど、機械学習で扱うような高次元データの共通因子が

わかったところで、データ理解できるかというと無理な気が・・・

Page 4: Deep Mixtures of Factor Analysers

Factor Analyzer(FA, 因子分析) 概要

目的:次元削減

入力:ラベルなし特徴ベクトル集合 𝒙𝑛 𝑛=1𝑁

次元削減後の次元数𝑑

出力:高次元正規分布𝑝 𝒙 および

高次元正規分布𝑝 𝒙 と低次元正規分布𝑝 𝒛 の関係

入力 高次元正規分布𝑝 𝒙

𝑝 𝒛

𝒛

線形変換:𝒙 = 𝐖𝒛 + 𝝁

低次元正規分布𝑝 𝒛

(次元数𝑑 = 1)

𝑥1

𝑥2 𝑥2

𝑝 𝒙

𝑥1

FA

Page 5: Deep Mixtures of Factor Analysers

Factor Analyzer(FA, 因子分析) 詳細

4/16

𝝁

𝑾

𝒛 𝑾

𝑝 𝒙|𝒛

𝑥1

𝑥2

𝑝 𝒙

𝑝 𝒛

𝒛

低次元正規分布𝑝 𝒛

(次元数𝑑 = 1) 高次元正規分布𝑝 𝒙

𝑝 𝒛 = 𝒩 𝒛|𝟎, 𝐈 𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁,𝚿

※𝑝 𝒛 と𝑝 𝒙|𝒛 の定義から𝑝 𝒙 と𝑝 𝒛|𝒙 も正規分布

※EMアルゴリズムでパラメータ推定できる

𝐳:次元削減空間での特徴ベクトル(潜在変数) 𝐱:特徴ベクトル(観測変数) 𝚿:対角行列

モデル:観測可能な高次元正規分布𝑝 𝒙 は、潜在的な低次元正規分布𝑝 𝒛 から発生した特徴ベクトル𝒛 の線形変換𝐖𝒛 + 𝝁からなる

𝚿

Page 6: Deep Mixtures of Factor Analysers

参考) 確率的主成分分析

5/16

確率的主成分分析≒因子分析

𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁, 𝜎2𝐈

𝚿:対角行列

𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁,𝚿

相違点)

確率的主成分分析

因子分析

Page 7: Deep Mixtures of Factor Analysers

Mixtures of Factor Analyzer(MFA, 混合因子分析)

6/16

FAの混合版

𝑝 𝑐 = 𝜋𝑐 s. a. 𝜋𝑐 = 1

𝐶

𝑐=1

𝑝 𝒛|𝑐 = 𝑝 𝒛 = 𝒩 𝒛|𝟎, 𝐈 𝑝 𝒙|𝒛, 𝑐 = 𝒩 𝒙|𝐖𝑐𝒛 + 𝝁𝑐 , 𝚿𝑐

※EMアルゴリズムでパラメータ推定できる

入力 高次元混合正規分布𝑝 𝒙

𝑝 𝒛

𝒛

𝒙 = 𝐖1𝒛 + 𝝁1

低次元正規分布𝑝 𝒛

(次元数𝑑 = 1)

𝑥2

𝑥1

𝑥2

𝑥1

𝑝 𝒙

𝑝 𝒛

𝒛 𝑝 𝒛

𝒛

𝒙 = 𝐖2𝒛 + 𝝁2

𝒙 = 𝐖3𝒛 + 𝝁3

𝑐 = 1

𝑐 = 2

𝑐 = 3

MFA

Page 8: Deep Mixtures of Factor Analysers

MFAの課題

7/16

混合数𝐶または次元数𝑑を上げると過学習

多層化

→Deep Mixtures of Factor Analyzer

Page 9: Deep Mixtures of Factor Analysers

Deep Mixtures of Factor Analyzer(DMFA)

8/16

𝑥1

𝑥2

入力

𝑥1

𝑥2 𝑝 𝒙

《第1層》

《第2層》 𝑥1

𝑥2 𝑝 𝒙

MFA

高次元混合正規分布𝑝 𝒙

決定的にクラス割当

クラス内でMFA

𝒛 𝑝 𝒛

𝒛 𝑝 𝒛

𝒙 = 𝐖2𝒛 + 𝝁2

𝒙 = 𝐖1𝒛 + 𝝁1

決定的にクラス割当

クラス内でMFA

MFA

𝑐 = 1

𝑐 = 2

𝑠 = 8 𝑠 = 7 𝑠 = 6

𝑠 = 3

𝑠 = 5

𝑠 = 4

𝑠 = 2 𝑠 = 1

𝑠 = 9

Page 10: Deep Mixtures of Factor Analysers

Deep Mixtures of Factor Analyzer(DMFA)

• 実はDMFAはMFAと等価

• DMFAをMFAとして計算可(Shallow MFA)

• しかしDMFAとして学習すると過学習を

回避できるのでDMFAのほうが有利

9/16

Page 11: Deep Mixtures of Factor Analysers

実験1

10/16

対数尤度[nat]

学習データ:顔画像(D= 24×24)

MFA(学習データ c=20, d=D/2=288)

MFA(テストデータ c=20, d=D/2=288)

DMFA 2層 (学習データ c=5, d=50)

DMFA 2層 (テストデータ c=5, d=50)

Shallow MFA(学習データ c=5, d=50)

Shallow MFA(テストデータ c=5, d=50)

過学習

対数尤度による評価(値が大きいほどよい)

Page 12: Deep Mixtures of Factor Analysers

実験2

11/16

DMFA(2層) DMFA(3層)

d=D/2

C=20

d=50

C=5

d=30

C=3

高次元特徴ベクトル

に対して有効なRBM系の従来手法

学習データに

対する対数尤度

テストデータに

対する対数尤度

カラー画像

(D= 32×32×3 )

音声

(D=1353)

対数尤度による評価(値が大きいほどよい)

Page 13: Deep Mixtures of Factor Analysers

まとめ

• 混合因子分析を多層化したDMFAを提案

• 混合数または次元が大きいときに有効

12/16