論文輪読資料「why regularized auto-encoders learn sparse representation?」dl hacks

31
"Why regularized Auto-Encoders learn Sparse Representation?" @ DL Hacks paper reading session 2015/06/05 東東東東東東東東東東東東東 東東東東東東東東東 東東東東東 東東 東東 [email protected]

Upload: kurotakiweblab

Post on 21-Aug-2015

314 views

Category:

Technology


1 download

TRANSCRIPT

"Why regularized Auto-Encoders learn Sparse Representation?" @ DL Hacks paper reading session

2015/06/05

東京大学大学院工学系研究科技術経営戦略学専攻 松尾研究室

黒滝 紘生[email protected]

目次

3

1. Introduction

2. Auto-Encoders and Sparse Representation

3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)

4. Empirica Analysis and Observations

5. Conclusion

目次

4

1. Introduction

2. Auto-Encoders and Sparse Representation

3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)

4. Empirica Analysis and Observations

5. Conclusion

概要

・基本情報- Why regularized Auto-Encoders learn Sparse Representation?

- Devansh Arpit, Yingbo Zhou, Hung Ngo, Venu Govindaraju Department of Computer Science SUNY Buffalo

- http://arxiv.org/pdf/1505.05561.pdf

・論文の内容- AE で学習した素性が、なぜ sparse になるのか、形式的な分析をした。

- sparse になる十分条件を与え、既存の AE がそれを満たすことを示した。

- 正則化項と、活性化関数の、両方が関係していることがわかった。

- 分析に基づいて、より sparse になりやすい、新たな活性化関数を提案した。

5

筆者について

6 http://www.acsu.buffalo.edu/~devansha/

先行研究

・経験的 / 実験的に、 sparseness を得るための条件を示している研究はある

- Why does the unsupervised pretraning encourage moderate-sparseness? [Li, 2013]

- Zero-bias autoencoders and the benefits of co-adapting features [Memisevic, 2014] (ICLR)

- Rectified linear units improve restricted boltzmann machines [Nair, 2010] (ICML)

・しかし、形式的 (formally) に、なぜ Autoencoder が sparse な表現を得られるのかを分析した論文は、筆者の知る限り、見つかっていない。

・これは、目的関数が、非線形、非凸の場合の分析が難しいためであるが、筆者らはこれに挑戦している。

7

論文の構成

2. Auto-Encoders and Sparse Representation

2.1 Part I: What encourages sparsity during Auto-Encoder training?・ Auto-Encoder(AE) が、 Sparse な表現を学習する条件を、

定式化した

2.2 Part II: Do existing Auto-Encoders learn Sparse Representation?  ・既存の AE が、 2.1 の条件を満たすことを示した

3. Improving Bias Gradient of ReLU with Rectified Softplus (ReS)2.1 の分析を活かして、新しい活性化関数を提案した

4. Empirical Analysis and Observations2 と 3 の内容を、実験によって確かめた

8

目次

9

1. Introduction

2. Auto-Encoders and Sparse Representation

3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)

4. Empirica Analysis and Observations

5. Conclusion

Auto-Encoder の数式

10

隠れ層

再構成層

正則化なしの

AE の誤差関数

正則化有りの

AE の誤差関数

AE が Sparse な表現を学習する、とは ?

・得られた表現が sparse である= hidden unit の値が小さい= pre-activation (a) が小さく、活性化関数が負の極限でゼロなら OK

11

隠れ層の

活性化前

(pre-activation)

正則化有りの

AE の誤差関数

AE が Sparse な表現を学習するための条件 1/2

・得られた表現が sparse である= hidden unit の値が小さい= pre-activation (a) が小さく、活性化関数が負の極限でゼロなら OK

12

隠れ層の

活性化前

(pre-activation)

正則化有りの

AE の誤差関数

かつ

と が成り立つ。

ならば

AE が Sparse な表現を学習するための条件 2/2

・得られた表現が sparse である= hidden unit の値が小さい= pre-activation (a) が小さく、活性化関数が負の極限でゼロなら OK

13

隠れ層の

活性化前

(pre-activation)

正則化有りの

AE の誤差関数

かつ

と が成り立つ。

ならば

bias gradient が正 j は、隠れ層のユニット番号 データの平均がゼロ

pre-activation の平均は減少し続ける。 pre-activation の分散には上界がある。

以降、「どうやって bias gradient を正にするか」が焦点になる。

(    は、 λ を一定以上に上げると、効果が減るので、考えなくてよい。 )

"AE が Sparse な表現を学習するための条件 " の系

・この後の、 Auto-Encoder に対する証明では、前ページの定理を直接使わずに、こちらの系 (Corollary) の方を使う。

14

隠れ層の

活性化前

(pre-activation)

正則化有りの

AE の誤差関数

系 1. 活性化関数 S_e が単調増加、かつ、正則化項の形が

   ならば、前ページの条件が成り立つ。

系 2. 活性化関数 S_e が単調増加で凸、かつ、正則化項の形が

   ならば、前ページの条件が成り立つ。

と が成り立つ。

pre-activation の平均は減少し続ける。 pre-activation の分散には上界がある。

つまり

条件を満たす活性化関数

・ ReLU 、 Softplus 、前ページの系 1 や系 2 の「単調増加で凸関数」を満たす。・ Sigmoid は、一般には満たさない。

- しかし、 AE では、凸関数の部分しか使われない。結果として sparse になる- これは、 4 章の実験で示される。

・ Maxout 、 tanh は、満たさない。

15

系 1. 活性化関数 S_e が単調増加、かつ、正則化項の形が

   ならば、前ページの条件が成り立つ。

系 2. 活性化関数 S_e が単調増加で凸、かつ、正則化項の形が

   ならば、前ページの条件が成り立つ。

と が成り立つ。

pre-activation の平均は減少し続ける。 pre-activation の分散には上界がある。

つまり

条件を満たす活性化関数

・ ReLU 、 Softplus 、 Sigmoid のような、「単調増加で凸関数」かつ「負の無限大を取ると、ゼロになる」ような性質をもっている活性化関数を使うと、発火しないユニットがどんどん増えていく。 (de-activation が進む )

・「負の無限大でゼロ」の中でも、「ほとんどゼロ」より「完全にゼロ」の方が、性能が優れていることが、他の研究で明らかになっている。 (hard zero)

・上の 3 つの中では、 ReLU が hard zero を強制する性質をもっている。

・ hard zero が実際に効いていることは、 4 章の実験でも確認される。

16

条件を満たす活性化関数の性質

・ ReLU の場合- 系 1( 単調増加 ) と系 2( 単調増加 & 凸関数 ) の条件を満たす- 2 次微分をもたないので、系 2 の R 項の条件を満たさず、 sparsity が

下がる- hard zero を強制する

・ Softplus の場合- 系 1 と 2 を満たす- ただし、 hard zero を強制しない

・ sigmoid の場合- 系 1 を無条件で満たすが、系 2 は満たしていない- ただし、後述の実験によれば、 AE は sigmoid の凸関数の部分だけを

使っている- hard zero を強制しない

- Theorem1 の 2 番目が適用しにくい ( 割愛 )

17

既存の AE が条件を満たす証明

・系 1 と系 2 は、「活性化関数」と「正則化項」の組み合わせに関する条件・いま、「どの活性化関数を使えばよいか」はわかった・では、どの活性化関数 & 正則化項の組み合わせを使えばよいのか ?

18

系 1. 活性化関数 S_e が単調増加、かつ、正則化項の形が

   ならば、前ページの条件が成り立つ。

系 2. 活性化関数 S_e が単調増加で凸、かつ、正則化項の形が

   ならば、前ページの条件が成り立つ。

と が成り立つ。

pre-activation の平均は減少し続ける。 pre-activation の分散には上界がある。

つまり

既存の AE が条件を満たす証明

Denoising AE (DAE) → 系 2

Contractive AE (CAE) → 系 2

Merginalized Denoising AE (mDAE) → 系 2

Sparse AE (SAE) → 系 1

によって、条件を満たすことを示した。 ( 割愛 )

・ DAE は、そのままでは正則化項が分離されていない。2 次の Taylor 展開によって分離することで、解析できた。

・ SAE では、 ρ=0 を仮定したときについて示した。

19

目次

20

1. Introduction

2. Auto-Encoders and Sparse Representation

3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)

4. Empirica Analysis and Observations

5. Conclusion

新しい活性化関数、 Rectified Softplus (ReS)

・ Maxout と tanh は、 sparsity を保証しない。・ ReLU は、系 2 の場合に bias grad を持たないので、 sparsity が下がる。・ softplus と sigmoid は、 hard zero を作らない。

・そこで、筆者らは、新たな活性化関数として、Rectified Softplus(ReS) を提案した。

・ ReS は、

21

目次

22

1. Introduction

2. Auto-Encoders and Sparse Representation

3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)

4. Empirical Analysis and Observations

5. Conclusion

実験

・実験は、 MNIST と CIFAR-10 の全データで行われた。

・二乗和誤差と、 linear decoding を用いた。

・バイアス項はゼロで初期化した。

・各訓練データから、平均値を引いた。

23

実験 1 : AE における Sigmoid 関数の性質

AE における Sigmoid 関数が、・実際には、系 2 の条件 ( 単調増加の凸関数 ) を満たす・ sigmoid の linear な部分のみを使っている

ことを示すため、 ・ 系 2 の条件を満たしているユニットの数をカウントした。 ( 図はなし )

・値が 0.1 < h_j <= 0.9 の範囲になっている隠れユニットの % を計測した ( 下図 )

24

実験 2 : 正則化係数の影響、活性化関数の比較 1/2

・直感的には、正則化係数が高ければ、 pre-activation が減少する・しかし、 CAE/mDAE と、 ReLU の組み合わせでは、不安定・活性化関数の観点では、正則化項からの bias grad. がなく、誤差関数に頼って

いるからと考えられる

25

実験 2 : 正則化係数の影響、活性化関数の比較 2/2

・この推測を、平均と分散の直接計測で示した。・ ReLU で、 bias の grad. が低く、平均が高く保たれてしまっていると確認でき

26

実験 3 : AE の目的関数の、正則化係数への感度比較

・目的関数が、正則化係数の変化でどういう影響を受けるか・正則化係数の増加と共に、発火しているユニット数が減少してほしい (sparsity)・しかし、 CAE と mDAE では、正則化係数の増加に対して不安定 (ReLU 以外で

も )・目的関数の観点では、係数が non-linear に効いてくるから

27

実験 4 : True Sparsity(hard zero) の効果

・教師あり学習に、 True Sparsity が貢献するのかどうかを、実験した・単層 AE の教師無し学習の効力に注目するため、 fine-tune は行わなかった・ AE で得られた素性に、 SVM をかけて、 MNIST のラベリングで教師データと比較

1) CAE / mDAE について、 ReLU は Sigmoid / Softplus より誤差が大きい。これは、 true sparsity よりも、 bias grad. がない方が大きいと考えられる。

2) DAE / SAE で、 ReLU は Sigmoid / Softplus より誤差が小さい。これは、 true sparsity が効いているからと考えられる。

3) ReS は全体的に性能が良い。

28

目次

29

1. Introduction

2. Auto-Encoders and Sparse Representation

3. Improving Bias Gradient of ReLU with Recitifed Softplus (ReS)

4. Empirica Analysis and Observations

5. Conclusion

まとめ ( 論文の貢献 )

・ Autoencoder の理論面からの分析を行った。・新しい活性化関数 / 正則化が、 sparsity をもたらすか予測するための、新たな方法を作った。

・分析面  a) encode側の bias grad. が正になるような AE 正則化は、 sparsity をもたら

す  b) 活性化関数が、単調増加 / 凸関数 / 負の無限大で 0 だと、 sparsity をも

たらす  c) 既存の AE の正則化は、 sparsity の条件を満たす。  d) 新たな活性化関数 Rectified Softplus(ReS) を提案した。

・実験面  a) AE は、シグモイド関数の convex な部分のみを使っている  b) ReLU は、 CAE / mDAE と組み合わせると、 bias grad. が無いため、

sparsity に欠ける。  c) DAE / SAE は、 CAE / mDAE に比べて、 sparsity の正則化項係数への

感度が低い。  d) DAE は、 mDAE よりも sparsity が高い。 1 次と 2 次の効果を共に

捉えているから。30

参考文献

[Arpit 2015] Why Regularized Auto-Encoders learn Sparse Representation? Devansh Arpit, Yingbo Zhou, Hung Ngo, Venu Govindaraju. http://arxiv.org/abs/1505.05561

[Li, 2013] Unsupervised Pretraining Encourages Moderate-Sparseness. Jun Li, Wei Luo, Jian Yang, Xiaotong Yuan. http://arxiv.org/abs/1312.5813

[Memisevic, 2014] Zero-bias autoencoders and the benefits of co-adapting features. Kishore Konda, Roland Memisevic, David Krueger. http://arxiv.org/abs/1402.3337

[Nair, 2010] Rectified linear units improve restricted boltzmann machines. Vinod Nair, Geoffrey E. Hinton. ICML 2010.

31