[dl輪読会]understanding deep learning requires rethinking generalization

Understanding Deep Learning Requires Rethinking

GeneralizationD3 Yusuke IWASAWA

1

書誌情報• ICLR2017 oral accepted

• Rating9.5 (1st!!!)• Chiyuan Zhang, Samy Bengio, Moritz Harbd, Benjamin Recht,

Oriol Vinyasls• MIT, Berkeley, Google Brain, DeepMind の混合• 1st author が Google Brain でインターンしてた時の研究• Harbd さん， Recht さんはそもそも汎化性能に関する研究をしている人っぽい

• 反省：輪読して質問が出やすい系の論文じゃないかもしれない( じっくり考えないとよくわからない )

2

Final Decisions:

3

RQ: 良い汎化性能を達成する理由は ?• 一般的な DL の問題設定：サンプル数 <<<< パラメタの数• しかし，汎化性能は◎• 一方で汎化性能の悪い NN を考えることも簡単• 汎化性能の「良い」 NN と「悪い」 NN を分けるのは何か？“ What is it then that distinguishes neural networks that

generalize well from those that don’t?”

4

汎化性能に関する従来指標1. 仮説集合 H の複雑さ

1. VC dimension [Vapnik, 1998]2. Rademacher complexity [Bartlett, 2003]

2. アルゴリズム A の安定性1. Uniform stability [Mukherjee et al., 2002]

Þ複雑なモデルの汎化性能の保証には正則化が必須である

5

本論文の◯✕◯ DL の汎化性能が従来の理論的枠組みで説明できないこと◯ DL が訓練データをすべて覚えているという実証結果◯ DL において正則化が汎化性能に必須でも最重要でもないこと◯ 2 層の MLP が特定条件化でデータを完全に記憶できること◯ SGD が暗黙的正則化として機能すること✕ DL がなぜ汎化性能が良いかの統一的理解✕ DL の汎化性能をどうすれば高められるかの提案

6

本発表の◯✕◯◯ DL の汎化性能が従来の理論的枠組みで説明できないこと◯◯ DL が訓練データをすべて覚えているという実証結果◯◯ DL において正則化が汎化性能に必須でも最重要でもないこと◯✕ 2 層の MLP が特定条件化でデータを完全に記憶できること◯△ SGD が暗黙的正則化として機能すること✕✕ DL がなぜ汎化性能が良いかの統一的理解✕✕ DL の汎化性能をどうすれば高められるかの提案

7

実験 1 ：無作為化テスト• 目的• どのくらいのパラメタを持つ NN が良いモデルなのか？

• 方法• 無作為化テスト• 出力ラベルをランダムに変更したデータで学習• （普通に考えるとランダム度合いを高めれば学習できないはず）

• 結果• 多くのモデルがランダムにしても 100% の精度で学習

8

実験 1 ：検証方法• 無作為化の方法• 1. ラベルをランダムに変更する• 2. 入力をランダムに変更する (Random ， Shuffle ， Gaussian)

• データセット• CIFAR10 と ImageNet

• モデル• Inception v3 、 Alxexnet 、 MLPs• 詳細は付録 A 参照

9

実験 1 ：結果（ CIFAR10 ）

いずれもerr=0%

10

実験 1 ：ランダム度合いの変更

ランダム強=> 収束遅

ランダム強=> 過学習

11

詳細設定・結果1. 学習率のスケジューリングは行っていない2. なんならハイパーパラメタも調整してない（ True と同じ）3. 適合し始めたらすぐ収束（ True よりは遅い）4. 完全に（過）学習5. 収束速度は

True < Shuffle Pixel < Gaussian = Rand Pixel < Rand Label6. ImageNet では top-1 が 95.20% 、 top-5 は 99.14%

• ※100 万枚、 1000 カテゴリ、全部ランダムなラベルでの結果12

実験 1 から得られた示唆• Radermacher complexity and VC-dimension• 仮説集合 H の複雑さの指標• ランダムなラベルに対する予測精度の上界の期待値• 今回の結果から Rademacher complexity は 1

=> 何の上界も抑えない（ DL は悪いモデルということになる）• Uniform stability• 訓練アルゴリズム A の安定性の指標• ランダムに 1 つ事例を変えたときに結果がどう変わるか• データの性質を考慮していない？

13

実験 2 ：正則化のオフ• 目的• DL における正則化の効果の確認

• 方法• 各モデルの正則化をオフにする1. データ拡張 (Data augmentation) 2. 重み減衰 (Weight decay)3. ドロップアウト (Dropout)

14

実験 2 ：正則化のオフ (CIFAR10)正則化無し

15

実験 2 ：正則化のオフ (ImageNet)

正則化無し

16

実験 2 ：結果詳細• ImageNet では正則化なくすと top-1 が 18% 低下• Top-1: 59.80%• Top-5: 80.38%

• ただし正則化なくても十分よい• vs. ランダム予測（ 0.1% in top-1 ）• vs. ILSCRC winner （ 83.6% in top-5 ）

• ちなみにデータ拡張の効果が最も大きい• データ拡張のみで top-1 は 72.95% まで向上

17

実験 3 ：暗黙的な正則化• 暗黙的な正則化• 副次的な効果として正則化的な効果を持つもの• 例 1 ：早期終了 [Yao et al., 2007; Lin et al.,2016]• 例 2 ：バッチ正規化 [Szegedy et al., 2015;He tet al., 2016]

• 明示的な正則化• 明示的に関数の複雑さを制限するもの• 例 1 ：ドロップアウト• 例 2 ：重み減衰

こちらの効果を検証

18

実験 3 ：早期終了

19

早期終了の効果低

実験 3 ：早期終了 + バッチ正規化

20

訓練はほぼおなじ

早期終了はほぼ効果なし

BN の効果も数 %

実験 1, 2, 3 で得られた示唆• モデル自体の複雑さでは DL の汎化性能を評価できない• DL はランダムな訓練データにも完全に適合する（実験 1 ）

• 正則化は汎化性能を改善するが決定的でも必須でもない• 実験 2: 明示的な正則化無しでも良い汎化性能• 実験 3: 早期終了やバッチ正規化の影響は軽微

結局何が DL の汎化性能を高めているのか？21

仮説： SGD の利用による暗黙的正則化• 5章に線形モデルでの説明が書いてある•ざっくりまとめると， SGD は暗黙的に正則化として機能する• フォーラム見ると議論あるのでそちらを参考にすると良いかも

22

仮説：学習の速さ

23

同じ著者の別論文

まとめ• 主張

• DL の汎化性能は従来の枠組みで説明できない• サポート

• DL はランダムな訓練データにもほぼ完璧にフィットする（データを完全に記憶している）

• DL において正則化は汎化性能を改善するが，正則化ゼロでも良い（モデル構造や学習方法などその他の部分に鍵がありそう）

• 含まれないこと• 良い汎化性能を達成する方法，達成するための将来課題

24

• H ：仮説集合

• h ：仮説

• σ ：ランダムなラベル

• としたときに最も適合する仮説 h の期待値

Rademacher complexity

25

VC 次元• 仮説集合に含まれる仮説が細部（ Shatter ）できる点の数• Shatter とは，任意の 2クラスに分類できること

•経験損失は VC 次元で抑えられる

26

Uniform Stability• 訓練アルゴリズム A の安定性の指標• ランダムに 1 つ事例を変えたときに結果がどう変わるか• データの性質を考慮していない？

27

関連研究• [Hardt 2016]• Uniform stability に基づく分析• => uniform stability はランダムなラベルと正しいラベルの結果を区別できない

• [Cybenko, 1989;Mhaskar, 1993] など• これらの研究は関数レベルの近似能力• => 有限サンプルの近似能力を検証

28

[dl輪読会]understanding deep learning requires rethinking generalization

Technology