[dl輪読会]understanding deep learning requires rethinking generalization
TRANSCRIPT
Understanding Deep Learning Requires Rethinking
GeneralizationD3 Yusuke IWASAWA
1
書誌情報• ICLR2017 oral accepted
• Rating9.5 (1st!!!)• Chiyuan Zhang, Samy Bengio, Moritz Harbd, Benjamin Recht,
Oriol Vinyasls• MIT, Berkeley, Google Brain, DeepMind の混合• 1st author が Google Brain でインターンしてた時の研究• Harbd さん, Recht さんはそもそも汎化性能に関する研究をしている人っぽい
• 反省:輪読して質問が出やすい系の論文じゃないかもしれない( じっくり考えないとよくわからない )
2
Final Decisions:
3
RQ: 良い汎化性能を達成する理由は ?• 一般的な DL の問題設定:サンプル数 <<<< パラメタの数• しかし,汎化性能は◎• 一方で汎化性能の悪い NN を考えることも簡単• 汎化性能の「良い」 NN と「悪い」 NN を分けるのは何か?“ What is it then that distinguishes neural networks that
generalize well from those that don’t?”
4
汎化性能に関する従来指標1. 仮説集合 H の複雑さ
1. VC dimension [Vapnik, 1998]2. Rademacher complexity [Bartlett, 2003]
2. アルゴリズム A の安定性1. Uniform stability [Mukherjee et al., 2002]
Þ複雑なモデルの汎化性能の保証には正則化が必須である
5
本論文の◯✕◯ DL の汎化性能が従来の理論的枠組みで説明できないこと◯ DL が訓練データをすべて覚えているという実証結果◯ DL において正則化が汎化性能に必須でも最重要でもないこと◯ 2 層の MLP が特定条件化でデータを完全に記憶できること◯ SGD が暗黙的正則化として機能すること✕ DL がなぜ汎化性能が良いかの統一的理解✕ DL の汎化性能をどうすれば高められるかの提案
6
本発表の◯✕◯◯ DL の汎化性能が従来の理論的枠組みで説明できないこと◯◯ DL が訓練データをすべて覚えているという実証結果◯◯ DL において正則化が汎化性能に必須でも最重要でもないこと◯✕ 2 層の MLP が特定条件化でデータを完全に記憶できること◯△ SGD が暗黙的正則化として機能すること✕✕ DL がなぜ汎化性能が良いかの統一的理解✕✕ DL の汎化性能をどうすれば高められるかの提案
7
実験 1 :無作為化テスト• 目的• どのくらいのパラメタを持つ NN が良いモデルなのか?
• 方法• 無作為化テスト• 出力ラベルをランダムに変更したデータで学習• (普通に考えるとランダム度合いを高めれば学習できないはず)
• 結果• 多くのモデルがランダムにしても 100% の精度で学習
8
実験 1 :検証方法• 無作為化の方法• 1. ラベルをランダムに変更する• 2. 入力をランダムに変更する (Random , Shuffle , Gaussian)
• データセット• CIFAR10 と ImageNet
• モデル• Inception v3 、 Alxexnet 、 MLPs• 詳細は付録 A 参照
9
実験 1 :結果( CIFAR10 )
いずれもerr=0%
10
実験 1 :ランダム度合いの変更
ランダム強=> 収束遅
ランダム強=> 過学習
11
詳細設定・結果1. 学習率のスケジューリングは行っていない2. なんならハイパーパラメタも調整してない ( True と同じ)3. 適合し始めたらすぐ収束 ( True よりは遅い)4. 完全に(過)学習5. 収束速度は
True < Shuffle Pixel < Gaussian = Rand Pixel < Rand Label6. ImageNet では top-1 が 95.20% 、 top-5 は 99.14%
• ※100 万枚、 1000 カテゴリ、全部ランダムなラベルでの結果12
実験 1 から得られた示唆• Radermacher complexity and VC-dimension• 仮説集合 H の複雑さの指標• ランダムなラベルに対する予測精度の上界の期待値• 今回の結果から Rademacher complexity は 1
=> 何の上界も抑えない( DL は悪いモデルということになる)• Uniform stability• 訓練アルゴリズム A の安定性の指標• ランダムに 1 つ事例を変えたときに結果がどう変わるか• データの性質を考慮していない?
13
実験 2 :正則化のオフ• 目的• DL における正則化の効果の確認
• 方法• 各モデルの正則化をオフにする1. データ拡張 (Data augmentation) 2. 重み減衰 (Weight decay)3. ドロップアウト (Dropout)
14
実験 2 :正則化のオフ (CIFAR10)正則化無し
15
実験 2 :正則化のオフ (ImageNet)
正則化無し
16
実験 2 :結果詳細• ImageNet では正則化なくすと top-1 が 18% 低下• Top-1: 59.80%• Top-5: 80.38%
• ただし正則化なくても十分よい• vs. ランダム予測( 0.1% in top-1 )• vs. ILSCRC winner ( 83.6% in top-5 )
• ちなみにデータ拡張の効果が最も大きい• データ拡張のみで top-1 は 72.95% まで向上
17
実験 3 :暗黙的な正則化• 暗黙的な正則化• 副次的な効果として正則化的な効果を持つもの• 例 1 :早期終了 [Yao et al., 2007; Lin et al.,2016]• 例 2 :バッチ正規化 [Szegedy et al., 2015;He tet al., 2016]
• 明示的な正則化• 明示的に関数の複雑さを制限するもの• 例 1 :ドロップアウト• 例 2 :重み減衰
こちらの効果を検証
18
実験 3 :早期終了
19
早期終了の効果低
実験 3 :早期終了 + バッチ正規化
20
訓練はほぼおなじ
早期終了はほぼ効果なし
BN の効果も数 %
実験 1, 2, 3 で得られた示唆• モデル自体の複雑さでは DL の汎化性能を評価できない• DL はランダムな訓練データにも完全に適合する(実験 1 )
• 正則化は汎化性能を改善するが決定的でも必須でもない• 実験 2: 明示的な正則化無しでも良い汎化性能• 実験 3: 早期終了やバッチ正規化の影響は軽微
結局何が DL の汎化性能を高めているのか?21
仮説: SGD の利用による暗黙的正則化• 5章に線形モデルでの説明が書いてある•ざっくりまとめると, SGD は暗黙的に正則化として機能する• フォーラム見ると議論あるのでそちらを参考にすると良いかも
22
仮説:学習の速さ
23
同じ著者の別論文
まとめ• 主張
• DL の汎化性能は従来の枠組みで説明できない• サポート
• DL はランダムな訓練データにもほぼ完璧にフィットする(データを完全に記憶している)
• DL において正則化は汎化性能を改善するが,正則化ゼロでも良い(モデル構造や学習方法などその他の部分に鍵がありそう)
• 含まれないこと• 良い汎化性能を達成する方法,達成するための将来課題
24
• H :仮説集合
• h :仮説
• σ :ランダムなラベル
• としたときに最も適合する仮説 h の期待値
Rademacher complexity
25
VC 次元• 仮説集合に含まれる仮説が細部( Shatter )できる点の数• Shatter とは,任意の 2クラスに分類できること
•経験損失は VC 次元で抑えられる
26
Uniform Stability• 訓練アルゴリズム A の安定性の指標• ランダムに 1 つ事例を変えたときに結果がどう変わるか• データの性質を考慮していない?
27
関連研究• [Hardt 2016]• Uniform stability に基づく分析• => uniform stability はランダムなラベルと正しいラベルの結果を区別できない
• [Cybenko, 1989;Mhaskar, 1993] など• これらの研究は関数レベルの近似能力• => 有限サンプルの近似能力を検証
28