学習アルゴリズムの...

学習アルゴリズムの⼤域収束性と帰納的バイアス

⼆反⽥篤史東京⼤学 / 理研AIP / JSTさきがけ

情報論的学習理論ワークショップ（IBIS2019）企画セッション「深層学習の理論」

2019年11⽉22⽇@ウインクあいち

c

発表概要深層学習に対する（確率的）勾配降下法の理論

近年の重要な進展• Over-parameterizationの役割•帰納的バイアス

理論的困難• ⾮凸最適化問題に対する⼤域的収束性• 最適化で得られる関数の汎化性能保証

1. 深層学習における最適化の研究課題

機械学習における最適化問題パラメータΘ，関数𝑓#:𝒳 → ℝ，データとパラメータの適合度（損失関数）𝑙(𝑦, 𝑓,(𝑥))．• ⼆乗損失 𝑙 𝑦, 𝑧 = 0.5 𝑦 − 𝑧 5

• ロジスティック損失 𝑙 𝑦, 𝑧 = log 1 + exp −𝑦𝑧

期待損失最⼩化真に解きたい問題．min#∈ℱ

𝔼 𝑙(𝑌, 𝑓#(𝑋)

経験損失最⼩化訓練データによる近似．

min#∈ℱ

1𝑛G

HIJ

K𝑙 𝑦H, 𝑓# 𝑥H + 𝜆𝑅(Θ)

4

深層ニューラルネット

𝑳-層ニューラルネットパラメータΘ = ΘO OIJP , ΘO ∈ ℝKQRS×KQ,⾮線形活性化関数𝜎 ℎ = max 0, ℎ , 𝜎 ℎ = J

JXYZ[(\]) .

ℎ^ = 𝑥,ℎO = 𝜎 ΘO_ℎO\J 𝑙 ∈ 0,… , 𝐿 ,𝑜 = 𝑓# 𝑥 = ℎP.

多層ニューラルネットは⾮線形関数▶⾮凸最適化問題

ΘJ

Θ5

Θc

𝑥J 𝑥5 𝑥c

ℎJJ ℎJ5 ℎJc ℎJd

ℎ5J ℎ55 ℎ5c ℎ5d

𝑜

例：三層ニューラルネット

⾮凸最適化問題⼀次の勾配法は基本的に停留点へ収束：∇#ℒ Θ∗ = 0.

凸最適化では”停留点＝⼤域的最適解”⾮凸最適化問題に対しての⼤域収束性保証は困難．

深層学習⾼次元ニューラルネットは⾮凸だが経験的に⼤域収束する．

最⼩解（⼤域的最適解）

最⼩解（⼤域的最適解）

極⼩解（局所解）

極⼤解（局所解）

凸関数⾮凸関数

Landscape解析損失関数の性質を解析（真の局所解の存在，⼤域最適解へのdescent pathの存在）⼆乗損失の場合• 𝑚 = 1，活性化関数がシグモイド

▶ 局所解の数が次元について指数的に増加．[Auer, Herbster, & Warmuth (1996)]

• ReLU，期待損失，教師・⽣徒ネットワークで同じ中間ノード数(6 ≤ 𝑚 ≤ 20)▶ 多数の局所解が存在．[Safran & O. Shamir (2018)]

• 𝑛 ≥ 𝑚 + 2𝑑 − 2, ReLU▶ 最適解へのdescent pathが存在しないデータが存在（⾮ゼロ測度）[ICLR submission (2019]

• Leaky ReLU，𝑚𝑑 ≥ 𝑛▶ 可微分点かつ局所解は誤差0を達成．[Soudry & Carmon (2016)]

• 𝑚 ≥ 𝑛，連続な活性化関数▶ 任意の初期点から誤差0 の解へのdescent pathが存在．[Venturi, Bandeira, & Bruna (2018)]

その他，出⼒層へのskip-connectionが真の局所解を解消する事を⽰す研究．平滑化ヒンジ [Liang, Sun, Lee, & Srikant (2018)]，交差エントロピー[Nguyen, Mukkamala, & Hein (2019)]．

Posit

ive

Neg

ativ

e

Landscape解析Landscape解析に基づく⼤域的収束性次の性質を満たせばstrictな鞍点を回避する⼿法は⼤域収束．1. 全ての局所解は最適2. 全ての鞍点はstrict

これらは⼆乗活性化関数に対して⽰されているが，（⼆乗損失の場合 [Soltanolkotabi, A. Javanmard, & J. Lee]，平滑凸損失の場合 [Du & Lee (2018)]）a. 対象の最適化法が限定的b. 収束率を出すには更なる仮定も必要c. ⼤域解の汎化性能も様々▶勾配法，確率的勾配降下法のより直接的な解析へ

該当⼿法ノイズ付き勾配法，負曲率⽅向の探索法

学習アルゴリズムの帰納的バイアス深層モデルでは多様な⼤域解⼤域解の汎化性能も様々収束先は学習の仕⽅に依存．• 層毎のノード数• パラメータ初期化スケール• モデルのスケール• 学習アルゴリズム

学習法が備える帰納的バイアス学習の条件により本質的に学習ダイナミクスと収束先が特徴付けられる．▶ 帰納的バイアスで深層モデルを汎化させている説（陰的な正則化）

9

左：訓練精度，右：予測精度[Luo, Xiong, Liu, & Sun (2019)]

最適化の重要な研究課題経験的事実• 学習アルゴリズムの⼤域的収束性• 得られたパラメータの優れた汎化性

これらの現象を説明する理論を構築したい深層学習における最適化の研究課題1. 学習アルゴリズムの⼤域的収束性と収束率2. 学習法依存の帰納的バイアスの解明

この⼆つの課題は⼀体となって解析される場合も多い．最近のアプローチ：ニューラルタンジェント，Wasserstein勾配流等

10

2. ⾼次元ニューラルネットに対する勾配法の⼤域的収束性と汎化性能解析

（帰納的バイアス：Kernel regime）

勾配法の⼤域的収束性2018–2019年，over-parameterizeされた深層ニューラルネットに対し勾配法の⼤域収束性が⽰された．

Over-parametrizeでニューラルタンジェントカーネル [Jacot, Gabriel, & Hongler (2019)] のregimeで収束する事が重要．(帰納的バイアス：NTK regime)

[Allen-Zhu, Li, & Song (2019)], [Du, Lee, Li, Wang, Zhai (2019)]

表：⼤域収束の条件⽐較（ [Zou & Gu (2019)]より引⽤）

[Zou & Gu (2019)]

DNNの結果

勾配降下法経験損失最⼩化：min

#ℒ Θ := J

K∑HIJK 𝑙 𝑦H, 𝑓# 𝑥H .

勾配降下法

勾配∇ℒ Θ(o) はℒを局所的な⼀次近似：ℒ Θ = ℒ Θ(o) + ∇ℒ Θ(o) _ Θ − Θ(o) + 𝑂 Θ − Θ(o) 5

5 .学習率が⼗分⼩さい時：

ℒ Θ(oXJ) ≤ ℒ Θ o −𝜂2 ∇ℒ Θ o

55≤ ℒ Θ(o) .

▶ 停留点で無ければ勾配降下法で⽬的関数を減少

𝜂 > 0 : 学習率（ステップサイズ），Θ(oXJ) = Θ(o) − 𝜂∇ℒ Θ(o) .

13

※ ReLUの場合はsemi-smoothnessを⽤いる．[Allen-Zhu, Li, & Song (2019)]

ニューラルタンジェントカーネルニューラルタンジェントカーネル（NTK）は微分∇#𝑓#が定めるカーネル．

NT： ∇#𝑓#: 𝑥 ∈ ℝs → ∇#𝑓# 𝑥 ∈ ℝts,NTK： 𝑘# 𝑥, 𝑥v = ∇#𝑓# 𝑥 _∇#𝑓# 𝑥v .

訓練データ 𝑥H HIJK 上のグラム⾏列：𝐾# = 𝑘# 𝑥H, 𝑥x H,xIJ

K.

簡単な計算から関数勾配： ∇yℒ 𝑓# = 𝜕{𝑙 𝑦H, 𝑓# 𝑥H HIJ

Kに対し，

∇ℒ Θ 55 =

1𝑛5 ∇yℒ 𝑓# _𝐾#∇yℒ 𝑓# .

[Jacot, Gabriel, & Hongler (2018)]

14

𝑘# 𝑥, 𝑥v =GOIJ

P𝑘#Q 𝑥, 𝑥

v

= ∑OIJP 𝜕|Q𝑓| 𝑥 _𝜕|Q𝑓| 𝑥v .

ニューラルタンジェントカーネル従って， 𝜆}HK 𝐾# > 0であれば⼤域解でない限り最適化が進む：

∇#ℒ Θ 55 =

1𝑛5∇yℒ 𝑓# _𝐾#∇yℒ 𝑓# ≥

𝜆}HK 𝐾#𝑛5

GHIJ

K

𝜕{𝑙 𝑦H, 𝑓# 𝑥H5

⼆乗損失の場合： ∇#ℒ Θ 55 ≥ 5~��

K� ℒ Θ

学習中の正定値性を担保するには？▶ 適切な設定下でのニューラルネットのOver-parameterization

[Jacot, Gabriel, & Hongler (2018)]

15

関数勾配ノルム▶⼤域的最適解でなければ⾮ゼロ

（パラメータ依存のPL-不等式）

NTKによる⼤域収束性の基本戦略NTKによる⼤域収束性を⽰す基本ステップ1. 初期点でのNTKの正定値性：𝐾#(�) ≽ 𝜆𝐼 ≻ 0,2. 最適化中NTKの変化が⼩さい： 𝐾#(�) ∼ 𝐾# � .

NTK regime：最適化中，上記性質が保たれる帰納的バイアスにある設定．

▶ NTK regimeでは勾配法は線形収束（指数収束）：ℒ Θ(oXJ) ≤ ℒ Θ o −

𝜂2∇#ℒ Θ o

55≤ 1 −

12𝑛𝜂𝜆}HK 𝐾#

(^) ℒ Θ(o)

16

線形収束性

※⼆乗損失の場合

NTK regimeの意味• 正定値カーネル𝑘:𝒳×𝒳 → ℝに付随するRKHSでの勾配降下法：RKHSでの勾配 𝑇�∇yℒ 𝑓 𝑋 = J

K∑HIJK 𝑘 𝑥H, 𝑋 ∇yℒ(𝑓)(𝑥H)により以下の更新

𝑓(oXJ) = 𝑓(o) − 𝜂𝑇�∇yℒ 𝑓(o) .

• ⼩さな学習率での勾配法 Θ(oXJ) = Θ(o) − 𝜂∇#ℒ Θo は次の関数更新を誘導：

𝑓#(��S) ≅ 𝑓#(�) − 𝜂𝑇��(�)∇yℒ 𝑓#(�) .

▶ NTK regimeでは初期カーネル 𝑘#(�) に付随するRKHSでの勾配法を近似．RKHSでの勾配法が帰納的バイアスで早期終了による汎化も期待される．

⼆層ニューラルネットNTK regimeへの切替は⼆層の場合が本質的で良く研究されている．パラメータ: ΘJ = 𝑏� �IJ

} , Θ5 = 𝑎� �IJ} 𝑏� ∈ ℝs, 𝑎� ∈ {−𝛼, 𝛼} ,

𝛼:初期化スケール,𝑓# 𝑥 =G

�IJ

}𝑎�𝜎 𝑏�_𝑥 .

𝑜

ℎJ ℎ5 ℎc

𝑥J 𝑥5 𝑥c

𝑎� �IJ}

𝑏� �IJ}

⼊⼒層パラメータについて⾮凸最適化で⼤域収束性の保証は⼀般に困難

適切な設定でのOver-parameterizationでNTK regimeになることを⽰す．[Du, Zhai, Poczos, & Singh (2019)]

18

𝑎�初期化時の制約

帰納的バイアス⼆層ニューラルネットでは以下の要因で帰納的バイアスが切り替わる：層の固定の仕⽅，パラメータの初期化スケール，モデルの出⼒スケール

• ⼊⼒層のみ学習• 𝛼 = 1/𝑚: Mean field regime [Chizat & Bach (2018)], [Mei, Montanari, & Nguyen (2018)]𝑚 → ∞ での帰納的バイアスはワッサースタイン勾配流 [Nitanda & Suzuki 2017]

• 𝛼 = 1/ 𝑚: NTK regime [Du, Zhai, Poczos, & Singh (2019)]

𝑚 → ∞ での帰納的バイアスは𝒌𝚯𝟏に付随するRKHSでの勾配法• 出⼒層のみ学習

ランダム特徴によるNTK regime帰納的バイアスは𝒌𝚯𝟐に付随するRKHSでの勾配法

• 両層を同時学習 [E, Ma, & Wu (2019)]

両層が定めるNTK regime，帰納的バイアスは𝒌𝚯𝟏 + 𝒌𝚯𝟐に付随するRKHSでの勾配法⼗分⼤きな𝑚に対し，𝛼が⼩さいと𝒌𝚯𝟐が⽀配的，𝛼が⼤きいと𝒌𝚯𝟏が⽀配的パラメータの初期化スケールで⽀配的層が切り替わる

収束解析（⼊⼒層の学習）⼆層NN:𝑓# 𝑥 = ∑�IJ} 𝑎�𝜎 𝑏�_𝑥 , 𝑎� ∼ 𝑈 − J

}, J}

. （𝑎�は学習中固定）

𝐻J£:= 𝔼¤ 𝜎v 𝑏¥𝑥H 𝜎v 𝑏¥𝑥x 𝑥H_𝑥x H,xIJK

= lim}→£

𝐾#S�.

定理 [Wu, Du, & Ward (2019)] 𝑥 5 = 1, 𝑦 = 𝑂 1 , 𝜆J:= 𝜆}HK 𝐻J£ > 0 とする．ハイパーパラメータを以下のように設定：

𝑚 = Ω𝑛§

𝜆Jd𝛿c, 𝜂 = Θ

1𝐻£ 5

, 𝑇 = ©𝑂𝐻£ 5𝜆J

log1𝜖 .

▶ 勾配法𝑇-反復で𝜖-誤差解を達成： ℒ Θ o ≤ 𝜖.

汎化誤差バウンドも導出可能 [Arora, Du, Hu, & Wang (2019)]：1 − 𝛿以上の確率で，

𝔼«,¬ 𝑙 𝑌, 𝑓# 𝑋 ≤2𝑦_ 𝐻£ \J𝑦

𝑛+ 𝑂

1𝑛log

𝑛𝜆J𝛿

, 𝑇 ≥ Ω1𝜂𝜆J

log𝑛𝛿

.

線形収束性

※但し，ハイパーパラメータは[Wu, Du, & Ward (2019)]と異なる．

[Du, Zhai, Poczos, & Singh (2019)]の改良版 ※ 𝔼¤は𝑏を初期化する分布による期待値．

収束解析（両層の学習）⼆層NN:𝑓# 𝑥 = ∑�IJ} 𝑎�𝜎 𝑏�_𝑥 , 𝑎� ∼ 𝑈 −𝛼, 𝛼 ,

勾配流：s# �

so= −∇ℒ Θ o .

𝐻£ ≔ 𝛼5𝐻J£ + 𝐻5£,𝐻J£:= 𝔼¤ 𝜎v 𝑏¥𝑥H 𝜎v 𝑏¥𝑥x 𝑥H_𝑥x H,xIJ

K = lim}→£

1𝛼5𝑚

𝐾#S�,

𝐻5£:= 𝔼¤ 𝜎 𝑏¥𝑥H 𝜎 𝑏¥𝑥x H,xIJK = lim

}→£

1𝑚𝐾#��

.

定理 [E, Ma, & Wu(2019)] 𝑥 5 = 1, 𝑦 = 𝑂 1 , 𝜆J:= 𝜆}HK 𝐻J£ > 0, 𝜆5:= 𝜆}HK 𝐻5£ > 0,

ノード数𝑚を次のように設定：𝑚 = Ω K¯

° ~S∧~� ² logK�

°.

▶ 勾配流で⽬的関数は指数的収束：ℒ Θ o ≤ exp −

𝑚𝑛𝛼5𝜆J + 𝜆5 𝑡 ℒ Θ ^ .

𝛼が⼤きいと⼊⼒層， 𝛼が⼩さいと出⼒層の学習が⽀配的となる．

（𝛼は固定値とする）

※両層の学習により𝑚が𝛼に⾮依存．

3. 識別問題での⼆層ニューラルネットの勾配降下法

研究概要識別問題に対する⼆層ニューラルネットの勾配降下法の収束解析

• 仮定NTによるデータの識別可能性(NTKの正定値性より弱い条件)• 結果

現実的なサイズ𝑚 ≪ 𝑛の2層NNに対し勾配法の⼤域収束性と汎化性を⽰す．Non over-parameterizationに対する収束保証．回帰での既存研究では𝑚 ≫ 𝑛であった (e.g., 𝑚 = Ω(𝑛§)).

下記プレプリントの改良結果を紹介．A. Nitanda & T. Suzuki. Refined Generalization Analysis of Gradient Descent for Over-parameterized Two-layer Neural Networks with Smooth Activations on Classification Problems. arXiv, 2019a.

23

2層NNによるロジスティック回帰• データ: 𝒳 ⊂ ℝs,𝒴 = {−1,1}, 𝒳×𝒴上の真の分布𝜈,

訓練データ 𝑥H, 𝑦H HIJK ∼ 𝜈K: i.i.d. サンプル．• モデル: 𝑓# 𝑥 = ∑�IJ} 𝑎�𝜎 𝑏�_𝑥 , 𝑎� ∈ −1,1 ,• 損失関数: 𝑙 𝑧, 𝑦 = log 1 + exp −𝑦𝑧 .

⼆値識別の⽬標は期待識別誤差 ℙ «,¬ ~» sgn(𝑓 𝑋 ) ≠ 𝑌 の最⼩化．ロジスティック回帰では以下の近似問題で代⽤．

ロジスティック回帰ロジスティック損失による経験損失最⼩化

min#S

ℒ Θ :=1𝑛G

HIJ

K𝑙 𝑦H, 𝑓# 𝑥H .

24

（⼊⼒層のみ学習）

回帰問題とNTKの正定値性⽬的関数の減少の条件：

∇yℒ 𝑓# _𝐾#∇yℒ 𝑓# > 0

• NTKのグラム⾏列の正定値性は関数勾配∇yℒ(𝑓#)の⽅向に必要．• ⼆乗損失では∇yℒ 𝑓# は任意の⽅向を向き得る:

∇yℒ 𝑓# = 𝑦H − 𝑓# 𝑥H HIJK .

▶ グラム⾏列の正定値性を課す理由．

25

𝑓#(𝑋JK)

𝑌JK𝑓#¾(𝑋JK) 𝐾#の正定値性で関数はラベルに勾配法で接近

（関数とラベルの位置関係に依らない）

𝑋JK = 𝑥H HIJK , 𝑌JK = 𝑦H HIJ

K

ロジスティック回帰とNTK⽬的関数の減少の条件：

∇yℒ 𝑓# _𝐾#∇yℒ 𝑓# > 0

ロジスティック回帰の関数勾配:

∇yℒ 𝑓# = −𝑦Hexp −𝑦H𝑓# 𝑥H

1 + exp −𝑦H𝑓# 𝑥H HIJ

K

.

▶ラベルが張る錐上での正定性で⼗分．

26

𝑓#(𝑋JK)

𝑌JK𝑓#¾(𝑋JK)

ロジスティック回帰1/(1 + exp −𝑓# 𝑋JK )による1[𝑌JK = 1]の回帰．即ち，ラベルが{−∞,∞}-値の回帰問題．▶関数とラベルの位置関係が不変NTKの正定値性は冗⻑

0,1 -値

NTによる識別可能性仮定 ∃𝜌 > 0, ∃𝑣:ℝs → 𝑣 ∈ ℝs | 𝑣 5 ≤ 1 s.t. ∀ 𝑥, 𝑦 ∈ supp 𝜈 ⊂ 𝒳×𝒴,

𝔼¤ 𝑦𝜕¤𝜎 𝑏_𝑥 _𝑣 𝑏 ≥ 𝜌.

• 無限次元(𝑚 = +∞) NTによる識別可能性．• NTKの正定値性より弱い条件．• ラベルが張る錐上の正定値を誘導：

𝑦_𝐻J£𝑦 ≥ 𝜌5 𝑦 55, (𝑦 = 𝛼H𝑦H HIJK , 𝛼H ≥ 0).

27

収束解析定理 [Nitanda & Suzuki (2019a)] supp 𝜈« ⊂ 𝑥 5 ≤ 1 , 𝜎 は𝐶5-級で 𝜎v £, 𝜎vv £ ≤ 1．NTの識別可能性を仮定．ハイパーパラメータを以下のいずれかに設定：(1) 𝑚 = Ω 𝜖\J , 𝑇 = Ω 𝜖\5 , 𝑛 = ÊΩ 𝜖\d ,(2) 𝑚 = ÊΘ 𝜖\c/5 , 𝑇 = ÊΘ 𝜖\J , 𝑛 = ÊΩ 𝜖\5 .この時，⾼確率で𝑇-反復以内𝜖-期待識別誤差を達成： ∃𝑡 ≤ 𝑇,

ℙ «,¬ ∼» 𝑌𝑓# � 𝑋 ≤ 0 ≤ 𝜖.

関連研究と異なりnon over-parameterizationでの⼤域収束・汎化保証．

28

Allen-Zhu, Li, & Liang (2019)

Cao & Gu (2019a)Cao & Gu (2019b)

Nitanda & Suzuki (2019a)

これらはDNNにも対応．

[Nitanda & Suzuki (2019a)]

4. カーネル法・Rich Regimes

RKHSでの確率的勾配降下法（SGD）出⼒層のみの学習はRKHS ℋ�での学習に対応し，多数の研究がある．𝐿5-ロジスティック回帰に対するSGD： 𝑔o ∈ ℋ�, 𝑥o, 𝑦o ∼ 𝜌,

𝑔oXJ = 1 − 𝜂o𝜆 𝑔o − 𝜂o𝜕{𝑙 𝑔o 𝑥o , 𝑦o 𝑘(𝑥o,⋅).

仮定（強低ノイズ条件）∃𝛿 ∈ 0,1/2 , for 𝑋 a.e. w.r.t. 𝜌𝒳，𝜌 𝑌 = 1 𝑋) − 0.5 > 𝛿.

定理 [Nitanda & Suzuki (2019b)] 適当な仮定の下，∃𝑇 , ∀𝑇 ≥ 𝑇 に対して𝔼 ℛ 𝑔¥XJ − ℛ∗ ≤ 2 exp −𝑂(𝜆5𝑇) log5

1 + 2𝛿1 − 2𝛿

• 同様の収束性はRandom Featureモデルでも成⽴ [Yashima, Nitanda, & Suzuki (2019)]

• 2層NNの両層の学習でも成⽴（ongoing work）

𝜌 𝑌 = 1 𝑥)

𝒳

0.5

1.0

𝑌 = −1 𝑌 = +1

𝛿𝛿

期待識別誤差の線形収束性

ℛ 𝑔 ≔ ℙ «,¬ ∼Ï 𝑌𝑔 𝑋 ≤ 0 ,ℛ∗ = minÐℛ 𝑔 .

[Nitanda & Suzuki (2019b)], [Yashima, Nitanda, & Suzuki (2019)]

Particle Gradient Descent⼆層NN:𝑓# 𝑥 = J

}∑�IJ} 𝜎 𝑏�_𝑥 (mean field regime, MFR), 初期化：𝑏�

(^) ∼ 𝜇^.

𝑓#(�) 𝑥 =1𝑚G

�IJ

}𝜎 𝑏�

(^)_𝑥 → 𝑓Ò� 𝑥 = 𝔼¤(�)∼Ò� 𝜎 𝑏(^)¥𝑥 .

パラメータΘ ^ = 𝑏�^

�IJ

}は分布𝜇^のサンプルの集まり．

勾配法によりΘ J = 𝑏�J

�IJ

}に更新され，背後にある分布も𝜇Jに更新される．

▶ (確率的)勾配法は暗に確率分布を最適化: minÒℒ(𝜇)．その更新即は？

▶ (Stochastic) Particle Gradient Descent

[Nitanda & Suzuki (2017)]

𝜇^

𝑏�(^)

𝜇J

𝑏�(J)

勾配法

𝑏�(J) = 𝑏�

(^) − 𝜂𝜕¤Óℒ Θ ^

(𝑚 → ∞)

輸送写像による確率測度最適化 [Nitanda & Suzuki (2017)]

𝜙(o) : 輸送写像

𝜇(o):確率分布𝑏~𝜇(o)

𝜇(oXJ): 更新された分布𝜙(o) 𝑏 ~𝜇 oXJ = 𝜙#

(o)𝜇(o)

ℝs上の輸送写像𝜙(o): ℝs → ℝsは分布を変形する．（即ち，変数変換で確率変数を𝜙(o) と合成し更新）

▶ 確率測度の最適化を輸送写像の最適化 ℒ 𝜙 = ℒ(𝜙#𝜇(^))に帰着．▶ 𝐿5s(𝜇 ^ )におけるフレシェ微分（関数勾配）∇Öℒ(𝜙 o )を⽤いた関数勾配法：

𝜙(oXJ) = 𝜙(o) − 𝜂𝑣o ∘ 𝜙 o ,𝜇(oXJ) = 𝑖𝑑 − 𝜂𝑣o #𝜇(o).

これはパラメータの勾配法に対応：𝑏�(oXJ) ∼ (𝑖𝑑 − 𝜂𝑣o)(𝑏�

o ). （𝑚 = ∞では厳密に⼀致）▶パラメータの勾配法は輸送写像の最適化による確率測度の最適化．SPGD法に対し輸送写像空間での局所解への収束𝑂(𝜖\5)も保証．

(∇Öℒ 𝜙 o = ∃𝑣o ∘ 𝜙 o )（付随する確率測度の更新即：SPGD）


ワッサースタイン勾配流勾配法は無限⼩の学習率の下では勾配流のダイナミクスに従う．

SPGD法のダイナミクスは？▶ワッサースタイン勾配流（W勾配流）に従う：

dd𝑡 𝜇o = −div −𝑣o𝜇o ,

dd𝑡 ℒ 𝜇o = − 𝑣o P� Ò�

5 .

• W勾配流の⼤域収束性は[Chizat & Bach (2018)]が証明．（即ち無限次元2-NNの勾配流）• [Nitanda & Suzuki (2017)] は収束率付きの局所収束性をSPGD（即ち離散ステップの確率的勾配降下法）に対して証明．更に改良版SPGDで有限パーティクルでの収束性も保証．

その他，ノイズ付きSGDは[Mei, Montanari, & Nguyen (2018)]が解析．


𝜇^ W勾配流 SPGD: 関数勾配法によるW勾配流の離散化


Active Regime • NTK regimeの要因：微⼩なパラメータ変化で関数を⼗分に動かせる(lazy training)．• 出⼒層固定の2層NNの場合：𝛼 = 1/𝑚を境界に切り替わる．（MFRはNTK regimeでない）• モデル𝛼𝑓 (𝛼 > 0)：𝛼が⼤きいとkernel regime．[Chizat & Bach (2019)]

𝛼が⼩さい場合active (adaptive)なregime．定理（Homogeneous linear modelの帰納バイアス）𝑤X,𝑤\ ∈ ℝs, 𝛼 > 0, 𝐿 ∈ ℕ,

𝑓Ý�,ÝR 𝑥 = 𝛼P 𝑤XP − 𝑤\P _𝑥.𝑤X(𝑡), 𝑤\(𝑡)を⼆乗損失に対する𝑤X,𝑤\の勾配流とし 𝛽ß 𝑡 = 𝛼P 𝑤XP(𝑡) − 𝑤\P(𝑡) .𝑛 ≪ 𝑑の時， 𝛽ß ∞ _𝑥H = 𝑦H, 𝑖 ∈ 1, … , 𝑛 , を満たし以下の特徴付けが成⽴：

limß→^

𝛽ß(∞) = 𝛽PS∗ , lim

ß→£𝛽ß(∞) = 𝛽P�

∗ ，

ここで𝛽PS∗ , 𝛽P�

∗ は𝛽_𝑥H = 𝑦H, 𝑖 ∈ 1, … , 𝑛 , の最⼩𝐿J, 𝐿5-ノルム解．▶𝛼 が⼩さい時，𝐿J-正則化が帰納的バイアス（active regime）

カーネル法はスパース解がある時，その性質を活かせない．

[Woodworth+ (2019)]

まとめ• ニューラルネットに対する勾配法の近年の研究を紹介．• ⼆層の場合の理論が現状本質的．• 種々の要因で帰納的バイアスの切り替えが起こる事を紹介．

NTK regime, Mean field regime, Active regime.

特にNTK regimeの理論を解説．

より最近の研究の流れ• NTK regimeの更なる研究（より詳細な解析，NTK regimeの妥当性）．• NTK以外のregimeの研究．

Mean field regimeとHomogeneous linear modelはその成功例．NTKより⾼次の帰納的バイアスの研究もされつつある（モデルの⼆次近似，ResNet）．

参考⽂献1章• P. Auer, M. Herbster, & MK. Warmuth. Exponentially many local minima for single neurons. NIPS, 1996.

• D. Soudry & Y. Carmon. No bad local minima: Data independent training error guarantees for multilayer neural networks. arXiv, 2016.

• D. Soudry & E. Hoffer. Exponentially vanishing sub-optimal local minima in multilayer neural networks. arXiv, 2017.

• M. Soltanolkotabi, A. Javanmard, & J. Lee. Theoretical insights into the optimization landscape of over-parameterized shallow neural networks. IEEE Transactions on Information Theory, 2018.

• I. Safran & O. Shamir. Spurious local minima are common in two-layer relu neural networks. ICML, 2018.

• S. Du & J. Lee. On the power of over-parametrization in neural networks with quadratic activation. ICML, 2018.

• L. Venturi, AS. Bandeira, & J. Bruna. Spurious valleys in two-layer neural network optimization landscapes. arXiv, 2018

• S. Liang, R. Sun, J. Lee, & R. Srikant. Adding One Neuron Can Eliminate All Bad Local Minima. NeurIPS, 2018.

• Anonymous. Bounds on Over-Parameterization for Guaranteed Existence of Descent Paths in Shallow ReLU Networks. ICLR submission, 2019.

• Q. Nguyen, MC. Mukkamala, & M. Hein. On the loss landscape of a class of deep neural networks with no bad local valleys. ICLR, 2019.

• L. Luo, Y. Xiong, Y. Liu, & X. Sun. Adaptive Gradient Methods with Dynamic Bound of Learning Rate. ICLR, 2019.

2-3章• A. Jacot, F. Gabriel, & C. Hongler. Neural tangent kernel: Convergence and generalization in neural networks. NeurIPS, 2018.

• S. Du, X. Zhai, B. Poczos, & A. Singh. Gradient descent provably optimizes over-parameterized neural networks. ICLR, 2019.

• Z. Allen-Zhu, Y. Li, & Z. Song. A Convergence Theory for Deep Learning via Over-Parameterization. ICML, 2019.

• S. Du, J. Lee, H. Li, L. Wang, X. Zhai. Gradient Descent Finds Global Minima of Deep Neural Networks. ICML, 2019.

• D. Zou & Q. Gu. An Improved Analysis of Training Over-parameterized Deep Neural Networks. NeurIPS, 2019.

36

参考⽂献• X. Wu, S. Du, & R. Ward. Global convergence of adaptive gradient methods for an over-parameterized neural network. arXiv, 2019.

• S. Arora, S. S. Du, W. Hu, & R. Wang. Fine-grained analysis of optimization and generalization for overparameterized two-layer neural networks. ICML, 2019.

• W. E, C. Ma, & L. Wu. A comparative analysis of the optimization and generalization property of two-layer neural network and random feature models under gradient descent dynamics. arXiv, 2019.

• A. Nitanda & T. Suzuki. Refined generalization analysis of gradient descent for over-parameterized two-layer neural networks with smooth activations on classification problems. arXiv, 2019a.

• Z. Allen-Zhu, Y. Li, & Y. Liang. Learning and generalization in overparameterized neural networks, going beyond two layers. NeurIPS, 2019.

• Y. Cao & Q. Gu. A generalization theory of gradient descent for learning over-parameterized deep relu networks. arXiv, 2019a.

• Y. Cao & Q. Gu. Generalization bounds of stochastic gradient descent for wide and deep neural networks. NeurIPS, 2019b.

4章• A. Nitanda & T. Suzuki. Stochastic Gradient Descent with Exponential Convergence Rates of Expected Classification Errors. AISTATS, 2019b.

• S. Yashima, A. Nitanda, & T. Suzuki. Exponential Convergence Rates of Classification Errors on Learning with SGD and Random Features. arXiv, 2019.

• A. Nitanda & T. Suzuki. Stochastic particle gradient descent for infinite ensembles. arXiv, 2017.

• L. Chizat & F. Bach. On the global convergence of gradient descent for over-parameterize models using optimal transport. NeurIPS, 2018.

• S. Mei, A. Montanari, & P-M. Nguyen. A mean field view of the landscape of two-layer neural networks. PNAS. 2018.

• L. Chizat & F. Bach. On Lazy Training in Differentiable Programming. NeurIPS, 2019.

• B. Woodworth, S. Gunasekar, P. Savarese, E. Moroshko, I. Golan, J. Lee, D. Soudry, & N. Srebro. Kernel and Rich Regimes in Overparametrized Models. arXiv, 2019.

37

学習アルゴリズムの...

Documents