incremental

59
Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey Optimization for Machine Learning 勉強会 中川研M1 山田直敬 Dimitri P. Bertsekas Chapter 4 1 12524日木曜日

Upload: naotaka-yamada

Post on 10-Jun-2015

440 views

Category:

Documents


0 download

DESCRIPTION

Optimization for Machine Learning Chapter4 のsummary 最適化におけるincremental methodを大規模機械学習に応用。その理論。収束性の証明は概略だけ話し、本文に譲りました。

TRANSCRIPT

Page 1: Incremental

Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization:A Survey

Optimization for Machine Learning 勉強会 中川研M1 山田直敬

Dimitri P. Bertsekas

Chapter 4

112年5月24日木曜日

Page 2: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

212年5月24日木曜日

Page 3: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

TODAY’S TOPIC

312年5月24日木曜日

Page 4: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

412年5月24日木曜日

Page 5: Incremental

Incremental Method

mがとても大きい場合、すべてのfi(x) を計算してから勾配を求めるのは高コスト

その代わりfi を一つずつ取り、その値を用いて少しずつ更新していく

全部足して計算するよりも性能が良くなる可能性がある。

ex.) loss func.

Additivecost Problem

512年5月24日木曜日

Page 6: Incremental

直観的な描像

fi の降下方向

f (x)

= F(x)

F の降下方向にノイズが乗ったものと解釈できる

F(x)

最適性の証明にもこの考え方を用いる

612年5月24日木曜日

Page 7: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

712年5月24日木曜日

Page 8: Incremental

f_i(x) = 二乗誤差

(a_i,b_i): given. 特徴ベクトルとラベルの組

xbar : given

Example 1.1: Least Squares and Inference

812年5月24日木曜日

Page 9: Incremental

Example 1.1: Least Squares and Inference

L1正則化

ニューラルネットワーク

最尤推定、EM

912年5月24日木曜日

Page 10: Incremental

Example 1.2: Dual Optimization in Separable Problems

DUALm

凸関数

導出は同著NONLINEAR本5.1.6節より

1012年5月24日木曜日

Page 11: Incremental

Example 4.3: Minimization of an Expected Value- Stochastic Programming

Hはxと確率変数w の関数

ただし、wはm通りの可能な値がある(m>>1)

このときHの期待値を最小化するようなxを求める

= π iH (x,wi )i=1

m

P(w = wi ) = π i i = 1,...,m

1112年5月24日木曜日

Page 12: Incremental

Example 4.3: Minimization of an Expected Value- Stochastic Programming

あるいは を独立なサンプルだと思うと、

wi

は の近似である

これもADDITIVE COST PROBLEMの一つ

E{H (x,w)}

1212年5月24日木曜日

Page 13: Incremental

Example 4.4:Problems with Many Constraints

十分大きなcを設定するのがポイント

制約の数が大きい場合、ペナルティ関数を用いることで無制約化する

1312年5月24日木曜日

Page 14: Incremental

Example 4.4:Problems with Many Constraints

十分大きなγを設定

x ∈ Xii=1

m closedset

{

1412年5月24日木曜日

Page 15: Incremental

Example 4.5: Distributed Incremental Optimization- Sensor Networks

fusioncenter

f1(xk )f2 (xk )

... ...

fi (xk )

fi (xk )i=1

m

同期させるため通信のオーバーヘッド大

f1(xk ) ... ...

同期を取らず、各センサの関数値を用いてXを決める

1512年5月24日木曜日

Page 16: Incremental

Example 4.6: Weber Problem in Loation Theory

(weighted) 1- meansとも解釈できる

x

1612年5月24日木曜日

Page 17: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

1712年5月24日木曜日

Page 18: Incremental

Incremental Gradient Methods

f_iが微分可能とする(凸性は必要なし)

歴史は長い。”back propagation” もこの形

ikの選び方は周期的に取るか、乱択によって決める

まんべんなく∇f_ikを評価するために、反復数はm回以上取る

に対して、

ik = (kmodm)+1

1812年5月24日木曜日

Page 19: Incremental

incremental vs. nonincremental

(a)反復しはじめ

incrementalは精細さには欠くが、とにかく進んでみる

nonincrementalよりも格段に早く前進

(b) 収束に近いとき

incrementalは収束困難

α_kを減少させて強制的に収束させる

収束率がsublinearで遅

α_k=定数だと振動

1912年5月24日木曜日

Page 20: Incremental

Incremental Gradient の収束メカニズム, は同周期では一定として、1周期反復させる。ik = (kmodm)+1 α k

incremental gradient の1周期はふつうのnonincremental gradient 1反復に対応する。つまり、

ノイズとして解釈ここで、

である。∇f がLipschitz連続であることを用いると、ek =O(α k )

が言える。 のようにstepsizeを減衰させると誤差の収束も保証α k =O(1 / k)

2012年5月24日木曜日

Page 21: Incremental

remark:incremental gradient method ≒ stochastic gradient descent

= π iH (x,wi )i=1

m

に対して

SGD

wk w( は のサンプル点)

incremental methodも, ikが確率1/mで一様にサンプルされていると解釈すればSGDとみなせる

2112年5月24日木曜日

Page 22: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

2212年5月24日木曜日

Page 23: Incremental

Incremental subgradient Methodsf が微分不可能だが、convexである場合

収束させるには step sizeを減少させる必要あり

収束レートはsublinear (遅い)

but, subgradientの場合、nonincremental 版でも収束率がsublinearなので、incrementalを使ったほうがお徳

~

∇ f (x)∈∂ f (x)

2312年5月24日木曜日

Page 24: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

2412年5月24日木曜日

Page 25: Incremental

Incremental proximal methodsproximal minimization algorithm [Rochafellar 76]

これのincremental版

xk+1 = argminx∈Xf (x)+ 1

2α k

x − xk2⎧

⎨⎩

⎫⎬⎭

2512年5月24日木曜日

Page 26: Incremental

Incremental proximal methods

嬉しいこと

cost関数 f によってはarg min が closed formで求められる( ex. f(x) = ||x - c||^2 )

その場合は安定なiterationの列{x_k} が得られる

cf.) (sub)gradientの場合はstep sizeによっては関数値が小さくならないことが起きてしまう

2612年5月24日木曜日

Page 27: Incremental

Incremental proximal methods

arg min が closed formで求められる関数 f は限られている。

求められない場合、各反復ごとに最適化問題を解くことになるので不便

しかし、

2712年5月24日木曜日

Page 28: Incremental

Incremental proximal methods

arg min が closed formで求められる関数 f は限られている。

求められない場合、各反復ごとに最適化問題を解くことになるので不便

しかし、

proximalで解けるものはproximalで解くそうでないものは(sub)gradientで更新

2812年5月24日木曜日

Page 29: Incremental

cost function decompositionproximalで解けるものはproximalで解くそうでないものは(sub)gradientで更新

proximalで解きやすい形 その他はsubgradient

2912年5月24日木曜日

Page 30: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

3012年5月24日木曜日

Page 31: Incremental

Incremental subgradient proximal methods

2段階の最適化を行う

このスキームで、元の最適化問題の十分な近似解が得られること、及びk ->∞では最適解が一致することの証明は来週 [予定]

に対して

3112年5月24日木曜日

Page 32: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

3212年5月24日木曜日

Page 33: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

3312年5月24日木曜日

Page 34: Incremental

4.5.1 Regularized Least Square

例えばL1正則化だと、

fi (x) =γm

x 1 ,hi (x) =12(ci'x − di )

2とおけば

ここで

CLOSED FORM

(SUB)GRADIENT DESCENT

3412年5月24日木曜日

Page 35: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

3512年5月24日木曜日

Page 36: Incremental

4.5.2 Iterated Projection Algorithmfeasibility problem

PROXIMAL

f (x) SUBGRADIENT

3612年5月24日木曜日

Page 37: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

NEXT WEEK’S TOPIC

3712年5月24日木曜日

Page 38: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

TODAY’S TOPIC

お話

3812年5月24日木曜日

Page 39: Incremental

結構ややこしいので、先にふつうのgradient methodにおける一般論を話します

目的関数は F(x) = ∑ f(x) として考えます

簡単のため x ∈ R^n で考えます

定数ステップサイズ、減衰ステップサイズに対してはFのLipshitz連続性を仮定すれば最適解に収束することを紹介

勾配に誤差が乗った場合の収束性を紹介

incremental methodが、誤差ありの勾配法と見做せることから、上記の一般論を利用して証明を行う

3912年5月24日木曜日

Page 40: Incremental

gradient methodが定数ステップサイズで収束する条件(Nonlinear本 prop.1.2.3)

{x_k}をgradient method で得られた系列とする。i.e.

F(x)がLipshitz連続

このとき gradient descentは次のαで局所最適解に収束する

xk+1 = xk +α kd k ,where∇F(xk )'dk < 0

∃L > 0,∀x, y∈n , ∇F(x)−∇F(y) ≤ L x − y

∃c1,c2,c1 ∇F(xk )

2≤ −∇F(xk )'dk , dk 2

≤ c2 ∇F(xk )2

ε ≤α ≤ c1(2 − ε )L

4012年5月24日木曜日

Page 41: Incremental

{x_k}をgradient method で得られた系列とする。i.e.

F(x)がLipshitz連続

減衰ステップサイズ

このとき gradient descentは最適値F*に収束する

gradient methodが減衰ステップサイズで収束する条件(Nonlinear本 prop.1.2.4)

xk+1 = xk +α kd k ,where∇F(xk )'dk < 0

∃L > 0,∀x, y∈n , ∇F(x)−∇F(y) ≤ L x − y

∃c1,c2,c1 ∇F(xk )

2≤ −∇F(xk )'dk , dk 2

≤ c2 ∇F(xk )2

α k → 0, α k

k=0

∑ = ∞

infx∈XF(x) = F*

4112年5月24日木曜日

Page 42: Incremental

gradientが正確に計算できず、エラー付きでしか得られない場合の更新式は次のようになる。

eが有界 すなわち ならば、収束先の値は となる。

eがstepsizeに比例する場合、すなわち のとき、 α->0で収束先はF*に一致する

gradientに誤差が乗っている場合の収束性について

gk = ∇F(xk )+ ek xk+1 = xk −α kgk

∀k, ek ≤ δ F* +O(δ )

ek ≤α kq

一般論おわり4212年5月24日木曜日

Page 43: Incremental

incremental method一周ぶんをgradientに誤差が乗ったものと解釈して収束性を評価する

(F : Lipshitz) & (||e|| ≦ αq )

(F : Lipshitz) & (||e^k|| ≦ α^k q ) & (α^k ->0) & ( ∑ α^k = ∞ )

ポイント

十分小さな定数ステップサイズαを用いるとO(α)-最適解に収束する

減衰ステップサイズで更新すればincremental methodを使っても元の最適解に収束する!

4312年5月24日木曜日

Page 44: Incremental

Incremental subgradient proximal methodsの収束性の評価

(sub)gradient methodの収束性は吟味できる(ことにしている)が、z_kの更新式はどう評価すればよいか?

に対して

ここから本題

4412年5月24日木曜日

Page 45: Incremental

Incremental subgradient proximal methodsの収束性の評価

ここから本題

zk = PX (xk −α k∇

f (zk ))

実は

すなわちproximal methodの更新式は、(sub)gradientのような形で表せて、subgradientの収束性の証明を流用できる。

と書きなおすことができる。

4512年5月24日木曜日

Page 46: Incremental

準備

指示関数のsubgradientはNormal cone

Projection Theorem

証明はホワイトボードに

proximal updateをgradient updateのように書きなおす

証明はNonlinear本p.704

証明はconvex本Example prop5.4.0

4612年5月24日木曜日

Page 47: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

4712年5月24日木曜日

Page 48: Incremental

incremental proximal subgradient method の収束性

に対して

2段階で更新

リプシッツ連続性と誤差ありの勾配法を思い出す

4812年5月24日木曜日

Page 49: Incremental

cyclic orderによる収束性評価 (定数ステップサイズ)

m^2

4912年5月24日木曜日

Page 50: Incremental

cyclic orderによる収束性評価 (定数ステップサイズ)

FをF*+O(ε)に収束させるためにはα=O(ε(mc)^-2) くらい小さくなければならない

すると必要な反復数はN=O(m^3 c^2/ ε^2)

さすがに多すぎる....

5012年5月24日木曜日

Page 51: Incremental

cyclic orderによる収束性評価 (減衰ステップサイズ)

αをゆっくり収束させてやれば一応最適解は求められる

5112年5月24日木曜日

Page 52: Incremental

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms

5212年5月24日木曜日

Page 53: Incremental

収束証明には下記の定理をうまく利用する

本文中ではWk=0の場合で用いられている

Zk > 定数 を仮定し、矛盾を導く という使い方がされている

5312年5月24日木曜日

Page 54: Incremental

randomized orderによる収束性評価 (定数ステップサイズ)

5412年5月24日木曜日

Page 55: Incremental

気持ちだけ...ここまではcyclic版と共通

条件付き期待値を取るとmartingaleっぽい形が現れる

5512年5月24日木曜日

Page 56: Incremental

randomized orderによる収束性評価 (定数ステップサイズ)

式(4.4.8)と(4.3.9)を見比べると、random版は期待値で評価するため1/mがかかっているのが全体に効いている

m^1

直観的には、

5612年5月24日木曜日

Page 57: Incremental

randomized orderによる収束性評価 (定数ステップサイズ)

先の例と同様に考えると、α=O(m^-1 c^-2)でε近似

そのために必要な反復数の期待値は (mc)^2/ε^2以下

一応嬉しいのだが、オーダーと期待値の比較はややナンセンス5712年5月24日木曜日

Page 58: Incremental

randomized orderによる収束性評価 (減衰ステップサイズ)

同様のことが成り立つ

5812年5月24日木曜日

Page 59: Incremental

参考文献

[Nonlinear本]: D.Bertsekas “Nonlinear Programming” Athena Scientific 1999

[convex本]: D.Bertsekas “Convex Optimization Theory” Athena Scientific 2009

D.Bertsekas and Tsisiklis “Gradient Convergence in Gradient Methods” 2000

5912年5月24日木曜日