Download - Incremental

Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization:A Survey

Optimization for Machine Learning 勉強会中川研M1 山田直敬

Dimitri P. Bertsekas

Chapter 4

112年5月24日木曜日

Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction

4.1.1 Some Examples of Additive Cost Problems

4.1.2 Incremental Gradient Methods - Differentiable Problems

4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems

4.1.4 Incremental Proximal Methods

4.2 Incremental Subgradient-Proximal Methods

4.3 Convergence for Methods with Cyclic Order

4.4 Convergence for Methods with Randomized Order

4.5 Some Applications

4.5.1 Regularized Least Squares

4.5.2 Iterated Projection Algorithms













TODAY’S TOPIC


Incremental Method

mがとても大きい場合、すべてのfi(x) を計算してから勾配を求めるのは高コスト

その代わりfi を一つずつ取り、その値を用いて少しずつ更新していく

全部足して計算するよりも性能が良くなる可能性がある。

ex.) loss func.

Additivecost Problem


直観的な描像

fi の降下方向

f (x)

= F(x)

F の降下方向にノイズが乗ったものと解釈できる

F(x)

最適性の証明にもこの考え方を用いる


f_i(x) = 二乗誤差

(a_i,b_i): given. 特徴ベクトルとラベルの組

xbar : given

Example 1.1: Least Squares and Inference


Example 1.1: Least Squares and Inference

L1正則化

ニューラルネットワーク

最尤推定、EM


Example 1.2: Dual Optimization in Separable Problems

DUALm

凸関数

導出は同著NONLINEAR本5.1.6節より


Example 4.3: Minimization of an Expected Value- Stochastic Programming

Hはxと確率変数w の関数

ただし、wはm通りの可能な値がある(m>>1)

このときHの期待値を最小化するようなxを求める

= π iH (x,wi )i=1

m

∑

P(w = wi ) = π i i = 1,...,m


Example 4.3: Minimization of an Expected Value- Stochastic Programming

あるいはを独立なサンプルだと思うと、

wi

はの近似である

これもADDITIVE COST PROBLEMの一つ

E{H (x,w)}


Example 4.4:Problems with Many Constraints

十分大きなcを設定するのがポイント

制約の数が大きい場合、ペナルティ関数を用いることで無制約化する

例


Example 4.4:Problems with Many Constraints

十分大きなγを設定

x ∈ Xii=1

m closedset

{


Example 4.5: Distributed Incremental Optimization- Sensor Networks

fusioncenter

f1(xk )f2 (xk )

... ...

fi (xk )

fi (xk )i=1

m

∑

同期させるため通信のオーバーヘッド大

f1(xk ) ... ...

同期を取らず、各センサの関数値を用いてXを決める


Example 4.6: Weber Problem in Loation Theory

(weighted) 1- meansとも解釈できる

x


Incremental Gradient Methods

f_iが微分可能とする(凸性は必要なし)

歴史は長い。”back propagation” もこの形

ikの選び方は周期的に取るか、乱択によって決める

まんべんなく∇f_ikを評価するために、反復数はm回以上取る

に対して、

ik = (kmodm)+1


incremental vs. nonincremental

(a)反復しはじめ

incrementalは精細さには欠くが、とにかく進んでみる

nonincrementalよりも格段に早く前進

(b) 収束に近いとき

incrementalは収束困難

α_kを減少させて強制的に収束させる

収束率がsublinearで遅

α_k=定数だと振動


Incremental Gradient の収束メカニズム, は同周期では一定として、1周期反復させる。ik = (kmodm)+1 α k

incremental gradient の1周期はふつうのnonincremental gradient 1反復に対応する。つまり、

ノイズとして解釈ここで、

である。∇f がLipschitz連続であることを用いると、ek =O(α k )

が言える。のようにstepsizeを減衰させると誤差の収束も保証α k =O(1 / k)


remark:incremental gradient method ≒ stochastic gradient descent

= π iH (x,wi )i=1

m

∑

に対して

SGD

wk w( はのサンプル点)

incremental methodも, ikが確率1/mで一様にサンプルされていると解釈すればSGDとみなせる


Incremental subgradient Methodsf が微分不可能だが、convexである場合

収束させるには step sizeを減少させる必要あり

収束レートはsublinear (遅い)

but, subgradientの場合、nonincremental 版でも収束率がsublinearなので、incrementalを使ったほうがお徳

~

∇ f (x)∈∂ f (x)


Incremental proximal methodsproximal minimization algorithm [Rochafellar 76]

これのincremental版

xk+1 = argminx∈Xf (x)+ 1

2α k

x − xk2⎧

⎨⎩

⎫⎬⎭


Incremental proximal methods

嬉しいこと

cost関数 f によってはarg min が closed formで求められる( ex. f(x) = ||x - c||^2 )

その場合は安定なiterationの列{x_k} が得られる

cf.) (sub)gradientの場合はstep sizeによっては関数値が小さくならないことが起きてしまう



arg min が closed formで求められる関数 f は限られている。

求められない場合、各反復ごとに最適化問題を解くことになるので不便

しかし、



arg min が closed formで求められる関数 f は限られている。

求められない場合、各反復ごとに最適化問題を解くことになるので不便

しかし、

proximalで解けるものはproximalで解くそうでないものは(sub)gradientで更新


cost function decompositionproximalで解けるものはproximalで解くそうでないものは(sub)gradientで更新

proximalで解きやすい形その他はsubgradient


Incremental subgradient proximal methods

2段階の最適化を行う

このスキームで、元の最適化問題の十分な近似解が得られること、及びk ->∞では最適解が一致することの証明は来週 [予定]

に対して


4.5.1 Regularized Least Square

例えばL1正則化だと、

fi (x) =γm

x 1 ,hi (x) =12(ci'x − di )

2とおけば

ここで

CLOSED FORM

(SUB)GRADIENT DESCENT


4.5.2 Iterated Projection Algorithmfeasibility problem

≈

PROXIMAL

f (x) SUBGRADIENT













NEXT WEEK’S TOPIC













TODAＹ’S TOPIC

お話


結構ややこしいので、先にふつうのgradient methodにおける一般論を話します

目的関数は F(x) = ∑ f(x) として考えます

簡単のため x ∈ R^n で考えます

定数ステップサイズ、減衰ステップサイズに対してはFのLipshitz連続性を仮定すれば最適解に収束することを紹介

勾配に誤差が乗った場合の収束性を紹介

incremental methodが、誤差ありの勾配法と見做せることから、上記の一般論を利用して証明を行う


gradient methodが定数ステップサイズで収束する条件(Nonlinear本 prop.1.2.3)

{x_k}をgradient method で得られた系列とする。i.e.

F(x)がLipshitz連続

このとき gradient descentは次のαで局所最適解に収束する

xk+1 = xk +α kd k ,where∇F(xk )'dk < 0

∃L > 0,∀x, y∈n , ∇F(x)−∇F(y) ≤ L x − y

∃c1,c2,c1 ∇F(xk )

2≤ −∇F(xk )'dk , dk 2

≤ c2 ∇F(xk )2

ε ≤α ≤ c1(2 − ε )L


{x_k}をgradient method で得られた系列とする。i.e.

F(x)がLipshitz連続

減衰ステップサイズ

このとき gradient descentは最適値F*に収束する

gradient methodが減衰ステップサイズで収束する条件(Nonlinear本 prop.1.2.4)

xk+1 = xk +α kd k ,where∇F(xk )'dk < 0

∃L > 0,∀x, y∈n , ∇F(x)−∇F(y) ≤ L x − y

∃c1,c2,c1 ∇F(xk )

2≤ −∇F(xk )'dk , dk 2

≤ c2 ∇F(xk )2

α k → 0, α k

k=0

∞

∑ = ∞

infx∈XF(x) = F*


gradientが正確に計算できず、エラー付きでしか得られない場合の更新式は次のようになる。

eが有界すなわちならば、収束先の値はとなる。

eがstepsizeに比例する場合、すなわちのとき、 α->0で収束先はF*に一致する

gradientに誤差が乗っている場合の収束性について

gk = ∇F(xk )+ ek xk+1 = xk −α kgk

∀k, ek ≤ δ F* +O(δ )

ek ≤α kq

一般論おわり4212年5月24日木曜日

incremental method一周ぶんをgradientに誤差が乗ったものと解釈して収束性を評価する

(F : Lipshitz) & (||e|| ≦ αq )

(F : Lipshitz) & (||e^k|| ≦ α^k q ) & (α^k ->0) & ( ∑ α^k = ∞ )

ポイント

十分小さな定数ステップサイズαを用いるとO(α)-最適解に収束する

減衰ステップサイズで更新すればincremental methodを使っても元の最適解に収束する！


Incremental subgradient proximal methodsの収束性の評価

(sub)gradient methodの収束性は吟味できる(ことにしている)が、z_kの更新式はどう評価すればよいか？

に対して

ここから本題


Incremental subgradient proximal methodsの収束性の評価

ここから本題

zk = PX (xk −α k∇

f (zk ))

実は

すなわちproximal methodの更新式は、(sub)gradientのような形で表せて、subgradientの収束性の証明を流用できる。

は

と書きなおすことができる。


準備

指示関数のsubgradientはNormal cone

Projection Theorem

証明はホワイトボードに

proximal updateをgradient updateのように書きなおす

証明はNonlinear本p.704

証明はconvex本Example prop5.4.0


incremental proximal subgradient method の収束性

に対して

2段階で更新

リプシッツ連続性と誤差ありの勾配法を思い出す


cyclic orderによる収束性評価 (定数ステップサイズ)

m^2


cyclic orderによる収束性評価 (定数ステップサイズ)

FをF*+O(ε)に収束させるためにはα=O(ε(mc)^-2) くらい小さくなければならない

すると必要な反復数はN=O(m^3 c^2/ ε^2)

さすがに多すぎる....


cyclic orderによる収束性評価 (減衰ステップサイズ)

αをゆっくり収束させてやれば一応最適解は求められる


収束証明には下記の定理をうまく利用する

本文中ではWk=0の場合で用いられている

Zk > 定数を仮定し、矛盾を導くという使い方がされている


randomized orderによる収束性評価 (定数ステップサイズ)


気持ちだけ...ここまではcyclic版と共通

条件付き期待値を取るとmartingaleっぽい形が現れる



式(4.4.8)と(4.3.9)を見比べると、random版は期待値で評価するため1/mがかかっているのが全体に効いている

m^1

直観的には、



先の例と同様に考えると、α=O(m^-1 c^-2)でε近似

そのために必要な反復数の期待値は (mc)^2/ε^2以下

一応嬉しいのだが、オーダーと期待値の比較はややナンセンス5712年5月24日木曜日

randomized orderによる収束性評価 (減衰ステップサイズ)

同様のことが成り立つ


参考文献

[Nonlinear本]: D.Bertsekas “Nonlinear Programming” Athena Scientific 1999

[convex本]: D.Bertsekas “Convex Optimization Theory” Athena Scientific 2009

D.Bertsekas and Tsisiklis “Gradient Convergence in Gradient Methods” 2000


Download - Incremental

Top Related