Download - Incremental
Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization:A Survey
Optimization for Machine Learning 勉強会 中川研M1 山田直敬
Dimitri P. Bertsekas
Chapter 4
112年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
212年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
TODAY’S TOPIC
312年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
412年5月24日木曜日
Incremental Method
mがとても大きい場合、すべてのfi(x) を計算してから勾配を求めるのは高コスト
その代わりfi を一つずつ取り、その値を用いて少しずつ更新していく
全部足して計算するよりも性能が良くなる可能性がある。
ex.) loss func.
Additivecost Problem
512年5月24日木曜日
直観的な描像
fi の降下方向
f (x)
= F(x)
F の降下方向にノイズが乗ったものと解釈できる
F(x)
最適性の証明にもこの考え方を用いる
612年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
712年5月24日木曜日
f_i(x) = 二乗誤差
(a_i,b_i): given. 特徴ベクトルとラベルの組
xbar : given
Example 1.1: Least Squares and Inference
812年5月24日木曜日
Example 1.1: Least Squares and Inference
L1正則化
ニューラルネットワーク
最尤推定、EM
912年5月24日木曜日
Example 1.2: Dual Optimization in Separable Problems
DUALm
凸関数
導出は同著NONLINEAR本5.1.6節より
1012年5月24日木曜日
Example 4.3: Minimization of an Expected Value- Stochastic Programming
Hはxと確率変数w の関数
ただし、wはm通りの可能な値がある(m>>1)
このときHの期待値を最小化するようなxを求める
= π iH (x,wi )i=1
m
∑
P(w = wi ) = π i i = 1,...,m
1112年5月24日木曜日
Example 4.3: Minimization of an Expected Value- Stochastic Programming
あるいは を独立なサンプルだと思うと、
wi
は の近似である
これもADDITIVE COST PROBLEMの一つ
E{H (x,w)}
1212年5月24日木曜日
Example 4.4:Problems with Many Constraints
十分大きなcを設定するのがポイント
制約の数が大きい場合、ペナルティ関数を用いることで無制約化する
例
1312年5月24日木曜日
Example 4.4:Problems with Many Constraints
十分大きなγを設定
x ∈ Xii=1
m closedset
{
1412年5月24日木曜日
Example 4.5: Distributed Incremental Optimization- Sensor Networks
fusioncenter
f1(xk )f2 (xk )
... ...
fi (xk )
fi (xk )i=1
m
∑
同期させるため通信のオーバーヘッド大
f1(xk ) ... ...
同期を取らず、各センサの関数値を用いてXを決める
1512年5月24日木曜日
Example 4.6: Weber Problem in Loation Theory
(weighted) 1- meansとも解釈できる
x
1612年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
1712年5月24日木曜日
Incremental Gradient Methods
f_iが微分可能とする(凸性は必要なし)
歴史は長い。”back propagation” もこの形
ikの選び方は周期的に取るか、乱択によって決める
まんべんなく∇f_ikを評価するために、反復数はm回以上取る
に対して、
ik = (kmodm)+1
1812年5月24日木曜日
incremental vs. nonincremental
(a)反復しはじめ
incrementalは精細さには欠くが、とにかく進んでみる
nonincrementalよりも格段に早く前進
(b) 収束に近いとき
incrementalは収束困難
α_kを減少させて強制的に収束させる
収束率がsublinearで遅
α_k=定数だと振動
1912年5月24日木曜日
Incremental Gradient の収束メカニズム, は同周期では一定として、1周期反復させる。ik = (kmodm)+1 α k
incremental gradient の1周期はふつうのnonincremental gradient 1反復に対応する。つまり、
ノイズとして解釈ここで、
である。∇f がLipschitz連続であることを用いると、ek =O(α k )
が言える。 のようにstepsizeを減衰させると誤差の収束も保証α k =O(1 / k)
2012年5月24日木曜日
remark:incremental gradient method ≒ stochastic gradient descent
= π iH (x,wi )i=1
m
∑
に対して
SGD
wk w( は のサンプル点)
incremental methodも, ikが確率1/mで一様にサンプルされていると解釈すればSGDとみなせる
2112年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
2212年5月24日木曜日
Incremental subgradient Methodsf が微分不可能だが、convexである場合
収束させるには step sizeを減少させる必要あり
収束レートはsublinear (遅い)
but, subgradientの場合、nonincremental 版でも収束率がsublinearなので、incrementalを使ったほうがお徳
~
∇ f (x)∈∂ f (x)
2312年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
2412年5月24日木曜日
Incremental proximal methodsproximal minimization algorithm [Rochafellar 76]
これのincremental版
xk+1 = argminx∈Xf (x)+ 1
2α k
x − xk2⎧
⎨⎩
⎫⎬⎭
2512年5月24日木曜日
Incremental proximal methods
嬉しいこと
cost関数 f によってはarg min が closed formで求められる( ex. f(x) = ||x - c||^2 )
その場合は安定なiterationの列{x_k} が得られる
cf.) (sub)gradientの場合はstep sizeによっては関数値が小さくならないことが起きてしまう
2612年5月24日木曜日
Incremental proximal methods
arg min が closed formで求められる関数 f は限られている。
求められない場合、各反復ごとに最適化問題を解くことになるので不便
しかし、
2712年5月24日木曜日
Incremental proximal methods
arg min が closed formで求められる関数 f は限られている。
求められない場合、各反復ごとに最適化問題を解くことになるので不便
しかし、
proximalで解けるものはproximalで解くそうでないものは(sub)gradientで更新
2812年5月24日木曜日
cost function decompositionproximalで解けるものはproximalで解くそうでないものは(sub)gradientで更新
proximalで解きやすい形 その他はsubgradient
2912年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
3012年5月24日木曜日
Incremental subgradient proximal methods
2段階の最適化を行う
このスキームで、元の最適化問題の十分な近似解が得られること、及びk ->∞では最適解が一致することの証明は来週 [予定]
に対して
3112年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
3212年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
3312年5月24日木曜日
4.5.1 Regularized Least Square
例えばL1正則化だと、
fi (x) =γm
x 1 ,hi (x) =12(ci'x − di )
2とおけば
ここで
CLOSED FORM
(SUB)GRADIENT DESCENT
3412年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
3512年5月24日木曜日
4.5.2 Iterated Projection Algorithmfeasibility problem
≈
PROXIMAL
f (x) SUBGRADIENT
3612年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
NEXT WEEK’S TOPIC
3712年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
TODAY’S TOPIC
お話
3812年5月24日木曜日
結構ややこしいので、先にふつうのgradient methodにおける一般論を話します
目的関数は F(x) = ∑ f(x) として考えます
簡単のため x ∈ R^n で考えます
定数ステップサイズ、減衰ステップサイズに対してはFのLipshitz連続性を仮定すれば最適解に収束することを紹介
勾配に誤差が乗った場合の収束性を紹介
incremental methodが、誤差ありの勾配法と見做せることから、上記の一般論を利用して証明を行う
3912年5月24日木曜日
gradient methodが定数ステップサイズで収束する条件(Nonlinear本 prop.1.2.3)
{x_k}をgradient method で得られた系列とする。i.e.
F(x)がLipshitz連続
このとき gradient descentは次のαで局所最適解に収束する
xk+1 = xk +α kd k ,where∇F(xk )'dk < 0
∃L > 0,∀x, y∈n , ∇F(x)−∇F(y) ≤ L x − y
∃c1,c2,c1 ∇F(xk )
2≤ −∇F(xk )'dk , dk 2
≤ c2 ∇F(xk )2
ε ≤α ≤ c1(2 − ε )L
4012年5月24日木曜日
{x_k}をgradient method で得られた系列とする。i.e.
F(x)がLipshitz連続
減衰ステップサイズ
このとき gradient descentは最適値F*に収束する
gradient methodが減衰ステップサイズで収束する条件(Nonlinear本 prop.1.2.4)
xk+1 = xk +α kd k ,where∇F(xk )'dk < 0
∃L > 0,∀x, y∈n , ∇F(x)−∇F(y) ≤ L x − y
∃c1,c2,c1 ∇F(xk )
2≤ −∇F(xk )'dk , dk 2
≤ c2 ∇F(xk )2
α k → 0, α k
k=0
∞
∑ = ∞
infx∈XF(x) = F*
4112年5月24日木曜日
gradientが正確に計算できず、エラー付きでしか得られない場合の更新式は次のようになる。
eが有界 すなわち ならば、収束先の値は となる。
eがstepsizeに比例する場合、すなわち のとき、 α->0で収束先はF*に一致する
gradientに誤差が乗っている場合の収束性について
gk = ∇F(xk )+ ek xk+1 = xk −α kgk
∀k, ek ≤ δ F* +O(δ )
ek ≤α kq
一般論おわり4212年5月24日木曜日
incremental method一周ぶんをgradientに誤差が乗ったものと解釈して収束性を評価する
(F : Lipshitz) & (||e|| ≦ αq )
(F : Lipshitz) & (||e^k|| ≦ α^k q ) & (α^k ->0) & ( ∑ α^k = ∞ )
ポイント
十分小さな定数ステップサイズαを用いるとO(α)-最適解に収束する
減衰ステップサイズで更新すればincremental methodを使っても元の最適解に収束する!
4312年5月24日木曜日
Incremental subgradient proximal methodsの収束性の評価
(sub)gradient methodの収束性は吟味できる(ことにしている)が、z_kの更新式はどう評価すればよいか?
に対して
ここから本題
4412年5月24日木曜日
Incremental subgradient proximal methodsの収束性の評価
ここから本題
zk = PX (xk −α k∇
f (zk ))
実は
すなわちproximal methodの更新式は、(sub)gradientのような形で表せて、subgradientの収束性の証明を流用できる。
は
と書きなおすことができる。
4512年5月24日木曜日
準備
指示関数のsubgradientはNormal cone
Projection Theorem
証明はホワイトボードに
proximal updateをgradient updateのように書きなおす
証明はNonlinear本p.704
証明はconvex本Example prop5.4.0
4612年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
4712年5月24日木曜日
incremental proximal subgradient method の収束性
に対して
2段階で更新
リプシッツ連続性と誤差ありの勾配法を思い出す
4812年5月24日木曜日
cyclic orderによる収束性評価 (定数ステップサイズ)
m^2
4912年5月24日木曜日
cyclic orderによる収束性評価 (定数ステップサイズ)
FをF*+O(ε)に収束させるためにはα=O(ε(mc)^-2) くらい小さくなければならない
すると必要な反復数はN=O(m^3 c^2/ ε^2)
さすがに多すぎる....
5012年5月24日木曜日
cyclic orderによる収束性評価 (減衰ステップサイズ)
αをゆっくり収束させてやれば一応最適解は求められる
5112年5月24日木曜日
Chapter 4 Incremental Gradient, Subgradient, and Proximal Methods for Convex Optimization: A Survey 4.1 Introduction
4.1.1 Some Examples of Additive Cost Problems
4.1.2 Incremental Gradient Methods - Differentiable Problems
4.1.3 Incremental Subgradient Methods - Nondifferentiable Problems
4.1.4 Incremental Proximal Methods
4.2 Incremental Subgradient-Proximal Methods
4.3 Convergence for Methods with Cyclic Order
4.4 Convergence for Methods with Randomized Order
4.5 Some Applications
4.5.1 Regularized Least Squares
4.5.2 Iterated Projection Algorithms
5212年5月24日木曜日
収束証明には下記の定理をうまく利用する
本文中ではWk=0の場合で用いられている
Zk > 定数 を仮定し、矛盾を導く という使い方がされている
5312年5月24日木曜日
randomized orderによる収束性評価 (定数ステップサイズ)
5412年5月24日木曜日
気持ちだけ...ここまではcyclic版と共通
条件付き期待値を取るとmartingaleっぽい形が現れる
5512年5月24日木曜日
randomized orderによる収束性評価 (定数ステップサイズ)
式(4.4.8)と(4.3.9)を見比べると、random版は期待値で評価するため1/mがかかっているのが全体に効いている
m^1
直観的には、
5612年5月24日木曜日
randomized orderによる収束性評価 (定数ステップサイズ)
先の例と同様に考えると、α=O(m^-1 c^-2)でε近似
そのために必要な反復数の期待値は (mc)^2/ε^2以下
一応嬉しいのだが、オーダーと期待値の比較はややナンセンス5712年5月24日木曜日
randomized orderによる収束性評価 (減衰ステップサイズ)
同様のことが成り立つ
5812年5月24日木曜日
参考文献
[Nonlinear本]: D.Bertsekas “Nonlinear Programming” Athena Scientific 1999
[convex本]: D.Bertsekas “Convex Optimization Theory” Athena Scientific 2009
D.Bertsekas and Tsisiklis “Gradient Convergence in Gradient Methods” 2000
5912年5月24日木曜日