prml復々習レーン#3 3.1.3-3.1.5

PRML復々習レーン#3 3.1.3-3.1.5 (代打)

2012-07-16

Yoshihiko Suhara

@sleepy_yoshi

ここのポイント

• (1) 逐次学習

–確率的勾配降下法

• (2) 正則化項

–誤差関数との関係

–特にイメージについて

2

3.1.3 逐次学習

3

確率的勾配降下法 (Stochastic Gradient Descent; SGD)

• 誤差関数が𝐸 = 𝐸𝑛𝑛 のように，データ点に対する誤差の和で表現される場合に利用可能

• 各データ点に対する誤差関数の勾配を用いて以下の更新式で重みベクトルを更新

– 𝜂は学習率 • 収束保証のためには，単調減少させる必要あり

𝒘 𝜏+1 = 𝒘 𝜏 − 𝜂𝜏𝛻𝐸𝑛

ただし lim𝜏→∞𝜂𝜏 = 0 𝜂𝜏

∞

𝜏=1

= ∞ 𝜂𝜏2

∞

𝜏=1

< ∞ 4

最急降下法 vs. 確率的勾配降下法

ホワイトボードで説明

最急降下法確率的勾配降下法 5

LMSアルゴリズム

• LMSアルゴリズム – 確率的勾配法を用いて最小二乗学習を行う

– Widrow-Hoffの学習規則，Adalineとも呼ばれる

• データ点 𝜙 𝒙𝑛 , 𝑡𝑛 に対する誤差関数は式(3.12)より

𝐸𝑛 𝒘 =1

2𝑡𝑛 −𝒘

𝑇𝜙 𝒙𝑛2

• よって勾配𝛻𝐸𝑛 𝒘 は 𝛻𝐸𝑛 𝒘 = 𝑡𝑛 −𝒘

𝑇𝜙 𝒙𝑛 𝜙(𝒙𝑛)

6

LMSアルゴリズム INPUT: (𝒙𝑛, 𝑡𝑛) ∈ 𝑫, 𝑇, 𝜂 OUTPUT: 𝒘 1: Initialize 𝒘0 = 𝟎 2: FOR 𝑛 in 0 to 𝑇 − 1 3: Obtain random sample (𝒙𝑛, 𝑡𝑛) from 𝑫 4: 𝒘𝑛+1 ← 𝑤𝑛 − 𝜂 𝑡𝑛 −𝒘𝑛

𝑇𝒙𝑛 𝒙𝑛 5: ENDIF 6: ENDFOR 7: RETURN 𝒘𝑇

7

余談: 二値分類における最小二乗法

• 二値分類においては0-1損失を考える • 二値分類においてもLMSアルゴリズムは利用可能ではある

– ただし「正解しすぎても」損失が発生 – ⇒よりよい0-1損失の近似の利用を検討

𝑦𝑛𝒘𝑇𝒙𝑛

𝐸𝑛

1

アレ?

8

更に余談: よりよい0-1損失の近似

• L1-loss SVM (hinge-loss): 𝐸𝑛 = max 0, 1 − 𝑦𝑛𝒘𝑇𝒙𝑛

• L2-loss SVM: 𝐸𝑛 = max 0, 1 − 𝑦𝑛𝒘𝑇𝒙𝑛

2

こんな損失

𝐸𝑛

hinge-loss

0-1 loss

L2-loss SVM

𝑦𝑛𝒘𝑇𝒙𝑛 9

3.1.4 正則化最小二乗法

10

損失関数＋正則化項

• 正則化項を加えた損失関数 𝐸 𝒘 = 𝐸𝐷 𝒘 + 𝜆𝐸𝑤(𝒘)

• 正則化項はたとえば重みベクトルの二乗和を利用 (L2正則化項)

𝐸𝑤 𝒘 =1

2𝒘𝑇𝒘

11

正則化最小二乗法

• 二乗誤差関数にさきほどの正則化項を加えると誤差関数は

𝐸 𝒘 =1

2 𝑡𝑛 −𝒘

𝑇𝜙 𝒙𝑛2

𝑁

𝑛=1

+𝜆

2𝒘𝑇𝒘

• 𝒘に関する勾配を0とおき， 𝒘について解けば以下を得る

𝒘 = 𝜆𝐈 +𝚽𝑇𝚽 −1𝚽𝑇𝒕

12

正則化最小二乗の導出

𝐿 𝒘 = 𝒚 − 𝑿𝒘 𝑇 𝒚 − 𝑿𝒘 + 𝜆𝒘𝑇𝒘 𝜕

𝜕𝒘𝐿 𝒘 = −2𝑿𝑇𝒚 + 2𝑿𝑇𝑿𝒘+ 𝜆𝒘 + 𝜆𝒘

• これを0とおく 𝑿𝑇𝑿𝒘+ 𝜆𝒘 = 𝑿𝑇𝒚 𝑿𝑇𝑿 + 𝑰𝜆 𝒘 = 𝑿𝑇𝒚 𝒘 = 𝑿𝑇𝑿 + 𝑰𝜆 −1𝑿𝑇𝒚

13

𝜕

𝜕𝒙𝒂𝑇𝒙 =

𝜕

𝜕𝒙𝒙𝑇𝒂 = 𝒂

行列の微分

𝑨𝑩 𝑇 = 𝑩𝑇𝑨𝑇

L2正則化LMSアルゴリズム INPUT: (𝒙𝑛, 𝑡𝑛) ∈ 𝑫, 𝑇, 𝜂 OUTPUT: 𝒘 1: Initialize 𝒘0 = 𝟎 2: FOR 𝑛 in 0 to 𝑇 − 1 3: Obtain random sample (𝒙𝑛, 𝑡𝑛) from 𝑫 4: 𝒘𝑛+1 ← 𝑤𝑛 − 𝜂 𝑡𝑛 −𝒘𝑛

𝑇𝒙𝑛 𝒙𝑛 + 𝜆𝒘𝑛 5: ENDIF 6: ENDFOR 7: RETURN 𝒘𝑇

14

確率的勾配法で解く場合

正則化項について (1/2)

• 一般的な正則化項

𝐸𝑤 𝒘 =𝜆

2 𝑤𝑗

𝑞𝑀

𝑗=1

• 𝑞 = 2のときL2正則化項

– q=1はlassoとも呼ばれる．q=2はridge

15

正則化項について (2/2)

• 誤差関数と正則化項を横から眺める

– (ホワイトボード)

• 二乗誤差関数＋L2正則化項 (凸＋凸＝凸)

–証明はぐぐってください

16

正則化項の解釈

• 正則化していない二乗誤差を以下の制約条件で最小化することと等しい (演習3.5)

𝑤𝑗𝑞

𝑀

𝑗=1

≤ 𝜂

• こたえ

𝜂 = 𝑤𝑗∗ 𝜆

𝑞𝑀

𝑗=1

17

与えられた𝜆における誤差関数の最適値に依存

(ﾟДﾟ)ﾊｧ?

図3.4 を眺める

• 謎の図も今ならわかる

18

3.1.5 出力変数が多次元の場合

19

目標変数が多次元の場合

• 𝐾次元の目標ベクトル𝒕の推定を試みる 𝒚 𝒙,𝒘 = 𝑾𝑇𝜙(𝒙)

• 結論 (3.1.1と同様のロジック)

–最尤推定値 𝑾𝑀𝐿 = 𝚽𝑇𝚽 −1𝚽𝑇𝐓

–各次元の目標変数が相互に依存しないため，𝑘番目の目標変数を推定するためのパラメータは 𝒘𝑘 = 𝚽

𝑇𝚽 −1𝚽𝑇𝒕𝑘で求めることができる

20

おしまい

21

prml復々習レーン#3 3.1.3-3.1.5

Documents