prml復々習レーン#3 3.1.3-3.1.5

21

Click here to load reader

Upload: sleepyyoshi

Post on 06-Jul-2015

3.332 views

Category:

Documents


4 download

DESCRIPTION

2012-07-16 PRML復々習レーン#3 3.1.3-3.1.5 の資料

TRANSCRIPT

Page 1: PRML復々習レーン#3 3.1.3-3.1.5

PRML復々習レーン#3 3.1.3-3.1.5 (代打)

2012-07-16

Yoshihiko Suhara

@sleepy_yoshi

Page 2: PRML復々習レーン#3 3.1.3-3.1.5

ここのポイント

• (1) 逐次学習

–確率的勾配降下法

• (2) 正則化項

–誤差関数との関係

–特にイメージについて

2

Page 3: PRML復々習レーン#3 3.1.3-3.1.5

3.1.3 逐次学習

3

Page 4: PRML復々習レーン#3 3.1.3-3.1.5

確率的勾配降下法 (Stochastic Gradient Descent; SGD)

• 誤差関数が𝐸 = 𝐸𝑛𝑛 のように,データ点に対する誤差の和で表現される場合に利用可能

• 各データ点に対する誤差関数の勾配を用いて以下の更新式で重みベクトルを更新

– 𝜂は学習率 • 収束保証のためには,単調減少させる必要あり

𝒘 𝜏+1 = 𝒘 𝜏 − 𝜂𝜏𝛻𝐸𝑛

ただし lim𝜏→∞𝜂𝜏 = 0 𝜂𝜏

𝜏=1

= ∞ 𝜂𝜏2

𝜏=1

< ∞ 4

Page 5: PRML復々習レーン#3 3.1.3-3.1.5

最急降下法 vs. 確率的勾配降下法

ホワイトボードで説明

最急降下法 確率的勾配降下法 5

Page 6: PRML復々習レーン#3 3.1.3-3.1.5

LMSアルゴリズム

• LMSアルゴリズム – 確率的勾配法を用いて最小二乗学習を行う

– Widrow-Hoffの学習規則,Adalineとも呼ばれる

• データ点 𝜙 𝒙𝑛 , 𝑡𝑛 に対する誤差関数は式(3.12)より

𝐸𝑛 𝒘 =1

2𝑡𝑛 −𝒘

𝑇𝜙 𝒙𝑛2

• よって勾配𝛻𝐸𝑛 𝒘 は 𝛻𝐸𝑛 𝒘 = 𝑡𝑛 −𝒘

𝑇𝜙 𝒙𝑛 𝜙(𝒙𝑛)

6

Page 7: PRML復々習レーン#3 3.1.3-3.1.5

LMSアルゴリズム INPUT: (𝒙𝑛, 𝑡𝑛) ∈ 𝑫, 𝑇, 𝜂 OUTPUT: 𝒘 1: Initialize 𝒘0 = 𝟎 2: FOR 𝑛 in 0 to 𝑇 − 1 3: Obtain random sample (𝒙𝑛, 𝑡𝑛) from 𝑫 4: 𝒘𝑛+1 ← 𝑤𝑛 − 𝜂 𝑡𝑛 −𝒘𝑛

𝑇𝒙𝑛 𝒙𝑛 5: ENDIF 6: ENDFOR 7: RETURN 𝒘𝑇

7

Page 8: PRML復々習レーン#3 3.1.3-3.1.5

余談: 二値分類における最小二乗法

• 二値分類においては0-1損失を考える • 二値分類においてもLMSアルゴリズムは利用可能ではある

– ただし「正解しすぎても」損失が発生 – ⇒よりよい0-1損失の近似の利用を検討

𝑦𝑛𝒘𝑇𝒙𝑛

𝐸𝑛

1

アレ?

8

Page 9: PRML復々習レーン#3 3.1.3-3.1.5

更に余談: よりよい0-1損失の近似

• L1-loss SVM (hinge-loss): 𝐸𝑛 = max 0, 1 − 𝑦𝑛𝒘𝑇𝒙𝑛

• L2-loss SVM: 𝐸𝑛 = max 0, 1 − 𝑦𝑛𝒘𝑇𝒙𝑛

2

こんな損失

𝐸𝑛

hinge-loss

0-1 loss

L2-loss SVM

𝑦𝑛𝒘𝑇𝒙𝑛 9

Page 10: PRML復々習レーン#3 3.1.3-3.1.5

3.1.4 正則化最小二乗法

10

Page 11: PRML復々習レーン#3 3.1.3-3.1.5

損失関数+正則化項

• 正則化項を加えた損失関数 𝐸 𝒘 = 𝐸𝐷 𝒘 + 𝜆𝐸𝑤(𝒘)

• 正則化項はたとえば重みベクトルの二乗和を利用 (L2正則化項)

𝐸𝑤 𝒘 =1

2𝒘𝑇𝒘

11

Page 12: PRML復々習レーン#3 3.1.3-3.1.5

正則化最小二乗法

• 二乗誤差関数にさきほどの正則化項を加えると誤差関数は

𝐸 𝒘 =1

2 𝑡𝑛 −𝒘

𝑇𝜙 𝒙𝑛2

𝑁

𝑛=1

+𝜆

2𝒘𝑇𝒘

• 𝒘に関する勾配を0とおき, 𝒘について解けば以下を得る

𝒘 = 𝜆𝐈 +𝚽𝑇𝚽 −1𝚽𝑇𝒕

12

Page 13: PRML復々習レーン#3 3.1.3-3.1.5

正則化最小二乗の導出

𝐿 𝒘 = 𝒚 − 𝑿𝒘 𝑇 𝒚 − 𝑿𝒘 + 𝜆𝒘𝑇𝒘 𝜕

𝜕𝒘𝐿 𝒘 = −2𝑿𝑇𝒚 + 2𝑿𝑇𝑿𝒘+ 𝜆𝒘 + 𝜆𝒘

• これを0とおく 𝑿𝑇𝑿𝒘+ 𝜆𝒘 = 𝑿𝑇𝒚 𝑿𝑇𝑿 + 𝑰𝜆 𝒘 = 𝑿𝑇𝒚 𝒘 = 𝑿𝑇𝑿 + 𝑰𝜆 −1𝑿𝑇𝒚

13

𝜕

𝜕𝒙𝒂𝑇𝒙 =

𝜕

𝜕𝒙𝒙𝑇𝒂 = 𝒂

行列の微分

𝑨𝑩 𝑇 = 𝑩𝑇𝑨𝑇

Page 14: PRML復々習レーン#3 3.1.3-3.1.5

L2正則化LMSアルゴリズム INPUT: (𝒙𝑛, 𝑡𝑛) ∈ 𝑫, 𝑇, 𝜂 OUTPUT: 𝒘 1: Initialize 𝒘0 = 𝟎 2: FOR 𝑛 in 0 to 𝑇 − 1 3: Obtain random sample (𝒙𝑛, 𝑡𝑛) from 𝑫 4: 𝒘𝑛+1 ← 𝑤𝑛 − 𝜂 𝑡𝑛 −𝒘𝑛

𝑇𝒙𝑛 𝒙𝑛 + 𝜆𝒘𝑛 5: ENDIF 6: ENDFOR 7: RETURN 𝒘𝑇

14

確率的勾配法で解く場合

Page 15: PRML復々習レーン#3 3.1.3-3.1.5

正則化項について (1/2)

• 一般的な正則化項

𝐸𝑤 𝒘 =𝜆

2 𝑤𝑗

𝑞𝑀

𝑗=1

• 𝑞 = 2のときL2正則化項

– q=1はlassoとも呼ばれる.q=2はridge

15

Page 16: PRML復々習レーン#3 3.1.3-3.1.5

正則化項について (2/2)

• 誤差関数と正則化項を横から眺める

– (ホワイトボード)

• 二乗誤差関数+L2正則化項 (凸+凸=凸)

–証明はぐぐってください

16

Page 17: PRML復々習レーン#3 3.1.3-3.1.5

正則化項の解釈

• 正則化していない二乗誤差を以下の制約条件で最小化することと等しい (演習3.5)

𝑤𝑗𝑞

𝑀

𝑗=1

≤ 𝜂

• こたえ

𝜂 = 𝑤𝑗∗ 𝜆

𝑞𝑀

𝑗=1

17

与えられた𝜆における誤差関数の最適値に依存

(゚Д゚)ハァ?

Page 18: PRML復々習レーン#3 3.1.3-3.1.5

図3.4 を眺める

• 謎の図も今ならわかる

18

Page 19: PRML復々習レーン#3 3.1.3-3.1.5

3.1.5 出力変数が多次元の場合

19

Page 20: PRML復々習レーン#3 3.1.3-3.1.5

目標変数が多次元の場合

• 𝐾次元の目標ベクトル𝒕の推定を試みる 𝒚 𝒙,𝒘 = 𝑾𝑇𝜙(𝒙)

• 結論 (3.1.1と同様のロジック)

–最尤推定値 𝑾𝑀𝐿 = 𝚽𝑇𝚽 −1𝚽𝑇𝐓

–各次元の目標変数が相互に依存しないため,𝑘番目の目標変数を推定するためのパラメータは 𝒘𝑘 = 𝚽

𝑇𝚽 −1𝚽𝑇𝒕𝑘で求めることができる

20

Page 21: PRML復々習レーン#3 3.1.3-3.1.5

おしまい

21