prml復々習レーン#9 6.3-6.3.1

PRML復々習レーン#9 6.3 RBFネットワーク

6.3.1 Nadaraya-Watson モデル

2013-03-10

Yoshihiko Suhara

@sleepy_yoshi

1

もくじ

• 6.3 RBFネットワーク

– 6.3.1 Nadaraya-Watson モデル

2

3.6 固定された基底関数の限界

基底関数をたくさん用意すれば線形モデルでいいじゃん ⇒ ＮＯ！ソンナコトハナイ！

ポイントだよ

3

• 訓練データを観測する前に基底関数𝜙 ⋅ を決定する必要がある

• 入力空間の次元数に対して指数的に基底関数を増やしていく必要性

• ただし

– データベクトルは本質的な次元数が入力次元数よりも小さい非線形多様体に大体分布しているという性質がある

– うまいこと基底関数を選べればよい (NN@5章) or 基底関数を明示的に選ばない方法を用いられればよいのでは? (カーネル法@6章, 7章)

復習の復習

6.3 RBFネットワーク

4

5

Radial Basis Funciton (RBF)

• 動径 (放射) 基底関数 • 中心𝝁からの距離のみに依存する基底関数

𝜙 𝒙 = ℎ 𝒙 − 𝝁

– RBFの例 • ガウス基底関数: exp −𝛾 𝒙 − 𝝁 2 • Thin plate spline: 𝒙 − 𝝁 2 log 𝒙 − 𝝁

𝝁

ガウス基底関数のイメージ Thin plate splineのイメージ

-5 -4 -3 -2 -1 0 1 2 3 4 5-5

0

5

10

15

20

25

30

35

40

45

𝝁

RBFはなんでもよい?

• [Chen+ 91] から抜粋

6

7

RBFによる関数補間

• RBFが初めて使われたのは関数補間

– 関数補間：目的変数の値を正確に再現する関数を求める問題

– 各データ点を中心においたRBFの線形結合で実現

𝑓 𝑥 = 𝑤𝑛 ℎ 𝒙 − 𝒙𝑛

𝑁

𝑛=1

• 重みは最小二乗法によって求める

– 参考: (3.15)式 𝒘𝑀𝐿 = 𝚽𝑇𝚽 −1𝚽𝑇𝒕

8

RBFネットワークのイメージ

• RBFの線形結合の直感的イメージ

𝑓 𝑥 = 𝑤ℎ ℎ 𝒙 − 𝒙𝑛

𝑁

𝑛=1

𝑓(𝒙)

…

…

𝑤1

𝑤2

𝑤𝑛

入力𝒙

𝒙1

𝒙2

𝒙𝑛

各RBFの線形和を出力

𝜙2 𝜙1 𝜙3

𝒙

9

入力変数にノイズがある場合

• 入力変数xに含まれるノイズを，確率分布𝜈(𝜉) に従う𝜉によって表した際の二乗誤差関数

𝐸 =1

2 𝑦 𝒙𝑛 + 𝝃 − 𝑡𝑛

2𝜈 𝝃 𝑑𝝃

𝑁

𝑛=1

• 変分法を用いて最適化

𝑦 𝑥 = 𝑡𝑛ℎ 𝒙 − 𝒙𝑛

𝑁

𝑛=1

(6.39)

(6.40)

10

基底関数の正規化

• (6.41)により，任意のxに対して ℎ(𝒙 − 𝒙𝑛)𝑛 =1に正規化されている –正規化後は右図のようになっている

11

計算コストの削減

• 各データ点に基底関数が用意されているため，入力データに対して特徴次元数×基底関数の数だけ計算コストがかかる

• 計算コストの削減するために基底関数を絞り込むことを考える –データ点の部分集合をランダムに選択

–直交最小二乗法 [Chen+ 91]

– k-Means?

12

6.3.1 Nadaraya-Watsonモデル

別名: カーネル回帰モデル

13

Nadaraya-Watsonモデル (1/3)

• カーネル回帰モデル(3.61)をカーネル密度推定の観点から導く

𝑦 𝒙,𝒎𝑁 = 𝑘 𝒙, 𝒙𝑛 𝑡𝑛

𝑁

𝑛=1

• 訓練集合を{𝑥𝑛, 𝑡𝑛} として，同時分布p(x,t)を推定するためにParzen推定法を用いる – 例えばf(x,t)はガウス分布の確率密度関数

𝑝 𝑥, 𝑡 =1

𝑁 𝑓 𝒙 − 𝒙𝑛, 𝑡 − 𝑡𝑛

𝑁

𝑛=1

(3.61)

(6.42)


• 𝑓(𝒙)を求めるため，入力変数で条件付けられた目標変数の条件付き期待値を考える

𝑦 𝒙 = 𝔼 𝑡 𝒙 = 𝑡 𝑝 𝑡 𝒙 𝑑𝑡∞

−∞

=∫ 𝑡 𝑝 𝒙, 𝑡 𝑑𝑡

∫ 𝑝 𝒙, 𝑡 𝑑𝑡= ∫ 𝑡 𝑓 𝒙 − 𝒙𝑛, 𝑡 − 𝑡𝑛 𝑑𝑡𝑛

∫ 𝑓 𝒙 − 𝒙𝑚, 𝑡 − 𝑡𝑚 𝑑𝑡𝑚

14

∫ 𝑡 𝑝 𝑡|𝒙 𝑑𝑡 =∫ 𝑡 𝑝 𝑡 𝒙 𝑝 𝒙 𝑑𝑡

𝑝 𝒙=∫ 𝑡 𝑝 𝑡, 𝒙 𝑑𝑡

∫ 𝑝 𝑡, 𝒙 𝑑𝑡

↑の補足


• 変数を置き換えてNadaraya-Watsonモデルを得る

𝑦 𝑥 = 𝑔 𝒙 − 𝒙𝑛 𝑡𝑛𝑛

𝑔 𝒙 − 𝒙𝑚𝑚= 𝑘 𝒙, 𝒙𝑛 𝑡𝑛𝑛

• ただし，

𝑘 𝑥, 𝑥𝑛 =𝑔 𝒙 − 𝒙𝑛 𝑔 𝒙 − 𝒙𝑚𝑚

𝑔 𝑥 = 𝑓 𝒙, 𝑡 𝑑𝑡∞

−∞

15 たとえば，𝑓 𝑥 =1

2𝜋𝜎2exp −

1

2𝜎2𝑥 − 𝜇 2

16

Nadaraya-Watsonモデルの例

• 三角関数データに対してガウスカーネルを用いた際のNadaraya-Watsonカーネル回帰モデル

x, yのスケールが違うため目玉のようになっているが，等方的なガウスカーネル

おわり

17

prml復々習レーン#9 6.3-6.3.1

Technology