[prml勉強会資料] パターン認識と機械学習第３章線形回帰モデル...

[勉強会]パターン認識と機械学習

第3章線形回帰モデル（p.135 – p.145）

音丸格Itaru Otomaru Ph. D. / @itaruotton

線形回帰？

回帰問題の目標

与えられたD次元の入力（input）変数のベクトルxの値から、1つ、あるいは複数の目標（target）変数tの値を予測すること。

線形回帰モデル

もっとも単純な形の線形回帰モデルは、入力変数に関しても線形

通常は、入力関数に関して非線形な関数の固定された集合の線形結合をとる（基底関数）

3.1 線形基底関数モデル

定式化

1

1

0,M

j

jjwwy xwx

• x: 観測値• w: パラメータ• φj(x): 基底関数

w0は任意の固定されたオフセット量を許容するバイアスパラメータ。φ0(x) = 1とおくと、以下のように書ける。

xwxwx TM

j

jjwy

1

0

,

基底関数の例

ガウス基底関数

シグモイド基底関数

s

xx

j

j

2

2

2exp

s

xx

j

j

3.1.1 最尤推定と最小二乗法

「1.2.5 曲線フィッティング再訪」における例が再び出てくる

尤度関数

両辺にlogをとって、対数尤度は

1

1

,|Ν,,|

n

T

n

N

n

tp xwwxt

N

n

n

T

ntΝp1

1,|ln,|ln xwwt

N

n

n

T

n xtNN

1

2

2

12ln

2ln

2 w

最尤推定による w の決定

式(3.11)を w について微分すると

式(3.13)の左辺を0とおいて、w = ○ の形に書き換えると、

n

N

n

n

T

n

N

n

n

T

nn

t

tp

xxw

xwxwt

1

1

222

2

1,|ln

(3.11)

N

n

n

T

n xtNN

p1

2

2

12ln

2ln

2,|ln wwt

(3.13)

N

n

T

nn

N

n

n

T

n t

1

1ML

xx

x

w

N

n

N

n

n

T

n

T

nnt1 1

0 xxwx

計画行列（design matrix）

上式の分子を書き下すと

分母も同様の形で書けるため、wMLは以下の通り書ける。

Φを計画行列（design matrix）と呼ぶ。

N

n

T

nn

N

n

n

T

n t

1

1ML

xx

x

w

• w = (w0, …, wM-1)T

• Φ = (Φ0, …, ΦM-1)T

ちなみに…

tΦ

xxx

xxx

xxx

xT

NNMMM

N

N

N

n

n

T

n

t

t

t

t

2

1

12111

12111

02010

1

tΦΦΦwTT 1

ML

最尤推定による β の決定

式(3.11)をβについて微分すると、

上式の左辺を0とおくと、

N

n

n

T

n xtNN

p1

2

2

12ln

2ln

2,|ln wwt (3.11)

N

n

n

T

ntN

p1

2

2

11

2,|ln xwwt

N

n

n

T

n

N

n

n

T

n

tN

tN

1

2

ML

1

2

11

2

1

2

xw

xw

ML

(3.21)

3.1.2 最小二乗法の幾何学 (1)

目標値 t と計画行列 Φ

NMNN

M

M

xxx

xxx

xxx

Φ

110

212120

111110

φ0 φ1 φM-1

Nt

t

t

2

1

t

N次元ベクトル M個のN次元ベクトル φjからなるN×M次元行列


たとえば、N = 3でM = 2だったら… t は3次元ベクトルで、3次元空間における1点を示す

2つの3次元ベクトルφ1とφ2によって、2次元平面 S が定義できる。

図3.2 (pp. 141)


n番目の要素が y(xn, w)で与えられるN次元ベクトル y

y

110000

110000

111100100

1

0

1

0

11

,

,

MM

NMMNN

MM

M

j

Njj

M

j

jj

N

www

www

www

w

w

y

y

xxx

xxx

x

x

wx

wx

つまり、ベクトル yは、ベクトルφjの線形結合であらわされる


ベクトル yは、ベクトルφjの線形結合であらわされるので、M次元空間 S 上のある1点を表すベクトルである。

最小二乗解は、部分空間S内にあり、tに最も近いyを選ぶことに相当する

図3.2 (pp. 141)

つまり、ｔの、部分空間Sへの正射影である。

3.1.3 逐次学習

逐次学習のアルゴリズムは、確率的勾配降下法（stochastic gradient descent）を適用することで得られる。条件：

パラメータベクトルの更新手順：1. 現在のパラメータベクトル wτ

2. データx1,…,xNの中から一つランダムにピックアップ

3. 選んだデータに対応する勾配でパラメータ更新

n nEEコスト値は、個々の学習データ（n=1,…,N）に対するコスト値の和に等しい

nE )()1(ww

参考：SGD+α：確率的勾配降下法の現在と未来http://www.slideshare.net/kisa12012/sgd-future-best-27314417

3.1.4 正則化最小二乗法

正則化項を加えた時の最小二乗解の導出正則化項を加えた誤差関数

上式を展開

wについて微分

上式を0とおくと

N

n

T

n

T

n xt1

2

22

1www

(3.27)

wwwwwT

N

n

n

TN

n

n

T

n

N

n

n xxtt22

1

2

1

1

2

11

2

ww

N

n

n

N

n

nn xxt1

2

1

N

n

nn

N

n

n xtx11

2 Iw

計画行列Φを用いて左式を整理して

tΦΦΦIwTT 1

(3.28)

一般的な正則化誤差項

式(3.27)は、正則化コストがwの二乗で効く場合である。より一般的には、下式で表される。

異なる q の値に対する正則化関数の等高線表示

N

n

M

j

q

jn

T

n wxt1 1

2

22

1 w (3.29)

M: パラメータの次元数

特に、q = 1のときを、lassoと呼ぶ図3.3 (pp. 143)

Lassoによって疎な解が得られるイメージ

q = 2の場合 q = 1の場合

青線：正則化されていない誤差関数の等高線表示赤線で囲まれた領域：正則化項の制約条件を満たす領域

q = 2の場合、正則化項の制約条件を満たしかつ誤差関数を最小化するwは、w1 ≠ 0 かつw2 ≠ 0

一方、q = 1の場合は、w1 ＝ 0

3.1.5 出力変数が多次元の場合

これまでは、出力変数 t が1次元の場合を議論してきた。一方、t が K 次元の場合でも、同様に最尤解を求めることができる。

TΦΦΦWTT 1

ML

(3.34)

[prml勉強会資料] パターン認識と機械学習 第３章 線形回帰モデル...

Technology

[prml勉強会資料] パターン認識と機械学習第３章線形回帰モデル...