[prml勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル...

17
[勉強会]パターン認識と機械学習 第3章 線形回帰モデル (p.135 – p.145) 音丸 Itaru Otomaru Ph. D. / @itaruotton

Upload: itaru-otomaru

Post on 20-Jul-2015

562 views

Category:

Technology


14 download

TRANSCRIPT

Page 1: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

[勉強会]パターン認識と機械学習

第3章 線形回帰モデル(p.135 – p.145)

音丸 格Itaru Otomaru Ph. D. / @itaruotton

Page 2: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

線形回帰?

回帰問題の目標

与えられたD次元の入力(input)変数のベクトルxの値から、1つ、あるいは複数の目標(target)変数tの値を予測すること。

線形回帰モデル

もっとも単純な形の線形回帰モデルは、入力変数に関しても線形

通常は、入力関数に関して非線形な関数の固定された集合の線形結合をとる(基底関数)

Page 3: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

3.1 線形基底関数モデル

定式化

1

1

0,M

j

jjwwy xwx

• x: 観測値• w: パラメータ• φj(x): 基底関数

w0は任意の固定されたオフセット量を許容するバイアスパラメータ。φ0(x) = 1とおくと、以下のように書ける。

xwxwx TM

j

jjwy

1

0

,

Page 4: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

基底関数の例

ガウス基底関数

シグモイド基底関数

s

xx

j

j

2

2

2exp

s

xx

j

j

Page 5: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

3.1.1 最尤推定と最小二乗法

「1.2.5 曲線フィッティング再訪」における例が再び出てくる

尤度関数

両辺にlogをとって、対数尤度は

1

1

,|Ν,,|

n

T

n

N

n

tp xwwxt

N

n

n

T

ntΝp1

1,|ln,|ln xwwt

N

n

n

T

n xtNN

1

2

2

12ln

2ln

2 w

Page 6: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

最尤推定による w の決定

式(3.11)を w について微分すると

式(3.13)の左辺を0とおいて、w = ○ の形に書き換えると、

n

N

n

n

T

n

N

n

n

T

nn

t

tp

xxw

xwxwt

1

1

222

2

1,|ln

(3.11)

N

n

n

T

n xtNN

p1

2

2

12ln

2ln

2,|ln wwt

(3.13)

N

n

T

nn

N

n

n

T

n t

1

1ML

xx

x

w

N

n

N

n

n

T

n

T

nnt1 1

0 xxwx

Page 7: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

計画行列(design matrix)

上式の分子を書き下すと

分母も同様の形で書けるため、wMLは以下の通り書ける。

Φを計画行列(design matrix)と呼ぶ。

N

n

T

nn

N

n

n

T

n t

1

1ML

xx

x

w

• w = (w0, …, wM-1)T

• Φ = (Φ0, …, ΦM-1)T

ちなみに…

xxx

xxx

xxx

xT

NNMMM

N

N

N

n

n

T

n

t

t

t

t

2

1

12111

12111

02010

1

tΦΦΦwTT 1

ML

Page 8: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

最尤推定による β の決定

式(3.11)をβについて微分すると、

上式の左辺を0とおくと、

N

n

n

T

n xtNN

p1

2

2

12ln

2ln

2,|ln wwt (3.11)

N

n

n

T

ntN

p1

2

2

11

2,|ln xwwt

N

n

n

T

n

N

n

n

T

n

tN

tN

1

2

ML

1

2

11

2

1

2

xw

xw

ML

(3.21)

Page 9: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

3.1.2 最小二乗法の幾何学 (1)

目標値 t と計画行列 Φ

NMNN

M

M

xxx

xxx

xxx

Φ

110

212120

111110

φ0 φ1 φM-1

Nt

t

t

2

1

t

N次元ベクトル M個のN次元ベクトル φjからなるN×M次元行列

Page 10: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

3.1.2 最小二乗法の幾何学 (2)

たとえば、N = 3でM = 2だったら… t は3次元ベクトルで、3次元空間における1点を示す

2つの3次元ベクトルφ1とφ2によって、2次元平面 S が定義できる。

図3.2 (pp. 141)

Page 11: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

3.1.2 最小二乗法の幾何学 (3)

n番目の要素が y(xn, w)で与えられるN次元ベクトル y

y

110000

110000

111100100

1

0

1

0

11

,

,

MM

NMMNN

MM

M

j

Njj

M

j

jj

N

www

www

www

w

w

y

y

xxx

xxx

x

x

wx

wx

つまり、ベクトル yは、ベクトルφjの線形結合であらわされる

Page 12: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

3.1.2 最小二乗法の幾何学 (4)

ベクトル yは、ベクトルφjの線形結合であらわされるので、M次元空間 S 上のある1点を表すベクトルである。

最小二乗解は、部分空間S内にあり、tに最も近いyを選ぶことに相当する

図3.2 (pp. 141)

つまり、tの、部分空間Sへの正射影である。

Page 13: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

3.1.3 逐次学習

逐次学習のアルゴリズムは、確率的勾配降下法(stochastic gradient descent)を適用することで得られる。 条件:

パラメータベクトルの更新手順:1. 現在のパラメータベクトル wτ

2. データx1,…,xNの中から一つランダムにピックアップ

3. 選んだデータに対応する勾配でパラメータ更新

n nEEコスト値は、個々の学習データ(n=1,…,N)に対するコスト値の和に等しい

nE )()1(ww

参考:SGD+α:確率的勾配降下法の現在と未来http://www.slideshare.net/kisa12012/sgd-future-best-27314417

Page 14: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

3.1.4 正則化最小二乗法

正則化項を加えた時の最小二乗解の導出 正則化項を加えた誤差関数

上式を展開

wについて微分

上式を0とおくと

N

n

T

n

T

n xt1

2

22

1www

(3.27)

wwwwwT

N

n

n

TN

n

n

T

n

N

n

n xxtt22

1

2

1

1

2

11

2

ww

N

n

n

N

n

nn xxt1

2

1

N

n

nn

N

n

n xtx11

2 Iw

計画行列Φを用いて左式を整理して

tΦΦΦIwTT 1

(3.28)

Page 15: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

一般的な正則化誤差項

式(3.27)は、正則化コストがwの二乗で効く場合である。より一般的には、下式で表される。

異なる q の値に対する正則化関数の等高線表示

N

n

M

j

q

jn

T

n wxt1 1

2

22

1 w (3.29)

M: パラメータの次元数

特に、q = 1のときを、lassoと呼ぶ 図3.3 (pp. 143)

Page 16: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

Lassoによって疎な解が得られるイメージ

q = 2の場合 q = 1の場合

青線:正則化されていない誤差関数の等高線表示赤線で囲まれた領域:正則化項の制約条件を満たす領域

q = 2の場合、正則化項の制約条件を満たしかつ誤差関数を最小化するwは、w1 ≠ 0 かつw2 ≠ 0

一方、q = 1の場合は、w1 = 0

Page 17: [PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

3.1.5 出力変数が多次元の場合

これまでは、出力変数 t が1次元の場合を議論してきた。一方、t が K 次元の場合でも、同様に最尤解を求めることができる。

TΦΦΦWTT 1

ML

(3.34)