[prml勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル...
TRANSCRIPT
[勉強会]パターン認識と機械学習
第3章 線形回帰モデル(p.135 – p.145)
音丸 格Itaru Otomaru Ph. D. / @itaruotton
線形回帰?
回帰問題の目標
与えられたD次元の入力(input)変数のベクトルxの値から、1つ、あるいは複数の目標(target)変数tの値を予測すること。
線形回帰モデル
もっとも単純な形の線形回帰モデルは、入力変数に関しても線形
通常は、入力関数に関して非線形な関数の固定された集合の線形結合をとる(基底関数)
3.1 線形基底関数モデル
定式化
1
1
0,M
j
jjwwy xwx
• x: 観測値• w: パラメータ• φj(x): 基底関数
w0は任意の固定されたオフセット量を許容するバイアスパラメータ。φ0(x) = 1とおくと、以下のように書ける。
xwxwx TM
j
jjwy
1
0
,
基底関数の例
ガウス基底関数
シグモイド基底関数
s
xx
j
j
2
2
2exp
s
xx
j
j
3.1.1 最尤推定と最小二乗法
「1.2.5 曲線フィッティング再訪」における例が再び出てくる
尤度関数
両辺にlogをとって、対数尤度は
1
1
,|Ν,,|
n
T
n
N
n
tp xwwxt
N
n
n
T
ntΝp1
1,|ln,|ln xwwt
N
n
n
T
n xtNN
1
2
2
12ln
2ln
2 w
最尤推定による w の決定
式(3.11)を w について微分すると
式(3.13)の左辺を0とおいて、w = ○ の形に書き換えると、
n
N
n
n
T
n
N
n
n
T
nn
t
tp
xxw
xwxwt
1
1
222
2
1,|ln
(3.11)
N
n
n
T
n xtNN
p1
2
2
12ln
2ln
2,|ln wwt
(3.13)
N
n
T
nn
N
n
n
T
n t
1
1ML
xx
x
w
N
n
N
n
n
T
n
T
nnt1 1
0 xxwx
計画行列(design matrix)
上式の分子を書き下すと
分母も同様の形で書けるため、wMLは以下の通り書ける。
Φを計画行列(design matrix)と呼ぶ。
N
n
T
nn
N
n
n
T
n t
1
1ML
xx
x
w
• w = (w0, …, wM-1)T
• Φ = (Φ0, …, ΦM-1)T
ちなみに…
tΦ
xxx
xxx
xxx
xT
NNMMM
N
N
N
n
n
T
n
t
t
t
t
2
1
12111
12111
02010
1
tΦΦΦwTT 1
ML
最尤推定による β の決定
式(3.11)をβについて微分すると、
上式の左辺を0とおくと、
N
n
n
T
n xtNN
p1
2
2
12ln
2ln
2,|ln wwt (3.11)
N
n
n
T
ntN
p1
2
2
11
2,|ln xwwt
N
n
n
T
n
N
n
n
T
n
tN
tN
1
2
ML
1
2
11
2
1
2
xw
xw
ML
(3.21)
3.1.2 最小二乗法の幾何学 (1)
目標値 t と計画行列 Φ
NMNN
M
M
xxx
xxx
xxx
Φ
110
212120
111110
φ0 φ1 φM-1
Nt
t
t
2
1
t
N次元ベクトル M個のN次元ベクトル φjからなるN×M次元行列
3.1.2 最小二乗法の幾何学 (2)
たとえば、N = 3でM = 2だったら… t は3次元ベクトルで、3次元空間における1点を示す
2つの3次元ベクトルφ1とφ2によって、2次元平面 S が定義できる。
図3.2 (pp. 141)
3.1.2 最小二乗法の幾何学 (3)
n番目の要素が y(xn, w)で与えられるN次元ベクトル y
y
110000
110000
111100100
1
0
1
0
11
,
,
MM
NMMNN
MM
M
j
Njj
M
j
jj
N
www
www
www
w
w
y
y
xxx
xxx
x
x
wx
wx
つまり、ベクトル yは、ベクトルφjの線形結合であらわされる
3.1.2 最小二乗法の幾何学 (4)
ベクトル yは、ベクトルφjの線形結合であらわされるので、M次元空間 S 上のある1点を表すベクトルである。
最小二乗解は、部分空間S内にあり、tに最も近いyを選ぶことに相当する
図3.2 (pp. 141)
つまり、tの、部分空間Sへの正射影である。
3.1.3 逐次学習
逐次学習のアルゴリズムは、確率的勾配降下法(stochastic gradient descent)を適用することで得られる。 条件:
パラメータベクトルの更新手順:1. 現在のパラメータベクトル wτ
2. データx1,…,xNの中から一つランダムにピックアップ
3. 選んだデータに対応する勾配でパラメータ更新
n nEEコスト値は、個々の学習データ(n=1,…,N)に対するコスト値の和に等しい
nE )()1(ww
参考:SGD+α:確率的勾配降下法の現在と未来http://www.slideshare.net/kisa12012/sgd-future-best-27314417
3.1.4 正則化最小二乗法
正則化項を加えた時の最小二乗解の導出 正則化項を加えた誤差関数
上式を展開
wについて微分
上式を0とおくと
N
n
T
n
T
n xt1
2
22
1www
(3.27)
wwwwwT
N
n
n
TN
n
n
T
n
N
n
n xxtt22
1
2
1
1
2
11
2
ww
N
n
n
N
n
nn xxt1
2
1
N
n
nn
N
n
n xtx11
2 Iw
計画行列Φを用いて左式を整理して
tΦΦΦIwTT 1
(3.28)
一般的な正則化誤差項
式(3.27)は、正則化コストがwの二乗で効く場合である。より一般的には、下式で表される。
異なる q の値に対する正則化関数の等高線表示
N
n
M
j
q
jn
T
n wxt1 1
2
22
1 w (3.29)
M: パラメータの次元数
特に、q = 1のときを、lassoと呼ぶ 図3.3 (pp. 143)
Lassoによって疎な解が得られるイメージ
q = 2の場合 q = 1の場合
青線:正則化されていない誤差関数の等高線表示赤線で囲まれた領域:正則化項の制約条件を満たす領域
q = 2の場合、正則化項の制約条件を満たしかつ誤差関数を最小化するwは、w1 ≠ 0 かつw2 ≠ 0
一方、q = 1の場合は、w1 = 0
3.1.5 出力変数が多次元の場合
これまでは、出力変数 t が1次元の場合を議論してきた。一方、t が K 次元の場合でも、同様に最尤解を求めることができる。
TΦΦΦWTT 1
ML
(3.34)