prml reading 3.1 - 3.2
TRANSCRIPT
PATTERN RECOGNITIONand MACHINE LEARNING
READING3.1 Linear Basis Function Models
3.2 The Bias-Variance Decomposition
GSIS Tohoku Univ. Tokuyama Lab. M1 Yu Ohori
Korean-Japan Joint Workshop on General Optimization ใซใฆๆฎๅฝฑKorean-Japan Joint Workshop on General Optimization ใซใฆๆฎๅฝฑ
3 Linear Models for Regression
Given
โข ๅ ฅๅ ๐ฑ โ โ๐ท
โข ๅ ฅๅใใผใฟ้ๅ ๐ = ๐ฑ1 โฏ ๐ฑ๐ โ ๐ ๐ท,๐;โ
โข ็ฎๆจใใผใฟ้ๅ ๐ญ = ๐ก1, โฆ , ๐ก๐T
Goal
โข ็ฎๆจๅคๆฐ ๐กใไบๆธฌใใ
Approach
โข ้ฉๅฝใช้ขๆฐ ๐ฆ ๐ฑ ใ็ดๆฅๆงๆใใ
2015/5/13 PRML Reading 2
input variable ๐ฑ
targ
et
vari
ab
le ๐ก
model ๐ฆ ๐ฑ
3.1 Linear Basis Function Models
็ทๅฝขๅๅธฐใขใใซโข ่งฃๆใ่จ็ฎใซใใใฆๆ็จใชๆง่ณชใๆใค
โข ๅ ฅๅ็ฉบ้ใ้ซๆฌกๅ ใฎๅ้กใซๅฏพใใฆใฏไธ้ฉ ( Sec. 1.4 )
โข ๆใๅ็ดใช็ทๅฝขๅๅธฐใขใใซ
โข ๐ฆ ๐ฑ,๐ฐ = ๐ค0 + ๐=1๐ท ๐ค๐๐ฅ๐
โข ๐ท ๆฌกๅ ใฎ่ถ ๅนณ้ข
โข ็ทๅฝขๅบๅบ้ขๆฐใขใใซ
โข ๐ฆ ๐ฑ,๐ฐ = ๐ค0 + ๐=1๐โ1๐ค๐๐๐ ๐ฑ = ๐ฐT๐ ๐ฑ
โข ๐ = ๐0, โฆ , ๐๐โ1๐
โข ๐๐ ( ๐0 = 1 ) : ๅบๅบ้ขๆฐ
2015/5/13 PRML Reading 3
๐ฆ ๐ฑ,๐ฐ
๐ ๐ฑ
๐ฑ
๐ก
input vector
feature vector
3.1 Linear Basis Function Models
ๅบๅบ้ขๆฐ
i. ๅค้ ๅผ ๐๐ ๐ฅ = ๐ฅ๐
ii. ใฌใฆในๅบๅบ้ขๆฐ ๐๐ ๐ฅ = exp โ๐ฅโ๐๐
2
2๐ 2
โข ๐๐ : ๅ ฅๅ็ฉบ้ใซใใใๅบๅบ้ขๆฐใฎไฝ็ฝฎ
โข ๐ : ็ฉบ้ใฎๅฐบๅบฆ
iii. ใทใฐใขใคใๅบๅบ้ขๆฐ ๐๐ ๐ฅ = ๐ โ๐ฅโ๐๐
๐
โข ใญใธในใใฃใใฏใทใฐใขใคใ้ขๆฐ ๐ ๐ =1
1+exp โ๐
iv. ใใผใชใจๅบๅบ
v. ใฆใงใผใใฌใใ
2015/5/13 PRML Reading 4
ไปฅ้ใฎ่ญฐ่ซใงใฏๅบๅบ้ขๆฐใฎๅฝขใจๆฐใๅบๅฎใใ
Fig. 3.1 ( p. 137 )
Polynomials basis
function
Gaussians basis
function
Sigmoidal basis
function
3.1.1 Maximum likelihood and least squares
็ฎๆจๅคๆฐใๆฑบๅฎ่ซ็้ขๆฐใจใฌใฆในใใคใบใฎๅใจไปฎๅฎ
โข ๐ก = ๐ฆ ๐ฑ,๐ฐ + ๐
โข ๐ : ใฌใฆใน็ขบ็ๅคๆฐ
โข ๐ ๐ญ ๐ฑ,๐ฐ, ๐ฝ = ๐ฉ ๐ก ๐ฆ ๐ฑ,๐ฐ , ๐ฝโ1
ใใผใฟ้ๅ ๐ญใi.d.d. ใจไปฎๅฎ
โข ๅฐคๅบฆ้ขๆฐ ๐ ๐ญ ๐,๐ฐ, ๐ฝ = ๐=1๐ ๐ฉ ๐ก๐ ๐ฐT๐ ๐ฑ๐ , ๐ฝโ1
โข ๅฏพๆฐๅฐคๅบฆ้ขๆฐ ln ๐ ๐ญ ๐ฐ, ๐ฝ =๐
2ln ๐ฝ โ
๐
2ln 2๐ โ ๐ฝ๐ธ๐ท ๐ฐ
โข ๐ธ๐ท ๐ฐ =1
2 ๐=1
๐ ๐ก๐ โ ๐ฐT๐ ๐ฑ๐2 : ไบไนๅ่ชคๅทฎ้ขๆฐ
2015/5/13 PRML Reading 5
Fig. 1.3 ( p. 6 )
3.1.1 Maximum likelihood and least squares
ๅฏพๆฐๅฐคๅบฆ้ขๆฐใ ๐ฐ ใซใคใใฆๆๅคงๅ๏ผไบไนๅ่ชคๅทฎ้ขๆฐใๆๅฐๅ๏ผ
โข ๐ป ln ๐ ๐ญ ๐ฐ, ๐ฝ ๐ฐ=๐ฐML,๐ฝ=๐ฝML= 0ใ่งฃใใจ
โข ๐ฐML = ๐ฝT๐ฝโ1
๐ฝT๐ญ : ๆญฃ่ฆๆน็จๅผ
โข ๐ฝ : ่จ็ป่กๅ
โข ๐ฝโ โก ๐ฝT๐ฝโ1
๐ฝT : ใ ใผใขใปใใณใญใผใบใฎ็ไผผ้่กๅ
ๅฏพๆฐๅฐคๅบฆ้ขๆฐใ ๐ฝ ใซใคใใฆๆๅคงๅ
โข๐
๐๐ฝln ๐ ๐ญ ๐ฐ, ๐ฝ
๐ฐ=๐ฐML,๐ฝ=๐ฝML
= 0ใ่งฃใใจ
โข1
๐ฝML=
1
๐ ๐=1
๐ ๐ก๐ โ ๐ฐT๐ ๐ฑ๐2
2015/5/13 PRML Reading 6
๐ฝ =
๐0 ๐ฑ1 ๐1 ๐ฑ1 โฆ ๐๐โ1 ๐ฑ1
๐0 ๐ฑ2
โฎ๐0 ๐ฑ๐
๐1 ๐ฑ2 โฆ ๐๐โ1 ๐ฑ2
โฎ โฑ โฎ๐1 ๐ฑ๐ โฆ ๐๐โ1 ๐ฑ๐
3.1.1 Maximum likelihood and least squares
ใใคใขในใใฉใกใผใฟ ๐ค0
โข๐
๐๐ค0๐ธ๐ท ๐ฐ = 0ใ่งฃใใจ
โข ๐ค0 = ๐ก โ ๐=1๐โ1๐ค๐๐๐
โข ๐ก =1
๐ ๐=1
๐ ๐ก๐
โข ๐๐ =1
๐ ๐=1
๐ ๐๐ ๐ฑ๐
โข ใใผใฟใฎไปปๆใฎๅบๅฎใใใใชใใปใใ้ใ่จฑๅฎนใใๅฝนๅฒ
2015/5/13 PRML Reading 7
input variable ๐ฑ
targ
et
vari
ab
le ๐ก
๐ค0
่จ็ป่กๅ ๐ฝ
๐ฝ =
๐0 ๐ฑ1 ๐1 ๐ฑ1 โฏ ๐๐โ1 ๐ฑ1
๐0 ๐ฑ2
โฎ๐0 ๐ฑ๐
๐1 ๐ฑ2 โฆ ๐๐โ1 ๐ฑ2
โฎ โฑ โฎ๐1 ๐ฑ๐ โฏ ๐๐โ1 ๐ฑ๐
= ๐0 โฏ ๐๐โ1 โ ๐ ๐,๐;โ
ใใฏใใซ ๐ฒ
๐ฒ =๐ฆ ๐ฑ1, ๐ฐ
โฎ๐ฆ ๐ฑ๐ , ๐ฐ
=
๐=0
๐โ1
๐ค๐๐๐ ๐ฑ1
โฎ
๐=0
๐โ1
๐ค๐๐๐ ๐ฑ๐
= ๐=0
๐โ1
๐ค๐๐๐ = ๐ฝ๐ฐ โ โ๐
ไบไนๅ่ชคๅทฎ้ขๆฐ ๐ธ๐ท ๐ฐ
๐ธ๐ท ๐ฐ =1
2
๐=1
๐
๐ก๐ โ ๐ฐT๐ ๐ฑ๐2 =
1
2๐ญ โ ๐ฒ 2
3.1.2 Geometry of least squares
2015/5/13 PRML Reading 8
๐ฒใจ ๐ญใฎไบไนใฆใผใฏใชใใ่ท้ข
๐๐ ใฎไปปๆใฎ็ทๅฝข็ตๅ
3.1.2 Geometry of least squares
ๆๅฐไบไน่งฃใฎๅนพไฝๅญฆ็่งฃ้
โข ๅ่ปธใ็ฎๆจๅค ๐ก๐ ใงไธใใใใ ๐ๆฌกๅ ็ฉบ้ใ่ใใ
โข ๐ๅใฎใใฏใใซ ๐๐ ใฏ ๐ๆฌกๅ ้จๅ็ฉบ้ ๐ใๅผตใ
โข ๆๅฐไบไน่งฃใฏ ๐ญใฎ้จๅ็ฉบ้ ๐ใฎไธใธใฎๆญฃๅฐๅฝฑใซๅฏพๅฟใใ
2015/5/13 PRML Reading 9
Fig. 3.2 ( p. 141 )
3.1.3 Sequential learning
ใใใๆๆณ
โข ๅ จใฆใฎ่จ็ทดใใผใฟ้ๅใไธๅบฆใซๅฆ็
โข ๅคง่ฆๆจกใชใใผใฟ้ๅใซๅฏพใใฆใฏไธ้ฉ
้ๆฌกๅญฆ็ฟ
โข ใใผใฟ็นใไธๅบฆใซไธใคใ ใ็จใใฆใใฉใกใผใฟใ้ ๆฌกๆดๆฐ
โข ใชใขใซใฟใคใ ใชๅฟ็จใฎๅ ด้ขใซใๆๅน
โข LMS ใขใซใดใชใบใ
โข ๐ฐ ๐+1 = ๐ฐ ๐ โ ๐๐ป๐ธ๐ = ๐ฐ ๐ + ๐ ๐ก๐ โ ๐ฐ ๐ T๐ ๐ฑ๐ ๐ ๐ฑ๐
โข ๐ธ = ๐ ๐ธ๐ = ๐ธ๐ท ๐ฐ
โข ๐ :็นฐ่ฟใๅๆฐ
โข ๐ :ๅญฆ็ฟ็ใใฉใกใผใฟ
2015/5/13 PRML Reading 10
3.1.4 Regularized least squares
ๆญฃๅๅ
โข ้ๅญฆ็ฟใ้ฒใใใ่ชคๅทฎ้ขๆฐใซ็ฝฐ้้ ใไปๅ
โข ๐ธ ๐ฐ = ๐ธ๐ท ๐ฐ + ๐๐ธ๐ ๐ฐ
โข ๐ธ๐ท ๐ฐ : ไบไนๅ่ชคๅทฎ้ขๆฐ
โข ๐ธ๐ ๐ฐ =1
2๐ฐ 2 : ไบๆฌกๆญฃๅๅ้
โข ๐ : ๆญฃๅๅไฟๆฐ
โข ๆญฃๅๅ่ชคๅทฎ้ขๆฐใ ๐ฐ ใซใคใใฆๆๅฐๅ
โข ๐ฐ = ๐๐ + ๐ฝT๐ฝโ1
๐ฝT๐ญ
2015/5/13 PRML Reading 11
3.1.4 Regularized least squares
ไธ่ฌ็ใชๆญฃๅๅ้
โข ๐ธ๐ ๐ฐ =1
2 ๐=1
๐ ๐ค๐๐
2015/5/13 PRML Reading 12
๐ใๅๅใซๅคงใใใจใ็ใช่งฃใๅพใใใ
Fig. 3.3 ( p. 143 )
lasso
๐ค1
๐ค2
3.1.5 Multiple outputs
Given
โข ๅ ฅๅ ๐ฑ โ โ๐ท
โข ๅ ฅๅใใผใฟ้ๅ ๐ = ๐ฑ1 โฏ ๐ฑ๐ โ ๐ ๐ท,๐;โ
โข ็ฎๆจใใผใฟ้ๅ T= ๐ญ1T โฏ ๐ญ๐
T T โ ๐ ๐,๐พ;โ
Goal
โข ็ฎๆจๅคๆฐ ๐ญ โ โ๐พ ใไบๆธฌใใ
Approach
โข ๐ญใฎๅ จใฆใฎ่ฆ็ด ใซๅใๅบๅบ้ขๆฐใ็จใใฆใขใใซๅ
โข ๐ฒ ๐ฑ,๐ฐ = ๐T๐ ๐ฑ๐ โ โ๐พ
2015/5/13 PRML Reading 13
3.1.5 Multiple outputs
็ฎๆจๅคๆฐใฎๆกไปถไปๅๅธใๆฌกใฎๅฝขใฎ็ญๆนๆงใฌใฆในๅๅธใจไปฎๅฎ
โข ๐ ๐ญ ๐ฑ,๐, ๐ฝ = ๐ฉ ๐ญ ๐T๐ ๐ฑ , ๐ฝโ1๐
ใใผใฟ้ๅ Tใi.d.d. ใจไปฎๅฎ
โข ๐ ๐ ๐,๐, ๐ฝ = ๐=1๐ ๐ฉ ๐ญ๐ ๐T๐ ๐ฑ๐ , ๐ฝโ1๐
โข ln ๐ ๐ ๐,๐, ๐ฝ =๐๐พ
2ln
๐ฝ
2๐โ
๐ฝ
๐ ๐=1
๐ ๐ญ๐ โ ๐T๐ ๐ฑ๐2
ๅฏพๆฐๅฐคๅบฆ้ขๆฐใ ๐ ใซใคใใฆๆๅคงๅ
โข ๐ML = ๐ฝโ ๐
โข ๐ฐ๐ = ๐ฝโ ๐ญ๐ (๐ญ๐ โ โ๐ )
โข ๐พ ๅใฎ็ฌ็ซใช 1ๆฌกๅ ๅๅธฐๅ้กใซๅธฐ็ๅฏ่ฝ
2015/5/13 PRML Reading 14
3.2 The Bias-Variance Decomposition
ๆๅฐคๆจๅฎใฎๆฌ ็นโข ้ใใใใตใคใบใฎ่จ็ทดใใผใฟ้ๅใ็จใใฆ่ค้ใชใขใใซใๅญฆ็ฟใใใใจใใใจ้ๅญฆ็ฟใใๆใใใใ
้ๅญฆ็ฟใฎๅ้ฟๆนๆณi. ๅบๅบ้ขๆฐใฎๆฐใ้ๅฎ
โข ใขใใซใฎ่กจ็พ่ฝๅใ้ใใใ
ii. ๆญฃๅๅโข ใขใใซใฎ่ค้ใใฎๅ้กใๆญฃๅๅไฟๆฐใ้ฉๅใซๆฑบใใๅ้กใซ็ฝฎใๆใใใ ใ
iii. ใใคใบ็ๅๆฑใ
2015/5/13 PRML Reading 15
Fig. 1.4 ( p. 6 )
3.2 The Bias-Variance Decomposition
ใใคใบ็ทๅฝขๅๅธฐ
โข ใใฉใกใผใฟใๅจ่พบๅใใใฐ้ๅญฆ็ฟใๅ้ฟใใใจๅ ฑใซ่จ็ทดใใผใฟใ ใใใใขใใซใฎ่ค้ใใ่ชๅ็ใซๆฑบๅฎใใใใจใใงใใ
โข ไปๅใฏ้ ปๅบฆไธป็พฉ็็ซๅ ดใใใขใใซใฎ่ค้ใใฎๅ้กใซใคใใฆ่ๅฏใใ
2015/5/13 PRML Reading 16
Fig. 1.17 ( p. 31 )
3.2 The Bias-Variance Decomposition
ๆๅพ ๆๅคฑใฎๆๅฐๅ
โข ๐ผ ๐ฟ = ๐ฆ ๐ฑ โ โ ๐ฑ 2๐ ๐ฑ โ ๐ฑ + โ ๐ฑ โ ๐ก 2๐ ๐ฑ, ๐ก โ ๐ฑโ ๐ก ( Sec. 1.5.5 )
โข ๐ฟ ๐ก, ๐ฆ ๐ฑ = ๐ฆ ๐ฑ โ ๐ก 2 : ไบไนๆๅคฑ้ขๆฐ
โข โ ๐ฑ = ๐ผ๐ก ๐ก ๐ฑ = ๐ก๐ ๐ก ๐ฑ โ ๐ฑ : ๅๅธฐ้ขๆฐ
โข ็ฌฌ 1 ้ ใ 0 ใซใใใใใช้ขๆฐ ๐ฆ ๐ฑ ใๆฑใใใ
โข ็กๆฐใฎใใผใฟ โ ๐ฑ ใๅฉ็จๅฏ่ฝ
โข ๆ้ฉ่งฃ ๐ฆ ๐ฑ = โ ๐ฑ
โข ๆ้ๅใฎใใผใฟ ๐ ใฎใฟๅฉ็จๅฏ่ฝ
โข ็ๆณ็ใชๅๅธฐ้ขๆฐใๅณๅฏใซๆฑใใใใจใฏๅฐ้ฃ
2015/5/13 PRML Reading 17
3.2 The Bias-Variance Decomposition
้ ปๅบฆไธป็พฉใซใใใๆจๅฎๅคใฎไธ็ขบๅฎๆงใฎ่ฉไพก
โข ๐ ๐ก, ๐ฑ ใซๅพใๅคๆฐใฎใใผใฟ้ๅใ็จๆ
โข ไปปๆใฎใใผใฟ้ๅ ๐ ใใไบๆธฌ้ขๆฐ ๐ฆ ๐ฑ;๐ ใๆฑใใใใใจไปฎๅฎ
โข ๐ผ๐ ๐ผ ๐ฟ = ๐ผ๐ ๐ฆ ๐ฑ;๐ โ โ ๐ฑ 2 ๐ ๐ฑ โ ๐ฑ + โ ๐ฑ โ ๐ก 2๐ ๐ฑ, ๐ก โ ๐ฑโ ๐ก
โข ๐ฆ ๐ฑ;๐ โ โ ๐ฑ 2ใ ๐ผ๐ ๐ฆ ๐ฑ;๐ ใฎๅจใใงๅฑ้
โข ๐ฆ ๐ฑ;๐ โ โ ๐ฑ 2
= ๐ฆ ๐ฑ;๐ โ ๐ผ๐ ๐ฆ ๐ฑ;๐ + ๐ผ๐ ๐ฆ ๐ฑ;๐ โ โ ๐ฑ 2
= ๐ฆ ๐ฑ;๐ โ ๐ผ๐ ๐ฆ ๐ฑ;๐ 2 + ๐ผ๐ ๐ฆ ๐ฑ;๐ โ โ ๐ฑ 2
+2 ๐ฆ ๐ฑ;๐ โ ๐ผ๐ ๐ฆ ๐ฑ;๐ ๐ผ๐ ๐ฆ ๐ฑ;๐ โ โ ๐ฑ
2015/5/13 PRML Reading 18
3.2 The Bias-Variance Decomposition
ๆๅพ ๆๅคฑใฎๅ่งฃ
โข ๐ผ๐ ๐ผ ๐ฟ = ๐๐๐๐ 2 + ๐ฃ๐๐๐๐๐๐๐ + ๐๐๐๐ ๐
โข ๐๐๐๐ 2 = ๐ผ๐ ๐ฆ ๐ฑ;๐ โ โ ๐ฑ 2๐ ๐ฑ โ ๐ฑ
โข ๅ จใฆใฎใใผใฟ้ๅใฎๅใๆนใซ้ขใใไบๆธฌๅคใฎๅนณๅใจ็ๆณ็ใชๅๅธฐ้ขๆฐใฎๅทฎใฎๆๅพ ๅค
โข ๐ฃ๐๐๐๐๐๐๐ = ๐ผ๐ ๐ฆ ๐ฑ;๐ โ ๐ผ๐ ๐ฆ ๐ฑ;๐ 2 ๐ ๐ฑ โ ๐ฑ
โข ๅใใผใฟ้ๅใซๅฏพใใ่งฃใฎ็นๅฎใฎใใผใฟ้ๅใฎ้ธใณๆนใซ้ขใใๆๅพ ๅคใฎๅจใใงใฎๅคๅใฎๅบฆๅใ
โข ๐๐๐๐ ๐ = โ ๐ฑ โ ๐ก 2๐ ๐ฑ, ๐ก โ ๐ฑโ ๐ก
โข ๅถๅพกไธๅฏ่ฝ
2015/5/13 PRML Reading 19
ใใคใขในใจใใชใขใณในใฏใใฌใผใใชใใฎ้ขไฟ๏ผ
3.2 The Bias-Variance Decomposition
ใใฌใผใใชใใฎๅฎๆง็็่งฃ
โข โ ๐ฅ = sin 2๐๐ฅ ใใ็ฌ็ซใซ๐ = 25็น๏ผ ๐ฟ = 100็จฎใฎใใผใฟ้ๅใ็ๆ
โข ๆญฃๅๅ่ชคๅทฎ้ขๆฐใๆๅฐๅใใฆไบๆธฌ้ขๆฐ ๐ฆ ๐ ๐ฅ ใๅญฆ็ฟ
โข ๐ใๅคงใใ
โข ใใฉใกใผใฟใ 0ใซ่ฟใฅใ
โข ๐ใๅฐใใ
โข ใใคใบใซ้ๅฐใซๅฝใฆใฏใพใ
2015/5/13 PRML Reading 20
๐๐๐๐ 2
large
small large
small
Fig. 3.5 ( p. 149 )
๐ฃ๐๐๐๐๐๐๐
3.2 The Bias-Variance Decomposition
ใใฌใผใใชใใฎๅฎ้็็่งฃ
โข ๐ฆ ๐ฅ =1
๐ฟ ๐=1
๐ฟ ๐ฆ ๐ ๐ฅ
โข ๐๐๐๐ 2 =1
๐ ๐=1
๐ ๐ฆ ๐ฅ๐ โ โ ๐ฅ๐2
โข ๐ฃ๐๐๐๐๐๐๐ =1
๐ ๐=1
๐ 1
๐ฟ ๐=1
๐ฟ ๐ฆ ๐ ๐ฅ๐ โ ๐ฆ ๐ฅ๐2
โข ใใ ใ๏ผๅๅธ ๐ ๐ฑ ใซ้ขใใ้ใฟไป็ฉๅใฏ๐ ๐ฑ ใใๅพใใใๆ้ใฎใใผใฟ็นใฎๅใง่ฟไผผ
2015/5/13 PRML Reading 21
ln ๐ = โ0.31ใใใใๆ้ฉ่งฃ
Fig. 3.6 ( p. 150 )
Reference
Pattern Recognition and Machine Learning [ Christopher M. Bishop, 2006 ]
โข English
โข pp. 137 โ 152
โข Japanese ( vol. 1 )
โข pp. 135 โ 150
โข Web site
โข http://research.microsoft.com/en-us/um/people/cmbishop/prml/
2015/5/13 PRML Reading 22