prml reading 3.1 - 3.2

22
PATTERN RECOGNITION and MACHINE LEARNING READING 3.1 Linear Basis Function Models 3.2 The Bias-Variance Decomposition GSIS Tohoku Univ. Tokuyama Lab. M1 Yu Ohori Korean-Japan Joint Workshop on General Optimization ใซใฆๆ’ฎๅฝฑ Korean-Japan Joint Workshop on General Optimization ใซใฆๆ’ฎๅฝฑ

Upload: yu-ohori

Post on 12-Aug-2015

213 views

Category:

Data & Analytics


2 download

TRANSCRIPT

PATTERN RECOGNITIONand MACHINE LEARNING

READING3.1 Linear Basis Function Models

3.2 The Bias-Variance Decomposition

GSIS Tohoku Univ. Tokuyama Lab. M1 Yu Ohori

Korean-Japan Joint Workshop on General Optimization ใซใฆๆ’ฎๅฝฑKorean-Japan Joint Workshop on General Optimization ใซใฆๆ’ฎๅฝฑ

3 Linear Models for Regression

Given

โ€ข ๅ…ฅๅŠ› ๐ฑ โˆˆ โ„๐ท

โ€ข ๅ…ฅๅŠ›ใƒ‡ใƒผใ‚ฟ้›†ๅˆ ๐— = ๐ฑ1 โ‹ฏ ๐ฑ๐‘ โˆˆ ๐‘€ ๐ท,๐‘;โ„

โ€ข ็›ฎๆจ™ใƒ‡ใƒผใ‚ฟ้›†ๅˆ ๐ญ = ๐‘ก1, โ€ฆ , ๐‘ก๐‘T

Goal

โ€ข ็›ฎๆจ™ๅค‰ๆ•ฐ ๐‘กใ‚’ไบˆๆธฌใ™ใ‚‹

Approach

โ€ข ้ฉๅฝ“ใช้–ขๆ•ฐ ๐‘ฆ ๐ฑ ใ‚’็›ดๆŽฅๆง‹ๆˆใ™ใ‚‹

2015/5/13 PRML Reading 2

input variable ๐ฑ

targ

et

vari

ab

le ๐‘ก

model ๐‘ฆ ๐ฑ

3.1 Linear Basis Function Models

็ทšๅฝขๅ›žๅธฐใƒขใƒ‡ใƒซโ€ข ่งฃๆžใ‚„่จˆ็ฎ—ใซใŠใ„ใฆๆœ‰็”จใชๆ€ง่ณชใ‚’ๆŒใค

โ€ข ๅ…ฅๅŠ›็ฉบ้–“ใŒ้ซ˜ๆฌกๅ…ƒใฎๅ•้กŒใซๅฏพใ—ใฆใฏไธ้ฉ ( Sec. 1.4 )

โ€ข ๆœ€ใ‚‚ๅ˜็ด”ใช็ทšๅฝขๅ›žๅธฐใƒขใƒ‡ใƒซ

โ€ข ๐‘ฆ ๐ฑ,๐ฐ = ๐‘ค0 + ๐‘—=1๐ท ๐‘ค๐‘—๐‘ฅ๐‘—

โ€ข ๐ท ๆฌกๅ…ƒใฎ่ถ…ๅนณ้ข

โ€ข ็ทšๅฝขๅŸบๅบ•้–ขๆ•ฐใƒขใƒ‡ใƒซ

โ€ข ๐‘ฆ ๐ฑ,๐ฐ = ๐‘ค0 + ๐‘—=1๐‘€โˆ’1๐‘ค๐‘—๐œ™๐‘— ๐ฑ = ๐ฐT๐“ ๐ฑ

โ€ข ๐“ = ๐œ™0, โ€ฆ , ๐œ™๐‘€โˆ’1๐“

โ€ข ๐œ™๐‘— ( ๐œ™0 = 1 ) : ๅŸบๅบ•้–ขๆ•ฐ

2015/5/13 PRML Reading 3

๐‘ฆ ๐ฑ,๐ฐ

๐“ ๐ฑ

๐ฑ

๐‘ก

input vector

feature vector

3.1 Linear Basis Function Models

ๅŸบๅบ•้–ขๆ•ฐ

i. ๅคš้ …ๅผ ๐œ™๐‘— ๐‘ฅ = ๐‘ฅ๐‘—

ii. ใ‚ฌใ‚ฆใ‚นๅŸบๅบ•้–ขๆ•ฐ ๐œ™๐‘— ๐‘ฅ = exp โˆ’๐‘ฅโˆ’๐œ‡๐‘—

2

2๐‘ 2

โ€ข ๐œ‡๐‘— : ๅ…ฅๅŠ›็ฉบ้–“ใซใŠใ‘ใ‚‹ๅŸบๅบ•้–ขๆ•ฐใฎไฝ็ฝฎ

โ€ข ๐‘  : ็ฉบ้–“ใฎๅฐบๅบฆ

iii. ใ‚ทใ‚ฐใƒขใ‚คใƒ‰ๅŸบๅบ•้–ขๆ•ฐ ๐œ™๐‘— ๐‘ฅ = ๐œŽ โˆ’๐‘ฅโˆ’๐œ‡๐‘—

๐‘ 

โ€ข ใƒญใ‚ธใ‚นใƒ†ใ‚ฃใƒƒใ‚ฏใ‚ทใ‚ฐใƒขใ‚คใƒ‰้–ขๆ•ฐ ๐œŽ ๐‘Ž =1

1+exp โˆ’๐‘Ž

iv. ใƒ•ใƒผใƒชใ‚จๅŸบๅบ•

v. ใ‚ฆใ‚งใƒผใƒ–ใƒฌใƒƒใƒˆ

2015/5/13 PRML Reading 4

ไปฅ้™ใฎ่ญฐ่ซ–ใงใฏๅŸบๅบ•้–ขๆ•ฐใฎๅฝขใจๆ•ฐใ‚’ๅ›บๅฎšใ™ใ‚‹

Fig. 3.1 ( p. 137 )

Polynomials basis

function

Gaussians basis

function

Sigmoidal basis

function

3.1.1 Maximum likelihood and least squares

็›ฎๆจ™ๅค‰ๆ•ฐใ‚’ๆฑบๅฎš่ซ–็š„้–ขๆ•ฐใจใ‚ฌใ‚ฆใ‚นใƒŽใ‚คใ‚บใฎๅ’Œใจไปฎๅฎš

โ€ข ๐‘ก = ๐‘ฆ ๐ฑ,๐ฐ + ๐œ–

โ€ข ๐œ– : ใ‚ฌใ‚ฆใ‚น็ขบ็Ž‡ๅค‰ๆ•ฐ

โ€ข ๐‘ ๐ญ ๐ฑ,๐ฐ, ๐›ฝ = ๐’ฉ ๐‘ก ๐‘ฆ ๐ฑ,๐ฐ , ๐›ฝโˆ’1

ใƒ‡ใƒผใ‚ฟ้›†ๅˆ ๐ญใ‚’i.d.d. ใจไปฎๅฎš

โ€ข ๅฐคๅบฆ้–ขๆ•ฐ ๐‘ ๐ญ ๐—,๐ฐ, ๐›ฝ = ๐‘›=1๐‘ ๐’ฉ ๐‘ก๐‘› ๐ฐT๐“ ๐ฑ๐‘› , ๐›ฝโˆ’1

โ€ข ๅฏพๆ•ฐๅฐคๅบฆ้–ขๆ•ฐ ln ๐‘ ๐ญ ๐ฐ, ๐›ฝ =๐‘

2ln ๐›ฝ โˆ’

๐‘

2ln 2๐œ‹ โˆ’ ๐›ฝ๐ธ๐ท ๐ฐ

โ€ข ๐ธ๐ท ๐ฐ =1

2 ๐‘›=1

๐‘ ๐‘ก๐‘› โˆ’ ๐ฐT๐“ ๐ฑ๐‘›2 : ไบŒไน—ๅ’Œ่ชคๅทฎ้–ขๆ•ฐ

2015/5/13 PRML Reading 5

Fig. 1.3 ( p. 6 )

3.1.1 Maximum likelihood and least squares

ๅฏพๆ•ฐๅฐคๅบฆ้–ขๆ•ฐใ‚’ ๐ฐ ใซใคใ„ใฆๆœ€ๅคงๅŒ–๏ผˆไบŒไน—ๅ’Œ่ชคๅทฎ้–ขๆ•ฐใ‚’ๆœ€ๅฐๅŒ–๏ผ‰

โ€ข ๐›ป ln ๐‘ ๐ญ ๐ฐ, ๐›ฝ ๐ฐ=๐ฐML,๐›ฝ=๐›ฝML= 0ใ‚’่งฃใใจ

โ€ข ๐ฐML = ๐šฝT๐šฝโˆ’1

๐šฝT๐ญ : ๆญฃ่ฆๆ–น็จ‹ๅผ

โ€ข ๐šฝ : ่จˆ็”ป่กŒๅˆ—

โ€ข ๐šฝโ€  โ‰ก ๐šฝT๐šฝโˆ’1

๐šฝT : ใƒ ใƒผใ‚ขใƒปใƒšใƒณใƒญใƒผใ‚บใฎ็–‘ไผผ้€†่กŒๅˆ—

ๅฏพๆ•ฐๅฐคๅบฆ้–ขๆ•ฐใ‚’ ๐›ฝ ใซใคใ„ใฆๆœ€ๅคงๅŒ–

โ€ข๐œ•

๐œ•๐›ฝln ๐‘ ๐ญ ๐ฐ, ๐›ฝ

๐ฐ=๐ฐML,๐›ฝ=๐›ฝML

= 0ใ‚’่งฃใใจ

โ€ข1

๐›ฝML=

1

๐‘ ๐‘›=1

๐‘ ๐‘ก๐‘› โˆ’ ๐ฐT๐“ ๐ฑ๐‘›2

2015/5/13 PRML Reading 6

๐šฝ =

๐œ™0 ๐ฑ1 ๐œ™1 ๐ฑ1 โ€ฆ ๐œ™๐‘€โˆ’1 ๐ฑ1

๐œ™0 ๐ฑ2

โ‹ฎ๐œ™0 ๐ฑ๐‘

๐œ™1 ๐ฑ2 โ€ฆ ๐œ™๐‘€โˆ’1 ๐ฑ2

โ‹ฎ โ‹ฑ โ‹ฎ๐œ™1 ๐ฑ๐‘ โ€ฆ ๐œ™๐‘€โˆ’1 ๐ฑ๐‘

3.1.1 Maximum likelihood and least squares

ใƒใ‚คใ‚ขใ‚นใƒ‘ใƒฉใƒกใƒผใ‚ฟ ๐‘ค0

โ€ข๐œ•

๐œ•๐‘ค0๐ธ๐ท ๐ฐ = 0ใ‚’่งฃใใจ

โ€ข ๐‘ค0 = ๐‘ก โˆ’ ๐‘—=1๐‘€โˆ’1๐‘ค๐‘—๐œ™๐‘—

โ€ข ๐‘ก =1

๐‘ ๐‘›=1

๐‘ ๐‘ก๐‘›

โ€ข ๐œ™๐‘— =1

๐‘ ๐‘›=1

๐‘ ๐œ™๐‘— ๐ฑ๐‘›

โ€ข ใƒ‡ใƒผใ‚ฟใฎไปปๆ„ใฎๅ›บๅฎšใ•ใ‚ŒใŸใ‚ชใƒ•ใ‚ปใƒƒใƒˆ้‡ใ‚’่จฑๅฎนใ™ใ‚‹ๅฝนๅ‰ฒ

2015/5/13 PRML Reading 7

input variable ๐ฑ

targ

et

vari

ab

le ๐‘ก

๐‘ค0

่จˆ็”ป่กŒๅˆ— ๐šฝ

๐šฝ =

๐œ™0 ๐ฑ1 ๐œ™1 ๐ฑ1 โ‹ฏ ๐œ™๐‘€โˆ’1 ๐ฑ1

๐œ™0 ๐ฑ2

โ‹ฎ๐œ™0 ๐ฑ๐‘

๐œ™1 ๐ฑ2 โ€ฆ ๐œ™๐‘€โˆ’1 ๐ฑ2

โ‹ฎ โ‹ฑ โ‹ฎ๐œ™1 ๐ฑ๐‘ โ‹ฏ ๐œ™๐‘€โˆ’1 ๐ฑ๐‘

= ๐‹0 โ‹ฏ ๐‹๐‘€โˆ’1 โˆˆ ๐‘€ ๐‘,๐‘€;โ„

ใƒ™ใ‚ฏใƒˆใƒซ ๐ฒ

๐ฒ =๐‘ฆ ๐ฑ1, ๐ฐ

โ‹ฎ๐‘ฆ ๐ฑ๐‘ , ๐ฐ

=

๐‘—=0

๐‘€โˆ’1

๐‘ค๐‘—๐œ™๐‘— ๐ฑ1

โ‹ฎ

๐‘—=0

๐‘€โˆ’1

๐‘ค๐‘—๐œ™๐‘— ๐ฑ๐‘

= ๐‘—=0

๐‘€โˆ’1

๐‘ค๐‘—๐‹๐‘— = ๐šฝ๐ฐ โˆˆ โ„๐‘

ไบŒไน—ๅ’Œ่ชคๅทฎ้–ขๆ•ฐ ๐ธ๐ท ๐ฐ

๐ธ๐ท ๐ฐ =1

2

๐‘›=1

๐‘

๐‘ก๐‘› โˆ’ ๐ฐT๐“ ๐ฑ๐‘›2 =

1

2๐ญ โˆ’ ๐ฒ 2

3.1.2 Geometry of least squares

2015/5/13 PRML Reading 8

๐ฒใจ ๐ญใฎไบŒไน—ใƒฆใƒผใ‚ฏใƒชใƒƒใƒ‰่ท้›ข

๐‹๐‘— ใฎไปปๆ„ใฎ็ทšๅฝข็ตๅˆ

3.1.2 Geometry of least squares

ๆœ€ๅฐไบŒไน—่งฃใฎๅนพไฝ•ๅญฆ็š„่งฃ้‡ˆ

โ€ข ๅ„่ปธใŒ็›ฎๆจ™ๅ€ค ๐‘ก๐‘› ใงไธŽใˆใ‚‰ใ‚Œใ‚‹ ๐‘ๆฌกๅ…ƒ็ฉบ้–“ใ‚’่€ƒใˆใ‚‹

โ€ข ๐‘€ๅ€‹ใฎใƒ™ใ‚ฏใƒˆใƒซ ๐‹๐‘— ใฏ ๐‘€ๆฌกๅ…ƒ้ƒจๅˆ†็ฉบ้–“ ๐‘†ใ‚’ๅผตใ‚‹

โ€ข ๆœ€ๅฐไบŒไน—่งฃใฏ ๐ญใฎ้ƒจๅˆ†็ฉบ้–“ ๐‘†ใฎไธŠใธใฎๆญฃๅฐ„ๅฝฑใซๅฏพๅฟœใ™ใ‚‹

2015/5/13 PRML Reading 9

Fig. 3.2 ( p. 141 )

3.1.3 Sequential learning

ใƒใƒƒใƒๆ‰‹ๆณ•

โ€ข ๅ…จใฆใฎ่จ“็ทดใƒ‡ใƒผใ‚ฟ้›†ๅˆใ‚’ไธ€ๅบฆใซๅ‡ฆ็†

โ€ข ๅคง่ฆๆจกใชใƒ‡ใƒผใ‚ฟ้›†ๅˆใซๅฏพใ—ใฆใฏไธ้ฉ

้€ๆฌกๅญฆ็ฟ’

โ€ข ใƒ‡ใƒผใ‚ฟ็‚นใ‚’ไธ€ๅบฆใซไธ€ใคใ ใ‘็”จใ„ใฆใƒ‘ใƒฉใƒกใƒผใ‚ฟใ‚’้ †ๆฌกๆ›ดๆ–ฐ

โ€ข ใƒชใ‚ขใƒซใ‚ฟใ‚คใƒ ใชๅฟœ็”จใฎๅ ด้ขใซใ‚‚ๆœ‰ๅŠน

โ€ข LMS ใ‚ขใƒซใ‚ดใƒชใ‚บใƒ 

โ€ข ๐ฐ ๐œ+1 = ๐ฐ ๐œ โˆ’ ๐œ‚๐›ป๐ธ๐‘› = ๐ฐ ๐œ + ๐œ‚ ๐‘ก๐‘› โˆ’ ๐ฐ ๐œ T๐“ ๐ฑ๐‘› ๐“ ๐ฑ๐‘›

โ€ข ๐ธ = ๐‘› ๐ธ๐‘› = ๐ธ๐ท ๐ฐ

โ€ข ๐œ :็นฐ่ฟ”ใ—ๅ›žๆ•ฐ

โ€ข ๐œ‚ :ๅญฆ็ฟ’็Ž‡ใƒ‘ใƒฉใƒกใƒผใ‚ฟ

2015/5/13 PRML Reading 10

3.1.4 Regularized least squares

ๆญฃๅ‰‡ๅŒ–

โ€ข ้Žๅญฆ็ฟ’ใ‚’้˜ฒใใŸใ‚่ชคๅทฎ้–ขๆ•ฐใซ็ฝฐ้‡‘้ …ใ‚’ไป˜ๅŠ 

โ€ข ๐ธ ๐ฐ = ๐ธ๐ท ๐ฐ + ๐œ†๐ธ๐‘Š ๐ฐ

โ€ข ๐ธ๐ท ๐ฐ : ไบŒไน—ๅ’Œ่ชคๅทฎ้–ขๆ•ฐ

โ€ข ๐ธ๐‘Š ๐ฐ =1

2๐ฐ 2 : ไบŒๆฌกๆญฃๅ‰‡ๅŒ–้ …

โ€ข ๐œ† : ๆญฃๅ‰‡ๅŒ–ไฟ‚ๆ•ฐ

โ€ข ๆญฃๅ‰‡ๅŒ–่ชคๅทฎ้–ขๆ•ฐใ‚’ ๐ฐ ใซใคใ„ใฆๆœ€ๅฐๅŒ–

โ€ข ๐ฐ = ๐œ†๐ˆ + ๐šฝT๐šฝโˆ’1

๐šฝT๐ญ

2015/5/13 PRML Reading 11

3.1.4 Regularized least squares

ไธ€่ˆฌ็š„ใชๆญฃๅ‰‡ๅŒ–้ …

โ€ข ๐ธ๐‘Š ๐ฐ =1

2 ๐‘—=1

๐‘€ ๐‘ค๐‘—๐‘ž

2015/5/13 PRML Reading 12

๐œ†ใŒๅๅˆ†ใซๅคงใใ„ใจใ็–Žใช่งฃใŒๅพ—ใ‚‰ใ‚Œใ‚‹

Fig. 3.3 ( p. 143 )

lasso

๐‘ค1

๐‘ค2

3.1.5 Multiple outputs

Given

โ€ข ๅ…ฅๅŠ› ๐ฑ โˆˆ โ„๐ท

โ€ข ๅ…ฅๅŠ›ใƒ‡ใƒผใ‚ฟ้›†ๅˆ ๐— = ๐ฑ1 โ‹ฏ ๐ฑ๐‘ โˆˆ ๐‘€ ๐ท,๐‘;โ„

โ€ข ็›ฎๆจ™ใƒ‡ใƒผใ‚ฟ้›†ๅˆ T= ๐ญ1T โ‹ฏ ๐ญ๐‘

T T โˆˆ ๐‘€ ๐‘,๐พ;โ„

Goal

โ€ข ็›ฎๆจ™ๅค‰ๆ•ฐ ๐ญ โˆˆ โ„๐พ ใ‚’ไบˆๆธฌใ™ใ‚‹

Approach

โ€ข ๐ญใฎๅ…จใฆใฎ่ฆ็ด ใซๅŒใ˜ๅŸบๅบ•้–ขๆ•ฐใ‚’็”จใ„ใฆใƒขใƒ‡ใƒซๅŒ–

โ€ข ๐ฒ ๐ฑ,๐ฐ = ๐–T๐“ ๐ฑ๐‘› โˆˆ โ„๐พ

2015/5/13 PRML Reading 13

3.1.5 Multiple outputs

็›ฎๆจ™ๅค‰ๆ•ฐใฎๆกไปถไป˜ๅˆ†ๅธƒใ‚’ๆฌกใฎๅฝขใฎ็ญ‰ๆ–นๆ€งใ‚ฌใ‚ฆใ‚นๅˆ†ๅธƒใจไปฎๅฎš

โ€ข ๐‘ ๐ญ ๐ฑ,๐–, ๐›ฝ = ๐’ฉ ๐ญ ๐–T๐“ ๐ฑ , ๐›ฝโˆ’1๐ˆ

ใƒ‡ใƒผใ‚ฟ้›†ๅˆ Tใ‚’i.d.d. ใจไปฎๅฎš

โ€ข ๐‘ ๐“ ๐—,๐–, ๐›ฝ = ๐‘›=1๐‘ ๐’ฉ ๐ญ๐‘› ๐–T๐“ ๐ฑ๐‘› , ๐›ฝโˆ’1๐ˆ

โ€ข ln ๐‘ ๐“ ๐—,๐–, ๐›ฝ =๐‘๐พ

2ln

๐›ฝ

2๐œ‹โˆ’

๐›ฝ

๐Ÿ ๐‘›=1

๐‘ ๐ญ๐‘› โˆ’ ๐–T๐“ ๐ฑ๐‘›2

ๅฏพๆ•ฐๅฐคๅบฆ้–ขๆ•ฐใ‚’ ๐– ใซใคใ„ใฆๆœ€ๅคงๅŒ–

โ€ข ๐–ML = ๐šฝโ€ ๐“

โ€ข ๐ฐ๐‘˜ = ๐šฝโ€ ๐ญ๐‘˜ (๐ญ๐‘˜ โˆˆ โ„๐‘ )

โ€ข ๐พ ๅ€‹ใฎ็‹ฌ็ซ‹ใช 1ๆฌกๅ…ƒๅ›žๅธฐๅ•้กŒใซๅธฐ็€ๅฏ่ƒฝ

2015/5/13 PRML Reading 14

3.2 The Bias-Variance Decomposition

ๆœ€ๅฐคๆŽจๅฎšใฎๆฌ ็‚นโ€ข ้™ใ‚‰ใ‚ŒใŸใ‚ตใ‚คใ‚บใฎ่จ“็ทดใƒ‡ใƒผใ‚ฟ้›†ๅˆใ‚’็”จใ„ใฆ่ค‡้›‘ใชใƒขใƒ‡ใƒซใ‚’ๅญฆ็ฟ’ใ—ใ‚ˆใ†ใจใ™ใ‚‹ใจ้Žๅญฆ็ฟ’ใ™ใ‚‹ๆใ‚ŒใŒใ‚ใ‚‹

้Žๅญฆ็ฟ’ใฎๅ›ž้ฟๆ–นๆณ•i. ๅŸบๅบ•้–ขๆ•ฐใฎๆ•ฐใ‚’้™ๅฎš

โ€ข ใƒขใƒ‡ใƒซใฎ่กจ็พ่ƒฝๅŠ›ใŒ้™ใ‚‰ใ‚Œใ‚‹

ii. ๆญฃๅ‰‡ๅŒ–โ€ข ใƒขใƒ‡ใƒซใฎ่ค‡้›‘ใ•ใฎๅ•้กŒใ‚’ๆญฃๅ‰‡ๅŒ–ไฟ‚ๆ•ฐใ‚’้ฉๅˆ‡ใซๆฑบใ‚ใ‚‹ๅ•้กŒใซ็ฝฎใๆ›ใˆใŸใ ใ‘

iii. ใƒ™ใ‚คใ‚บ็š„ๅ–ๆ‰ฑใ„

2015/5/13 PRML Reading 15

Fig. 1.4 ( p. 6 )

3.2 The Bias-Variance Decomposition

ใƒ™ใ‚คใ‚บ็ทšๅฝขๅ›žๅธฐ

โ€ข ใƒ‘ใƒฉใƒกใƒผใ‚ฟใ‚’ๅ‘จ่พบๅŒ–ใ™ใ‚Œใฐ้Žๅญฆ็ฟ’ใ‚’ๅ›ž้ฟใ™ใ‚‹ใจๅ…ฑใซ่จ“็ทดใƒ‡ใƒผใ‚ฟใ ใ‘ใ‹ใ‚‰ใƒขใƒ‡ใƒซใฎ่ค‡้›‘ใ•ใ‚’่‡ชๅ‹•็š„ใซๆฑบๅฎšใ™ใ‚‹ใ“ใจใŒใงใใ‚‹

โ€ข ไปŠๅ›žใฏ้ ปๅบฆไธป็พฉ็š„็ซ‹ๅ ดใ‹ใ‚‰ใƒขใƒ‡ใƒซใฎ่ค‡้›‘ใ•ใฎๅ•้กŒใซใคใ„ใฆ่€ƒๅฏŸใ™ใ‚‹

2015/5/13 PRML Reading 16

Fig. 1.17 ( p. 31 )

3.2 The Bias-Variance Decomposition

ๆœŸๅพ…ๆๅคฑใฎๆœ€ๅฐๅŒ–

โ€ข ๐”ผ ๐ฟ = ๐‘ฆ ๐ฑ โˆ’ โ„Ž ๐ฑ 2๐‘ ๐ฑ โ…†๐ฑ + โ„Ž ๐ฑ โˆ’ ๐‘ก 2๐‘ ๐ฑ, ๐‘ก โ…†๐ฑโ…†๐‘ก ( Sec. 1.5.5 )

โ€ข ๐ฟ ๐‘ก, ๐‘ฆ ๐ฑ = ๐‘ฆ ๐ฑ โˆ’ ๐‘ก 2 : ไบŒไน—ๆๅคฑ้–ขๆ•ฐ

โ€ข โ„Ž ๐ฑ = ๐”ผ๐‘ก ๐‘ก ๐ฑ = ๐‘ก๐‘ ๐‘ก ๐ฑ โ…†๐ฑ : ๅ›žๅธฐ้–ขๆ•ฐ

โ€ข ็ฌฌ 1 ้ …ใ‚’ 0 ใซใ™ใ‚‹ใ‚ˆใ†ใช้–ขๆ•ฐ ๐‘ฆ ๐ฑ ใ‚’ๆฑ‚ใ‚ใŸใ„

โ€ข ็„กๆ•ฐใฎใƒ‡ใƒผใ‚ฟ โ„Ž ๐ฑ ใŒๅˆฉ็”จๅฏ่ƒฝ

โ€ข ๆœ€้ฉ่งฃ ๐‘ฆ ๐ฑ = โ„Ž ๐ฑ

โ€ข ๆœ‰้™ๅ€‹ใฎใƒ‡ใƒผใ‚ฟ ๐’Ÿ ใฎใฟๅˆฉ็”จๅฏ่ƒฝ

โ€ข ็†ๆƒณ็š„ใชๅ›žๅธฐ้–ขๆ•ฐใ‚’ๅŽณๅฏ†ใซๆฑ‚ใ‚ใ‚‹ใ“ใจใฏๅ›ฐ้›ฃ

2015/5/13 PRML Reading 17

3.2 The Bias-Variance Decomposition

้ ปๅบฆไธป็พฉใซใŠใ‘ใ‚‹ๆŽจๅฎšๅ€คใฎไธ็ขบๅฎŸๆ€งใฎ่ฉ•ไพก

โ€ข ๐‘ ๐‘ก, ๐ฑ ใซๅพ“ใ†ๅคšๆ•ฐใฎใƒ‡ใƒผใ‚ฟ้›†ๅˆใ‚’็”จๆ„

โ€ข ไปปๆ„ใฎใƒ‡ใƒผใ‚ฟ้›†ๅˆ ๐’Ÿ ใ‹ใ‚‰ไบˆๆธฌ้–ขๆ•ฐ ๐‘ฆ ๐ฑ;๐’Ÿ ใ‚’ๆฑ‚ใ‚ใ‚‰ใ‚Œใ‚‹ใจไปฎๅฎš

โ€ข ๐”ผ๐’Ÿ ๐”ผ ๐ฟ = ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ โ„Ž ๐ฑ 2 ๐‘ ๐ฑ โ…†๐ฑ + โ„Ž ๐ฑ โˆ’ ๐‘ก 2๐‘ ๐ฑ, ๐‘ก โ…†๐ฑโ…†๐‘ก

โ€ข ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ โ„Ž ๐ฑ 2ใ‚’ ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ ใฎๅ‘จใ‚Šใงๅฑ•้–‹

โ€ข ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ โ„Ž ๐ฑ 2

= ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ + ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ โ„Ž ๐ฑ 2

= ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ 2 + ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ โ„Ž ๐ฑ 2

+2 ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ โ„Ž ๐ฑ

2015/5/13 PRML Reading 18

3.2 The Bias-Variance Decomposition

ๆœŸๅพ…ๆๅคฑใฎๅˆ†่งฃ

โ€ข ๐”ผ๐’Ÿ ๐”ผ ๐ฟ = ๐‘๐‘–๐‘Ž๐‘  2 + ๐‘ฃ๐‘Ž๐‘Ÿ๐‘–๐‘Ž๐‘›๐‘๐‘’ + ๐‘›๐‘œ๐‘–๐‘ ๐‘’

โ€ข ๐‘๐‘–๐‘Ž๐‘  2 = ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ โ„Ž ๐ฑ 2๐‘ ๐ฑ โ…†๐ฑ

โ€ข ๅ…จใฆใฎใƒ‡ใƒผใ‚ฟ้›†ๅˆใฎๅ–ใ‚Šๆ–นใซ้–ขใ™ใ‚‹ไบˆๆธฌๅ€คใฎๅนณๅ‡ใจ็†ๆƒณ็š„ใชๅ›žๅธฐ้–ขๆ•ฐใฎๅทฎใฎๆœŸๅพ…ๅ€ค

โ€ข ๐‘ฃ๐‘Ž๐‘Ÿ๐‘–๐‘Ž๐‘›๐‘๐‘’ = ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ โˆ’ ๐”ผ๐’Ÿ ๐‘ฆ ๐ฑ;๐’Ÿ 2 ๐‘ ๐ฑ โ…†๐ฑ

โ€ข ๅ„ใƒ‡ใƒผใ‚ฟ้›†ๅˆใซๅฏพใ™ใ‚‹่งฃใฎ็‰นๅฎšใฎใƒ‡ใƒผใ‚ฟ้›†ๅˆใฎ้ธใณๆ–นใซ้–ขใ™ใ‚‹ๆœŸๅพ…ๅ€คใฎๅ‘จใ‚Šใงใฎๅค‰ๅ‹•ใฎๅบฆๅˆใ„

โ€ข ๐‘›๐‘œ๐‘–๐‘ ๐‘’ = โ„Ž ๐ฑ โˆ’ ๐‘ก 2๐‘ ๐ฑ, ๐‘ก โ…†๐ฑโ…†๐‘ก

โ€ข ๅˆถๅพกไธๅฏ่ƒฝ

2015/5/13 PRML Reading 19

ใƒใ‚คใ‚ขใ‚นใจใƒใƒชใ‚ขใƒณใ‚นใฏใƒˆใƒฌใƒผใƒ‰ใ‚ชใƒ•ใฎ้–ขไฟ‚๏ผ

3.2 The Bias-Variance Decomposition

ใƒˆใƒฌใƒผใƒ‰ใ‚ชใƒ•ใฎๅฎšๆ€ง็š„็†่งฃ

โ€ข โ„Ž ๐‘ฅ = sin 2๐œ‹๐‘ฅ ใ‹ใ‚‰็‹ฌ็ซ‹ใซ๐‘ = 25็‚น๏ผŒ ๐ฟ = 100็จฎใฎใƒ‡ใƒผใ‚ฟ้›†ๅˆใ‚’็”Ÿๆˆ

โ€ข ๆญฃๅ‰‡ๅŒ–่ชคๅทฎ้–ขๆ•ฐใ‚’ๆœ€ๅฐๅŒ–ใ—ใฆไบˆๆธฌ้–ขๆ•ฐ ๐‘ฆ ๐‘™ ๐‘ฅ ใ‚’ๅญฆ็ฟ’

โ€ข ๐œ†ใŒๅคงใใ„

โ€ข ใƒ‘ใƒฉใƒกใƒผใ‚ฟใŒ 0ใซ่ฟ‘ใฅใ

โ€ข ๐œ†ใŒๅฐใ•ใ„

โ€ข ใƒŽใ‚คใ‚บใซ้Žๅ‰ฐใซๅฝ“ใฆใฏใพใ‚‹

2015/5/13 PRML Reading 20

๐‘๐‘–๐‘Ž๐‘  2

large

small large

small

Fig. 3.5 ( p. 149 )

๐‘ฃ๐‘Ž๐‘Ÿ๐‘–๐‘Ž๐‘›๐‘๐‘’

3.2 The Bias-Variance Decomposition

ใƒˆใƒฌใƒผใƒ‰ใ‚ชใƒ•ใฎๅฎš้‡็š„็†่งฃ

โ€ข ๐‘ฆ ๐‘ฅ =1

๐ฟ ๐‘™=1

๐ฟ ๐‘ฆ ๐‘™ ๐‘ฅ

โ€ข ๐‘๐‘–๐‘Ž๐‘  2 =1

๐‘ ๐‘›=1

๐‘ ๐‘ฆ ๐‘ฅ๐‘› โˆ’ โ„Ž ๐‘ฅ๐‘›2

โ€ข ๐‘ฃ๐‘Ž๐‘Ÿ๐‘–๐‘Ž๐‘›๐‘๐‘’ =1

๐‘ ๐‘›=1

๐‘ 1

๐ฟ ๐‘™=1

๐ฟ ๐‘ฆ ๐‘™ ๐‘ฅ๐‘› โˆ’ ๐‘ฆ ๐‘ฅ๐‘›2

โ€ข ใŸใ ใ—๏ผŒๅˆ†ๅธƒ ๐‘ ๐ฑ ใซ้–ขใ™ใ‚‹้‡ใฟไป˜็ฉๅˆ†ใฏ๐‘ ๐ฑ ใ‹ใ‚‰ๅพ—ใ‚‰ใ‚ŒใŸๆœ‰้™ใฎใƒ‡ใƒผใ‚ฟ็‚นใฎๅ’Œใง่ฟ‘ไผผ

2015/5/13 PRML Reading 21

ln ๐œ† = โˆ’0.31ใ‚ใŸใ‚ŠใŒๆœ€้ฉ่งฃ

Fig. 3.6 ( p. 150 )

Reference

Pattern Recognition and Machine Learning [ Christopher M. Bishop, 2006 ]

โ€ข English

โ€ข pp. 137 โ€“ 152

โ€ข Japanese ( vol. 1 )

โ€ข pp. 135 โ€“ 150

โ€ข Web site

โ€ข http://research.microsoft.com/en-us/um/people/cmbishop/prml/

2015/5/13 PRML Reading 22