prml reading 5.1 - 5.2

28
PATTERN RECOGNITION and MACHINE LEARNING READING 5.1 Feed-forward Network Functions 5.2 Network Training GSIS Tohoku Univ. Tokuyama Lab. M1 Yu Ohori

Upload: yu-ohori

Post on 08-Aug-2015

276 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: PRML Reading 5.1 - 5.2

PATTERN RECOGNITION and MACHINE LEARNING

READING5.1 Feed-forward Network Functions

5.2 Network Training

GSIS Tohoku Univ. Tokuyama Lab. M1 Yu Ohori

Page 2: PRML Reading 5.1 - 5.2

5 Neural Networks

2015/6/3 PRML Reading 2

็ทšๅฝขใƒขใƒ‡ใƒซ

๐‘ฆ ๐ฑ, ๐ฐ = ๐‘“ ๐‘—=1

๐‘€

๐‘ค๐‘—๐œ™๐‘— ๐ฑ

โ€ข ๐œ™๐‘— ๐ฑ :ๅŸบๅบ•้–ขๆ•ฐ

โ€ข ๐‘“ โˆ™ : ๆ’็ญ‰ๅ†™ๅƒ๏ผˆๅ›žๅธฐ๏ผ‰ใ‚ใ‚‹ใ„ใฏ้ž็ทšๅฝขๆดปๆ€งๅŒ–้–ขๆ•ฐ๏ผˆใ‚ฏใƒฉใ‚นๅˆ†้กž๏ผ‰

โ€ข ่งฃๆžใ‚„่จˆ็ฎ—ใซใŠใ„ใฆๆœ‰็”จใชๆ€ง่ณชใ‚’ๆŒใค

โ€ข ๆฌกๅ…ƒใฎๅ‘ชใ„ใฎใŸใ‚ๅฎŸ้š›็š„ใชๅฟœ็”จๅฏ่ƒฝๆ€งใฏ้™ใ‚‰ใ‚Œใ‚‹

โ€ข ๅŸบๅบ•้–ขๆ•ฐใ‚’ใƒ‡ใƒผใ‚ฟใซ้ฉๅฟœใ•ใ›ใ‚‹ๅฟ…่ฆใŒใ‚ใ‚‹

โ€ข ใ‚ตใƒใƒผใƒˆใƒ™ใ‚ฏใƒˆใƒซใƒžใ‚ทใƒณ ( SVM )

โ€ข ใƒ•ใ‚ฃใƒผใƒ‰ใƒ•ใ‚ฉใƒฏใƒผใƒ‰ใƒ‹ใƒฅใƒผใƒฉใƒซใƒใƒƒใƒˆใƒฏใƒผใ‚ฏ

Page 3: PRML Reading 5.1 - 5.2

5.1 Feed-forward Network Functions

ใƒ‹ใƒฅใƒผใƒฉใƒซใƒใƒƒใƒˆใƒฏใƒผใ‚ฏใƒขใƒ‡ใƒซโ€ข ๅŸบๅบ•้–ขๆ•ฐใฏใƒ‘ใƒฉใƒกใƒผใ‚ฟไพๅญ˜

โ€ข ่จ“็ทดไธญใซใƒ‘ใƒฉใƒกใƒผใ‚ฟใ‚’่ชฟๆ•ด

โ€ข ๅˆฉ็‚นโ€ข ใ‚ณใƒณใƒ‘ใ‚ฏใƒˆ๏ผˆๅŸบๅบ•้–ขๆ•ฐใฎๆ•ฐใŒๅฐ‘ใชใ„๏ผ‰

โ€ข ๆ–ฐ่ฆใƒ‡ใƒผใ‚ฟใฎ่ฟ…้€Ÿใชๅ‡ฆ็†ใŒๅฏ่ƒฝโ€ข ไธ‡่ƒฝ่ฟ‘ไผผๅ™จ

โ€ข ้ซ˜ใ„้–ขๆ•ฐ่ฟ‘ไผผ่ƒฝๅŠ›

โ€ข ๆฌ ็‚นโ€ข ๅฐคๅบฆ้–ขๆ•ฐใŒ้žๅ‡ธ้–ขๆ•ฐ

โ€ข ้žๅ‡ธๆœ€้ฉๅŒ–ๅ•้กŒใ‚’่งฃใๅฟ…่ฆใŒใ‚ใ‚‹

2015/6/3 PRML Reading 3

ฮฃ ๐‘“ โˆ™output

input

unit

๐‘ฅ1

๐‘ฅ2

๐‘ฅ3

๐‘ฅ๐ท

๐‘ฆ

ยฉ 2015 WDB Co., Ltd

Page 4: PRML Reading 5.1 - 5.2

5.1 Feed-forward Network Functions

2015/6/3 PRML Reading 4

ๅŸบๆœฌ็š„ใชใƒ‹ใƒฅใƒผใƒฉใƒซใƒใƒƒใƒˆใƒฏใƒผใ‚ฏใƒขใƒ‡ใƒซ

โ€ข ๅ…ฅๅŠ›ๅค‰ๆ•ฐใฎ็ทšๅฝขๅ’Œใ‚’็”Ÿๆˆ

๐‘Ž๐‘— = ๐‘–=1

๐ท

๐‘ค๐‘—๐‘–1

๐‘ฅ๐‘– + ๐‘ค๐‘—01

= ๐‘–=0

๐ท

๐‘ค๐‘—๐‘–1

๐‘ฅ๐‘–

โ€ข ๐‘Ž๐‘— : ๆดปๆ€ง

โ€ข ๐‘ค๐‘—01

: ใƒใ‚คใ‚ขใ‚นใƒ‘ใƒฉใƒกใƒผใ‚ฟ

โ€ข ๐‘ฅ0 = 0

โ€ข 1 ใฏ 1ๅฑค็›ฎใ‚’็คบใ™

โ€ข ๆดปๆ€งใ‚’้ž็ทšๅฝขๆดปๆ€งๅŒ–้–ขๆ•ฐใงๅค‰ๆ›๐‘ง๐‘— = โ„Ž ๐‘Ž๐‘—

โ€ข ๐‘ง๐‘— : ้š ใ‚Œใƒฆใƒ‹ใƒƒใƒˆ

โ€ข โ„Ž โˆ™ : ๅพฎๅˆ†ๅฏ่ƒฝใช้ž็ทšๅฝขๆดปๆ€งๅŒ–้–ขๆ•ฐ

Fig. 5.1 ( p. 228 )

Page 5: PRML Reading 5.1 - 5.2

5.1 Feed-forward Network Functions

2015/6/3 PRML Reading 5

ๅŸบๆœฌ็š„ใชใƒ‹ใƒฅใƒผใƒฉใƒซใƒใƒƒใƒˆใƒฏใƒผใ‚ฏใƒขใƒ‡ใƒซ

โ€ข ้š ใ‚Œใƒฆใƒ‹ใƒƒใƒˆใฎ็ทšๅฝขๅ’Œใ‚’็”Ÿๆˆ

๐‘Ž๐‘˜ = ๐‘—=1

๐‘€

๐‘ค๐‘˜๐‘—2

๐‘ง๐‘— + ๐‘ค๐‘˜02

= ๐‘–=0

๐ท

๐‘ค๐‘˜๐‘—2

๐‘ง๐‘—

โ€ข ๐‘Ž๐‘˜ : ๅ‡บๅŠ›ใƒฆใƒ‹ใƒƒใƒˆๆดปๆ€ง

โ€ข ๐‘ค๐‘˜02

: ใƒใ‚คใ‚ขใ‚นใƒ‘ใƒฉใƒกใƒผใ‚ฟ

โ€ข ๐‘ง0 = 0

โ€ข 2 ใฏ 2ๅฑค็›ฎใ‚’็คบใ™

โ€ข ๅ‡บๅŠ›ใƒฆใƒ‹ใƒƒใƒˆๆดปๆ€งใ‚’้ž็ทšๅฝขๆดปๆ€งๅŒ–้–ขๆ•ฐใงๅค‰ๆ›๐‘ฆ๐‘˜ = ๐œŽ ๐‘Ž๐‘˜

โ€ข ๐‘ฆ๐‘˜ : ๅ‡บๅŠ›ๅค‰ๆ•ฐ

โ€ข ๐œŽ โˆ™ : ใƒญใ‚ธใ‚นใƒ†ใ‚ฃใƒƒใ‚ฏใ‚ทใ‚ฐใƒขใ‚คใƒ‰้–ขๆ•ฐ

โ€ข ๆดปๆ€งๅŒ–้–ขๆ•ฐใฎ้ธๆŠžใฏใƒ‡ใƒผใ‚ฟใฎๆ€ง่ณชใจ็›ฎๆจ™ๅค‰ๆ•ฐใฎๅˆ†ๅธƒใซไพๅญ˜

Fig. 5.1 ( p. 228 )

Page 6: PRML Reading 5.1 - 5.2

5.1 Feed-forward Network Functions

2015/6/3 PRML Reading 6

ใƒŽใƒผใƒ‰๏ผšๅ…ฅๅŠ›ๅค‰ๆ•ฐ๏ผŒ้š ใ‚Œๅค‰ๆ•ฐ๏ผŒๅ‡บๅŠ›ๅค‰ๆ•ฐใƒชใƒณใ‚ฏ๏ผš้‡ใฟใƒ‘ใƒฉใƒกใƒผใ‚ฟ

ๅŸบๆœฌ็š„ใชใƒ‹ใƒฅใƒผใƒฉใƒซใƒใƒƒใƒˆใƒฏใƒผใ‚ฏใƒขใƒ‡ใƒซ

โ€ข ใƒใƒƒใƒˆใƒฏใƒผใ‚ฏๅ…จไฝ“ใฎ้–ขๆ•ฐ

๐‘ฆ๐‘˜ ๐ฑ, ๐ฐ = ๐œŽ ๐‘—=1

๐‘€

๐‘ค๐‘˜๐‘—2

โ„Ž ๐‘–=1

๐ท

๐‘ค๐‘—๐‘–1

๐‘ฅ๐‘– + ๐‘ค๐‘—01

+ ๐‘ค๐‘˜02

= ๐œŽ ๐‘—=0

๐‘€

๐‘ค๐‘˜๐‘—2

โ„Ž ๐‘–=0

๐ท

๐‘ค๐‘—๐‘–1

๐‘ฅ๐‘–

Fig. 5.1 ( p. 228 )

Page 7: PRML Reading 5.1 - 5.2

5.1 Feed-forward Network Functions

2015/6/3 PRML Reading 7

ใƒใƒƒใƒˆใƒฏใƒผใ‚ฏๆง‹้€ ใฎๆ‹กๅผต

โ€ข ้š ใ‚Œใƒฆใƒ‹ใƒƒใƒˆใ‹ใ‚‰ใชใ‚‹ๅฑคใฎ่ฟฝๅŠ 

โ€ข ๅฑคใ‚’้ฃ›ใณ่ถŠใˆใŸ็ตๅˆใฎๅฐŽๅ…ฅ

โ€ข ๆœ‰ๅ‘้–‰่ทฏใŒใ‚ใฃใฆใฏใชใ‚‰ใชใ„๏ผˆใƒ•ใ‚ฃใƒผใƒ‰ใƒ•ใ‚ฉใƒฏใƒผใƒ‰ๆง‹้€ ๏ผ‰

๐‘ง๐‘˜ = โ„Ž ๐‘—๐‘ค๐‘˜๐‘—๐‘ง๐‘—

Fig. 5.2 ( p. 230 )

Page 8: PRML Reading 5.1 - 5.2

5.1.1 Weight Space Symmetries

็ฌฆๅทๅ่ปขๅฏพ็งฐๆ€ง

โ€ข ไธ€้ƒจใฎ้‡ใฟใฎ็ฌฆๅทใ‚’ๅ่ปขใ•ใ›ใฆใ‚‚ใƒใƒƒใƒˆใƒฏใƒผใ‚ฏใŒ่กจใ™ๅ…ฅๅ‡บๅŠ›้–ขๆ•ฐใฏๅค‰ๅŒ–ใ—ใชใ„

2015/6/3 PRML Reading 8

็ญ‰ไพก โˆ’๐‘Ž๐‘— tanh โˆ’๐‘Ž๐‘—

๐‘ฅ1

๐‘ฅ2

๐‘ฅ3

๐‘ฅ๐ท

๐‘ง๐‘—

๐‘ฅ0

โˆ’๐‘ค๐‘—0

โˆ’๐‘ค๐‘—1

โˆ’๐‘ค๐‘—2

โˆ’๐‘ค๐‘—3

โˆ’๐‘ค๐‘—๐ท

โˆ’๐‘ค1๐‘—

โˆ’๐‘ค3๐‘—โˆ’๐‘ค2๐‘—

๐‘ง๐‘—

๐‘ง๐‘—

๐‘ง๐‘—โˆ’๐‘ค๐‘€๐‘—

tanh โˆ’๐‘Ž๐‘— = โˆ’tanh ๐‘Ž๐‘—

๐‘Ž๐‘— tanh ๐‘Ž๐‘—

๐‘ฅ1

๐‘ฅ2

๐‘ฅ3

๐‘ฅ๐ท

๐‘ง๐‘—

๐‘ฅ0

๐‘ค๐‘—0

๐‘ค๐‘—1

๐‘ค๐‘—2

๐‘ค๐‘—3

๐‘ค๐‘—๐ท

๐‘ค1๐‘—

๐‘ค3๐‘—๐‘ค2๐‘—

๐‘ง๐‘—

๐‘ง๐‘—

๐‘ง๐‘—๐‘ค๐‘€๐‘—

hidden unit

Page 9: PRML Reading 5.1 - 5.2

5.1.1 Weight Space Symmetries

ไบคๆ›ๅฏพ็งฐๆ€ง

โ€ข ไบŒใคใฎ้š ใ‚Œใƒฆใƒ‹ใƒƒใƒˆใซใคใชใŒใ‚‹็ตๅˆใฎ้‡ใฟใ‚’ๅ…ฅใ‚Œๆ›ใˆใฆใ‚‚ๅ…ฅๅ‡บๅŠ›้–ขๆ•ฐใฏๅค‰ๅŒ–ใ—ใชใ„

2015/6/3 PRML Reading 9

็ญ‰ไพก

๐‘Ž๐‘—โ€ฒ tanh ๐‘Ž๐‘—โ€ฒ๐‘ฅ๐ท ๐‘ง๐‘—โ€ฒ

๐‘ค๐‘—โ€ฒ1

๐‘ค๐‘—โ€ฒ2

๐‘ค๐‘—โ€ฒ๐ท

๐‘ค1๐‘—โ€ฒ

๐‘ค3๐‘—โ€ฒ

๐‘ค2๐‘—โ€ฒ

๐‘ง๐‘—โ€ฒ

๐‘ง๐‘—โ€ฒ

๐‘ง๐‘—โ€ฒ

๐‘ค๐‘€๐‘—โ€ฒ

๐‘Ž๐‘— tanh ๐‘Ž๐‘—๐‘ฅ1

๐‘ฅ2

๐‘ง๐‘—

๐‘ฅ0

๐‘ค๐‘—0

๐‘ค๐‘—1

๐‘ค๐‘—2

๐‘ค1๐‘—

๐‘ค3๐‘—๐‘ค2๐‘—

๐‘ง๐‘—

๐‘ง๐‘—

๐‘ง๐‘—๐‘ค๐‘€๐‘—

๐‘ค๐‘—๐ท

๐‘ค๐‘—โ€ฒ0

๐‘Ž๐‘— tanh ๐‘Ž๐‘—๐‘ฅ๐ท ๐‘ง๐‘—

๐‘ค๐‘—1

๐‘ค๐‘—2

๐‘ค๐‘—๐ท

๐‘ค1๐‘—

๐‘ค3๐‘—๐‘ค2๐‘—

๐‘ง๐‘—

๐‘ง๐‘—

๐‘ง๐‘—๐‘ค๐‘€๐‘—

๐‘Ž๐‘—โ€ฒ tanh ๐‘Ž๐‘—โ€ฒ๐‘ฅ1

๐‘ฅ2

๐‘ง๐‘—โ€ฒ

๐‘ฅ0

๐‘ค๐‘—โ€ฒ0

๐‘ค๐‘—โ€ฒ1

๐‘ค๐‘—โ€ฒ2

๐‘ค1๐‘—โ€ฒ

๐‘ค3๐‘—โ€ฒ

๐‘ค2๐‘—โ€ฒ

๐‘ง๐‘—โ€ฒ

๐‘ง๐‘—โ€ฒ

๐‘ง๐‘—โ€ฒ

๐‘ค๐‘€๐‘—โ€ฒ

๐‘ค๐‘—โ€ฒ๐ท

๐‘ค๐‘—0

Page 10: PRML Reading 5.1 - 5.2

5.1.1 Weight Space Symmetries

้‡ใฟ็ฉบ้–“ๅฏพ็งฐๆ€ง

โ€ข ๅŒใ˜ๅ…ฅๅŠ›ใ‹ใ‚‰ๅ‡บๅŠ›ใธใฎ้–ขๆ•ฐใ‚’่กจใ™้‡ใฟใƒ™ใ‚ฏใƒˆใƒซ ๐ฐใŒ่ค‡ๆ•ฐๅญ˜ๅœจ

โ€ข ็ฌฆๅทๅ่ปขๅฏพ็งฐๆ€ง

โ€ข 2๐‘€ ้€šใ‚Š

โ€ข ไบคๆ›ๅฏพ็งฐๆ€ง

โ€ข ๐‘€!้€šใ‚Š

โ€ข ๅ…จ้ƒจใง ๐‘€! 2๐‘€ ๅ€‹ใฎ็ญ‰ไพกใช้‡ใฟใƒ™ใ‚ฏใƒˆใƒซใŒๅญ˜ๅœจ

โ€ข ใƒ™ใ‚คใ‚บใƒขใƒ‡ใƒซๆฏ”่ผƒใ‚’่€ƒใˆใ‚‹้š›ใซ้‡่ฆใชๅฝนๅ‰ฒใ‚’ๆžœใŸใ™ ( Sec. 5.7 )

2015/6/3 PRML Reading 10

Page 11: PRML Reading 5.1 - 5.2

5.2 Network Training

ใƒใƒƒใƒˆใƒฏใƒผใ‚ฏใƒ‘ใƒฉใƒกใƒผใ‚ฟๆฑบๅฎšๅ•้กŒ

โ€ข ๆœ€ใ‚‚ๅ˜็ด”ใชใ‚ขใƒ—ใƒญใƒผใƒโ€ฆไบŒไน—ๅ’Œ่ชคๅทฎ้–ขๆ•ฐใฎๆœ€ๅฐๅŒ–

ใƒใƒƒใƒˆใƒฏใƒผใ‚ฏๅ‡บๅŠ›ใฎ็ขบ็Ž‡็š„่งฃ้‡ˆ

โ€ข ๅ•้กŒใซๅฟœใ˜ใฆๅ‡บๅŠ›ใƒฆใƒ‹ใƒƒใƒˆใฎๆดปๆ€งๅŒ–้–ขๆ•ฐใจ่ชคๅทฎ้–ขๆ•ฐใ‚’้ธๆŠž ( Sec. 4.3.6 )

โ€ข ๆดปๆ€งๅŒ–้–ขๆ•ฐ๏ผšๆญฃๆบ–้€ฃ็ต้–ขๆ•ฐ

โ€ข ็›ฎๆจ™ๅค‰ๆ•ฐใซๅฏพใ™ใ‚‹ๆกไปถไป˜ๅˆ†ๅธƒ๏ผšๆŒ‡ๆ•ฐๅž‹ๅˆ†ๅธƒๆ—

โ€ข ใ„ใšใ‚Œใฎๅ ดๅˆใ‚‚่ชคๅทฎ้–ขๆ•ฐใฎๅพฎๅˆ†ใฏๆฌกใฎๅฝขใ‚’ใจใ‚‹๐œ•๐ธ

๐œ•๐‘Ž๐‘˜= ๐‘ฆ๐‘˜ โˆ’ ๐‘ก๐‘˜

โ€ข ่ชคๅทฎ้€†ไผๆ’ญใ‚’่ญฐ่ซ–ใ™ใ‚‹้š›ใซๅˆฉ็”จ ( Sec. 5.3 )

2015/6/3 PRML Reading 11

ๆœฌๅฝ“ใซๅ…จ้ƒจใฎๅ•้กŒไบŒไน—ๅ’Œ่ชคๅทฎ้–ขๆ•ฐใงใ„ใ„ใฎ๏ผŸ๏ผˆใ ใ‚๏ผ‰

ยฉ 2009 ใƒใƒฃใ‚ณใƒฌใƒผใƒˆ

Page 12: PRML Reading 5.1 - 5.2

5.2 Network Training

2015/6/3 PRML Reading 12

ๅ‡บๅŠ›ใƒฆใƒ‹ใƒƒใƒˆใฎๆดปๆ€งๅŒ–้–ขๆ•ฐ ็ทšๅฝขๅ‡บๅŠ›้–ขๆ•ฐ

๐‘ฆ๐‘˜ = ๐‘Ž๐‘˜

็›ฎๆจ™ๅค‰ๆ•ฐใซๅฏพใ™ใ‚‹ๆกไปถไป˜ๅˆ†ๅธƒ ใ‚ฌใ‚ฆใ‚นๅˆ†ๅธƒ

๐‘ ๐‘ก ๐ฑ, ๐ฐ, ๐›ฝ = ๐’ฉ ๐‘ก ๐‘ฆ ๐ฑ, ๐ฐ , ๐›ฝโˆ’1

ๅฐคๅบฆ้–ขๆ•ฐ๐‘ ๐ญ ๐—, ๐ฐ, ๐›ฝ =

๐‘›=1

๐‘

๐‘ ๐‘ก๐‘› ๐ฑ๐‘›, ๐ฐ, ๐›ฝ

่ชคๅทฎ้–ขๆ•ฐ ไบŒไน—ๅ’Œ่ชคๅทฎ้–ขๆ•ฐ

๐ธ ๐ฐ =1

2

๐‘›=1

๐‘

๐‘ฆ ๐ฑ๐‘›, ๐ฐ โˆ’ ๐‘ก๐‘›2

ๅ›žๅธฐๅ•้กŒ

Page 13: PRML Reading 5.1 - 5.2

5.2 Network Training

2015/6/3 PRML Reading 13

ๅ‡บๅŠ›ใƒฆใƒ‹ใƒƒใƒˆใฎๆดปๆ€งๅŒ–้–ขๆ•ฐ ใƒญใ‚ธใ‚นใƒ†ใ‚ฃใƒƒใ‚ฏใ‚ทใ‚ฐใƒขใ‚คใƒ‰้–ขๆ•ฐ

๐‘ฆ๐‘˜ = ๐œŽ ๐‘Ž๐‘˜ โ‰ก1

1 + exp ๐‘Ž๐‘˜

็›ฎๆจ™ๅค‰ๆ•ฐใซๅฏพใ™ใ‚‹ๆกไปถไป˜ๅˆ†ๅธƒ ใƒ™ใƒซใƒŒใƒผใ‚คๅˆ†ๅธƒ

๐‘ ๐‘ก ๐ฑ, ๐ฐ = Bern ๐‘ก ๐‘ฆ ๐ฑ, ๐ฐ

ๅฐคๅบฆ้–ขๆ•ฐ๐‘ ๐ญ ๐—, ๐ฐ =

๐‘›=1

๐‘

๐‘ ๐‘ก๐‘› ๐ฑ๐‘›, ๐ฐ

่ชคๅทฎ้–ขๆ•ฐ ไบคๅทฎใ‚จใƒณใƒˆใƒญใƒ”ใƒผ่ชคๅทฎ้–ขๆ•ฐ

๐ธ ๐ฐ = โˆ’ ๐‘›=1

๐‘

๐‘ก๐‘› ln ๐‘ฆ๐‘› + 1 โˆ’ ๐‘ก๐‘› ln 1 โˆ’ ๐‘ฆ๐‘›

๐Ÿใ‚ฏใƒฉใ‚นๅˆ†้กžๅ•้กŒ

Page 14: PRML Reading 5.1 - 5.2

5.2 Network Training

2015/6/3 PRML Reading 14

ๅ‡บๅŠ›ใƒฆใƒ‹ใƒƒใƒˆใฎๆดปๆ€งๅŒ–้–ขๆ•ฐ ใ‚ฝใƒ•ใƒˆใƒžใƒƒใ‚ฏใ‚น้–ขๆ•ฐ

๐‘ฆ๐‘˜ =exp ๐‘Ž๐‘˜ ๐ฑ,๐ฐ

๐‘— exp ๐‘Ž๐‘— ๐ฑ, ๐ฐ

็›ฎๆจ™ๅค‰ๆ•ฐใซๅฏพใ™ใ‚‹ๆกไปถไป˜ๅˆ†ๅธƒ ใƒ™ใƒซใƒŒใƒผใ‚คๅˆ†ๅธƒ

๐‘ ๐ญ ๐ฑ, ๐ฐ = ๐‘˜=1

๐พ

๐‘ฆ๐‘˜ ๐ฑ, ๐ฐ ๐‘ก๐‘˜

ๅฐคๅบฆ้–ขๆ•ฐ๐‘ ๐“ ๐—, ๐ฐ =

๐‘›=1

๐‘

๐‘˜=1

๐พ

๐‘ฆ๐‘˜ ๐ฑ๐‘›, ๐ฐ ๐‘ก๐‘›๐‘˜

่ชคๅทฎ้–ขๆ•ฐ ๅคšใ‚ฏใƒฉใ‚นไบคๅทฎใ‚จใƒณใƒˆใƒญใƒ”ใƒผ่ชคๅทฎ้–ขๆ•ฐ

๐ธ ๐‘ค = โˆ’ ๐‘›=1

๐‘

๐‘˜=1

๐พ

๐‘ก๐‘›๐‘˜ ln ๐‘ฆ๐‘˜ ๐ฑ๐‘›, ๐ฐ

ๅคšใ‚ฏใƒฉใ‚นๅˆ†้กžๅ•้กŒ

Page 15: PRML Reading 5.1 - 5.2

5.2 Network Training

ๅ›žๅธฐๅ•้กŒ

โ€ข๐œ•๐‘ฆ๐‘˜

๐œ•๐‘Ž๐‘˜= 1

โ€ข๐œ•๐ธ

๐œ•๐‘Ž๐‘˜=

๐œ•๐ธ

๐œ•๐‘ฆ๐‘˜โˆ™

๐œ•๐‘ฆ๐‘˜

๐œ•๐‘Ž๐‘˜= ๐‘ฆ๐‘˜ โˆ’ ๐‘ก๐‘˜ โˆ™ 1 = ๐‘ฆ๐‘˜ โˆ’ ๐‘ก๐‘˜

๐Ÿใ‚ฏใƒฉใ‚นๅˆ†้กžๅ•้กŒ

โ€ข๐œ•๐‘ฆ๐‘˜

๐œ•๐‘Ž๐‘˜= ๐œŽ ๐‘Ž๐‘˜ 1 โˆ’ ๐œŽ ๐‘Ž๐‘˜ = ๐‘ฆ๐‘˜ 1 โˆ’ ๐‘ฆ๐‘˜

โ€ข๐œ•๐ธ

๐œ•๐‘Ž๐‘˜=

๐œ•๐ธ

๐œ•๐‘ฆ๐‘˜โˆ™

๐œ•๐‘ฆ๐‘˜

๐œ•๐‘Ž๐‘˜= โˆ’ ๐‘ก๐‘˜

1

๐‘ฆ๐‘˜+ 1 โˆ’ ๐‘ก๐‘˜

โˆ’1

1โˆ’๐‘ฆ๐‘˜โˆ™ ๐‘ฆ๐‘˜ 1 โˆ’ ๐‘ฆ๐‘˜ = ๐‘ฆ๐‘˜ โˆ’ ๐‘ก๐‘˜

ๅคšใ‚ฏใƒฉใ‚นๅˆ†้กžๅ•้กŒ

โ€ข๐œ•๐‘ฆ๐‘˜

๐œ•๐‘Ž๐‘—= ๐‘ฆ๐‘˜ ๐›ฟ๐‘˜๐‘— โˆ’ ๐‘ฆ๐‘—

โ€ข๐œ•๐ธ

๐œ•๐‘Ž๐‘›๐‘—=

๐œ•๐ธ

๐œ•๐‘ฆ๐‘›๐‘˜โˆ™

๐œ•๐‘ฆ๐‘›๐‘˜

๐œ•๐‘Ž๐‘›๐‘—= โˆ’ ๐‘˜ ๐‘ก๐‘›๐‘˜

1

๐‘ฆ๐‘›๐‘˜โˆ™ ๐‘ฆ๐‘›๐‘˜ ๐›ฟ๐‘˜๐‘— โˆ’ ๐‘ฆ๐‘›๐‘— = ๐‘ฆ๐‘›๐‘— โˆ’ ๐‘ก๐‘›๐‘—

2015/6/3 PRML Reading 15

Page 16: PRML Reading 5.1 - 5.2

5.2.1 Parameter optimization

่ชคๅทฎ้–ขๆ•ฐใฎๅนพไฝ•ๅญฆ็š„ๆๅ†™

โ€ข ๐ธ ๐ฐ ใฏ ๐ฐใฎๆป‘ใ‚‰ใ‹ใง้€ฃ็ถšใชๆ›ฒ้ข

โ€ข ๐ฐใ‹ใ‚‰ ๐ฐ + ๐›ฟ๐ฐใธๅฐ‘ใ—ใ ใ‘็งปๅ‹•

โ€ข ่ชคๅทฎ้–ขๆ•ฐใฎๅค‰ๅŒ–ใฏ ๐›ฟ๐ธ โ‰ƒ ๐›ฟ๐ฐT๐›ป๐ธ ๐ฐ

โ€ข ๐›ป๐ธ ๐ฐ : ่ชคๅทฎ้–ขๆ•ฐใŒๆœ€ใ‚‚ๅค‰ๅŒ–ใ™ใ‚‹ๆ–นๅ‘

โ€ข ๐ธ ๐ฐ ใฎๆœ€ๅฐๅ€คใฏ ๐›ป๐ธ ๐ฐ = 0ใซใชใ‚‹็‚น

2015/6/3 PRML Reading 16

Fig. 5.6 ( p. 240 )

Page 17: PRML Reading 5.1 - 5.2

5.2.1 Parameter optimization

ๅœ็•™็‚นโ€ข ๐›ป๐ธ ๐ฐ = 0ใ‚’ๆบ€ใŸใ™็‚น

โ€ข ๆฅตๅฐ็‚นโ€ข ๅคงๅŸŸ็š„ๆœ€ๅฐ็‚น

โ€ข ่ชคๅทฎ้–ขๆ•ฐใฎๆœ€ๅฐๅ€คใซ็›ธๅฝ“ใ™ใ‚‹ๆฅตๅฐ็‚น

โ€ข ๅฑ€ๆ‰€็š„ๆฅตๅฐ็‚น

โ€ข ใใ‚Œไปฅๅค–ใฎๆฅตๅฐ็‚น

โ€ข ๆฅตๅคง็‚น

โ€ข ้ž็‚นโ€ข ๆฅตๅ€คใ‚’ๅ–ใ‚‰ใชใ„ๅœ็•™็‚น

โ€ข ้ž็ทšๅฝขๆ€งใฎใŸใ‚ๅœ็•™็‚นใฏ้‡ใฟ็ฉบ้–“ๅ†…ใซๅคšๆ•ฐๅญ˜ๅœจ

2015/6/3 PRML Reading 17

Fig. 5.6 ( p. 240 )

Page 18: PRML Reading 5.1 - 5.2

5.2.1 Parameter optimization

้ž็ทšๅฝขๆœ€้ฉๅŒ–ๅ•้กŒ

โ€ข ๐›ป๐ธ ๐ฐ = 0ใ‚’่งฃๆž็š„ใซ่งฃใใ“ใจใฏใปใผไธๅฏ่ƒฝ

โ€ข ๆ•ฐๅ€ค็š„ใชๅๅพฉๆ‰‹้ †ใ‚’ๅˆฉ็”จ

๐ฐ ๐œ+1 = ๐ฐ ๐œ + โˆ†๐ฐ ๐œ

โ€ข ๐œ : ๅๅพฉใ‚นใƒ†ใƒƒใƒ—ๆ•ฐ

โ€ข ๅคšใใฎใ‚ขใƒซใ‚ดใƒชใ‚บใƒ ใงใฏ โˆ†๐ฐ ๐œ ใซๅ‹พ้…ๆƒ…ๅ ฑใ‚’ๅˆฉ็”จ

2015/6/3 PRML Reading 18

Fig. 5.6 ( p. 240 )

Page 19: PRML Reading 5.1 - 5.2

5.2.2 Local quadratic approximation

2015/6/3 PRML Reading 19

ใ‚ใ‚‹็‚น ๐ฐ ใฎใพใ‚ใ‚Šใงใฎ่ชคๅทฎ้–ขๆ•ฐใฎๅฑ€ๆ‰€ไบŒๆฌก่ฟ‘ไผผ

๐ธ ๐ฐ โ‰ƒ ๐ธ ๐ฐ + ๐ฐ โˆ’ ๐ฐ T๐› +1

2๐ฐ โˆ’ ๐ฐ T๐‡ ๐ฐ โˆ’ ๐ฐ

โ€ข ๐› โ‰ก ๐›ป๐ธ ๐ฐ= ๐ฐ : ๐ฐใง่ฉ•ไพกใ•ใ‚ŒใŸๅ‹พ้…

โ€ข ๐‡ ๐‘–๐‘— โ‰ก ๐œ•๐ธ

๐œ•๐‘ค๐‘–๐œ•๐‘ค๐‘— ๐ฐ= ๐ฐ

: ๐ฐใง่ฉ•ไพกใ•ใ‚ŒใŸใƒ˜ใƒƒใ‚ป่กŒๅˆ—

ๅœ็•™็‚น ๐ฐโ‹† ใฎใพใ‚ใ‚Šใงใฎ่ชคๅทฎ้–ขๆ•ฐใฎๅฑ€ๆ‰€ไบŒๆฌก่ฟ‘ไผผ

๐ธ ๐ฐ โ‰ƒ ๐ธ ๐ฐโ‹† +1

2๐ฐ โˆ’ ๐ฐโ‹† T๐‡ ๐ฐ โˆ’ ๐ฐโ‹†

โ€ข ๐› = ๐ŸŽ

โ€ข ๐‡ ๐‘–๐‘— โ‰ก ๐œ•๐ธ

๐œ•๐‘ค๐‘–๐œ•๐‘ค๐‘— ๐ฐ=๐ฐโ‹†

Page 20: PRML Reading 5.1 - 5.2

5.2.2 Local quadratic approximation

่ชคๅทฎ้–ขๆ•ฐใฎๅนพไฝ•ๅญฆ็š„่งฃ้‡ˆ

โ€ข ๅ›บๆœ‰ๆ–น็จ‹ๅผ

๐‡๐ฎ๐‘– = ๐œ†๐‘–๐ฎ๐‘–โ€ข ๐‡ : ใƒ˜ใƒƒใ‚ป่กŒๅˆ—๏ผˆๅฎŸๅฏพ็งฐ่กŒๅˆ—๏ผ‰

โ€ข ๐œ†๐‘– : ๅ›บๆœ‰ๅ€ค

โ€ข ๐ฎ๐‘– : ๅ›บๆœ‰ใƒ™ใ‚ฏใƒˆใƒซ๏ผˆๅฎŒๅ…จๆญฃ่ฆ็›ดไบค็ณป๏ผ‰

โ€ข ๐ฎ๐‘–T๐ฎ๐‘— = ๐›ฟ๐‘–๐‘—

โ€ข ๐ฐ โˆ’ ๐ฐโ‹† = ๐‘– ๐›ผ๐‘–๐ฎ๐‘– ใจๅฑ•้–‹ใ™ใ‚Œใฐ

๐ธ ๐ฐ โ‰ƒ ๐ธ ๐ฐโ‹† +1

2๐ฐ โˆ’ ๐ฐโ‹† T๐‡ ๐ฐ โˆ’ ๐ฐโ‹† = ๐ธ ๐ฐโ‹† +

1

2

๐‘–๐œ†๐‘–๐›ผ๐‘–

2

2015/6/3 PRML Reading 20

Page 21: PRML Reading 5.1 - 5.2

5.2.2 Local quadratic approximation

่ชคๅทฎ้–ขๆ•ฐใฎๅนพไฝ•ๅญฆ็š„่งฃ้‡ˆ

โ€ข ๅœ็•™็‚น่ฟ‘ๅ‚ใซใŠใ‘ใ‚‹่ชคๅทฎ้–ขๆ•ฐใฎๅฐŽๅ‡บ

๐ธ ๐ฐ

โ‰ƒ ๐ธ ๐ฐโ‹† +1

2๐ฐ โˆ’ ๐ฐโ‹† T๐‡ ๐ฐ โˆ’ ๐ฐโ‹†

= ๐ธ ๐ฐโ‹† +1

2

๐‘–๐›ผ๐‘–๐ฎ๐‘–

T

๐‡ ๐‘—๐›ผ๐‘—๐ฎ๐‘—

= ๐ธ ๐ฐโ‹† +1

2

๐‘–๐›ผ๐‘–๐ฎ๐‘–

T ๐‘—๐›ผ๐‘—๐œ†๐‘—๐ฎ๐‘—

= ๐ธ ๐ฐโ‹† +1

2

๐‘–

๐‘—๐œ†๐‘—๐›ผ๐‘–๐›ผ๐‘—๐ฎ๐‘–

T๐ฎ๐‘—

= ๐ธ ๐ฐโ‹† +1

2

๐‘–๐œ†๐‘–๐›ผ๐‘–

2

2015/6/3 PRML Reading 21

โˆต ๐ฐ โˆ’ ๐ฐโ‹† = ๐‘–๐›ผ๐‘–๐ฎ๐‘–

โˆต ๐‡๐ฎ๐‘– = ๐œ†๐‘–๐ฎ๐‘–

โˆต ๐ฎ๐‘–T๐ฎ๐‘— = ๐›ฟ๐‘–๐‘—

Page 22: PRML Reading 5.1 - 5.2

5.2.2 Local quadratic approximation

่ชคๅทฎ้–ขๆ•ฐใฎๅนพไฝ•ๅญฆ็š„่งฃ้‡ˆโ€ข ๐ฐโ‹† ใง่ฉ•ไพกใ•ใ‚ŒใŸใƒ˜ใƒƒใ‚ป่กŒๅˆ— ๐‡ ๐ธ ใŒๆญฃๅฎšๅ€ค

โ€ข โ‡” ๐‡ ๐ธ โ‰ป 0

โ€ข โ‡” โˆ€๐ฏ = ๐‘– ๐‘๐‘–๐ฎ๐‘– โ‰  ๐ŸŽ โˆถ ๐ฏT๐‡๐ฏ = ๐‘– ๐‘๐‘–2๐œ†๐‘– > 0

โ€ข โ‡” โˆ€๐‘– โˆถ ๐œ†๐‘– > 0

โ€ข โ‡” ๐ธ ๐ฐ โ‰ƒ ๐ธ ๐ฐโ‹† +1

2 ๐‘– ๐œ†๐‘–๐›ผ๐‘–

2 > ๐ธ ๐ฐโ‹†

โ€ข ๐ฐ โˆ’ ๐ฐโ‹† = ๐‘– ๐›ผ๐‘–๐ฎ๐‘–

โ€ข โ‡”ๅœ็•™็‚น ๐ฐโ‹† ใฏๆฅตๅฐ็‚น

2015/6/3 PRML Reading 22

Page 23: PRML Reading 5.1 - 5.2

5.2.2 Local quadratic approximation

่ชคๅทฎ้–ขๆ•ฐใฎๅนพไฝ•ๅญฆ็š„่งฃ้‡ˆ

โ€ข ๆฅตๅฐๅ€ค ๐ฐโ‹† ใฎ่ฟ‘ๅ‚ใซใŠใ„ใฆ่ชคๅทฎ้–ขๆ•ฐใฏไบŒๆฌก้–ขๆ•ฐใง่ฟ‘ไผผ

โ€ข ่ชคๅทฎ้–ขๆ•ฐใฎ็ญ‰้ซ˜็ทšใฏๆฅ•ๅ††ใฎๅฝข

โ€ข ไธญๅฟƒ ๐ฐโ‹†

โ€ข ้•ทใ•ใฏ ๐œ†๐‘–

โˆ’1

2 ใซๆฏ”ไพ‹

2015/6/3 PRML Reading 23

Fig. 5.6 ( p. 240 )

Page 24: PRML Reading 5.1 - 5.2

5.2.3 Use of gradient information

ๅ‹พ้…ๆƒ…ๅ ฑใ‚’ๅˆฉ็”จใ—ใชใ„ๅ ดๅˆ

โ€ข ่ชคๅทฎๆ›ฒ้ขใฏ ๐›ใจ ๐‡ใง็‰นๅฎš

๐ธ ๐ฐ โ‰ƒ ๐ธ ๐ฐ + ๐ฐ โˆ’ ๐ฐ T๐› +1

2๐ฐ โˆ’ ๐ฐ T๐‡ ๐ฐ โˆ’ ๐ฐ

โ€ข ๐›ใฎ็‹ฌ็ซ‹ใช่ฆ็ด ๆ•ฐ๐‘Š ๅ€‹โ€ข ๐‘Š : ๐ฐใฎๆฌกๅ…ƒ

โ€ข ๐‡ใฎ็‹ฌ็ซ‹ใช่ฆ็ด ๆ•ฐ๐‘Š2โˆ’๐‘Š

2+ ๐‘Š =

๐‘Š ๐‘Š+1

2ๅ€‹

โ€ข ๆฅตๅฐ็‚นใฎไฝ็ฝฎใฏ ๐‘‚ ๐‘Š2 ๅ€‹ใฎใƒ‘ใƒฉใƒกใƒผใ‚ฟใซไพๅญ˜

โ€ข ๅ„้–ขๆ•ฐใฎ่ฉ•ไพกใซๅฟ…่ฆใชใ‚นใƒ†ใƒƒใƒ—ๆ•ฐ ๐‘‚ ๐‘Š

โ€ข ๆฅตๅฐๅ€คใ‚’่ฆ‹ใคใ‘ใ‚‹ใŸใ‚ใซๅฟ…่ฆใช่จˆ็ฎ—้‡ ๐‘‚ ๐‘Š3

2015/6/3 PRML Reading 24

๐‡ =

๐‘Š

๐‘Š

Page 25: PRML Reading 5.1 - 5.2

5.2.3 Use of gradient information

ๅ‹พ้…ๆƒ…ๅ ฑใ‚’ๅˆฉ็”จใ™ใ‚‹ๅ ดๅˆ

โ€ข ๐›ป๐ธ ๐ฐ ใ‚’่ฉ•ไพกใ™ใ‚‹ๆฏŽใซ๐‘Š ๅ€‹ใฎๆƒ…ๅ ฑใ‚’ๅพ—ใ‚‹

โ€ข ๐‘‚ ๐‘Š ๅ›žใฎ่ฉ•ไพกใงๆฅตๅฐ็‚นใ‚’่ฆ‹ใคใ‘ใ‚‹ใ“ใจใŒๅฏ่ƒฝ

โ€ข ๅ„ๅ‹พ้…ใฎ่ฉ•ไพกใซๅฟ…่ฆใชใ‚นใƒ†ใƒƒใƒ—ๆ•ฐ ๐‘‚ ๐‘Š

โ€ข ่ชคๅทฎ้€†ไผๆ’ญใ‚’ๅˆฉ็”จ

โ€ข ๆฅตๅฐๅ€คใ‚’่ฆ‹ใคใ‘ใ‚‹ใŸใ‚ใซๅฟ…่ฆใช่จˆ็ฎ—้‡ ๐‘‚ ๐‘Š2

2015/6/3 PRML Reading 25

Page 26: PRML Reading 5.1 - 5.2

ใƒใƒƒใƒๆ‰‹ๆณ•

โ€ข ๅ…จใฆใฎ่จ“็ทดใƒ‡ใƒผใ‚ฟ้›†ๅˆใ‚’ไธ€ๅบฆใซๅ‡ฆ็†

โ€ข ๅ‹พ้…้™ไธ‹ๆณ•

๐ฐ ๐œ+1 = ๐ฐ ๐œ โˆ’ ๐œ‚๐›ป๐ธ ๐ฐ ๐œ

โ€ข ๐œ‚ > 0 : ๅญฆ็ฟ’็Ž‡ใƒ‘ใƒฉใƒกใƒผใ‚ฟ

โ€ข ๅ‹พ้…้™ไธ‹ๆณ•ใ‚ˆใ‚Š้ ‘ๅฅใงใ‹ใค้ซ˜้€Ÿใชใ‚ขใƒซใ‚ดใƒชใ‚บใƒ 

โ€ข ๅ…ฑๅฝนๅ‹พ้…ๆณ•

โ€ข ๆบ–ใƒ‹ใƒฅใƒผใƒˆใƒณๆณ•

5.2.4 Gradient decent optimization

2015/6/3 PRML Reading 26

Page 27: PRML Reading 5.1 - 5.2

5.2.4 Gradient decent optimization

ใ‚ชใƒณใƒฉใ‚คใƒณๆ‰‹ๆณ•

โ€ข ใƒ‡ใƒผใ‚ฟ็‚นใ‚’ไธ€ๅบฆใซไธ€ใคใ ใ‘็”จใ„ใฆใƒ‘ใƒฉใƒกใƒผใ‚ฟใ‚’้ †ๆฌกๆ›ดๆ–ฐ

โ€ข ้€ๆฌก็š„ๅ‹พ้…้™ไธ‹ๆณ•

๐ฐ ๐œ+1 = ๐ฐ ๐œ โˆ’ ๐œ‚๐›ป๐ธ๐‘› ๐ฐ ๐œ

โ€ข ๐ธ ๐ฐ = ๐‘›=1๐‘ ๐ธ๐‘› ๐ฐ

โ€ข ๅˆฉ็‚น

โ€ข ใƒ‡ใƒผใ‚ฟใฎๅ†—้•ทๅบฆใ‚’ๅŠน็Ž‡็š„ใซๆ‰ฑใ†ใ“ใจใŒๅฏ่ƒฝ

โ€ข ๅฑ€ๆ‰€็š„ๆฅตๅฐๅ€คใ‚’ๅ›ž้ฟใงใใ‚‹ๅฏ่ƒฝๆ€งใŒใ‚ใ‚‹

2015/6/3 PRML Reading 27

Page 28: PRML Reading 5.1 - 5.2

Reference

Pattern Recognition and Machine Learning [ Christopher M. Bishop, 2006 ]

โ€ข English

โ€ข pp. 225 โ€“ 241

โ€ข Japanese ( vol. 1 )

โ€ข pp. 225 โ€“ 242

โ€ข Web site

โ€ข http://research.microsoft.com/en-us/um/people/cmbishop/prml/

2015/6/3 PRML Reading 28