ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 -...

119
ﻣﺼﻨﻮﻋﻲ ﻋﺼﺒﻲﻫﺎي ﺷﺒﻜﻪ01 - 713 - 11 - 13 دوم ﺑﺨﺶ ﺑﻬﺸﺘﯽ ﺷﻬﻴﺪ ﺩﺍﻧﺸﮕﺎﻩ ﮐﺎﻣﭙﻴﻮﺗﺮ ﺑﺮﻕ ﻣﻬﻨﺪﺳﯽ ﺩﺍﻧﺸﮑﺪﻩ ﺯﻣﺴﺘﺎﻥ۱۳۹۳ ﺍﺯﻧﺎﻭﻩ ﻣﺤﻤﻮﺩﯼ ﺍﺣﻤﺪhttp://faculties.sbu.ac.ir/~a_mahmoudi/

Upload: others

Post on 31-Dec-2019

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبكه هاي عصبي مصنوعي01-713 -11-13

بخش دومدانشگاه شهيد بهشتی

دانشکده ی مهندسی برق و کامپيوتر۱۳۹۳زمستان

احمد محمودی ازناوه

http://faculties.sbu.ac.ir/~a_mahmoudi/

Page 2: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

2

فهرست مطالبشبكه ي عصبي چنداليه•آموزش•الگوريتم پس انتشار خطا•

–Momentumانواع آموزش–توقف آموزش–

نكاتي براي تسريع آموزش•بردارهاي ورودي–

Page 3: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(فهرست مطالبتابع انگيزش–نرخ يادگيري–تابع هزينه–

الگوريتم هاي بهينه سازي•–Gradient  descent

روش نيوتن••Levenberg‐Marqualt

•Conjuagte gradient

شبکه عصبی3

Page 4: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی

1

1

-1

-1

x1

x2

x1 x2 x1 xor x2

-1 -1 -1 -1 1 1 1 -1 1 1 1 -1

1 if v > 0ϕ(v) =

-1 if v ≤ 0ϕ is the sign function.

Minskyمثال & Papert (1969) offered solution to XOR problem by combining perceptron unit responses using a second layer of units

4

+1

+1

-1

-1

x1

x2

-1

-1

y1

y2

Page 5: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال

شبکه عصبی5

x1 x2 y1 y2 x1 xor x2

-1 -1 -1 -1 -1 -1 1 -1 1 1 1 -1 1 -1 1 1 1 -1 -1 -1

1

1

-1

-1

y1

y2 +1

+1

0.1+1

+1

-1

-1

x1

x2

-1

-1

y1

y2

Page 6: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی6

مخفياليه ها ي

اليه ي اليه ي خروجيورودي

Multilayer Neural Network

Multilayer Neural Perceptron

Page 7: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبكه عصبي چند اليه متصل خروجي به مستقيم صورت به ورودي ها•

.نيستند 2 اليه ي واحد هاي تمامي به 1 اليه ي از واحد هر•

)است مجاز صفر وزن( .است متصل.است مشخص مخفي واحد هاي تعداد•.است جلو به رو اتصاالت تمام•.است غيرخطي تابعي انگيزش تابع•

شبکه عصبی7

Multilayer Neural Network

Multilayer Neural Perceptron(MLP)

7مخفياليه هاي

اليه ي اليه ي خروجيورودي

Feed Forward

Page 8: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبكه عصبي چند اليه

شبکه عصبی8

Structure Types ofDecision Regions

Exclusive-ORProblem

Classes withMeshed regions

Most GeneralRegion Shapes

Single-Layer

Two-Layer

Three-Layer

Half PlaneBounded ByHyperplane

Convex OpenOr

Closed Regions

Abitrary(Complexity

Limited by No.of Nodes)

A

AB

B

A

AB

B

A

AB

B

BA

BA

BA

An introduction to computing with neural nets (Lippmann, R. P.)

Page 9: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

يادگيريالگوريتم از شبكه ها اين آموزش براي•

Back Propagation مي شود استفاده. زير طريقه ي به شبكه ها دست اين آموزش براي•

:مي شود عمل)Forward( جلو به رو–

محاسبه واقعي خروجي و شده اعمال شبكه به ورودي بردار•.مي شود

)Backward( عقب به رو – بر و شده محاسبه )مطلوب خروجي – واقعي خروجي( خطا•

.مي شود توليد خطا با متناسب سيگنالي معيار، تابع حسب ورودي اليه ي تا را وزن ها و كرده حركت اليه اليه سيگنال اين

.مي نمايد اصالحشبکه عصبی

صورت گرفته است  iterationگوييم يك ها مي پس از اصالح وزن10

Page 10: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

عملكرد شبكه

شبکه عصبی11

Function signalsForward Step

Error signalsBackward Step

ميانگينشوند كه اي اصالح مي ها به گونه وزن. گردد مجموع مربعات خطا كمينه

فرض شبكه•–m اليه بدون در نظر گرفتن اليه ي ورودي

Page 11: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

ميزان خطاام jميزان خطا و ميانگين مربعات خطا براي نرون •

به شيوه ي زير ) ام-nبه ازاي ورودي (امnخروجي در تكرار :محاسبه مي شود

شبکه عصبی12

( ) ( ) - ( )j j je n d n y n=

1 22( ) ( )j

j CE n e n

= ∑1

1( )

N

AV Nn

E E n=

= ∑هدف آمورزش كمينه نمودن

EAV

instantaneous error energy

sequential mode

امjخطاي خروجي نرون )ي خروجي گره(

averaged squared error energy

Page 12: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

آموزش شبكه هاي چنداليه:است LMSبه روز نمودن وزن ها همانند •

شبکه عصبی13

je

0,...,j ji i

i mv w y

=

= ∑

خطاي امjخروجي نرون

( ) ( ( ))j j jy n v nϕ=

امjخروجي نرون م امnدر

induced local field

Page 13: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

آموزش اليه ي خروجي

براي به روز كردن وزن ها به LMSهمانند •:شيوه ي زير عمل مي كنيم

شبکه عصبی14

0,...,j ji i

i mv w y

=

= ∑

( ) ( ( ))j j jy n v nϕ=

( ) ( ) ( )( ) ( ) . . .( ) ( ) ( ) ( ) ( )

j j j

ji j j j ji

e n y n v nE n E nw n e n y n v n w n

∂ ∂ ∂∂ ∂=

∂ ∂ ∂ ∂ ∂

je

sensitivity factor

1 22( ) ( )j

j CE n e n

= ∑

Page 14: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(آموزش اليه ي خروجي

شبکه عصبی15

0,...,j ji i

i mv w y

=

= ∑

( ) ( ( ))j j jy n v nϕ=

( ) ( ) ( )( ) ( ) . . .( ) ( ) ( ) ( ) ( )

j j j

ji j j j ji

e n y n v nE n E nw n e n y n v n w n

∂ ∂ ∂∂ ∂=

∂ ∂ ∂ ∂ ∂

1 22( ) ( )j

j CE n e n

= ∑

( )je n 1− ' ( ( ))j jv nφ ( )iy n

'( ) ( ) ( ( )) ( )( ) j j j i

ji

E n e n v n y nw n

ϕ∂= −

( ) ( )i i ie n d y n= −

Page 15: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(آموزش اليه ي خروجي:داشتيم دلتااز قانون •

شبکه عصبی16

( )( )( )ji

ji

E nw nw n

η ∂Δ = −

∂Step in direction opposite to the gradient

'( ) ( ) ( ( )) ( )ji j j j iw n e n v n y nη ϕΔ = −

'( ) ( ) ( ( )) ( )( ) j j j i

ji

E n e n v n y nw n

ϕ∂= −

( )j nδ محليگراديان

( )( )( )

( ) ( )( ) . .( ) ( ) ( )

jj

j j

j j j

E nnv n

e n y nE ne n y n v n

δ ∂= −

∂ ∂∂= −

∂ ∂ ∂'( ) ( ( ))j j je n v nϕ=

گراديان محلي براي يك نرون به خطاي ايجاد شده براي آن نرون و

مشتق تابع مرتبط آن بستگي دارد

Page 16: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(آموزش اليه ي خروجي

شبکه عصبی17

'( ) ( ) ( ( )) ( )ji j j j iw n e n v n y nη ϕΔ = −

( )j nδ

( ) ( ) ( )ji j iw n n y nηδΔ =

-j j je d y=

( - ) '( )j j j jd y vδ ϕ=

ي مخفي خواهيم پرداخت ي آموزش اليه در ادامه به شيوه

Page 17: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

آموزش اليه ي مخفي بگيريم نظر در مخفي اليه ي از نروني را j نرون اگر•

:خطا محاسبه ي براي مي بايد نظر مورد نرون محلي گراديان محاسبه ي براي–

مورد نرون با كه نرون هايي محلي گراديان هاي تمامي.نماييم لحاظ را هستند ارتباط در نظر

شبکه عصبی18

Page 18: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(آموزش اليه ي مخفي

شبکه عصبی19

the details of output neuron k connected to hidden neuron j

'

( )( )-( ) ( )

( ) - ( ( ))( )

jj

j j

j jj

y nE ny n v n

E n v ny n

δ

ϕ

∂∂=

∂ ∂

∂=

∂متعلق به jنرون

اليه ي مخفي است

هدف

Page 19: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(آموزش اليه ي مخفي

شبکه عصبی

'

( )( )-( ) ( )

( ) - ( ( ))( )

jj

j j

j jj

y nE ny n v n

E n v ny n

δ

ϕ

∂∂=

∂ ∂

∂=

1 22( ) ( )k

k CE n e n

= ∑يك kنرون node خروجي

است

( )( )( ) ( )

kk

kj j

e nE n ey n y n

∂∂=

∂ ∂∑( ) ( )( )

( ) ( ) ( )k k

kkj k j

e n v nE n ey n v n y n

∂ ∂∂=

∂ ∂ ∂∑

( ) ( ) ( ) ( ) ( ( ))

k k k

k k k

e n d n y nd n v nϕ

= −= −

' ( ( ))k kv nϕ−

0( ) ( ) ( )

m

k kj jj

v n w n y n=

=∑

( )kjw n

20

Page 20: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

jj

j j

'

j

y ( )( )-y ( ) v ( )

( ) - ( ( ))y ( ) j j

nE nn n

E n v nn

δ

ϕ

∂∂=

∂ ∂

∂=

...)ادامه(آموزش اليه ي مخفي

شبکه عصبی21

( ) ( )( )( ) ( ) ( )

k kk

kj k j

e n v nE n ey n v n y n

∂ ∂∂=

∂ ∂ ∂∑

' ( ( ))k kv nϕ−

( )kjw n

'( ) ( ) ( ( )) ( )( ) k k k kj

kj

E n e n v n w ny n

ϕ∂= −

∂ ∑

( ) ( )k kjk

n w nδ= −∑

هدف

'j ( ( )) ( ) ( )j j k kj

kv n n w nδ ϕ δ= ∑

متعلق به jنرون اليه ي مخفي است

Page 21: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(آموزش اليه ي مخفي

شبکه عصبی22

Local Gradient of hidden neuron j

( )j j j k kjk C

v wδ ϕ δ∈

′= ∑

ϕ’(v1)

ϕ’(vk)

ϕ’(vm)

δ1

δk

δm

w1j

wkj

wm j

e1

ek

em

Signal-flow graph ofback-propagation errorsignals to neuron jδj ϕ’(vj)

Iteration شماره يn

.

.

.

.

.

.

Page 22: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(آموزش اليه ي مخفي

:به صورت كلي خواهيم داشت•

شبکه عصبی23

'j ( ( )) ( ) ( )j j k kj

kv n n w nδ ϕ δ= ∑

Page 23: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(آموزش اليه ي مخفي• Delta rule Δwji = ηδj yi

C: Set of neurons in the layer following the one containing j

=jδ( )( )j j jv d yϕ′ −

( )j k kjk C

v wϕ δ∈

′ ∑IF j output node

IF j hidden node

24شبکه عصبی

Page 24: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(آموزش اليه ي مخفي

شبکه عصبی25

ديع بن

جم

Sensitivity graph

Page 25: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

تابع انگيزش

26شبکه عصبی

Sigmoid function

( )( )( )

1( ( )) 01 expj j j

j

y n v n aav n

ϕ= = >+ −

( )( )( )( ) 2

exp( ( ))

1 exp

jj j

j

a av nv n

av nϕ

−′ =

⎡ ⎤+ −⎣ ⎦

( )( ) ( )( )1 1( ( )) 1

1 exp 1 expj jj j

v n aav n av n

ϕ⎡ ⎤

′ = × × −⎢ ⎥+ − + −⎢ ⎥⎣ ⎦

( ) ( )( ( )) 1j j j jv n ay n y nϕ′ ⎡ ⎤= × −⎣ ⎦

Page 26: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(تابع انگيزش:اگر نرون در اليه ي خروجي باشد•

:و اگر در اليه ي مخفي باشد•

شبکه عصبی27

Sigmoid function

( ) ( ) ( ( ))j j j jn e n v nδ ϕ′=

( ) ( ) ( ) ( ) ( )1j j j j jn a d n o n o n o nδ ⎡ ⎤ ⎡ ⎤= − × −⎣ ⎦ ⎣ ⎦

( ) ( )j 1 ( ) ( )j j k kjk

ay n y n n w nδ δ⎡ ⎤= × −⎣ ⎦∑بدين ترتيب گراديان محلي بدون نياز به استفاده از تابع

.انگيزش قابل محاسبه مي باشد

Page 27: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(تابع انگيزش

شبکه عصبی28

hyperbolic tangent

( )( ) ( )( ( )) tanh , 0j j jv n a bv n a bϕ = >

( ) ( )( ( ))j j j jbv n a y n a y na

ϕ′ ⎡ ⎤ ⎡ ⎤= − +⎣ ⎦ ⎣ ⎦

α= 1.7159 and b = 2/3

Page 28: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

انواع شيوه هاي آموزش:شيوه ي ترتيبي•

در اين شيوه نمونه ها تك تك براي اصالح وزن ها به كار –.مي روند

:شيوه ي دسته اي•در اين شيوه تمام نمونه هاي آموزشي اعمال شده، –

.سپس اصالح وزن ها صورت مي پذيرد

شبکه عصبی29

.نامند مي epochهاي آموزشي در فرآيند آموزش را ي نمونه ي اکمل ارائه يك دوره

Sequential Mode

online pattern or stochastic mode

Batch Mode

( )1 22

1

N

AV jNn j C

E e n= ∈

= ∑∑ AVji

ji

Eww

η ∂Δ = −

( ) ( )1

Nj

ji jn ji

e nw e n

N wη

=

∂Δ = −

∂∑ي اين بخش به محاسبه

اي كه پيش آز همان شيوهشود اين گفته شد، انجام مي

Page 29: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(انواع شيوه هاي آموزش.دارد احتياج كم تري حافظه ي به ترتيبي شيوه ي• شود، اعمال تصادفي و ترتيبي صورت به نمونه ها كه صورتي در•

خواهد كم تر بيفتند، محلي مينيمم دام در الگوريتم كه اين احتمال.بود

صورت به ترتيبي روش باشيم، داشته تكراري داده هاي كه وقتي•.مي كند استفاده تكراري داده هاي از مؤثرتري

دشوارتر را همگرايي شرايط نظري تحليل بودن، تصادفي اين چند هر• از بهتري تقريب دسته اي شيوه ي از استفاده با كه حالي در مي كند،

محلي مينيمم سوي به همگرايي و مي آيد دست به گراديان بردار.است شده تضمين

.ساده است مراتب به دسته اي شيوه ي در موازي پردازش از استفاده•

شبکه عصبی30

Page 30: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(انواع شيوه هاي آموزش

براي بهره برداري از مزاياي هر دو شيوه، آموزش به •نيز معمول است كه » mini‐batche«صورت

گام صورت ) n)n>1به روزرساني وزن ها، بعد از هر .مي گيرد

شبکه عصبی31

شود، از اين جهت كه عليرغم، معايب روش ترتيبي، اين روش در عمل ترجيح داده ميتر است سازي آن ساده پياده

براي مسائل دشوار و بزرگ راه حل مؤثري است

Page 31: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

معيارهاي توقف آموزش فرآيند آيا كه نمود مشخص نمي توان راحتي به عمل، در•

ضوابطي اما .است رسيده نظر مورد نقطه ي به آموزش.است شده مطرح آموزش به دادن پايان براي حد يك از گراديان بردار اندازه ي كه رود پيش جايي تا آموزش–

.شود كم تر آستانه.شود طوالني است ممكن آموزش فرآيند كه است اين روش اين عيب•

به ميانگين خطاي اختالف كه مي شود متوقف زماني آموزش– كوچك كافي اندازه ي به متوالي )epoch(دوره دو در آمده دست.باشد

با شبكه آموزش، فاز هر از پس كه است اين ديگر شيوه ي يك– قدرت و شود بررسي آموزشي داده هاي از غير داده هايي

.باشد آموزش توقف براي مالكي آن »تعميم پذيري«

شبکه عصبی32

Page 32: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی33

مينيمم محلي جايي است كه مشتق صفر گردد

If slope is negative increase wIf slope is positive decrease w

E

w

خطا

مينيمم محلي

مينيمم مطلق

Gradient Descent

Page 33: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

موجب باال آموزش نرخ وشد، مطرح اين از پيش چنان چه• فرآيند پايين آموزش نرخ كه حالي در مي شود، ناپايداري .كرد خواهد طوالني را آموزش

مختلف وزن هاي براي را آموزش نرخ مي توان همچنين•.گرفت نظر در متغير

تأثير نرخ آموزش

شبکه عصبی34

Connection dependent

بدون تغييرات زيادولي روند حركت همگرايي كند است : نرخ آموزش كوچكبا تغييرات زيادولي روند حركت همگرايي تند است : نرخ آموزش بزرگ

Page 34: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی35

Momentum and Learning Rate AdaptationLocal Minima

http://www.willamette.edu/~gorr/classes/cs449/momrate.html

Page 35: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

momentumروش استفاده از

:داشتيم•

شبکه عصبی36

1( ) ( 1) ( ). ( )l l l lji ji j iw n w n n y nα ηδ −Δ = Δ − +

( )( ) ( 1)( )

l lji ji l

ji

E nw n w nw n

α η ∂Δ = Δ − −

0 1α≤ <

new oldw w w= + Δ

Momentumثابت

1( 1) ( ) ( 1) ( ) ( )l l l l lji ji ji j iw n w n w n n y nα ηδ −+ = + Δ − +

رات وزن در مرحله ي پيشين تغ

E

w

generalized delta rule

Page 36: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

momentumروش استفاده از

.است عادي رساني به روز باشد صفر ممنتوم ثابت اگر• رساني روز به كند ميل يك سمت به ثابت اين اندازه هر•

.مي كند تبعيت قبلي الگوي از بيشتر گرفتن نظر در باشند، هم جهت تغييرات كه كه صورتي در–

momentum مي شود آموزش تسريع باعث. فرآيند پايداري موجب نباشند، يكسان تغييرات صورت در–

.مي شود آموزش ناكارامد يك از بيشتر و صفر از كم تر ثابت كه است واضح•

.است دريافت بهينه پاسخي مي توان آموزش نرخ ميزان تغيير با•

.كردشبکه عصبی

37

1( ) ( 1) ( ). ( )l l l lji ji j iw n w n n y nα ηδ −Δ = Δ − +

رات وزن در مرحله ي پيشين تغ

accelerating effect

stabilizing effect

Page 37: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

momentumروش استفاده از1( ) ( 1) ( ). ( )l l l l

ji ji j iw n w n n y nα ηδ −Δ = Δ − +

1(0) (0). (0)l l lji j iw yηδ −Δ =

1 1(1) (0). (0) (1). (1)l l l l lji j i j iw y yαηδ ηδ− −Δ = +

2 1 1 1(2) (0). (0) (1). (1) (2). (2)l l l l l l lji j i j i j iw y y yα ηδ αηδ ηδ− − −Δ = + +

Momentumتاثير 1

0( ) ( ). ( )

nl n h l lji j i

hw n h y hη α δ− −

=

Δ = ∑

نرخ آموزش شبکه عصبیMomentumثابت 38

:اول بررسي مي كنيم iterationبراي

Page 38: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...ادامه

شبکه عصبی39

0

( )( )( )

nl n hij

h ji

E nw nw n

η α −

=

∂Δ = −

∂∑

iterationثابت Momentum

1α2α2

..nαn‐h

رود باالتر iteration هرچه شد خواهد كوچك تر ضريب بهينه مقدار از ترتيب بدينگرفت خواهيم فاصله كم تر

Page 39: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

momentumروش استفاده از

با /ميانگين زمان يادگيري براي يك شبكه بدون•Momentumاستفاده از

شبکه عصبی40

0

( )( )( )

nl n hji

h ji

E nw nw n

η α −

=

∂Δ = −

∂∑

momentum Training time

0 2170.9 95

1

0( ) ( ). ( )

nl n h l lji j i

hw n h y hη α δ− −

=

Δ = − ∑

نرخ آموزش Momentumثابت

http://www.willamette.edu/~gorr/classes/cs449/momrate.html

Page 40: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثالهدف طراحي شبكه اي است كه دو دسته داده زير را •

.از هم جدا كند

شبکه عصبی41

Page 41: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال

شبکه عصبی42

[ ]1

21

mean vector 0,0

variance 1

T

σ

= =

= =

μ

( ) 22 2 22 2

2 2

1 1Class C : |C exp2 2

fπσ σ

⎛ ⎞= − −⎜ ⎟

⎝ ⎠X x x μ

[ ]2

22

mean vector 2,0

variance 1

T

σ

= =

= =

μ

( ) 21 1 12 2

1 1

1 1Class C : |C exp2 2

fπσ σ

⎛ ⎞= − −⎜ ⎟

⎝ ⎠X x x μ

( ) ( )( )

1

2

|C = 1

|Cff

<Λ >X

X

xx

x

Likelihood ratio

Page 42: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...ادامه

شبکه عصبی43

( )2

2 221 22 2 2

1 1 2

1 1 = exp2 2

σσ σ σ

⎛ ⎞Λ − − + −⎜ ⎟

⎝ ⎠x x μ x μ

22 22

1 22 2 21 1 2

1 1 exp 12 2

σσ σ σ

⎛ ⎞− − + − =⎜ ⎟⎝ ⎠

x μ x μ

22 2 2

2 12 2 22 1 1

1 1 4 log2 2

σσ σ σ

− − − =x μ x μ

2 2c r− =x x Optimum decision boundary

Probability of correct classification0.8151cP =

Page 43: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال

شبکه عصبی44

η=0.01

Page 44: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی45

η =0.1

Page 45: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی46

η =0.5

Page 46: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی47

η =0.9

Page 47: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی48

Page 48: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال

شبکه عصبی49

Page 49: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

نرخ يادگيري و ضريب گشتاور تغييرات باشد كوچك تر يادگيري نرخ اندازه هر•

را بهتري محلي كمينه ي اما است، كندتر نمودار فضاي شرايط اين در .آورد دست به مي تواند.مي گيرد قرار بررسي مورد خطا رويه ي از بيشتري

گشتاور ضريب و يادگيري نرخ براي كه صورتي در• باعث شود، گرفته نظر در بزرگي و ثبات اعداد كند تغيير نوساني صورت به خطا ميزان شد خواهد

.شود همگرا باالتري مقدار به يا وشبکه عصبی

50

For η ->0 , α->1

For η ->1, α->0 باعث ثبات يادگيريافزايش سرعت همگراييباعث

Page 50: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

)وفقي(روش نرخ يادگيري متغير

شبکه عصبی51

Adaptive Learning Rate

( ) ( 1) 1 ( ) ( 1) ( )if E k E k w k w kξ+ > + ⎯⎯→ + =

0.01 0.05ξ< < در اين حالت جهت حركت نامناسب است

( 1) ( ) .k kη η ρ+ =

0 1ρ< <

را صفر مي گذاريم momentumضريب

ηخالف جهت است بايد كم شود

SSE

Bold Driver

Page 51: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

)وفقي(روش نرخ يادگيري متغير

شبکه عصبی52

( 1) ( )if E k E k+ < ⎯⎯→ ( 1) ( ) ( )w k w k w k+ = + Δ

( 1) ( ) .k k dη η+ در اين حالت جهت حركت مناسب است=

1 2d< <

به مقدار اصلي برمي گردد momentumضريب

η بيشتر شود

SSE

Page 52: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

)وفقي(روش نرخ يادگيري متغير

شبکه عصبی53

( ) ( 1) 1 ( )if E k E kβ+ > +

β ξ<

كرده وزن هاي جديد را قبول به مقدار αماند و ميثابت ηولي

ر داده مي شود .اوليه تغ

( 1) ( )k kη η+ =( 1) ( ) ( )w k w k w k+ = + Δ

مفيد است، در اين شيوه تنها براي آموزش دسته اي.شود صورت استفاده در روش ترتيبي منجر به واگرايي مي

Page 53: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

روش نرخ يادگيري متغيرBold از استفاده ترتيبي، روش در• driver به منجر

نظر در جاي به اين رو از مي شود، الگوريتم واگرايي در نزولي صورت به آموزش نرخ وفقي، نرخ گرفتن

.مي شود گرفته نظر

تقريبا آموزش نرخ اوليه گام هاي در بدين ترتيب، • مينيمم، محدوده ي به رسيدن از بعد .است ثابت.مي يابد كاهش آموزش نرخ پارامتر ها مجموعه ي به آزاد پارامتر يك حالت اين در–

شبکه عصبی.شد خواهد افزوده54

Annealing

(0)( )

1k k

T

ηη =

+

Page 54: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

روش هاي بهبود كارايي آن از بيش عصبي شبكه ي طراحي كه مي شود گفته غالبا•

تنظيم كه چرا است، »هنر« نوعي باشد، »علم« كه زيادي حد تا هستند، دخيل طراحي در كه زيادي پارامترهاي

.دارد بستگي شخص تجربه ي به:دارد وجود شبكه كارايي بهبود براي روش هايي وجود اين با•:دسته اي مقابل در ترتيبي روش•

افزونگي و داريم اختيار در بزرگي آموزشي مجموعه ي كه جاهايي–.است مناسب تر ترتيبي روش باالست داده ها در

به جديد داده هاي نيست، ثابت آموزشي مجموعه ي كه مواردي–.شود اضافه مجموعه

شبکه عصبی55Y. LeCun, L. Bottou, G. Orr and K. Muller: Efficient BackProp, in Orr, G. and Muller 

K. (Eds), Neural Networks: Tricks of the trade, Springer, 1998

Page 55: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(روش هاي بهبود كارايي:آموزش در اطالعات حداكثر از استفاده•

و همگرايي در مهمي بسيار نقش آموزشي مجموعه ي– .دارد تعميم پذيري

در خطا بيشترين كه شود استفاده نمونه هايي از است بهتر•.مي كند ايجاد را آموزش

باعث كار اين .هستند متفاوت هم با كه نمونه هايي•.شوند بررسي وزن ها از وسيع تري گستره ي مي شود

به الگوها اعمال ترتيبي، شيوه ي در الگو بازشناسي در– كالس يك داده هاي تا مي شد موجب تصادفي صورت

.نشوند انتخاب سرهم پشت صورت به

شبکه عصبی56

Maximizing information content

Page 56: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(روش هاي بهبود كارايي .شوند اعمال بيشتر شبكه به دشوارتر نمونه هاي•

.است روبرو هم مشكالتي با البته شيوه اين.مي ريزد هم به آموزشي نمونه هاي اعمال ترتيب– مجموعه ي در )outlier(برون هشته داده هاي يا–

داده هاي چنين .باشد داشته وجود آموزشي.مي كند مواجه چالش با را »تعميم پذيري«

شبکه عصبی57

emphasizing scheme

Page 57: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(روش هاي بهبود كارايي:انگيزش تابع•

.است موثر كارايي در مناسب انگيزش تابع انتخاب–:مطلوب خروجي مقدار•

باشد، فعاليت تابع برد محدوده ي در بايد مقدار اين–.مي روند بي نهايت سمت به آزاد پارامترهاي وگرنه

شبکه عصبی58

Page 58: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(روش هاي بهبود كارايي:ورودي ها بهنجارسازي•

صورت پيش پردازش هاي بايد ورودي داده هاي روي بر– غير در .شود صفر ورودي ها ميانگين است بهتر .پذيرد حركت مينيمم سمت به زيگزاگ صورت به صورت اين

.مي كند

شبکه عصبی59

mean removal

covariance equalization

Decorrelation

Page 59: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(روش هاي بهبود كارايي:وزن ها اوليه ي مقداردهي•

شدن كند←اشباع ناحيه ي به رفتن←بزرگ مقادير–آموزش

صورت به مبدأ←مبدأ نزديگي←كوچك مقادير–.است »زيني نقطه ي«.است دو اين بين مقداري مناسب مقدار–

ثابت مي شود در صورتي كه ميانگين مقدار اوليه ي •وزن ها صفر و انحراف معيار آن

) تعداد اتصاالت به نرون  m(در نظر گرفته شود،زماني كه تابع (نتيجه ي بهتري به دست مي آيد

).باشد tanhانگيزش شبکه عصبی

60

1/ 2w mσ −=

Page 60: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(روش هاي بهبود كارايي

شبکه عصبی61

1

m

j ji ii

v w y=

= ∑[ ] 0 for all y iE y iμ = =

( )22 2 1 for all y i i iE y E y iσ μ⎡ ⎤ ⎡ ⎤= − = =⎣ ⎦⎣ ⎦

[ ] 1 for 0 for i k

k iE y y

k i=⎧

= ⎨ ≠⎩

( )0 for all ,w jiE w j i pairsμ ⎡ ⎤= =⎣ ⎦

( ) ( )22 2 for all ,w ji w jiE w E w i j pairsσ μ⎡ ⎤ ⎡ ⎤= − = ⎣ ⎦⎢ ⎥⎣ ⎦

Page 61: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(روش هاي بهبود كارايي

شبکه عصبی62

( )22 2v j v jE v E vσ μ⎡ ⎤ ⎡ ⎤= − = ⎣ ⎦⎢ ⎥⎣ ⎦

1 1

m m

ji jk i ki k

E w w y y= =

⎡ ⎤= ⎢ ⎥

⎣ ⎦∑∑

[ ]1 1

m m

ji jk i ki k

E w w E y y= =

⎡ ⎤= ⎣ ⎦∑∑2

1

m

jii

E w=

⎡ ⎤= ⎣ ⎦∑2wmσ=

[ ]1 1

0= =

⎡ ⎤⎡ ⎤ ⎡ ⎤= = = =⎢ ⎥⎣ ⎦ ⎣ ⎦⎣ ⎦∑ ∑m m

v j ij i ji ii i

E v E w y E w E yμ

در صورتي كه وزن ها به گونه اي در نظر گرفته vباشد، مقدار  m-⅟₂شوند كه انحراف آن ها

.واريانس يك خواهد داشت

Page 62: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(روش هاي بهبود كارايي:آموزش نرخ•

.گرديم صحبت وفقي آموزش نرخ مورد در– نرون .ببينند آموزش سرعت يك با بايد نرون ها همه ي–

بهتر بنابراين .دارد بزرگ تري گراديان معموال آخر اليه ي گرفته نظر در كم تر آخر، اليه هاي آموزش نرخ است،.شود

شبکه عصبی63

Page 63: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

تعميم در شبكه هاي عصبيآموزش بيش از حد•استفاده از اليه هاي مخفي •

بيش از حد نياز

شبکه عصبی64

Overfitting

Overfitted data(poor generalization)

properly fitted data(good generalization)

Page 64: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

تعميم در شبكه هاي عصبيشبكه آموزش–

.مي شود استفاده شبكه آموزش براي الگو تعدادي از• شبكه به آموزشي داده هاي از غير ديگري ورودي هاي كه هنگامي•

مي شود گفته دهد، پاسخ درست )تقريبا( شبكه و شود اعمال.است خوب آن »تعميم پذيري«

مشكل گيرد صورت حد از بيش آموزش كه هنگامي•)overfitting or overtraining( مي آيد پيش.

جواب الگو مشخصي تعداد براي است ممكن حالت اين در•.كنيم دريافت نامناسب پاسخ الگوها تغيير صورت در و خوب

شبكه تست مرحله ي– شبكه تست جهت نشده استفاده آموزش در كه الگو تعدادي از•

.مي كنيم استفاده

شبکه عصبی65

Page 65: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

Occamتيغ

William به منسوب اصلي Occam تيغ• of Ockham ميالدي 14 قرن در .است انگليسي فيلسوف و منطق دان•

تيغ« اصل نام به كه كرد مطرح را اصلي اوكام ويليامOccam« علت ٔدرباره گاه هر اصل، اين طبق .شد شناخته

توضيحي آن در شود، ارائه مختلف توضيح دو پديده اي بروز و است بيشتر اشتباه بروز احتمال باشد پيچيده تر كه

توضيح موارد، ساير بودن مساوي شرايط در بنابراين،.است بيشتر بودنش صحيح احتمال ،ساده تر

66

Occam’s razor

شبکه عصبی

Page 66: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

...)ادامه(تعميم در شبكه هاي عصبي:سه فاكتور در تعميم پذيري مؤثر هستند•

تا چه حد (حجم مجموعه ي آموزشي و توزيع آن–)گوياست

)پيچيدگي مدل(ساختار شبكه ي عصبي –پيچيدگي مسأله–

تعداد نمونه هاي آموزشي براي تعميم پذيري مناسب–

شبکه عصبی67

WN Oε

⎛ ⎞= ⎜ ⎟⎝ ⎠

Page 67: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

روش هاي سرعت بخشيدن به همگرايي:ابتدا خطا را محاسبه مي كرديم wjiبراي تصحيح وزن •

شبکه عصبی68

2 ( )( ) 1( )( ) 2 ( )

jji

ji ji

e kE kw kw k w k

∂∂Δ = − = −

∂ ∂

( ) 21 ( )2 j

j C

E k e k∈

= ∑

( ) ( ).

( )j

jji

e ke k

w k∂

= −∂

( ) ( ).

( )j

jji

y ke k

w k∂

=∂

( ) ( ) ( )j j je k d k y k= −

( )j jy vϕ=مطلوب

واقعي

Page 68: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

روش هاي سرعت بخشيدن به همگرايي

شبکه عصبی69

( ) ( ) ( ) ( ). .

( ) ( )j j

ji jj ji

y k v kw k e k

v k w k∂ ∂

Δ =∂ ∂

ام jورودي به شاخه ي ( )

( ) ( ) ( )(1 ( )).( )

jji j j j

ji

v kw k e k y k y k

w k∂

Δ = −∂

( )j jy vϕ= اگرf تابعsigmoid باشد

ji wΔ <<

j e مناسب>>

j eبزرگ وليj 0y ≈

j eبزرگ وليj 1y ≈

نامناسبكند شدن همگرايي

Page 69: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

پيشنهادتعويض تابع معيار خطا•

تابع معيار خطا B.Pدر روش عادي –

)Van Oyen, Nienhuis )V‐Oروش –

شبکه عصبی70

2

1( ) ( )

M

hh

E k e k=

= ∑

1( ) [ ln( ( )) (1- ) ln(1- ( )]

M

h h h hh

E k d y k d y k=

= − +∑

خروجي مطلوب خروجي واقعي

Improving the convergence of the back-propagation algorithmVan Ooyen, A., and Nienhuis, B. (1992). Neural Networks 5: 465-471

Page 70: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی71

( ) ( )( ) ( )( ) . .( ) ( ) ( ) ( )

j jji

ji j j ji

y k v kE k E kw kw k y k v k w k

∂ ∂∂ ∂Δ = − = −

∂ ∂ ∂ ∂

1

( ) [ ln( ( )) (1- ) ln(1- ( )]M

h h h hh

E k d y k d y k=

= − +∑

1 1 [ (1 ) ]. ( )(1 ( )).( ) (1 ( ))j j j j i

j j

d d y k y k yy k y k

= × − − × −−

خروجي اليه ما قبل آخرje( )

.( )

jj

ji

v ke

w k∂

=∂

Page 71: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی72

( ) ( )( ) ( )( ) . .( ) ( ) ( ) ( )

j jji

ji j j ji

y k v kE k E kw kw k y k v k w k

∂ ∂∂ ∂Δ = =

∂ ∂ ∂ ∂

( ) msign e e 0 1m< <

Page 72: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی73

( ) ( )( ) ( )( ) . .( ) ( ) ( ) ( )

j jji

ji j j ji

y k v kE k E kw kw k y k v k w k

∂ ∂∂ ∂Δ = =

∂ ∂ ∂ ∂

( ) msign e e 0 1m< <

1) (1 )y y e−

2)e

3) ( ) msign e e

Page 73: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

بسط تيلورتوابع تحليلي قابل تقريب زدن با چندجمله اي ها •

.هستند

شبکه عصبی74

F x( ) F x*( )xd

d F x( )x x*=

x x*–( )+=

12---

x2

2

d

d F x( )

x x*=

x x*–( )2 ¼+ +

1n!-----

xn

n

d

d F x( )

x x*=

x x*–( )n ¼+ +

Page 74: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

حالت برداري

شبکه عصبی75

F x( ) F x∗( ) x1∂∂ F x( )

x x∗=x1 x1∗–( ) x2∂

∂ F x( )x x∗=

x2 x2∗–( )+ +=

…xn∂∂ F x( )

x x∗=xn xn∗–( ) 1

2--- x12

2

∂ F x( )x x∗=

x1 x1∗–( )2+ + +

12--- x1 x2∂

2

∂∂ F x( )

x x∗=x1 x1∗–( ) x2 x2∗–( ) …+ +

Page 75: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

فرم ماتريسيF x( ) F x∗( ) F x( )∇

T

x x∗=x x∗–( )+=

12--- x x∗–( )

T F x( )x x∗=

x x∗–( )∇2 …+ +

F x( )∇

x1∂∂ F x( )

x2∂∂ F x( )

xn∂∂ F x( )

= F x( )∇2

x12

2

∂ F x( ) x1 x2∂

2

∂∂ F x( ) … x1 xn∂

2

∂∂ F x( )

x2 x1∂

2

∂∂ F x( )

x22

2

∂∂ F x( ) … x2 xn∂

2

∂∂ F x( )

… … …

xn x1∂

2

∂∂ F x( ) xn x2∂

2

∂∂ F x( ) …

xn2

2

∂∂ F x( )

=

Gradient Hessian

76شبکه عصبی

Page 76: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

الگوريتم هاي بهينه سازي

شبکه عصبی77

pk - Search Direction

αk - Learning Rate

ي اکرايي ي مينيمم خطا بر روي رويه براي يافتن نقطه)performance(error) surface(هاي متفاوتي وجود دارد شيوه.

Neural Network Design, Hagan, chapter 9

باشد با استفاده از مي)F(X)(ي مينيمم تابع خطا هدف يافتن تقطه.هاي تكرار شونده است، از يك حدس اوليه شروع خواهيم كرد الگوريتم

Page 77: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

الگوريتم هاي بهينه سازي كه باشد گونه اي به مي بايد به روز رساني روند•

:داريم

:از رابطه ي زير به دست مي آيد gkكه در آن •

شبکه عصبی78

Steepest Descent

1ي سري تيلور مرتبه

گراديان

Page 78: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

الگوريتم هاي بهينه سازي رابطه ي آخر بخش اين براي•

.باشد صفر از كوچك تر بايد زير

:داريم پس•

:داشت خواهيم باشد، يك و صفر بين α اگر•

كند، صدق باال شرط كه pk بردار هر به•»descent direction« مي گويند.

شبکه عصبی79

0Tk kg p <

Steepest Descent

Page 79: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

الگوريتم هاي بهينه سازي بردار دو داخلي ضرب مي بايد فوق رابطه ي در•

descent( نزولي جهت بردار و گراديان direction( باشد، منفي تر فوق عبارت چه هر باشد، منفي

.مي شويم نزديك مزبور نقطه ي به سريع تريافت؟ دست كاهش سريع ترين به مي توان چگونه•

steepest متد براي• decent داريم:

شبکه عصبی80

0Tk kg p <

Steepest Descent

Page 80: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال•Steepest decent اعمال زير مساله ي براي را

:كنيد

:با در نظر گرفتن خواهيم داشت•

شبکه عصبی81

2 21 2( ) 25F x x x= +

0

0.50.5

x⎡ ⎤

= ⎢ ⎥⎣ ⎦

1

2

( )( )

( )

F xx

F xF x

x

∂⎡ ⎤⎢ ⎥∂⎢ ⎥∇ =∂⎢ ⎥

⎢ ⎥∂⎣ ⎦

1

2

250

xx

⎡ ⎤= ⎢ ⎥⎣ ⎦

0

1( )

25x xF x =

⎡ ⎤∇ = ⎢ ⎥

⎣ ⎦

Steepest Descent

Page 81: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال:خواهيم داشت α=0.01با در نظر گرفتن •

شبکه عصبی82

1 0 0

0.5 1 0.490.01

0.5 25 0.25x x gα

⎡ ⎤ ⎡ ⎤ ⎡ ⎤= − = − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦ ⎣ ⎦

2 1 1

0.49 0.98 0.48020.01

0.25 12.5 0.125x x gα

⎡ ⎤ ⎡ ⎤ ⎡ ⎤= − = − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Steepest Descent

Page 82: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال زير شكل به شبيه چيزي ببريم باال را آموزش نرخ اگر•

:داشت خواهيم نمودار و داشت خواهيم بيشتري نوسان صورت اين در•

.شد خواهد بيشتري ناپايداري

شبکه عصبی83

همواره جهت تغييرات بر مسير عمود است .استو اين به دليل استفاده از گراديان

Steepest Descent

Page 83: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال

شبکه عصبی84

Page 84: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

نمودار

شبکه عصبی85

-2 -1 0 1 2-2

-1

0

1

2

Page 85: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

ي اين ماتريس است پايداري وابسته به مقادير ويژه

آموزش پايدار

شبکه عصبی86

Eigenvalues of [I - αA].

(λi - eigenvalue of A)

Stable Learning Rates (Quadratic)

Modern Control Theory (3rd dition) William L. Brogan

Page 86: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال برآنيم قبلي مثال بر مساله اين اعمال با•

كنيم محاسبه را مجاز آموزش نرخ ميزان بيشترين

دو درجه مثالي مي شود مشاهده كه همان گونه•Hessian پس است Matrix خواهد زير صورت به :بود

:داريم ويژه مقادير براي پس•

شبکه عصبی87

2 21 2( ) 25F x x x= +

2 00 50

A⎡ ⎤

= ⎢ ⎥⎣ ⎦

1 1 2 2

1 0{( 2), },{( 50), }

0 1z zλ λ⎛ ⎞ ⎛ ⎞⎡ ⎤ ⎡ ⎤

= = = =⎜ ⎟ ⎜ ⎟⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎝ ⎠ ⎝ ⎠

Page 87: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

ادامه-مثالپس بيشترين ميزان نرخ آموزش از رابطه ي زير به •

:دست مي آيد

شبکه عصبی88

max

2 2 0.0450

αλ

< = =

α=0.039

α=0.041

Page 88: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

-2 -1 0 1 2-2

-1

0

1

2

مثال

شبکه عصبی89

-2 -1 0 1 2-2

-1

0

1

2

Page 89: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

تنظيم نرخ يادگيري پيش وفقي صورت به آموزش نرخ انتخاب مورد در•

.شد صحبت اين از كه است گونه اي به آموزش نرخ انتخاب ديگر راه•

:شود مينيمم زير عبارت

جستجويي pk راستاي در است الزم منظور اين براي•.پذيرد صورت

تحليلي حلي راه مي توان دوم درجه ي توابع براي•:نمود ارائه

شبکه عصبی90

Minimizing Along a Line

Page 90: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

)...ادامه(تنظيم نرخ يادگيري

شبکه عصبی91

Page 91: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال

شبکه عصبی92

-2 -1 0 1 2-2

-1

0

1

2Contour Plot

x1

x2

Page 92: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

روش نيوتن

شبکه عصبی93

http://www.nd.com/NSBook/NEURAL%20AND%20ADAPTIVE%20SYSTEMS18_Newtons_Method.html

ريشه يافتن جهت نيوتن روش از رياضيات در تكراري الگويتمي وسيله به رياضي عبارت

.مي شود استفاده

مانا نقاط يافتن براي الگوريتم اين از بهينه سازي مساله ي در)Stationary Point( استفاده كند صفر را مشتق كه گونه اي به

مي شود *xبه دنبال نقطه ي x0در اين حالت با شروع از نقطه ي

f’(x*)=0به گونه اي كه هستيم

Page 93: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

روش نيوتن

شبکه عصبی94

:در بسط سري تيلور با استفاده از روابط زير خواهيم داشت•1k kx x x+Δ = −

' '' 21( ) ( ) ( ) ( )2T k k k kf x x f x f x x f x x+ Δ ≈ + Δ + Δ

با برابر آن دادن قرار و فوق رابطه ي از گرفتن مشتق با•:داريم صفر

' ''( ) ( ) 0k kf x f x x+ Δ = '

''

( )( )

k

k

f xxf x

Δ = −

'

1 ''

( ) k=0,1,...( )

kk k

k

f xx xf x+ = −

Page 94: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

روش نيوتن

:به بياني ديگر داريم•

شبکه عصبی95

با مشتق گرفتن از اين تقريب و قرار دادن رابطه برابر با صفر نقطه ا ي با ثبات را بيابيم

' '' 21( ) ( ) ( ) ( )2T k k k kf x x f x f x x f x x+ Δ = + Δ + Δ

Page 95: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

1مثال

:با در نظر گرفتن خواهيم داشت•

شبکه عصبی96

2 21 2( ) 25F x x x= +

0

0.50.5

x⎡ ⎤

= ⎢ ⎥⎣ ⎦

1

2

( )( )

( )

F xx

F xF x

x

∂⎡ ⎤⎢ ⎥∂⎢ ⎥∇ =∂⎢ ⎥

⎢ ⎥∂⎣ ⎦

1

2

250

xx

⎡ ⎤= ⎢ ⎥⎣ ⎦

Newton Method

2 ( )F x∇2 00 50⎡ ⎤

= ⎢ ⎥⎣ ⎦

1

1

0.5 2 0 10.5 0 50 25

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤

= − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

x0.5 0.5

00.5 0.5⎡ ⎤ ⎡ ⎤

− =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

Page 96: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

2مثال

شبکه عصبی97

Page 97: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

Plot

-2 -1 0 1 2-2

-1

0

1

2

98شبکه عصبی

Page 98: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

همگرايي دوم درجه ي )كارايي(هزينه تابع كه صورتي در•

نمي توان نيوتن روش از استفاده با نباشد،.كرد تضمين را روش همگرايي

و هزينه تابع به وابسته همگرايي صورت، اين در•.است اوليه حدس حتي

شبکه عصبی99

Page 99: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شرايط اوليه ي متفاوت

شبکه عصبی100

Stationary Points:

-2 -1 0 1 2-2

-1

0

1

2

-2 -1 0 1 2-2

-1

0

1

2

F(x) F2(x)

Page 100: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شرايط اوليه ي متفاوت

شبکه عصبی101

-2 -1 0 1 2-2

-1

0

1

2

-2 -1 0 1 2-2

-1

0

1

2

-2 -1 0 1 2-2

-1

0

1

2

-2 -1 0 1 2-2

-1

0

1

2

F(x)

F2(x)

-2 -1 0 1 2-2

-1

0

1

2

-2 -1 0 1 2-2

-1

0

1

2

Page 101: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

:داشتيم B.Pدر روش عادي •

:در روش نيوتن داريم•

كه در آن•

شبکه عصبی102

1 ( )k k kX X F xμ+ = − ∇

11k k k kX X A g−+ = −

( )k

k k x xg F x

== ∇

2

1( ) ( )

=

= ∑M

k ii

F X e k

2 ( )k

k k x xA F x

== ∇

تابع معيار خطا

{w and b of layer 1,w and b of layer 2,....}X =

Page 102: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی103

[ ] ( )( )jx

j

F xF xx

∂∇ =

2

1( ) ( )

M

k ii

F x e k=

= تابع معيار خطا∑( ) ( )= T

k kE X E X1 2 M( ) [e e ... e ]= TkE X

{w and b of layer 1,w and b of layer 2,....}X =

1

( )2 ( ).M

ii

i j

e xe xx=

∂=

∂∑

( ) 2 ( ) ( )TF x J x E X∇ = 1 1

1

1

( ) ( )....

. .( )

. .( ) ( )....

P

M M

P

e x e xx x

J X

e x e xx x

∂ ∂⎡ ⎤⎢ ⎥∂ ∂⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥∂ ∂⎢ ⎥∂ ∂⎣ ⎦

تعداد مجهوالت كل P

ماتريس ژاكوبين

است كه براي سادگي از نوشتن آن صرفنظر شده است kفرض مي شود تمامي محاسبات در تكرار

Gauss–Newton algorithm

Page 103: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

محاسبه مشتق دوم

شبکه عصبی104

,

22 ( ) ( )( )

k jxk j k j

F x F xF xx x x x

⎡ ⎤∂ ∂ ∂⎡ ⎤∇ = = ⎢ ⎥⎣ ⎦ ∂ ∂ ∂ ∂⎢ ⎥⎣ ⎦

2

1

( ) ( ) ( )2 [ . ( ). ]M

i i ii

i k j k j

e x e x e xe xx x x x=

∂ ∂ ∂= +

∂ ∂ ∂ ∂∑

2 ( ) 2 ( ) ( ) 2 ( )TF X J X J X S X∇ = +

2

1

( )( ) ( ).M

ii

i k j

e xS X e xx x=

∂=

∂ ∂∑

S(X) معموالٌ بسيار كوچك است به همين دليل در محاسباتمي توان از آن صرفنظر كرد

2 ( ) 2 ( ) ( )TF X J X J X∇ =گويند Quasi Newtonدر اين صورت متد را

( )1

( )2 ( ).M

ii

ij j

F x e xe xx x=

∂ ∂=

∂ ∂∑

Page 104: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

در روش نيوتن داشتيم•

شبکه عصبی105

11k k k kX X A g−+ = −

( )k

k k x xg F x

== ∇

2 ( )k

k k x xA F x

== ∇

( ) 2 ( ) ( )TF X J x E X⎯⎯→∇ =

2 ( ) 2 ( ) ( )TF X J X J X⎯⎯→∇ =

1

1 2 ( ). ( ) .2 ( ) ( )T Tk kX X J X J X J x E X

+ ⎡ ⎤= − ⎣ ⎦

براي محاسبه ي رابطه ي مذكور تنها از مشتق اول استفاده مي شود

است؟معكوس پذير آيا اين ماتريس همواره

Quasi Newton

Page 105: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

Levenberg‐Marqualt

ماتريس ازHk از استفاده جاي به روش اين در•Gkمي شود استفاده.

.باشد روش نيوتن است µ=0اگر •

شبکه عصبی106

1

1 2 ( ). ( ) .2 ( ) ( )T Tk kX X J X J X J x E X

+ ⎡ ⎤= − ⎣ ⎦Hk

k k kG H Iμ= +بسيار كوچك

Page 106: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

Levenberg‐Marqualt

شبکه عصبی107

i i iAq qλ=يادآوري

مقدار ويژه

بردار ويژه[ ]i iGq H I qμ= +

i iHq qμ= + i i iq qλ μ= +

داراي مقادير ويژه Hفرض مي كنيم λi و بردارهاي ويژهqi باشد

( )i iqλ μ= +

( )i i iGq qλ μ= +

G مقادير ويژه دارايμ +λi و بردارهاي ويژهqi خواهد بود.

Page 107: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

Levenberg‐Marqualt

ويژه مقادير كافي است معكوس پذيري براي•.باشد مثبت ماتريس

را تغيير داد تا مقادير ويژه مثبت µمي توان آنقدر •.گردد

در روش نيوتن اين مقدار ثابت و غيرقابل تغيير •.بود

شبکه عصبی108

( )i i iGq qλ μ= +G مقادير ويژه دارايμ +λi و بردارهاي

است qiويژه

1

1 2 ( ). ( ) .2 ( ) ( )T Tk k k k k k kX X J X J X I J X E Xμ

+ ⎡ ⎤= − +⎣ ⎦

Page 108: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

Levenberg‐Marqualt

رابطه μ ميزان افزايش با داد، نشان مي توان•:مي شود زير همانند

0.01 حدود در كوچك μ با را الگوريتم معموالً• با )موفقيت( خطا كاهش صورت در كرده شروع.مي دهند كاهش 10 حدود در θ ضريب

افزايش θ ضريب با را μ موفقيت عدم صورت در•.مي دهند

شبکه عصبی109

1

1 2 ( ). ( ) .2 ( ) ( )T Tk k k k k k kX X J X J X I J X E Xμ

+ ⎡ ⎤= − +⎣ ⎦

11 ( ) ( )T

k k k kk

X X J X E Xμ+ = −

دارد اما حجم BPاز كم تري روش براي شبكه هاي كوچك تعداد تكرارهاي بسيار محاسباتي آن باال و زمان گير است

Page 109: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

Hessian ماتريس محاسبه ي به احتياج نيوتن روش در• الزم دوم مشتق ذخيره سازي و محاسبه واقع در داريم؛.است

محاسبه ي به نياز بدون كه است روشي يافتن هدف•.دهد افزايش را همگرايي دوم مشتق

steepest از استفاده طرفي از• descent حركت باعث .مي شود مينيمم سمت به زيزاگي

ماتريس ويژه ي بردارهاي راستاي در كه صورتي در•Hessian سرعت كه داشت انتظار مي توان كنيم، حركت .يابد افزايش همگرايي

شبکه عصبی110

Conjugate gradient

Page 110: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی111

positive كه(A ماتريس به نسبت بردار دو definite( ،است conjugate مي شوند ناميده:

.است ماتريس ويژه ي بردارهاي بردارها، اين از مجموعه يك بردارهاي مجموعه راستاي در جستجو كه صورتي در مي شود ثابت

conjugate ،به بردارها اين راستاي در جستجو دور يك طي مي توان باشد .)دو درجه ي توابع(رسيد مطلق مينيمم

.در صورتي كه ماتريس متقارن باشد، برداهاي ويژه ي آن متعامد است

Conjugate gradient

Page 111: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی112

امkتغييرات گراديان در گام

كه

.محاسبه شد conjugateبردار Hessianبدون نياز به محاسبه ي بردار نياز است، در conjugateتوجه داشته باشيد كه به يك مجموعه بردار

:ام به جهتي نياز است كه بر تمام جهت هاي زير عمود باشد kواقع در گام

Conjugate gradient

{ }0 1 2 1, , , , kg g g g −Δ Δ Δ Δ

Page 112: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

.است steepest decentمرحله ي اول مشابه •

•Direction بر كه مي كنيم انتخاب گونه اي به را .باشد مشتق خالف

محاسبه گونه اي به را p بردار iteration هر در•.شود واقع گراديان تغييرات بر عمود كه مي كنيم

شبکه عصبی113

0 (0)x xg F == ∇F تابع معيار خطاست

0 0p g= −

1k k k kp g pβ −= − +اثر گراديان هاي قبلي

Conjugate gradient

Gram-Schmidt Orthogonalization

Page 113: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی114

1k k k kp g pβ −= − +

Conjugate gradient

1 1 1 1k k k k k k kp p p g p pβ− − − −= − +A A A

1 1 1k k k k kp p p gβ − − −=A A

1

1 1

k kk

k k

p gp p

β −

− −

=A

Aاز اين شيوه Hessianبا توجه به نياز به ماتريس

!نمي توان استفاده كرد

Page 114: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مي تواند از يكي از روش هاي زير محاسبه βkضريب •:گردد

شبکه عصبی115

Hestenes and SteifelPolak and Ribiere

Fletcher and Reeves

1 1( )T Tk k kg g g− −Δ = −

Conjugate gradient

Page 115: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

conjugate الگوريتم• gradient خالصه صورت به: عمود مشتق جهت بر كه به گونه اي را اوليه جستجوي جهت–

مي گيريم نظر در باشد تا مي نماييم محاسبه است يادگيري نرخ همان كه را α مقدار–

نرخ به شيوه اين كه اين به توجه با آيد، دست به زير رابطه ي Hessian ماتريس به نيز آموزش نرخ و است حساس آموزش تكرارشونده روش هاي از ميزان اين تخمين براي است، وابسته

.مي شود استفاده آموزش نرخ محاسبه ي براي

شبکه عصبی116

0 0p g= −

1k k k kx x pα+ = +

(For quadraticfunctions.)

Conjugate gradient

Page 116: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

بهينه ي جهت همان كه را زير مقدار β محاسبه ي با–.مي شود محاسبه جستجوست

شروع دوباره دو گام از نرسيد همگرايي به الگوريتم اگر–.مي كنيم

شبکه عصبی117

1k k k kp g pβ −= − +

Conjugate gradient

Page 117: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

مثال

شبکه عصبی118

Page 118: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

ادامه-مثال

شبکه عصبی119

Page 119: ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 - 713-01facultymembers.sbu.ac.ir/a_mahmoudi/ANN_93_2/ANN_93_2_Chp02(MLP).pdf · ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ

شبکه عصبی120

-2 -1 0 1 2-2

-1

0

1

2Contour Plot

x1

x2

-2 -1 0 1 2-2

-1

0

1

2

Conjugate Gradient Steepest Descent