ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 -...

شبكه هاي عصبي مصنوعي01-713 -11-13

بخش دومدانشگاه شهيد بهشتی

دانشکده ی مهندسی برق و کامپيوتر۱۳۹۳زمستان

احمد محمودی ازناوه

http://faculties.sbu.ac.ir/~a_mahmoudi/

2

فهرست مطالبشبكه ي عصبي چنداليه•آموزش•الگوريتم پس انتشار خطا•

–Momentumانواع آموزش–توقف آموزش–

نكاتي براي تسريع آموزش•بردارهاي ورودي–

...)ادامه(فهرست مطالبتابع انگيزش–نرخ يادگيري–تابع هزينه–

الگوريتم هاي بهينه سازي•–Gradient descent

روش نيوتن••Levenberg‐Marqualt

•Conjuagte gradient

شبکه عصبی3

شبکه عصبی

1

1

-1

-1

x1

x2

x1 x2 x1 xor x2

-1 -1 -1 -1 1 1 1 -1 1 1 1 -1

1 if v > 0ϕ(v) =

-1 if v ≤ 0ϕ is the sign function.

Minskyمثال & Papert (1969) offered solution to XOR problem by combining perceptron unit responses using a second layer of units

4

+1

+1

-1

-1

x1

x2

-1

-1

y1

y2

مثال

شبکه عصبی5

x1 x2 y1 y2 x1 xor x2

-1 -1 -1 -1 -1 -1 1 -1 1 1 1 -1 1 -1 1 1 1 -1 -1 -1

1

1

-1

-1

y1

y2 +1

+1

0.1+1

+1

-1

-1

x1

x2

-1

-1

y1

y2

شبکه عصبی6

مخفياليه ها ي

اليه ي اليه ي خروجيورودي

Multilayer Neural Network

Multilayer Neural Perceptron

شبكه عصبي چند اليه متصل خروجي به مستقيم صورت به ورودي ها•

.نيستند 2 اليه ي واحد هاي تمامي به 1 اليه ي از واحد هر•

)است مجاز صفر وزن( .است متصل.است مشخص مخفي واحد هاي تعداد•.است جلو به رو اتصاالت تمام•.است غيرخطي تابعي انگيزش تابع•

شبکه عصبی7

Multilayer Neural Network

Multilayer Neural Perceptron(MLP)

7مخفياليه هاي

اليه ي اليه ي خروجيورودي

Feed Forward

شبكه عصبي چند اليه

شبکه عصبی8

Structure Types ofDecision Regions

Exclusive-ORProblem

Classes withMeshed regions

Most GeneralRegion Shapes

Single-Layer

Two-Layer

Three-Layer

Half PlaneBounded ByHyperplane

Convex OpenOr

Closed Regions

Abitrary(Complexity

Limited by No.of Nodes)

A

AB

B

A

AB

B

A

AB

B

BA

BA

BA

An introduction to computing with neural nets (Lippmann, R. P.)

يادگيريالگوريتم از شبكه ها اين آموزش براي•

Back Propagation مي شود استفاده. زير طريقه ي به شبكه ها دست اين آموزش براي•

:مي شود عمل)Forward( جلو به رو–

محاسبه واقعي خروجي و شده اعمال شبكه به ورودي بردار•.مي شود

)Backward( عقب به رو – بر و شده محاسبه )مطلوب خروجي – واقعي خروجي( خطا•

.مي شود توليد خطا با متناسب سيگنالي معيار، تابع حسب ورودي اليه ي تا را وزن ها و كرده حركت اليه اليه سيگنال اين

.مي نمايد اصالحشبکه عصبی

صورت گرفته است iterationگوييم يك ها مي پس از اصالح وزن10

عملكرد شبكه

شبکه عصبی11

Function signalsForward Step

Error signalsBackward Step

ميانگينشوند كه اي اصالح مي ها به گونه وزن. گردد مجموع مربعات خطا كمينه

فرض شبكه•–m اليه بدون در نظر گرفتن اليه ي ورودي

ميزان خطاام jميزان خطا و ميانگين مربعات خطا براي نرون •

به شيوه ي زير ) ام-nبه ازاي ورودي (امnخروجي در تكرار :محاسبه مي شود

شبکه عصبی12

( ) ( ) - ( )j j je n d n y n=

1 22( ) ( )j

j CE n e n

∈

= ∑1

1( )

N

AV Nn

E E n=

= ∑هدف آمورزش كمينه نمودن

EAV

instantaneous error energy

sequential mode

امjخطاي خروجي نرون )ي خروجي گره(

averaged squared error energy

آموزش شبكه هاي چنداليه:است LMSبه روز نمودن وزن ها همانند •

شبکه عصبی13

je

0,...,j ji i

i mv w y

=

= ∑

خطاي امjخروجي نرون

( ) ( ( ))j j jy n v nϕ=

امjخروجي نرون م امnدر

induced local field

آموزش اليه ي خروجي

براي به روز كردن وزن ها به LMSهمانند •:شيوه ي زير عمل مي كنيم

شبکه عصبی14

0,...,j ji i

i mv w y

=

= ∑

( ) ( ( ))j j jy n v nϕ=

( ) ( ) ( )( ) ( ) . . .( ) ( ) ( ) ( ) ( )

j j j

ji j j j ji

e n y n v nE n E nw n e n y n v n w n

∂ ∂ ∂∂ ∂=

∂ ∂ ∂ ∂ ∂

je

sensitivity factor

1 22( ) ( )j

j CE n e n

∈

= ∑

...)ادامه(آموزش اليه ي خروجي

شبکه عصبی15

0,...,j ji i

i mv w y

=

= ∑

( ) ( ( ))j j jy n v nϕ=

( ) ( ) ( )( ) ( ) . . .( ) ( ) ( ) ( ) ( )

j j j

ji j j j ji

e n y n v nE n E nw n e n y n v n w n

∂ ∂ ∂∂ ∂=

∂ ∂ ∂ ∂ ∂

1 22( ) ( )j

j CE n e n

∈

= ∑

( )je n 1− ' ( ( ))j jv nφ ( )iy n

'( ) ( ) ( ( )) ( )( ) j j j i

ji

E n e n v n y nw n

ϕ∂= −

∂

( ) ( )i i ie n d y n= −

...)ادامه(آموزش اليه ي خروجي:داشتيم دلتااز قانون •

شبکه عصبی16

( )( )( )ji

ji

E nw nw n

η ∂Δ = −

∂Step in direction opposite to the gradient

'( ) ( ) ( ( )) ( )ji j j j iw n e n v n y nη ϕΔ = −

'( ) ( ) ( ( )) ( )( ) j j j i

ji

E n e n v n y nw n

ϕ∂= −

∂

( )j nδ محليگراديان

( )( )( )

( ) ( )( ) . .( ) ( ) ( )

jj

j j

j j j

E nnv n

e n y nE ne n y n v n

δ ∂= −

∂

∂ ∂∂= −

∂ ∂ ∂'( ) ( ( ))j j je n v nϕ=

گراديان محلي براي يك نرون به خطاي ايجاد شده براي آن نرون و

مشتق تابع مرتبط آن بستگي دارد

...)ادامه(آموزش اليه ي خروجي

شبکه عصبی17

'( ) ( ) ( ( )) ( )ji j j j iw n e n v n y nη ϕΔ = −

( )j nδ

( ) ( ) ( )ji j iw n n y nηδΔ =

-j j je d y=

( - ) '( )j j j jd y vδ ϕ=

ي مخفي خواهيم پرداخت ي آموزش اليه در ادامه به شيوه

آموزش اليه ي مخفي بگيريم نظر در مخفي اليه ي از نروني را j نرون اگر•

:خطا محاسبه ي براي مي بايد نظر مورد نرون محلي گراديان محاسبه ي براي–

مورد نرون با كه نرون هايي محلي گراديان هاي تمامي.نماييم لحاظ را هستند ارتباط در نظر

شبکه عصبی18

...)ادامه(آموزش اليه ي مخفي

شبکه عصبی19

the details of output neuron k connected to hidden neuron j

'

( )( )-( ) ( )

( ) - ( ( ))( )

jj

j j

j jj

y nE ny n v n

E n v ny n

δ

ϕ

∂∂=

∂ ∂

∂=

∂متعلق به jنرون

اليه ي مخفي است

هدف


شبکه عصبی

'

( )( )-( ) ( )

( ) - ( ( ))( )

jj

j j

j jj

y nE ny n v n

E n v ny n

δ

ϕ

∂∂=

∂ ∂

∂=

∂

1 22( ) ( )k

k CE n e n

∈

= ∑يك kنرون node خروجي

است

( )( )( ) ( )

kk

kj j

e nE n ey n y n

∂∂=

∂ ∂∑( ) ( )( )

( ) ( ) ( )k k

kkj k j

e n v nE n ey n v n y n

∂ ∂∂=

∂ ∂ ∂∑

( ) ( ) ( ) ( ) ( ( ))

k k k

k k k

e n d n y nd n v nϕ

= −= −

' ( ( ))k kv nϕ−

0( ) ( ) ( )

m

k kj jj

v n w n y n=

=∑

( )kjw n

20

jj

j j

'

j

y ( )( )-y ( ) v ( )

( ) - ( ( ))y ( ) j j

nE nn n

E n v nn

δ

ϕ

∂∂=

∂ ∂

∂=

∂


شبکه عصبی21

( ) ( )( )( ) ( ) ( )

k kk

kj k j

e n v nE n ey n v n y n

∂ ∂∂=

∂ ∂ ∂∑

' ( ( ))k kv nϕ−

( )kjw n

'( ) ( ) ( ( )) ( )( ) k k k kj

kj

E n e n v n w ny n

ϕ∂= −

∂ ∑

( ) ( )k kjk

n w nδ= −∑

هدف

'j ( ( )) ( ) ( )j j k kj

kv n n w nδ ϕ δ= ∑

متعلق به jنرون اليه ي مخفي است


شبکه عصبی22

Local Gradient of hidden neuron j

( )j j j k kjk C

v wδ ϕ δ∈

′= ∑

ϕ’(v1)

ϕ’(vk)

ϕ’(vm)

δ1

δk

δm

w1j

wkj

wm j

e1

ek

em

Signal-flow graph ofback-propagation errorsignals to neuron jδj ϕ’(vj)

Iteration شماره يn

.

.

.

.

.

.


:به صورت كلي خواهيم داشت•

شبکه عصبی23

'j ( ( )) ( ) ( )j j k kj

kv n n w nδ ϕ δ= ∑

...)ادامه(آموزش اليه ي مخفي• Delta rule Δwji = ηδj yi

C: Set of neurons in the layer following the one containing j

=jδ( )( )j j jv d yϕ′ −

( )j k kjk C

v wϕ δ∈

′ ∑IF j output node

IF j hidden node

24شبکه عصبی


شبکه عصبی25

ديع بن

جم

Sensitivity graph

تابع انگيزش

26شبکه عصبی

Sigmoid function

( )( )( )

1( ( )) 01 expj j j

j

y n v n aav n

ϕ= = >+ −

( )( )( )( ) 2

exp( ( ))

1 exp

jj j

j

a av nv n

av nϕ

−′ =

⎡ ⎤+ −⎣ ⎦

( )( ) ( )( )1 1( ( )) 1

1 exp 1 expj jj j

v n aav n av n

ϕ⎡ ⎤

′ = × × −⎢ ⎥+ − + −⎢ ⎥⎣ ⎦

( ) ( )( ( )) 1j j j jv n ay n y nϕ′ ⎡ ⎤= × −⎣ ⎦

...)ادامه(تابع انگيزش:اگر نرون در اليه ي خروجي باشد•

:و اگر در اليه ي مخفي باشد•

شبکه عصبی27

Sigmoid function

( ) ( ) ( ( ))j j j jn e n v nδ ϕ′=

( ) ( ) ( ) ( ) ( )1j j j j jn a d n o n o n o nδ ⎡ ⎤ ⎡ ⎤= − × −⎣ ⎦ ⎣ ⎦

( ) ( )j 1 ( ) ( )j j k kjk

ay n y n n w nδ δ⎡ ⎤= × −⎣ ⎦∑بدين ترتيب گراديان محلي بدون نياز به استفاده از تابع

.انگيزش قابل محاسبه مي باشد

...)ادامه(تابع انگيزش

شبکه عصبی28

hyperbolic tangent

( )( ) ( )( ( )) tanh , 0j j jv n a bv n a bϕ = >

( ) ( )( ( ))j j j jbv n a y n a y na

ϕ′ ⎡ ⎤ ⎡ ⎤= − +⎣ ⎦ ⎣ ⎦

α= 1.7159 and b = 2/3

انواع شيوه هاي آموزش:شيوه ي ترتيبي•

در اين شيوه نمونه ها تك تك براي اصالح وزن ها به كار –.مي روند

:شيوه ي دسته اي•در اين شيوه تمام نمونه هاي آموزشي اعمال شده، –

.سپس اصالح وزن ها صورت مي پذيرد

شبکه عصبی29

.نامند مي epochهاي آموزشي در فرآيند آموزش را ي نمونه ي اکمل ارائه يك دوره

Sequential Mode

online pattern or stochastic mode

Batch Mode

( )1 22

1

N

AV jNn j C

E e n= ∈

= ∑∑ AVji

ji

Eww

η ∂Δ = −

∂

( ) ( )1

Nj

ji jn ji

e nw e n

N wη

=

∂Δ = −

∂∑ي اين بخش به محاسبه

اي كه پيش آز همان شيوهشود اين گفته شد، انجام مي

...)ادامه(انواع شيوه هاي آموزش.دارد احتياج كم تري حافظه ي به ترتيبي شيوه ي• شود، اعمال تصادفي و ترتيبي صورت به نمونه ها كه صورتي در•

خواهد كم تر بيفتند، محلي مينيمم دام در الگوريتم كه اين احتمال.بود

صورت به ترتيبي روش باشيم، داشته تكراري داده هاي كه وقتي•.مي كند استفاده تكراري داده هاي از مؤثرتري

دشوارتر را همگرايي شرايط نظري تحليل بودن، تصادفي اين چند هر• از بهتري تقريب دسته اي شيوه ي از استفاده با كه حالي در مي كند،

محلي مينيمم سوي به همگرايي و مي آيد دست به گراديان بردار.است شده تضمين

.ساده است مراتب به دسته اي شيوه ي در موازي پردازش از استفاده•

شبکه عصبی30

...)ادامه(انواع شيوه هاي آموزش

براي بهره برداري از مزاياي هر دو شيوه، آموزش به •نيز معمول است كه » mini‐batche«صورت

گام صورت ) n)n>1به روزرساني وزن ها، بعد از هر .مي گيرد

شبکه عصبی31

شود، از اين جهت كه عليرغم، معايب روش ترتيبي، اين روش در عمل ترجيح داده ميتر است سازي آن ساده پياده

براي مسائل دشوار و بزرگ راه حل مؤثري است

معيارهاي توقف آموزش فرآيند آيا كه نمود مشخص نمي توان راحتي به عمل، در•

ضوابطي اما .است رسيده نظر مورد نقطه ي به آموزش.است شده مطرح آموزش به دادن پايان براي حد يك از گراديان بردار اندازه ي كه رود پيش جايي تا آموزش–

.شود كم تر آستانه.شود طوالني است ممكن آموزش فرآيند كه است اين روش اين عيب•

به ميانگين خطاي اختالف كه مي شود متوقف زماني آموزش– كوچك كافي اندازه ي به متوالي )epoch(دوره دو در آمده دست.باشد

با شبكه آموزش، فاز هر از پس كه است اين ديگر شيوه ي يك– قدرت و شود بررسي آموزشي داده هاي از غير داده هايي

.باشد آموزش توقف براي مالكي آن »تعميم پذيري«

شبکه عصبی32

شبکه عصبی33

مينيمم محلي جايي است كه مشتق صفر گردد

If slope is negative increase wIf slope is positive decrease w

E

w

خطا

مينيمم محلي

مينيمم مطلق

Gradient Descent

موجب باال آموزش نرخ وشد، مطرح اين از پيش چنان چه• فرآيند پايين آموزش نرخ كه حالي در مي شود، ناپايداري .كرد خواهد طوالني را آموزش

مختلف وزن هاي براي را آموزش نرخ مي توان همچنين•.گرفت نظر در متغير

تأثير نرخ آموزش

شبکه عصبی34

Connection dependent

بدون تغييرات زيادولي روند حركت همگرايي كند است : نرخ آموزش كوچكبا تغييرات زيادولي روند حركت همگرايي تند است : نرخ آموزش بزرگ

شبکه عصبی35

Momentum and Learning Rate AdaptationLocal Minima

http://www.willamette.edu/~gorr/classes/cs449/momrate.html

momentumروش استفاده از

:داشتيم•

شبکه عصبی36

1( ) ( 1) ( ). ( )l l l lji ji j iw n w n n y nα ηδ −Δ = Δ − +

( )( ) ( 1)( )

l lji ji l

ji

E nw n w nw n

α η ∂Δ = Δ − −

∂

0 1α≤ <

new oldw w w= + Δ

Momentumثابت

1( 1) ( ) ( 1) ( ) ( )l l l l lji ji ji j iw n w n w n n y nα ηδ −+ = + Δ − +

رات وزن در مرحله ي پيشين تغ

E

w

generalized delta rule


.است عادي رساني به روز باشد صفر ممنتوم ثابت اگر• رساني روز به كند ميل يك سمت به ثابت اين اندازه هر•

.مي كند تبعيت قبلي الگوي از بيشتر گرفتن نظر در باشند، هم جهت تغييرات كه كه صورتي در–

momentum مي شود آموزش تسريع باعث. فرآيند پايداري موجب نباشند، يكسان تغييرات صورت در–

.مي شود آموزش ناكارامد يك از بيشتر و صفر از كم تر ثابت كه است واضح•

.است دريافت بهينه پاسخي مي توان آموزش نرخ ميزان تغيير با•

.كردشبکه عصبی

37

1( ) ( 1) ( ). ( )l l l lji ji j iw n w n n y nα ηδ −Δ = Δ − +

رات وزن در مرحله ي پيشين تغ

accelerating effect

stabilizing effect

momentumروش استفاده از1( ) ( 1) ( ). ( )l l l l

ji ji j iw n w n n y nα ηδ −Δ = Δ − +

1(0) (0). (0)l l lji j iw yηδ −Δ =

1 1(1) (0). (0) (1). (1)l l l l lji j i j iw y yαηδ ηδ− −Δ = +

2 1 1 1(2) (0). (0) (1). (1) (2). (2)l l l l l l lji j i j i j iw y y yα ηδ αηδ ηδ− − −Δ = + +

Momentumتاثير 1

0( ) ( ). ( )

nl n h l lji j i

hw n h y hη α δ− −

=

Δ = ∑

نرخ آموزش شبکه عصبیMomentumثابت 38

:اول بررسي مي كنيم iterationبراي

...ادامه

شبکه عصبی39

0

( )( )( )

nl n hij

h ji

E nw nw n

η α −

=

∂Δ = −

∂∑

iterationثابت Momentum

1α2α2

..nαn‐h

رود باالتر iteration هرچه شد خواهد كوچك تر ضريب بهينه مقدار از ترتيب بدينگرفت خواهيم فاصله كم تر


با /ميانگين زمان يادگيري براي يك شبكه بدون•Momentumاستفاده از

شبکه عصبی40

0

( )( )( )

nl n hji

h ji

E nw nw n

η α −

=

∂Δ = −

∂∑

momentum Training time

0 2170.9 95

1

0( ) ( ). ( )

nl n h l lji j i

hw n h y hη α δ− −

=

Δ = − ∑

نرخ آموزش Momentumثابت

http://www.willamette.edu/~gorr/classes/cs449/momrate.html

مثالهدف طراحي شبكه اي است كه دو دسته داده زير را •

.از هم جدا كند

شبکه عصبی41

مثال

شبکه عصبی42

[ ]1

21

mean vector 0,0

variance 1

T

σ

= =

= =

μ

( ) 22 2 22 2

2 2

1 1Class C : |C exp2 2

fπσ σ

⎛ ⎞= − −⎜ ⎟

⎝ ⎠X x x μ

[ ]2

22

mean vector 2,0

variance 1

T

σ

= =

= =

μ

( ) 21 1 12 2

1 1

1 1Class C : |C exp2 2

fπσ σ

⎛ ⎞= − −⎜ ⎟

⎝ ⎠X x x μ

( ) ( )( )

1

2

|C = 1

|Cff

<Λ >X

X

xx

x

Likelihood ratio

...ادامه

شبکه عصبی43

( )2

2 221 22 2 2

1 1 2

1 1 = exp2 2

σσ σ σ

⎛ ⎞Λ − − + −⎜ ⎟

⎝ ⎠x x μ x μ

22 22

1 22 2 21 1 2

1 1 exp 12 2

σσ σ σ

⎛ ⎞− − + − =⎜ ⎟⎝ ⎠

x μ x μ

22 2 2

2 12 2 22 1 1

1 1 4 log2 2

σσ σ σ

− − − =x μ x μ

2 2c r− =x x Optimum decision boundary

Probability of correct classification0.8151cP =

مثال

شبکه عصبی44

η=0.01

شبکه عصبی45

η =0.1

شبکه عصبی46

η =0.5

شبکه عصبی47

η =0.9

شبکه عصبی48

مثال

شبکه عصبی49

نرخ يادگيري و ضريب گشتاور تغييرات باشد كوچك تر يادگيري نرخ اندازه هر•

را بهتري محلي كمينه ي اما است، كندتر نمودار فضاي شرايط اين در .آورد دست به مي تواند.مي گيرد قرار بررسي مورد خطا رويه ي از بيشتري

گشتاور ضريب و يادگيري نرخ براي كه صورتي در• باعث شود، گرفته نظر در بزرگي و ثبات اعداد كند تغيير نوساني صورت به خطا ميزان شد خواهد

.شود همگرا باالتري مقدار به يا وشبکه عصبی

50

For η ->0 , α->1

For η ->1, α->0 باعث ثبات يادگيريافزايش سرعت همگراييباعث

)وفقي(روش نرخ يادگيري متغير

شبکه عصبی51

Adaptive Learning Rate

( ) ( 1) 1 ( ) ( 1) ( )if E k E k w k w kξ+ > + ⎯⎯→ + =

0.01 0.05ξ< < در اين حالت جهت حركت نامناسب است

( 1) ( ) .k kη η ρ+ =

0 1ρ< <

را صفر مي گذاريم momentumضريب

ηخالف جهت است بايد كم شود

SSE

Bold Driver


شبکه عصبی52

( 1) ( )if E k E k+ < ⎯⎯→ ( 1) ( ) ( )w k w k w k+ = + Δ

( 1) ( ) .k k dη η+ در اين حالت جهت حركت مناسب است=

1 2d< <

به مقدار اصلي برمي گردد momentumضريب

η بيشتر شود

SSE


شبکه عصبی53

( ) ( 1) 1 ( )if E k E kβ+ > +

β ξ<

كرده وزن هاي جديد را قبول به مقدار αماند و ميثابت ηولي

ر داده مي شود .اوليه تغ

( 1) ( )k kη η+ =( 1) ( ) ( )w k w k w k+ = + Δ

مفيد است، در اين شيوه تنها براي آموزش دسته اي.شود صورت استفاده در روش ترتيبي منجر به واگرايي مي

روش نرخ يادگيري متغيرBold از استفاده ترتيبي، روش در• driver به منجر

نظر در جاي به اين رو از مي شود، الگوريتم واگرايي در نزولي صورت به آموزش نرخ وفقي، نرخ گرفتن

.مي شود گرفته نظر

تقريبا آموزش نرخ اوليه گام هاي در بدين ترتيب، • مينيمم، محدوده ي به رسيدن از بعد .است ثابت.مي يابد كاهش آموزش نرخ پارامتر ها مجموعه ي به آزاد پارامتر يك حالت اين در–

شبکه عصبی.شد خواهد افزوده54

Annealing

(0)( )

1k k

T

ηη =

+

روش هاي بهبود كارايي آن از بيش عصبي شبكه ي طراحي كه مي شود گفته غالبا•

تنظيم كه چرا است، »هنر« نوعي باشد، »علم« كه زيادي حد تا هستند، دخيل طراحي در كه زيادي پارامترهاي

.دارد بستگي شخص تجربه ي به:دارد وجود شبكه كارايي بهبود براي روش هايي وجود اين با•:دسته اي مقابل در ترتيبي روش•

افزونگي و داريم اختيار در بزرگي آموزشي مجموعه ي كه جاهايي–.است مناسب تر ترتيبي روش باالست داده ها در

به جديد داده هاي نيست، ثابت آموزشي مجموعه ي كه مواردي–.شود اضافه مجموعه

شبکه عصبی55Y. LeCun, L. Bottou, G. Orr and K. Muller: Efficient BackProp, in Orr, G. and Muller

K. (Eds), Neural Networks: Tricks of the trade, Springer, 1998

...)ادامه(روش هاي بهبود كارايي:آموزش در اطالعات حداكثر از استفاده•

و همگرايي در مهمي بسيار نقش آموزشي مجموعه ي– .دارد تعميم پذيري

در خطا بيشترين كه شود استفاده نمونه هايي از است بهتر•.مي كند ايجاد را آموزش

باعث كار اين .هستند متفاوت هم با كه نمونه هايي•.شوند بررسي وزن ها از وسيع تري گستره ي مي شود

به الگوها اعمال ترتيبي، شيوه ي در الگو بازشناسي در– كالس يك داده هاي تا مي شد موجب تصادفي صورت

.نشوند انتخاب سرهم پشت صورت به

شبکه عصبی56

Maximizing information content

...)ادامه(روش هاي بهبود كارايي .شوند اعمال بيشتر شبكه به دشوارتر نمونه هاي•

.است روبرو هم مشكالتي با البته شيوه اين.مي ريزد هم به آموزشي نمونه هاي اعمال ترتيب– مجموعه ي در )outlier(برون هشته داده هاي يا–

داده هاي چنين .باشد داشته وجود آموزشي.مي كند مواجه چالش با را »تعميم پذيري«

شبکه عصبی57

emphasizing scheme

...)ادامه(روش هاي بهبود كارايي:انگيزش تابع•

.است موثر كارايي در مناسب انگيزش تابع انتخاب–:مطلوب خروجي مقدار•

باشد، فعاليت تابع برد محدوده ي در بايد مقدار اين–.مي روند بي نهايت سمت به آزاد پارامترهاي وگرنه

شبکه عصبی58

...)ادامه(روش هاي بهبود كارايي:ورودي ها بهنجارسازي•

صورت پيش پردازش هاي بايد ورودي داده هاي روي بر– غير در .شود صفر ورودي ها ميانگين است بهتر .پذيرد حركت مينيمم سمت به زيگزاگ صورت به صورت اين

.مي كند

شبکه عصبی59

mean removal

covariance equalization

Decorrelation

...)ادامه(روش هاي بهبود كارايي:وزن ها اوليه ي مقداردهي•

شدن كند←اشباع ناحيه ي به رفتن←بزرگ مقادير–آموزش

صورت به مبدأ←مبدأ نزديگي←كوچك مقادير–.است »زيني نقطه ي«.است دو اين بين مقداري مناسب مقدار–

ثابت مي شود در صورتي كه ميانگين مقدار اوليه ي •وزن ها صفر و انحراف معيار آن

) تعداد اتصاالت به نرون m(در نظر گرفته شود،زماني كه تابع (نتيجه ي بهتري به دست مي آيد

).باشد tanhانگيزش شبکه عصبی

60

1/ 2w mσ −=

...)ادامه(روش هاي بهبود كارايي

شبکه عصبی61

1

m

j ji ii

v w y=

= ∑[ ] 0 for all y iE y iμ = =

( )22 2 1 for all y i i iE y E y iσ μ⎡ ⎤ ⎡ ⎤= − = =⎣ ⎦⎣ ⎦

[ ] 1 for 0 for i k

k iE y y

k i=⎧

= ⎨ ≠⎩

( )0 for all ,w jiE w j i pairsμ ⎡ ⎤= =⎣ ⎦

( ) ( )22 2 for all ,w ji w jiE w E w i j pairsσ μ⎡ ⎤ ⎡ ⎤= − = ⎣ ⎦⎢ ⎥⎣ ⎦

...)ادامه(روش هاي بهبود كارايي

شبکه عصبی62

( )22 2v j v jE v E vσ μ⎡ ⎤ ⎡ ⎤= − = ⎣ ⎦⎢ ⎥⎣ ⎦

1 1

m m

ji jk i ki k

E w w y y= =

⎡ ⎤= ⎢ ⎥

⎣ ⎦∑∑

[ ]1 1

m m

ji jk i ki k

E w w E y y= =

⎡ ⎤= ⎣ ⎦∑∑2

1

m

jii

E w=

⎡ ⎤= ⎣ ⎦∑2wmσ=

[ ]1 1

0= =

⎡ ⎤⎡ ⎤ ⎡ ⎤= = = =⎢ ⎥⎣ ⎦ ⎣ ⎦⎣ ⎦∑ ∑m m

v j ij i ji ii i

E v E w y E w E yμ

در صورتي كه وزن ها به گونه اي در نظر گرفته vباشد، مقدار m-⅟₂شوند كه انحراف آن ها

.واريانس يك خواهد داشت

...)ادامه(روش هاي بهبود كارايي:آموزش نرخ•

.گرديم صحبت وفقي آموزش نرخ مورد در– نرون .ببينند آموزش سرعت يك با بايد نرون ها همه ي–

بهتر بنابراين .دارد بزرگ تري گراديان معموال آخر اليه ي گرفته نظر در كم تر آخر، اليه هاي آموزش نرخ است،.شود

شبکه عصبی63

تعميم در شبكه هاي عصبيآموزش بيش از حد•استفاده از اليه هاي مخفي •

بيش از حد نياز

شبکه عصبی64

Overfitting

Overfitted data(poor generalization)

properly fitted data(good generalization)

تعميم در شبكه هاي عصبيشبكه آموزش–

.مي شود استفاده شبكه آموزش براي الگو تعدادي از• شبكه به آموزشي داده هاي از غير ديگري ورودي هاي كه هنگامي•

مي شود گفته دهد، پاسخ درست )تقريبا( شبكه و شود اعمال.است خوب آن »تعميم پذيري«

مشكل گيرد صورت حد از بيش آموزش كه هنگامي•)overfitting or overtraining( مي آيد پيش.

جواب الگو مشخصي تعداد براي است ممكن حالت اين در•.كنيم دريافت نامناسب پاسخ الگوها تغيير صورت در و خوب

شبكه تست مرحله ي– شبكه تست جهت نشده استفاده آموزش در كه الگو تعدادي از•

.مي كنيم استفاده

شبکه عصبی65

Occamتيغ

William به منسوب اصلي Occam تيغ• of Ockham ميالدي 14 قرن در .است انگليسي فيلسوف و منطق دان•

تيغ« اصل نام به كه كرد مطرح را اصلي اوكام ويليامOccam« علت ٔدرباره گاه هر اصل، اين طبق .شد شناخته

توضيحي آن در شود، ارائه مختلف توضيح دو پديده اي بروز و است بيشتر اشتباه بروز احتمال باشد پيچيده تر كه

توضيح موارد، ساير بودن مساوي شرايط در بنابراين،.است بيشتر بودنش صحيح احتمال ،ساده تر

66

Occam’s razor

شبکه عصبی

...)ادامه(تعميم در شبكه هاي عصبي:سه فاكتور در تعميم پذيري مؤثر هستند•

تا چه حد (حجم مجموعه ي آموزشي و توزيع آن–)گوياست

)پيچيدگي مدل(ساختار شبكه ي عصبي –پيچيدگي مسأله–

تعداد نمونه هاي آموزشي براي تعميم پذيري مناسب–

شبکه عصبی67

WN Oε

⎛ ⎞= ⎜ ⎟⎝ ⎠

روش هاي سرعت بخشيدن به همگرايي:ابتدا خطا را محاسبه مي كرديم wjiبراي تصحيح وزن •

شبکه عصبی68

2 ( )( ) 1( )( ) 2 ( )

jji

ji ji

e kE kw kw k w k

∂∂Δ = − = −

∂ ∂

( ) 21 ( )2 j

j C

E k e k∈

= ∑

( ) ( ).

( )j

jji

e ke k

w k∂

= −∂

( ) ( ).

( )j

jji

y ke k

w k∂

=∂

( ) ( ) ( )j j je k d k y k= −

( )j jy vϕ=مطلوب

واقعي

روش هاي سرعت بخشيدن به همگرايي

شبکه عصبی69

( ) ( ) ( ) ( ). .

( ) ( )j j

ji jj ji

y k v kw k e k

v k w k∂ ∂

Δ =∂ ∂

ام jورودي به شاخه ي ( )

( ) ( ) ( )(1 ( )).( )

jji j j j

ji

v kw k e k y k y k

w k∂

Δ = −∂

( )j jy vϕ= اگرf تابعsigmoid باشد

ji wΔ <<

j e مناسب>>

j eبزرگ وليj 0y ≈

j eبزرگ وليj 1y ≈

نامناسبكند شدن همگرايي

پيشنهادتعويض تابع معيار خطا•

تابع معيار خطا B.Pدر روش عادي –

)Van Oyen, Nienhuis )V‐Oروش –

شبکه عصبی70

2

1( ) ( )

M

hh

E k e k=

= ∑

1( ) [ ln( ( )) (1- ) ln(1- ( )]

M

h h h hh

E k d y k d y k=

= − +∑

خروجي مطلوب خروجي واقعي

Improving the convergence of the back-propagation algorithmVan Ooyen, A., and Nienhuis, B. (1992). Neural Networks 5: 465-471

شبکه عصبی71

( ) ( )( ) ( )( ) . .( ) ( ) ( ) ( )

j jji

ji j j ji

y k v kE k E kw kw k y k v k w k

∂ ∂∂ ∂Δ = − = −

∂ ∂ ∂ ∂

1

( ) [ ln( ( )) (1- ) ln(1- ( )]M

h h h hh

E k d y k d y k=

= − +∑

1 1 [ (1 ) ]. ( )(1 ( )).( ) (1 ( ))j j j j i

j j

d d y k y k yy k y k

= × − − × −−

خروجي اليه ما قبل آخرje( )

.( )

jj

ji

v ke

w k∂

=∂

شبکه عصبی72

( ) ( )( ) ( )( ) . .( ) ( ) ( ) ( )

j jji

ji j j ji


∂ ∂∂ ∂Δ = =

∂ ∂ ∂ ∂

( ) msign e e 0 1m< <

شبکه عصبی73

( ) ( )( ) ( )( ) . .( ) ( ) ( ) ( )

j jji

ji j j ji


∂ ∂∂ ∂Δ = =

∂ ∂ ∂ ∂

( ) msign e e 0 1m< <

1) (1 )y y e−

2)e

3) ( ) msign e e

بسط تيلورتوابع تحليلي قابل تقريب زدن با چندجمله اي ها •

.هستند

شبکه عصبی74

F x( ) F x*( )xd

d F x( )x x*=

x x*–( )+=

12---

x2

2

d

d F x( )

x x*=

x x*–( )2 ¼+ +

1n!-----

xn

n

d

d F x( )

x x*=

x x*–( )n ¼+ +

حالت برداري

شبکه عصبی75

F x( ) F x∗( ) x1∂∂ F x( )

x x∗=x1 x1∗–( ) x2∂

∂ F x( )x x∗=

x2 x2∗–( )+ +=

…xn∂∂ F x( )

x x∗=xn xn∗–( ) 1

2--- x12

2

∂

∂ F x( )x x∗=

x1 x1∗–( )2+ + +

12--- x1 x2∂

2

∂∂ F x( )

x x∗=x1 x1∗–( ) x2 x2∗–( ) …+ +

فرم ماتريسيF x( ) F x∗( ) F x( )∇

T

x x∗=x x∗–( )+=

12--- x x∗–( )

T F x( )x x∗=

x x∗–( )∇2 …+ +

F x( )∇

x1∂∂ F x( )

x2∂∂ F x( )

…

xn∂∂ F x( )

= F x( )∇2

x12

2

∂

∂ F x( ) x1 x2∂

2

∂∂ F x( ) … x1 xn∂

2

∂∂ F x( )

x2 x1∂

2

∂∂ F x( )

x22

2

∂∂ F x( ) … x2 xn∂

2

∂∂ F x( )

… … …

xn x1∂

2

∂∂ F x( ) xn x2∂

2

∂∂ F x( ) …

xn2

2

∂∂ F x( )

=

Gradient Hessian

76شبکه عصبی

الگوريتم هاي بهينه سازي

شبکه عصبی77

pk - Search Direction

αk - Learning Rate

ي اکرايي ي مينيمم خطا بر روي رويه براي يافتن نقطه)performance(error) surface(هاي متفاوتي وجود دارد شيوه.

Neural Network Design, Hagan, chapter 9

باشد با استفاده از مي)F(X)(ي مينيمم تابع خطا هدف يافتن تقطه.هاي تكرار شونده است، از يك حدس اوليه شروع خواهيم كرد الگوريتم

الگوريتم هاي بهينه سازي كه باشد گونه اي به مي بايد به روز رساني روند•

:داريم

:از رابطه ي زير به دست مي آيد gkكه در آن •

شبکه عصبی78

Steepest Descent

1ي سري تيلور مرتبه

گراديان

الگوريتم هاي بهينه سازي رابطه ي آخر بخش اين براي•

.باشد صفر از كوچك تر بايد زير

:داريم پس•

:داشت خواهيم باشد، يك و صفر بين α اگر•

كند، صدق باال شرط كه pk بردار هر به•»descent direction« مي گويند.

شبکه عصبی79

0Tk kg p <

Steepest Descent

الگوريتم هاي بهينه سازي بردار دو داخلي ضرب مي بايد فوق رابطه ي در•

descent( نزولي جهت بردار و گراديان direction( باشد، منفي تر فوق عبارت چه هر باشد، منفي

.مي شويم نزديك مزبور نقطه ي به سريع تريافت؟ دست كاهش سريع ترين به مي توان چگونه•

steepest متد براي• decent داريم:

شبکه عصبی80

0Tk kg p <

Steepest Descent

مثال•Steepest decent اعمال زير مساله ي براي را

:كنيد

:با در نظر گرفتن خواهيم داشت•

شبکه عصبی81

2 21 2( ) 25F x x x= +

0

0.50.5

x⎡ ⎤

= ⎢ ⎥⎣ ⎦

1

2

( )( )

( )

F xx

F xF x

x

∂⎡ ⎤⎢ ⎥∂⎢ ⎥∇ =∂⎢ ⎥

⎢ ⎥∂⎣ ⎦

1

2

250

xx

⎡ ⎤= ⎢ ⎥⎣ ⎦

0

1( )

25x xF x =

⎡ ⎤∇ = ⎢ ⎥

⎣ ⎦

Steepest Descent

مثال:خواهيم داشت α=0.01با در نظر گرفتن •

شبکه عصبی82

1 0 0

0.5 1 0.490.01

0.5 25 0.25x x gα

⎡ ⎤ ⎡ ⎤ ⎡ ⎤= − = − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦ ⎣ ⎦

2 1 1

0.49 0.98 0.48020.01

0.25 12.5 0.125x x gα

⎡ ⎤ ⎡ ⎤ ⎡ ⎤= − = − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Steepest Descent

مثال زير شكل به شبيه چيزي ببريم باال را آموزش نرخ اگر•

:داشت خواهيم نمودار و داشت خواهيم بيشتري نوسان صورت اين در•

.شد خواهد بيشتري ناپايداري

شبکه عصبی83

همواره جهت تغييرات بر مسير عمود است .استو اين به دليل استفاده از گراديان

Steepest Descent

مثال

شبکه عصبی84

نمودار

شبکه عصبی85

-2 -1 0 1 2-2

-1

0

1

2

ي اين ماتريس است پايداري وابسته به مقادير ويژه

آموزش پايدار

شبکه عصبی86

Eigenvalues of [I - αA].

(λi - eigenvalue of A)

Stable Learning Rates (Quadratic)

Modern Control Theory (3rd dition) William L. Brogan

مثال برآنيم قبلي مثال بر مساله اين اعمال با•

كنيم محاسبه را مجاز آموزش نرخ ميزان بيشترين

دو درجه مثالي مي شود مشاهده كه همان گونه•Hessian پس است Matrix خواهد زير صورت به :بود

:داريم ويژه مقادير براي پس•

شبکه عصبی87

2 21 2( ) 25F x x x= +

2 00 50

A⎡ ⎤

= ⎢ ⎥⎣ ⎦

1 1 2 2

1 0{( 2), },{( 50), }

0 1z zλ λ⎛ ⎞ ⎛ ⎞⎡ ⎤ ⎡ ⎤

= = = =⎜ ⎟ ⎜ ⎟⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎝ ⎠ ⎝ ⎠

ادامه-مثالپس بيشترين ميزان نرخ آموزش از رابطه ي زير به •

:دست مي آيد

شبکه عصبی88

max

2 2 0.0450

αλ

< = =

α=0.039

α=0.041

-2 -1 0 1 2-2

-1

0

1

2

مثال

شبکه عصبی89

-2 -1 0 1 2-2

-1

0

1

2

تنظيم نرخ يادگيري پيش وفقي صورت به آموزش نرخ انتخاب مورد در•

.شد صحبت اين از كه است گونه اي به آموزش نرخ انتخاب ديگر راه•

:شود مينيمم زير عبارت

جستجويي pk راستاي در است الزم منظور اين براي•.پذيرد صورت

تحليلي حلي راه مي توان دوم درجه ي توابع براي•:نمود ارائه

شبکه عصبی90

Minimizing Along a Line

)...ادامه(تنظيم نرخ يادگيري

شبکه عصبی91

مثال

شبکه عصبی92

-2 -1 0 1 2-2

-1

0

1

2Contour Plot

x1

x2

روش نيوتن

شبکه عصبی93

http://www.nd.com/NSBook/NEURAL%20AND%20ADAPTIVE%20SYSTEMS18_Newtons_Method.html

ريشه يافتن جهت نيوتن روش از رياضيات در تكراري الگويتمي وسيله به رياضي عبارت

.مي شود استفاده

مانا نقاط يافتن براي الگوريتم اين از بهينه سازي مساله ي در)Stationary Point( استفاده كند صفر را مشتق كه گونه اي به

مي شود *xبه دنبال نقطه ي x0در اين حالت با شروع از نقطه ي

f’(x*)=0به گونه اي كه هستيم

روش نيوتن

شبکه عصبی94

:در بسط سري تيلور با استفاده از روابط زير خواهيم داشت•1k kx x x+Δ = −

' '' 21( ) ( ) ( ) ( )2T k k k kf x x f x f x x f x x+ Δ ≈ + Δ + Δ

با برابر آن دادن قرار و فوق رابطه ي از گرفتن مشتق با•:داريم صفر

' ''( ) ( ) 0k kf x f x x+ Δ = '

''

( )( )

k

k

f xxf x

Δ = −

'

1 ''

( ) k=0,1,...( )

kk k

k

f xx xf x+ = −

روش نيوتن

:به بياني ديگر داريم•

شبکه عصبی95

با مشتق گرفتن از اين تقريب و قرار دادن رابطه برابر با صفر نقطه ا ي با ثبات را بيابيم

' '' 21( ) ( ) ( ) ( )2T k k k kf x x f x f x x f x x+ Δ = + Δ + Δ

1مثال

:با در نظر گرفتن خواهيم داشت•

شبکه عصبی96

2 21 2( ) 25F x x x= +

0

0.50.5

x⎡ ⎤

= ⎢ ⎥⎣ ⎦

1

2

( )( )

( )

F xx

F xF x

x

∂⎡ ⎤⎢ ⎥∂⎢ ⎥∇ =∂⎢ ⎥

⎢ ⎥∂⎣ ⎦

1

2

250

xx

⎡ ⎤= ⎢ ⎥⎣ ⎦

Newton Method

2 ( )F x∇2 00 50⎡ ⎤

= ⎢ ⎥⎣ ⎦

1

1

0.5 2 0 10.5 0 50 25

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤

= − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

x0.5 0.5

00.5 0.5⎡ ⎤ ⎡ ⎤

− =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

2مثال

شبکه عصبی97

Plot

-2 -1 0 1 2-2

-1

0

1

2

98شبکه عصبی

همگرايي دوم درجه ي )كارايي(هزينه تابع كه صورتي در•

نمي توان نيوتن روش از استفاده با نباشد،.كرد تضمين را روش همگرايي

و هزينه تابع به وابسته همگرايي صورت، اين در•.است اوليه حدس حتي

شبکه عصبی99

شرايط اوليه ي متفاوت

شبکه عصبی100

Stationary Points:

-2 -1 0 1 2-2

-1

0

1

2

-2 -1 0 1 2-2

-1

0

1

2

F(x) F2(x)

شرايط اوليه ي متفاوت


-2 -1 0 1 2-2

-1

0

1

2

-2 -1 0 1 2-2

-1

0

1

2

-2 -1 0 1 2-2

-1

0

1

2

-2 -1 0 1 2-2

-1

0

1

2

F(x)

F2(x)

-2 -1 0 1 2-2

-1

0

1

2

-2 -1 0 1 2-2

-1

0

1

2

:داشتيم B.Pدر روش عادي •

:در روش نيوتن داريم•

كه در آن•


1 ( )k k kX X F xμ+ = − ∇

11k k k kX X A g−+ = −

( )k

k k x xg F x

== ∇

2

1( ) ( )

=

= ∑M

k ii

F X e k

2 ( )k

k k x xA F x

== ∇

تابع معيار خطا

{w and b of layer 1,w and b of layer 2,....}X =


[ ] ( )( )jx

j

F xF xx

∂∇ =

∂

2

1( ) ( )

M

k ii

F x e k=

= تابع معيار خطا∑( ) ( )= T

k kE X E X1 2 M( ) [e e ... e ]= TkE X

{w and b of layer 1,w and b of layer 2,....}X =

1

( )2 ( ).M

ii

i j

e xe xx=

∂=

∂∑

( ) 2 ( ) ( )TF x J x E X∇ = 1 1

1

1

( ) ( )....

. .( )

. .( ) ( )....

P

M M

P

e x e xx x

J X

e x e xx x

∂ ∂⎡ ⎤⎢ ⎥∂ ∂⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥∂ ∂⎢ ⎥∂ ∂⎣ ⎦

تعداد مجهوالت كل P

ماتريس ژاكوبين

است كه براي سادگي از نوشتن آن صرفنظر شده است kفرض مي شود تمامي محاسبات در تكرار

Gauss–Newton algorithm

محاسبه مشتق دوم


,

22 ( ) ( )( )

k jxk j k j

F x F xF xx x x x

⎡ ⎤∂ ∂ ∂⎡ ⎤∇ = = ⎢ ⎥⎣ ⎦ ∂ ∂ ∂ ∂⎢ ⎥⎣ ⎦

2

1

( ) ( ) ( )2 [ . ( ). ]M

i i ii

i k j k j

e x e x e xe xx x x x=

∂ ∂ ∂= +

∂ ∂ ∂ ∂∑

2 ( ) 2 ( ) ( ) 2 ( )TF X J X J X S X∇ = +

2

1

( )( ) ( ).M

ii

i k j

e xS X e xx x=

∂=

∂ ∂∑

S(X) معموالٌ بسيار كوچك است به همين دليل در محاسباتمي توان از آن صرفنظر كرد

2 ( ) 2 ( ) ( )TF X J X J X∇ =گويند Quasi Newtonدر اين صورت متد را

( )1

( )2 ( ).M

ii

ij j

F x e xe xx x=

∂ ∂=

∂ ∂∑

در روش نيوتن داشتيم•


11k k k kX X A g−+ = −

( )k

k k x xg F x

== ∇

2 ( )k

k k x xA F x

== ∇

( ) 2 ( ) ( )TF X J x E X⎯⎯→∇ =

2 ( ) 2 ( ) ( )TF X J X J X⎯⎯→∇ =

1

1 2 ( ). ( ) .2 ( ) ( )T Tk kX X J X J X J x E X

−

+ ⎡ ⎤= − ⎣ ⎦

براي محاسبه ي رابطه ي مذكور تنها از مشتق اول استفاده مي شود

است؟معكوس پذير آيا اين ماتريس همواره

Quasi Newton

Levenberg‐Marqualt

ماتريس ازHk از استفاده جاي به روش اين در•Gkمي شود استفاده.

.باشد روش نيوتن است µ=0اگر •


1

1 2 ( ). ( ) .2 ( ) ( )T Tk kX X J X J X J x E X

−

+ ⎡ ⎤= − ⎣ ⎦Hk

k k kG H Iμ= +بسيار كوچك



i i iAq qλ=يادآوري

مقدار ويژه

بردار ويژه[ ]i iGq H I qμ= +

i iHq qμ= + i i iq qλ μ= +

داراي مقادير ويژه Hفرض مي كنيم λi و بردارهاي ويژهqi باشد

( )i iqλ μ= +

( )i i iGq qλ μ= +

G مقادير ويژه دارايμ +λi و بردارهاي ويژهqi خواهد بود.


ويژه مقادير كافي است معكوس پذيري براي•.باشد مثبت ماتريس

را تغيير داد تا مقادير ويژه مثبت µمي توان آنقدر •.گردد

در روش نيوتن اين مقدار ثابت و غيرقابل تغيير •.بود


( )i i iGq qλ μ= +G مقادير ويژه دارايμ +λi و بردارهاي

است qiويژه

1

1 2 ( ). ( ) .2 ( ) ( )T Tk k k k k k kX X J X J X I J X E Xμ

−

+ ⎡ ⎤= − +⎣ ⎦


رابطه μ ميزان افزايش با داد، نشان مي توان•:مي شود زير همانند

0.01 حدود در كوچك μ با را الگوريتم معموالً• با )موفقيت( خطا كاهش صورت در كرده شروع.مي دهند كاهش 10 حدود در θ ضريب

افزايش θ ضريب با را μ موفقيت عدم صورت در•.مي دهند


1

1 2 ( ). ( ) .2 ( ) ( )T Tk k k k k k kX X J X J X I J X E Xμ

−

+ ⎡ ⎤= − +⎣ ⎦

11 ( ) ( )T

k k k kk

X X J X E Xμ+ = −

دارد اما حجم BPاز كم تري روش براي شبكه هاي كوچك تعداد تكرارهاي بسيار محاسباتي آن باال و زمان گير است

Hessian ماتريس محاسبه ي به احتياج نيوتن روش در• الزم دوم مشتق ذخيره سازي و محاسبه واقع در داريم؛.است

محاسبه ي به نياز بدون كه است روشي يافتن هدف•.دهد افزايش را همگرايي دوم مشتق

steepest از استفاده طرفي از• descent حركت باعث .مي شود مينيمم سمت به زيزاگي

ماتريس ويژه ي بردارهاي راستاي در كه صورتي در•Hessian سرعت كه داشت انتظار مي توان كنيم، حركت .يابد افزايش همگرايي


Conjugate gradient


positive كه(A ماتريس به نسبت بردار دو definite( ،است conjugate مي شوند ناميده:

.است ماتريس ويژه ي بردارهاي بردارها، اين از مجموعه يك بردارهاي مجموعه راستاي در جستجو كه صورتي در مي شود ثابت

conjugate ،به بردارها اين راستاي در جستجو دور يك طي مي توان باشد .)دو درجه ي توابع(رسيد مطلق مينيمم

.در صورتي كه ماتريس متقارن باشد، برداهاي ويژه ي آن متعامد است

Conjugate gradient


امkتغييرات گراديان در گام

كه

.محاسبه شد conjugateبردار Hessianبدون نياز به محاسبه ي بردار نياز است، در conjugateتوجه داشته باشيد كه به يك مجموعه بردار

:ام به جهتي نياز است كه بر تمام جهت هاي زير عمود باشد kواقع در گام

Conjugate gradient

{ }0 1 2 1, , , , kg g g g −Δ Δ Δ Δ

.است steepest decentمرحله ي اول مشابه •

•Direction بر كه مي كنيم انتخاب گونه اي به را .باشد مشتق خالف

محاسبه گونه اي به را p بردار iteration هر در•.شود واقع گراديان تغييرات بر عمود كه مي كنيم


0 (0)x xg F == ∇F تابع معيار خطاست

0 0p g= −

1k k k kp g pβ −= − +اثر گراديان هاي قبلي

Conjugate gradient

Gram-Schmidt Orthogonalization


1k k k kp g pβ −= − +

Conjugate gradient

1 1 1 1k k k k k k kp p p g p pβ− − − −= − +A A A

1 1 1k k k k kp p p gβ − − −=A A

1

1 1

k kk

k k

p gp p

β −

− −

=A

Aاز اين شيوه Hessianبا توجه به نياز به ماتريس

!نمي توان استفاده كرد

مي تواند از يكي از روش هاي زير محاسبه βkضريب •:گردد


Hestenes and SteifelPolak and Ribiere

Fletcher and Reeves

1 1( )T Tk k kg g g− −Δ = −

Conjugate gradient

conjugate الگوريتم• gradient خالصه صورت به: عمود مشتق جهت بر كه به گونه اي را اوليه جستجوي جهت–

مي گيريم نظر در باشد تا مي نماييم محاسبه است يادگيري نرخ همان كه را α مقدار–

نرخ به شيوه اين كه اين به توجه با آيد، دست به زير رابطه ي Hessian ماتريس به نيز آموزش نرخ و است حساس آموزش تكرارشونده روش هاي از ميزان اين تخمين براي است، وابسته

.مي شود استفاده آموزش نرخ محاسبه ي براي


0 0p g= −

1k k k kx x pα+ = +

(For quadraticfunctions.)

Conjugate gradient

بهينه ي جهت همان كه را زير مقدار β محاسبه ي با–.مي شود محاسبه جستجوست

شروع دوباره دو گام از نرسيد همگرايي به الگوريتم اگر–.مي كنيم


1k k k kp g pβ −= − +

Conjugate gradient

مثال


ادامه-مثال



-2 -1 0 1 2-2

-1

0

1

2Contour Plot

x1

x2

-2 -1 0 1 2-2

-1

0

1

2

Conjugate Gradient Steepest Descent

ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 -...

Documents