ﻲﻋﻮﻨﺼﻣ ﻲﺒﺼﻋ يﺎﻫﻪﻜﺒﺷ 13- 11 -...
TRANSCRIPT
شبكه هاي عصبي مصنوعي01-713 -11-13
بخش دومدانشگاه شهيد بهشتی
دانشکده ی مهندسی برق و کامپيوتر۱۳۹۳زمستان
احمد محمودی ازناوه
http://faculties.sbu.ac.ir/~a_mahmoudi/
2
فهرست مطالبشبكه ي عصبي چنداليه•آموزش•الگوريتم پس انتشار خطا•
–Momentumانواع آموزش–توقف آموزش–
نكاتي براي تسريع آموزش•بردارهاي ورودي–
...)ادامه(فهرست مطالبتابع انگيزش–نرخ يادگيري–تابع هزينه–
الگوريتم هاي بهينه سازي•–Gradient descent
روش نيوتن••Levenberg‐Marqualt
•Conjuagte gradient
شبکه عصبی3
شبکه عصبی
1
1
-1
-1
x1
x2
x1 x2 x1 xor x2
-1 -1 -1 -1 1 1 1 -1 1 1 1 -1
1 if v > 0ϕ(v) =
-1 if v ≤ 0ϕ is the sign function.
Minskyمثال & Papert (1969) offered solution to XOR problem by combining perceptron unit responses using a second layer of units
4
+1
+1
-1
-1
x1
x2
-1
-1
y1
y2
مثال
شبکه عصبی5
x1 x2 y1 y2 x1 xor x2
-1 -1 -1 -1 -1 -1 1 -1 1 1 1 -1 1 -1 1 1 1 -1 -1 -1
1
1
-1
-1
y1
y2 +1
+1
0.1+1
+1
-1
-1
x1
x2
-1
-1
y1
y2
شبکه عصبی6
مخفياليه ها ي
اليه ي اليه ي خروجيورودي
Multilayer Neural Network
Multilayer Neural Perceptron
شبكه عصبي چند اليه متصل خروجي به مستقيم صورت به ورودي ها•
.نيستند 2 اليه ي واحد هاي تمامي به 1 اليه ي از واحد هر•
)است مجاز صفر وزن( .است متصل.است مشخص مخفي واحد هاي تعداد•.است جلو به رو اتصاالت تمام•.است غيرخطي تابعي انگيزش تابع•
شبکه عصبی7
Multilayer Neural Network
Multilayer Neural Perceptron(MLP)
7مخفياليه هاي
اليه ي اليه ي خروجيورودي
Feed Forward
شبكه عصبي چند اليه
شبکه عصبی8
Structure Types ofDecision Regions
Exclusive-ORProblem
Classes withMeshed regions
Most GeneralRegion Shapes
Single-Layer
Two-Layer
Three-Layer
Half PlaneBounded ByHyperplane
Convex OpenOr
Closed Regions
Abitrary(Complexity
Limited by No.of Nodes)
A
AB
B
A
AB
B
A
AB
B
BA
BA
BA
An introduction to computing with neural nets (Lippmann, R. P.)
يادگيريالگوريتم از شبكه ها اين آموزش براي•
Back Propagation مي شود استفاده. زير طريقه ي به شبكه ها دست اين آموزش براي•
:مي شود عمل)Forward( جلو به رو–
محاسبه واقعي خروجي و شده اعمال شبكه به ورودي بردار•.مي شود
)Backward( عقب به رو – بر و شده محاسبه )مطلوب خروجي – واقعي خروجي( خطا•
.مي شود توليد خطا با متناسب سيگنالي معيار، تابع حسب ورودي اليه ي تا را وزن ها و كرده حركت اليه اليه سيگنال اين
.مي نمايد اصالحشبکه عصبی
صورت گرفته است iterationگوييم يك ها مي پس از اصالح وزن10
عملكرد شبكه
شبکه عصبی11
Function signalsForward Step
Error signalsBackward Step
ميانگينشوند كه اي اصالح مي ها به گونه وزن. گردد مجموع مربعات خطا كمينه
فرض شبكه•–m اليه بدون در نظر گرفتن اليه ي ورودي
ميزان خطاام jميزان خطا و ميانگين مربعات خطا براي نرون •
به شيوه ي زير ) ام-nبه ازاي ورودي (امnخروجي در تكرار :محاسبه مي شود
شبکه عصبی12
( ) ( ) - ( )j j je n d n y n=
1 22( ) ( )j
j CE n e n
∈
= ∑1
1( )
N
AV Nn
E E n=
= ∑هدف آمورزش كمينه نمودن
EAV
instantaneous error energy
sequential mode
امjخطاي خروجي نرون )ي خروجي گره(
averaged squared error energy
آموزش شبكه هاي چنداليه:است LMSبه روز نمودن وزن ها همانند •
شبکه عصبی13
je
0,...,j ji i
i mv w y
=
= ∑
خطاي امjخروجي نرون
( ) ( ( ))j j jy n v nϕ=
امjخروجي نرون م امnدر
induced local field
آموزش اليه ي خروجي
براي به روز كردن وزن ها به LMSهمانند •:شيوه ي زير عمل مي كنيم
شبکه عصبی14
0,...,j ji i
i mv w y
=
= ∑
( ) ( ( ))j j jy n v nϕ=
( ) ( ) ( )( ) ( ) . . .( ) ( ) ( ) ( ) ( )
j j j
ji j j j ji
e n y n v nE n E nw n e n y n v n w n
∂ ∂ ∂∂ ∂=
∂ ∂ ∂ ∂ ∂
je
sensitivity factor
1 22( ) ( )j
j CE n e n
∈
= ∑
...)ادامه(آموزش اليه ي خروجي
شبکه عصبی15
0,...,j ji i
i mv w y
=
= ∑
( ) ( ( ))j j jy n v nϕ=
( ) ( ) ( )( ) ( ) . . .( ) ( ) ( ) ( ) ( )
j j j
ji j j j ji
e n y n v nE n E nw n e n y n v n w n
∂ ∂ ∂∂ ∂=
∂ ∂ ∂ ∂ ∂
1 22( ) ( )j
j CE n e n
∈
= ∑
( )je n 1− ' ( ( ))j jv nφ ( )iy n
'( ) ( ) ( ( )) ( )( ) j j j i
ji
E n e n v n y nw n
ϕ∂= −
∂
( ) ( )i i ie n d y n= −
...)ادامه(آموزش اليه ي خروجي:داشتيم دلتااز قانون •
شبکه عصبی16
( )( )( )ji
ji
E nw nw n
η ∂Δ = −
∂Step in direction opposite to the gradient
'( ) ( ) ( ( )) ( )ji j j j iw n e n v n y nη ϕΔ = −
'( ) ( ) ( ( )) ( )( ) j j j i
ji
E n e n v n y nw n
ϕ∂= −
∂
( )j nδ محليگراديان
( )( )( )
( ) ( )( ) . .( ) ( ) ( )
jj
j j
j j j
E nnv n
e n y nE ne n y n v n
δ ∂= −
∂
∂ ∂∂= −
∂ ∂ ∂'( ) ( ( ))j j je n v nϕ=
گراديان محلي براي يك نرون به خطاي ايجاد شده براي آن نرون و
مشتق تابع مرتبط آن بستگي دارد
...)ادامه(آموزش اليه ي خروجي
شبکه عصبی17
'( ) ( ) ( ( )) ( )ji j j j iw n e n v n y nη ϕΔ = −
( )j nδ
( ) ( ) ( )ji j iw n n y nηδΔ =
-j j je d y=
( - ) '( )j j j jd y vδ ϕ=
ي مخفي خواهيم پرداخت ي آموزش اليه در ادامه به شيوه
آموزش اليه ي مخفي بگيريم نظر در مخفي اليه ي از نروني را j نرون اگر•
:خطا محاسبه ي براي مي بايد نظر مورد نرون محلي گراديان محاسبه ي براي–
مورد نرون با كه نرون هايي محلي گراديان هاي تمامي.نماييم لحاظ را هستند ارتباط در نظر
شبکه عصبی18
...)ادامه(آموزش اليه ي مخفي
شبکه عصبی19
the details of output neuron k connected to hidden neuron j
'
( )( )-( ) ( )
( ) - ( ( ))( )
jj
j j
j jj
y nE ny n v n
E n v ny n
δ
ϕ
∂∂=
∂ ∂
∂=
∂متعلق به jنرون
اليه ي مخفي است
هدف
...)ادامه(آموزش اليه ي مخفي
شبکه عصبی
'
( )( )-( ) ( )
( ) - ( ( ))( )
jj
j j
j jj
y nE ny n v n
E n v ny n
δ
ϕ
∂∂=
∂ ∂
∂=
∂
1 22( ) ( )k
k CE n e n
∈
= ∑يك kنرون node خروجي
است
( )( )( ) ( )
kk
kj j
e nE n ey n y n
∂∂=
∂ ∂∑( ) ( )( )
( ) ( ) ( )k k
kkj k j
e n v nE n ey n v n y n
∂ ∂∂=
∂ ∂ ∂∑
( ) ( ) ( ) ( ) ( ( ))
k k k
k k k
e n d n y nd n v nϕ
= −= −
' ( ( ))k kv nϕ−
0( ) ( ) ( )
m
k kj jj
v n w n y n=
=∑
( )kjw n
20
jj
j j
'
j
y ( )( )-y ( ) v ( )
( ) - ( ( ))y ( ) j j
nE nn n
E n v nn
δ
ϕ
∂∂=
∂ ∂
∂=
∂
...)ادامه(آموزش اليه ي مخفي
شبکه عصبی21
( ) ( )( )( ) ( ) ( )
k kk
kj k j
e n v nE n ey n v n y n
∂ ∂∂=
∂ ∂ ∂∑
' ( ( ))k kv nϕ−
( )kjw n
'( ) ( ) ( ( )) ( )( ) k k k kj
kj
E n e n v n w ny n
ϕ∂= −
∂ ∑
( ) ( )k kjk
n w nδ= −∑
هدف
'j ( ( )) ( ) ( )j j k kj
kv n n w nδ ϕ δ= ∑
متعلق به jنرون اليه ي مخفي است
...)ادامه(آموزش اليه ي مخفي
شبکه عصبی22
Local Gradient of hidden neuron j
( )j j j k kjk C
v wδ ϕ δ∈
′= ∑
ϕ’(v1)
ϕ’(vk)
ϕ’(vm)
δ1
δk
δm
w1j
wkj
wm j
e1
ek
em
Signal-flow graph ofback-propagation errorsignals to neuron jδj ϕ’(vj)
Iteration شماره يn
.
.
.
.
.
.
...)ادامه(آموزش اليه ي مخفي
:به صورت كلي خواهيم داشت•
شبکه عصبی23
'j ( ( )) ( ) ( )j j k kj
kv n n w nδ ϕ δ= ∑
...)ادامه(آموزش اليه ي مخفي• Delta rule Δwji = ηδj yi
C: Set of neurons in the layer following the one containing j
=jδ( )( )j j jv d yϕ′ −
( )j k kjk C
v wϕ δ∈
′ ∑IF j output node
IF j hidden node
24شبکه عصبی
...)ادامه(آموزش اليه ي مخفي
شبکه عصبی25
ديع بن
جم
Sensitivity graph
تابع انگيزش
26شبکه عصبی
Sigmoid function
( )( )( )
1( ( )) 01 expj j j
j
y n v n aav n
ϕ= = >+ −
( )( )( )( ) 2
exp( ( ))
1 exp
jj j
j
a av nv n
av nϕ
−′ =
⎡ ⎤+ −⎣ ⎦
( )( ) ( )( )1 1( ( )) 1
1 exp 1 expj jj j
v n aav n av n
ϕ⎡ ⎤
′ = × × −⎢ ⎥+ − + −⎢ ⎥⎣ ⎦
( ) ( )( ( )) 1j j j jv n ay n y nϕ′ ⎡ ⎤= × −⎣ ⎦
...)ادامه(تابع انگيزش:اگر نرون در اليه ي خروجي باشد•
:و اگر در اليه ي مخفي باشد•
شبکه عصبی27
Sigmoid function
( ) ( ) ( ( ))j j j jn e n v nδ ϕ′=
( ) ( ) ( ) ( ) ( )1j j j j jn a d n o n o n o nδ ⎡ ⎤ ⎡ ⎤= − × −⎣ ⎦ ⎣ ⎦
( ) ( )j 1 ( ) ( )j j k kjk
ay n y n n w nδ δ⎡ ⎤= × −⎣ ⎦∑بدين ترتيب گراديان محلي بدون نياز به استفاده از تابع
.انگيزش قابل محاسبه مي باشد
...)ادامه(تابع انگيزش
شبکه عصبی28
hyperbolic tangent
( )( ) ( )( ( )) tanh , 0j j jv n a bv n a bϕ = >
( ) ( )( ( ))j j j jbv n a y n a y na
ϕ′ ⎡ ⎤ ⎡ ⎤= − +⎣ ⎦ ⎣ ⎦
α= 1.7159 and b = 2/3
انواع شيوه هاي آموزش:شيوه ي ترتيبي•
در اين شيوه نمونه ها تك تك براي اصالح وزن ها به كار –.مي روند
:شيوه ي دسته اي•در اين شيوه تمام نمونه هاي آموزشي اعمال شده، –
.سپس اصالح وزن ها صورت مي پذيرد
شبکه عصبی29
.نامند مي epochهاي آموزشي در فرآيند آموزش را ي نمونه ي اکمل ارائه يك دوره
Sequential Mode
online pattern or stochastic mode
Batch Mode
( )1 22
1
N
AV jNn j C
E e n= ∈
= ∑∑ AVji
ji
Eww
η ∂Δ = −
∂
( ) ( )1
Nj
ji jn ji
e nw e n
N wη
=
∂Δ = −
∂∑ي اين بخش به محاسبه
اي كه پيش آز همان شيوهشود اين گفته شد، انجام مي
...)ادامه(انواع شيوه هاي آموزش.دارد احتياج كم تري حافظه ي به ترتيبي شيوه ي• شود، اعمال تصادفي و ترتيبي صورت به نمونه ها كه صورتي در•
خواهد كم تر بيفتند، محلي مينيمم دام در الگوريتم كه اين احتمال.بود
صورت به ترتيبي روش باشيم، داشته تكراري داده هاي كه وقتي•.مي كند استفاده تكراري داده هاي از مؤثرتري
دشوارتر را همگرايي شرايط نظري تحليل بودن، تصادفي اين چند هر• از بهتري تقريب دسته اي شيوه ي از استفاده با كه حالي در مي كند،
محلي مينيمم سوي به همگرايي و مي آيد دست به گراديان بردار.است شده تضمين
.ساده است مراتب به دسته اي شيوه ي در موازي پردازش از استفاده•
شبکه عصبی30
...)ادامه(انواع شيوه هاي آموزش
براي بهره برداري از مزاياي هر دو شيوه، آموزش به •نيز معمول است كه » mini‐batche«صورت
گام صورت ) n)n>1به روزرساني وزن ها، بعد از هر .مي گيرد
شبکه عصبی31
شود، از اين جهت كه عليرغم، معايب روش ترتيبي، اين روش در عمل ترجيح داده ميتر است سازي آن ساده پياده
براي مسائل دشوار و بزرگ راه حل مؤثري است
معيارهاي توقف آموزش فرآيند آيا كه نمود مشخص نمي توان راحتي به عمل، در•
ضوابطي اما .است رسيده نظر مورد نقطه ي به آموزش.است شده مطرح آموزش به دادن پايان براي حد يك از گراديان بردار اندازه ي كه رود پيش جايي تا آموزش–
.شود كم تر آستانه.شود طوالني است ممكن آموزش فرآيند كه است اين روش اين عيب•
به ميانگين خطاي اختالف كه مي شود متوقف زماني آموزش– كوچك كافي اندازه ي به متوالي )epoch(دوره دو در آمده دست.باشد
با شبكه آموزش، فاز هر از پس كه است اين ديگر شيوه ي يك– قدرت و شود بررسي آموزشي داده هاي از غير داده هايي
.باشد آموزش توقف براي مالكي آن »تعميم پذيري«
شبکه عصبی32
شبکه عصبی33
مينيمم محلي جايي است كه مشتق صفر گردد
If slope is negative increase wIf slope is positive decrease w
E
w
خطا
مينيمم محلي
مينيمم مطلق
Gradient Descent
موجب باال آموزش نرخ وشد، مطرح اين از پيش چنان چه• فرآيند پايين آموزش نرخ كه حالي در مي شود، ناپايداري .كرد خواهد طوالني را آموزش
مختلف وزن هاي براي را آموزش نرخ مي توان همچنين•.گرفت نظر در متغير
تأثير نرخ آموزش
شبکه عصبی34
Connection dependent
بدون تغييرات زيادولي روند حركت همگرايي كند است : نرخ آموزش كوچكبا تغييرات زيادولي روند حركت همگرايي تند است : نرخ آموزش بزرگ
شبکه عصبی35
Momentum and Learning Rate AdaptationLocal Minima
http://www.willamette.edu/~gorr/classes/cs449/momrate.html
momentumروش استفاده از
:داشتيم•
شبکه عصبی36
1( ) ( 1) ( ). ( )l l l lji ji j iw n w n n y nα ηδ −Δ = Δ − +
( )( ) ( 1)( )
l lji ji l
ji
E nw n w nw n
α η ∂Δ = Δ − −
∂
0 1α≤ <
new oldw w w= + Δ
Momentumثابت
1( 1) ( ) ( 1) ( ) ( )l l l l lji ji ji j iw n w n w n n y nα ηδ −+ = + Δ − +
رات وزن در مرحله ي پيشين تغ
E
w
generalized delta rule
momentumروش استفاده از
.است عادي رساني به روز باشد صفر ممنتوم ثابت اگر• رساني روز به كند ميل يك سمت به ثابت اين اندازه هر•
.مي كند تبعيت قبلي الگوي از بيشتر گرفتن نظر در باشند، هم جهت تغييرات كه كه صورتي در–
momentum مي شود آموزش تسريع باعث. فرآيند پايداري موجب نباشند، يكسان تغييرات صورت در–
.مي شود آموزش ناكارامد يك از بيشتر و صفر از كم تر ثابت كه است واضح•
.است دريافت بهينه پاسخي مي توان آموزش نرخ ميزان تغيير با•
.كردشبکه عصبی
37
1( ) ( 1) ( ). ( )l l l lji ji j iw n w n n y nα ηδ −Δ = Δ − +
رات وزن در مرحله ي پيشين تغ
accelerating effect
stabilizing effect
momentumروش استفاده از1( ) ( 1) ( ). ( )l l l l
ji ji j iw n w n n y nα ηδ −Δ = Δ − +
1(0) (0). (0)l l lji j iw yηδ −Δ =
1 1(1) (0). (0) (1). (1)l l l l lji j i j iw y yαηδ ηδ− −Δ = +
2 1 1 1(2) (0). (0) (1). (1) (2). (2)l l l l l l lji j i j i j iw y y yα ηδ αηδ ηδ− − −Δ = + +
Momentumتاثير 1
0( ) ( ). ( )
nl n h l lji j i
hw n h y hη α δ− −
=
Δ = ∑
نرخ آموزش شبکه عصبیMomentumثابت 38
:اول بررسي مي كنيم iterationبراي
...ادامه
شبکه عصبی39
0
( )( )( )
nl n hij
h ji
E nw nw n
η α −
=
∂Δ = −
∂∑
iterationثابت Momentum
1α2α2
..nαn‐h
رود باالتر iteration هرچه شد خواهد كوچك تر ضريب بهينه مقدار از ترتيب بدينگرفت خواهيم فاصله كم تر
momentumروش استفاده از
با /ميانگين زمان يادگيري براي يك شبكه بدون•Momentumاستفاده از
شبکه عصبی40
0
( )( )( )
nl n hji
h ji
E nw nw n
η α −
=
∂Δ = −
∂∑
momentum Training time
0 2170.9 95
1
0( ) ( ). ( )
nl n h l lji j i
hw n h y hη α δ− −
=
Δ = − ∑
نرخ آموزش Momentumثابت
http://www.willamette.edu/~gorr/classes/cs449/momrate.html
مثالهدف طراحي شبكه اي است كه دو دسته داده زير را •
.از هم جدا كند
شبکه عصبی41
مثال
شبکه عصبی42
[ ]1
21
mean vector 0,0
variance 1
T
σ
= =
= =
μ
( ) 22 2 22 2
2 2
1 1Class C : |C exp2 2
fπσ σ
⎛ ⎞= − −⎜ ⎟
⎝ ⎠X x x μ
[ ]2
22
mean vector 2,0
variance 1
T
σ
= =
= =
μ
( ) 21 1 12 2
1 1
1 1Class C : |C exp2 2
fπσ σ
⎛ ⎞= − −⎜ ⎟
⎝ ⎠X x x μ
( ) ( )( )
1
2
|C = 1
|Cff
<Λ >X
X
xx
x
Likelihood ratio
...ادامه
شبکه عصبی43
( )2
2 221 22 2 2
1 1 2
1 1 = exp2 2
σσ σ σ
⎛ ⎞Λ − − + −⎜ ⎟
⎝ ⎠x x μ x μ
22 22
1 22 2 21 1 2
1 1 exp 12 2
σσ σ σ
⎛ ⎞− − + − =⎜ ⎟⎝ ⎠
x μ x μ
22 2 2
2 12 2 22 1 1
1 1 4 log2 2
σσ σ σ
− − − =x μ x μ
2 2c r− =x x Optimum decision boundary
Probability of correct classification0.8151cP =
مثال
شبکه عصبی44
η=0.01
شبکه عصبی45
η =0.1
شبکه عصبی46
η =0.5
شبکه عصبی47
η =0.9
شبکه عصبی48
مثال
شبکه عصبی49
نرخ يادگيري و ضريب گشتاور تغييرات باشد كوچك تر يادگيري نرخ اندازه هر•
را بهتري محلي كمينه ي اما است، كندتر نمودار فضاي شرايط اين در .آورد دست به مي تواند.مي گيرد قرار بررسي مورد خطا رويه ي از بيشتري
گشتاور ضريب و يادگيري نرخ براي كه صورتي در• باعث شود، گرفته نظر در بزرگي و ثبات اعداد كند تغيير نوساني صورت به خطا ميزان شد خواهد
.شود همگرا باالتري مقدار به يا وشبکه عصبی
50
For η ->0 , α->1
For η ->1, α->0 باعث ثبات يادگيريافزايش سرعت همگراييباعث
)وفقي(روش نرخ يادگيري متغير
شبکه عصبی51
Adaptive Learning Rate
( ) ( 1) 1 ( ) ( 1) ( )if E k E k w k w kξ+ > + ⎯⎯→ + =
0.01 0.05ξ< < در اين حالت جهت حركت نامناسب است
( 1) ( ) .k kη η ρ+ =
0 1ρ< <
را صفر مي گذاريم momentumضريب
ηخالف جهت است بايد كم شود
SSE
Bold Driver
)وفقي(روش نرخ يادگيري متغير
شبکه عصبی52
( 1) ( )if E k E k+ < ⎯⎯→ ( 1) ( ) ( )w k w k w k+ = + Δ
( 1) ( ) .k k dη η+ در اين حالت جهت حركت مناسب است=
1 2d< <
به مقدار اصلي برمي گردد momentumضريب
η بيشتر شود
SSE
)وفقي(روش نرخ يادگيري متغير
شبکه عصبی53
( ) ( 1) 1 ( )if E k E kβ+ > +
β ξ<
كرده وزن هاي جديد را قبول به مقدار αماند و ميثابت ηولي
ر داده مي شود .اوليه تغ
( 1) ( )k kη η+ =( 1) ( ) ( )w k w k w k+ = + Δ
مفيد است، در اين شيوه تنها براي آموزش دسته اي.شود صورت استفاده در روش ترتيبي منجر به واگرايي مي
روش نرخ يادگيري متغيرBold از استفاده ترتيبي، روش در• driver به منجر
نظر در جاي به اين رو از مي شود، الگوريتم واگرايي در نزولي صورت به آموزش نرخ وفقي، نرخ گرفتن
.مي شود گرفته نظر
تقريبا آموزش نرخ اوليه گام هاي در بدين ترتيب، • مينيمم، محدوده ي به رسيدن از بعد .است ثابت.مي يابد كاهش آموزش نرخ پارامتر ها مجموعه ي به آزاد پارامتر يك حالت اين در–
شبکه عصبی.شد خواهد افزوده54
Annealing
(0)( )
1k k
T
ηη =
+
روش هاي بهبود كارايي آن از بيش عصبي شبكه ي طراحي كه مي شود گفته غالبا•
تنظيم كه چرا است، »هنر« نوعي باشد، »علم« كه زيادي حد تا هستند، دخيل طراحي در كه زيادي پارامترهاي
.دارد بستگي شخص تجربه ي به:دارد وجود شبكه كارايي بهبود براي روش هايي وجود اين با•:دسته اي مقابل در ترتيبي روش•
افزونگي و داريم اختيار در بزرگي آموزشي مجموعه ي كه جاهايي–.است مناسب تر ترتيبي روش باالست داده ها در
به جديد داده هاي نيست، ثابت آموزشي مجموعه ي كه مواردي–.شود اضافه مجموعه
شبکه عصبی55Y. LeCun, L. Bottou, G. Orr and K. Muller: Efficient BackProp, in Orr, G. and Muller
K. (Eds), Neural Networks: Tricks of the trade, Springer, 1998
...)ادامه(روش هاي بهبود كارايي:آموزش در اطالعات حداكثر از استفاده•
و همگرايي در مهمي بسيار نقش آموزشي مجموعه ي– .دارد تعميم پذيري
در خطا بيشترين كه شود استفاده نمونه هايي از است بهتر•.مي كند ايجاد را آموزش
باعث كار اين .هستند متفاوت هم با كه نمونه هايي•.شوند بررسي وزن ها از وسيع تري گستره ي مي شود
به الگوها اعمال ترتيبي، شيوه ي در الگو بازشناسي در– كالس يك داده هاي تا مي شد موجب تصادفي صورت
.نشوند انتخاب سرهم پشت صورت به
شبکه عصبی56
Maximizing information content
...)ادامه(روش هاي بهبود كارايي .شوند اعمال بيشتر شبكه به دشوارتر نمونه هاي•
.است روبرو هم مشكالتي با البته شيوه اين.مي ريزد هم به آموزشي نمونه هاي اعمال ترتيب– مجموعه ي در )outlier(برون هشته داده هاي يا–
داده هاي چنين .باشد داشته وجود آموزشي.مي كند مواجه چالش با را »تعميم پذيري«
شبکه عصبی57
emphasizing scheme
...)ادامه(روش هاي بهبود كارايي:انگيزش تابع•
.است موثر كارايي در مناسب انگيزش تابع انتخاب–:مطلوب خروجي مقدار•
باشد، فعاليت تابع برد محدوده ي در بايد مقدار اين–.مي روند بي نهايت سمت به آزاد پارامترهاي وگرنه
شبکه عصبی58
...)ادامه(روش هاي بهبود كارايي:ورودي ها بهنجارسازي•
صورت پيش پردازش هاي بايد ورودي داده هاي روي بر– غير در .شود صفر ورودي ها ميانگين است بهتر .پذيرد حركت مينيمم سمت به زيگزاگ صورت به صورت اين
.مي كند
شبکه عصبی59
mean removal
covariance equalization
Decorrelation
...)ادامه(روش هاي بهبود كارايي:وزن ها اوليه ي مقداردهي•
شدن كند←اشباع ناحيه ي به رفتن←بزرگ مقادير–آموزش
صورت به مبدأ←مبدأ نزديگي←كوچك مقادير–.است »زيني نقطه ي«.است دو اين بين مقداري مناسب مقدار–
ثابت مي شود در صورتي كه ميانگين مقدار اوليه ي •وزن ها صفر و انحراف معيار آن
) تعداد اتصاالت به نرون m(در نظر گرفته شود،زماني كه تابع (نتيجه ي بهتري به دست مي آيد
).باشد tanhانگيزش شبکه عصبی
60
1/ 2w mσ −=
...)ادامه(روش هاي بهبود كارايي
شبکه عصبی61
1
m
j ji ii
v w y=
= ∑[ ] 0 for all y iE y iμ = =
( )22 2 1 for all y i i iE y E y iσ μ⎡ ⎤ ⎡ ⎤= − = =⎣ ⎦⎣ ⎦
[ ] 1 for 0 for i k
k iE y y
k i=⎧
= ⎨ ≠⎩
( )0 for all ,w jiE w j i pairsμ ⎡ ⎤= =⎣ ⎦
( ) ( )22 2 for all ,w ji w jiE w E w i j pairsσ μ⎡ ⎤ ⎡ ⎤= − = ⎣ ⎦⎢ ⎥⎣ ⎦
...)ادامه(روش هاي بهبود كارايي
شبکه عصبی62
( )22 2v j v jE v E vσ μ⎡ ⎤ ⎡ ⎤= − = ⎣ ⎦⎢ ⎥⎣ ⎦
1 1
m m
ji jk i ki k
E w w y y= =
⎡ ⎤= ⎢ ⎥
⎣ ⎦∑∑
[ ]1 1
m m
ji jk i ki k
E w w E y y= =
⎡ ⎤= ⎣ ⎦∑∑2
1
m
jii
E w=
⎡ ⎤= ⎣ ⎦∑2wmσ=
[ ]1 1
0= =
⎡ ⎤⎡ ⎤ ⎡ ⎤= = = =⎢ ⎥⎣ ⎦ ⎣ ⎦⎣ ⎦∑ ∑m m
v j ij i ji ii i
E v E w y E w E yμ
در صورتي كه وزن ها به گونه اي در نظر گرفته vباشد، مقدار m-⅟₂شوند كه انحراف آن ها
.واريانس يك خواهد داشت
...)ادامه(روش هاي بهبود كارايي:آموزش نرخ•
.گرديم صحبت وفقي آموزش نرخ مورد در– نرون .ببينند آموزش سرعت يك با بايد نرون ها همه ي–
بهتر بنابراين .دارد بزرگ تري گراديان معموال آخر اليه ي گرفته نظر در كم تر آخر، اليه هاي آموزش نرخ است،.شود
شبکه عصبی63
تعميم در شبكه هاي عصبيآموزش بيش از حد•استفاده از اليه هاي مخفي •
بيش از حد نياز
شبکه عصبی64
Overfitting
Overfitted data(poor generalization)
properly fitted data(good generalization)
تعميم در شبكه هاي عصبيشبكه آموزش–
.مي شود استفاده شبكه آموزش براي الگو تعدادي از• شبكه به آموزشي داده هاي از غير ديگري ورودي هاي كه هنگامي•
مي شود گفته دهد، پاسخ درست )تقريبا( شبكه و شود اعمال.است خوب آن »تعميم پذيري«
مشكل گيرد صورت حد از بيش آموزش كه هنگامي•)overfitting or overtraining( مي آيد پيش.
جواب الگو مشخصي تعداد براي است ممكن حالت اين در•.كنيم دريافت نامناسب پاسخ الگوها تغيير صورت در و خوب
شبكه تست مرحله ي– شبكه تست جهت نشده استفاده آموزش در كه الگو تعدادي از•
.مي كنيم استفاده
شبکه عصبی65
Occamتيغ
William به منسوب اصلي Occam تيغ• of Ockham ميالدي 14 قرن در .است انگليسي فيلسوف و منطق دان•
تيغ« اصل نام به كه كرد مطرح را اصلي اوكام ويليامOccam« علت ٔدرباره گاه هر اصل، اين طبق .شد شناخته
توضيحي آن در شود، ارائه مختلف توضيح دو پديده اي بروز و است بيشتر اشتباه بروز احتمال باشد پيچيده تر كه
توضيح موارد، ساير بودن مساوي شرايط در بنابراين،.است بيشتر بودنش صحيح احتمال ،ساده تر
66
Occam’s razor
شبکه عصبی
...)ادامه(تعميم در شبكه هاي عصبي:سه فاكتور در تعميم پذيري مؤثر هستند•
تا چه حد (حجم مجموعه ي آموزشي و توزيع آن–)گوياست
)پيچيدگي مدل(ساختار شبكه ي عصبي –پيچيدگي مسأله–
تعداد نمونه هاي آموزشي براي تعميم پذيري مناسب–
شبکه عصبی67
WN Oε
⎛ ⎞= ⎜ ⎟⎝ ⎠
روش هاي سرعت بخشيدن به همگرايي:ابتدا خطا را محاسبه مي كرديم wjiبراي تصحيح وزن •
شبکه عصبی68
2 ( )( ) 1( )( ) 2 ( )
jji
ji ji
e kE kw kw k w k
∂∂Δ = − = −
∂ ∂
( ) 21 ( )2 j
j C
E k e k∈
= ∑
( ) ( ).
( )j
jji
e ke k
w k∂
= −∂
( ) ( ).
( )j
jji
y ke k
w k∂
=∂
( ) ( ) ( )j j je k d k y k= −
( )j jy vϕ=مطلوب
واقعي
روش هاي سرعت بخشيدن به همگرايي
شبکه عصبی69
( ) ( ) ( ) ( ). .
( ) ( )j j
ji jj ji
y k v kw k e k
v k w k∂ ∂
Δ =∂ ∂
ام jورودي به شاخه ي ( )
( ) ( ) ( )(1 ( )).( )
jji j j j
ji
v kw k e k y k y k
w k∂
Δ = −∂
( )j jy vϕ= اگرf تابعsigmoid باشد
ji wΔ <<
j e مناسب>>
j eبزرگ وليj 0y ≈
j eبزرگ وليj 1y ≈
نامناسبكند شدن همگرايي
پيشنهادتعويض تابع معيار خطا•
تابع معيار خطا B.Pدر روش عادي –
)Van Oyen, Nienhuis )V‐Oروش –
شبکه عصبی70
2
1( ) ( )
M
hh
E k e k=
= ∑
1( ) [ ln( ( )) (1- ) ln(1- ( )]
M
h h h hh
E k d y k d y k=
= − +∑
خروجي مطلوب خروجي واقعي
Improving the convergence of the back-propagation algorithmVan Ooyen, A., and Nienhuis, B. (1992). Neural Networks 5: 465-471
شبکه عصبی71
( ) ( )( ) ( )( ) . .( ) ( ) ( ) ( )
j jji
ji j j ji
y k v kE k E kw kw k y k v k w k
∂ ∂∂ ∂Δ = − = −
∂ ∂ ∂ ∂
1
( ) [ ln( ( )) (1- ) ln(1- ( )]M
h h h hh
E k d y k d y k=
= − +∑
1 1 [ (1 ) ]. ( )(1 ( )).( ) (1 ( ))j j j j i
j j
d d y k y k yy k y k
= × − − × −−
خروجي اليه ما قبل آخرje( )
.( )
jj
ji
v ke
w k∂
=∂
شبکه عصبی72
( ) ( )( ) ( )( ) . .( ) ( ) ( ) ( )
j jji
ji j j ji
y k v kE k E kw kw k y k v k w k
∂ ∂∂ ∂Δ = =
∂ ∂ ∂ ∂
( ) msign e e 0 1m< <
شبکه عصبی73
( ) ( )( ) ( )( ) . .( ) ( ) ( ) ( )
j jji
ji j j ji
y k v kE k E kw kw k y k v k w k
∂ ∂∂ ∂Δ = =
∂ ∂ ∂ ∂
( ) msign e e 0 1m< <
1) (1 )y y e−
2)e
3) ( ) msign e e
بسط تيلورتوابع تحليلي قابل تقريب زدن با چندجمله اي ها •
.هستند
شبکه عصبی74
F x( ) F x*( )xd
d F x( )x x*=
x x*–( )+=
12---
x2
2
d
d F x( )
x x*=
x x*–( )2 ¼+ +
1n!-----
xn
n
d
d F x( )
x x*=
x x*–( )n ¼+ +
حالت برداري
شبکه عصبی75
F x( ) F x∗( ) x1∂∂ F x( )
x x∗=x1 x1∗–( ) x2∂
∂ F x( )x x∗=
x2 x2∗–( )+ +=
…xn∂∂ F x( )
x x∗=xn xn∗–( ) 1
2--- x12
2
∂
∂ F x( )x x∗=
x1 x1∗–( )2+ + +
12--- x1 x2∂
2
∂∂ F x( )
x x∗=x1 x1∗–( ) x2 x2∗–( ) …+ +
فرم ماتريسيF x( ) F x∗( ) F x( )∇
T
x x∗=x x∗–( )+=
12--- x x∗–( )
T F x( )x x∗=
x x∗–( )∇2 …+ +
F x( )∇
x1∂∂ F x( )
x2∂∂ F x( )
…
xn∂∂ F x( )
= F x( )∇2
x12
2
∂
∂ F x( ) x1 x2∂
2
∂∂ F x( ) … x1 xn∂
2
∂∂ F x( )
x2 x1∂
2
∂∂ F x( )
x22
2
∂∂ F x( ) … x2 xn∂
2
∂∂ F x( )
… … …
xn x1∂
2
∂∂ F x( ) xn x2∂
2
∂∂ F x( ) …
xn2
2
∂∂ F x( )
=
Gradient Hessian
76شبکه عصبی
الگوريتم هاي بهينه سازي
شبکه عصبی77
pk - Search Direction
αk - Learning Rate
ي اکرايي ي مينيمم خطا بر روي رويه براي يافتن نقطه)performance(error) surface(هاي متفاوتي وجود دارد شيوه.
Neural Network Design, Hagan, chapter 9
باشد با استفاده از مي)F(X)(ي مينيمم تابع خطا هدف يافتن تقطه.هاي تكرار شونده است، از يك حدس اوليه شروع خواهيم كرد الگوريتم
الگوريتم هاي بهينه سازي كه باشد گونه اي به مي بايد به روز رساني روند•
:داريم
:از رابطه ي زير به دست مي آيد gkكه در آن •
شبکه عصبی78
Steepest Descent
1ي سري تيلور مرتبه
گراديان
الگوريتم هاي بهينه سازي رابطه ي آخر بخش اين براي•
.باشد صفر از كوچك تر بايد زير
:داريم پس•
:داشت خواهيم باشد، يك و صفر بين α اگر•
كند، صدق باال شرط كه pk بردار هر به•»descent direction« مي گويند.
شبکه عصبی79
0Tk kg p <
Steepest Descent
الگوريتم هاي بهينه سازي بردار دو داخلي ضرب مي بايد فوق رابطه ي در•
descent( نزولي جهت بردار و گراديان direction( باشد، منفي تر فوق عبارت چه هر باشد، منفي
.مي شويم نزديك مزبور نقطه ي به سريع تريافت؟ دست كاهش سريع ترين به مي توان چگونه•
steepest متد براي• decent داريم:
شبکه عصبی80
0Tk kg p <
Steepest Descent
مثال•Steepest decent اعمال زير مساله ي براي را
:كنيد
:با در نظر گرفتن خواهيم داشت•
شبکه عصبی81
2 21 2( ) 25F x x x= +
0
0.50.5
x⎡ ⎤
= ⎢ ⎥⎣ ⎦
1
2
( )( )
( )
F xx
F xF x
x
∂⎡ ⎤⎢ ⎥∂⎢ ⎥∇ =∂⎢ ⎥
⎢ ⎥∂⎣ ⎦
1
2
250
xx
⎡ ⎤= ⎢ ⎥⎣ ⎦
0
1( )
25x xF x =
⎡ ⎤∇ = ⎢ ⎥
⎣ ⎦
Steepest Descent
مثال:خواهيم داشت α=0.01با در نظر گرفتن •
شبکه عصبی82
1 0 0
0.5 1 0.490.01
0.5 25 0.25x x gα
⎡ ⎤ ⎡ ⎤ ⎡ ⎤= − = − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦
2 1 1
0.49 0.98 0.48020.01
0.25 12.5 0.125x x gα
⎡ ⎤ ⎡ ⎤ ⎡ ⎤= − = − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦
Steepest Descent
مثال زير شكل به شبيه چيزي ببريم باال را آموزش نرخ اگر•
:داشت خواهيم نمودار و داشت خواهيم بيشتري نوسان صورت اين در•
.شد خواهد بيشتري ناپايداري
شبکه عصبی83
همواره جهت تغييرات بر مسير عمود است .استو اين به دليل استفاده از گراديان
Steepest Descent
مثال
شبکه عصبی84
نمودار
شبکه عصبی85
-2 -1 0 1 2-2
-1
0
1
2
ي اين ماتريس است پايداري وابسته به مقادير ويژه
آموزش پايدار
شبکه عصبی86
Eigenvalues of [I - αA].
(λi - eigenvalue of A)
Stable Learning Rates (Quadratic)
Modern Control Theory (3rd dition) William L. Brogan
مثال برآنيم قبلي مثال بر مساله اين اعمال با•
كنيم محاسبه را مجاز آموزش نرخ ميزان بيشترين
دو درجه مثالي مي شود مشاهده كه همان گونه•Hessian پس است Matrix خواهد زير صورت به :بود
:داريم ويژه مقادير براي پس•
شبکه عصبی87
2 21 2( ) 25F x x x= +
2 00 50
A⎡ ⎤
= ⎢ ⎥⎣ ⎦
1 1 2 2
1 0{( 2), },{( 50), }
0 1z zλ λ⎛ ⎞ ⎛ ⎞⎡ ⎤ ⎡ ⎤
= = = =⎜ ⎟ ⎜ ⎟⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎝ ⎠ ⎝ ⎠
ادامه-مثالپس بيشترين ميزان نرخ آموزش از رابطه ي زير به •
:دست مي آيد
شبکه عصبی88
max
2 2 0.0450
αλ
< = =
α=0.039
α=0.041
-2 -1 0 1 2-2
-1
0
1
2
مثال
شبکه عصبی89
-2 -1 0 1 2-2
-1
0
1
2
تنظيم نرخ يادگيري پيش وفقي صورت به آموزش نرخ انتخاب مورد در•
.شد صحبت اين از كه است گونه اي به آموزش نرخ انتخاب ديگر راه•
:شود مينيمم زير عبارت
جستجويي pk راستاي در است الزم منظور اين براي•.پذيرد صورت
تحليلي حلي راه مي توان دوم درجه ي توابع براي•:نمود ارائه
شبکه عصبی90
Minimizing Along a Line
)...ادامه(تنظيم نرخ يادگيري
شبکه عصبی91
مثال
شبکه عصبی92
-2 -1 0 1 2-2
-1
0
1
2Contour Plot
x1
x2
روش نيوتن
شبکه عصبی93
http://www.nd.com/NSBook/NEURAL%20AND%20ADAPTIVE%20SYSTEMS18_Newtons_Method.html
ريشه يافتن جهت نيوتن روش از رياضيات در تكراري الگويتمي وسيله به رياضي عبارت
.مي شود استفاده
مانا نقاط يافتن براي الگوريتم اين از بهينه سازي مساله ي در)Stationary Point( استفاده كند صفر را مشتق كه گونه اي به
مي شود *xبه دنبال نقطه ي x0در اين حالت با شروع از نقطه ي
f’(x*)=0به گونه اي كه هستيم
روش نيوتن
شبکه عصبی94
:در بسط سري تيلور با استفاده از روابط زير خواهيم داشت•1k kx x x+Δ = −
' '' 21( ) ( ) ( ) ( )2T k k k kf x x f x f x x f x x+ Δ ≈ + Δ + Δ
با برابر آن دادن قرار و فوق رابطه ي از گرفتن مشتق با•:داريم صفر
' ''( ) ( ) 0k kf x f x x+ Δ = '
''
( )( )
k
k
f xxf x
Δ = −
'
1 ''
( ) k=0,1,...( )
kk k
k
f xx xf x+ = −
روش نيوتن
:به بياني ديگر داريم•
شبکه عصبی95
با مشتق گرفتن از اين تقريب و قرار دادن رابطه برابر با صفر نقطه ا ي با ثبات را بيابيم
' '' 21( ) ( ) ( ) ( )2T k k k kf x x f x f x x f x x+ Δ = + Δ + Δ
1مثال
:با در نظر گرفتن خواهيم داشت•
شبکه عصبی96
2 21 2( ) 25F x x x= +
0
0.50.5
x⎡ ⎤
= ⎢ ⎥⎣ ⎦
1
2
( )( )
( )
F xx
F xF x
x
∂⎡ ⎤⎢ ⎥∂⎢ ⎥∇ =∂⎢ ⎥
⎢ ⎥∂⎣ ⎦
1
2
250
xx
⎡ ⎤= ⎢ ⎥⎣ ⎦
Newton Method
2 ( )F x∇2 00 50⎡ ⎤
= ⎢ ⎥⎣ ⎦
1
1
0.5 2 0 10.5 0 50 25
−⎡ ⎤ ⎡ ⎤ ⎡ ⎤
= − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
x0.5 0.5
00.5 0.5⎡ ⎤ ⎡ ⎤
− =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
2مثال
شبکه عصبی97
Plot
-2 -1 0 1 2-2
-1
0
1
2
98شبکه عصبی
همگرايي دوم درجه ي )كارايي(هزينه تابع كه صورتي در•
نمي توان نيوتن روش از استفاده با نباشد،.كرد تضمين را روش همگرايي
و هزينه تابع به وابسته همگرايي صورت، اين در•.است اوليه حدس حتي
شبکه عصبی99
شرايط اوليه ي متفاوت
شبکه عصبی100
Stationary Points:
-2 -1 0 1 2-2
-1
0
1
2
-2 -1 0 1 2-2
-1
0
1
2
F(x) F2(x)
شرايط اوليه ي متفاوت
شبکه عصبی101
-2 -1 0 1 2-2
-1
0
1
2
-2 -1 0 1 2-2
-1
0
1
2
-2 -1 0 1 2-2
-1
0
1
2
-2 -1 0 1 2-2
-1
0
1
2
F(x)
F2(x)
-2 -1 0 1 2-2
-1
0
1
2
-2 -1 0 1 2-2
-1
0
1
2
:داشتيم B.Pدر روش عادي •
:در روش نيوتن داريم•
كه در آن•
شبکه عصبی102
1 ( )k k kX X F xμ+ = − ∇
11k k k kX X A g−+ = −
( )k
k k x xg F x
== ∇
2
1( ) ( )
=
= ∑M
k ii
F X e k
2 ( )k
k k x xA F x
== ∇
تابع معيار خطا
{w and b of layer 1,w and b of layer 2,....}X =
شبکه عصبی103
[ ] ( )( )jx
j
F xF xx
∂∇ =
∂
2
1( ) ( )
M
k ii
F x e k=
= تابع معيار خطا∑( ) ( )= T
k kE X E X1 2 M( ) [e e ... e ]= TkE X
{w and b of layer 1,w and b of layer 2,....}X =
1
( )2 ( ).M
ii
i j
e xe xx=
∂=
∂∑
( ) 2 ( ) ( )TF x J x E X∇ = 1 1
1
1
( ) ( )....
. .( )
. .( ) ( )....
P
M M
P
e x e xx x
J X
e x e xx x
∂ ∂⎡ ⎤⎢ ⎥∂ ∂⎢ ⎥⎢ ⎥
= ⎢ ⎥⎢ ⎥⎢ ⎥∂ ∂⎢ ⎥∂ ∂⎣ ⎦
تعداد مجهوالت كل P
ماتريس ژاكوبين
است كه براي سادگي از نوشتن آن صرفنظر شده است kفرض مي شود تمامي محاسبات در تكرار
Gauss–Newton algorithm
محاسبه مشتق دوم
شبکه عصبی104
,
22 ( ) ( )( )
k jxk j k j
F x F xF xx x x x
⎡ ⎤∂ ∂ ∂⎡ ⎤∇ = = ⎢ ⎥⎣ ⎦ ∂ ∂ ∂ ∂⎢ ⎥⎣ ⎦
2
1
( ) ( ) ( )2 [ . ( ). ]M
i i ii
i k j k j
e x e x e xe xx x x x=
∂ ∂ ∂= +
∂ ∂ ∂ ∂∑
2 ( ) 2 ( ) ( ) 2 ( )TF X J X J X S X∇ = +
2
1
( )( ) ( ).M
ii
i k j
e xS X e xx x=
∂=
∂ ∂∑
S(X) معموالٌ بسيار كوچك است به همين دليل در محاسباتمي توان از آن صرفنظر كرد
2 ( ) 2 ( ) ( )TF X J X J X∇ =گويند Quasi Newtonدر اين صورت متد را
( )1
( )2 ( ).M
ii
ij j
F x e xe xx x=
∂ ∂=
∂ ∂∑
در روش نيوتن داشتيم•
شبکه عصبی105
11k k k kX X A g−+ = −
( )k
k k x xg F x
== ∇
2 ( )k
k k x xA F x
== ∇
( ) 2 ( ) ( )TF X J x E X⎯⎯→∇ =
2 ( ) 2 ( ) ( )TF X J X J X⎯⎯→∇ =
1
1 2 ( ). ( ) .2 ( ) ( )T Tk kX X J X J X J x E X
−
+ ⎡ ⎤= − ⎣ ⎦
براي محاسبه ي رابطه ي مذكور تنها از مشتق اول استفاده مي شود
است؟معكوس پذير آيا اين ماتريس همواره
Quasi Newton
Levenberg‐Marqualt
ماتريس ازHk از استفاده جاي به روش اين در•Gkمي شود استفاده.
.باشد روش نيوتن است µ=0اگر •
شبکه عصبی106
1
1 2 ( ). ( ) .2 ( ) ( )T Tk kX X J X J X J x E X
−
+ ⎡ ⎤= − ⎣ ⎦Hk
k k kG H Iμ= +بسيار كوچك
Levenberg‐Marqualt
شبکه عصبی107
i i iAq qλ=يادآوري
مقدار ويژه
بردار ويژه[ ]i iGq H I qμ= +
i iHq qμ= + i i iq qλ μ= +
داراي مقادير ويژه Hفرض مي كنيم λi و بردارهاي ويژهqi باشد
( )i iqλ μ= +
( )i i iGq qλ μ= +
G مقادير ويژه دارايμ +λi و بردارهاي ويژهqi خواهد بود.
Levenberg‐Marqualt
ويژه مقادير كافي است معكوس پذيري براي•.باشد مثبت ماتريس
را تغيير داد تا مقادير ويژه مثبت µمي توان آنقدر •.گردد
در روش نيوتن اين مقدار ثابت و غيرقابل تغيير •.بود
شبکه عصبی108
( )i i iGq qλ μ= +G مقادير ويژه دارايμ +λi و بردارهاي
است qiويژه
1
1 2 ( ). ( ) .2 ( ) ( )T Tk k k k k k kX X J X J X I J X E Xμ
−
+ ⎡ ⎤= − +⎣ ⎦
Levenberg‐Marqualt
رابطه μ ميزان افزايش با داد، نشان مي توان•:مي شود زير همانند
0.01 حدود در كوچك μ با را الگوريتم معموالً• با )موفقيت( خطا كاهش صورت در كرده شروع.مي دهند كاهش 10 حدود در θ ضريب
افزايش θ ضريب با را μ موفقيت عدم صورت در•.مي دهند
شبکه عصبی109
1
1 2 ( ). ( ) .2 ( ) ( )T Tk k k k k k kX X J X J X I J X E Xμ
−
+ ⎡ ⎤= − +⎣ ⎦
11 ( ) ( )T
k k k kk
X X J X E Xμ+ = −
دارد اما حجم BPاز كم تري روش براي شبكه هاي كوچك تعداد تكرارهاي بسيار محاسباتي آن باال و زمان گير است
Hessian ماتريس محاسبه ي به احتياج نيوتن روش در• الزم دوم مشتق ذخيره سازي و محاسبه واقع در داريم؛.است
محاسبه ي به نياز بدون كه است روشي يافتن هدف•.دهد افزايش را همگرايي دوم مشتق
steepest از استفاده طرفي از• descent حركت باعث .مي شود مينيمم سمت به زيزاگي
ماتريس ويژه ي بردارهاي راستاي در كه صورتي در•Hessian سرعت كه داشت انتظار مي توان كنيم، حركت .يابد افزايش همگرايي
شبکه عصبی110
Conjugate gradient
شبکه عصبی111
positive كه(A ماتريس به نسبت بردار دو definite( ،است conjugate مي شوند ناميده:
.است ماتريس ويژه ي بردارهاي بردارها، اين از مجموعه يك بردارهاي مجموعه راستاي در جستجو كه صورتي در مي شود ثابت
conjugate ،به بردارها اين راستاي در جستجو دور يك طي مي توان باشد .)دو درجه ي توابع(رسيد مطلق مينيمم
.در صورتي كه ماتريس متقارن باشد، برداهاي ويژه ي آن متعامد است
Conjugate gradient
شبکه عصبی112
امkتغييرات گراديان در گام
كه
.محاسبه شد conjugateبردار Hessianبدون نياز به محاسبه ي بردار نياز است، در conjugateتوجه داشته باشيد كه به يك مجموعه بردار
:ام به جهتي نياز است كه بر تمام جهت هاي زير عمود باشد kواقع در گام
Conjugate gradient
{ }0 1 2 1, , , , kg g g g −Δ Δ Δ Δ
.است steepest decentمرحله ي اول مشابه •
•Direction بر كه مي كنيم انتخاب گونه اي به را .باشد مشتق خالف
محاسبه گونه اي به را p بردار iteration هر در•.شود واقع گراديان تغييرات بر عمود كه مي كنيم
شبکه عصبی113
0 (0)x xg F == ∇F تابع معيار خطاست
0 0p g= −
1k k k kp g pβ −= − +اثر گراديان هاي قبلي
Conjugate gradient
Gram-Schmidt Orthogonalization
شبکه عصبی114
1k k k kp g pβ −= − +
Conjugate gradient
1 1 1 1k k k k k k kp p p g p pβ− − − −= − +A A A
1 1 1k k k k kp p p gβ − − −=A A
1
1 1
k kk
k k
p gp p
β −
− −
=A
Aاز اين شيوه Hessianبا توجه به نياز به ماتريس
!نمي توان استفاده كرد
مي تواند از يكي از روش هاي زير محاسبه βkضريب •:گردد
شبکه عصبی115
Hestenes and SteifelPolak and Ribiere
Fletcher and Reeves
1 1( )T Tk k kg g g− −Δ = −
Conjugate gradient
conjugate الگوريتم• gradient خالصه صورت به: عمود مشتق جهت بر كه به گونه اي را اوليه جستجوي جهت–
مي گيريم نظر در باشد تا مي نماييم محاسبه است يادگيري نرخ همان كه را α مقدار–
نرخ به شيوه اين كه اين به توجه با آيد، دست به زير رابطه ي Hessian ماتريس به نيز آموزش نرخ و است حساس آموزش تكرارشونده روش هاي از ميزان اين تخمين براي است، وابسته
.مي شود استفاده آموزش نرخ محاسبه ي براي
شبکه عصبی116
0 0p g= −
1k k k kx x pα+ = +
(For quadraticfunctions.)
Conjugate gradient
بهينه ي جهت همان كه را زير مقدار β محاسبه ي با–.مي شود محاسبه جستجوست
شروع دوباره دو گام از نرسيد همگرايي به الگوريتم اگر–.مي كنيم
شبکه عصبی117
1k k k kp g pβ −= − +
Conjugate gradient
مثال
شبکه عصبی118
ادامه-مثال
شبکه عصبی119
شبکه عصبی120
-2 -1 0 1 2-2
-1
0
1
2Contour Plot
x1
x2
-2 -1 0 1 2-2
-1
0
1
2
Conjugate Gradient Steepest Descent