شبکه های عصبی مصنوعی instructor : saeed shiry. مقدمه شبکه عصبی...

Post on 19-Dec-2015

229 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

عصبی هایشبکه مصنوعی

Instructor : Saeed Shiry

مقدمه

یادگیری برای عملی روشی مصنوعی عصبی شبکهبا توابع نظیر گوناگون حقیقی توابع توابع ، مقادیر

برداری مقادیر با توابع و گسسته مقادیر .با میباشد های داده خطاهای برابر در عصبی شبکه یادگیری

با ها شبکه اینگونه و بوده مصون آموزشیگفتار، شناسائی نظیر مسائلی به موفقیت

روبات یادگیری و تصاویر، تعبیر و شناسائی. است شده اعمال

Input 0 Input 1 Input n...

Output 0 Output 1 Output o...

O0 O1 Oo

H0 H1 Hm...

...

Hidden Layer

چیست؟ عصبی شبکه

محاسبه برای روشیاتصال پایه بر که است

چندین پیوسته هم بهساخته پردازشی واحد

میشود. دلخواهی تعداد از شبکه

یا واحد یا گره یا سلولمیشود تشکیل نرون

را ورودی مجموعه که. میدهند ربط خروجی به

قابلیتهائی چه عصبی شبکهدارد؟

معلوم تابع یک محاسبه ناشناخته تابع یک تقریب الگو شناسائی سیگنال پردازشیادگیری

. باشد داشته وجود آموزشی های داده در که مثل خطا مسائلینظیر سنسورها دادهای از حاصل نویز دارای آموزشی های داده

هستند ها میکروفن و .دوربین - نشان مقدار ویژگی زوج زیادی مقادیر توسط ها نمونه که مواردی

. . ویدئوئی دوربین یک از حاصل های داده نظیر باشند شده داده. باشد پیوسته مقادیر دارای هدف تابع . در روش این باشد داشته وجود یادگیری برای کافی زمان

بیشتری زمان به نیاز تصمیم درخت نظیر دیگر روشهای با مقایسه. دارد یادگیری برای

. اوزان میتوان سختی به زیرا نباشد هدف تابع تعبیر به نیازی. نمود تعبیر را شبکه توسط شده یادگرفته

یادگیری برای مناسب مسائلعصبی های شبکه

طبیعت از الهام

از ملهم زیادی حد تا مصنوعی عصبی های شبکه مطالعهپیچیده مجموعه یک آنها در که است طبیعی یادگیر های سیستم

. هستند دخیل یادگیری کار در متصل هم به نرونهای از تعداد از انسان مغز که میرود شده 11 10گمان تشکیل نرون

تقریبا با نرون هر که .104باشد است ارتباط در دیگر نرون حدود در نرونها سوئیچنگ در 3-10سرعت که است ثانیه

کامپیوترها با . 10- 10مقایسه این ( ) با مینماید ناچیز بسیار ثانیهدر است قادر آدمی را 0.1وجود انسان یک تصویر ثانیه

. پردازش از باید العاده فوق قدرت این نماید بازشناسائی. باشد شده حاصل نرونها از زیادی تعدادی در شده توزیع موازی

x1x1

x2x2

xnxn

{1 or –1}{1 or –1}

X0=1X0=1

w0w0

w1w1

w2w2

wnwn

ΣΣ

نام به محاسباتی واحد یک برمبنای عصبی شبکه از نوعی. پرسپترون یک میشود از پرسپترون ساخته برداری

از خطی ترکیب یک و گرفته را حقیقی مقادیر با ورودیهای . مقدار یک از حاصل اگر میکند محاسبه را ورودیها این

خروجی بود بیشتر با پرسپترون آستانه غیر 1برابر در ومعادل - .1اینصورت بود خواهد

Perceptron

پرسپترون خروحی: میشود مشخص زیر رابطه توسط

: داد نشان زیر بصورت میتوان آنرا سادگی برای که

یک پرسپترون یادگیری

O(x1,x2,…,xn) = O(x1,x2,…,xn) = 1 if w0 + w1x1 + w2x2 + … + wnxn > 01 if w0 + w1x1 + w2x2 + … + wnxn > 0-1 otherwise-1 otherwise

O(O(XX) = sgn() = sgn(WXWX) where) where

Sgn(y) = Sgn(y) = 1 if y > 01 if y > 0-1 otherwise-1 otherwise

:پرسپترون یادگیری از است عبارتبرای مقادیردرستی کردن Wپیدا

فرضیه فضای یادگیری Hبنابراین تمام پرسپترون در ازمجموعه است عبارت. وزن بردارهای برای ممکن حقیقی مقادیر

تصمیم سطح یک بصورت میتوان را پریسپترونhyperplane فضای . nدر گرفت نظر در ها نمونه بعدی

مقدار پرسپترون صفحه طرف یک های نمونه و 1برایمقدار - دیگر طرف مقادیر .1برای میاورد بوجود

پرسپترونتوانائی

++

++++

--

----

Decision boundary (Decision boundary (WXWX = 0) = 0)

که پرسپترون یک بگیرد یاد را مثالهائی است قادر فقط . مواردی مثالها اینگونه باشند جداپذیر خطی بصورت

یک توسط کامل بطور که جدا hyperplaneهستند قابل. میباشند سازی

که به پرسپترون توابعی قادرمیباشد آنها یادگیری

++

++++

----

--

++

++

++--

--

--

Linearly separableLinearly separable Non-linearly separableNon-linearly separable

را پرسپترون یک بولی توابع از بسیاری میتواندنظیر دهد AND, OR, NAND, NORنمایش

نمیتواند .XORاما دهد نمایش را

ای شبکه با میتوان را بولی تابع هر واقع دراز .پرسپترون دوسطحی داد نشان ها

و بولی پرسپترون توابع

AND: AND: x1x1

x2x2

X0=1X0=1

W0 = -0.8W0 = -0.8

W1=0.5W1=0.5

W2=0.5W2=0.5ΣΣ

بایاس کردن اضافه

موجب بایاس افزودنشبکه از استفاده تا میشود

سهولت با پرسپترون. شود انجام بیشتری

یادگیری برای اینکه برایاز استفاده به نیازی بایاس

باشیم نداشته دیگری قانونورودی یک بصورت را بایاس

ثابت مقدار نظر 1با دروزن و آن W0گرفته به را

. میدهیم اختصاص

21 wwb

ii

iwxby ˆ

211 xxi

iiwxwy

1

یک وزنهای بگیریم پرسپترون چگونه یاد را واحدکه نحوی آموزشی پرسپترون به مثالهای برای

نماید؟ ایجاد را صحیح مقادیر: مختلف راه دو

پرسپترون قانون دلتا قانون

پرسپترون آموزش

یادگیری پرسپترون الگوریتم میدهیم نسبت وزنها به تصادفی مقادیری اعمال آموزشی مثالهای تک تک به را پریسپترون

مقادیر. شود ارزیابی غلط مثال اگر میکنیم.پرسپترون وزنهای میکنیم تصحیح را

ارزیابی درست آموزشی مثالهای تمامی آیامیشوند:

بله الگوریتم پایانخیر مرحله برمیگردیم 2به

پرسپترون آموزش

آموزشی مثال یک در )X = )x1, x2, …, xn(X = )x1, x2, …, xnبرایپرسپت قانون اساس بر وزنها مرحله ون رهر

: میکند تغییر زیر بصورت wi = wi + Δwiwi = wi + Δwi

آن در که

پرسپترون قانون

Δwi = η ( t – o ) xiΔwi = η ( t – o ) xit: target outputt: target outputo: output generated by the perceptrono: output generated by the perceptronη: constant called the learning rate (e.g., 0.1)η: constant called the learning rate (e.g., 0.1)

این جداپذیرخطی مثال مجموعه یک برای که است شده اثباتو شده همگرا مثالها پرسپترون روش صحیح سازی جدا به قادر

. شد خواهد

قانون نباشند جداپذیر خطی بصورت مثالها که وقتی. پرسپترون این بر غلبه برای شد نخواهد همگرا

. میشود استفاده دلتا قانون از مشکل از استفاده قانون این اصلی gradient descentایده

. میباشد ممکن وزنهای فرضیه فضای در جستجو برایروش پایه قانون که Backpropagationاین است

بکار متصل هم به نرون چندین با شبکه آموزش برایمیرود.

الگوریتمهای انواع برای ای پایه روش این همچنینفرضیه شامل ای فرضیه فضای باید که است یادگیری

. کنند جستجو را پیوسته مختلف های

دلتا Delta Ruleقانون

دلتا Delta Ruleقانون

یک به آنرا روش این بهتر درک پرسپترون برای . است الزم انجا در میکنیم اعمال آستانه حد فاقد

. یک شود ارائه آموزش ی خطا برای تعریفی ابتدا: است چنین این متداول تعریف

E = ½ ΣE = ½ Σii )t )tii – o – oii( ( 22

انجام آموزشی مثالهای تمام برای مجموع این کهمیشود.

gradient descentالگوریتم تعریف نحوه به توجه یک Eبا بصورت خطا سطح

. حداقل که هستیم وزنهائی بدنبال ما بود خواهد سهمیالگوریتم . باشند داشته را در gradient descentخطا

. کند حداقل را خطا که میگردد برداری بدنبال وزنها فضایشروع وزن بردار برای دلبخواه مقدار یک از الگوریتم این

در که میدهد تغییر طوری را وزنها مرحله هر در و کرده. شود داده کاهش خطا فوق منحنی کاهشی شیب جهت

w1w1

w2w2

E(E(WW))

قانون آوردن gradientبدستdescent

: افزایش جهت در همواره گرادیان اصلی ایده.Eشیب میکند عمل

گرادیانE وزن بردار به زیر wنسبت بصورت: میشود تعریف

E )W( = [ E’/w0, E’/w1, …, E’/wn]E )W( = [ E’/w0, E’/w1, …, E’/wn] آن در آن که در بردارو )E )W(E )Wکه بردارو یک جزئی’ EEیک جزئی’ مشتق مشتق

. میباشد وزن هر به .نسبت میباشد وزن هر به نسبت

ΔΔ

ΔΔ

دلتا Delta Ruleقانون

آموزشی مثال یک هر )X = )x1, x2, …, xn(X = )x1, x2, …, xnبرای در: میکند تغییر زیر بصورت دلتا قانون اساس بر وزنها مرحله

wi = wi + Δwiwi = wi + Δwi

Where Δwi = -η E’)Where Δwi = -η E’)WW(/wi(/wi

η: learning rate )e.g., 0.1(η: learning rate )e.g., 0.1(

شیب کاهش جهت در حرکت دهنده نشان منفی شیب عالمت کاهش جهت در حرکت دهنده نشان منفی عالمتاست.است.

گرادیان محاسبه

میتوان خطا رابطه از جزئی گیری مشتق میتوان با خطا رابطه از جزئی گیری مشتق با: نمود محاسبه را گرادیان :بسادگی نمود محاسبه را گرادیان بسادگی

E’)W(/ wE’)W(/ wii = Σ = Σii )t )tii – O – Oii( )-x( )-xii((. نمود خواهند تغییر زیر رابطه طبق وزنها .لذا نمود خواهند تغییر زیر رابطه طبق وزنها لذا

Δwi = η Σi )ti – oi( xiΔwi = η Σi )ti – oi( xi

دلتا قانون یادگیری خالصه

زیر بصورت دلتا قانون از استفاده با یادگیری الگوریتممیباشد.

دهید نسبت تصادفی مقدار وزنها به دهید ادامه را زیر مراحل توقف شرایط به رسیدن تا

وزن .wiهر کنید اولیه دهی عدد صفر مقدار با را

: وزن مثال هر :wiبرای دهید تغییر زیر بصورت راwwii = w = wii + η )t – o( x + η )t – o( xii

دهید wwiiمقدار مقدار تغییر زیر بصورت دهید را تغییر زیر بصورت ::راwwii = w = wii + w + wii

شود کوچک بسیار خطا شود تا کوچک بسیار خطا تا

ΔΔ

ΔΔ

Δ Δ Δ Δ Δ Δ

روش gradientمشکالتdescent

زمان 1. مینیمم مقدار یک به شدن همگرا است ممکن. باشد داشته الزم زیادی

داشته 2. وجود محلی مینیمم چندین خطا سطح در اگررا مطلق مینیمم الگوریتم که ندارد وجود تضمینی باشد

. بکند پیدا

: که است استفاده قابل وقتی روش این ضمن درپیوسته 1. پارامتریک های فرضیه دارای فرضیه فضای

باشد.باشد 2. گیری مشتق قابل خطا رابطه

افزایشی gradientتقریبdescent

،مثالها همه مشاهده از پس وزنها تغییر بجای میتوان . این در داد تغییر شده مشاهده مثال هر بازا را آنها

افزایشی بصورت وزنها تغییر incrementalحالترا. روش این stochastic gradient descentstochastic gradient descentمیکنند

نیزمینامند.نیزمینامند. wwii = η )t-o( x = η )t-o( xii

بروز از میتواند وزنها افزایشی تغییر موارد بعضی بروز در از میتواند وزنها افزایشی تغییر موارد بعضی در . به نیاز استاندارد روش کند جلوگیری محلی . مینیمم به نیاز استاندارد روش کند جلوگیری محلی مینیمم

طول میتواند درعوض دارد بیشتری طول محاسبات میتواند درعوض دارد بیشتری stepstepمحاسبات. باشد داشته هم .بزرگتری باشد داشته هم بزرگتری

ΔΔ

و یکجا آموزش مقایسهافزایشی

( یکجا Batchآموزشlearning)

( افزایشی Onlineآموزشlearning)

w1

w2

w1

w2

خالف خالف بر برای پرسپترون پرسپترون بر میتوانند الیه چند های شبکه برای ها میتوانند الیه چند های شبکه هاتصمیم با مسائلی همچنین و خطی غیر مسائل تصمیم یادگیری با مسائلی همچنین و خطی غیر مسائل یادگیری

. روند بکار متعدد های .گیری روند بکار متعدد های گیری

Input nodesInput nodes

Internal nodesInternal nodes

Output nodesOutput nodes

الیه چند های شبکه

x1x1

x2x2

مثال

x1x1

x2x2

xnxnX0=1X0=1

w0w0

w1w1

w2w2

wnwn

ΣΣ

O = σ(net) = 1 / 1 + e O = σ(net) = 1 / 1 + e -net-net

netnet

واحد سلول یک

غیر بصورت را گیری تصمیم فضای بتوانیم اینکه غیر برای بصورت را گیری تصمیم فضای بتوانیم اینکه برایرا واحد سلول هر تا است الزم بکنیم، جدا هم از را خطی واحد سلول هر تا است الزم بکنیم، جدا هم از خطی

. چنین از مثالی نمائیم تعریف خطی غیر تابع یک . بصورت چنین از مثالی نمائیم تعریف خطی غیر تابع یک بصورت: باشد سیگموئید واحد یک میتواند :سلولی باشد سیگموئید واحد یک میتواند سلولی

O(x1,x2,…,xn) = O(x1,x2,…,xn) = σ ( WX )σ ( WX )

where: where: σ σ ( WX ) = 1 / 1 + e ( WX ) = 1 / 1 + e -WX-WX

d σ(y) / dy = σ(y) (1 – σ(y))d σ(y) / dy = σ(y) (1 – σ(y))

. σσتابع تابع تابع این میشود نامیده لجستیک یا سیگموئید . تابع تابع این میشود نامیده لجستیک یا سیگموئید تابع: است زیر خاصیت :دارای است زیر خاصیت دارای

سیگموئید تابع

بیان میتوان زیر بصورت را واحد سلول این بیان خروجی میتوان زیر بصورت را واحد سلول این خروجینمود:نمود:

Back propagationالگوریتم

روش از الیه چند شبکه یک های وزن یادگیری برای Back Propagation . روش این در میشود استفاده

از استفاده تا gradient descentبا میشود سعیهدف تابع و شبکه های خروجی بین خطای مربع

. شود مینیمم: میشود تعریف زیر بصورت خطا 2

2

1

Dd outputskkdkd otWE

از خروجی outputsمراد الیه های واحد مجموعه خروجیهایبا okdو tkdو متناظر خروجی و هدف واحد kمقدار امین

آموزشی مثال و .dخروجی است

Back propagationالگوریتم

عبارت روش این در جستجو مورد فرضیه فضایمقادیر همه توسط که بزرگی فضای از است

. روش میشود تعریف وزنها برای gradientممکنdescent به خطا کردن مینیمم با تا میکند سعی

. برای تضمینی اما کند پیدا دست مناسبی فرضیهوجود برسد مطلق مینیمم به الگوریتم این اینکه

ندارد.

BPالگوریتم

با 1. ای ورودی، ninشبکه و nhiddenگره مخفی، گرهnout . کنید ایجاد خروجی گره

عدد 2. کوچک تصادفی مقدار یک با را وزنها همه. کنید دهی

شدن ( 3. کوچک پایانی شرط به رسیدن تا: دهید) انجام را زیر مراحل خطا

هر :xبرای آموزشی مثالهای به متعلقدهید Xمثال انتشار شبکه در جلو سمت به را

.Eخطای دهید انتشار شبکه در عقب سمت به زوج )را یک بصورت آموزشی مثال بردار( x,tهر که میشود و xارائه ورودی مقادیر.tبردار میکنند تعیین را شبکه خروجی برای هدف مقادیر

جلو سمت به انتشار

مثال هر را Xبرای واحد هر خروجی مقدار. برسید خروجی های گره به تا کنید محاسبه

Input nodesInput nodes

Internal nodesInternal nodes

Output nodesOutput nodes

Example XExample X

Compute sigmoid Compute sigmoid functionfunction

عقب سمت به انتشار

بصورت 1. را خطا جمله خروجی واحد هر برای: کنید محاسبه ))δδkk = O = Okk )1-O )1-Okk()t()tkk – O – Okkزیر

زیر 2.2. بصورت را خطا جمله مخفی واحد هر زیر برای بصورت را خطا جمله مخفی واحد هر برای: کنید :محاسبه کنید δδhh = O = Ohh )1-O )1-Ohh( Σ( Σkk W Wkhkh δ δkk محاسبه

.3.3: دهید تغییر زیر بصورت را وزن :مقدارهر دهید تغییر زیر بصورت را وزن مقدارهر

WWjiji = W = Wjiji + ΔW + ΔWjiji

آن : در آن :که در که

ΔWΔWjiji = η δ = η δjj X Xjiji ηη یادگیری نرخ از است عبارت

خاتمه شرط

الگوریتم با BPمعموال بار هزاران خاتمه از پیشمیگردد تکرار آموزشی های داده همان استفاده

بکار الگوریتم خاتمه برای میتوان را مختلفی شروطبرد:

معین دفعات به تکرار از بعد توقف. شود کمتر شده تعیین مقدار یک از خطا که وقتی توقف قاعده از تائید مجموعه مثالهای در خطا که وقتی توقف

. نماید پیروی خاصی

اگر و داشت خواهیم خطا باشد کم تکرار دفعات اگرمسئله باشد .Overfittingزیاد داد خواهد رخ

یادگیری محنی

الگوریتم BPمرور

جستجوی یک الگوریتم در gradient descentاین. میدهد انجام وزنها فضای

بیافتد گیر محلی مینیمم یک در است ممکن است بوده موثر بسیار عمل در

: دارد وجود مختلفی روشهای محلی مینیمم از پرهیز برای ممنتم افزودن از stochastic gradient descentstochastic gradient descentاستفاده وزنهای برای متفاوتی مقادیر با مختلف های ازشبکه استفاده

اولیه

ممنتم افزودن

که گرفت نظر در طوری را وزنها تغییر قانون میتوانتکر در وزن تغییروزن n ارتغییر اندازه به حدی تا ام

. باشد داشته بستگی قبلی تکرار درΔWΔWjiji )n( = η δ )n( = η δjj X Xjiji + αΔW + αΔWjiji )n-1( )n-1(

مقدارممنتم آن در .α <= 1α <= 1 >= >= 00بصورت ααکه میباشد قبلی مسیر در حرکت با تا میشود باعث ممنتم افزودن

: خطا سطح در شود پرهیز محلی مینیم در افتادن گیر از شود پرهیز صاف سطوح در قرارگرفتن از جستجو سرعت تغییرات، پله مقدار تدریجی افزایش با

. یابد افزایش

وزن تغییر قانون ممنتم عبارت

توابع نمایش قدرت

شبکه یک توسط به توابع نمایش قدرت feedforwardگرچهزیر موارد وجود این با دارد، شبکه گستردگی و عمق به بسته

: نمود بیان کلی قوانین صورت به میتوان را بولی الیه: توابع دو شبکه یک توسط میتوان را بولی تابع هر

. نمود سازی پیاده پیوسته شبکه: توابع یک توسط میتوان را محدود پیوسته تابع هر

. از که هائی شبکه مورد در مربوطه تئوری زد تقریب الیه دوخروجی شبکه در خطی الیه و پنهان الیه در سیگموئید تابع

. است صادق میکنند استفاده: دلخواه تا توابع الیه سه شبکه یک با میتوان را دلخواه تابع هر

. زد تفریب قبولی قابل حد

روش توسط شده جستجو فرضیه فضای که داست درنظر باید وجود این باgradient deescent وزنها ممکن مقادیر تمام برگیرنده در است ممکن

نباشد.

استقرا بایاس و فرضیه فضای

یک بصورت میتوان را جستجو مورد فرضیه فضایاقلیدسی فرضیه در nفضای شبکه وزنهای از بعدی

که ( گرفت ) nنظر وزنهاست تعداد درخت فرضیه فضای خالف بر فرضیه فضای این

. است پیوسته فضای یک تصمیم بیان زیر بصورت میتوان را روش این استقرا بایاس

کرد:““smooth interpolation between data pointssmooth interpolation between data points””

الگوریتم که معنا این الگوریتم به که معنا این که BPBPبه را نقاطی تا میکند که سعی را نقاطی تا میکند سعی. دهد قرار بندی دسته یک در هستند نزدیکتر هم .به دهد قرار بندی دسته یک در هستند نزدیکتر هم به

x1x1

x2x2

Smooth regionsSmooth regions

مثال

پنهان الیه نمایش قدرت

خواص از های BPیکی الیه در میتواند که است اینورودی داده از آشکاری نا ویژگیهای شبکه پنهان

. دهد نشان

ورودی خروجی

شبکه مثال طوری 8x3x8برای زیرکه میشود داده آموزش

در عینا را ورودی مقدارهرمثالتابع ( آورد د بوجو را f)x(=xخروجی

.( شبکه این خاص ساختار بگیرد یادالیه های واحد تا میشود باعث

را ورودی مقادیر های ویژگی وسطالیه که کنند بندی کد نحوی به

نمایش برای آنان از بتواند خروحی . نماید استفاده ها داده مجدد

پنهان الیه نمایش قدرت

10000000100000000100000001000000001000000010000000010000000100000000100000001000000001000000010000000010000000100000000100000001

10000000100000000100000001000000001000000010000000010000000100000000100000001000000001000000010000000010000000100000000100000001

Hidden nodesHidden nodes

تعداد به که آزمایش این از 5000در شده تکرار 8باربا شبکه و شده استفاده ورودی عنوان به مختلف داده

الگوریتم از را BPاستفاده هدف تابع تا شده موفقبیاموزد.

بردار که میشود مشخص میانی الیه های واحد خروجی مشاهده بااست بوده ورودی ههای داده استاندارد انکدینگ معادل حاصل

(000,001,...,,111)

ErrorError

iterationsiterations

Different unitsDifferent units

iterationsiterations

Different weightsDifferent weights

weightweight

نمودارخطا

Number of weight updatesNumber of weight updates

Err

orE

rror

Validation set errorValidation set error

Training set errorTraining set error

و تعمیم overfittingقدرت

الگوریتم پاین چیست؟ BPشرط ادامه آنقدر را الگوریتم که است این انتخاب یک

. امر این شود کمتر معینی مقدار از خطا تا دهیمبه منجر .overfittingمیتواند شود

دادن رخ overfittingدالیل

overfitting گرفتن نظر در برای وزنها تنظیم از ناشیکلی توزیع با است ممکن که است نادری مثالهای

. یک وزنهای زیاد تعداد باشند نداشته مطابقت ها دادهآزادی درجه شبکه تا میشود باعث عصبی شبکه

. باشد داشته مثالها این با انطباق برای زیادی فرضیه فضای پیچیدگی تکرار، تعداد افزایش با

میشود بیشتر و بیشتر الگوریتم توسط شده یادگرفتهدر موجود نادر مثالهای و نویز بتواند شبکه تا

. نماید ارزیابی بدرستی را آموزش مجموعه

حل راه

تائید مجموعه یک از یادگیری Vallidationاستفاده توقف و. میشود کوچک کافی اندازه به مجموعه این در خطا که هنگامی

: راه یک تر ساده فرضیه فضاهای برای شبکه کردن بایاساز استفاده در weight decayمیتواند وزنها مقدار آن در که باشد

. میشود داده کاهش کمی خیلی باندازه بارتکرار هرk-fold cross validation کم آموزشی مثالهای تعداد که وقتی

میتوان به mباشد را آموزشی نموده Kداده بندی تقسیم دستهتعداد به را آزمایش . kو از یکی دفعه هر در نمود تکرار دفعه

آموزشی مجموعه بعنوان بقیه و تست مجموعه بعنوان ها دسته . انجام نتایج میانگین اساس بر گیری تصمیم شد خواهند استفاده

میشود.

دیگر روشهای

از دارد وجود جدید های شبکه ایجاد برای متنوعی بسیار های راهجمله:

خطا تابع برای دیگری تعاریف از استفاده یادگیری حین در خطا کاهش برای دیگری روشهای از استفاده

Hybrid Global LearningSimulated AnnealingGenetic Algorithms

واحدها در دیگری توابع از استفادهRadial Basis Functions

شبکه برای دیگری های ساختار از استفادهRecurrent Network

ارقام: تشخیص مثال

استفاده با بخواهیم کنید فرضارقام الیه دو شبکه یک از

. دهیم تشخیص را دستنویس شدت اول الیه نرونهای

تقریب را پیکسلها روشنائیمیزنندو

را ارقام شکل آخر الیه نرونهای. میکنند تعیین

0 1 2 3 4 5 6 7 8 9

گرفته یاد وزنها که روشیمیشوند:

بتدریج فعال پیکسلهای وزنهای و شده ارائه شبکه به تصویر . کاهش بتدریج نیز موثر غیر پیکسلهای وزن میشوند اضافه

میابد.

ورودی تصویر

1 2 3 4 5 6 7 8 9 0

: وزنها گیری شکل

1 2 3 4 5 6 7 8 9 0

ورودی تصویر

1 2 3 4 5 6 7 8 9 0

ورودی تصویر

1 2 3 4 5 6 7 8 9 0

ورودی تصویر

1 2 3 4 5 6 7 8 9 0

ورودی تصویر

1 2 3 4 5 6 7 8 9 0

ورودی تصویر

The learned weights 1 2 3 4 5 6 7 8 9 0

ورودی تصویر

میگیرد؟ یاد را چیزی چه شبکه

یک از استفاده با معادل الیه دو با شبکه یک مثال این درکه templateسری را قالبی شبکه که است قالب یا

! میگزیند بر باشد داشته را ورودی با تطبیق بهترین بسیار ورودی شکلهای دستنویس ارقام مسئله برای اما

سازگار ورودیها همه با که ساده قالب یک لذا هستند متنوع . راه نمیتواند هم ای شبکه چنین نتیجه در ندارد وجود باشد

! باشد کلی حالت در مسئله حل نمود حل کلی حالت در را مسئله بتوان اینکه برای

تبدیل ها ویژگی از ای مجموعه به ورودی های بایدشکل. داد آموزش ها ویژگی اساس بر را شبکه و شده

دستنویس ارقام تنوع از مثالی

top related