ارائهی چارچوبی برای یادگیری کنترل توجه در وظایف با...
DESCRIPTION
ارائهی چارچوبی برای یادگیری کنترل توجه در وظایف با فضای ادراکی چندبعدی. مریم سادات میریان اساتید راهنما: دکترمجید نیلی، دکتر بابک نجار اعرابی. استاد مشاور. فهرست مطالب. مقدمه اهمیت و انگیزه پرداختن به کنترل توجه (در حالت کلی) این پژوهش (به طور خاص) - PowerPoint PPT PresentationTRANSCRIPT
ارائه ی چارچوبی برای یادگیری کنترل توجه
در وظایف با فضای ادراکی چندبعدی
مریم سادات میریان
اساتید راهنما: دکترمجید نیلی، دکتر بابک نجار اعرابی
1
استاد 2مشاور
فهرست مطالب
مقدمه•اهمیت و انگیزه •
پرداختن به کنترل توجه )در حالت کلی(–این پژوهش )به طور خاص(–
نوآوری ها در قالب یک شبکه ی مفهومی با گذار از حوزه های •مرتبط
چارچوب پیشنهادی•تحقق در حوزه ی برخط–تحقق در حوزه ی برون خط–
آزمایش ها و نتایج•جمع بندی و نتیجه گیری•پیشنهادهایی برای ادامه ی این پژوهش• 3
مقدمه: کنترل توجه چیست؟
روانشناسی•کنترل نمودن روند تفکر بر یکی از چندین موضوع یا –
شیئی که به طور همزمان ممکن است ذهن را مشغول نماید.
بریدن از چیزهایی برای پرداختن موثرتر به چیزهای دیگر.–
مهندسی•فیلتر نمودن فضای ورودی به گونه ای که بر چیزی که در –
فرایند تصمیم گیری ارزش بیشتری دارد، متمرکز شویم.ایجاد ارزش/اهمیت کمتر برای ورودی های گمراه کننده، –
غیرقابل اتکاء و نویزی4
اهمیت پرداختن به کنترل توجههرجا نیاز به تصمیم گیری•
محدود زماندر – ی مشخصهزینهبا – انبوهاطالعاتبر اساس –
باشد نیاز به روشی است که به نوعی از میان منابع را زیرمجموعه ی مناسب تر اطالعاتی موجود،
برگزیند. تعابیر متفاوت ولی مرتبط به توجه در مهندسی:•
پاالیش یا فیلترینگ–انتخاب حسگر–کاهش بعد –و ... –
5
کنترل توجه ادراکی اهمیت و انگیزه ی )در حالت معمول(
حل مشکل محدودیت زمان و توان پردازشی•حل مشکل پیچیدگی فضای حاصل از ادراک همزمان •
تمامی ابعاد سنسورهای ورودیحل مشکل ابهام به دلیل اطالعات انبوه سنسوری•راهی برای کارآمدتر نمودن حل مسئله ی تصمیم گیری•
کاهش بعد فضای ادراکی ربات–کاهش نیاز به حافظه برای ذخیره ی مشاهدات غیرضروری–ساده تر شدن مدلی که ربات برای انجام وظیفه باید از –
محیط بسازد
6
یادگیری کنترل اهمیت و انگیزه ی توجه
)در حالت معمول(اینکه ”به چه/کجا نگاه کنیم؟“ و اینکه ”در پاسخ •
به مشاهده ی انجام شده، چه کنشی انجام اند. بدهیم؟“ به یکدیگر تافته شده
)با هدف زیرمسئله ی اول در خدمت دومی است! •تسهیل و کاهش بار مسئله ی دوم(
Where to look?What to do?
7
اهمیت و انگیزه ی این پژوهش: یادگیری کنترل توجه در فضای
تصمیماینکه ”با چه کسی مشورت کنیم؟“ و اینکه ”در •
پاسخ به مشورت دریافتی، چه کنشی انجام اند. بدهیم؟“ به یکدیگر تافته شده
مشورت ها به صورت ترتیبی انجام می شوند.–سطوح و ناحیه ی خبرگی ها متفاوت هستند.–
Whom to Consult?
What to do?
8
ایده ی اصلی چارچوب
تقسیم مسئله ی اصلی به زیرمسئله ها ی •یادگیری کوچکتر و سپس یادگیری نحوه
برهم نهی نتایج:در زیرفضاهای ادراکی یادگیری انجام وظیفه •
ساده تر به صورت موازی توسط ماشین های یادگیر ساده تر
یادگیری کنترل توجه با تعبیر یادگیری مشورت •در فضای با همین ماشین های یادگیر ساده تر
تصمیم10
فضای ادراکی چندبعدی
نظر/تصمیم/کنش نهایی
کدام سنسور؟
کدام کنش؟
مسئله یادگیری در فضای ادراکی چندبعدی
)در حالت معمول(
11
نظر/تصمیم/کنش نهایی
فضای ادراکی چندبعدی
فضای ادراکی با بعد
کمتر
فضای ادراکی با بعد کمتر
فضای ادراکی با بعد کمتر
بخشبندی
همان مسئله با نگرش پیشنهادی در این رساله)یادآوری(
Perc
eptu
al S
pace
Dec
isio
n Sp
ace
12
کدام کنش؟
کدام کنش؟
کدام کنش؟
کدام کنش؟
کدام نظر؟
سوال کنترل توجه: ادراکی یا 2تصمیم؟!
یادگیری کنترل توجه در •فضای تصمیم
lتا حسگر، در واقع nبه جای عدد خبره داریم
تا l از ’lکدامین به ازای هر موقعیت خبره ها را برای مشوت انتخاب کنم تا کنش با بیشترین امید
پاداش و کمترین هزینه را پیدا کنم؟
یادگیری کنترل توجه در •فضای ادراکی
حسگر )یا در حالت کلی nاگر ما حداکثر n موقعیت مکانی/شیء مثال در داخل
یک مدالیتی مانند بینایی( داشته باشیم که به کمک آنها موقعیت یا
حالت فضا را ادراک نماییم
بیش از ’nکدامین به ازای هر موقعیت بقیه هم به لحاظ اطالعاتی مفیدتر است و هم به لحاظ اقتصادی به صرفه تر است که استفاده شود؟
13
دیدگاه پیشنهادی این پژوهش
14
تعریف یک مسئله یادگیری در فضای ادراکی چندبعدی
بینش(Intuition)
+
یادگیریAttentive Decision
Fusion
طراح خبره
هدف این پژوهش، ارائه ی یک راه حل یکپارچه است برای حل • ولی در دو حوزه مختلف Attentive Decision Fusionمسئله ی
:طراحی جمع خبرگانبرای برخط در کاربردهای رباتیکی•برون خط در کاربردهای شناسایی الگو•
طراحی جمع خبرگان
Core
ن ای
ش
هوژپ
:اهمیت و انگیزه ی این پژوهش
چرا یادگیری؟
یادگیری تنها راه حل ممکن است •راه حل بهینه ی یک مسئله را در وقتی
حالت کلی نمی دانیممدل محیط و سیگنال دقیق خطا را •
نداریممشاهده هایی که ربات و طراحش هر •
کدام در محیط انجام می دهند، متفاوت است
15
اهمیت و انگیزه ی این پژوهشچه نوع یادگیری؟
یک روش یادگیری در تعامل با محیط•یک روش یادگیری فقط بر اساس یک ارزیابی غیرمستقیم از •
عملکردیک روش یادگیری که قابلیت وارد کردن هزینه برای هر •
کنش عامل را داشته باشد تا در مجموع کل هزینه را بتوان کنترل کرد.
16
برای ترکیب چرا روش توجهی تصمیم؟!
هزینه بر و طوالنی بودن استخراج تمامی اطالعات •الزم برای یک تصمیم گیری جامع
نیاز به پردازش اطالعات انبوه و مشورت های متعدد با •افراد خبره برای اتخاذ یک تصمیم منطقی
در مسائل تشخیص )پزشکی(، مشورت با یک •خبره)پزشک( متخصص جدید، نیازمند فراهم کردن
اطالعات)انجام آزمایش های( جدید است؛ چرا که هر خبره )پزشک( ممکن است از منظری خاص به یک
مسئله )بیماری( واحد بنگرد.پس به کمک ایده ی توجه این فرایند را تسهیل •
می کنیم.
17
ی حوزه ی ترکیب ها چالشچیست؟تصمیم
دانش یک فرد خبره و حوزه ی خبرگی وی در حالت کلی بر •روی حوزه ی مسئله، معموال ناکامل و نایکنواست.
بسیار محتمل است که پیشنهادهای یک خبره روی کل فضای •مسئله ناکامل باشد
پیشنهادها در مورد برخی پرسش هایی که در حوزه ی خبرگی •وی واقع نشوند، برای وی گمراه کننده و حتی ابهام برانگیز
هستند. منطقی نیست که ابتدا همه ی مشورت ها را به صورت یکجا •
انجام دهیم و سپس به یکباره و بر اساس کل آنها، اقدام به تصمیم گیری نماییم.
بنابراین الزم است که به صورت ترتیبی و بر اساس •انتخابی هوشمندانه و با توجه به میزان سودمندی
نظر هر خبره، اقدام به انتخاب توجهی خبره ها کنیم!18
METAL
ADFL
Onlin
e,
Inte
racti
ve
Offline,
Supervised
Task Type
Is done by
Can
be
solv
ed b
y
Can
be c
onsi
dere
d fr
om p
ersp
ectiv
e of
Nee
ds
Nec
essi
tate
s
Is d
one
by
شبکه ی مفهومی: نمایش ارتباط حوزه های پژوهشی مرتبط
19
METAL
Is done by
Can
be c
onsi
dere
d fr
om p
ersp
ectiv
e of
Nee
ds
Nec
essi
tate
s
شبکه ی مفهومی: نمایش ارتباط حوزه های پژوهشی مرتبط
20
21
مدلسازی Attentive Decision Fusionیادگیری
ی به عنوان یک مسئلهیادگیری تعاملی
e1ele2
Decision making
Feature Space (F)
f1 f2 fl
ei
fi
Update si using ei(fi)
ei(fi)
Tta i
Dda j
AD
FL
agen
t
)|dpr(d)...|dpr(d)|d[pr(d)( ce2e1e iii iiiii ffffe
Decision support of an expert about all actions
نیاز به یک روش یادگیری پیوسته حالت و گسسته
کنش
Bayesian RL
22
مفروضMDPمولفه های کلیدی بندی مسئله برای فرمول
23
تحقق چارچوب پیشنهادی این رساله در:
حوزه برخط
حوزه برون خط
24
تحقق چارچوب در حوزه ی
خط برون
25
در حوزه برون خط ADFLبه کارگیری
داده ی آزمون قابل اتکائی برای محک زنی مسئله ی •ترکیب تصمیم نداریم.
پس طبقه بندی و تشخیص را انتخاب کردیم، چون:•طبقه بندی وظیفه ی مناسبی برای آزمودن یک روش –
تصمیم گیری از جنس ترکیب تصمیم به نظر می رسد.خبره های محلی که نیاز داریم را می توانیم به سادگی با –
طبقه بندهای محلی جایگزین نماییم.با انتخاب طبقه بندی به عنوان وظیفه ی محک، می توانیم –
روش خود را با روش های شناخته شده ی این حوزه مقایسه نماییم.
اما بدین ترتیب، خبره ها را هم باید خودمان بسازیم!•
26
ساختن خبره ها: چند فرصت و یک تهدید!
:فرصت ها•روش ما به یک آلترناتیو برای محک زنی با روش های –
شناخته شده ی حوزه طبقه بندی تبدیل می شود با اینکار، در حوزه ی پیشنهاد و تست روش هایی برای طراحی –
وارد می شویم.By-productخبرگان هم به عنوان یک ورود به حوزه ی شناسایی الگو و شکل دهی فضای جایگزین یادگیری و •
....
تهدید:•ارائه یک طراحی مناسب برای خبرگان ساده نیست: اگر –
خبره ها را از قبل داشتیم، صرفا برای مشورت با آنها هزینه لحاظ می کردیم و نظر آنها را در هر مورد بنا به روش خود به
صورت ترتیبی ترکیب می کردیم و...27
طراحی خبره ها با هدف ایجاد تنوع
BRSM PKSM 28
هاLDE برای طراحی BRSMسیاست
29
روشی برای ایجاد یک طراحی •سریع، ساده و طبعا
تصادفی)البته به صورت متوازن(
ایجاد کالسه کننده های تقریبا •هم قدرت
The set of features: F
Number of Experts = l
Rank the features according to the effect on CCR using
Forward Selection/Backward Elimination
Select RF = Redundancy_Factor: the number of local
experts having access to one feature.LF = Locality_Factor: the portion of whole feature space to be considered by a single local classifier.
Set Number of Classifiers = l = 1/ LF
Number-of-Features-per-Classifier = fpc
Make l bins of sorted features; each contains fpc features.
Randomly select fpc features from these l bins to assign to the feature subspace of local
experts.
We have l different portions of feature space: f1,…, fl
Bala
nced
Ran
dom
Sub
-spa
ce M
etod
30
PKSMسیاست هاLDEبرای طراحی
Pre-
Know
ledg
e ba
sed
Sun-
sapc
e M
etho
d
توزیع ویژگی های کم هزینه میان •بیشتر خبره ها
اولویت دادن به طراحی که •ویژگی های پرهزینه را به تعداد
محدودی از خبره ها منتسب نماید بر طراحی دیگری که بدون توجه
به هزینه ی الزم برای به دست آوردن هر ویژگی، آنها را به
صورت یکنواخت و بر اساس تصادف میان همه ی خبره ها
تقسیم می نماید
The set of features: F, Number of Classes = |C|
Number of Experts = l
Divide the features into two groups: expensive and inexpensive
Assign all inexpensive features to all local experts
Is Separability Index acceptable?
We have l different portions of feature space: f1,…, fl called cls(i).f where
Yes
Map all the training instances to the Decision Space Using the decision of each local expert
Cluster the Decision Space using Kmeans method into CN clusters
2<T<MaxT
ClustMemij = number of members of class i in the
cluster j
1
1
max ( )100
CNi ij
Cj
iji
clustMemSI
clustMem
Randomly distribute the expensive features among local experts
داده ها و روش های محکداده ها:•
UCI ML Repositoryیازده داده ی انتخابی از مجموعه داده های –روش های فضای ویژگی:•
در فضای ویژگی k-NNیک طبقه بند – Baggingروش – Adaboostروش –
روش های فضای تصمیم:• در فضای تصمیمk-NNیک طبقه بند –روش های ترکیب تصمیم:–
: روش رای گیری اکثریتبرچسب خروجی• Borda-count: روش رتبه ی تصمیم های خروجی• با وزن های بهینه OWA: روش خروجی پیوسته به فرم تصمیم های احتماالتی پسین•
به دست آمده از الگوریتم یادگیری گرادیان نزولی
31
معیارهای ارزیابی پایه
بار اجرا( 5)در کارایی: متوسط نرخ تشخیص •
روی داده ی آزمونقوام نسبت به نحوه ی تفکیک ویژگی ها: •
روی بار اجرا( 5)در واریانس نرخ تشخیص داده ی آزمون
نسبت مشورت•LDEs ofnumber Total
LDEs Consulted ofNumber Ratioon Consultati
32
ADFL+BRSMعملکردی خود از لحاظ نرخ تشخیص نهاییترکیب تصمیمشکست رقبای •
حتی در مواردی که نرخ تشخیص هر خبره به صورت محلی پایین است.– بعد از آموزش در هر حالت فقط با ADFL مشورت هوشمندانه•
)چنانکه نسبت مشورت نشان خبرگانی که سودمند تشخیص داده شده اند می دهد(
Bagging و Adaboostدر مورد برخی داده ها شکست از •
33
+PKSM ADFLعملکرد نرخ تشخیص نهایی و غلبه بر روش های رقیب هم در معنادارافزایش •
Bagging و Adaboostدسته ی ترکیب تصمیم و هم
واریانس کم در نرخ تشخیص نهایی •های آموزش و آزمون و نسبت به چگونگی شکست کل داده به مجموعه قوام–
های مختلف ها میان خبره ی ویژگی نیز شکست مجموعه
لزوم حداقل درکی از معنای ویژگی ها!•
34
t (pt) و(pw)، ویلکوکسون (ps)آزمون عالمت بر اساس بهترین طبقه بند پایه ADFL+PKSMمیان
و روش های رقیب
Fusion(Bests) Ensemble(Bests) Adaboost+k-NN Adaboost+SVM Bagging+k-NN
10/0/1 7/2/2 11/0/0 8/2/1 9/0/2 Win/draw/loss
ps=0.0117pw=0.0019pt=0.0009
ps= 0.0654pw= 0.0322pt= 0.0406
ps=0.0009pw=0.0009
pt=0
ps=0.0117pw=0.0097pt=0.0123
ps =0.0654pw=0.0048pt=0.0068
PKSM+ADFL(Bests)
ADFL+PKSM با بهترین LDE ها )مستقل از نوع الگوریتم :یادگیری پایه( روش های اجماع خبرگان از بهترین روش های رقیب در دسته
و درصد اطمینان 90با ترکیب تصمیم با از بهترین روش های رقیب در دسته ی
، بهتر عمل می کند. درصد اطمینان95 35
معیارهای ارزیابی تکمیلی
گونه ی مختلف از خطاهای 2قوام نسبت به •زمان طراحی خبرگان
خبره ای که در حالت باینری، صد در صد و در حالت –چندکالسه با الگوی مشخصی به طور هدفمندی
اشتباه می کند.خبره ای که نظر تکراری ارائه می نماید.–
36
تست خبره های تکراری Consultation
RatioADFL OWA
Borda-count
Majority voting
k-NN onDecision
Space
Description(Avg. CCR of
LDEs)
Dataset (LDEs’ Base learner)
1.9/476.34
(0.001)66.3
(0.03)76.6
(0.06)75.3
(0.03)72.3
(0.07)Original
(64.5)Diabetes
(NB)2.1/5
75.8(0.05)
60.1(0.07)
71.2(0.01)
69.1(0.05)
68.1(0.07)
With duplicated LDE(64.5)
3.4/586.20
(0.003)67.1
(0.02)66.6
(0.02)71.3
(0.05)80.0
(0.02)Original,
(71.2)Hepatitis
(SVM)3.3/6
85.34 (0.04)
65.5 (0.01)
63.81 (0.007)
70.45 (0.05)
78.2 (0.01)With duplicated
LDE(71.2)
Consultation Ratio
ADFL OWA Borda Count Maj. Vot.k-NN on
Decision SpaceDescription
(Avg. CCR of LDEs)Dataset
(LDEs’ Base learner)
2.9/578.40
(0.003)62.95(0.02)
54.04(0.001)
64.35(0.06)
68.60(0)
Original(61.5) Vehicle
(k-NN)3.1/6
77.91(0.001)
60.13(0.05)
50.20(0.04)
60.7(0.03)
66.72(0.005)
With duplicated LDE(61.5)
2.1/582.9
(0.001)75.88(0.06)
65.39 (0.002)75.00(0.04)
81.33(0.001)
Original (74.5) Waveform
(NB)2.4/6
82.50(0.009)
71.92(0.03)
65.45(0.07)
76.05(0.08)
80.59(0.009)
With duplicated LDE(74.5)
هداد
ها
ی ی
رباین
ه داد
ی ها
ی
سال
کچند
37
الگوی مشورت در تست تکرار
Prob
abili
ty o
f Co
nsul
tati
onPr
obab
ility
of
Cons
ulta
tion
5 ی شماره خبرهکپی شده و تحت
به 6 ی عنوان خبرهمجموعه خبره ها در داده هپاتیت افزوده شده
است. در انتهای یادگیری دیده
شود که هر دو میخبره به میزان مساوی برای مشورت کردن محتمل هستند
5 ی شماره خبرهکپی شده و تحت
به 6 ی عنوان خبرهمجموعه خبره ها در داده هپاتیت افزوده شده
است. در انتهای یادگیری دیده
شود که هر دو میخبره به میزان مساوی برای مشورت کردن محتمل هستند
38
نتایج آزمایش افزودن خبره ی تکراری
این افزونگی بر خالف روش های رایج ترکیب •روش تصمیم، تاثیر مخربی بر نتیجه ی
نداشته است. پیشنهادیخطاهای زمان قوام روش به چنین–
طراحی!نتایج روش های ترکیب تصمیم، تاثیر مستقیم این –
آزمایش را در خروجی نشان می دهند.
کپی و هم با خبرهعامل یادگیر در ما هم با یک • مشورت نمی کند.آن
39
آزمایش افزودننتیجه یتصمیم گیرهای به طور سیستماتیک
خطادارConsultation Ratio ADFL OWA
Borda Count
Majority voting
k-NN onDecision Space
Avg CCR of LDEs
Pima Indian Diabetes
1.9/476.34
(0.001)66.3
(0.03)76.6
(0.06)75.3
(0.03)72.3
(0.07)64.5 Original
1.1/5100(0)
59.5(0.01)
70.25(0.04)
68.9(0.08)
100(0)
51.6With output-inverted LDE
Consultation Ratio
ADFL OWABorda Count
Majority Voting
k-NN onDecision Space
Description(Avg. CCR of LDEs)
Dataset (LDEs’ Base learner)
3.1/497.25
(0.0003)85.5(0)
82.5(0.012)
75.00(0)
95.5(0)
Original(97.25)
Dermatology(NB)
1.2/5100(0)
65.9(0.06)
73.7(0.002)
62.03(0.03)
100(0)
With systematically wrong LDE
(81.04)
3.4/595.02
(0.0001)63.95(0.01)
59.30(0)
74.18(0.002)
90.16(0.0002)
Original(89.3)
Satimage(k-NN)
1.5/6100(0)
52.78(0.05)
48.72(0.001)
63.80(0.05)
100(0)
With systematically wrong LDE
(74.4)
ت حال
در ی
سال
کچند
ت حال
در ی
رباین
40
تست خبره ی خطاکارالگوی مشورت در
Prob
abili
ty o
f Co
nsul
tatio
n
در پایان ADFLیادگیری
بیشترین مشورت را با
ی خبرهخطادار
سیستماتیکی دهد انجام می
در پایان ADFLیادگیری
بیشترین مشورت را با
ی خبرهخطادار
سیستماتیکی دهد انجام می
41
42
و Adaboost از ADFL + BRSM شکستBagging ای های داده روی اغلب مجموعه
های آموزشی در فضای تصمیم توزیع نمونهبررسی BRSMهای محلی طراحی شده بر اساس روش فضای تصمیمی متشکل از خبره)
که بیش از بقیه با آنها مشورت شده بود.(
: یک فضای تصمیم در هم که به ندرت می شد مرز تصمیم مشاهدهمشخصی میان نمونه های کالس های مختلف متصور شد.
بتواند با قراردادن ADFLبسیار دشوار است که نتیجه: گوسی ها و تنظیم میانگین و واریانس آنها، مرز تصمیم
مشخصی در فضای تصمیم شکل بدهد و به کارایی مناسب و مورد انتظار دست یابد.
بحث در مورد طراحی خبره های محلی
بحث در مورد طراحی خبره های (2محلی)
یادگیری پیوسته با بخشبندی نرم فضای روش •، تعدادی هسته ی گوسی در نواحی مختلف ورودی
فضای یادگیری قرار می دهد. آنها را در طول زمان با واریانس و میانگینسپس –
ورود نمونه های یادگیری جدید، تنظیم )به روز( می کند.زیاد نمونه های یادگیری باعث در هم رفتگی •
هسته های گوسی می شود و کار را افزایش تعداد دشوار و بعضا غیرممکن می کند.
را فضای تصمیم اولیه پس باید تا حد امکان • تحویل بدهیم.ADFLگرانول بندی شده به
43
تصویر پایه اقتباس از DHS PR book: Ch2. page 28 44
شکل دهی فضای .....تصمیم
بحث در مورد طراحی (3خبره های محلی)
برای سنجش Seperability Indexتعریف معیاری با نام •میزان قابلیت خوشه بندی فضای تصمیم )مطلوبیت
موردانتظار در فضای تصمیم( بر اساس بیشینه نمودن این معیار، ویژگی ها PKSMروش •
را انتخاب می نماید.
1
1
max ( )100
CNi ij
Cj
iji
clustMemSI
clustMem
تعداد اعضاء در i کالس
j خوشه
تعداد اعضاء در i کالس
j خوشه
تعداد خوشه هاتعداد
خوشه ها
45
نتایج طراحی خبره های محلی به PKSMروش
خبره های محلی و کمیت افزایش متوسط دقت غالبا •بهبود کارایی نهایی در فضای تصمیم هر دو بر جداپذیری
ADFL.تاثیرگذار هستند خبره های محلی در اکثر موارد، موجب بهبود متوسط دقت•
هم می شود ولی عکس این شرایط وجود ندارد. جداپذیری بهترمیان ضریب همبستگی به صورت تجربی مشاهده شد که •
یک عدد منفی و کوچک خبره های محلی متوسط دقت و جداپذیریاست.
•SI است : پیش ارزیابی یک معیار آیا خبره های طراحی شده )حتی با متوسط قدرت کم( به صورت بالقوه –
مناسب هستند یا خیر؟ ADFLبرای
معموال طراحی خبره هایی با متوسط قدرت باال در عمل دشوار • به مراتب عملی تر است.افزایش جداپذیری است در حالیکه
46
تحقق چارچوب پیشنهادی این رساله در:
حوزه برخط
حوزه برون خط
47
تحقق چارچوب در حوزه ی برخط(METAL)برای یادگیری رباتیکی
48
در حوزه برخط
از حل مسئله کنترل توجه باز هم به دنبال •مسئله یادگیری آن به فرم یک تبدیلطریق
هستیم.ترکیب تصمیم اما داده ی آموزشی نداریم:•
پس ایجاد خبره های محلی چگونه باید باشد؟!–
قطعا در این حوزه نیازمند تعامل با محیط •برای آموزش خبره های محلی هستیم.
49
Structural Components
Learning Phases
Evaluation Measures
Bayesian Continuous
RL
TAs
Learned Behavior Quality
TAs
ACL
TAs
Expert Advisor
FOA
METAL= Mixture of Experts Task & Attention Learning
50
Structural Components
Learning Phases
Evaluation Measures
Bayesian Continuous
RL
TAs
Learned Behavior Quality
TAs
ACL
TAs
Expert Advisor
FOA
METAL= Mixture of Experts Task & Attention Learning
51
فاز اول: یادگیری غیرفعال مبتنی بر نمایش
خبره ی انسانی به عنوان مربی و –نقاد عمل می کند.
ریزعامل ها –حالت محیط را به طور جزئی ادراک •
می کنند.کنش مربی را حس می کنند •فیدبک محیط را دریافت می کنند. •سپس ارتباط میان این اجزاء را در •
ذهن خود تقویت می کنند.
:عامل مشاهده گر کامل–حالت را به طور کامل ادراک •
می کند.کنش مربی را حس می کند. •فیدبک محیط را دریافت می کند. •سپس ارتباط میان این اجزاء را در •
ذهن خود تقویت می کند.
TA2TAl FOATA1
Environment
Expert Advisor
reward reward reward reward
Motor Action
1,2,...,liOOOs iciiTA ii ],,...,,[ 21
],...,,[21 lTATATAFOA ssss
* *( , ) ( , ) i
i i i i
TATA TA EA TA TA EA errorQ s a Q s a TD
* *( , ) ( , ) FOAFOA FOA EA FOA FOA EA errorQ s a Q s a TD
52
ریزعاملهای داخل ذهن ربات که هر
یک بخشی از فضای ادراکی را مشاهده و در آن یادگیری وظیفه را
.انجام می دهند
عاملی که کل فضای ادراکی را مشاهده
1می کند و درفاز به کار گرفته 2و
.می شود
خبره ای که در فاز نقاد 3هر
است ولی در نقش 1فاز
مربی را هم بر .عهده دارد
Structural Components
Learning Phases
Evaluation Measures
Bayesian Continuous
RL
TAs
Learned Behavior Quality
TAs
ACL
TAs
Expert Advisor
FOA
METAL= Mixture of Experts Task & Attention Learning
53
فاز دو: یادگیری فعال اولیهنقش خبره به صرفا یک نقاد محدود •
می شود. یک مرکز ترکیب در خروجی •
تصمیم سازی این قرار می گیرد ریزعامل ها و عامل مشاهده گر کامل •
تصمیم حریصانه ی خود را اتخاذ می کنند و آن را به همراه درجه پشتیبانی به مرکز ترکیب نهایی
می فرستند. تصمیم نهایی توسط مرکز ترکیب و •
بر اساس ماکزیمم نمودن یک معیار خبرگی انجام می شود.
شود و انجام میبدین ترتیب کنش •سیگنال تقویت از محیط دریافت
شود. میوقتی یادگیری ریزعامل ها عمگرا •
می شود، عامل مشاهده گر کامل حذف می شود و ریزعامل ها تبدیل
به خبره های محلی می شوند.
FOA
Environment
Fusion Center
reward reward rewardreward
Motor Action
TA1 TA2
TAl
||,...,2,1)),,((maxarg AkasQa kTAk
TA ii
||,...,2,1)),,((maxarg AkasQa kFOAk
FOA
))|(),|(),...,|(),|((maxarg2211 FOAFOATATATATATATA
afusion sapsapsapsapa
ll
54
Structural Components
Learning Phases
Evaluation Measures
Bayesian Continuous
RL
TAs
Learned Behavior Quality
TAs
ACL
TAs
Expert Advisor
FOA
METAL= Mixture of Experts Task & Attention Learning
55
فاز سوم: یادگیری کنترل توجه
توجه کردن به نظر یک نفر •)ریزعامل( یا مشورت کردن با وی، به معنای درخواست
از او بر پردازش فضای سنسوری خودش و ارائه اش نمودن تصمیم پیشنهادی
است. ACLبه عامل دو دسته کنش ACLعامل •
کامال متفاوت به لحاظ ذاتی دارد:
یک خبره را فعالسازی کند و با –آن مشورت نماید،
یک کنش موتوری انجام بدهد. –
TA2TAi
TAlTA1
Motor Action
reward
P(a1 |S
TA i ),…,P(a
A| |STA i )
Perceptual Attention Shift
Attention Learning
Task Learning
Obs
Environment
reward
ACL
Motor Action
reward
P(a1 |S
TA1 ),…,P(aA| |S
TA1 )
ACL Motor PerceptualA A A
},...,,{ 21 lperceptual ConsultTAConsultTAConsultTAA )]||)...(||)...(||[(
1nullDnullDnullDs
li TATATAACL Motor
ii
A
jTAjTA sactionPD1
)|(
نیاز به یک روش یادگیری پیوسته حالت و گسسته
کنش
Bayesian RL
Dec
isio
n su
ppor
t of
an
expe
rt
abou
t all
actio
ns
56
Structural Components
Learning Phases
Evaluation Measures
Bayesian Continuous
RL
TAs
Learned Behavior Quality
TAs
ACL
TAs
Expert Advisor
FOA
METAL= Mixture of Experts Task & Attention Learning
57
معیارهای ارزیابی
از منظر یادگیری:•پیشرفت یادگیری بر اساس متوسط پاداش دریافتی که –
عامل در ضمن یادگیری به دست می آوردمتوسط پاداش تجمعی دریافتی در حین تست –متوسط تعداد گام های مشاهده را که عامل در هر –
حالت برمی دارد یک کمیت نزولی در طول زمان نشانگر آن که عامل به مرور، •
خبره های دارای دانش الزم در هر موقعیت را شناسایی نموده است.
از منظر رفتاری:•تعداد تصادف ها–نرمی مسیر رانندگی–اتخاذ سرعت مناسب–
58
تحقق چارچوب در یادگیری رانندگی
Highway Driving Skill
Not to Collide an Obstacle
Driving in road boundary
Bypassing stalled cars
Passing slow cars Approach with good speed
Following some rules
Keeping vehicle inside lanes
عدد خبره 6برای مدالیتی
بینایی
Vision
IR
59
تابع پاداش: موتوری و ادراکی
Yes
No No NoNo
Punishment!
Punishment
YesYes Yes
No
IR and %Red
1w 2w 3w 4w
پاداش موتوری
-1
Costs for 6 areas of Vision
-2
-2
-2
-2
-1.5
-1.5
پاداش
ادراکی
Vision cost for FOA
Equals with Sum of Vision costs for TAs, That is-11= - 2 4 - 1.5 2
Vision + IR cost for Fusion Center
Equals with Sum of Vision and IR costs for TAs, That is
-12= - 2 4 - 1.5 2 - 1
State
Collision?Off the Road boundary?
Violate Rules? (Between Lines
Driving?)
Approach with inappropriate speed?
% off the road bottom area of the
robot
%black, %white, %green and %blue
Difference between current and max
speed
Costs of consulting TAs
Equal costs for 8 IR sensors
60
0 200 400 600 800 1000 1200
-22
-20
-18
-16
-14
-12
-10
episode
Tota
l A
ccum
ula
ted R
ew
ard
FOA
Fusing the Decisions(Phase II)
ACL(Phase III)
متوسط پاداش دریافتی ضمن یادگیری
61
متوسط تعداد گام های برداشته شده ضمن یادگیری
Perc
ent o
f Bin
s of
Per
cept
ual S
teps
Se
lect
ed b
y AC
L
62
با تکمیل شدن روند یادگیری،
گام ها حساب شده تر
برداشته .می شوند
METALرانندگی بر اساس چارچوب
63
جمع بندی: یادآوری دیدگاه پیشنهادی
64
تعریف یک مسئله
یادگیری در فضای ادراکی
چندبعدی
بینش(Intuition)
+
یادگیریAttentive Decision
Fusion
طراح خبرهطراحی جمع
خبرگان
ایده ی توجه: انتخاب ترتیبی و بر اساس موقعیت و با کنترل هزینه
65
1
23
نتیجه گیری بر اساس ایده ی اصلی از منظر ترکیب تصمیم•
یادگیری ترتیب مناسب مشورت با تصمیم گیرهای محلی به ازاء موقعیت های –مختلف
یادگیری سیاست مشورتی به گونه ای محلی به جای یادگیری یک استراتژی –مشورت یکسان روی کل فضای تصمیم
این ویژگی به ویژه وقتی تصمیم گیری در زیرفضاها از تصمیم گیری در •فضای اولیه به گونه ی دقیق تری امکان پذیر باشد، خیلی مطلوب است.
ویژگی "محلی عمل نمودن" در فضای تصمیم، دستی طراحی نمی شود •بلکه یاد گرفته می شود.
ایجاد یک درجه ی آزادی در طراحی تصمیم گیرهای محلی: کافی است تنها در –بخشی از فضای داده به خوبی عمل نمایند.
از منظر توجه•کمینه نمودن هزینه و تعداد مشورت ها و یافتن تصمیم گیرهای مطلع تر–به صورت ترتیبی و بر اساس موقعیت–
از منظر کاربرد•یک سیستم یادگیرنده ی پشتیبان تصمیم با کاربرد در هر دو حوزه ی برخط و –
برون خطاز یک منظر پژوهشی نسبتا متفاوت•
ارائه ایده هایی در مورد ساختن تدریجی درخت تصمیم به کمک یادگیری –تقویتی 66
بازگشت
نتیجه گیری از تحقق در حوزه برون خط
ی شناخته شده ی حوزه رقبا مناسب در مواجهه با کارایی•ویژگی و تصمیم
)در تصمیم تدریجی ترکیب انتخابی/توجهی یادگیریقابلیت •مقایسه با روش های استاتیک که از همه ی ورودی ها
استفاده می کنند.(قابلیت بهره گیری از طبقه بندهای محلی که لزوما هم •
خیلی خوب طراحی نشده اند.)از خطاهای رایج زمان طراحی توانایی مدیریت برخی •
قبیل تکرار یک خبره در مجموعه ی خبرگان که موجب اعمال نظر مضاعف می شود و نیز خبره هایی که به صورت
هدفمند نظر خطادار اعالم می نمایند( و انتخاب بهترین عکس العمل در قبال آنها.
نحوه ی رسیدن به جواب بهینهتوانایی در اختیار قرار دادن •عالوه بر اینکه خود پاسخ نهایی را هم در اختیار فرد
تصمیم گیر قرار می دهد. 67
بازگشت
های به کارگیری در حوزه محدودیتبرون خط
در اگر با یک مسئله تصمیم گیری سروکار داریم که•ی گوناگون وجود داردنظرات خبره هامورد آن،
یا به سادگی می توان نظرات این خبره ها را تهیه یا •شبیه سازی نمود
خبره های PKSM یا BRSMبا تقسیم ویژگی ها بر اساس –ایجاد نمی گرددضعیف
فضای تصمیم را بتوان تا حد مناسبی افزایش داد که SIیعنی •، قابل ایجاد باشدمناسب
نحوه ی ترکیب مناسب این تصمیم ها برای • ی همهتصمیم گیری نهایی معلوم نبوده، استفاده از
باشدهزینه برآنها هم ی تصمیم سازی بوده، تحقق این کاهش هزینههدف، •
پذیرفتنی مشورت با خبره ها کاهش هزینه از طریق باشد
68
بازگشت
گام های آتی برای ادامه کار در حوزه برون خط
ساختن ارائه روش های کارآمدتر برای •طبقه بندهای محلی
یادگیری آزمودن کارآمدی این روش در مسئله ی •چندین هسته ای
هدف آن SVM مثل Kernelچون در روش های مبتنی بر –است که جداسازی در فضای با بعد باالتر ولی جداپذیر
خطی صورت بگیرد، شاید این روش جایگزین خوبی جداپذیر نمودنی که الزمه کار است، باشد. برای
ترکیب تصمیم با هدف ساختار درختیتشکیل •نشان دادن برتری این روش بر روش هایی که در تشکیل درخت، تنها نگاهی به سودمندی هر گام
Entropy-based measure of)مانند در شکاندن فضای ادراکی دارندimpurity)
69
بازگشت
نتیجه گیری از تحقق در حوزه برخط
نمsودن • در توزیsع یsادگیری متsوالیدشsواری اصsلی فازهsای بsار :کنsترل یsادگیری اصsلی بsار و sدوم، فsاز sاول در وظsیفsه یsادگیرsی
توجه در فاز سوم.توانsایی یsادگیری در یsک فضsای جsایگزین و مناسsب بsه جsای فضsای •
توانsایی اسsتفاده از اsدراکیs چندبعsدی اولیsه sبsا ویژگsی هsایی از قبsیsل sاوتsمتفs ایsه هsش خبرsی کم ، دانsایsدنمsبs الsا احتمsب sادوsبعsیش اsه بsک sی
sدراکیsنسخه معادل ا sبعادsکنترل از ا sاست.قابل بsه وظیفsه در هsر وضعیتنامرتبsطابعsاد نادیsده گsرفتن توانsایی •در تعsداد محsدودی شsیفت توجsه بsا راننsدگییادگیری انجsام وظیفه ی •
s ایsضsک فsی sتsالsحs sتهsای پیوسsکی دنیsاتیsرب sیفsاsوظ sای ازs sونهsمsن کsه واقعی است
تعریsف سلسsه مراتsبی تsابع پsاداش ارائه ی یsک راهکsار نمونsه بsرای •بsه یsادگیsری یsک وsظیفه ی متنsوع ابهsاsم در sاکثریsدsاهش حsرای کsب
لحاظ عملکردیبsرای • نمونsه راهکsار یsک یsادگیر ارائه ی عامل هsای یsک طsراحی
وظیفه ی رباتیکی بازگ70شت
هدف از”ارزیابی میزان بدنمایی“
با محاسبه حد باالی احتمال رخداد بدنمایی در فضای •، بر انتقال به فضای تصمیمتصمیم نشان دادیم که با
احتمال بروز بدنمایی را افزایش خالف تصور احتمالی، .نداده ایم
نحوه محاسبه: •مساوی قرار دادن مختصات دو نقطه در فضای تصمیم –تفکیک معادله به اجزاء سازنده اش و تقریب کمیت های –
پیوسته با کمیت های گسسته متناظرفرمولبندی مسئله ”احتمال بروز این تساوی“ در قالب یک –
مسئله آنالیز ترکیبی معادل پاسخ به یک فرم بسته بازگشتی پیدا کردن–بررسی صحت فرم بسته به کمک روش تکرار زیاد به –
صورت عددی
ر شت
بیت
یازئ
جت
ورص
ر د
مزو
ل
71
محدودیت های به کارگیری در حوزه ی برخط
اگر با یک مسئله ی یادگیری رباتی مواجه هستیم که • استچندبعدیآن فضای ادراکی
به یکباره برای کل فضای ادراکی اگر استفاده از • باشد،پرهزینهیادگیری ربات بسیار
و در قابل گسسته سازی های ربات فضای کنش اگر •مقایسه با ابعاد فضای ادراکی بسیار محدودتر باشد
به صورتی ترجیحا تابع پاداش اگر طراحی • شدنی باشدسلسله مراتبی
بدنمایی ی جداگانه به دلیل زیرفضاهااگر یادگیری در •مواجه نباشدعدم همگرایی ، با مشکل ذاتی شدید
)حاصلضرب بعد فضای بعد فضای تصمیم اگر •کنش های ربات در تعداد خبره های محلی( با توجه به
که به کار گرفته می شود، روش یادگیری پیوسته ای باشد.پذیرفتنی
72
بازگشت
گام های آتی برای ادامه کار در حوزه برخط
به جای بازنمایی فضای فشرده تر یافتن یک •کنونی فضای تصمیم
به صورت و یافتن خوشه هایی بخشبندی•در فضای ادراکی به جای خبره هایی که اتوماتیک
در این روش به صورت دستی و بر اساس قواعد یافته ای طراحی شدند.
اعمال روش در یک وظیفه ی دیگر به گونه ای که •نیز مشاهدات گذشته نیاز به در نظر گرفتن
موجود باشدقبال انتقال دانش استفاده از تکنیک های •
به فرایند سرعت بخشیدنیادگرفته شده برای یادگیری
73
بار دیگر شما متشکرم!Attentionاز
74
75
آقای محمد اجل لوئیان:
ویرایش مقاالت و
بحثهای مفید در مورد توجه
آقای محمد اجل لوئیان:
ویرایش مقاالت و
بحثهای مفید در مورد توجه
آقای محمدحسن
ذکائی: بحثهای مفید
در مورد مباحث
مرتبط به یادگیری
آقای محمدحسن
ذکائی: بحثهای مفید
در مورد مباحث
مرتبط به یادگیری
76
آقای محمدافشار:
طراحی واسط WEBOTS و
MATLAB
آقای محمدافشار:
طراحی واسط WEBOTS و
MATLAB
آقای هادی فیروزی:
طراحی روش Bayesian RL
آقای هادی فیروزی:
طراحی روش Bayesian RL
آقای آرش آرامی:
بحثهای مفید در مورد توجه
آقای آرش آرامی:
بحثهای مفید در مورد توجه
خانم نرگس نوری: بحثهای مفید در مورد
توجه
خانم نرگس نوری: بحثهای مفید در مورد
توجه