ارائهی چارچوبی برای یادگیری کنترل توجه در وظایف با...

ارائه ی چارچوبی برای یادگیری کنترل توجه

در وظایف با فضای ادراکی چندبعدی

مریم سادات میریان

اساتید راهنما: دکترمجید نیلی، دکتر بابک نجار اعرابی

1

استاد 2مشاور

فهرست مطالب

مقدمه•اهمیت و انگیزه •

پرداختن به کنترل توجه )در حالت کلی(–این پژوهش )به طور خاص(–

نوآوری ها در قالب یک شبکه ی مفهومی با گذار از حوزه های •مرتبط

چارچوب پیشنهادی•تحقق در حوزه ی برخط–تحقق در حوزه ی برون خط–

آزمایش ها و نتایج•جمع بندی و نتیجه گیری•پیشنهادهایی برای ادامه ی این پژوهش• 3

مقدمه: کنترل توجه چیست؟

روانشناسی•کنترل نمودن روند تفکر بر یکی از چندین موضوع یا –

شیئی که به طور همزمان ممکن است ذهن را مشغول نماید.

بریدن از چیزهایی برای پرداختن موثرتر به چیزهای دیگر.–

مهندسی•فیلتر نمودن فضای ورودی به گونه ای که بر چیزی که در –

فرایند تصمیم گیری ارزش بیشتری دارد، متمرکز شویم.ایجاد ارزش/اهمیت کمتر برای ورودی های گمراه کننده، –

غیرقابل اتکاء و نویزی4

اهمیت پرداختن به کنترل توجههرجا نیاز به تصمیم گیری•

محدود زماندر – ی مشخصهزینهبا – انبوهاطالعاتبر اساس –

باشد نیاز به روشی است که به نوعی از میان منابع را زیرمجموعه ی مناسب تر اطالعاتی موجود،

برگزیند. تعابیر متفاوت ولی مرتبط به توجه در مهندسی:•

پاالیش یا فیلترینگ–انتخاب حسگر–کاهش بعد –و ... –

5

کنترل توجه ادراکی اهمیت و انگیزه ی )در حالت معمول(

حل مشکل محدودیت زمان و توان پردازشی•حل مشکل پیچیدگی فضای حاصل از ادراک همزمان •

تمامی ابعاد سنسورهای ورودیحل مشکل ابهام به دلیل اطالعات انبوه سنسوری•راهی برای کارآمدتر نمودن حل مسئله ی تصمیم گیری•

کاهش بعد فضای ادراکی ربات–کاهش نیاز به حافظه برای ذخیره ی مشاهدات غیرضروری–ساده تر شدن مدلی که ربات برای انجام وظیفه باید از –

محیط بسازد

6

یادگیری کنترل اهمیت و انگیزه ی توجه

)در حالت معمول(اینکه ”به چه/کجا نگاه کنیم؟“ و اینکه ”در پاسخ •

به مشاهده ی انجام شده، چه کنشی انجام اند. بدهیم؟“ به یکدیگر تافته شده

)با هدف زیرمسئله ی اول در خدمت دومی است! •تسهیل و کاهش بار مسئله ی دوم(

Where to look?What to do?

7

اهمیت و انگیزه ی این پژوهش: یادگیری کنترل توجه در فضای

تصمیماینکه ”با چه کسی مشورت کنیم؟“ و اینکه ”در •

پاسخ به مشورت دریافتی، چه کنشی انجام اند. بدهیم؟“ به یکدیگر تافته شده

مشورت ها به صورت ترتیبی انجام می شوند.–سطوح و ناحیه ی خبرگی ها متفاوت هستند.–

Whom to Consult?

What to do?

8

ایده ی اصلی چارچوب

تقسیم مسئله ی اصلی به زیرمسئله ها ی •یادگیری کوچکتر و سپس یادگیری نحوه

برهم نهی نتایج:در زیرفضاهای ادراکی یادگیری انجام وظیفه •

ساده تر به صورت موازی توسط ماشین های یادگیر ساده تر

یادگیری کنترل توجه با تعبیر یادگیری مشورت •در فضای با همین ماشین های یادگیر ساده تر

تصمیم10

فضای ادراکی چندبعدی

نظر/تصمیم/کنش نهایی

کدام سنسور؟

کدام کنش؟

مسئله یادگیری در فضای ادراکی چندبعدی

)در حالت معمول(

11

نظر/تصمیم/کنش نهایی

فضای ادراکی چندبعدی

فضای ادراکی با بعد

کمتر

فضای ادراکی با بعد کمتر

فضای ادراکی با بعد کمتر

بخشبندی

همان مسئله با نگرش پیشنهادی در این رساله)یادآوری(

Perc

eptu

al S

pace

Dec

isio

n Sp

ace

12

کدام کنش؟

کدام کنش؟

کدام کنش؟

کدام کنش؟

کدام نظر؟

سوال کنترل توجه: ادراکی یا 2تصمیم؟!

یادگیری کنترل توجه در •فضای تصمیم

lتا حسگر، در واقع nبه جای عدد خبره داریم

تا l از ’lکدامین به ازای هر موقعیت خبره ها را برای مشوت انتخاب کنم تا کنش با بیشترین امید

پاداش و کمترین هزینه را پیدا کنم؟

یادگیری کنترل توجه در •فضای ادراکی

حسگر )یا در حالت کلی nاگر ما حداکثر n موقعیت مکانی/شیء مثال در داخل

یک مدالیتی مانند بینایی( داشته باشیم که به کمک آنها موقعیت یا

حالت فضا را ادراک نماییم

بیش از ’nکدامین به ازای هر موقعیت بقیه هم به لحاظ اطالعاتی مفیدتر است و هم به لحاظ اقتصادی به صرفه تر است که استفاده شود؟

13

دیدگاه پیشنهادی این پژوهش

14

تعریف یک مسئله یادگیری در فضای ادراکی چندبعدی

بینش(Intuition)

+

یادگیریAttentive Decision

Fusion

طراح خبره

هدف این پژوهش، ارائه ی یک راه حل یکپارچه است برای حل • ولی در دو حوزه مختلف Attentive Decision Fusionمسئله ی

:طراحی جمع خبرگانبرای برخط در کاربردهای رباتیکی•برون خط در کاربردهای شناسایی الگو•

طراحی جمع خبرگان

Core

ن ای

ش

هوژپ

:اهمیت و انگیزه ی این پژوهش

چرا یادگیری؟

یادگیری تنها راه حل ممکن است •راه حل بهینه ی یک مسئله را در وقتی

حالت کلی نمی دانیممدل محیط و سیگنال دقیق خطا را •

نداریممشاهده هایی که ربات و طراحش هر •

کدام در محیط انجام می دهند، متفاوت است

15

اهمیت و انگیزه ی این پژوهشچه نوع یادگیری؟

یک روش یادگیری در تعامل با محیط•یک روش یادگیری فقط بر اساس یک ارزیابی غیرمستقیم از •

عملکردیک روش یادگیری که قابلیت وارد کردن هزینه برای هر •

کنش عامل را داشته باشد تا در مجموع کل هزینه را بتوان کنترل کرد.

16

برای ترکیب چرا روش توجهی تصمیم؟!

هزینه بر و طوالنی بودن استخراج تمامی اطالعات •الزم برای یک تصمیم گیری جامع

نیاز به پردازش اطالعات انبوه و مشورت های متعدد با •افراد خبره برای اتخاذ یک تصمیم منطقی

در مسائل تشخیص )پزشکی(، مشورت با یک •خبره)پزشک( متخصص جدید، نیازمند فراهم کردن

اطالعات)انجام آزمایش های( جدید است؛ چرا که هر خبره )پزشک( ممکن است از منظری خاص به یک

مسئله )بیماری( واحد بنگرد.پس به کمک ایده ی توجه این فرایند را تسهیل •

می کنیم.

17

ی حوزه ی ترکیب ها چالشچیست؟تصمیم

دانش یک فرد خبره و حوزه ی خبرگی وی در حالت کلی بر •روی حوزه ی مسئله، معموال ناکامل و نایکنواست.

بسیار محتمل است که پیشنهادهای یک خبره روی کل فضای •مسئله ناکامل باشد

پیشنهادها در مورد برخی پرسش هایی که در حوزه ی خبرگی •وی واقع نشوند، برای وی گمراه کننده و حتی ابهام برانگیز

هستند. منطقی نیست که ابتدا همه ی مشورت ها را به صورت یکجا •

انجام دهیم و سپس به یکباره و بر اساس کل آنها، اقدام به تصمیم گیری نماییم.

بنابراین الزم است که به صورت ترتیبی و بر اساس •انتخابی هوشمندانه و با توجه به میزان سودمندی

نظر هر خبره، اقدام به انتخاب توجهی خبره ها کنیم!18

METAL

ADFL

Onlin

e,

Inte

racti

ve

Offline,

Supervised

Task Type

Is done by

Can

be

solv

ed b

y

Can

be c

onsi

dere

d fr

om p

ersp

ectiv

e of

Nee

ds

Nec

essi

tate

s

Is d

one

by

شبکه ی مفهومی: نمایش ارتباط حوزه های پژوهشی مرتبط

19

METAL

Is done by

Can

be c

onsi

dere

d fr

om p

ersp

ectiv

e of

Nee

ds

Nec

essi

tate

s

شبکه ی مفهومی: نمایش ارتباط حوزه های پژوهشی مرتبط

20

21

مدلسازی Attentive Decision Fusionیادگیری

ی به عنوان یک مسئلهیادگیری تعاملی

e1ele2

Decision making

Feature Space (F)

f1 f2 fl

ei

fi

Update si using ei(fi)

ei(fi)

Tta i

Dda j

AD

FL

agen

t

)|dpr(d)...|dpr(d)|d[pr(d)( ce2e1e iii iiiii ffffe

Decision support of an expert about all actions

نیاز به یک روش یادگیری پیوسته حالت و گسسته

کنش

Bayesian RL

22

مفروضMDPمولفه های کلیدی بندی مسئله برای فرمول

23

تحقق چارچوب پیشنهادی این رساله در:

حوزه برخط

حوزه برون خط

24

تحقق چارچوب در حوزه ی

خط برون

25

در حوزه برون خط ADFLبه کارگیری

داده ی آزمون قابل اتکائی برای محک زنی مسئله ی •ترکیب تصمیم نداریم.

پس طبقه بندی و تشخیص را انتخاب کردیم، چون:•طبقه بندی وظیفه ی مناسبی برای آزمودن یک روش –

تصمیم گیری از جنس ترکیب تصمیم به نظر می رسد.خبره های محلی که نیاز داریم را می توانیم به سادگی با –

طبقه بندهای محلی جایگزین نماییم.با انتخاب طبقه بندی به عنوان وظیفه ی محک، می توانیم –

روش خود را با روش های شناخته شده ی این حوزه مقایسه نماییم.

اما بدین ترتیب، خبره ها را هم باید خودمان بسازیم!•

26

ساختن خبره ها: چند فرصت و یک تهدید!

:فرصت ها•روش ما به یک آلترناتیو برای محک زنی با روش های –

شناخته شده ی حوزه طبقه بندی تبدیل می شود با اینکار، در حوزه ی پیشنهاد و تست روش هایی برای طراحی –

وارد می شویم.By-productخبرگان هم به عنوان یک ورود به حوزه ی شناسایی الگو و شکل دهی فضای جایگزین یادگیری و •

....

تهدید:•ارائه یک طراحی مناسب برای خبرگان ساده نیست: اگر –

خبره ها را از قبل داشتیم، صرفا برای مشورت با آنها هزینه لحاظ می کردیم و نظر آنها را در هر مورد بنا به روش خود به

صورت ترتیبی ترکیب می کردیم و...27

طراحی خبره ها با هدف ایجاد تنوع

BRSM PKSM 28

هاLDE برای طراحی BRSMسیاست

29

روشی برای ایجاد یک طراحی •سریع، ساده و طبعا

تصادفی)البته به صورت متوازن(

ایجاد کالسه کننده های تقریبا •هم قدرت

The set of features: F

Number of Experts = l

Rank the features according to the effect on CCR using

Forward Selection/Backward Elimination

Select RF = Redundancy_Factor: the number of local

experts having access to one feature.LF = Locality_Factor: the portion of whole feature space to be considered by a single local classifier.

Set Number of Classifiers = l = 1/ LF

Number-of-Features-per-Classifier = fpc

Make l bins of sorted features; each contains fpc features.

Randomly select fpc features from these l bins to assign to the feature subspace of local

experts.

We have l different portions of feature space: f1,…, fl

Bala

nced

Ran

dom

Sub

-spa

ce M

etod

30

PKSMسیاست هاLDEبرای طراحی

Pre-

Know

ledg

e ba

sed

Sun-

sapc

e M

etho

d

توزیع ویژگی های کم هزینه میان •بیشتر خبره ها

اولویت دادن به طراحی که •ویژگی های پرهزینه را به تعداد

محدودی از خبره ها منتسب نماید بر طراحی دیگری که بدون توجه

به هزینه ی الزم برای به دست آوردن هر ویژگی، آنها را به

صورت یکنواخت و بر اساس تصادف میان همه ی خبره ها

تقسیم می نماید

The set of features: F, Number of Classes = |C|

Number of Experts = l

Divide the features into two groups: expensive and inexpensive

Assign all inexpensive features to all local experts

Is Separability Index acceptable?

We have l different portions of feature space: f1,…, fl called cls(i).f where

Yes

Map all the training instances to the Decision Space Using the decision of each local expert

Cluster the Decision Space using Kmeans method into CN clusters

2<T<MaxT

ClustMemij = number of members of class i in the

cluster j

1

1

max ( )100

CNi ij

Cj

iji

clustMemSI

clustMem

Randomly distribute the expensive features among local experts

داده ها و روش های محکداده ها:•

UCI ML Repositoryیازده داده ی انتخابی از مجموعه داده های –روش های فضای ویژگی:•

در فضای ویژگی k-NNیک طبقه بند – Baggingروش – Adaboostروش –

روش های فضای تصمیم:• در فضای تصمیمk-NNیک طبقه بند –روش های ترکیب تصمیم:–

: روش رای گیری اکثریتبرچسب خروجی• Borda-count: روش رتبه ی تصمیم های خروجی• با وزن های بهینه OWA: روش خروجی پیوسته به فرم تصمیم های احتماالتی پسین•

به دست آمده از الگوریتم یادگیری گرادیان نزولی

31

معیارهای ارزیابی پایه

بار اجرا( 5)در کارایی: متوسط نرخ تشخیص •

روی داده ی آزمونقوام نسبت به نحوه ی تفکیک ویژگی ها: •

روی بار اجرا( 5)در واریانس نرخ تشخیص داده ی آزمون

نسبت مشورت•LDEs ofnumber Total

LDEs Consulted ofNumber Ratioon Consultati

32

ADFL+BRSMعملکردی خود از لحاظ نرخ تشخیص نهاییترکیب تصمیمشکست رقبای •

حتی در مواردی که نرخ تشخیص هر خبره به صورت محلی پایین است.– بعد از آموزش در هر حالت فقط با ADFL مشورت هوشمندانه•

)چنانکه نسبت مشورت نشان خبرگانی که سودمند تشخیص داده شده اند می دهد(

Bagging و Adaboostدر مورد برخی داده ها شکست از •

33

+PKSM ADFLعملکرد نرخ تشخیص نهایی و غلبه بر روش های رقیب هم در معنادارافزایش •

Bagging و Adaboostدسته ی ترکیب تصمیم و هم

واریانس کم در نرخ تشخیص نهایی •های آموزش و آزمون و نسبت به چگونگی شکست کل داده به مجموعه قوام–

های مختلف ها میان خبره ی ویژگی نیز شکست مجموعه

لزوم حداقل درکی از معنای ویژگی ها!•

34

t (pt) و(pw)، ویلکوکسون (ps)آزمون عالمت بر اساس بهترین طبقه بند پایه ADFL+PKSMمیان

و روش های رقیب

Fusion(Bests) Ensemble(Bests) Adaboost+k-NN Adaboost+SVM Bagging+k-NN

10/0/1 7/2/2 11/0/0 8/2/1 9/0/2 Win/draw/loss

ps=0.0117pw=0.0019pt=0.0009

ps= 0.0654pw= 0.0322pt= 0.0406

ps=0.0009pw=0.0009

pt=0

ps=0.0117pw=0.0097pt=0.0123

ps =0.0654pw=0.0048pt=0.0068

PKSM+ADFL(Bests)

ADFL+PKSM با بهترین LDE ها )مستقل از نوع الگوریتم :یادگیری پایه( روش های اجماع خبرگان از بهترین روش های رقیب در دسته

و درصد اطمینان 90با ترکیب تصمیم با از بهترین روش های رقیب در دسته ی

، بهتر عمل می کند. درصد اطمینان95 35

معیارهای ارزیابی تکمیلی

گونه ی مختلف از خطاهای 2قوام نسبت به •زمان طراحی خبرگان

خبره ای که در حالت باینری، صد در صد و در حالت –چندکالسه با الگوی مشخصی به طور هدفمندی

اشتباه می کند.خبره ای که نظر تکراری ارائه می نماید.–

36

تست خبره های تکراری Consultation

RatioADFL OWA

Borda-count

Majority voting

k-NN onDecision

Space

Description(Avg. CCR of

LDEs)

Dataset (LDEs’ Base learner)

1.9/476.34

(0.001)66.3

(0.03)76.6

(0.06)75.3

(0.03)72.3

(0.07)Original

(64.5)Diabetes

(NB)2.1/5

75.8(0.05)

60.1(0.07)

71.2(0.01)

69.1(0.05)

68.1(0.07)

With duplicated LDE(64.5)

3.4/586.20

(0.003)67.1

(0.02)66.6

(0.02)71.3

(0.05)80.0

(0.02)Original,

(71.2)Hepatitis

(SVM)3.3/6

85.34 (0.04)

65.5 (0.01)

63.81 (0.007)

70.45 (0.05)

78.2 (0.01)With duplicated

LDE(71.2)

Consultation Ratio

ADFL OWA Borda Count Maj. Vot.k-NN on

Decision SpaceDescription

(Avg. CCR of LDEs)Dataset

(LDEs’ Base learner)

2.9/578.40

(0.003)62.95(0.02)

54.04(0.001)

64.35(0.06)

68.60(0)

Original(61.5) Vehicle

(k-NN)3.1/6

77.91(0.001)

60.13(0.05)

50.20(0.04)

60.7(0.03)

66.72(0.005)


2.1/582.9

(0.001)75.88(0.06)

65.39 (0.002)75.00(0.04)

81.33(0.001)

Original (74.5) Waveform

(NB)2.4/6

82.50(0.009)

71.92(0.03)

65.45(0.07)

76.05(0.08)

80.59(0.009)


هداد

ها

ی ی

رباین

ه داد

ی ها

ی

سال

کچند

37

الگوی مشورت در تست تکرار

Prob

abili

ty o

f Co

nsul

tati

onPr

obab

ility

of

Cons

ulta

tion

5 ی شماره خبرهکپی شده و تحت

به 6 ی عنوان خبرهمجموعه خبره ها در داده هپاتیت افزوده شده

است. در انتهای یادگیری دیده

شود که هر دو میخبره به میزان مساوی برای مشورت کردن محتمل هستند

5 ی شماره خبرهکپی شده و تحت

به 6 ی عنوان خبرهمجموعه خبره ها در داده هپاتیت افزوده شده

است. در انتهای یادگیری دیده

شود که هر دو میخبره به میزان مساوی برای مشورت کردن محتمل هستند

38

نتایج آزمایش افزودن خبره ی تکراری

این افزونگی بر خالف روش های رایج ترکیب •روش تصمیم، تاثیر مخربی بر نتیجه ی

نداشته است. پیشنهادیخطاهای زمان قوام روش به چنین–

طراحی!نتایج روش های ترکیب تصمیم، تاثیر مستقیم این –

آزمایش را در خروجی نشان می دهند.

کپی و هم با خبرهعامل یادگیر در ما هم با یک • مشورت نمی کند.آن

39

آزمایش افزودننتیجه یتصمیم گیرهای به طور سیستماتیک

خطادارConsultation Ratio ADFL OWA

Borda Count

Majority voting

k-NN onDecision Space

Avg CCR of LDEs

Pima Indian Diabetes

1.9/476.34

(0.001)66.3

(0.03)76.6

(0.06)75.3

(0.03)72.3

(0.07)64.5 Original

1.1/5100(0)

59.5(0.01)

70.25(0.04)

68.9(0.08)

100(0)

51.6With output-inverted LDE

Consultation Ratio

ADFL OWABorda Count

Majority Voting

k-NN onDecision Space

Description(Avg. CCR of LDEs)

Dataset (LDEs’ Base learner)

3.1/497.25

(0.0003)85.5(0)

82.5(0.012)

75.00(0)

95.5(0)

Original(97.25)

Dermatology(NB)

1.2/5100(0)

65.9(0.06)

73.7(0.002)

62.03(0.03)

100(0)

With systematically wrong LDE

(81.04)

3.4/595.02

(0.0001)63.95(0.01)

59.30(0)

74.18(0.002)

90.16(0.0002)

Original(89.3)

Satimage(k-NN)

1.5/6100(0)

52.78(0.05)

48.72(0.001)

63.80(0.05)

100(0)

With systematically wrong LDE

(74.4)

ت حال

در ی

سال

کچند

ت حال

در ی

رباین

40

تست خبره ی خطاکارالگوی مشورت در

Prob

abili

ty o

f Co

nsul

tatio

n

در پایان ADFLیادگیری

بیشترین مشورت را با

ی خبرهخطادار

سیستماتیکی دهد انجام می

در پایان ADFLیادگیری

بیشترین مشورت را با

ی خبرهخطادار

سیستماتیکی دهد انجام می

41

42

و Adaboost از ADFL + BRSM شکستBagging ای های داده روی اغلب مجموعه

های آموزشی در فضای تصمیم توزیع نمونهبررسی BRSMهای محلی طراحی شده بر اساس روش فضای تصمیمی متشکل از خبره)

که بیش از بقیه با آنها مشورت شده بود.(

: یک فضای تصمیم در هم که به ندرت می شد مرز تصمیم مشاهدهمشخصی میان نمونه های کالس های مختلف متصور شد.

بتواند با قراردادن ADFLبسیار دشوار است که نتیجه: گوسی ها و تنظیم میانگین و واریانس آنها، مرز تصمیم

مشخصی در فضای تصمیم شکل بدهد و به کارایی مناسب و مورد انتظار دست یابد.

بحث در مورد طراحی خبره های محلی

بحث در مورد طراحی خبره های (2محلی)

یادگیری پیوسته با بخشبندی نرم فضای روش •، تعدادی هسته ی گوسی در نواحی مختلف ورودی

فضای یادگیری قرار می دهد. آنها را در طول زمان با واریانس و میانگینسپس –

ورود نمونه های یادگیری جدید، تنظیم )به روز( می کند.زیاد نمونه های یادگیری باعث در هم رفتگی •

هسته های گوسی می شود و کار را افزایش تعداد دشوار و بعضا غیرممکن می کند.

را فضای تصمیم اولیه پس باید تا حد امکان • تحویل بدهیم.ADFLگرانول بندی شده به

43

تصویر پایه اقتباس از DHS PR book: Ch2. page 28 44

شکل دهی فضای .....تصمیم

بحث در مورد طراحی (3خبره های محلی)

برای سنجش Seperability Indexتعریف معیاری با نام •میزان قابلیت خوشه بندی فضای تصمیم )مطلوبیت

موردانتظار در فضای تصمیم( بر اساس بیشینه نمودن این معیار، ویژگی ها PKSMروش •

را انتخاب می نماید.

1

1

max ( )100

CNi ij

Cj

iji

clustMemSI

clustMem

تعداد اعضاء در i کالس

j خوشه

تعداد اعضاء در i کالس

j خوشه

تعداد خوشه هاتعداد

خوشه ها

45

نتایج طراحی خبره های محلی به PKSMروش

خبره های محلی و کمیت افزایش متوسط دقت غالبا •بهبود کارایی نهایی در فضای تصمیم هر دو بر جداپذیری

ADFL.تاثیرگذار هستند خبره های محلی در اکثر موارد، موجب بهبود متوسط دقت•

هم می شود ولی عکس این شرایط وجود ندارد. جداپذیری بهترمیان ضریب همبستگی به صورت تجربی مشاهده شد که •

یک عدد منفی و کوچک خبره های محلی متوسط دقت و جداپذیریاست.

•SI است : پیش ارزیابی یک معیار آیا خبره های طراحی شده )حتی با متوسط قدرت کم( به صورت بالقوه –

مناسب هستند یا خیر؟ ADFLبرای

معموال طراحی خبره هایی با متوسط قدرت باال در عمل دشوار • به مراتب عملی تر است.افزایش جداپذیری است در حالیکه

46

تحقق چارچوب پیشنهادی این رساله در:

حوزه برخط

حوزه برون خط

47

تحقق چارچوب در حوزه ی برخط(METAL)برای یادگیری رباتیکی

48

در حوزه برخط

از حل مسئله کنترل توجه باز هم به دنبال •مسئله یادگیری آن به فرم یک تبدیلطریق

هستیم.ترکیب تصمیم اما داده ی آموزشی نداریم:•

پس ایجاد خبره های محلی چگونه باید باشد؟!–

قطعا در این حوزه نیازمند تعامل با محیط •برای آموزش خبره های محلی هستیم.

49

Structural Components

Learning Phases

Evaluation Measures

Bayesian Continuous

RL

TAs

Learned Behavior Quality

TAs

ACL

TAs

Expert Advisor

FOA

METAL= Mixture of Experts Task & Attention Learning

50


Learning Phases

Evaluation Measures

Bayesian Continuous

RL

TAs


TAs

ACL

TAs

Expert Advisor

FOA


51

فاز اول: یادگیری غیرفعال مبتنی بر نمایش

خبره ی انسانی به عنوان مربی و –نقاد عمل می کند.

ریزعامل ها –حالت محیط را به طور جزئی ادراک •

می کنند.کنش مربی را حس می کنند •فیدبک محیط را دریافت می کنند. •سپس ارتباط میان این اجزاء را در •

ذهن خود تقویت می کنند.

:عامل مشاهده گر کامل–حالت را به طور کامل ادراک •

می کند.کنش مربی را حس می کند. •فیدبک محیط را دریافت می کند. •سپس ارتباط میان این اجزاء را در •

ذهن خود تقویت می کند.

TA2TAl FOATA1

Environment

Expert Advisor

reward reward reward reward

Motor Action

1,2,...,liOOOs iciiTA ii ],,...,,[ 21

],...,,[21 lTATATAFOA ssss

* *( , ) ( , ) i

i i i i

TATA TA EA TA TA EA errorQ s a Q s a TD

* *( , ) ( , ) FOAFOA FOA EA FOA FOA EA errorQ s a Q s a TD

52

ریزعاملهای داخل ذهن ربات که هر

یک بخشی از فضای ادراکی را مشاهده و در آن یادگیری وظیفه را

.انجام می دهند

عاملی که کل فضای ادراکی را مشاهده

1می کند و درفاز به کار گرفته 2و

.می شود

خبره ای که در فاز نقاد 3هر

است ولی در نقش 1فاز

مربی را هم بر .عهده دارد


Learning Phases

Evaluation Measures

Bayesian Continuous

RL

TAs


TAs

ACL

TAs

Expert Advisor

FOA


53

فاز دو: یادگیری فعال اولیهنقش خبره به صرفا یک نقاد محدود •

می شود. یک مرکز ترکیب در خروجی •

تصمیم سازی این قرار می گیرد ریزعامل ها و عامل مشاهده گر کامل •

تصمیم حریصانه ی خود را اتخاذ می کنند و آن را به همراه درجه پشتیبانی به مرکز ترکیب نهایی

می فرستند. تصمیم نهایی توسط مرکز ترکیب و •

بر اساس ماکزیمم نمودن یک معیار خبرگی انجام می شود.

شود و انجام میبدین ترتیب کنش •سیگنال تقویت از محیط دریافت

شود. میوقتی یادگیری ریزعامل ها عمگرا •

می شود، عامل مشاهده گر کامل حذف می شود و ریزعامل ها تبدیل

به خبره های محلی می شوند.

FOA

Environment

Fusion Center

reward reward rewardreward

Motor Action

TA1 TA2

TAl

||,...,2,1)),,((maxarg AkasQa kTAk

TA ii

||,...,2,1)),,((maxarg AkasQa kFOAk

FOA

))|(),|(),...,|(),|((maxarg2211 FOAFOATATATATATATA

afusion sapsapsapsapa

ll

54


Learning Phases

Evaluation Measures

Bayesian Continuous

RL

TAs


TAs

ACL

TAs

Expert Advisor

FOA


55

فاز سوم: یادگیری کنترل توجه

توجه کردن به نظر یک نفر •)ریزعامل( یا مشورت کردن با وی، به معنای درخواست

از او بر پردازش فضای سنسوری خودش و ارائه اش نمودن تصمیم پیشنهادی

است. ACLبه عامل دو دسته کنش ACLعامل •

کامال متفاوت به لحاظ ذاتی دارد:

یک خبره را فعالسازی کند و با –آن مشورت نماید،

یک کنش موتوری انجام بدهد. –

TA2TAi

TAlTA1

Motor Action

reward

P(a1 |S

TA i ),…,P(a

A| |STA i )

Perceptual Attention Shift

Attention Learning

Task Learning

Obs

Environment

reward

ACL

Motor Action

reward

P(a1 |S

TA1 ),…,P(aA| |S

TA1 )

ACL Motor PerceptualA A A

},...,,{ 21 lperceptual ConsultTAConsultTAConsultTAA )]||)...(||)...(||[(

1nullDnullDnullDs

li TATATAACL Motor

ii

A

jTAjTA sactionPD1

)|(

نیاز به یک روش یادگیری پیوسته حالت و گسسته

کنش

Bayesian RL

Dec

isio

n su

ppor

t of

an

expe

rt

abou

t all

actio

ns

56


Learning Phases

Evaluation Measures

Bayesian Continuous

RL

TAs


TAs

ACL

TAs

Expert Advisor

FOA


57

معیارهای ارزیابی

از منظر یادگیری:•پیشرفت یادگیری بر اساس متوسط پاداش دریافتی که –

عامل در ضمن یادگیری به دست می آوردمتوسط پاداش تجمعی دریافتی در حین تست –متوسط تعداد گام های مشاهده را که عامل در هر –

حالت برمی دارد یک کمیت نزولی در طول زمان نشانگر آن که عامل به مرور، •

خبره های دارای دانش الزم در هر موقعیت را شناسایی نموده است.

از منظر رفتاری:•تعداد تصادف ها–نرمی مسیر رانندگی–اتخاذ سرعت مناسب–

58

تحقق چارچوب در یادگیری رانندگی

Highway Driving Skill

Not to Collide an Obstacle

Driving in road boundary

Bypassing stalled cars

Passing slow cars Approach with good speed

Following some rules

Keeping vehicle inside lanes

عدد خبره 6برای مدالیتی

بینایی

Vision

IR

59

تابع پاداش: موتوری و ادراکی

Yes

No No NoNo

Punishment!

Punishment

YesYes Yes

No

IR and %Red

1w 2w 3w 4w

پاداش موتوری

-1

Costs for 6 areas of Vision

-2

-2

-2

-2

-1.5

-1.5

پاداش

ادراکی

Vision cost for FOA

Equals with Sum of Vision costs for TAs, That is-11= - 2 4 - 1.5 2

Vision + IR cost for Fusion Center

Equals with Sum of Vision and IR costs for TAs, That is

-12= - 2 4 - 1.5 2 - 1

State

Collision?Off the Road boundary?

Violate Rules? (Between Lines

Driving?)

Approach with inappropriate speed?

% off the road bottom area of the

robot

%black, %white, %green and %blue

Difference between current and max

speed

Costs of consulting TAs

Equal costs for 8 IR sensors

60

0 200 400 600 800 1000 1200

-22

-20

-18

-16

-14

-12

-10

episode

Tota

l A

ccum

ula

ted R

ew

ard

FOA

Fusing the Decisions(Phase II)

ACL(Phase III)

متوسط پاداش دریافتی ضمن یادگیری

61

متوسط تعداد گام های برداشته شده ضمن یادگیری

Perc

ent o

f Bin

s of

Per

cept

ual S

teps

Se

lect

ed b

y AC

L

62

با تکمیل شدن روند یادگیری،

گام ها حساب شده تر

برداشته .می شوند

METALرانندگی بر اساس چارچوب

63

جمع بندی: یادآوری دیدگاه پیشنهادی

64

تعریف یک مسئله

یادگیری در فضای ادراکی

چندبعدی

بینش(Intuition)

+

یادگیریAttentive Decision

Fusion

طراح خبرهطراحی جمع

خبرگان

ایده ی توجه: انتخاب ترتیبی و بر اساس موقعیت و با کنترل هزینه

65

1

23

نتیجه گیری بر اساس ایده ی اصلی از منظر ترکیب تصمیم•

یادگیری ترتیب مناسب مشورت با تصمیم گیرهای محلی به ازاء موقعیت های –مختلف

یادگیری سیاست مشورتی به گونه ای محلی به جای یادگیری یک استراتژی –مشورت یکسان روی کل فضای تصمیم

این ویژگی به ویژه وقتی تصمیم گیری در زیرفضاها از تصمیم گیری در •فضای اولیه به گونه ی دقیق تری امکان پذیر باشد، خیلی مطلوب است.

ویژگی "محلی عمل نمودن" در فضای تصمیم، دستی طراحی نمی شود •بلکه یاد گرفته می شود.

ایجاد یک درجه ی آزادی در طراحی تصمیم گیرهای محلی: کافی است تنها در –بخشی از فضای داده به خوبی عمل نمایند.

از منظر توجه•کمینه نمودن هزینه و تعداد مشورت ها و یافتن تصمیم گیرهای مطلع تر–به صورت ترتیبی و بر اساس موقعیت–

از منظر کاربرد•یک سیستم یادگیرنده ی پشتیبان تصمیم با کاربرد در هر دو حوزه ی برخط و –

برون خطاز یک منظر پژوهشی نسبتا متفاوت•

ارائه ایده هایی در مورد ساختن تدریجی درخت تصمیم به کمک یادگیری –تقویتی 66

بازگشت

نتیجه گیری از تحقق در حوزه برون خط

ی شناخته شده ی حوزه رقبا مناسب در مواجهه با کارایی•ویژگی و تصمیم

)در تصمیم تدریجی ترکیب انتخابی/توجهی یادگیریقابلیت •مقایسه با روش های استاتیک که از همه ی ورودی ها

استفاده می کنند.(قابلیت بهره گیری از طبقه بندهای محلی که لزوما هم •

خیلی خوب طراحی نشده اند.)از خطاهای رایج زمان طراحی توانایی مدیریت برخی •

قبیل تکرار یک خبره در مجموعه ی خبرگان که موجب اعمال نظر مضاعف می شود و نیز خبره هایی که به صورت

هدفمند نظر خطادار اعالم می نمایند( و انتخاب بهترین عکس العمل در قبال آنها.

نحوه ی رسیدن به جواب بهینهتوانایی در اختیار قرار دادن •عالوه بر اینکه خود پاسخ نهایی را هم در اختیار فرد

تصمیم گیر قرار می دهد. 67

بازگشت

های به کارگیری در حوزه محدودیتبرون خط

در اگر با یک مسئله تصمیم گیری سروکار داریم که•ی گوناگون وجود داردنظرات خبره هامورد آن،

یا به سادگی می توان نظرات این خبره ها را تهیه یا •شبیه سازی نمود

خبره های PKSM یا BRSMبا تقسیم ویژگی ها بر اساس –ایجاد نمی گرددضعیف

فضای تصمیم را بتوان تا حد مناسبی افزایش داد که SIیعنی •، قابل ایجاد باشدمناسب

نحوه ی ترکیب مناسب این تصمیم ها برای • ی همهتصمیم گیری نهایی معلوم نبوده، استفاده از

باشدهزینه برآنها هم ی تصمیم سازی بوده، تحقق این کاهش هزینههدف، •

پذیرفتنی مشورت با خبره ها کاهش هزینه از طریق باشد

68

بازگشت

گام های آتی برای ادامه کار در حوزه برون خط

ساختن ارائه روش های کارآمدتر برای •طبقه بندهای محلی

یادگیری آزمودن کارآمدی این روش در مسئله ی •چندین هسته ای

هدف آن SVM مثل Kernelچون در روش های مبتنی بر –است که جداسازی در فضای با بعد باالتر ولی جداپذیر

خطی صورت بگیرد، شاید این روش جایگزین خوبی جداپذیر نمودنی که الزمه کار است، باشد. برای

ترکیب تصمیم با هدف ساختار درختیتشکیل •نشان دادن برتری این روش بر روش هایی که در تشکیل درخت، تنها نگاهی به سودمندی هر گام

Entropy-based measure of)مانند در شکاندن فضای ادراکی دارندimpurity)

69

بازگشت

نتیجه گیری از تحقق در حوزه برخط

نمsودن • در توزیsع یsادگیری متsوالیدشsواری اصsلی فازهsای بsار :کنsترل یsادگیری اصsلی بsار و sدوم، فsاز sاول در وظsیفsه یsادگیرsی

توجه در فاز سوم.توانsایی یsادگیری در یsک فضsای جsایگزین و مناسsب بsه جsای فضsای •

توانsایی اسsتفاده از اsدراکیs چندبعsدی اولیsه sبsا ویژگsی هsایی از قبsیsل sاوتsمتفs ایsه هsش خبرsی کم ، دانsایsدنمsبs الsا احتمsب sادوsبعsیش اsه بsک sی

sدراکیsنسخه معادل ا sبعادsکنترل از ا sاست.قابل بsه وظیفsه در هsر وضعیتنامرتبsطابعsاد نادیsده گsرفتن توانsایی •در تعsداد محsدودی شsیفت توجsه بsا راننsدگییادگیری انجsام وظیفه ی •

s ایsضsک فsی sتsالsحs sتهsای پیوسsکی دنیsاتیsرب sیفsاsوظ sای ازs sونهsمsن کsه واقعی است

تعریsف سلسsه مراتsبی تsابع پsاداش ارائه ی یsک راهکsار نمونsه بsرای •بsه یsادگیsری یsک وsظیفه ی متنsوع ابهsاsم در sاکثریsدsاهش حsرای کsب

لحاظ عملکردیبsرای • نمونsه راهکsار یsک یsادگیر ارائه ی عامل هsای یsک طsراحی

وظیفه ی رباتیکی بازگ70شت

هدف از”ارزیابی میزان بدنمایی“

با محاسبه حد باالی احتمال رخداد بدنمایی در فضای •، بر انتقال به فضای تصمیمتصمیم نشان دادیم که با

احتمال بروز بدنمایی را افزایش خالف تصور احتمالی، .نداده ایم

نحوه محاسبه: •مساوی قرار دادن مختصات دو نقطه در فضای تصمیم –تفکیک معادله به اجزاء سازنده اش و تقریب کمیت های –

پیوسته با کمیت های گسسته متناظرفرمولبندی مسئله ”احتمال بروز این تساوی“ در قالب یک –

مسئله آنالیز ترکیبی معادل پاسخ به یک فرم بسته بازگشتی پیدا کردن–بررسی صحت فرم بسته به کمک روش تکرار زیاد به –

صورت عددی

ر شت

بیت

یازئ

جت

ورص

ر د

مزو

ل

71

محدودیت های به کارگیری در حوزه ی برخط

اگر با یک مسئله ی یادگیری رباتی مواجه هستیم که • استچندبعدیآن فضای ادراکی

به یکباره برای کل فضای ادراکی اگر استفاده از • باشد،پرهزینهیادگیری ربات بسیار

و در قابل گسسته سازی های ربات فضای کنش اگر •مقایسه با ابعاد فضای ادراکی بسیار محدودتر باشد

به صورتی ترجیحا تابع پاداش اگر طراحی • شدنی باشدسلسله مراتبی

بدنمایی ی جداگانه به دلیل زیرفضاهااگر یادگیری در •مواجه نباشدعدم همگرایی ، با مشکل ذاتی شدید

)حاصلضرب بعد فضای بعد فضای تصمیم اگر •کنش های ربات در تعداد خبره های محلی( با توجه به

که به کار گرفته می شود، روش یادگیری پیوسته ای باشد.پذیرفتنی

72

بازگشت

گام های آتی برای ادامه کار در حوزه برخط

به جای بازنمایی فضای فشرده تر یافتن یک •کنونی فضای تصمیم

به صورت و یافتن خوشه هایی بخشبندی•در فضای ادراکی به جای خبره هایی که اتوماتیک

در این روش به صورت دستی و بر اساس قواعد یافته ای طراحی شدند.

اعمال روش در یک وظیفه ی دیگر به گونه ای که •نیز مشاهدات گذشته نیاز به در نظر گرفتن

موجود باشدقبال انتقال دانش استفاده از تکنیک های •

به فرایند سرعت بخشیدنیادگرفته شده برای یادگیری

73

بار دیگر شما متشکرم!Attentionاز

74

آقای محمد اجل لوئیان:

ویرایش مقاالت و

بحثهای مفید در مورد توجه

آقای محمد اجل لوئیان:

ویرایش مقاالت و


آقای محمدحسن

ذکائی: بحثهای مفید

در مورد مباحث

مرتبط به یادگیری

آقای محمدحسن

ذکائی: بحثهای مفید

در مورد مباحث

مرتبط به یادگیری

76

آقای محمدافشار:

طراحی واسط WEBOTS و

MATLAB

آقای محمدافشار:

طراحی واسط WEBOTS و

MATLAB

آقای هادی فیروزی:

طراحی روش Bayesian RL

آقای هادی فیروزی:

طراحی روش Bayesian RL

آقای آرش آرامی:


آقای آرش آرامی:


خانم نرگس نوری: بحثهای مفید در مورد

توجه

خانم نرگس نوری: بحثهای مفید در مورد

توجه

ارائهی چارچوبی برای یادگیری کنترل توجه در وظایف با...

Documents