سمینار درس کنترل پیشبین مبتنی بر مدل ( mpc )

73

Upload: cecile

Post on 23-Jan-2016

155 views

Category:

Documents


7 download

DESCRIPTION

سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC ). کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته MPC on Discrete Event Systems. استاد درس: دکتر فرزاد توحید خواه. ارائه دهنده: گلناز بغدادی. فهرست مطالب. مقدمه ای بر سیستم های وقایع گسسته دلیل معرفی سیستم های وقایع گسسته - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )
Page 2: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

سمینار درس (MPCکنترل پیشبین مبتنی بر مدل )

کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته MPC on Discrete Event Systems

استاد درس: دکتر فرزاد توحید خواه

ارائه دهنده: گلناز بغدادی

Page 3: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

فهرست مطالبمقدمه ای بر سیستم های وقایع گسسته•

دلیل معرفی سیستم های وقایع گسسته•مثالهایی از انواع سیستم های وقایع گسسته•

مدلسازی سیستم های وقایع گسسته•معرفی انواع روشهای مدلسازی سیستم های وقایع گسسته•مقایسه انواع روشهای مدلسازی•ارائه مثالهایی از مدل های پرکاربرد در مدلسازی سیستم های وقایع •

گسسته صنعتی و بیولوژیکی کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته•

بیان تفاوت مفاهیم کنترلی در سیستم های وقایع گسسته•شرح نحوه اعمال کنترل پیشبین برروی انواعی از مدلهای ارائه شده•

مقایسه الگوریتم یادگیری تقویت شده با کنترل پیشبین مبتنی بر •مدل

کاربرد الگوریتم یادگیری تقویت شده در سیستم های وقایع گسسته•

Page 4: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مقدمه ای بر سیستم های وقایع

گسسته

Page 5: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

( سیستم های وقایع گسستهDEVS در سال )1976( توسط دکتر برنارد زیگلر B. Zeiglerمعرفی شدند )

لغت "گسسته" به معنای "گسسته بودن زمان" و یا به معنای "گسسته بودن حالت ها" نیست.

اDداد هDت این رویDه ممکن اسDازند کDا می سDداد هDایی را رویDتم هDنین سیسDک چDدینامی زمانی که آغاز می شوند دارای سیر تکاملی گسسته و یا پیوسته باشند.

کDاعث یDانی بDر پایDرا هDت، زیDایی اسDداد هDنین رویDان چDروع و پایDرروی شDه، بDز اولیDتمرک شروع جدید می شود

time

Discrete state

x1

x2

x3

x4

x5

e1 e2 e4 e5 e6e3

Holding time

CVDS

Page 6: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مثال )یک سیستم تولید(

:اDه کنDد، رویDداد می کDار بDه شDروع ماشDین

اسDت، شDده تمDام کDارش شDود، می خDراب

تعمیرش به اتمام رسیده است.

:اDام حالت هDانج بیکDار اسDت، در حDال ماشDین

تعمDیر در دسDت اسDت، اسDت، خDراب شDده کDار

است.

ب میDا برچسDداد هDا رویDا بDالت هDال بین حDانتق

خورند.

timex1

x2

x3

x4

e1 e2 e4 e5e3

ماشین بیکار است

ماشین شروع به کار می کند

ماشین در حال انجام کار است

ماشین خراب می شود

ماشین در حال انجام کار است

تعمیر به اتمام رسید

Page 7: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

7

xiTemporal State, xx1 x2

Switching Time

),,( tuzgz iiii

xi+1 = fi(xi,ui,t)

Page 8: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مثال های دیگر :ورود اسناد“، "پردازش یک سند” و ... فرایند های تجاری”

کنترل زمانبندی ورود اسناد و مراحل انجام کار و استفاده از منابع جهت جلوگیری از ایجاد صف های از اسناد که نیاز به پردازش دارند.

:تماسهای تلفنی“، ”رسیدن یک فایل برای پرینت“، شبکه های ارتباطی” ”تقاضا از سرور برای تحویل یک صفحه معین“، ....

کنترل ترافیک موجود برروی لینک های ارتباطی، بهینه سازی ساختار شبکه و انتخاب طول مناسبی از صف

:درخواست استفاده از ابزارهای ورودی و سیستم های کامپیوتریخروجی همانند کنترلر شبکه ، دستورالعمل های ماشین و....

کنترل اولویت بندی و انتخاب مسیر اجرای عملیات و تخصیص منابع :ورود مواد اولیه، بیکار شدن ماشین، شروع به کار سیستم های تولیدی

ماشین، ...کنترل در جهت به اتمام رسیدن تولید مشخص در یک زمان مشخص، جلوگیری

از پر شدن بافر ها :رسیدن اطالعات سنسوری مختلف به مغزو سیستم های بیولوژیکی

اعصاب، تغییرات غلظت عناصر شیمیایی مختلف در خون یا بافت های دیگرکنترل در جهت اولویت بندی پردازش اطالعات سنسوری، انتخاب مسیر مناسب

جهت پاسخ، ....سیستم حمل و نقلسیستم های صف

Page 9: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مسائل مطرح در سیستمهای وقایع گسسته

وظایف متعددی وجود دارد که ممکن است الزم باشد بعضی از آنها حتما

انجام شوند.

.ممکن است الزم باشند بعضی وظایف با ترتیب خاصی انجام شوند

.ممکن است الزامی به اجرای بعضی از وظایف نباشد

.گاهی ممکن است بین اجرای دو وظیفه باالجبار انتخابی انجام شود

مجموعه ای از منابع وجود دارد که ممکن است بین عناصر موجود در سیستم

های وقایع گسسته به اشتراک گذاشته شود.

فرایند رویداد ها که توصیف کننده یک سیستم وقایع گسسته است توسط یک

برنامه کنترلی اداره و اجرا می شوند.

Page 10: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مدلسازی سیستم های وقایع گسسته

Page 11: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

روشهای مدلسازی متعددی برای توصیف سیستم های :وقایع گسسته ارائه شده است

مدلهای جبری-ماکس پالس•

شبکه های پتری•

مدلهای تصادفی مانند مدلهای مارکوف•

•...

Page 12: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مدلهای جبری ماکس-پالس

Page 13: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

13

سیستم تولید نشان داده شده در شکل زیر را در نظر بگیرید. این سیستم متشکل مثال: هر واحد فقط زمانی برروی یک محصول شروع به کار می کند واحد )ماشین( پردازشگر است. 3از

که پردازش قبلی برروی محصول به پایان رسیده باشد. همچنین فرض می شود که هر واحد به محض اینکه تمامی قطعات حاضر شود شروع به کار می کند.

t2=1

t1=1t3=3

p1=1, p2=2, p3=2

u(k)( نشان دهنده لحظه زمانی است که در آنها بسته ای از مواد خام برای سیکل :k+1 ام به سیستم داده )

می شود.

xi(k) نشان دهنده لحظه زمانی است که در آن واحد :i در سیکل k.ام شروع به کار می کند

y(k): نشان دهنده لحظه زمانی است که در آن محصول k.ام سیستم را ترک می کند

Page 14: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

14

Page 15: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

15

خصوصیات جبر ماکس-پالس

مناسب برای بررسی زمان بندی سیستم های وقایع •گسسته

مناسب برای برنامه ریزی و آنالیز زمانبندی های •پیچیده

متخصصین این حوزه در فرانسه، هلند و چین هستند•

Page 16: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

16

()1939(Carl Adam Petriشبکه های پتری )

Page 17: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

17

اجزای تشکیل دهنده یک مدل پتری کالسیک

•Places•Transitions•Direct arcs•Input places•Output places•Tokens•Consume token•Produce token•Marking

state transition of form )1, 0( )0, 1(p1 : input place p2: output place

p2 p1

t1

Page 18: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

18

مثال

Page 19: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

• Finite tree

• Infinite tree

Page 20: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

20

چراغ راهنما

Page 21: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

21

rg1

red1

yellow1

green1

yr1

gy1

rg2

red2

yellow2

green2

yr2

gy2

Page 22: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

22

Two safe traffic lights

rg1

red1

yellow1

green1

yr1

gy1

rg2

red2

yellow2

green2

yr2

gy2

safe

Page 23: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

23

Two safe and fair traffic lights

rg1

red1

yellow1

green1

yr1

gy1

rg2

red2

yellow2

green2

yr2

gy2

safe2

safe1

Page 24: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

24

Example: life-cycle of a person

bachelor

child

married

puberty

marriage

divorce

death deadCurrent StateReachable StateDead State

Page 25: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

25

اضافه کردن وزن به اتصاالت

blackred

bbrr

br

2H2 + O2 2H2O

H2

O2

H2O

t

2

2

Page 26: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

26

مسائل مطرح در رویداد ها

• Sequential Execution• Synchronization• Merging• Concurrency• Conflict• Confusion

p2

t1

p1 p3

t2

t1

Page 27: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

27

شبکه های پتری رنگی

Page 28: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

28

شبکه های پتری زمانی

FIFO

Page 29: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

29

مدل چراغ راهنما با شبکه های پتری زمانی

Page 30: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

30

شبکه های پتری سلسله مراتبی

Unfolding

Page 31: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مولفه بیان نمود:5یک شبکه پتری کالسیک را می توان با

• S is a set of places• T is a set of transitions • F is a set of arcs s.t.• M0 is an initial marking• W is the set of arc weights

به این ترتیب معادالت حالت سیستم به صورت زیر قابل بیان است:

M’ = M0 + WT * σ

Where is how many times each transition fires

WT state transition matrix

Page 32: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

• S={p1,p2,p3,p4} T={t1,t2,t3,t4}

• F={)p1,t1( )p2,t2( )p3,t3( )p4,t4( )t1,p2()t2,p3()t2 p4( )t3,p1( )t4,p2(}

2010

0110

1012

0101

CW

M0 Initial state )1,1,2,1(σ Firing sequence )t2 t3 t1 t4(Mn Final state )1,3,2,0(

Page 33: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

1

1

1

1

*

2010

0110

1012

0101

1

2

1

1

0

2

3

1

دنباله تکرار تعدادها رویداد

حالت نهایی

اولیه حالت

Page 34: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

34

خصوصیات شبکه های پتری

امکان نمایش محدود از حالت های نامحدود حالت •

ماشین ها

مناسب برای مسائل با سایز کوچک•

مراجع و شواهد متعددی در مورد این مدل و •

کاربردهای آن در مدلسازی سیستم های تولیدی و

صنعتی وجود دارد.

Page 35: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

35

Example: In a Restaurant )Scenario 1(

WaiterfreeCustomer 1 Customer 2

Takeorder

Takeorder

Ordertaken

Tellkitchen

wait wait

Serve food Serve food

eating eating

Page 36: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

36

Example: In a Restaurant )Scenario 2(

WaiterfreeCustomer 1 Customer 2

Takeorder

Takeorder

Ordertaken

Tellkitchen

wait wait

Serve food Serve food

eating eating

Page 37: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

37

مقایسه مدلهای معرفی شده

سیستم های جبر ماکس-پالس )برنامه

ریزی و زمان بندی(

شبکه های پتری )توالی و تکرار رویداد

ها(

Page 38: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

38

به کار گیری شبکه های پتری در مدلسازی شبکه های بیولوژیکی

Wnt signaling pathway

Page 39: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )
Page 40: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

کنترل پیشبین مبتنی بر مدل در سیستم های

وقایع گسسته

Page 41: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

PLANT

EVENT-DRIVENDYNAMICS

TIME-DRIVENDYNAMICS

CONTROLLER

Page 42: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

42

l m

l m

A

Bm

m

l

l

2m

l

lC

Page 43: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پالس

Page 44: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پالس

سیگنال مرجع )زمان نهایی مورد انتظار برای تولید محصول(، rکه دراین روابط

Np ، افق پیش بین y)k+j|k( تخمین خروجی در زمان k+j بر اساس اطالعات

یک عد اسکالر که درجه اهمیت سیگنال کنترل نسبت به k ، λموجود در زمان

سیگنال کنترل است )u)k+j-1خطا را نشان می دهد و

کالسیک های سیستم در هزینه تابع

Page 45: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

برای تولید محصوالت مشخص باشد و اگر برای هر مقدار Rاگر زمانی نهایی مورد نظر در تابع هزینه را JOUTتاخیر بعد از این زمان تعیین شده مجبور به پرداخت جریمه باشیم بخش

می توان به صورت زیر برای سیستم های وقایع گسسته خطی ماکس –پالس تعریف نمود:

اگDر عالوه بDر شDرایط قبلی ، بDرای مثDال بDا محصDوالت فاسDد شDدنی روبDرو باشDیم کDه نتDوانیم آنهDا را زود تDر از تDاریخ تعDیین شDده تولیDد کDنیم آنگDاه تDابع هزینDه

را می توان به صورت زیر تعریف نمود:

و یا اگر فقط بخواهیم که زمان تولید را به یک حالت تعادل برسانیم می توان از تابع هزینه زیر استفاده نمود:

Page 46: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

نیز به صورت زیر عمل می شود:JINدر مورد بخش

معیار هزینه ورودی در سیستم های کالسیک به صورت تعریف شد، اما در مورد سیستم های وقایع گسسته خطی ماکس- پالس مینیمم کردن این تابع منجر به کوچک کردن لحظات زمانی ورودی می شود. که ممکن است نتیجه آن سرریز بافر ورودی باشد. بنابراین به نظر می رسد که بهتر باشد تابع ورودی ماکسیمم شود. در مورد سیستم های تولیدی به این معنا است که مواد

خام با حداکثر تاخیر ممکن به سیستم داده شود.که در نتیجه آن سایز بافر ورودی نیز می تواند کوچک گرفته شود. همچنین سر

ریز شدن ممکن است باعث ناپایداری در سیستم شود. به این ترتیب به نظر بهتر است تابع هزینه ورودی MPLمی رسد که برای سیستمهای وقایع گسسته

به صورت زیر تعریف شود که دقیقا مخالف سیستم های کالسیک زمان گسسته خطی است.

Page 47: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

داللت بر )u)k+j مولفه MPLاما در مورد سیستم های وقایع گسسته ام دارد به این k+jزمان دادن ورودی )مواد خام( به سیستم در رویداد

بدیهی است که زمان نیز افزایش می یابد و ثابت jترتیب با افزایش ماندن این زمان از یک رویدادی به بعد، بی معنا به نظر می رسد.

بنابراین در این سیستم ها این مسئله به این صورت تغییر داده می شود که به جای زمان ورودی ، نرخ تغییرات زمان ورودی در نظر گرفته می

شود، به بیان دیگر:

Page 48: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

قیود

extended linear complementarity problem )ELCP(

Page 49: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

تعاریف کنترلی در سیستم های وقایع گسسته

یک سیستم وقایع گسسته پایدار است اگر در سطح تمامی بافر هایش پایداری: محدود باقی بماند. همچنین تاخیر بین زمان تولید محصول و زمان مورد انتظار

)مطلوب( نیز محدود باشد. روابط زیر برقرار باشد SISOبه این ترتیب می توان گفت در مورد یک سیستم

پایداری سیستم تضمین می شود:

زمان تولید خروجی در y(k) مقادیری ثابت محدود و Myr, Mry, Myuکه در این روابط زمان مطلوب و مورد انتظار برای تولید محصول است.r(k)ام و kرویداد

یک مسئله مهم در اینجا این است که پایداری یک ویژگی ذاتی سیستم نیست و به تاریخ و زمان شروع دادن ورودی و زمان پایان تولید خروج دارد.

Page 50: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

تعاریف کنترلی در سیستم های وقایع گسسته

بدست نیاید می گوییم کنترل این )u)kزمانی که هیچگونه پاسخی برای امکان پذیری: سیستم امکان پذیر نیست. این حالت در صورت تداخل قیود اتفاق می افتد. که می

توان تعدادی از قیود را با توجه به اولویتشان بازتر نمود.

)r)kانتخاب دنباله زمان پایان

Page 51: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

The derivative of firing vector represents the flow of the timed model

The flow of the forced )or controlled( timed contPN will be denoted

کنترل پیشبین مبتنی بر مدل در شبکه های پتری

Page 52: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

کنترل پیشبین مبتنی بر مدل در شبکه های پتری

1

1

1

1

*

2010

0110

1012

0101

1

2

1

1

0

2

3

1

دنباله تکرار تعدادها رویداد

حالت نهایی

اولیه حالت

Page 53: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

کنترل پیشبین مبتنی بر مدل در شبکه های پتری

Page 54: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مثال

Page 55: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مقایسه الگوریتم یادگیری تقویت شده

با کنترل پیشبین مبتنی بر مدل

Page 56: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

الگوریتم یادگیری تقویت شدهReinforcement Learning

سيستم تالش می کند تا ((Reinforcement earningدر يادگيری تقويتیتقابالت خود با يک محيط پويا را از طريق خطا و آزمايش بهينه نمايد. در

يادگيری تقويتی هيچ نوع زوج ورودی- خروجی ارائه نمی شود. به جای آن، پس از اتخاذ يك عمل، حالت بعدی و پاداش بالفصل به عامل ارائه

می شود. هدف اوليه برنامه ريزی عامل ها با استفاده از تنبيه و تشويق است بدون آنکه ذکری از چگونگی انجام وظيفه آن ها شود.

یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه الزم

باشد نحوه انجام عمل را برای عامل مشخص نمائیم.

Page 57: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

در یک مسئلهRL:استاندارد با اجزای اصلی زیر روبرو هستیم عامل

که قرار است یادگیری را از طریق تعامل با محیط انجام دهد. برای اینکار باید

اعمالی که عامل میتواند در محیط انجام دهد مشخص باشند.◦محیط

برای محیط باید مشخصه های زیر تعیین شوند:وضعیت◦پاداش◦

عامل میتواند از طریق ورودیهایش تشخیص دهد که در چه را انجام at عمل Stوضعیتی قرار دارد. عامل در وضعیت

تغییر نماید. St+1میدهد. اینکار باعث میشود وضعیت محیط به و یا reinforcementدر اثر این تغییر وضعیت عامل سیگنال

را از محیط دریافت می نماید.rt+1 پاداش این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل

( partially observableمشاهده برای عامل باشد. ) مشاهده محیط ممکن است از طریق خواندن اطالعات یک

سنسور، توضیح سمبلیک و غیره باشد.

عمل یادگیری عبارت است ازیاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال منجر به دریافت پاداش حداکثر

از محیط گردد.

الگوریتم یادگیری تقویت شدهReinforcement Learning

سیاست }|Pr{),( ssaaas ttt

Agent

Environment

State Reward Action

Policy

sss 221100 r a2

r a1

r a0 :::

Page 58: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

در RL وقتی عامل در یک حالت خاصعملی را انجام میدهد، در مقابل پاداش

(reward or reinforcement دریافت )میکند. در این سیستم عامل وظیفه دارد تا

پاداش دریافتی در دراز مدت را حداکثر نماید.

یکی از نکات طراحی یک سیستمRL reinforcementتعریف یک function.مناسب با اهداف عامل است

الگوریتم یادگیری تقویت شدهReinforcement Learning

Page 59: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

پاداش

: باشند موجود زیر بصورت ها پاداش از ای دنباله اگر

دریافت محیط از که را پاداشی تا نماید سعی باید عامل . به را پاداش ریاضی امید واقع در نماید اکثر حد میکند

. میرساند حداکثر بصورت محیط با تعامل مسایل از بسیاری اپیزودیدر

. را اتاق از خروج است قرار که روباتی مثال میشود انجامیادگیری اپیزود یک اتاق از شدن خارج محض به بگیرد یاد . حالت یک از شروع با که پاداشی کل لذا یابد می خاتمه

St ) یادگیری ) اپیزود خاتمه نهائی حالت به رسیدن STو: با است برابر آید می بدست

...,, 321 ttt rrr

}{ trE

Tttt rrrR ...21

Page 60: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

60

آینده پاداشهای گرفتن نظر در

پاداش زمان Rt اگر از شروع با عامل که باشد پاداشی tمجموعمحاسبه را پاداش این میتوان مختلف طرق به کند جمع میتواندنزدیکتر. پاداشهای به آن در که است زیر بصورت راه یک نمود

. میشود داده بیشتری ارزش

+50

-1-1

+3

r9r5r4r1

10...0

13

2

21

kkt

k

tttt rrrrR

50...11...3841

9 R

Page 61: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

61

تصمیم در آینده های رخداد کردن لحاظ نحوه عمل انتخاب در مهم نکات از یکی . برای است عامل انتخاب فعلی در آینده رخدادهای تاثیر بتواند عامل یک اینکه

شده پیشنهاد مختلفی مدلهای بگیرد نظر در را فعلی حالت برای مناسب عملاست:

finite horizonدر که را پاداشی مقادیر عمل انتخاب برای عامل که است این مدل ترین hساده

را پاداش مجموع که نماید انتخاب را عملی و نموده محاسبه میگیرد بعد مرحله. نماید حداکثر

(discounted cumulative reward )infinite horizonبجای روش این . hدر این میشود گرفته نظر در دریافتی درازمدت پاداش مرحله،

ارزش شد خواهد گرفته آینده در که پاداشهائی به و بوده مرسوم بسیار روش. میشود داده فوری پاداشهای به نسبت کمتری

10...)(0

2

2

1

kkt

k

tttt rrrrSV

h

kktt rSV

0

)(

Page 62: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

62

average rewardنظر در دور و نزدیک پاداشهای بین فرقی روش این در

. نمیشود گرفته

h

kktht rSV h 0

1)( lim

پیدا *p یادگیری تقویتی این است که یک خط مشی بهینه ای مثل هدفنماید به نحویکه مقدار امید ریاضی فوق را برای تمامی حاالت ماکزیمم

کند. سعی دارد عامل را وادار کند در اثر تجربه با محیط RLدر واقع

سیاست خود را تغییر داده و طوری رفتار نماید که در دراز مدت پاداش بیشتری کسب نماید.

Page 63: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

Start S2

S3S4

S5 Goal

S7S8

Arrows indicate strength between two problem states

Start maze …

Reinforcement learning example

Page 64: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

Start S2

S3S4

S5 Goal

S7S8

The first response leads to S2 …

The next state is chosen by randomly sampling from the possible next states weighted by their associative strength

Associative strength = line width

Page 65: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

Start S2

S3S4

S5 Goal

S7S8

Suppose the randomly sampled response leads to S3 …

Page 66: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

Start S2

S3S4

S5 Goal

S7S8

At S3, choices lead to either S2, S4, or S7.

S7 was picked )randomly(

Page 67: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

Start S2

S3S4

S5 Goal

S7S8

By chance, S3 was picked next…

Page 68: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

Start S2

S3S4

S5 Goal

S7S8

Next response is S4

Page 69: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

Start S2

S3S4

S5 Goal

S7S8

And S5 was chosen next )randomly(

Page 70: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

Start S2

S3S4

S5 Goal

S7S8

And the goal is reached …

Page 71: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مقایسه الگوریتم یادگیری تقویت شده با کنترل پیش بین مبتنی بر مدل

Reinforcement learning and model predictive control are two families of control techniques which tackle control problems by formalizing them as optimal control problems. While MPC techniques assume that a model of the optimal control problemis available, reinforcement learning techniques assume that the only information available from the model is the one gathered from interaction with the system.

Page 72: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

مدلهای مارکو

Page 73: سمینار درس  کنترل پیشبین مبتنی بر مدل ( MPC )

با تشکر از توجه شما