سمینار درس کنترل پیشبین مبتنی بر مدل ( mpc )

سمینار درس (MPCکنترل پیشبین مبتنی بر مدل )

کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته MPC on Discrete Event Systems

استاد درس: دکتر فرزاد توحید خواه

ارائه دهنده: گلناز بغدادی

فهرست مطالبمقدمه ای بر سیستم های وقایع گسسته•

دلیل معرفی سیستم های وقایع گسسته•مثالهایی از انواع سیستم های وقایع گسسته•

مدلسازی سیستم های وقایع گسسته•معرفی انواع روشهای مدلسازی سیستم های وقایع گسسته•مقایسه انواع روشهای مدلسازی•ارائه مثالهایی از مدل های پرکاربرد در مدلسازی سیستم های وقایع •

گسسته صنعتی و بیولوژیکی کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته•

بیان تفاوت مفاهیم کنترلی در سیستم های وقایع گسسته•شرح نحوه اعمال کنترل پیشبین برروی انواعی از مدلهای ارائه شده•

مقایسه الگوریتم یادگیری تقویت شده با کنترل پیشبین مبتنی بر •مدل

کاربرد الگوریتم یادگیری تقویت شده در سیستم های وقایع گسسته•

مقدمه ای بر سیستم های وقایع

گسسته

( سیستم های وقایع گسستهDEVS در سال )1976( توسط دکتر برنارد زیگلر B. Zeiglerمعرفی شدند )

لغت "گسسته" به معنای "گسسته بودن زمان" و یا به معنای "گسسته بودن حالت ها" نیست.

اDداد هDت این رویDه ممکن اسDازند کDا می سDداد هDایی را رویDتم هDنین سیسDک چDدینامی زمانی که آغاز می شوند دارای سیر تکاملی گسسته و یا پیوسته باشند.

کDاعث یDانی بDر پایDرا هDت، زیDایی اسDداد هDنین رویDان چDروع و پایDرروی شDه، بDز اولیDتمرک شروع جدید می شود

time

Discrete state

x1

x2

x3

x4

x5

e1 e2 e4 e5 e6e3

Holding time

CVDS

مثال )یک سیستم تولید(

:اDه کنDد، رویDداد می کDار بDه شDروع ماشDین

اسDت، شDده تمDام کDارش شDود، می خDراب

تعمیرش به اتمام رسیده است.

:اDام حالت هDانج بیکDار اسDت، در حDال ماشDین

تعمDیر در دسDت اسDت، اسDت، خDراب شDده کDار

است.

ب میDا برچسDداد هDا رویDا بDالت هDال بین حDانتق

خورند.

timex1

x2

x3

x4

e1 e2 e4 e5e3

ماشین بیکار است

ماشین شروع به کار می کند

ماشین در حال انجام کار است

ماشین خراب می شود

ماشین در حال انجام کار است

تعمیر به اتمام رسید

7

…

xiTemporal State, xx1 x2

Switching Time

),,( tuzgz iiii

xi+1 = fi(xi,ui,t)

مثال های دیگر :ورود اسناد“، "پردازش یک سند” و ... فرایند های تجاری”

کنترل زمانبندی ورود اسناد و مراحل انجام کار و استفاده از منابع جهت جلوگیری از ایجاد صف های از اسناد که نیاز به پردازش دارند.

:تماسهای تلفنی“، ”رسیدن یک فایل برای پرینت“، شبکه های ارتباطی” ”تقاضا از سرور برای تحویل یک صفحه معین“، ....

کنترل ترافیک موجود برروی لینک های ارتباطی، بهینه سازی ساختار شبکه و انتخاب طول مناسبی از صف

:درخواست استفاده از ابزارهای ورودی و سیستم های کامپیوتریخروجی همانند کنترلر شبکه ، دستورالعمل های ماشین و....

کنترل اولویت بندی و انتخاب مسیر اجرای عملیات و تخصیص منابع :ورود مواد اولیه، بیکار شدن ماشین، شروع به کار سیستم های تولیدی

ماشین، ...کنترل در جهت به اتمام رسیدن تولید مشخص در یک زمان مشخص، جلوگیری

از پر شدن بافر ها :رسیدن اطالعات سنسوری مختلف به مغزو سیستم های بیولوژیکی

اعصاب، تغییرات غلظت عناصر شیمیایی مختلف در خون یا بافت های دیگرکنترل در جهت اولویت بندی پردازش اطالعات سنسوری، انتخاب مسیر مناسب

جهت پاسخ، ....سیستم حمل و نقلسیستم های صف

مسائل مطرح در سیستمهای وقایع گسسته

وظایف متعددی وجود دارد که ممکن است الزم باشد بعضی از آنها حتما

انجام شوند.

.ممکن است الزم باشند بعضی وظایف با ترتیب خاصی انجام شوند

.ممکن است الزامی به اجرای بعضی از وظایف نباشد

.گاهی ممکن است بین اجرای دو وظیفه باالجبار انتخابی انجام شود

مجموعه ای از منابع وجود دارد که ممکن است بین عناصر موجود در سیستم

های وقایع گسسته به اشتراک گذاشته شود.

فرایند رویداد ها که توصیف کننده یک سیستم وقایع گسسته است توسط یک

برنامه کنترلی اداره و اجرا می شوند.

مدلسازی سیستم های وقایع گسسته

روشهای مدلسازی متعددی برای توصیف سیستم های :وقایع گسسته ارائه شده است

مدلهای جبری-ماکس پالس•

شبکه های پتری•

مدلهای تصادفی مانند مدلهای مارکوف•

•...

مدلهای جبری ماکس-پالس

13

سیستم تولید نشان داده شده در شکل زیر را در نظر بگیرید. این سیستم متشکل مثال: هر واحد فقط زمانی برروی یک محصول شروع به کار می کند واحد )ماشین( پردازشگر است. 3از

که پردازش قبلی برروی محصول به پایان رسیده باشد. همچنین فرض می شود که هر واحد به محض اینکه تمامی قطعات حاضر شود شروع به کار می کند.

t2=1

t1=1t3=3

p1=1, p2=2, p3=2

u(k)( نشان دهنده لحظه زمانی است که در آنها بسته ای از مواد خام برای سیکل :k+1 ام به سیستم داده )

می شود.

xi(k) نشان دهنده لحظه زمانی است که در آن واحد :i در سیکل k.ام شروع به کار می کند

y(k): نشان دهنده لحظه زمانی است که در آن محصول k.ام سیستم را ترک می کند

15

خصوصیات جبر ماکس-پالس

مناسب برای بررسی زمان بندی سیستم های وقایع •گسسته

مناسب برای برنامه ریزی و آنالیز زمانبندی های •پیچیده

متخصصین این حوزه در فرانسه، هلند و چین هستند•

16

()1939(Carl Adam Petriشبکه های پتری )

17

اجزای تشکیل دهنده یک مدل پتری کالسیک

•Places•Transitions•Direct arcs•Input places•Output places•Tokens•Consume token•Produce token•Marking

state transition of form )1, 0( )0, 1(p1 : input place p2: output place

p2 p1

t1

18

مثال

• Finite tree

• Infinite tree

20

چراغ راهنما

21

rg1

red1

yellow1

green1

yr1

gy1

rg2

red2

yellow2

green2

yr2

gy2

22

Two safe traffic lights

rg1

red1

yellow1

green1

yr1

gy1

rg2

red2

yellow2

green2

yr2

gy2

safe

23

Two safe and fair traffic lights

rg1

red1

yellow1

green1

yr1

gy1

rg2

red2

yellow2

green2

yr2

gy2

safe2

safe1

24

Example: life-cycle of a person

bachelor

child

married

puberty

marriage

divorce

death deadCurrent StateReachable StateDead State

25

اضافه کردن وزن به اتصاالت

blackred

bbrr

br

2H2 + O2 2H2O

H2

O2

H2O

t

2

2

26

مسائل مطرح در رویداد ها

• Sequential Execution• Synchronization• Merging• Concurrency• Conflict• Confusion

p2

t1

p1 p3

t2

t1

27

شبکه های پتری رنگی

28

شبکه های پتری زمانی

FIFO

29

مدل چراغ راهنما با شبکه های پتری زمانی

30

شبکه های پتری سلسله مراتبی

Unfolding

مولفه بیان نمود:5یک شبکه پتری کالسیک را می توان با

• S is a set of places• T is a set of transitions • F is a set of arcs s.t.• M0 is an initial marking• W is the set of arc weights

به این ترتیب معادالت حالت سیستم به صورت زیر قابل بیان است:

M’ = M0 + WT * σ

Where is how many times each transition fires

WT state transition matrix

• S={p1,p2,p3,p4} T={t1,t2,t3,t4}

• F={)p1,t1( )p2,t2( )p3,t3( )p4,t4( )t1,p2()t2,p3()t2 p4( )t3,p1( )t4,p2(}

2010

0110

1012

0101

CW

M0 Initial state )1,1,2,1(σ Firing sequence )t2 t3 t1 t4(Mn Final state )1,3,2,0(

1

1

1

1

*

2010

0110

1012

0101

1

2

1

1

0

2

3

1

دنباله تکرار تعدادها رویداد

حالت نهایی

اولیه حالت

34

خصوصیات شبکه های پتری

امکان نمایش محدود از حالت های نامحدود حالت •

ماشین ها

مناسب برای مسائل با سایز کوچک•

مراجع و شواهد متعددی در مورد این مدل و •

کاربردهای آن در مدلسازی سیستم های تولیدی و

صنعتی وجود دارد.

35

Example: In a Restaurant )Scenario 1(

WaiterfreeCustomer 1 Customer 2

Takeorder

Takeorder

Ordertaken

Tellkitchen

wait wait

Serve food Serve food

eating eating

36

Example: In a Restaurant )Scenario 2(

WaiterfreeCustomer 1 Customer 2

Takeorder

Takeorder

Ordertaken

Tellkitchen

wait wait

Serve food Serve food

eating eating

37

مقایسه مدلهای معرفی شده

سیستم های جبر ماکس-پالس )برنامه

ریزی و زمان بندی(

شبکه های پتری )توالی و تکرار رویداد

ها(

38

به کار گیری شبکه های پتری در مدلسازی شبکه های بیولوژیکی

Wnt signaling pathway

کنترل پیشبین مبتنی بر مدل در سیستم های

وقایع گسسته

PLANT

EVENT-DRIVENDYNAMICS

TIME-DRIVENDYNAMICS

CONTROLLER

42

l m

l m

A

Bm

m

l

l

2m

l

lC

کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پالس

کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پالس

سیگنال مرجع )زمان نهایی مورد انتظار برای تولید محصول(، rکه دراین روابط

Np ، افق پیش بین y)k+j|k( تخمین خروجی در زمان k+j بر اساس اطالعات

یک عد اسکالر که درجه اهمیت سیگنال کنترل نسبت به k ، λموجود در زمان

سیگنال کنترل است )u)k+j-1خطا را نشان می دهد و

کالسیک های سیستم در هزینه تابع

برای تولید محصوالت مشخص باشد و اگر برای هر مقدار Rاگر زمانی نهایی مورد نظر در تابع هزینه را JOUTتاخیر بعد از این زمان تعیین شده مجبور به پرداخت جریمه باشیم بخش

می توان به صورت زیر برای سیستم های وقایع گسسته خطی ماکس –پالس تعریف نمود:

اگDر عالوه بDر شDرایط قبلی ، بDرای مثDال بDا محصDوالت فاسDد شDدنی روبDرو باشDیم کDه نتDوانیم آنهDا را زود تDر از تDاریخ تعDیین شDده تولیDد کDنیم آنگDاه تDابع هزینDه

را می توان به صورت زیر تعریف نمود:

و یا اگر فقط بخواهیم که زمان تولید را به یک حالت تعادل برسانیم می توان از تابع هزینه زیر استفاده نمود:

نیز به صورت زیر عمل می شود:JINدر مورد بخش

معیار هزینه ورودی در سیستم های کالسیک به صورت تعریف شد، اما در مورد سیستم های وقایع گسسته خطی ماکس- پالس مینیمم کردن این تابع منجر به کوچک کردن لحظات زمانی ورودی می شود. که ممکن است نتیجه آن سرریز بافر ورودی باشد. بنابراین به نظر می رسد که بهتر باشد تابع ورودی ماکسیمم شود. در مورد سیستم های تولیدی به این معنا است که مواد

خام با حداکثر تاخیر ممکن به سیستم داده شود.که در نتیجه آن سایز بافر ورودی نیز می تواند کوچک گرفته شود. همچنین سر

ریز شدن ممکن است باعث ناپایداری در سیستم شود. به این ترتیب به نظر بهتر است تابع هزینه ورودی MPLمی رسد که برای سیستمهای وقایع گسسته

به صورت زیر تعریف شود که دقیقا مخالف سیستم های کالسیک زمان گسسته خطی است.

داللت بر )u)k+j مولفه MPLاما در مورد سیستم های وقایع گسسته ام دارد به این k+jزمان دادن ورودی )مواد خام( به سیستم در رویداد

بدیهی است که زمان نیز افزایش می یابد و ثابت jترتیب با افزایش ماندن این زمان از یک رویدادی به بعد، بی معنا به نظر می رسد.

بنابراین در این سیستم ها این مسئله به این صورت تغییر داده می شود که به جای زمان ورودی ، نرخ تغییرات زمان ورودی در نظر گرفته می

شود، به بیان دیگر:

قیود

extended linear complementarity problem )ELCP(

تعاریف کنترلی در سیستم های وقایع گسسته

یک سیستم وقایع گسسته پایدار است اگر در سطح تمامی بافر هایش پایداری: محدود باقی بماند. همچنین تاخیر بین زمان تولید محصول و زمان مورد انتظار

)مطلوب( نیز محدود باشد. روابط زیر برقرار باشد SISOبه این ترتیب می توان گفت در مورد یک سیستم

پایداری سیستم تضمین می شود:

زمان تولید خروجی در y(k) مقادیری ثابت محدود و Myr, Mry, Myuکه در این روابط زمان مطلوب و مورد انتظار برای تولید محصول است.r(k)ام و kرویداد

یک مسئله مهم در اینجا این است که پایداری یک ویژگی ذاتی سیستم نیست و به تاریخ و زمان شروع دادن ورودی و زمان پایان تولید خروج دارد.

تعاریف کنترلی در سیستم های وقایع گسسته

بدست نیاید می گوییم کنترل این )u)kزمانی که هیچگونه پاسخی برای امکان پذیری: سیستم امکان پذیر نیست. این حالت در صورت تداخل قیود اتفاق می افتد. که می

توان تعدادی از قیود را با توجه به اولویتشان بازتر نمود.

)r)kانتخاب دنباله زمان پایان

The derivative of firing vector represents the flow of the timed model

The flow of the forced )or controlled( timed contPN will be denoted

کنترل پیشبین مبتنی بر مدل در شبکه های پتری


1

1

1

1

*

2010

0110

1012

0101

1

2

1

1

0

2

3

1

دنباله تکرار تعدادها رویداد

حالت نهایی

اولیه حالت

مثال

مقایسه الگوریتم یادگیری تقویت شده

با کنترل پیشبین مبتنی بر مدل

الگوریتم یادگیری تقویت شدهReinforcement Learning

سيستم تالش می کند تا ((Reinforcement earningدر يادگيری تقويتیتقابالت خود با يک محيط پويا را از طريق خطا و آزمايش بهينه نمايد. در

يادگيری تقويتی هيچ نوع زوج ورودی- خروجی ارائه نمی شود. به جای آن، پس از اتخاذ يك عمل، حالت بعدی و پاداش بالفصل به عامل ارائه

می شود. هدف اوليه برنامه ريزی عامل ها با استفاده از تنبيه و تشويق است بدون آنکه ذکری از چگونگی انجام وظيفه آن ها شود.

یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه الزم

باشد نحوه انجام عمل را برای عامل مشخص نمائیم.

در یک مسئلهRL:استاندارد با اجزای اصلی زیر روبرو هستیم عامل

که قرار است یادگیری را از طریق تعامل با محیط انجام دهد. برای اینکار باید

اعمالی که عامل میتواند در محیط انجام دهد مشخص باشند.◦محیط

برای محیط باید مشخصه های زیر تعیین شوند:وضعیت◦پاداش◦

عامل میتواند از طریق ورودیهایش تشخیص دهد که در چه را انجام at عمل Stوضعیتی قرار دارد. عامل در وضعیت

تغییر نماید. St+1میدهد. اینکار باعث میشود وضعیت محیط به و یا reinforcementدر اثر این تغییر وضعیت عامل سیگنال

را از محیط دریافت می نماید.rt+1 پاداش این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل

( partially observableمشاهده برای عامل باشد. ) مشاهده محیط ممکن است از طریق خواندن اطالعات یک

سنسور، توضیح سمبلیک و غیره باشد.

عمل یادگیری عبارت است ازیاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال منجر به دریافت پاداش حداکثر

از محیط گردد.


سیاست }|Pr{),( ssaaas ttt

Agent

Environment

State Reward Action

Policy

sss 221100 r a2

r a1

r a0 :::

در RL وقتی عامل در یک حالت خاصعملی را انجام میدهد، در مقابل پاداش

(reward or reinforcement دریافت )میکند. در این سیستم عامل وظیفه دارد تا

پاداش دریافتی در دراز مدت را حداکثر نماید.

یکی از نکات طراحی یک سیستمRL reinforcementتعریف یک function.مناسب با اهداف عامل است


پاداش

: باشند موجود زیر بصورت ها پاداش از ای دنباله اگر

دریافت محیط از که را پاداشی تا نماید سعی باید عامل . به را پاداش ریاضی امید واقع در نماید اکثر حد میکند

. میرساند حداکثر بصورت محیط با تعامل مسایل از بسیاری اپیزودیدر

. را اتاق از خروج است قرار که روباتی مثال میشود انجامیادگیری اپیزود یک اتاق از شدن خارج محض به بگیرد یاد . حالت یک از شروع با که پاداشی کل لذا یابد می خاتمه

St ) یادگیری ) اپیزود خاتمه نهائی حالت به رسیدن STو: با است برابر آید می بدست

...,, 321 ttt rrr

}{ trE

Tttt rrrR ...21

60

آینده پاداشهای گرفتن نظر در

پاداش زمان Rt اگر از شروع با عامل که باشد پاداشی tمجموعمحاسبه را پاداش این میتوان مختلف طرق به کند جمع میتواندنزدیکتر. پاداشهای به آن در که است زیر بصورت راه یک نمود

. میشود داده بیشتری ارزش

+50

-1-1

+3

r9r5r4r1

10...0

13

2

21

kkt

k

tttt rrrrR

50...11...3841

9 R

61

تصمیم در آینده های رخداد کردن لحاظ نحوه عمل انتخاب در مهم نکات از یکی . برای است عامل انتخاب فعلی در آینده رخدادهای تاثیر بتواند عامل یک اینکه

شده پیشنهاد مختلفی مدلهای بگیرد نظر در را فعلی حالت برای مناسب عملاست:

finite horizonدر که را پاداشی مقادیر عمل انتخاب برای عامل که است این مدل ترین hساده

را پاداش مجموع که نماید انتخاب را عملی و نموده محاسبه میگیرد بعد مرحله. نماید حداکثر

(discounted cumulative reward )infinite horizonبجای روش این . hدر این میشود گرفته نظر در دریافتی درازمدت پاداش مرحله،

ارزش شد خواهد گرفته آینده در که پاداشهائی به و بوده مرسوم بسیار روش. میشود داده فوری پاداشهای به نسبت کمتری

10...)(0

2

2

1

kkt

k

tttt rrrrSV

h

kktt rSV

0

)(

62

average rewardنظر در دور و نزدیک پاداشهای بین فرقی روش این در

. نمیشود گرفته

h

kktht rSV h 0

1)( lim

پیدا *p یادگیری تقویتی این است که یک خط مشی بهینه ای مثل هدفنماید به نحویکه مقدار امید ریاضی فوق را برای تمامی حاالت ماکزیمم

کند. سعی دارد عامل را وادار کند در اثر تجربه با محیط RLدر واقع

سیاست خود را تغییر داده و طوری رفتار نماید که در دراز مدت پاداش بیشتری کسب نماید.

Start S2

S3S4

S5 Goal

S7S8

Arrows indicate strength between two problem states

Start maze …

Reinforcement learning example

Start S2

S3S4

S5 Goal

S7S8

The first response leads to S2 …

The next state is chosen by randomly sampling from the possible next states weighted by their associative strength

Associative strength = line width

Start S2

S3S4

S5 Goal

S7S8

Suppose the randomly sampled response leads to S3 …

Start S2

S3S4

S5 Goal

S7S8

At S3, choices lead to either S2, S4, or S7.

S7 was picked )randomly(

Start S2

S3S4

S5 Goal

S7S8

By chance, S3 was picked next…

Start S2

S3S4

S5 Goal

S7S8

Next response is S4

Start S2

S3S4

S5 Goal

S7S8

And S5 was chosen next )randomly(

Start S2

S3S4

S5 Goal

S7S8

And the goal is reached …

مقایسه الگوریتم یادگیری تقویت شده با کنترل پیش بین مبتنی بر مدل

Reinforcement learning and model predictive control are two families of control techniques which tackle control problems by formalizing them as optimal control problems. While MPC techniques assume that a model of the optimal control problemis available, reinforcement learning techniques assume that the only information available from the model is the one gathered from interaction with the system.

مدلهای مارکو

با تشکر از توجه شما

سمینار درس کنترل پیشبین مبتنی بر مدل ( mpc )

Documents