سمینار درس کنترل پیشبین مبتنی بر مدل ( mpc )
DESCRIPTION
سمینار درس کنترل پیشبین مبتنی بر مدل ( MPC ). کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته MPC on Discrete Event Systems. استاد درس: دکتر فرزاد توحید خواه. ارائه دهنده: گلناز بغدادی. فهرست مطالب. مقدمه ای بر سیستم های وقایع گسسته دلیل معرفی سیستم های وقایع گسسته - PowerPoint PPT PresentationTRANSCRIPT
سمینار درس (MPCکنترل پیشبین مبتنی بر مدل )
کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته MPC on Discrete Event Systems
استاد درس: دکتر فرزاد توحید خواه
ارائه دهنده: گلناز بغدادی
فهرست مطالبمقدمه ای بر سیستم های وقایع گسسته•
دلیل معرفی سیستم های وقایع گسسته•مثالهایی از انواع سیستم های وقایع گسسته•
مدلسازی سیستم های وقایع گسسته•معرفی انواع روشهای مدلسازی سیستم های وقایع گسسته•مقایسه انواع روشهای مدلسازی•ارائه مثالهایی از مدل های پرکاربرد در مدلسازی سیستم های وقایع •
گسسته صنعتی و بیولوژیکی کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته•
بیان تفاوت مفاهیم کنترلی در سیستم های وقایع گسسته•شرح نحوه اعمال کنترل پیشبین برروی انواعی از مدلهای ارائه شده•
مقایسه الگوریتم یادگیری تقویت شده با کنترل پیشبین مبتنی بر •مدل
کاربرد الگوریتم یادگیری تقویت شده در سیستم های وقایع گسسته•
مقدمه ای بر سیستم های وقایع
گسسته
( سیستم های وقایع گسستهDEVS در سال )1976( توسط دکتر برنارد زیگلر B. Zeiglerمعرفی شدند )
لغت "گسسته" به معنای "گسسته بودن زمان" و یا به معنای "گسسته بودن حالت ها" نیست.
اDداد هDت این رویDه ممکن اسDازند کDا می سDداد هDایی را رویDتم هDنین سیسDک چDدینامی زمانی که آغاز می شوند دارای سیر تکاملی گسسته و یا پیوسته باشند.
کDاعث یDانی بDر پایDرا هDت، زیDایی اسDداد هDنین رویDان چDروع و پایDرروی شDه، بDز اولیDتمرک شروع جدید می شود
time
Discrete state
x1
x2
x3
x4
x5
e1 e2 e4 e5 e6e3
Holding time
CVDS
مثال )یک سیستم تولید(
:اDه کنDد، رویDداد می کDار بDه شDروع ماشDین
اسDت، شDده تمDام کDارش شDود، می خDراب
تعمیرش به اتمام رسیده است.
:اDام حالت هDانج بیکDار اسDت، در حDال ماشDین
تعمDیر در دسDت اسDت، اسDت، خDراب شDده کDار
است.
ب میDا برچسDداد هDا رویDا بDالت هDال بین حDانتق
خورند.
timex1
x2
x3
x4
e1 e2 e4 e5e3
ماشین بیکار است
ماشین شروع به کار می کند
ماشین در حال انجام کار است
ماشین خراب می شود
ماشین در حال انجام کار است
تعمیر به اتمام رسید
7
…
xiTemporal State, xx1 x2
Switching Time
),,( tuzgz iiii
xi+1 = fi(xi,ui,t)
مثال های دیگر :ورود اسناد“، "پردازش یک سند” و ... فرایند های تجاری”
کنترل زمانبندی ورود اسناد و مراحل انجام کار و استفاده از منابع جهت جلوگیری از ایجاد صف های از اسناد که نیاز به پردازش دارند.
:تماسهای تلفنی“، ”رسیدن یک فایل برای پرینت“، شبکه های ارتباطی” ”تقاضا از سرور برای تحویل یک صفحه معین“، ....
کنترل ترافیک موجود برروی لینک های ارتباطی، بهینه سازی ساختار شبکه و انتخاب طول مناسبی از صف
:درخواست استفاده از ابزارهای ورودی و سیستم های کامپیوتریخروجی همانند کنترلر شبکه ، دستورالعمل های ماشین و....
کنترل اولویت بندی و انتخاب مسیر اجرای عملیات و تخصیص منابع :ورود مواد اولیه، بیکار شدن ماشین، شروع به کار سیستم های تولیدی
ماشین، ...کنترل در جهت به اتمام رسیدن تولید مشخص در یک زمان مشخص، جلوگیری
از پر شدن بافر ها :رسیدن اطالعات سنسوری مختلف به مغزو سیستم های بیولوژیکی
اعصاب، تغییرات غلظت عناصر شیمیایی مختلف در خون یا بافت های دیگرکنترل در جهت اولویت بندی پردازش اطالعات سنسوری، انتخاب مسیر مناسب
جهت پاسخ، ....سیستم حمل و نقلسیستم های صف
مسائل مطرح در سیستمهای وقایع گسسته
وظایف متعددی وجود دارد که ممکن است الزم باشد بعضی از آنها حتما
انجام شوند.
.ممکن است الزم باشند بعضی وظایف با ترتیب خاصی انجام شوند
.ممکن است الزامی به اجرای بعضی از وظایف نباشد
.گاهی ممکن است بین اجرای دو وظیفه باالجبار انتخابی انجام شود
مجموعه ای از منابع وجود دارد که ممکن است بین عناصر موجود در سیستم
های وقایع گسسته به اشتراک گذاشته شود.
فرایند رویداد ها که توصیف کننده یک سیستم وقایع گسسته است توسط یک
برنامه کنترلی اداره و اجرا می شوند.
مدلسازی سیستم های وقایع گسسته
روشهای مدلسازی متعددی برای توصیف سیستم های :وقایع گسسته ارائه شده است
مدلهای جبری-ماکس پالس•
شبکه های پتری•
مدلهای تصادفی مانند مدلهای مارکوف•
•...
مدلهای جبری ماکس-پالس
13
سیستم تولید نشان داده شده در شکل زیر را در نظر بگیرید. این سیستم متشکل مثال: هر واحد فقط زمانی برروی یک محصول شروع به کار می کند واحد )ماشین( پردازشگر است. 3از
که پردازش قبلی برروی محصول به پایان رسیده باشد. همچنین فرض می شود که هر واحد به محض اینکه تمامی قطعات حاضر شود شروع به کار می کند.
t2=1
t1=1t3=3
p1=1, p2=2, p3=2
u(k)( نشان دهنده لحظه زمانی است که در آنها بسته ای از مواد خام برای سیکل :k+1 ام به سیستم داده )
می شود.
xi(k) نشان دهنده لحظه زمانی است که در آن واحد :i در سیکل k.ام شروع به کار می کند
y(k): نشان دهنده لحظه زمانی است که در آن محصول k.ام سیستم را ترک می کند
14
15
خصوصیات جبر ماکس-پالس
مناسب برای بررسی زمان بندی سیستم های وقایع •گسسته
مناسب برای برنامه ریزی و آنالیز زمانبندی های •پیچیده
متخصصین این حوزه در فرانسه، هلند و چین هستند•
16
()1939(Carl Adam Petriشبکه های پتری )
17
اجزای تشکیل دهنده یک مدل پتری کالسیک
•Places•Transitions•Direct arcs•Input places•Output places•Tokens•Consume token•Produce token•Marking
state transition of form )1, 0( )0, 1(p1 : input place p2: output place
p2 p1
t1
18
مثال
• Finite tree
• Infinite tree
20
چراغ راهنما
21
rg1
red1
yellow1
green1
yr1
gy1
rg2
red2
yellow2
green2
yr2
gy2
22
Two safe traffic lights
rg1
red1
yellow1
green1
yr1
gy1
rg2
red2
yellow2
green2
yr2
gy2
safe
23
Two safe and fair traffic lights
rg1
red1
yellow1
green1
yr1
gy1
rg2
red2
yellow2
green2
yr2
gy2
safe2
safe1
24
Example: life-cycle of a person
bachelor
child
married
puberty
marriage
divorce
death deadCurrent StateReachable StateDead State
25
اضافه کردن وزن به اتصاالت
blackred
bbrr
br
2H2 + O2 2H2O
H2
O2
H2O
t
2
2
26
مسائل مطرح در رویداد ها
• Sequential Execution• Synchronization• Merging• Concurrency• Conflict• Confusion
p2
t1
p1 p3
t2
t1
27
شبکه های پتری رنگی
28
شبکه های پتری زمانی
FIFO
29
مدل چراغ راهنما با شبکه های پتری زمانی
30
شبکه های پتری سلسله مراتبی
Unfolding
مولفه بیان نمود:5یک شبکه پتری کالسیک را می توان با
• S is a set of places• T is a set of transitions • F is a set of arcs s.t.• M0 is an initial marking• W is the set of arc weights
به این ترتیب معادالت حالت سیستم به صورت زیر قابل بیان است:
M’ = M0 + WT * σ
Where is how many times each transition fires
WT state transition matrix
• S={p1,p2,p3,p4} T={t1,t2,t3,t4}
• F={)p1,t1( )p2,t2( )p3,t3( )p4,t4( )t1,p2()t2,p3()t2 p4( )t3,p1( )t4,p2(}
2010
0110
1012
0101
CW
M0 Initial state )1,1,2,1(σ Firing sequence )t2 t3 t1 t4(Mn Final state )1,3,2,0(
1
1
1
1
*
2010
0110
1012
0101
1
2
1
1
0
2
3
1
دنباله تکرار تعدادها رویداد
حالت نهایی
اولیه حالت
34
خصوصیات شبکه های پتری
امکان نمایش محدود از حالت های نامحدود حالت •
ماشین ها
مناسب برای مسائل با سایز کوچک•
مراجع و شواهد متعددی در مورد این مدل و •
کاربردهای آن در مدلسازی سیستم های تولیدی و
صنعتی وجود دارد.
35
Example: In a Restaurant )Scenario 1(
WaiterfreeCustomer 1 Customer 2
Takeorder
Takeorder
Ordertaken
Tellkitchen
wait wait
Serve food Serve food
eating eating
36
Example: In a Restaurant )Scenario 2(
WaiterfreeCustomer 1 Customer 2
Takeorder
Takeorder
Ordertaken
Tellkitchen
wait wait
Serve food Serve food
eating eating
37
مقایسه مدلهای معرفی شده
سیستم های جبر ماکس-پالس )برنامه
ریزی و زمان بندی(
شبکه های پتری )توالی و تکرار رویداد
ها(
38
به کار گیری شبکه های پتری در مدلسازی شبکه های بیولوژیکی
Wnt signaling pathway
کنترل پیشبین مبتنی بر مدل در سیستم های
وقایع گسسته
PLANT
EVENT-DRIVENDYNAMICS
TIME-DRIVENDYNAMICS
CONTROLLER
42
l m
l m
A
Bm
m
l
l
2m
l
lC
کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پالس
کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پالس
سیگنال مرجع )زمان نهایی مورد انتظار برای تولید محصول(، rکه دراین روابط
Np ، افق پیش بین y)k+j|k( تخمین خروجی در زمان k+j بر اساس اطالعات
یک عد اسکالر که درجه اهمیت سیگنال کنترل نسبت به k ، λموجود در زمان
سیگنال کنترل است )u)k+j-1خطا را نشان می دهد و
کالسیک های سیستم در هزینه تابع
برای تولید محصوالت مشخص باشد و اگر برای هر مقدار Rاگر زمانی نهایی مورد نظر در تابع هزینه را JOUTتاخیر بعد از این زمان تعیین شده مجبور به پرداخت جریمه باشیم بخش
می توان به صورت زیر برای سیستم های وقایع گسسته خطی ماکس –پالس تعریف نمود:
اگDر عالوه بDر شDرایط قبلی ، بDرای مثDال بDا محصDوالت فاسDد شDدنی روبDرو باشDیم کDه نتDوانیم آنهDا را زود تDر از تDاریخ تعDیین شDده تولیDد کDنیم آنگDاه تDابع هزینDه
را می توان به صورت زیر تعریف نمود:
و یا اگر فقط بخواهیم که زمان تولید را به یک حالت تعادل برسانیم می توان از تابع هزینه زیر استفاده نمود:
نیز به صورت زیر عمل می شود:JINدر مورد بخش
معیار هزینه ورودی در سیستم های کالسیک به صورت تعریف شد، اما در مورد سیستم های وقایع گسسته خطی ماکس- پالس مینیمم کردن این تابع منجر به کوچک کردن لحظات زمانی ورودی می شود. که ممکن است نتیجه آن سرریز بافر ورودی باشد. بنابراین به نظر می رسد که بهتر باشد تابع ورودی ماکسیمم شود. در مورد سیستم های تولیدی به این معنا است که مواد
خام با حداکثر تاخیر ممکن به سیستم داده شود.که در نتیجه آن سایز بافر ورودی نیز می تواند کوچک گرفته شود. همچنین سر
ریز شدن ممکن است باعث ناپایداری در سیستم شود. به این ترتیب به نظر بهتر است تابع هزینه ورودی MPLمی رسد که برای سیستمهای وقایع گسسته
به صورت زیر تعریف شود که دقیقا مخالف سیستم های کالسیک زمان گسسته خطی است.
داللت بر )u)k+j مولفه MPLاما در مورد سیستم های وقایع گسسته ام دارد به این k+jزمان دادن ورودی )مواد خام( به سیستم در رویداد
بدیهی است که زمان نیز افزایش می یابد و ثابت jترتیب با افزایش ماندن این زمان از یک رویدادی به بعد، بی معنا به نظر می رسد.
بنابراین در این سیستم ها این مسئله به این صورت تغییر داده می شود که به جای زمان ورودی ، نرخ تغییرات زمان ورودی در نظر گرفته می
شود، به بیان دیگر:
قیود
extended linear complementarity problem )ELCP(
تعاریف کنترلی در سیستم های وقایع گسسته
یک سیستم وقایع گسسته پایدار است اگر در سطح تمامی بافر هایش پایداری: محدود باقی بماند. همچنین تاخیر بین زمان تولید محصول و زمان مورد انتظار
)مطلوب( نیز محدود باشد. روابط زیر برقرار باشد SISOبه این ترتیب می توان گفت در مورد یک سیستم
پایداری سیستم تضمین می شود:
زمان تولید خروجی در y(k) مقادیری ثابت محدود و Myr, Mry, Myuکه در این روابط زمان مطلوب و مورد انتظار برای تولید محصول است.r(k)ام و kرویداد
یک مسئله مهم در اینجا این است که پایداری یک ویژگی ذاتی سیستم نیست و به تاریخ و زمان شروع دادن ورودی و زمان پایان تولید خروج دارد.
تعاریف کنترلی در سیستم های وقایع گسسته
بدست نیاید می گوییم کنترل این )u)kزمانی که هیچگونه پاسخی برای امکان پذیری: سیستم امکان پذیر نیست. این حالت در صورت تداخل قیود اتفاق می افتد. که می
توان تعدادی از قیود را با توجه به اولویتشان بازتر نمود.
)r)kانتخاب دنباله زمان پایان
The derivative of firing vector represents the flow of the timed model
The flow of the forced )or controlled( timed contPN will be denoted
کنترل پیشبین مبتنی بر مدل در شبکه های پتری
کنترل پیشبین مبتنی بر مدل در شبکه های پتری
1
1
1
1
*
2010
0110
1012
0101
1
2
1
1
0
2
3
1
دنباله تکرار تعدادها رویداد
حالت نهایی
اولیه حالت
کنترل پیشبین مبتنی بر مدل در شبکه های پتری
مثال
مقایسه الگوریتم یادگیری تقویت شده
با کنترل پیشبین مبتنی بر مدل
الگوریتم یادگیری تقویت شدهReinforcement Learning
سيستم تالش می کند تا ((Reinforcement earningدر يادگيری تقويتیتقابالت خود با يک محيط پويا را از طريق خطا و آزمايش بهينه نمايد. در
يادگيری تقويتی هيچ نوع زوج ورودی- خروجی ارائه نمی شود. به جای آن، پس از اتخاذ يك عمل، حالت بعدی و پاداش بالفصل به عامل ارائه
می شود. هدف اوليه برنامه ريزی عامل ها با استفاده از تنبيه و تشويق است بدون آنکه ذکری از چگونگی انجام وظيفه آن ها شود.
یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه الزم
باشد نحوه انجام عمل را برای عامل مشخص نمائیم.
در یک مسئلهRL:استاندارد با اجزای اصلی زیر روبرو هستیم عامل
که قرار است یادگیری را از طریق تعامل با محیط انجام دهد. برای اینکار باید
اعمالی که عامل میتواند در محیط انجام دهد مشخص باشند.◦محیط
برای محیط باید مشخصه های زیر تعیین شوند:وضعیت◦پاداش◦
عامل میتواند از طریق ورودیهایش تشخیص دهد که در چه را انجام at عمل Stوضعیتی قرار دارد. عامل در وضعیت
تغییر نماید. St+1میدهد. اینکار باعث میشود وضعیت محیط به و یا reinforcementدر اثر این تغییر وضعیت عامل سیگنال
را از محیط دریافت می نماید.rt+1 پاداش این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل
( partially observableمشاهده برای عامل باشد. ) مشاهده محیط ممکن است از طریق خواندن اطالعات یک
سنسور، توضیح سمبلیک و غیره باشد.
عمل یادگیری عبارت است ازیاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال منجر به دریافت پاداش حداکثر
از محیط گردد.
الگوریتم یادگیری تقویت شدهReinforcement Learning
سیاست }|Pr{),( ssaaas ttt
Agent
Environment
State Reward Action
Policy
sss 221100 r a2
r a1
r a0 :::
در RL وقتی عامل در یک حالت خاصعملی را انجام میدهد، در مقابل پاداش
(reward or reinforcement دریافت )میکند. در این سیستم عامل وظیفه دارد تا
پاداش دریافتی در دراز مدت را حداکثر نماید.
یکی از نکات طراحی یک سیستمRL reinforcementتعریف یک function.مناسب با اهداف عامل است
الگوریتم یادگیری تقویت شدهReinforcement Learning
پاداش
: باشند موجود زیر بصورت ها پاداش از ای دنباله اگر
دریافت محیط از که را پاداشی تا نماید سعی باید عامل . به را پاداش ریاضی امید واقع در نماید اکثر حد میکند
. میرساند حداکثر بصورت محیط با تعامل مسایل از بسیاری اپیزودیدر
. را اتاق از خروج است قرار که روباتی مثال میشود انجامیادگیری اپیزود یک اتاق از شدن خارج محض به بگیرد یاد . حالت یک از شروع با که پاداشی کل لذا یابد می خاتمه
St ) یادگیری ) اپیزود خاتمه نهائی حالت به رسیدن STو: با است برابر آید می بدست
...,, 321 ttt rrr
}{ trE
Tttt rrrR ...21
60
آینده پاداشهای گرفتن نظر در
پاداش زمان Rt اگر از شروع با عامل که باشد پاداشی tمجموعمحاسبه را پاداش این میتوان مختلف طرق به کند جمع میتواندنزدیکتر. پاداشهای به آن در که است زیر بصورت راه یک نمود
. میشود داده بیشتری ارزش
+50
-1-1
+3
r9r5r4r1
10...0
13
2
21
kkt
k
tttt rrrrR
50...11...3841
9 R
61
تصمیم در آینده های رخداد کردن لحاظ نحوه عمل انتخاب در مهم نکات از یکی . برای است عامل انتخاب فعلی در آینده رخدادهای تاثیر بتواند عامل یک اینکه
شده پیشنهاد مختلفی مدلهای بگیرد نظر در را فعلی حالت برای مناسب عملاست:
finite horizonدر که را پاداشی مقادیر عمل انتخاب برای عامل که است این مدل ترین hساده
را پاداش مجموع که نماید انتخاب را عملی و نموده محاسبه میگیرد بعد مرحله. نماید حداکثر
(discounted cumulative reward )infinite horizonبجای روش این . hدر این میشود گرفته نظر در دریافتی درازمدت پاداش مرحله،
ارزش شد خواهد گرفته آینده در که پاداشهائی به و بوده مرسوم بسیار روش. میشود داده فوری پاداشهای به نسبت کمتری
10...)(0
2
2
1
kkt
k
tttt rrrrSV
h
kktt rSV
0
)(
62
average rewardنظر در دور و نزدیک پاداشهای بین فرقی روش این در
. نمیشود گرفته
h
kktht rSV h 0
1)( lim
پیدا *p یادگیری تقویتی این است که یک خط مشی بهینه ای مثل هدفنماید به نحویکه مقدار امید ریاضی فوق را برای تمامی حاالت ماکزیمم
کند. سعی دارد عامل را وادار کند در اثر تجربه با محیط RLدر واقع
سیاست خود را تغییر داده و طوری رفتار نماید که در دراز مدت پاداش بیشتری کسب نماید.
Start S2
S3S4
S5 Goal
S7S8
Arrows indicate strength between two problem states
Start maze …
Reinforcement learning example
Start S2
S3S4
S5 Goal
S7S8
The first response leads to S2 …
The next state is chosen by randomly sampling from the possible next states weighted by their associative strength
Associative strength = line width
Start S2
S3S4
S5 Goal
S7S8
Suppose the randomly sampled response leads to S3 …
Start S2
S3S4
S5 Goal
S7S8
At S3, choices lead to either S2, S4, or S7.
S7 was picked )randomly(
Start S2
S3S4
S5 Goal
S7S8
By chance, S3 was picked next…
Start S2
S3S4
S5 Goal
S7S8
Next response is S4
Start S2
S3S4
S5 Goal
S7S8
And S5 was chosen next )randomly(
Start S2
S3S4
S5 Goal
S7S8
And the goal is reached …
مقایسه الگوریتم یادگیری تقویت شده با کنترل پیش بین مبتنی بر مدل
Reinforcement learning and model predictive control are two families of control techniques which tackle control problems by formalizing them as optimal control problems. While MPC techniques assume that a model of the optimal control problemis available, reinforcement learning techniques assume that the only information available from the model is the one gathered from interaction with the system.
مدلهای مارکو
با تشکر از توجه شما