یتیوقت ییگدای...python pacman.py -p approximateqagent -a extractor=simpleextractor -n 10...

39
تی تقویریادگی ی رضوی سید ناصر[email protected] ۱۳۹۵

Upload: others

Post on 29-Feb-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

یادگیری تقویتی[email protected]سید ناصر رضوی

۱۳۹۵

Page 2: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

تقویتییادگیری

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

2

Page 3: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

یادآوری:تقویتییادگیری

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

3

داریممارکوفتصمیمفرآیندیکهنوز:حالت هاازمجموعهیک𝑠 ∈ 𝑆

اعمالازمجموعهیک𝑎 ∈ 𝐴

مدلیک𝑇 𝑠,𝑎,𝑠′

پاداشتابعیک𝑅 𝑠,𝑎,𝑠′

سیاستیکدنبالبههنوز𝜋(𝑠)هستیم.

توابع.تفاوت𝑇و𝑅هستندناشناخته.کنیمآزمایشراشدهنتیجهحالت هایومختلفعمل هایبایدیادگیریبرای.

رویمیانگینمحاسبه ی.اصلیایده ی𝑇نمونه هاازاستفادهبا.

Page 4: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

RLوMDP:کنونتا

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

4

هدف

∗𝑉∗ ،𝑄∗ ،𝜋محاسبه ی

𝜋ارزیابی سیاست ثابت

روش

تسیاس/ الگوریتم تکرار مقدار

ارزیابی سیاست

MDPراه حل آفالین: شناخته شده

هدف

∗𝑉∗ ،𝑄∗ ،𝜋محاسبه ی

𝜋ارزیابی سیاست ثابت

روش

روی مدل تقریبیVI/PIالگوریتم

ارزیابی سیاست روی مدل تقریبی

MDPمبتنی بر مدل: شناختهنا

هدف

∗𝑉∗ ،𝑄∗ ،𝜋محاسبه ی

𝜋ارزیابی سیاست ثابت

روش

Qیادگیری

یادگیری مقدار

MDPمستقل از مدل: شناختهنا

Page 5: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

Qمقدارتکرار

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

5

شوندهتکرارصورتبهحالت هاارزشمحاسبه ی.مقدارتکراربرداربا𝑉0 𝑠 = .(استدرستمی دانیمکه)کنشروع0

بردارداشتنباتکرار،هردر𝑉𝑘(𝑠)،بردار𝑉𝑘+1(𝑠)کنمحاسبهرا.

𝑉𝑘+1 𝑠 ← max𝑎

𝑠′

𝑇 𝑠, 𝑎, 𝑠′ 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾𝑉𝑘(𝑠′)

𝑄𝑘+1 𝑠, 𝑎 ←

𝑠′

𝑇 𝑠, 𝑎, 𝑠′ 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′

𝑄𝑘 𝑠′, 𝑎′

مقادیراما𝑄کنمحاسبهراآنهاپسهستند،مفیدتر.با𝑄0 𝑠,𝑎 = .(استدرستمی دانیمکه)کنشروع0

بردارداشتنباتکرار،هردر𝑄𝑘(𝑠,𝑎)بردار𝑄𝑘+1(𝑠,𝑎)کنمحاسبهرا.

s

s, a

a

s, a, s’s’

s’, a’

a’

Page 6: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

Qیادگیریالگوریتم

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

6

یادگیریQ.مقدارتکرارالگوریتم𝑄نمونه برداریبرمبتنی

مقادیریادگیریQ(s, a)

نمونهدریافت(s, a, s', r)

قبلیتخمینگرفتننظردر:Q(s, a)

جدیدنمونه یبهمربوطتخمینگرفتننظردر:

[میانگین گیری]:تخمینرسانیروزبه

𝑄𝑘+1 𝑠, 𝑎 =

𝑠′

𝑇 𝑠, 𝑎, 𝑠′ 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′

𝑄𝑘 𝑠′, 𝑎′

𝑠𝑎𝑚𝑝𝑙𝑒 = 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′

𝑄(𝑠′, 𝑎′)

𝑄 𝑠, 𝑎 = 1 − 𝛼 𝑄 𝑠, 𝑎 + 𝛼 𝑠𝑎𝑚𝑝𝑙𝑒% python gridworld.py -a q -k 1000

!ندناشناخته هستRو Tاما

Page 7: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

Qیادگیریالگوریتمویژگی های

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

7

یادگیریالگوریتم.همگراییQمی شودهمگرابهینهسیاستدر.نکندعملبهینهعاملاگرحتی!!!

هشدارها.کندکاوشرامحیطکافیاندازه یبهبایدعامل.شودکوچککافیاندازه یبهنهایتدربایدیادگیرینرخ....شوددادهکاهشسریعخیلینبایدآنمقداراما.ندارداهمیتعاملوسیله یبهعملانتخابچگونگیحد،درمبنایی،طوربه!

Page 8: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

بهره برداریبرابردرکاوش

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

8

Page 9: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

بهره برداریبرابردرکاوش:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

9

% python gridworld.py -a q -g BridgeGrid -k 100 -m

Page 10: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

کنیم؟کاوشچگونه

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

10

محیطکاوشبرایمختلفروش های.کنعملتصادفیمواقعبرخی:روشساده ترین𝜀 − 𝑔𝑟𝑒𝑒𝑑𝑦

کنخطیاشیرحرکت،هرانجامازقبل.

کوچکاحتمالبا𝜀،کنعملتصادفی.1بزرگاحتمالبا − 𝜀،کندنبالرافعلیسیاست.

کردنعملتصادفیمشکالت.ملعکهاینبامدتیازپسامامی کند،کاوشرامحیطتمامیسرانجامعامل

.می کندعملتصادفیهمبازاست،گرفتهیادرادرستمقدارکاهش:راه حلیک𝜀زمانطولدر

کاوشتوابع:دیگرراه حلیک

Page 11: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

کاوشتوابع

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

11

کنیم؟کاوشبایدچگونهوزمانیچهبرابرصورتبهنواحیتمامکاوش:تصادفیاعمال(وزهن)آنهابودنبدکهناحیه هاییدربیشترکاوش:بهترایده ییک

است،بدناحیهیکفهمیدیکهاینمحضبهاما.استنشدهثابت.بردارناحیهآندرجستجوازدست

𝑓 𝑢, 𝑛 = 𝑢 + Τ𝑘 𝑛

𝑄 𝑠, 𝑎 ←𝛼 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′

𝑄(𝑠′, 𝑎′) قاعده ی به روزرسانی معمولی

𝑄 𝑠, 𝑎 ←𝛼 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′

𝑓 𝑄 𝑠′, 𝑎′ , 𝑁 𝑠′, 𝑎′ قاعده ی به روزرسانی اصالح شده

کاوشتابع.حالتیکرویتدفعاتتعداد:ورودی(𝑛)حالتآنسودمندیازتخمینیکو(𝑢)

مانندحالتسودمندیازخوش بینانهتخمینیک:خروجی:

Page 12: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

خزندهروبات:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

12

Page 13: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

خالصه

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

13

:محاسبهقابلکمیت های

اگرMDPباشدشدهشناخته:دقیقمحاسبه یV*،Q*و𝜋∗

ثابتسیاستارزیابی𝜋

اگرMDPباشدناشناخته:کنیمحلسپسوزدهتخمینراآنمی توانیم.

می توانیمVثابتسیاستبرایرا𝜋بزنیمتخمین.

می توانیمQ*(s, a)مبزنیتخمینبهینهسیاستبرایرا.

:محاسبهروش های

آفالینراه حل:مقدارتکرارالگوریتم

سیاستتکرارالگوریتم

تقویتییادگیری:مدلبرمبتنیتقویتییادگیری

مقداریادگیری:مدلازمستقل

کیویادگیری:مدلازمستقل.

Page 14: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

!حسرت

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

14

Page 15: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

!حسرت

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

15

ندکاشتباهیادگیریطولدرعاملاستممکنبهینه،سیاستگرفتنیادصورتدرحتی.

استیادگیریفرایندطولدراشتباهاتهزینه یمجموعبیانگرحسرتمعیار:،انتظارموردبهینه یپاداشومرحلههردرآمدهدستبهانتظارموردپاداشمیاناختالفیعنی.

استبودنبهینهیادگیریازفراترحسرتمعیارکمینه سازی:بودنبهینهبرایبهینهیادگیری!،اشتباهاتمیزانکمترینبابهینهسیاستیادگیرییعنی!

اوشکامامی شوند،بهینهسیاستیادگیریبهمنجردوهرکاوشتابعوتصادفیکاوش.مثال.استبیشتری(حسرت)اشتباهاتمیزاندارایمجموعدرتصادفی

Page 16: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

تقریبیQیادگیری

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

16

Page 17: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

حالت هامیانتعمیم

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

17

یادگیریالگوریتمQمقادیرتمامیازجدولیکQمی کندنگهداری.نداردوجودجداگانهصورتبهحالت هاهمه یمورددریادگیریامکانواقعی،موقعیت هایدر!

نمودرویتآموزشحیندرراحالت هاهمه ینمی توانحالت ها،زیادبسیارتعداددلیلبه.

نمودذخیرهحافظهدرراجدولهمه ینمی توانحالت ها،زیادبسیارتعداددلیلبه.

دهیمتعمیممی توانیمعوضدر.حالت هاازکوچکزیرمجموعه ییکمورددرتجربهکسب

مشابهجدیدحالت هایبهتجربهاینتعمیم

استماشینیادگیریدراصلیمفاهیمازیکیتعمیمقابلیت.

Page 18: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

پکمن:مثال

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

18

ه در محیط فرض کنید با تجاربی ککه این کسب می کنیم، دریابیم

.حالت، حالت خوبی نیست

ایه ای با این وجود در الگوریتم پ، هنوز هیچ چیزی در Qیادگیری

.مورد این حالت نمی دانیم

!همین طور در مورد این حالت

Page 19: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

...یادگیریحیندر:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

19

pacman.py -p PacmanQAgent -n 10 -l tinyTest

Page 20: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

...یادگیریازپس:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

20

pacman.py -p PacmanQAgent -x 2000 -n 2010 -l

tinyTest

Page 21: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

...یادگیریحیندر:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

21

pacman.py -p PacmanQAgent -n 30 -l tinyTest2

Page 22: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

...یادگیریازپس:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

22

pacman.py -p PacmanQAgent -x 2000 -n 2010

-l tinyTest2

Page 23: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

ویژگیبرمبتنینمایش

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

23

ویژگی هاازبرداریکصورتبهحالت هاتوصیف.راه حل!استحالتآنمهمخصوصیاتبیانگرواستحقیقیاعدادبهحالت هاازتابعیکویژگیهر.

مثالیویژگی های.روحنزدیک ترینتافاصله

غذانزدیک ترینتافاصله

ارواحتعداد

(یک-صفر)است؟تونلیکدرپکمنآیا

و...

حالت هایترتیب،همینبهqدادنمایشویژگی هاازبرداریصورتبهمی تواننیزرا.ًمی کند؟نزدیک ترغذابهراپکمنعملاینآیامثال

Page 24: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

خطیمقدارتوابع

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

24

ابعتیکوزنتعدادیازاستفادهباحالتهربرایمی توانویژگی،برمبتنینمایشوسیلهبهqنوشت:

می شودخالصه(وزنپارامترهایمقادیر)عددچنددرعاملتجربه ی.مزیت.

باشدمتفاوتبسیارآنهاارزشاماباشند،داشتهمشترکویژگی هایحالت هااستممکن.ایراد.

𝑉 𝑠 = 𝑤1𝑓1 𝑠 + 𝑤2𝑓2 𝑠 +⋯+ 𝑤𝑛𝑓𝑛(𝑠)

𝑄 𝑠, 𝑎 = 𝑤1𝑓1 𝑠, 𝑎 + 𝑤2𝑓2 𝑠, 𝑎 + ⋯+𝑤𝑛𝑓𝑛(𝑠, 𝑎)

Page 25: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

Qتقریبییادگیریالگوریتم

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

25

خطیتوابعازاستفادهبایادگیری𝑞.[حالتتغییر]:جدیدتجربه ییکمشاهده ی

تفاوتمحاسبه ی:تابعاصالح𝑞وزن هااصالحبا:

𝑄 𝑠, 𝑎 = 𝑤1𝑓1 𝑠, 𝑎 + 𝑤2𝑓2 𝑠, 𝑎 + ⋯+𝑤𝑛𝑓𝑛(𝑠, 𝑎)

شهودیصورتبه:فعالویژگی هایبهمربوطوزنتنظیم.،دادهاهشکویژگیآنبهمربوطوزنبیفتد،بدیاتفاقناگهانیطوربهاگریعنی

از،دارندراویژگیاینکهمشابهحالت هایتماممی شودباعثعملاینومی شود.شوندارزش ترکمعاملنظر

𝑤𝑖 ← 𝑤𝑖 + 𝛼 ∙ 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 ∙ 𝑓𝑖 𝑠, 𝑎

𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 = 𝑟 + 𝛾max𝑎′

𝑄 𝑠′, 𝑎′ − 𝑄(𝑠, 𝑎)

𝑠, 𝑎, 𝑠′, 𝑟

𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 Qمقادیر دقیق

Qمقادیر تقریبی

Page 26: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

پکمن:مثال

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

26

𝑄 𝑠, 𝑎 = 4.0𝑓𝐷𝑂𝑇 𝑠, 𝑎 − 1.0𝑓𝐺𝑆𝑇 𝑠, 𝑎

𝑎 = NORTH𝑟 = -500

عکس فاصله تا نزدیک ترین غذا

𝑟 + 𝛾max𝑎′

𝑄 𝑠′, 𝑎′ = −500 + 0

𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 = −501𝑤𝐷𝑂𝑇 = 4.0 + 𝛼 −501 0.5

𝑤𝐺𝑆𝑇 = −1.0 + 𝛼 −501 1.0

عکس فاصله تا نزدیک ترین روح

𝑄 𝑠, 𝑎 = 3.0𝑓𝐷𝑂𝑇 𝑠, 𝑎 − 3.0𝑓𝐺𝑆𝑇 𝑠, 𝑎

Page 27: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

27

python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic

Page 28: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

خطاکمینه سازی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

28

Page 29: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

رگرسیون:خطیتقریب

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

29

ො𝑦 = 𝑤0 +𝑤1𝑓1(𝑥) ො𝑦 = 𝑤0 +𝑤1𝑓1 𝑥 + 𝑤2𝑓2(𝑥)

Page 30: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

خطاکمینه سازی:بهینه سازی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

30

𝑓1(𝑥)

𝑦

ො𝑦مشاهدهخطا

پیش بینی

𝑒𝑟𝑟𝑜𝑟 =1

2

𝑖

𝑦𝑖 − ො𝑦𝑖2 =

1

2

𝑖

𝑦𝑖 −

𝑘

𝑤𝑘𝑓𝑘 𝑥

2

Page 31: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

خطاکمینه سازی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

31

نمونهیکتنهاکنیدفرض.خطاکمینه سازی𝑥،ویژگیبرداربا𝑓(𝑥)،هدفمقدار𝑦وزنهایو𝑤باشیمداشته.

𝑒𝑟𝑟𝑜𝑟 𝑤 =1

2𝑦 −

𝑘

𝑤𝑘𝑓𝑘 𝑥

2

𝜕𝑒𝑟𝑟𝑜𝑟 𝑤

𝜕𝑤𝑚= − 𝑦 −

𝑘

𝑤𝑘𝑓𝑘 𝑥 𝑓𝑚(𝑥)

𝑤𝑚 ← 𝑤𝑚 + 𝛼 𝑦 −

𝑘

𝑤𝑘𝑓𝑘 𝑥 𝑓𝑚(𝑥)

𝑤𝑚 ← 𝑤𝑚 + 𝛼 𝑟 + 𝛾max𝑎′

𝑄 𝑠′, 𝑎′ − 𝑄 𝑠, 𝑎 𝑓𝑚(𝑥)

مشاهدهپیش بینی

یادگیریتقریبیالگوریتمدروزن هاروزرسانیبهقاعدهq.

Page 32: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

است؟مفیدظرفیتکردنمحدودچرا:بیش برازش

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

32

Page 33: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

است؟مفیدظرفیتکردنمحدودچرا:بیش برازش

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

33

2چند جمله ای از درجه

Page 34: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

است؟مفیدظرفیتکردنمحدودچرا:بیش برازش

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

34

۱۵چند جمله ای از درجه

Page 35: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

سیاستجستجوی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

35

Page 36: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

سیاستجستجوی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

36

رندهب)می کنندکارخوبیبهعملدرکهویژگیبرمبتنیسیاست هایموارداغلبدر.مشکل.می زنندتخمینخوبیبهراVیاQمقادیرکهنیستندآنهایی،(بازیدرشدن

یادگیریالگوریتمدراصلیاولویتQ:مقادیردقیقتخمینQ(مدل سازی)مقادیربرایدرستترتیبآوردندستبه:عملانتخابدراصلیاولویتQ(پیش بینی)

رایاست هاسکهمقادیرییادگیرینهمی سازند،بیشنهراپاداشکهسیاست هایییادگیری.راه حل!می کنندپیش بینی

خوبراه حلیکبا.سیاستجستجوی(ًیادگیریازآمدهدستبهراه حلمثالQ)وکنشروع.ببخشبهبودراآنویژگی ها،وزنرویبرتپه نوردیانجامباسپس

Page 37: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

سیاستجستجوی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

37

سیاستجستجویروشساده ترین.تابعیکباQکنشروعاولیه.خیریاشدهبهترقبلبهنسبتجدیدسیاستآیاببینوکنزیادوکمراوزنهامقادیر.

مشکالت.است؟شدهبهترقبلبهنسبتسیاستیکدادتشخیصمی توانچگونه

زیادبسیارآموزشیاپیزودهایاجرایبهنیاز!

نیستعملیروشاینباشد،زیادویژگی هاتعداداگر.

بهرامترپاچندتغییرهوشمندانه،نمونه برداریپیش بینی،ساختارازبهره برداری.بهترروش های...وهمزمانطور

Page 38: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

سیاستجستجوی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

38

Page 39: یتیوقت ییگدای...python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic اطخیاسهنیمک 1395 یوضر صان دیس یتیوقت

www.snrazavi.ir

نتیجه گیری

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

39

برنامه ریزیوجستجو:اولبخشپایان!

برایمصنوعیهوشازاستفاده:جستجومسائلمحدودیتارضایمسائلبازی هامارکوفتصمیم گیریمسائلتقویتییادگیری

یادگیریوقطعیتعدم:دومبخش!