ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · web viewگزارش...

64
کدهء ش ن دا ر ت و ي پ م کا گاه ش ن دا ر ي ب ك ر مي ا ارش ز گ ق ي ق ح ت درش ری گي اد ی ن, ی ش ما ای ق1 د: ا ا ت س ا ر كي د ری ي ش ت8 ب ع ل و:8 ح ش ن دا ی ر ت ز ع ماره ش: ي ي و8 ح ش ن دا83131198 1

Upload: trandieu

Post on 15-Jun-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

دانشگاه کامپيوتر دانشکدهءاميركبير

ماشین یادگیری درس تحقیق گزارش

شیری دكتر استاد: آقاي

عزيزي دانشجو: لعبت83131198دانشجويي: شماره

تصمیم های درخت یادگیریموضوع: 1385 خرداد

1

Page 2: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

- چکیده باشد می ماش**ین یادگیری های تکنیک ترین رایج از یکی تصمیم درخت یادگیری

در که مش**کالتی رغم علی است ش**ده ب**اعث کارام**دی و س**ادگی دلیل به که ... وج**ود یا مق**دار فاقد ص**فات یا و ن**ویز دارای صفات همچون آن از استفاده

ش**ود. استفاده ماشین یادگیری به مربوط مسائل در ای گسترده شکل به دارد درخت زمینهء در مط**رح اص**لی مس**ائل به است ش**ده س**عی تحقیق این در

برخ**ورد کارهای راه و مشکالت و سازی عام طراحی، بازنمایی، مانند طراحی غیراص*لی مس*ائل ب*رخی از همچ*نین و شود پرداخته اند یافته توسعه که آنها با

ن**یزχ2 آم**اری تست و آزمایش**گاهی افزاره**ای ن**رم رگراسیون، درختان مانندآید. میان به ذکری

2

Page 3: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

فهرست

2- چکیده5 مقدمه

6كننده دسته بندي تصميم گيري درخت هاي اصلي اهداف- 1-16تصمیم درختان جذابیت- 1-26تصمیم درختان انواع- 1-3

7رگراسیون درختان- 1-3-18تصمیم درخت بازنمایی -2

9تصمیم های گراف با تصمیم درختان توسعهء- 2-110تصمیم درخت یادگیری برای مناسب مسائل-311است؟ کننده بندی طبقه بهترین صفتی چه-4

11کند. می گیری اندازه را ها مثال همگونی نظمی بی -4-1-113کند. می گیری اندازه را نظمی بی در انتظار مورد کاهش اطالعات، - نفع4-1-2

14تشریحی مثال - یک4-215تصمیم درخت ساخت از خاصی حالت- 4-3

16تصمیم درخت یادگیری در فرضیه فضای جستجوی -5ID316 الگوریتم های محدودیت و ها قابلیت- 5-1

17تصمیم درخت یادگیری )استنتاجی( در قیاسی - بایاس618ارجحیت های بایاس و محدودیت های - بایاس6-119دهیم؟ می ترجیح را کوتاهتر فرضیات چرا -6-2

20تصمیم درخت یادگیری در مسائل -720ها داده - اورفیتینگ7-126اورفیتینگ از ممانعت برای موجود روشهای- 7-2

27کردن هرس های روش انواع- 7-2-1chi-Square29 تست- 7-2-1-1

30یافته کاهش خطای هرس- 7-2-231قانون بعدی هرس-7-2-3

34پیوسته مقادیر با صفات - بکاربردن7-335 صفات انتخاب برای دیگر معیارهای- 7-436مقدار فاقد صفات با آموزشی های مثال بکاربردن -7-537متفاوت های هزینه با صفات بکاربردن-7-6

38درخت سازی عام- 838تصمیم درخت کنندهء بندی دسته یک طراحی- 8-139تصميم درخت کنندهء بندی دسته طراحی برای اصلی روش هاي- 8-2

40گيري تصميم درخت در يادگيري انواع- 940تصمیم درخت معایب و مزایا- 10

40کاوی داده دیگر های روش به نسبت تصمیم درختان مزایای- 10-141تصمیم درختان معايب- 10-2

42تصمیم درخت برای مفید افزارهای نرم- 1143پایه تصمیم درخت یادگیری الگوریتم -1245بندی جمع-1346 نامه - لغت1448مراجع- 15

3

Page 4: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

تصمیم درخت یادگیری

- مقدمه1 حقایق که باشد می کننده بینی پیش مدل یک ماشین، یادگیری در تصمیم درخت ساختار

نقش پدیده آن هدف مقدار مورد در هایی استنتاج به را پدیده یک مورد در شده مشاهده درخت یادگیری ها، داده از تصمیم درخت یک استنتاج برای ماشین یادگیری کند. تکنیک می

است. کاوی داده های روش ترین رایج از یکی که شود می نامیده تصمیم برای ممکن مقدار یک نمایانگر فرزند، یک به کمان هر و متغیر یک متناظر داخلی گرهء هر تا درخت ریشهء از مسیری با که متغیرها مقادیر داشتن با برگ، گرهء است. یک متغیر آن دهد..یک می نشان را هدف متغیر شدهء بینی پیش مقدار شود، می بازنمایی برگ گرهء آن

ها شاخه و بندی دسته دهندهء نشان ها برگ که دهد می نشان را ساختاری تصمیم درخت یک کنند. یادگیری می بازنمایی را ها بندی دسته این به منتج که صفاتی فصلی ترکیبات تست یک براساس هایی زیرمجموعه به منبع مجموعهء یک کردن تفکیک با تواند می درخت تفکیک از حاصل زیرمجموعهء هر در بازگشتی شکل به فرآیند شود. این انجام صفت مقدار یا نباشد سودمند بیشتر تفکیک که شود می کامل زمانی بازگشت شود. عمل می تکرار اعمال آمده بدست زیرمجموعهء در موجود های نمونه همهء به را بندی دسته یک بتوانکرد.

یک در موجود روابط از انسان، برای درک قابل توصیفات تولید به قادر تصمیم درختان روند. این بکار بینی پیش و بندی دسته وظایف برای توانند می و هستند ای داده مجموعهء

بندی دسته بیماری تشخیص همچون مختلف های زمینه در ای گسترده شکل به تکنیکاست. رفته بکار مشتری بازاریابی های استراتژی و گیاهان

توص**یف، به که محاس**باتی و ریاضی های تکنیک شکل به تواند می گیری تصمیم ساختار این در ها داده شوند. معرفی نیز کنند می کمک ها داده از مجموعه یک سازی عام و بندی دسته

x متغیرهای از استفاده باشوند. می داده(x, y( = )x1, x2, x3…, xk, y) شکل به رکوردهایی1,x2,..,xkوابستهء متغیر سازی عام یا بندی دسته درک، در سعی Y .داریم

تاصف که ب**وده حقیقی ص**فات و ای دس**ته صفات نوع دو به تصمیم درخت در صفات انواع س**مبلیک( تاصف )یا دن**پذیر می گسس**ته مق**دار چند یا دو که هس**تند تیاصف ،ای دس**ته

.گیرند می حقیقی اعداد مجموعهء از را خود مقادیر حقیقی تاصف که درحالی

كننده دسته بندي تصميم گيري درخت هاي اصلي اهداف- 1-1

4

Page 5: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

كنند. دسته بندي درست ممكن حد تا را ورودي داده هاي.1 كه کنند سازی عام گونه اي به را آموزشي داده هاي از شده یادگیری دانش.2

كنند. دسته بندي ممكن دقت باالترين با را نشده ديده داده هاي درخت راحتي به بتوان جديد، آموزشي داده هاي شدن اضافه صورت در.3

باشند(. افزايشي خاصيت داد)داراي گسترش را تصميم گيري باشد. ممكن شكل ساده ترين به حاصل درخت ساختار.4

تصمیم درختان جذابیت- 1-2 سراسری پیچیدهء تصمیم نواحی.1 با توانند زیاد( می ابعاد با فضاهای در )خصوصا

شوند. زده تقریب درخت مختلف سطوح در تر ساده محلی تصمیم نواحی اجتماع تمام روی ای داده نمونهء هر که رایج ای مرحله تک های کننده بندی دسته برخالف.2

روی فقط نمونه یک درخت، کنندهء بندی دسته یک در شود، می امتحان ها دسته می حذف غیرالزم محاسبات و شده امتحان ها دسته از خاصی های زیرمجموعه

شود. برای صفات، از ای زیرمجموعه از فقط ای، مرحله تک های کننده بندی دسته در.3

که شود می استفاده ها دسته بین تفکیک سراسری بهینهء معیار یک با معموال زیرمجموعه انتخاب پذیری انعطاف درخت، کنندهء بندی دسته شوند. در می انتخاب

که شکلی به دارد؛ وجود درخت مختلف داخلی های گره در صفات از مختلفی های کند. می تفکیک را گره این های دسته بین بهینه شکل به شده انتخاب زیرمجموعهء

کننده بندی دسته به نسبت را کارایی در بهبودی است ممکن پذیری انعطاف اینکند. ایجاد ای مرحله تک های

زیاد، های دسته و صفات تعداد با چندگونگی تحلیل در.4 توزیع تخمین به نیاز معموال یک از اولیه احتماالت همانند دسته های توزیع از خاصی پارامترهای یا ابعاد-زیاد های

وجود ابعاد-باال مشکل حالت این باشد. در می کوچک آموزشی های داده مجموعهء صفات از کمتری تعداد بکاربردن با کننده، بندی دسته درخت در دارد امکان که دارد

شود. حل مسئله این کارایی، شدید افت بدون داخلی گرهء هر در

تصمیم درختان انواع- 1-3

مقادیر مجموعه یک از گسسته مجموعهء یک درخت، یک خروجی که هنگامی گوییم می ،1بندی دسته درخت آن به است؛ ممکن یا برنده مذکر، یا مونث )مثال

گسسته مقادیرC آن در که کنند می بازنمایی راX→C تابع ها درخت بازنده(. اینپذیرد. می

درخت را، آن گرفت درنظر حقیقی عدد یک را درخت خروجی بتوان که هنگامی نامیم می 2برگشت یک در بیمار یک اقامت مدت طول یا خانه قیمت )مثال

توانند می و کنند می بینی پیش برگ های گره در را اعداد درختان بیمارستان(. اینکنند. استفاده دیگر های مدل میانگین( یا )یعنی ثابت یا خطی رگراسیون مدل از

درخت CART (Classification And Regression Tree)روال دو هر به که است نامی است. بندی دسته و برگشت درختان کلمات سرنامCART شود. نام می اطالق باال

کنند. می بندی گروه برگ های گره در را ها نمونه فقط ای خوشه درختان

است. متمرکز بندی دسته درختان روی ماشین یادگیری در تحقیقات بیشتر1 Classification2 Regression

5

Page 6: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

رگراسیون درختان- 1-3-1

دسته مقادیر بجای حقیقی اعداد بینی پیش شامل رگراسیون، درختان در یادگیری وظیفهء می نشان خود برگ های گره در حقیقی مقادیر داشتن با را عمل این است. که گسسته ای

بدست برگ گرهء این در را آموزشی های نمونه هدف مقادیر میانگین که صورت دهند. بدین تقریب را ای تکه ثابت توابع توانند می و داشته آسان تفسیر درختان، از نوع آورند. این می

بزنند. داشتن با را رگراسیون عمل که هستند مدل درختان رگراسیون، درختان تر پیچیده نسخهء

خطی رگراسیون توابع گره، هر )در دهند می نشان پایانی یا داخلی های گره در خطی مدل نمونه به خطی، رگراسیون عمل شد، ساخته کامل رگراسیون درخت اینکه دارند(. بعداز

)صفاتی صفات از زیرمجموعه یک از فقط و شود می اعمال اند رسیده گره این به که هایی از استفاده شوند. بدلیل می استفاده کار این شد( برای خواهند دیده زیردرخت در که

شد. نخواهد زیاد خطی رگراسیون عمل سربار گره، هر در صفات از ای زیرمجموعه

بندی: دسته درخت و رگراسیون درخت تفاوت

گوناگونی کردن حداقل براساس رگراسیون درختان در زدن شاخه و تقسیم معیار است. داخلی زیرمجموعهء

باشد. می عددی خطای معیار براساس رگراسیون درختان در هرس معیاراین به شده افراز آموزشی های مثال برای دسته مقادیر میانگین برگ، های گره

کنند. می بینی پیش را گرهتصمیم درخت بازنمایی -2

های گره سمت به ریشه گرهء از درخت در آنها کردن مرتب با را ها نمونه تصمیم، درختان و کند می آزمایش را نمونه از صفتی درخت، در داخلی گرهء کنند. هر می بندی دسته برگ

می صفت آن برای ممکن مقدار یک متناظر شود می خارج گره آن از که ای شاخه هر از شروع با نمونه، شود. هر می منتسب بندی دسته یک برگ، گرهء هر به باشد. همچنین

شاخهء در حرکت و گره این توسط شده مشخص صفت آزمایش و درخت ریشهء گره هر برای فرآیند شود. این می بندی دسته نمونه، در شده داده صفت مقدار با متناظر

شود. می تکرار باشد می آن ریشهء جدید گرهء که زیردرختی صفات مقادیر روی قیود عطفی ترکیبات از فصلی ترکیب یک تصمیم درختان کلی، حالت در

ترکیب یک با متناظر برگ یک، به درخت ریشهء از مسیر کنند. هر می بازنمایی را ها نمونه فصلی ترکیب با متناظر نیز درخت خود و بوده مسیر آن در موجود تست صفات عطفی

باشد. می عطفی ترکیبات این همهءمثال:باشد. می پایین عبارت با متناظر زیر تصمیم درخت مثال برای

6

Page 7: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

(Outlook=Sunny ∧ Humidity=Normal) ∨ (Outlook=Overcast) ∨ (Outlook=Rain ∧ Wind=Weak)

باال: گیری تصمیم درخت نمایش برای دیگر روشی

مثالA∧~B تابع برای تصمیم درخت بازنمایی

تصمیم های گراف با تصمیم درختان توسعهء- 2-1

تصمیم گرهء و برگ دارای که بوده تصمیم های درخت از تعمیمی تصمیم، های گراف که است آن کند می متمایز تصمیم درختان از را تصمیم های گراف که ویژگی هستند. یک

فرزند یک گره دو که است حالتی باشند. پیوند پیوند دارای توانند می تصمیم های گراف مشترک های ویژگی که است زیرمجموعه دو بیانگر وضعیت، این و باشند داشته مشترک

Out

look

=

Rain

Win

d =

St

rong

Out

look

=

Ove

rcas

t

Out

look

=

Rai

n

Win

d =

Wea

k

Out

look

=

Sunn

y

Hum

idity

=

Hig

h

Out

look

=

Sunn

y

Hum

idity

=

Nor

mal

Yes

No

7

Page 8: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

از مسیرها تمام تصمیم درخت شوند. در می گرفته درنظر مجموعه یک رو این از دارند، تصمیم گراف یک رود. در می پیشAND یا عطفی ترکیب با برگ گرهء به ریشه گرهء

استفاده یکدیگر با مسیر چند یا دو پیوند برای هاOR یا فصلی ترکیبات از که است ممکنکرد.

در رفته بکار روش همان شوند می بندی دسته تصمیم های گراف در اشیاء که روشی می تعریف را بندی دسته یک تصمیم گراف و تصمیم درخت باشد. هر می تصمیم درختان

توسط نمایش قابل توابع مجزا(. مجموعهء های دسته به شیء فضای از افراز )یک کنند گراف دسته مجموعهء است. هرچند درخت توسط نمایش قابل مجموعهء همانند دقیقااست. متفاوت شوند می وارد تصمیم تابع یک تعریف در که هایی

تصمیم درخت و است. گراف متفاوت(C ∧ D) ∨( A ∧ B) تابع برای بندی مثال: دسته هفت به را شیء فضای تصمیم است. درخت شده داده نشان زیر شکل در تابع این متناظر

کنند. می افراز دسته دو به را فضا این تصمیم گراف که حالی در کند می تقسیم دسته

تصمیم درخت یادگیری برای مناسب مسائل-3

گوناگونی نیازمندیهای و ها قابلیت با تصمیم درخت یادگیری های روش از مختلفی انواع ویژگی با مسائلی برای کل در تصمیم درخت یادگیری کلی، حالت در اما اند یافته توسعه

است: مناسب زیر های

می بازنمایی صفت-مقدار های جفت شکل به ها نمونه آنها در که مسائلی می بیان آنها مقادیر و صفات از ثابتی محموعهء با ها نمونه مسائل، گونه این - درشوند

تعداد صفت هر که است زمانی تصمیم، درخت یادگیری برای وضعیت ترین شوند. ساده از استفاده امکان پایه، الگوریتم به توسعه با بگیرد. هرچند گسسته ممکن مقادیر از کوچکیاست. پذیر امکان نیز پیوسته مقادیر با صفات

خنک{ معتدل، مقدار:}گرم، مثال: صفت: دما

های روش توان - میدارند گسسته خروجی مقادیر هدف تابع آنها در که مسائلی را مقدار دو از بیش خروجی با توابعی بتوانند که داد گسترش ای گونه به تصمیم درخت

های خروجی با یادگیری هدف توابع به دستیابی امکان توسعه، از دیگری کنند. نوع یادگیریسازد. می پذیر امکان را پیوسته مقدار

خیر{ فرضی: }بلی، هدف تابع یک مثال: خروجی

8

Page 9: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

عبارات ذاتی شکل به تصمیم - درختانباشد نیاز فصلی توصیفات به است ممکنکنند. می بازنمایی را فصلی

درخت یادگیری های - روشباشند خطا حاوی آموزشی های داده است ممکن بندی دسته در هستند. )خطا مقاوم آموزشی های داده در خطا وجود به نسبت تصمیمکنند.( می تشریح را آموزشی مثالهای که صفاتی مقادیر در خطا و آموزشی مثالهای

های روشباشند- مقدار فاقد صفات حاوی آموزشی های داده است ممکن نیز دارند ناشناخته مقادیر آموزشی مثالهای برخی که زمانی توانند می تصمیم درخت

شوند. استفاده

آنها به تصمیم درخت یادگیری و بوده ها ویژگی این دارای که مسائلی از هایی نمونه آنها، بیماریهای بوسیلهء پزشکی بیماران بندی دسته یادگیری مانند اند، شده بکارگرفته

توسط وام اعطای بندی دسته و آنها، دالیل بوسیلهء تجهیزات اشتباه کردن عمل بندی دستهآنها. پرداخت عدم احتمال

است؟ کننده بندی طبقه بهترین صفتی چه-4

درخت در گره هر در آزمایش برای صفت یک انتخاب ،ID3 الگوریتم در اساسی انتخابکند. کمک ها مثال بندی دسته به باید صفت است. این

نام به آماری ویژگی - یک صفت یک ارزش بیان برای خوب عددی یا کمی معیار یک معرفی مثال کنندگی تقسیم کیفیت گیری اندازه آن، وظیفهء که کنیم می تعریف را 3اطالعات نفع بین از صفت یک انتخاب برای معیار این ازID3باشد. می صفت یک توسط آموزشی های

کند. می استفاده دارند وجود آن ساخت زمان در درخت سطح هر در کاندیدی صفات

کند. می گیری اندازه را ها مثال همگونی نظمی بی -4-1-1

که کنیم می آغاز 4نظمی بی نام با معیاری تعریف با اطالعات نفع دقیق تعریف برایکند. می مشخص را مثالها از مجموعه یک )نا(خالصی

باشد. می هدف تابع یک از منفی و مثبت های مثال حاویS مجموعهاست: زیر قرار به بولی بندی دسته این به مربوط نظمی بی

Entropy(S) ≡ - P⊕ log2 P⊕ - P⊝ log2 P⊝

محاسبات تمام است. در آن در منفی مثالهای درصد⊝P وS در مثبت مثالهای نسبت⊕P کهکنیم. می تعریف صفر را0log0 نظمی بی شامل

5 و مثبت مثال9 حاوی که بولی مفهوم یک مثال14 از ای مجموعهS کنید مثال: فرض[9+ ،5است. ]- منفی مثال

باشد: می قرار این از بولی بندی دسته این به مربوطS نظمی بی

Entropy ([9+, 5-]) = -(9/14) log2 (9/14) - (5/14) log2 (5/14) = 0.940

3 Information Gain4 Entropy

9

Page 10: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

تمام اگر مثال است. برای صفر نظمی بی باشند متعلق دسته یک بهS اعضاء تمام اگر- و صفر⊝P ( پسP⊕=1)یعنی باشند مثبت اعضاء

Entropy(S) = -1 . log2(1) – 0 . log2(0) = -1 . 0 – 0 . log2(0) = 0

می یک نظمی بی باشد منفی و مثبت مثالهای از مساوی تعدادی حاویS مجموعهء - اگرباشد. و صفر بین نظمی بی باشد منفی و مثبت مثالهای از نامساوی تعداد حاوی مجموعه - اگر

بود. خواهد یک

دسته یک به مربوط نظمی بی تابع کند، می تغییر یک و صفر بین⊕P که حالی در زیر شکلدهد. می نشان را بولی بندی

های بیت تعداد حداقل عامل این که است آن اطالعات تئوری دید از نظمی بی از تفسیری کند. )یعنی می بیان است الزمS دلخواه عضو یک بندی دسته کدکردن برای که را اطالعات

یک⊕P اگر مثال است(. برای شده انتخاب یکتا احتمال با تصادفی شکل به کهS عضو یک که نیست نیازی بنابراین و بود خواهد مثبت شده، انتخاب مثال که داند می گیرنده باشد،

برای باشدP⊕=0.5 اگر دیگر طرف است. از صفر نظمی بی و شود فرستاده پیامی هیچ P⊕=0.8 است. اگر نیاز بیت یک به شده انتخاب مثال بودن منفی یا مثبت کردن مشخص

پیام هر برای بیت یک از کمتر با متوسط طور به را ها پیام از ای مجموعه توان می باشد کدهای و مثبت های مثال های مجموعه به کوتاهتر کدهای که شکلی به کرد رمزگزاری

صفت اگر تر، کلی های حالت درکرد. منتسب را کمتر احتمال با منفی های مثال به بلندتر به تاییc بندی دسته این به مربوطS نظمی بی پس بگیرد مختلف مقدارc بتواند هدفشود: می تعریف زیر شکل

می دو پایهء در هستند. لگاریتمi دستهء به متعلق که باشد میS اعضای از نسبتیpi که است. بیت به شده گیری اندازه موردانتظار کدگزاری طول اندازهء نظمی، بی چون باشد

log2 c بزرگی به تواند می نظمی بی بگیرد را ممکن مقدارc بتواند هدف صفت اگر همچنینباشد.

اندازه را نظمی بی در انتظار مورد کاهش اطالعات، - نفع4-1-2کند. می گیری

10

Page 11: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

موثر معیار توان می آموزشی، مثال مجموعه یک در ناخالصی عنوان به نظمی بی داشتن با مورد کاهش معیار، نمود. این تعریف را آموزشی های داده بندی دسته در صفت یک بودن

شود. می حاصل صفت این برپایهء ها مثال کردن تفکیک با که است نظمی بی در انتظار شکل بهS مثالهای مجموعهء به مربوطA صفت یکGain(S,A) اطالعاتی نفع

شود. می تعریف

Values(A)صفت برای ممکن مقادیر تمام = مجموعهء A Svاز ای = زیرمجموعه Sصفت آن در که است Aمقدار vدارد. )یعنی را Sv={s∊S|

A(s)=v} ) انتظار مورد مقدار دوم، جملهء وS اصلی مجموعهء نظمی بی باال، عبارت در اول جملهء

باشد. میA صفت از استفاده باS تفکیک از بعد نظمی بی

Wind شامل صفات توسط شده تشریح آموزشی– مثال روزهای از ای مجموعهSمثال: شش در که است-[5+,9] مثال14 حاویSباشد. می داردStrong وWeak مقادیر که

اطالعات است. نفعWind=Strong بقیه در وWind=Weak آن منفی مثال دو و مثبت مثال می محاسبه زیر شکل بهWind صفت بوسیلهء ابتدایی مثال14 کردن مرتب به مربوط

شود:Values(Wind) = Weak, StrongS = [9+, 5-]Sweak ← [6+, 2-]Sstrong ← [3+, 3-]

= Entropy(S) – (8/14) . Entropy(Sweak) – (6/14) . Entropy(Sstrong) = 0.940 - (8/14) 0.811 - (6/14) 1.00

= 0.048

ساخت در گام هر در صفت بهترین انتخاب برایID3 توسط که است معیاری اطالعات نفع در صفات ارتباط ارزیابی برای اطالعات نفع عامل از شود. استفاده می استفاده درخت رطوبت، و باد مختلف صفت دو اطالعات نفع شکل این است. در شده خالصه زیر شکلاست. شده محاسبه آموزشی های مثال بندی دسته جهت بهینه صفت تعیین برای

11

Page 12: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

تشریحی مثال - یک4-2

صفت برای ها مثال این یادگیری وظیفهء انجام در سعی زیر آموزشی مثالهای داشتن با دوPlayTennis داریم. صفت جدول در موجود دیگر صفات براساسPlayTennis هدفگیرد. میno یاyes مقدار

ش**ود؟ آزم**ایش گ**ام این در باید را ص**فتی - چه تص**میم درخت گ**رهء ت**رین باالیی - ایجاد1 با ص**فتی س*پس کند، می تعیین کاندید صفت هر برای را اطالعات نفع عامل ،ID3 الگوریتم این در ص*فات ب*رای ش*ده محاس*به اطالع*ات کند. نفع می انتخاب را اطالعات نفع باالتریناست: شده آورده زیر در مرحله

Gain(S, Outlook) = 0.246Gain(S, Humidity) = 0.151Gain(S, Wind) = 0.048Gain(S, Temperature) = 0.029

باشد. می زیر جدول در آموزشی مثالهای مجموعهءS که

PlayTennisWindHumidityTemperatureOutlookNoWeakHighHotSunnyNoStrongHighHotSunnyYesWeakHighHotOvercastYesWeakHighMildRainYesWeakNormalCoolRainNoStrongNormalCoolRainYesStrongNormalCoolOvercastNoWeakHighMildSunnyYesWeakNormalCoolSunnyYesWeakNormalMildRainYesStrongNormalMildSunnyYesStrongHighMildOvercastYesWeakNormalHotOvercastNoStrongHighMildRain

هدف صفت از بینی پیش بهترینOutlook صفت شده، محاسبه اطالعات نفع به باتوجهPlayTennisگرهء برای تصمیم صفت عنوان به که دهد می انجام آموزشی های مثال روی را

می ایجاد آن مقدار هر برای ریشه زیر های شاخه یا انشعابات و شود می انتخاب ریشه با همراه مرحله این تا شده ساخته تصمیم ( درختRain وOvercast وSunny شود. )یعنی

شود. می داده نشان زیر در جدید، فرزند گرهء هر برای شده افراز آموزشی مثالهای باشد میPlayTennis از مثبت مثال یک است،Outlook = overcast آن در که مثالی هر

آن شود. برعکس میPlayTennis=Yes بندی دسته با برگ گرهء یک درخت گرهء بنابراین و دارند غیرصفر نظمی بی هنوزOutlook = Rain وOutlook = Sunny با متناظر فرزندان

یابد. می توسعه ها گره این زیر در تصمیم درخت غیرپایانه فرزند گرهء هر برای آموزشی های مثال افراز و جدید صفت یک انتخاب عمل این به شده افراز آموزشی های مثال از استفاده با فقط مرحله، این شود. در می تکرار هر در یکبار حداکثر صفت هر بنابراین شود، می انجام زیردرخت ساخت عملیات، گره

شود. می ظاهر درخت در مسیری

12

Page 13: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

می تکرار شوند برقرار زیر شرط دو از یکی که زمانی تا جدید برگ گره هر برای فرآیند اینشود:

اند. شده استفاده درخت مسیر این در تاکنون ها صفت ( تمام1) دارند. را هدف صفت مقدار یک همه برگ، گرهء این به شده افراز آموزشی ( مثالهای2)

است( صفر نظمی )بی

تصمیم درخت ساخت از خاصی حالت- 4-3

برای صفت یک انتخاب از بعد روش این دودویی: در شکل به ای دسته صفات تقسیم روش با فرزند دو که دهیم می انجام دودویی تقسیم یک فقط گره، هر در گیری تصمیم عمل

مقدار آن برابر تصمیم "صفت باشد" و می خاص مقدار یک برابر تصمیم "صفت عناوینکند. می باشد" تولید نمی

تصمیم درخت یادگیری در فرضیه فضای جستجوی -5

مثال با که ای فرضیه یافتن برای فرضیه فضای یک جستجوی عنوان به راID3 توان می این توسط شده جستجو های فرضیه کرد. فضای توصیف شود جفت آموزشی های

ساده جستجوی یک الگوریتم این که و است ممکن تصمیم درختان از ای مجموعه الگوریتم، کرده، آغاز خالی درخت یک با داده، انجام فرضیه فضای این در راHill-Climbing دشوار، به

شکل به که تصمیمی درخت جستجوی در را بیشتری فرضیات تصاعدی، شکل به سپس این که ارزیابی گیرد. تابع می نظر در کند می بندی دسته را آموزشی های داده صحیح

است. اطالعات نفع معیار کند، می هدایت راHill-Climbing جستجوی

:ID3 الگوریتم های محدودیت و ها قابلیت- 5-1

صفات به مربوط متناهی، گسستهء مقدار توابع از کامل فضای یک ،ID3 فرضیهء -فضای داده نشان تصمیم درخت از نوعی با تواند می گسسته، مقدار تابع هر است. چون موجود می جستجو را ناقص فرضیهء فضاهای که روشهایی خطرات از مانع الگوریتم این شود؛ آنها، در گیرند(: که می نظر در را فصلی فرضیات فقط که هایی روش )مانند شود می کنند

نباشد هدف تابع حاوی است ممکن فرضیه فضای

تمام مجموعهء که نسخه فضای حذف-کاندید، روش همچون ها روش برخی - برخالف برای گیری تصمیم عمل طی در کرد، می نگهداری را جاری های مثال با سازگار فرضیات

هایی توانایی الگوریتم این کند. البته، می حفظ را جاری فرضیهء یک فقط درخت، ساخت می دست از را شود می ناشی سازگار فرضیات تمام صریح بازنمایی از که دهد. )مثال

صفت برابر یک مقدار مورد نظر

است.

صفت برابر یک مقدار مورد نظر

نیست.

ریسه

13

Page 14: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

ساخت یا هستند سازگار آموزشی های داده با دیگر تصمیم درخت چند اینکه تعیین توانایی فرضیات این بین از فرضیه یک انتخاب باعث بهینه شکل به که جدید نمونهء های پرسش

شوند.( می رقیب

در آزمایش برای را صفتی دهد. هرگاه نمی انجام را عقبی به بازگشت هیچ الگوریتم - این مستعد کند. بنابراین نمی بررسی را آن دوباره هیچگاه کرد انتخاب درخت از خاصی سطح

راه به باشد: همگرایی می عقب به بازگشت بدونhill-climbing جستجوی معمول خطرات از نوعی روش، این از ای باشند. )توسعه نمی سراسری بهینهء که محلی بهینهء های حل

قبلی(( هرس تصمیم باشد)درخت می دارا را عقب به بازگشت

گیرند، می آموزشی های مثال پایهء بر را خود تدریجی تصمیمات که هایی روش -برخالف تمام خود، فعلی فرضیهء بهبود چگونگی به راجع آماری تصمیمات اتخاذ برای ،ID3 الگوریتم

جستجوی که است این عمل این برد. مزیت می بکار جستجو از گام هر در را ها مثال این توان بود. )می خواهد حساس آموزشی های مثال در موجود خطاهای به کمتر نهایی،

که فرضیاتی پذیرفتن برای آن، پایانی شرط تغییر با را الگوریتم آموزشی های داده با کامالداد.( توسعه شوند نمی جفت

تصمیم درخت یادگیری ( در5)استنتاجی قیاسی - بایاس6

کند می بندی دسته آموزشی مثالهای از را نشده عرضه های نمونه آن باID3 که سیاستیچیست؟( آن استقرایی )بایاس چیست؟ شکل به آموزشی، های داده با همراه که است فرضیاتی مجموعهءاستنتاجی: بایاس

را دیگر های نمونه به یادگیرنده توسط شده منتسب بندی قیاسی( دسته )یا استنتاجیکنند( می )توجیه کنند می تصدیق

آموزشی، مثالهای از ای مجموعه داشتن با ها مثال این با که زیادی تصمیم درختان معموال بایاسی توصیف شاملID3 استقرایی بایاس تشریح دارد. بنابراین وجود باشند سازگار

شود. می انتخاب بقیه بین از سازگار فرضیات این از یکی آن با که استID3جستجوی در الگوریتم این کند؟ می انتخاب تصمیمی درخت چه hill-climbingبه ساده

شود می روبرو آن با که را قبولی قابل درخت اولین ممکن، درختان فضای در دشوارکند. می انتخاب

:ID3 جستجوی استراتژیدهد. می ترجیح بلندتر به را کوتاهتر ( درختان1) برمی دهند می جای ریشه به نزدیکتر را اطالعاتی نفع باالترین با صفاتی که ( درختانی2)

گزیند.

کرد: بیان گونه بدین راID3 تصمیم درخت بایاس توان می تقریبی شکل بههستند. ارجح بلندتر درختان به کوتاهتر درختان

دهد. می نشان تر دقیق را استقرایی بایاس این که بگیرید درنظرID3 مشابه الگوریتمی جستجو تر پیچیده درختان در راBreadth-First و کرده آغاز خالی درختی با الگوریتم این

می درنظر ... را و دو عمق با درختان تمام سپس و یک عمق با درختان تمام ابتدا ، کرده این در سازگار درخت کوتاهترین یافت، آموزشی های داده با سازگار درختی گیرد. وقتی

الگوریتم (. اینID3 گرداند)مشابه برمی را جستجو عمق درختان ارجحیت بایاس دقیقا5 Inductive

14

Page 15: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

به تواند می و بوده کاراتر الگوریتم این به نسبتID3دهد. می نشان را بلندتر به کوتاهتر سعی حریصانه شهودی جستجوی یک از استفاده با که شود دیده آن از خوبی تخمین عنوان

دارد فرضیه فضای درBreadth-First جستجوی تمام انجام بدون درخت کوتاهترین یافتن در بایاسی کند، می استفادهhill-climbing استراتژی و اطالعات نفع شهود ازID3 چون و

کند. می عرضه را الگوریتم این از تر پیچیده

:ID3 استقرایی بایاس به تر دقیق تقریبی هستند ارجح هستند. درختانی ارجح بلندتر درختان به کوتاهتر درختان

دهند. می جای ریشه به نزدیک را باالتر اطالعاتی نفع با صفتی که

ارجحیت های بایاس و محدودیت های - بایاس6-1

کاندید: حذف وID3 های الگوریتم در فرضیه فضای جستجوی بین های تفاوت-ID3از را فضا این ناقص، شکلی به که کند می جستجو را کامل فرضیهء فضای

آن برای شده تعیین نهایی شرط که زمانی تا تر پیچیده به تر ساده فرضیات بیابد(. بایاس را ها داده با سازگار ای فرضیه که زمانی )تا گردد می شود، برقرار

آن جستجوی استراتژی توسط فرضیات ترتیبات از ای نتیجه تنها آن استنتاجیندارد. اضافی بایاس هیچ آن فرضیهء است. فضای

که ای )فرضیه کند می جستجو را ناقصی فرضیهء فضای ورژن فضای الگوریتم- را فضا کند(. این توصیف را محتمل آموزش قابل مفاهیم از ای زیرمجموعه فقط آموزشی های داده با که را فضا این در ای فرضیه هر و کرده جستجو کامل

توصیف توان از ای نتیجه فقط آن استنتاجی یابد. بایاس می باشد، سازگار نمی تولید اضافی بایاس هیچ آن جستجوی است. استراتژی آن فرضیهء بازنمایی

کند.

کاندید: حذف وID3 های الگوریتم بایاس های تفاوت

که حالی در شود؛ می ناشی آن جستجوی استراتژی ازID3 استنتاجی بایاس-شود. می ناشی آن جستجوی فضای تعریف از کاندید حذف استقرایی بایاس

ارجحیت یک بقیه به نسبت معینی فرضیات برایID3 استنتاجی بایاس بنابراین- شود(. می نامیده جستجو بایاس یا ارجحیت تر(. )بایاس کوتاه )فرضیات است

مجموعهء روی حتمی محدودیت یک شکل به کاندید حذف بایاس آن برخالف می نامیده زبان بایاس یا محدودیت است. )بایاس شده گرفته نظر در فرضیات

شود.( باشد؛ می تر مطلوب محدودیت بایاس یک به نسبت ارجحیت بایاس یک معموال-

مطمئن و کند کار کامل فرضیهء فضای یک با یادگیرنده که دهد می امکان زیرا ناشناخته هدف تابع که باشد بایاس یک آن، دارد. مخالف وجود فضا این در حتما

که محدودیت مطلوب کمتر کند می محدود را احتمالی فرضیات مجموعهء شدیدادارد. وجود ناشناخته هدف تابع گرفتن نادیده احتمال زیرا باشد می

بایاس یک کاندید حذف الگوریتم که درحالی- ID3 الگوریتم و محدودیت کامال بایاس هر یادگیری های سیستم برخی دهند؛ می نمایش بازنمایی را ارجحیت کامال

کنند. می ترکیب را بایاس نوع دو

دهیم؟ می ترجیح را کوتاهتر فرضیات چرا -6-2

15

Page 16: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

اساس باشد می کوتاهتر تصمیم درختان متوجهID3 استقرایی بایاس که این سوال: آیااست؟ آموزشی های داده با سازی عام برای درستی

می تطبیق ها داده با که ای فرضیه ترین اوکام: ساده خودتراش قانونکن. انتخاب را کند به نسبت کمتری کوتاه فرضیات چون که است این تر ساده فرضیات انتخاب برای دلیل یک

محتمل آسان( کمتر یا درست ترکیبی های استدالل )براساس دارد وجود بلندتر فرضیات تصادفی شکل به شود مطابق آموزشی های داده با که را کوتاهی فرضیهء کسی که است

فعلی آموزشی ای داده با که دارد وجود تر پیچیده فرضیات بسیاری اغلب آن بیابد. برخالفخورند. می شکست بعدی های داده صحیح سازی عام برای اما شوند می منطبق

به زیادی ای گره500 تصمیم بگیرید. درختان درنظر را تصمیمی درخت مثال: فرضیات رود می انتظار آموزشی مثال بیست داشتن دارند. با وجود ای گره5 تصمیم درختان نسبت

باشند. سازگار ها داده این با که باشیم بسیاری ای گره500 تصمیم درختان یافتن به قادر تصادف است ممکن کمتر گره5 با درختی که باشیم داشته اعتقاد است ممکن همچنین

کنیم. انتخاب را ای گره500 فرضیهء استدالل این با و باشد آماری است ممکن که بگوییم توانیم می استدالل همان دارد: با بزرگ مشکل یک استدالل این

و ریشه در راA1 تصمیم صفت برگ، غیر گرهء یازده و برگ گرهء17 با درختی کسی درختانی چنین تعداد عمل در ببرد. چون بکار درخت در عددی ترتیب به راA11 تاA2 صفت

باشد. می کوچک باشد سازگار عددی های داده با که درختی چنین یافتن شانس است کم که دارند وجود فرضیات از کوچک بسیار های مجموعه از زیادی تعداد که اینجاست مشکل فرضیات کوچک مجموعهء که باشیم داشته اعتقاد باید کند. چرا تعریف تواند می شخص کوچک های مجموعه دیگر از بسیاری از باید کوتاه، توصیفات با تصمیم درختان حاوی

باشد؟ تر مرتبط کنیم تعریف است ممکن که فرضیات توسط درونی شکل به که خاصی بازنمایی با فرضیه یک اندازهء که است آن دیگر مشکل

مختلفی داخلی های بازنمایی از که یادگیرنده شود. دو می تعیین رود می بکار یادگیرنده می مختلفی فرضیات به کنند استفاده اوکام خودتراش قانون از اگر حتی کنند، می استفادهرسند.

از مجموعه یک و اوکام خودتراش قانون از که یادگیرنده دو که دهد می نشان استدالل این را متفاوتی داخلی های بازنمایی که صورتی در کنند می استفاده آموزشی های مثال

کرد. خواهند تولید را مختلف فرضیهء دو بکاربرند

تصمیم درخت یادگیری در مسائل -7

تصمیم درختان یادگیری در عملی مسائلشود داده رشد باید درخت عمقی چه تا- پیوسته صفات بکاربردن-مناسب صفت انتخاب معیار یک انتخات-مقدار فاقد صفات با آموزشی های داده بکاربردن-مختلف های هزینه با صفات از استفاده- محاسباتی کارایی بهبود-

16

Page 17: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

آموزشی های مثال در خطا-شده اورفیت تصمیم درخت یک-ناکافی آموزشی های مثال-ها داده اورفیتینگ از ممانعت-

ها داده - اورفیتینگ7-1

های مثال بتواند درخت که دهد می رشد عمقی تا را درخت شاخهء هرID3 الگوریتم را آموزشی داده در که زمانی باشد، می مناسب استراتژی این کند. هرچند بندی دسته کامال

هدف تابع از ای نمونه تولید برای آموزشی های مثال تعداد یا و باشد داشته وجود نویز ها حاالت، این از یک هر شود. در مشکالتی باعث برای تواند می است کم بسیار صحیح

کنند. می اورفیت را آموزشی های مثال که کند تولید را درختانی تواند میID3 الگوریتم ممکن هنگام این در و است داده رخ اورفیتینگ شود سازگار ها داده در نویز با درخت وقتیکند. عمل بدتر تست مجموعهء های داده روی است

یادگیری متدهای بسیاری و تصمیم درختان یادگیری برای مهم عملی مسئلهء یک اورفیتینگ های داده با یادگیری وظیفهء پنج روی آزمایشگاهی مطالعات با مثال باشد. برای می دیگر

10 را شده یادگیری تصمیم درخت دقت اورفیتینگ که شد داده نشان غیرقطعی، نویز حاویدهد. می کاهش درصد25 تا

داشته وجود دیگری فرضیهء اگر شود می آموزشی های مثال اورفیت باعث فرضیه یک های )نمونه ها نمونه کلی توزیع روی اما بوده سازگار آموزشی های مثال با کمتر که باشدکند. عمل آموزشی( بهتر های مثال غیر

درخت توسط آنها شدهء بینی پیش مقدار که هایی نمونه - تعداد آموزشی مجموعهء خطایاست. بهتر باشد کوچکتر مقدار این است. هرچه متفاوت آنها واقعی مقدار با شده یادگیری

را قسمت این تست مجموعهء خطای و آموزشی مجموعهء خطای بین تفاوت درک برایببینید.

--------------------------- تاa از صفات )یا ها ورودی تعداد که سازیم می شکل بدین را آموزشی دادهء مجموعهء یک

eصفت یا پوشانند. خروجی می را ممکن ترکیب حالت32 تمام که بوده بیت ( پنج y، همان راy مقادیر از درصد25 آموزشی، های مثال در خطا گنجاندن برای که باشد می پنجم بیت

کردیم. انتخاب هاe مخالف

a b c d e yصفت مقادیر )همان خروجی eاز بغیر موارد( درصد25

0 0 0 0 0 00 0 0 0 1 00 0 0 1 0 00 0 0 1 1 10 0 1 0 0 1: : : : : :1 1 1 1 1 1

17

Page 18: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

را تست مجموعهء یک شخصی کنید فرض باشد. حال می رکورد32 ها نمونه کل تعداد در تصادفی، موارد برخی در جز تست مجموعهء این که کند تولید روش همین مطابق در کهy صفت مقادیر باشد. برخی می آموزشی مجموعهء همانند ها نمونه مابقی

و بوده صحیح تست مجموعهء اند( در شده )خراب باشند می اشتباه آموزشی مجموعهء خراب تست مجموعهء در هستند صحیح آموزشی مجموعهء در کهy صفت مقادیر برخیاند. شده

درخت این که سازیم می را درخت مرحله این در که دارد برگ گرهء32 دقیقا نمونه کامال صفر آموزشی مجموعهء روی درخت این خطای بنابراین کرده بندی دسته را آموزشی هایباشد. می

بود. خواهند خراب برگ های گره این برچسب درصد25 درخت، ساخت از بعد

صحیح درخت های گره4/3باشند. می

خراب درخت های گره4/1هستند.

به تست مجموعهء16/3 می بینی پیش اشتباه شکل

خراب تست رکورد چون شونداست.

به تست مجموعهء16/1 پیش صحیح عنوان به اشتباه

شوند. می بینی

رکوردهای4/1 خراب تست مجموعهء

هستند

تست های بینی پیش16/9بود. خواهد صحیح

تست های بینی پیش16/3 گرهء زیرا بود خواهد اشتباه

است. اشتباه درخت

رکوردهای4/3 صحیح تست مجموعهءباشند. می

باشد. اشتباه تست مجموعهء های بینی پیش8/3 که داریم انتظار نهایت دردهد. می نشان را تست و آموزشی مجموعهء خطاهای بین تفاوت مثال این

------------------------------ را آموزشی ه**ای دادh∊H فرض**یهء ش**ود می گفته ،H فرض**یهء فض**ای داش**تن تعری**ف: با

`h نس**بت کم**تری خط**ایh که بطوری باشدh`∊H بنام دیگری فرضیهء اگر کند می اورفیت توزیع تمام رویh نسبت به کمتری خطای`h اما داشته آموزشی های مثال بندی دسته روی

باشد. داشته ها نمونه

Root

e=0

a=0 a=1

e=1

a=0 a=1

18

Page 19: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

h تابع خطایerrorD(h) و آموزشی های داده رویh تابع خطایerrortrain(h) اگر دیگر، عبارت به اگر کند، می اورفیت را آموزشی های دادهh∊H فرضیهء باشد ها داده توزیع کل روی

< errorD(h) وerrortrain(h) < errortrain(h') که شکلی به باشد داشته وجود دیگریh`∊H فرضیهءerrorD(h').باشد

درخت دقت افزاید می آن به تصمیم درخت رشد برای هایی گرهID3 که زمانی طی در که هنگامی یابد. اما می افزایش یکنواخت شکل به آموزشی، های مثال از شده یادگیری

انجام آموزشی های مثال از مستقل تست های مثال از ای مجموعه روی گیری اندازه این درخت دقت شکل در توپر یابد. خط می کاهش سپس و کرده رشد ابتدا دقت شود، می

مجموعه یک روی شده گیری اندازه دقت شکسته، خط و آموزشی، های مثال روی تصمیمدهد. می نشان را آموزشی های مثال از مستقل تست های مثال از

مثال بندی دسته در اما کرده عمل عالی آموزشی های مثال روی شده یادگیری درخت چرا خورند؟ می شکست تست های

هستند. تصادفی نویزهای یا خطا حاوی آموزشی های مثال - وقتی1مثال:است: شده ارزیابی منفی غلط به که آموزشی مثال این افزودن برای

<Outlook=Sunny, Temperature=Hot, Humidity=Normal, Wind=Strong, PlayTennis=NO>

شود: می زیر شکل به درخت تغییر باعث غلط آموزشی مثال این افزودن از حاصل درخت

19

Page 20: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

با شده اورفیت درختآموزشی های مثال توسط شده یادگیری درختغلط دادهء

آن شود. نتیجه می تری پیچیده درخت ساخت شود می باعث غلط مثال افزودن حقیقت در (`h) ابتدایی درخت از تر پیچیده که دهد می ( خروجیh) تصمیمی درختID3 که است

ساده`h درخت که درحالی شود می سازگار آموزشی های مثال مجموعهء باh است. البته شدن فیت نتیجهء جدید شدهء افزوده تصمیم گرهء اینکه بادانستن نیست. هرچند سازگار تر

نمونه، توزیع همان از بعدی های داده روی ،h که داریم انتظار است، نویزی آموزشی مثالآورد. بدست`hدرخت از بهتری نتایج

20

Page 21: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

هستند نویز بدون ها داده وقتی - اورفیتیک2 گره در ها مثال از کمی تعداد وقتی خصوصادهد. رخ است ممکن دارند وجود برگی های

ها مثال صفات، برخی حالت این در که دهد رخ نیز تصادفی نظم است ممکن مورد این در چنین که باشد. هرزمان نامرتبط واقعی هدف تابع به هرچند کنند می پارتیشن خوب را

دارد. وجود نیز اورفیتینگ خطر باشد موجود تصادفی های نظم و قاعده بدست نتیجه این شد انجام نویزی غیرقطعی های داده با که آزمایشگاهی مطالعهء یک در

دهد. می کاهش درصد25 تا10 از را شده یادگیری تصمیم درختان دقت اورفیتینگ که آمد

21

Page 22: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

اورفیتینگ از ممانعت برای موجود روشهای- 7-2

و نوع به که است ممکن این و هستند نامربوط هایی نمونه چه که دانیم نمی قبل از معموال وقوع زمان در هشدار برای ساده آماری روشهای از توان می اما برگردد ها داده زمینهء

از ممانعت برای رفته بکار های (. روشChi-Squared )تست مانند کرد استفاده اورفیتینگ اورفیتینگ، شوند. می نامیده هرس روشهای عموما

کردن هرس های روش انواع- 7-2-1

نقطه به اینکه از قبل درخت رشد آنها، در که هایی : روشقبل از هرس روش( 1 که برسد ای این شوند. )مشکل می متوقف کند بندی دسته را آموزشی های مثال کامال

متوقف معیارهای از هایی است.(. نمونه درخت رشد توقف زمان تعیین در ها روشدرخت: رشد کردن

. باشدE ثابت مقدار از کمتر اطالعات نفع - وقتی آموزشی های مثال بیشتر تقسیم معناداری آزمایش برایchi-squared تست - ازکنیم. می استفاده

معیار این کاهش باعث بیشتر رشد که صورتی در و گرفته بکار را6MDL - معیاردهیم. می را درخت رشد اجازهء شود،

درخت دهند می اجازه که روشهاییبعدی: هرس روش(2 داده و شود ساخته کامال تر موفق عمل در ها روش کنند. )این می هرس را آن سپس کند، اورفیت را ها

هستند.(

شود: می استفاده بعدی هرس برای تکنیک - دو6 MDL (minimum description length) = minimize size(tree) + size(misclassifications(tree))

22

Page 23: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

شود. این می جایگزین برگ گرهء یک با درخت زیر زیردرخت: تمام الف( جایگزینیدهد. می افزایش را دقت اما کند می تر عام کمی را درخت تکینک

شود. می جایگزین دیگر ای گره جای به زیردرخت زیردرخت: تمام کشیدن ب( باال

های هستند. روش نهایی درخت اندازهء تعیین برای معیاری نیازمند شده ذکر روش دو هرشامل: نهایی، درخت اندازهء تعیین های مثال از ای مجموعه از - استفادهتایید و آموزش مجموعهء روش-

شدهء هرس های گره سودمندی ارزیابی برای آموزشی های مثال از مستقلدرخت. از بعدی

تست یک از استفاده سپس و آموزش برای موجود های داده تمام از استفاده- آماری هرس( )یا توسعه آیا اینکه برآورد ( برایChi-square تست از استفاده )مثال

خاص، گرهء یک کند. می ایجاد آزمایشی مجموعهء در را بهبودی احتماال درخت و آزمایشی های مثال کدکردن برای پیچیدگی صریح معیار یک از استفاده-

شد. حداقل کدگزاری، معیار این که زمانی درخت، رشد کردن متوقف و تصمیم،شود. می نامیده 7حداقل توصیف طول قانون که است شهودی برپایهء روش این

تایید: و آزمایش مجموعهء روششوند: می تقسیم بخش دو به حاضر های داده روش این در

شود. می استفاده شده یادگیری فرضیهء ایجاد برای که آموزشی مجموعهء یکو بعدی های داده روی فرضیه این دقت ارزیابی برای که تایید مجموعهء یک

رود. می بکار کردن هرس فرضیهء تاثیر خصوصا

7 Minimum Description Length

23

Page 24: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

آموزشی مجموعهء در تصادفی های نظم و تصادفی خطاهای با یادگیرنده اگر حتی کنترل تواند می و داده نشان را نوسانات همان ندرت به تایید مجموعهء شود، گمراه

کند. فراهم آموزشی مجموعهء نادرست و نویزی صفات اورفیتینگ علیه را مطمئنی از آماری توجه قابل نمونهء بتواند که باشد بزرگ کافی اندازهء به باید تایید مجموعهء

سوم دو از استفاده و قسمت سه به داده تقسیم رایج، شهود کند. یک فراهم را ها نمونه یک تست )مجموعهء است تست های داده برای سوم یک و آموزشی های داده برای آن

باشد(. آموزشی های داده مجموعهء دوم-----------------

:chi-Square تست- 7-2-1-1 را متغیرها بین وابس**تگی یا ارتب**اط میزان که است آماری دیگر های تست مشابه تست این

بک**ار ن**یز گروه چند یا یک بین وابستگی تست برای تواند می کنند. همچنین می گیری اندازه نمونه با گ**روه، هر شده( در )مشاهده های نمونه واقعی تعداد مقایسهء با را کار این که رود

دهد. می انجام شوند دیده رود می انتظار احتمال، یا تئوری مطابق که هایی تست این از استفاده برای و باشد ( میχ2) آماری تست یک برپایهءchi-squareمربعی تست

شوند. بیان تکرار تعداد شکل به ها داده که است نیاز

:chi-square تست یک در گام پنچ ها کنی**د. داده بیان را شوند بینی پیش باید که نتایجی و شوند تست باید که فرضیاتی(1

آورید. بدست مناسب آزمایشات از استفاده با رادارند. ارتباط هم با متغیر - فرضیه: دو مثال

عدد از درصد کنید. )بجای تعیین را انتظار مورد تعداد شده، مشاهده دستهء هر برای(2کنید.( استفاده

کنید. محاسبه راp وχ2 مقدار زیر فرمول از استفاده با(3

آماری تست برایp باشد. مقدار می جدول در موجود های سلول تمام روی مجموعباشد: می زیر مقدار

p-value = P(X> χ2) بهc وr ه***ای اس***ت. ث***ابت(r-1(*)c-1) آزادی درجهء باchi-square توزیع یکX که

هستند. آزمایش مورد متغیر دو برای موجود های دسته تعداد ترتیب آلفا از کم**ترp مق**دار خ**یر. اگر یا معناست با آم**اری نظر از نتیجه آیا که کنید تع**یین(4

و است بامعنایی سطح )آلفا هستند بامعنا نتایج شود باشد(. میα = 0.05 معموالکنید. گرارش خود فرضیات شکل به را نتیجه (5

p مقدار ،χ2 برای الف( اگر > مق*دار چ*ون کنید قب*ول را خ*ود فرضیهء است0.05 دخیل آن در بتنه**ایی تص**ادف عامل که باشد می کوچک ک**افی ان**دازهء به انح**راف

باشد. فاکتور که بگیرید نتیجه و کرده رد را فرضیه استp < 0.05 مقدار ،χ2 برای ب( اگراست. بزرگ مقدار این تا انحراف که کند می عمل تصادف بجز دیگری

-----------------

یافته کاهش خطای هرس- 7-2-2

24

Page 25: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

اورفیتینگ: از جلوگیری برای تایید مجموعهء از استفاده بیشتر کردن هرس که زمانی تا و کرده تقسیم تایید و آموزشی مجموعهء به را ها داده

های گره )و ممکن گرهء هر کردن هرس کنیم: تاثیر می تکرار را مراحل این بزند صدمه بیشترین آن حذف که را ای گره سپس کرده، ارزیابی تایید مجموعهء روی فرزندش( را

کنیم. می حذف حریصانه شکل به را دهد می تایید مجموعهء دقت روی را بهبود تصمیم گرهء یک گیریم. هرس می نظر در هرس برای کاندیدی را درخت تصمیم گرهء هر

رایج انتساب و برگ گرهء یک به گره آن تبدیل و گره آن به منتج زیردرخت حذف شامل گرهء بندی دسته عنوان به گره آن فرزندان آموزشی های مثال برای بندی دسته ترین

عمل از آمده بدست درخت که شوند می حذف زمانی فقط ها باشد. گره می موردنظرنکند. عمل تایید مجموعهء روی اولیه درخت از بدتر هرس،

اضافه درخت به آموزشی مجموعهء در تصادفی های نظم بخاطر که برگی گرهء تاثیر: هر خواهد هرس دهد، رخ نیز تایید مجموعهء در ها نظم همان که است ممکن کمتر چون شود

دقت در را افزایش بیشترین آن حذف که شود می انتخاب هرس برای ای گره شد. همیشه ها باشد. گره داشته تایید مجموعهء روی تصمیم درخت تا عمل این و شده هرس مکررادهد. کاهش را درخت دقت بیشتر کردن هرس که یابد می ادامه جایی

روی را خود دقت کمترین و بوده خود سایز بیشترین در درخت شود می آغاز هرس وقتی دقت و یافته کاهش ها گره تعداد رود، می پیش هرس که دارد. همانطور تست مجموعهء

ترین صحیح نسخهء کوچکترین روش یابد. این می افزایش تست مجموعهء رویکند. می تولید را زیردرخت

شوند: می تقسیم قسمت سه به ها دادهروند. می بکار درخت آموزش برایآموزشی: های داده

25

Page 26: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

روند. می بکار درخت هرس برایتایید: های دادهروند. بکارمی نادیده های نمونه روی درخت تست برایتست: های داده

آموزش، برای دسترس در های نمونه تعداد هستند محدود ها داده روش: وقتی این مشکل دسترس در های داده تقسیم مثل اضافی های تکنیک از استفاده آن حل بود. )راه خواهد کم

دیگر روشهای از استفاده یا نتایج گرفتن میانگین - سپس روش چندین به دفعهء - چندینباشد.( می بعدی قانون هرس مثل

قانون بعدی هرس-7-2-3

ها داده که زمانی و باالست دقت با فرضیات یافتن برای عملی روش موثرترین روش ایناست. مفید هستند محدود

قانون: بعدی هرس های گام از را تصمیم درخت هستند سازگار تصمیم درخت با آموزشی های مثال که جایی تا-1

دهد. رخ اورفیتینگ دهیم می اجازه و ساخته آموزشی های داده روی یادگیری درخت برگ، گره هر به ریشه گره از مسیر هر برای قانون یک ایجاد با-2

کنیم. می تبدیل قانونها معادل مجموعهء به را شده گیریم، می درنظر جداگانه را قانون هر-3

oیعنی گیریم می نظر در جداگانه را پارامتر هر حذف (outlook==sunny)و (humidity==high)و (outlook==sunny(^)humidity==high).

oبردارد. در دقت در را بهبود بهترین آن حذف که کنیم می حذف را پارامتری تعیین برای آماری معیارهای یا تایید مجموعهء از توان می مرحله این در

حاصل بهبودی بیشتر حذف که زمانی تا را حذف کرد. عمل استفاده دقتکنیم. می تکرار نکند

زمان در و کرده مرتب آنها شدهء برآورد دقت براساس را شده هرس ی ها قانون-4گیریم. می درنظر دقت کمترین تا بیشترین از بعدی، های نمونه بندی دسته

گرهء مسیر در تست صفت شود. هر می تولید قانون یک درخت در برگ گرهء هر برای می شرط نتیجهء برگ گره بندی دسته و شده قانون شرط پیش یک برگ گرهء به ریشه

شده برآورد دقت آن، حذف که شرطی نتیجهء یا شرط پیش حذف با قانون هر شود. سپس شده برآورد قانون دقت شود باعث هرس در بعدی گام شود. اگر می هرس نکند بدتر را

شود. نمی انجام بیشتری هرس شود بدتردرخت قانون بعدی هرس با درخت هرس تفاوت بدون درخت باالی از را صفتی آن در توانیم می و بوده تر کلی درخت قانون بعدی هرسکنیم. حذف آن زیر صفات تمام حذف

:A ∨ B تابع برای تصمیم درخت مثال: یادگیری

26

Page 27: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

A ∨ B تابع درخت بازنمایی

قانون به موجود درخت تبدیلif A=true then true if A=false and B=true then trueif A=false and B=false then false

ها: قانون هرس مرحلهءif A=true then true if A=false and B=true then trueif A=false and B=false then false

شده: نتیجه های قانون

if A=true then true if B=true then trueif A=false and B=false then false

می بازنمایی راA ∨ B تابع هرس از بعد کردند می بازنمایی راA (AB) که قانونهاییکنند.

قانون: دقت تخمین برای موجود های روشآموزشی. مجموعهء از مستقل تایید مجموعهء یک از استفادهتخمین یک از استفاده - با آموزشی مجموعهء های داده براساس کارایی ارزیابی

نفع به متمایل تخمین یک آموزشی دادهء که حقیقت این به رسیدن برای بدبینانه قانون دقت محاسبهء با را خود بدبینانهء تخمین ،C4.5 دهد. الگوریتم می را ها قانون انحراف سپس و داده انجام کند می اعمال آنها به که آموزشی های مثال روی

می محاسبه ای دوجمله توزیع یک فرض با را شده زده تخمین دقت این در استاندارد کارایی معیار عنوان به تخمین پایین حد شده، داده اطمینان سطح یک کند. برای

داده های مجموعه برای که است این آن شود. تاثیرخالص می گرفته درنظر قانون

27

Page 28: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

انحراف )یعنی بوده نزدیک بسیار شده مشاهده دقت به بدبینانه تخمین بزرگ، ای می کوچک ای داده مجموعهء اندازهء که زمانی است( و کوچک بسیار استاندارد

شود. می دور شده مشاهده دقت از گردد،

%95= اطمینان فاصلهء برایآموزشی مجموعهء روی شده مشاهده - دقت1.96* شده زده تخمین استاندارد انحراف

ها: قانون به تصمیم درخت تبدیل مزایای

قهم و خوانایی ها، قانون به تصمیم درخت تبدیل بنابراین است، تر آسان قوانین فهم کند. می بهتر را آن

ریشهء نزدیک که تست های صفت بین تفاوت ها، قانون به تصمیم درخت تبدیل در توان برد. می می بین از را دارند وجود ها برگ نزدیک که آنهایی و هستند درخت از ریشه گرهء به مربوط شرطی پیش است، شده قانون به تبدیل درخت که حالتی

حذف قانون آن به مربوط های شرط پیش دیگر اینکه بدون کرد حذف را قانون یک بدون گره یک یا ریشه حذف گونه، درخت بازنمایی شکل در که صورتی در شوند؛ندارد. امکان آن فرزند های گره حذف

گره یک آن در که را مختلفی مفاهیم یا ها زمینه کردن متمایز امکان قانون به تبدیل درخت گرهء یک بواسطهء مجزا مسیر هر دهد. چون می شود می استفاده تصمیم

می تست صفت آن مورد در هرس تصمیم کند، می تولید جداگانه قانون یک تصمیم، می هرس درخت خود اگر آن، شود. مخالف انجام دیگری مسیر هر از متفاوت تواند شکل به آن حفظ یا کامل شکل به گره حذف توانست می انتخاب دو فقط شد،

باشد. آن اولیهء

پیوسته مقادیر با صفات - بکاربردن7-3

:ID3 الگوریتم پایهء تصمیم درخت ساخت برای شرط دوباشد. گسسته باید هدف صفتباشند. گسسته باید تصمیم های گره در شده تست صفات

انتخاب تصمیم صفت برای موجود حقیقی مقدار هر برای که باشد این تواند می حل راه یک زیاد بسیار درخت های شاخه موارد بیشتر برای که شود ایجاد شاخه یک گره یک در شده به را پیوسته صفت مقادیر که گسسته مقدار صفات تعریف دهد. با می رخ اورفیت و شده

کرد. به حذف را دوم شرط توان می کنند، می افراز گسسته های فاصله های مجموعه تولیدAc بولی صفت یک تواند می الگوریتم دارد، پیوسته مقدار کهA صفت برای خصوص

باشد. False صورت این غیر در وTrue بودA<c اگر که کند

:c آستانهء برای مقدار بهترین انتخاب چگونگیمثال: را زیر جدول آموزشی، های مثال درTemperature پیوستهء مقدار صفت کردن وارد برایبگیرید: درنظر دما صفت با متناظر هدف مقادیر برای

908072604840TemperaturenoyesyesyesnonoPlayTennis

28

Page 29: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

برطبق ها مثال کردن مرتب بدهد. با ما به را اطالعاتی نفع بیشترین باید نظر مورد آستانهء بندی دسته در که هم مجاور های مثال تشخیص سپس وTemperature پیوستهء مقدار صفت متناظر مقادیر بین را میانی های آستانه از ای مجموعه توان می هستند، متفاوت هدف

Temperatureاز یک هر اطالعاتی نفع محاسبهء با تواند می کاندید های کرد. آستانه تولید شوند. ارزیابی آنها PlayTennis مقدار آنها در کهTemperature مقادیر با متناظر کاندید آستانهء دو مثال، این در

دارد: وجود کند می تغییر(80+90)/2 gain Info: Temperature>54

(48+60)/ 2 gain Info: Temperature>85

است. بهتر آستانه دومین بنابرایندیگر: روش می بکار راIG*(Y|X)مقدار از حقیقی صفت یک از استفاده بودن مناسب ارزیابی هر برایبریم.کنیم: می تعریف زیر احتمال شکل به راIG(Y|X:t)اطالعاتی نفع مقدار

IG(Y|X:t) = H(Y) - H(Y|X:t)H(Y|X:t) = H(Y|X < t) P(X < t) + H(Y|X >= t) P(X >= t)

تنها که باشد می زمانی درY بینی پیش برای باشد می اطالعاتی نفع ،IG(Y|X:t) مقدار است.t مقدار از کوچکتر یا بزرگترX آیا که است این ما اطالعات

مقدار بهترین قسمت این در که کنیم می تعریف راIG*(Y|X) = maxt IG(Y|X:t) سپس بیشترین حاصل اطالعاتی نفع مقدار آن، با ها نمونه افراز با که یابیم می راX صفت برای

شود. می مقدار صعودی شکل بهX صفت مقادیر مطابق را رکوردها روش، این در درخت ساخت برای

یکnyسازیم. می راIG(Y|X:xmin) محاسبهء برای2xny احتمال جدول سپس کرده، مرتبYتعداد تایی( متمایز مقادیر Yاست. ستونهای ) برای ممکن مقادیر جدول این yو

یک در موجود مقادیر که باشند میX>xmin وX<xmin با ها،X تمام برای را جدول سطرهای و سطر شرایط با که باشد می ها نمونه در موجود رکوردهای تعداد برابر جدول، سلولکند. می مطابقت سلول آن با متناظر ستون

تدریج به را جدول و کرده تست را مجاورX مقادیر بین آستانهء هر رکوردها، بین حرکت با بردن باال برای دهیم(. بهبودی می انجام رکوردها همهء برای را عمل )این کنیم می بروز

Y مقادیر آنها در که داد انجام رکوردهایی بین فقط را تست توان می که است آن سرعتکنند. می تغییر هرس سپس و سازیم می را درخت و آورده بدست هاIG*(Y|X) مقادیر جدول تکمیل از بعدکنیم. می

دیگر: های روشصفت یک پیوستهء مقدار تقسیم جای به شده، توصیف روش به ای توسعه در

کند. می تقسیم فاصله چندین به را آن فاصله، دو به آستانه یک براساسویژگی پیوسته، مقدار صفت چندین از خطی ترکیب گیری آستانه با که هایی روش

کند. می تعریف را هایی

صفات انتخاب برای دیگر معیارهای- 7-4

29

Page 30: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

های مثال کردن جدا برای که دارند زیادی ممکن مقادیر آنکه رغم علیDate مانند صفاتی صفت عنوان به توانند نمی است؛ مناسب کوچک بسیار های زیرمجموعه به آموزشی

پیش تواند می هرچند دارند، باالیی بسیار اطالعاتی نفع دلیل همین شوند. به انتخاب تصمیم با درختانی صفات باشند. این ندیده های نمونه روی هدف تابع از ضعیفی بسیار کنندهء بینیکنند. می ایجاد تصمیم درخت در زیاد بسیار خروجی های شاخه تعداد و پایین بسیار عمق

دیگر: معیارهای

GainRatio : ضعیف بسیار کنندگی بینی پیش و باال بسیار اطالعاتی نفع )باDate مانند صفاتی معیار، این می جریمه 8بندی بخش اطالعات نام به ای ویژه اصطالح کردن داخل با هدف( را تابع از

را ها داده وسیعی و یکتا شکل به چگونه موردنظر صفت اینکه به نسبت فوق معیار که کنداست. حساس کند می افراز

SplitInformation(S,A)

S1تا Sc ، cمجموعهء افرازبندی از حاصل های مثال زیرمجموعهء Sصفت توسط cمقداری A .است SplitInformation، نظمی بی Sصفت مقادیر به توجه با A.است

GainRatio(S,A) ≡

می یکسان بطور شدهء تقسیم مقادیر با صفاتی انتخاب از مانعSplitInformation(S,A) عبارتشود.

مثال: که مثالn از ای مجموعه اند. شده جداA صفت با کامال

SplitInformation(S,A) = log2 n

را ها مثال همینB بولی صفت اگر آن برایSplitInformation مقدار کند، افراز نصف به دقیقاشود. می یک

| وقتی که باشیم داشته توجه باید اطالعاتی نفع معیار جای بهGainRatio از استفاده درهنگامSi|≈|S|از یکی برای باشد، می Siتوان شود. می صفر یا کوچک بسیار مخرج است ممکن ها گرفتن درنظر با فقط راGainRatio تست سپس کرد محاسبه را صفت هر اطالعاتی نفع ابتدا

کرد. اعمال دارند متوسط باالی اطالعاتی نفع که صفاتی

:9فاصله بر مبتنی معیار فاصلهء براساس صفت است. هر داده افرازهای بین ای، فاصله معیار یک تعریف براساس

که )افرازی کامل افراز و کرده ایجاد که ای داده می بندی دسته را آموزشی های داده کامال شود. می انتخاب باشد نزدیکترین کامل افراز به آن افراز که شود. صفتی می کند( ارزیابی

نیست. متمایل (،Date )مانند زیاد مقادیر تعداد با صفاتی به معیار این که است شده اثبات که ای داده های مجموعه مورد در و شدهGainRatio معیار عملی مشکالت مزیت: مانع

کنند. می تولید کوچکتری درختان دارند، زیاد بسیار مقادیر تنوع آنها صفات

مقدار فاقد صفات با آموزشی های مثال بکاربردن -7-5

8 Split Information9 Distance-Based Measure

30

Page 31: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

زدن تخمین حل، راه یک باشند، مقدار فاقد صفاتی حاوی ای داده مجموعهء که حالتی در مقدار آنها در موردنظر صفت که است دیگری های مثال براساس مقدار فاقد صفت مقداردارد.

n گرهء درGain(S,A) محاسبهء خواستار و<x,c(x)> آموزشی مثال داشتن با که حالتی دراست: نامشخصA(x) مقدار اما هستیم

درA(x) برای مقدار ترین رایج که استA(x) به مقداری انتساب استراتژی، یک-باشد. میn گرهء در آموزشی های مثال بین

کهn گرهء در آموزشی های مثال بین مقادیر ترین رایج جایگزینی دیگر، استراتژی- مقدار این با شده ساخته آموزشی باشد. مثال می دارند راc(x) بندی دسته

تواند می ،A(x) برای شده زده تخمین تصمیم درخت یادگیری الگوریتم با مستقیماشود. استفاده موجود

وی به راA(x) ممکن مقدار هر احتمال ،A به مقدار ترین رایج انتساب بجای- مختلف مقادیر از شده مشاهده تکرارهای براساس دهیم. احتمال می نسبتشود. می محاسبهn گرهء های مثال درA صفت با مثال چهار وA=1 با مثال ششn گره اگر ،A بولی صفت داشتن با مثال برایA=0گاه: آن باشد داشته

0.6 برابرA=1 - احتمال0.4 برابرA=0 - احتمال

به ،A=1برای آنها از0.6 کسر و درختA=0 شاخهء بهx های مثال از0.4 کسرشود. می توزیع دیگر شاخهء

شده: بخش های مثال این در دیگری مقدار فاقد صفتی اگر و رفته بکار اطالعات نفع محاسبهء برای

شود. بخش بیشتر شود، تست باید درخت تر پایین های شاخه آنها صفت مقادیر که جدیدی های نمونه بندی دسته برای یادگیری از بعد جدید، نمونهء بندی دسته حالت، این روند. در بکار توانند می است ناشناخته توسط توسط که باشد می احتمال بیشترین با بندی دسته ترین محتمل بسادگی به درخت برگ های گره در شده بندی دسته نمونهء های بخش های وزن مجموع

شود( می استفادهC4.5 الگوریتم است. )در شده محاسبه مختلف های راه

متفاوت های هزینه با صفات بکاربردن-7-6

باشند. مختلفی های هزینه دارای است ممکن ها نمونه صفات یادگیری، وظایف برخی در صفاتی با را بیمار است ممکن پزشکی، های بیماری بندی دسته یادگیری در مثال، برای و پولی های هزینه در صفات کنیم. این ... توصیف و خون آزمایش نتایج نبض، دما، چون

های هزینه با صفات با تصمیمی درختان امکان حد تا دهیم می ترجیح و بوده متفاوت رفاهی تر گران صفات از تر، اطمینان قابل های بندی دسته به نیاز صورت در یا بسازیم تر پایین

کنیم. استفاده می دخالت صفت انتخاب معیار در را هرینه عامل موارد، این در نفع توان می دهیم. مثال

حالی باشند. در ارجح تر پایین هزینهء با صفات که بطوری کرد تقسیم هزینه به را اطالعاتی را بهینه هزینهء به حساس تصمیم درخت یک یافتن هزینه به حساس معیارهای چنین که

کنند. می متمایل پایین هزینهء با صفاتی سمت به را جستجو کنند، نمی تضمین که کرد استفاده یا و از توان میGain جای به آزمایشاتی در

w∊[0,1]می بازنمایی را اطالعات نفع مقابل در هزینه به مربوط اهمیت که است ثابتی کند.

31

Page 32: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

درخت سازی عام- 8

را آموزشی های نمونه تمام که درختی ( طراحی1دارد: وجود انتخاب دو درخت ساخت در ( ساخت2 یا درخت کوچکترین انتخاب کامل( و )درخت کند بندی دسته صحیح شکل به

دارد را تست های نمونه بندی دسته در ممکن خطای نرخ کمترین اما نبوده کامل که درختیاست(. تر مطلوب روش این عمل )در این آن است. دالیل مطلوب امکان تاحد درخت اندازهء داشتن نگاه کوچک حالت دو هر در

سازی عام به تمایل و داشته کمتری حافظهء نیاز و تست زمان کوچکتر درختان که است آموزشی های داده طبیعت و آماری های قاعدگی بی به )چون دارند نادیده های نمونه بهترهستند.( حساس کمتر

تصمیم درخت کنندهء بندی دسته یک طراحی- 8-1

تصمیم: درخت های کننده بندی دسته اصلی اهدافامکان حد تا آموزشی های نمونه صحیح بندی دسته(1 بتوانند نادیده های نمونه که شکلی به آموزشی های نمونه سازی عام(2

شوند. بندی دسته بیشتر هرچه دقت با های نمونه شدن فراهم صورت در درخت، آسان بروزرسانی(3

جدید آموزشیساده. امکان سرحد تا ساختار یک داشتن(4

شود: می تقسیم زیر وظایف به تصمیم درخت کننده بندی دسته یک طراحیدرخت. ساختار مناسب انتخاب(1داخلی. گرهء هر در استفاده برای ویژگی های زیرمجموعه انتخاب(2داخلی. گرهء هر در شده استفاده استراتژی یا تصمیم قانون انتخاب(3

تصميم گيري: درخت يك طراحي براي الزم گام هايدرخت. ساختار براي مناسبي انتخاب.1 گره هاي از يك هر در تصميم گيري براي نظر مورد ويژگي هايي انتخاب.2

مياني. گره هاي از يك هر در استفاده مورد استراتژي يا تصميم گيري قانون انتخاب.3

مياني.

درخت کنندهء بندی دسته طراحی برای اصلی روش هاي- 8-2تصميم

باال به پايين روش هاي. 1پايين به باال روش هاي.2تركيبي روش.3كننده دهنده-هرس رشد روش هاي.4باال: به پايين روش هاي

شکل به را ها دسته کردن ترکیب و کرده آغاز اطالعاتی های دسته با طراح، می ادامه باشد می ها دسته تمام دربردارندهء که گره، یک به رسیدن تا مداومدهد.

32

Page 33: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

: پايين به باال روش هاي قانون یک از استفاده با و کرده آغاز ریشه گرهء یک از پايين، به باال روش هاي در

شوند. می تقسیم شود برقرار توقف شرط یک که زمانی تا ها دسته ،جداکنندهباشد: می زیر موارد شامل روش این در اصلی مسائل

گره ها تقسيم معیار انتخاب.1توقف قوانین.2پاياني گره هاي به برچسب انتساب.3

هستند. پايين به باال هاي روش گيري تصميم هاي درخت زمينه در شده انجام كارهاي )اكثرباشند.( میCART وC4.5, ID5R, ID4, ID3 های الگوریتم پايين، به باال هاي الگوريتم نمونه

كننده: دهنده-هرس رشد هاي روش ابتدا توقف، قانون یک انتخاب مشکالت برخی از جلوگیری جهت روش اين در

تا پايين به باال روش يك همچون روشي از استفاده با گيري تصميم درخت يك از استفاده با بعد مرحله در سپس و شود مي ساخته خود اندازهء بیشترین ازCART شود. )الگوريتم می هرس انتخابی شکل به درخت هرس، الگوريتم

مي هرس الگوريتم يك داراي نيزC4.5 الگوريتم و بوده ها الگوريتم اين جملهباشد.(

تركيبي: هاي روش برای را باال به پایین روال بخواهد طراح که دارد کاربرد زمانی ها روش این

باال روش دو هر از ها روش اين بکارگیرد. در پایین به باال روال یک کمک و هدایتشود. مي استفاده باال به پايين و پايين به

گيري تصميم درخت در يادگيري انواع- 9

های نمونه تمام آنکه اول امکان دارد، وجود امکان دو آموزشی های نمونه با رابطه در جریان یک شکل به آنکه دوم امکان و باشند فراهم تصمیم درخت طراحی زمان در آموزشی

این که یابد می پایان کار و شده طراحی درخت مرحله یک در اول، حالت شوند. در واردنامیم. می غیرافزایشی را الگوریتم

قبلی درخت شد، وارد جدید آموزشی نمونهء یک دارد: هرگاه وجود انتخاب دو دوم حالت در یا سازیم می یافته افزایش آموزشی مجموعهء از استفاده با جدید درختی و کرده حذف را

افزایشی(. های )الگوریتم کنیم می اصالح جدید، اطالعات براساس را موجود درخت اینکه

بار يك در را نظر مورد گيري تصميم درخت الگوريتمافزايشي: غير مي گيرد. ياد آموزشي داده هاي با آموزش

:باشد، الزم كه صورتي در جديد آموزشي نمونه هر دريافت باافزايشي كه را آنچه است ممكن و مي كند بازبيني را شده يادگرفته درخت الگوريتم،

بخشد. بهبود است گرفته ياد

دسترس در صورت در که کنند تولید را درختی همان افزایشی الگوریتم که است مطلوبشد. می تولید غیرافزایشی الگوریتم توسط ها نمونه تمام بودن

خوب: افزايشي الگوريتم یک هاي ويژگيكم. نياز مورد حافظهدرخت. باالي بازسازي سرعت

33

Page 34: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

غيرافزايشي. هاي روش به نسبت مناسب درختي توليد

وID4 وID3 هاي الگوريتم و افزايشي غير هاي الگوريتم نوع ازID3 وCART هاي الگوريتمID5Rباشند. می درخت ساخت افزايشي های الگوریتم از هایی نمونه

تصمیم درخت معایب و مزایا- 10

کاوی داده دیگر های روش به نسبت تصمیم درختان مزایای- 10-1

باشند. می فهم قابل و استخراج قابل شده كارگرفته به و شده توليد قوانين.1 دارد. )روشهای را گسسته و پيوسته يها داده با کار توانایی تصمیم، درخت.2

را نوع یک با کار توان فقط دیگر کار توان فقط عصبی های شبکه دارند. مثالگسسته( های داده با رابطه قوانین و پیوسته های داده با

کند. می استفاده ساده يريگ تصميم ينواح از تصمیم درخت.3.شود می حذف ساختار این در يرضروريغ يها سهيمقا.4شود. می استفاده مختلف يها نمونه يبرا متفاوت يها يژگيو از.5نيست. توزيع تابع تخمين به احتياجي.6 است. غیرضروری یا ساده تصمیم، درخت یک برای ها داده سازی آماده.7

یا خالی مقادیر حذف یا داده سازی نرمال به نیاز اغلب دیگر های )روشدارند( پوچ متغیرهای ایجاد

درختان در شرایط است. توصیف سفید جعبهء مدل یک تصمیم درخت.8 های شبکه که حالی در است پذیر امکان بولی منطق با آسانی به تصمیمباشند. می سیاه جعبهء یک آنها نتایج توصیف در پیچیدگی بدلیل عصبی

امکان آماری های تست از استفاده با تصمیم های درخت در مدل یک تایید.9داد( نشان توان می را مدل اطمینان است. )قابلیت پذیر

کوتاه زمان در بزرگ های داده تحلیل برای تصمیم درخت ساختارهای.10باشند. می قدرتمند

یابند. می را نامعلوم یا غیرمنتظره روابط.11 می ها زیرگروه های تفاوت شناسایی به قادر تصمیم های درخت.12

باشند. می مقدار فاقد های داده کردن سازگار به قادر تصمیم های درخت.13

باشند.

تصمیم درختان معايب- 10-2 است پيوسته مقادير با تابعي تخمين یادگیری، از هدف كه مواردي در.1

نيستند. مناسب خطا احتمال كم، آموزشي نمونهء و زياد های دسته تعداد با موارد در.2

باالست.دارد. باال محاسباتي هزينه گيري، تصميم درخت توليد.3دارد. بااليي هزينه درخت كردن هرس.4 و نشوند جدا خوبي به مكعبي نواحي با ورودي های دسته كه مسائلي در.5

كنند. نمي عمل خوب باشند، داشته همپوشانی ها دستهشود. می زیاد پاياني های گره تعداد ها گره همپوشانی صورت در.6 سطحی به سطحی از خطاها است امکان باشد بزرگ درخت که صورتی در.7

يكديگر(. روي بر ها اليه خطاي شدن )انباشته شوند جمع دیگر

34

Page 35: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

دسته درخت یک است. کارایی دشوار بهينه، گيري تصميم درخت طراحي.8دارد. بستگی آن خوب طراحی چگونگی به کننده بندی

دارد. وجود نادرست روابط تولید احتمال.9است. دشوار تصمیم درخت بازنمایی.10 گره تعداد که شود باعث تواند می است، زیاد ها دسته تعداد وقتی.11

و جستجو زمان بنابراین و بوده واقعی های دسته تعداد از بیشتر پایانی هایدهد. می افزایش را حافظه فضای

تصمیم درخت برای مفید افزارهای نرم- 11

بستهء یکWEKA- دانش تحلیل برایWaikato - محیطWEKAافزار نرم که است کاوی داده و ماشین یادگیری های تکنیک از زیادی تعداد حاوی که است افزاری نرم

یک دارای افزار نرم دهد. این می را مختلف ماشین یادگیری های تکنیک مقایسهء امکان تحلیل و تجسم مثل هایی قابلیت به دسترسی اجازهء که باشد می گرافیکی کاربر واسط

نوشته جاوا زبان به و بوده باز منبعWEKAدهد. می را کاوی داده های الگوریتم از بسیاریاست. شده

درخت یادگیرندهء عمومی نسخهء آخرین سازی پیاده حاویWEKA افزاری نرم بستهء شکل به آن در شده مشخص پارامترهای تنظیم با تصمیم های درخت و بودهC4.5 تصمیمشود. می داده نمایشASCII متن شکل به و شده ساخته خودکار

http://www.cs.waikato.ac.nz/ml/weka/

یادگیری الگوریتم یک کهC4.5 برای++C منبع کد زیر آدرس در - C4.5 افزار نرم نویسی برنامه افزار نرم همچنین و باشد می پیشرفته قدرتمند تصمیم درخت ماشین و حقیقی های داده استعمال به قادرC4.5 دارد. الگوریتم وجودFOIL استنتاجی منطقی

است. پیچیده کردن هرس و تقسیم های تکنیک

35

Page 36: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

        http://www.rulequest.com/Personal/

 

پایه تصمیم درخت یادگیری الگوریتم -12

پایه الگوریتم یک از اند یافته توسعه یادگیری تصمیم درختان برای که های الگوریتم بیشتر تصمیم درختان فضای در را پایین به باال حریصانهء جستجوی یک که اند شده مشتق نشانC4.5 آن تر کامل نسخهء وID3 الگوریتم توسط روش گیرد. این می بکار ممکن،

شود. می داده

این طرح با و سازد می پایین به باال از تصمیم درختان الگوریتم این– ID3پایهء الگوریتم این به پاسخ کند. برای می آغاز شود آزمایش درخت ریشهء در باید صفتی چه که سوال

برای صفت ترین مناسب تعیین برای آماری های آزمایش انواع از یکی از استفاده با سوال، کند. سپس می ارزیابی را نمونه صفت هر براساس تصمیم آموزشی، های مثال بندی دسته

کند. می استفاده درخت ریشهء گرهء در تست عنوان به و کرده انتخاب را صفت بهترین های مثال و شده ایجاد متناظر گرهء یک ریشه، در شده تست صفت ممکن مقدار هر برای

ذکر فرایند شوند. تمام می افراز ها گره این بین تست، صفت مقادیر براساس آموزشی بهترین انتخاب برای گره، هر به شده داده نسبت آموزشی های مثال از استفاده با شده، را حریصانه جستجویی روش شود. این می تکرار درخت گرهء آن در آزمایشی برای صفت نظر در برای گاه هیچ الگوریتم، این در که دهد می ارائه قبول قابل تصمیم درخت یک برای

یادگیری در الگوریتم شود. این نمی برگشت عقب به قبلی، های انتخاب دوبارهء گرفتنباشد. می ارزان و غیرافزایشی و داشته مشکل مقدار فاقد صفات با هایی نمونه

ID3 (Examples, Target_Attribute, Attributes)

Create a root node for the tree If all examples are positive, Return the single-node tree Root, with label = +. If all examples are negative, Return the single-node tree Root, with label = -. If number of predicting attributes is empty, then Return the single node tree Root, with label = most common value of the target attribute in the examples. Otherwise Begin

A = The Attribute that best classifies examples. Decision Tree attribute for Root = A. For each possible value, vi, of A,

o Add a new tree branch below Root, corresponding to the test A = vi. o Let Examples(vi), be the subset of examples that have the value vi for A

36

Page 37: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

o If Examples(vi) is empty Then below this new branch add a leaf node with label = most

common target value in the examples o Else below this new branch add the subtree ID3 (Examples(vi),

Target_Attribute, Attributes – {A})

End Return Root

باشد. نتیجهء می افزایشی الگوریتم یک و است یافته توسعهSchlimmer &Fisher توسط برایχ2 تست از الگوریتم برد. این می بیشتری زمان اما کند می تولید راID3 نهایی

اورفیتینگ از مانع باشند نویز دارای آموزشی های داده که زمانی و کند می استفاده استقاللشد. خواهد آموزشی های داده

نتواند موجود درخت اگر که شکلی به است؛ID4 الگوریتم تغییریافتهء– ID4-hat الگوریتم سازد. اگر می دوباره را درخت الگوریتم این کند بندی دسته صحیح شکل به را جدید نمونهء با نتیجه حالت این بود. در نخواهد درخت بهترین بنابراین شود ساخته دوباره نتواند درخت بی وقتی ها الگوریتم این دوی بود. هر خواهد متفاوتID3 توسط شده تولید نهایی درخت یکی ... بجز تمام وقتی و دارند می نگه را تصمیم های خروجی تعداد یا است صفر نظمیکنند. می متوقف را آن است صفر

و یافته توسعهUtgoff توسط که است یافته بهبود افزایشی الگوریتم یک– ID5 الگوریتم توسط اگر شود، می اضافه جدید نمونهء یک شود. وقتی می شروعID4 الگوریتم همانند نفع از استفاده با را بعدی صفت بهترین نشود بندی دسته صحیح شکل به موجود درخت

را موجود درخت صورت این غیر )در کند می اضافه مثال این بندی دسته برای اطالعات اند، شده دیده مرحله این تا که هایی نمونه تمام برای اگر مرحله، هر کند.(. در می حفظ با را درخت باشد داشته کوچکتری شرطی نظمی بی باالتر صفت نسبت به تر پایین صفتسازد. می دوباره سازی ساده و ادغام کردن، معکوس تقسیم، انجام

بی شود، می اضافه آموزشی نمونهء یک که هرگاهID5 الگوریتم در– ID5-hat الگوریتم می تغییر درخت ساختار لزوم صورت در )و شوند می کنترل دوباره شرطی های نظمی

فقط شرطی های نظمی بی اینکه جز باشد میID5 الگوریتم مشابه الگوریتم یابد.(. این جدید نمونهء یک صحیح بندی دسته به قادر درخت که شوند می گرفته درنظر دوباره زمانی

نباشد.

استفاده بعدی هرس قانون از نوعی از و استID3 الگوریتم بعدی - نسلC4.5 الگوریتم را نویزی های داده و مقدار فاقد صفات گسسته، صفات است قادر کند. همچنین می

و کند می انتخاب نظمی بی معیار از استفاده با را صفت بهترین الگوریتم کند. این استفاده می زیاد بسیار مقادیر با صفات بکارگیری به قادرgainRation عامل از استفاده دلیل به

شود می انجام هرس باشد نداشته وجود آموزشی های داده در خطایی هیچ اگر باشد. حتیشود. وابسته آموزشی مجموعهء به کمتر و شده تر عام درخت شود می باعث که

الگوریتم این در هرس برگ به بازگشتی شکل به و ای دوجمله توزیع برپایهء و پیچیده نسبتا یابد. نمی ادامه باال سمت به شود می متوقف شاخه یک هرس است. وقتی درخت های هایی دسته روی بیشتر جداسازی آزمایشی، نمونهء یک با هایی برگ داشتن از ممانعت برای

می انجام زمانی فقط شود. هرس نمی انجام اند یافته کاهش عنصر دو به حاضر حال در که

37

Page 38: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

بی گرفتن نظر در با الگوریتم، نیابد. این افزایش خطاها شدهء بینی پیش تعداد که شود را صفت یک است شده داده داده آنها برای که موردی هر برای آنها از هریک های نظمی صفت از مقادیری با مقدار فاقد صفات موارد صفت، بهترین انتخب از کند. بعد می انتخاب

یابد. می ادامه الگوریتم و یابند می تخصیص است فراهم داده که مواردی از بخشی در

بندی جمع-13

آسان کاربرد و سازی پیاده درک، که هستند کاوی داده ابزار ترین رایج تصمیم درختان یک بینی پیش با را بندی دسته ساختار باشند. این می ارزان محاسباتی نظر از و داشته

شده مطرح دهد. مسائل می انجام حقیقی های ورودی یا و ها دسته از قیاسی خروجی از استفاده دلیل و اطالعاتی نفع نظمی، بی شامل تصمیم درخت یادگیری در عملی و تئوری

بکارگیری طرز هرس، اورفیتینگ، تست، مجموعهء و آموزشی مجموعهء خطاهای آن، های الگوریتم وchi-squared تست مقدار، فاقد صفات یا پیوسته یا حقیقی مقادیر با صفات

سعی است. همچنین شده پرداخته آنها به تاحدی مجموعه این در که باشند می یادگیری پوشاندن و گویا توصیفات با هایی سایت به ارجاع مناسب، های مثال ذکر با است شده

این با کلی آشنایی بتوانند دانشحویان تصمیم درخت یادگیری در مطرح مختلف مسائلبیابند. گیری تصمیم ساختار

 

38

Page 39: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

نامه - لغت14

ID3پایهء الگوریتمیادگیری الگوریتمC4.5 الگوریتمID4-hat الگوریتمID5 الگوریتمID5-hat الگوریتم

يادگيري انواعاورفیتینگ

استنتاجی بایاسارجحیت بایاسمحدودیت بایاس

نظمی بیchi-squared تست

تقسیمآموزشی مجموعهء خطایتست مجموعهء خطای

درخت رگراسیون یا برگشت درختای خوشه درختبندی دسته درختپایین به باال های روشباال به پایین های روشتركيبي هاي روشكننده دهنده-هرس رشد هاي روشتصمیم درخت طراحی های روشتایید و آموزش مجموعهء روشهرس های روش بندی دسته

متفاوت های هزینه با صفاتصفتپیوسته مقدار یا حقیقی صفتگسسته مقدار یا ای دسته صفتمقدار فاقد صفت

سازی عاماوکام خودتراش قانونتصمیم های گراف

تایید مجموعهءفاصله بر مبتنی معیاراطالعات نفع معیارGainRatio معیار

اورفیتینگ از ممانعتWEKA افزار نرمC4.5 افزار نرم

39

Page 40: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

نویزهرسقبل از هرسبعدی هرسقانون بعدی هرسیافته کاهش خطای هرس

افزایشی یادگیریغیرافزایشی یادگیری

 

40

Page 41: ce.aut.ac.irce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewگزارش تحقیق درس یادگیری ماشین استاد: آقاي دكتر شیری دانشجو:

مراجع- 15

[1] S. R. Safavian, and D. Landgrebe, “A Survey of Decision Tree Classifier Methodology”, IEEE Transactions on Systems, Man, and Cybernetics, Vol. 21, No. 3, pp 660-674, May 1991.

[2] T. M. Mitchel, Machine Learning, McGraw-Hill, 1997.

دکتراستاد: آبادي نيك احمد گيري، تصميم هاي درخت با [ ارائه: آشنايي3]http://ce.aut.ac.ir/~shiry/lecture/machine-learning/Decision_Trees.zip ،84 بهار ي،شير

[4] Decision Tree Learning , Mona Vajihollahi, www.cs.sfu.ca/~oschulte/vaji.pdf

[5] DATA MINING: DEFINITIONS AND DECISION TREE EXAMPLES, airpo.binghamton.edu/conference/jan2004/Thomas_data_mining.pdf

[6] Issues in data mining with decision trees, www.netnam.vn/unescocourse/index.htm

[7] Chi Square Test, www.chssc.salford.ac.uk/resmeth2000/_vti_bin/shtml.exe/stats/chitest.htm

[8] Decision Trees, http://www.cs.cmu.edu/~awm/tutorials

[9] Chi-Square test, www.stat.psu.edu/~antoniou/stat250.3/pre12.ppt

[10] Decision Trees, Jeff Storey, www.cse.lehigh.edu/~munoz/CSE497/classes/Storey_DecisionTrees.ppt

41