classification data mining...

32
Chapter5 Classification

Upload: dinhquynh

Post on 06-Mar-2018

220 views

Category:

Documents


1 download

TRANSCRIPT

Chapter5 Classification

อลกอรทมทใชในการเหมองขอมลแบบจ าแนกไดแก

• Simple value Algorithm• Naïve Bayes method• Decision Tree induction• Covering Algorithm

Classification : Definition

Decision Tree Example

Decision Tree Construction Process

1. แบงขอมลตวอยาง (Samples Data) ออกเปน 3 สวนไดแก - Training Datasets

- Validation Datasets- Test Datasets

2. น า Training Datasets มาสราง Decision Tree3. ใช Validation Datasets วดความถกตองในการจ าแนกของ Tree ทสราง4. ท าซ าขอ 2,3 เพอใหไดความถกตองสงสด5. ใช Testing Datasets มาทดสอบกบ Tree ทไดเพอวดความถกตอง

Decision Tree Learning Algorithm

อลกอรทมทใชในการสราง Decision Tree ไดแก - ID3 Algorithm

- C4.5 Algorithm- C5.0 Algorithm- CART Algorithm

Decision Tree Induction

ข นตอนในการสราง Decision Tree จาก Training Datasets เพอใชจ าแนกขอมล มดงน 1. เลอก Attribute ทท าหนาทเปน Root Node2. จาก Root Node สรางเสนเชอมโยงไปยงโหนดลก จ านวนเสนเชอมโยง จะเทากบจ านวนคาทเปนไปไดท งหมดของ Attribute ทเปน root node3. ถาโหนดลก เปนกลมของขอมลทอยในคลาสเดยวกนท งหมด ใหหยด สรางตนไม แตถาโหนดลกมขอมลของหลายคลาสปะปนกนอย ตอง สราง subtree เพอจ าแนกขอมลตอไป โดยเลอก subtree มาท าหนาท เปน root node ของ subtree มาท าซ าในข นตอนท 2,3

ID3 Algorithm

• use information theory to select the best attribute fora decision at a node

• The idea is to select an attribute that yields the highestinformation gain

Classification Sample Data

ขอมลทก าหนดในตาราง เปนขอมลสภาพอากาศ ทใชประกอบการตดสนใจในการเลนกฬาชนดหนง วา มสภาพอากาศอยางไรจงจะเลน (play = yes) มสภาพอากาศอยางไรจงไมเลน (play = no)

• ในงาน จ าแนกขอมล (Classification) ขอมลทเปนจดมงหมายในการจ าแนก คอ แอททรบวต play

• ขณะท แอททรบวต outlook , temperature , humidity , windy

ท าหนาทเปน predicting attributes

ปญหาทตองพจารณาคอ จะเลอก Attributes ใด ท าหนาทเปนroot node ในแตข นตอนของการสราง tree และ subtree

เกณฑทชวยตดสนใจ ในการเลอก root node คอ ทดลองเลอกAttribute แตละตวมาท าหนาทเปน root node แลวหาคา Gain ซงเปนคาทใชบอกวา attribute ทท าหนาทเปน root node สามารถจ าแนกขอมลไดดมากนอยเพยงใด

จะเลอก attribute ทใหคา Gain สงสดเปน root node

Gain เปนคาทบอกระดบความสามารถของการจ าแนกคลาสของ attributeหนวยของการวดเปน bits

ถาให T แทน เซตของ Training SetX แทน แอททรบวต ทถกเลอกใหเปนตวจ าแนกขอมล

Gain(x) = info(T) – infox(T)

Info(T) เปนฟงกชน ทระบปรมาณขอมลทตองการเพอใหสามารถจ าแนกคลาสทตองการได

เมอ |T| คอ จ านวนขอมลท งหมดใน Training DatasetsFreq(Cj,T) คอ ความถทขอมลใน T ปรากฏเปนคลาส Cj

info(T) =

Infox(T) คอ ฟงกชนทระบปรมาณขอมลทตองการเพอการจ าแนกคลาส ของขอมลโดยใช attribute X เปนตวตรวจสอบเพอแยกขอมล

Infox(T) =

เมอ i คอ จ านวนคาทเปนไปไดของแอททรบวต x|Ti| คอ จ านวนขอมลทมคา x=i

จากตวอยางขอมลจะหาคา gain ของแตละ attribute ทจะเลอกเปนRoot node

1. จะตองหาคา info(T)

2. หาคา infox(T) ของแตละแอททรบวต

คา infooutlook(T) หาไดดงน

แบบฝกหด จากขอมล ความคดเหนของคน 7 คน ทตองการเลอกผสมคร หมายเลข 1 หรอ หมายเลข 2 โดยพจารณาจากอาย รายได และการศกษา ของผแสดงความคดเหน ปรากฎดงตาราง ใหสราง Decision Tree โดยใช ID3 Algorithm

No Age Income Education Candidate

1 >=35 High High School 1

2 <35 Low University 1

3 >=35 High College 2

4 >=35 Low High School 2

5 >=35 High University 1

6 <35 High College 1

7 <35 Low High School 2