itsci practicalbps.moph.go.th/new_bps/sites/default/files... · itsci 20 มีนาคม 2559...

106
ITSCI www.itsci.mju.ac.th 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ คาวิชัย สาขาวิชาเทคโนโลยีสารสนเทศ คณะวิทยาศาตร์ มหาวิทยาลัยแม่โจ้

Upload: others

Post on 22-May-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

ITSC

I

www.itsci.mju.ac.th 20 มนาคม 2559

Practical Data Mining

With

RapidMiner Studio 7

เรยบเรยงโดยอาจารยนงคราญ ค าวชย

สาขาวชาเทคโนโลยสารสนเทศ คณะวทยาศาตร มหาวทยาลยแมโจ

Page 2: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 2 | 106

Contents

Chapter 1 Introduction to Data Mining ............................................................................................... 3

Chapter 2 Introduction to CRISP-DM ................................................................................................ 4

Workshop 1 : การตดตงโปรแกรม RipidMiner Studio7 .................................................................... 8

Chapter 4 Preprocess ....................................................................................................................... 12

Workshop 2: Create Repository .................................................................................................... 13

Chapter 5 Association Rules ............................................................................................................. 34

Workshop 3 Association Rules ..................................................................................................... 36

Chapter 6 Clustering ........................................................................................................................ 43

เทคนค K-Means Clustering ......................................................................................................... 43

เทคนคท 2 Agglomerative Clustering .......................................................................................... 56

เทคนค DBSCAN Clustering ......................................................................................................... 58

Chapter 7 Classification ................................................................................................................... 59

เทคนค Decision Tree .................................................................................................................. 62

เทคนค Naive Bayes ..................................................................................................................... 67

เทคนค K-Nearest Neighbors (kNN) ............................................................................................ 69

เทคนค Linear Regression ............................................................................................................. 73

เทคนค Neural Network ................................................................................................................ 75

เทคนค Support Vector Machines (SVM) ......................................................................................78

เทคนค Ensemble Classifiers (Vote) ............................................................................................. 83

เทคนค Attribute Selection ............................................................................................................87

เทคนค Compare classification performance ............................................................................. 92

Chapter 8 Introduction to Text Mining ............................................................................................ 95

Chapter 9 Introduction to Image Mining ........................................................................................ 102

อางอง............................................................................................................................................106

Content

Page 3: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 3 | 106

Chapter 1 Introduction to Data Mining

ในปจจบนในเชงของธรกจนนการมรานคาแตไมมขอมลลกคาไมชวยเรองการตลาด ยกตวอยาง

ความตองการลกคาและรานอาหารดวยทางบรษท IBM ถาวนไหนฝนตกจบพฤตกรรมลกคาไดมคนมา

ซอเคกมาขน วนไหนอากศรอนๆ จะมคนมาซอเนอสตวเพมขน เชนเดยวกบทางดานโทรศพทมอถอและ

โซเชยลการซอขายสนคาออนไลน ในแตละวนเราสรางขอมลขนมาโดยรตวและไมรตว เปนขอมลทเรา

สรางขนมานนสามารถแบงขอมลได 2 สวนคอในองคกร เปนลกษณะทเปนโครงสราง และนอกองคกร

เปนขอมลทเปน Data ทวไป พอมขอมลมากขนเรากรวมขอมลจากหลาย ๆ ทมาเกบไว Data

Warehouse ท าการ Prepare สามารถออกเปนรายงานเปน Dashboard ตางๆ เมอน ามาท าการวเคราะห

เราจะเรยกเปน Data Mining ซงขอมลในระดบนนบเรยกวาเปนเพชร เพราะมสงทซอนอยในขอมลของ

เรา ซงสามารถสรปใหเขาใจงายๆ ไดวา Data Warehouse นนเนนดงขอมลออกมาใหเรวทสด สวน Data

Mining คอกระบวนการน าสงทซอนอยในขอมลออกนนมาใหเกดประโยชน

BI & Data Mining

กราฟบอกแกนอดต และอนาคต Business Intelligence มองไปในอดต วามยอดขายอะไรเกด

ขนกบปทผานมา มปญหาอะไรบาง มองในมม BI การวเคราะหเปนในเชงบรรยายไมซบซอนมาก สวน

Data Mining เปนการน าขอมลอดตมาเพอจะท าการ Predict ท านายในอนาคตวาจะเกดอะไรขน อะไร

จะเกดขนในอนาคตขางหนา อนนคอความแตกตางกนระหวาง BI และ Data Mining

What is data mining?

ขอมล ใชเทคนคการท า Data Mining รปแบบทมประโยชน สงส าคญทซอนอย

Data mining กบการน าไปใชงาน

ยกตวอยางใหเหนภาพกบการน า Data Mining ไปใชงาน เกยวกบเปาหมายการชอปปง ในซปเปอรมา

เกต กบการใชงานรวมกบพวกบตรเครดตตาง ๆ บตรสมาชก (loyalty card) เชน บตรคลบการดของ

Lotus กจะท าใหเขาทราบพฤตกรรมการซอสนคาของลกคารวมบอย ๆ กจะหารปแบบ Pattern สวนลด

มาใหลกคาเพอจดโปรโมชนสวนลดแตละบคคลไป ตวอยางถดมาเชน ตวอยางเบยรและผาออม

ความหมายคอ ผชายจะออกไปซอของกลบบานทกวนศกรไปซอเบยรแลวกจะซอผาออมไปดวยใหลก

ในประเทศไทยเรามอะไรมกจะซอรวมกนบอยๆ ยกตวอยาง การซอขายขนน า มชวงทซอขนน าบอยๆ

คอเอาไปท าบญจดรวมกบพวกยาและของใช ตวอยางถดมาทาง TARGET คาดการณวาชวงไหนท

คนเราจะมการซอสนคาใชบอยๆ เขาคาดการณคอการตงครรภ เปาหมายลกคาของเขากดจาก

พฤตกรรมของลกคา พวกคณแมทดแลตวเองในแตละชวงของการตงครรภ ท าการวเคราะหพฤตกรรม

การซอสนคาของลกคาเพศหญง TARGET ท าจนรและท านายไดแมนมากๆ ในการจดสงโปรโมชนไปให

ทบาน จาก Shot หนงทในวดโอ เกยวกบการสงโปรโมชนการตงครรภไปใหลกสาวทบาน แตผเปนคน

Page 4: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 4 | 106

คณพอรบแทนเลยเกดการทะเลาะกน แตสดทายปรากฏวาลกสาวทองจรงๆ ฉะนนมมมองหนงทมอง

ในการใหขอมลถาเราใหไปแลวไดอะไรสกอยางกลบมากจะยอมใหขอมลสวนตวเราไปนนเอง

แนะน าสนคาทเกยวของเวบไซต Amazon.com จะเหนไดวาแถบบรเวณดานลางจะเหนการ

แนะน าหนงสอมาใหเกยวกบหนงสอทเกยวของกบเรองทเราซอไป และเชนเดยวกบ Netflix จะแนะน า

ภาพยนตจากคนทเคยดหนงเรองนนไปแลวแนะน าเรองทเกยวของให เชน Life of Pi เปนตน

เวลาเราเลอกซอ Application หนงไปแลวกจะมการแนะน าแอพทใกลเคยงมาใหเรา ตวอยาง

ถดมา Application เกยวกบ How-Old.net น าเสนอเกยวกบการน าเอารปของเราไปเทยบขอมลฐาน

ตวเลขอายจะมอยแลวน ามา Map กบใบหนารปเรา เทยบกบ Database บานเราชวงหลง ๆ กปรากฏ

ตวเลขใกลความเปนจรงมาขนคนกเรมไมใชละ

Google News จะเปนการจดกลมขาวทมกลมเดยวกนไวดวยกน เนอหาคลายๆ กนไวดวยกน

ระบบถดมาคอ Sentiment140 จาก Sentiment140.com วเคราะหทศนคตในแงตางๆ จากสงคมออนไลน

เมอคนตองการหาค าเชน iphone6 มนจะท าการท านายเกยวกบค านออกมาใหวาคนพดหรอบนคนนใน

แงมมบวกหรอลบออกมา

S-sence ของ NECTEC เปนเวอรชนไทย วเคราะหทศนคตในแงตาง ๆ จากสงคมออนไลน

http://pop.ssence.in.th

การคาดการณแนวโนมของตลาดหน ดวาคนทเขยน Blog หนในแตละวนมความเครยดมากนอย

ขนาดไหน Stock market , Anxiety index คาดการณวาวนใดกตามคนทเขยน Blog มความเครยดสง

หนจะตก โดยทงหมดนคอตวอยางของการน า Data Mining หรอขอมลมหาศาลไปใชประโยชนทงสน

Chapter 2 Introduction to CRISP-DM

ส าหรบมาตรฐานการท า Data Mining คอ CRISP-DM พฒนามาจาก 3 บรษท SPSS,

DaimlerChrysler NCR , พฒนาดวยขนตอน 6 ขนตอน

1. Business Understanding

ตงโจทยวาเราจะท า Data Mining ไปใชอยางไรใหเกดประโยชน เปนขนตอนแรกของ CRISP-DM

ท าความเขาใจกบปญหา หรอโอกาสทางธรกน ตงค าถามกอน

2. Data Understanding

จะหาขอมลจากไหน เพยงพอไหม โดยท าความเขาใจรวบรวมขอมลจาก ค าถามทเราตองการ

เชน ขอมลนกศกษา

3. Data Preparation ท าการ Clean หรอ Prepare ขอมลกอน

ขอมลของเรามความถกตองเพยงพอแลวหรอยง โดยขนตอนดงน

- ท าการคดเลอกขอมล (Data Selection) ก าหนดเปาหมายกอนวาจะท าอยางไร

Page 5: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 5 | 106

- ท าการกลนกรองขอมล (Data Cleaning) การลบขอมลซ าซอน แกไขขอมลทผดพลาด

เชนขอมลทผดรปแบบ ขอมลทหายไป ขอมล Outlier ทแปลกแยกจากคนอนผดปกต

คอนขางมาก เชน ตารางขอมลนกศกษาชนปท 1 ปการศกษา 2557

- แปลงรปแบบขอมล (Data transformation) เปนขนตอนการเตรยมขอมลใหอยในรปท

พรอมน าไปใชในการวเคราะห ตามอลกอรทมของ Data mining ทเลอกใช เชน เทคนคหา

ความสมพนธการซอตอครง ขอมส าหรบการหากฏความสมพนธ (Association Rules)

อกตวอยาง มขอความ Text ภาษาไทย Unstructured Data ใหไปเปนตารางเสยกอน เพอหา

ความซ าซอนหรอความบอยในการปรากฏค า ๆ นนบอยมากสดออกมา ตวอยงาถดมา

พวกรปภาพ ไมมโครงสราง กน ามาวเคราะหหาสทเกดขน เชน สแดง เขยว น าเงน ทเกดขน

ในภาพ ๆ นน

โดย 3 ขนตอนหลกนจะใชเวลาคอนขางนานมากๆ

4. Modeling การวเคราะหขอมลดวยเทคนคดาตาไมนง

- Classification เทคนคนเปนการน าขอมลในอดตมาท าการคาดการณทจะเกดขนอกใน

อนาคต เชน การเชคเมลวามนเปนสเปมหรอไมเปนสเปม วาเปนอเมลปกต ถามค าๆ นเขา

มาอกจดเปนสเป

- Clustering การจดกลมขอมลเปนกลมๆ

- Association rules การหาความสมพนธกนของขอมล เชน คนดหนงสอเลมนแลวจะด

หนงสออะไรอกบาง

โดยในการอธบายนจะเรมจากจดทงายๆ ขนไปหายาก

5. Evaluation การวดผลประเมนผล การพสจนขนตอนดไมด

เปนการวเคราหวามนตรงแลวหรอยง

เทคนคทเราใชเทคนค A และ B ตวไหนดกวากน ซงมนจะใชการเปรยบเทยบนกบงานวจย

6. Deployment การพฒนา

น าโมเดลทไดหรอผลการวเคราะหทไดไปใชงานจรง เชน ลกคาทมาซอเบยร แลวจะซอสนคา

อะไรอกบาง

ตวอยาง CRISP-DM

อางองจากงานวจยเรอง การใชเทคนคดาตาไมนงเพอพฒนาคณภาพการศกษานสตคณะ

วศวกรรมศาสตร

1. Business Understanding

นสตนกศกษาเลอกเรยนไมตรงกบความสามารถ เพอใหเลอกใหตรงความสามารถมากขน

2. Data Understanding

Page 6: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 6 | 106

ขอมลจากส านกทะเบยน โดยม 1. ขอมลทวไปของนกศกษา 2. ขอมลเกยวกบการลงทะเบยน

เกรดผลการเรยน

3. Data Preparation

คดเลอกวชาทเกยวของกบภาควชาตางๆ แลวแปลงขอมลใหเหมาะสมกบการวเคราะห จาก

ตารางตวอยางพบวาท าการ Join ตารางขอมลประวตสวนตวของนสต กบตารางขอมลการ

ลงทะเบยนของนสต โดยตดเลอกเฉพาะทส าคญทจะน ามาใช เชน เลอกคอลมพ รหสนสต

เพศ คอมพวเตอร คณตศาสตร ... GPA แลวจดเรยงล าดบเปน Low high ซงตรงนจะท า

ใหพบขอมลแถวตามจ านวนนกศกษาทงหมด

4. Modeling

โดยขอมลตรงนจะน าไปสรางโมเดลใหมขนมา วาถามนกศกษาใหมเขามา แลวมาใชแนวคด

โมเดลนวามการคดเลอกนกศกษาใหมวาดหรอไมด โดยเลอกแยกตามภาควชา เชน เครองกล

วศวะ โดยโมเดลทไดจะเปน Decision Tree โดยแบงขอมลออกเปน 2 สวน

- สวน 70% ของขอมลทงหมดใชในการสรางโมเดล Train

- สวน 30% ของขอมลน ามาท าการ Predict ท านายวามนถกหรอผด

ถาผลการท านายโมเดลถกแสดงวาโมเดลด

รปโมเดล Decision Tree ของภาควชาวศวกรรมคอมพวเตอร พบวา

รปขอดนคอ สามารถแปลงออกมาเปนกฏไดวา ถา Computer เปน High Good

5. Evaluation

การวดผลมาดวามความถกตองกเปอรเซนต จากขอมล 30% ทแบงไวสามารถค านวณคาความ

ถกตองในระดบใด เชน จากผลการค านวณของเดก Computer ชายออกมาเปน Row เลอก

Mathematics ผลเลอกออกมาเปน Row ทาง Physics

6. Deployment

สการพฒนาตามโมเดล

ตวอยางท 2 CRISP-DM

บรษทแหงหนงก าลงจะวางตลาด eReader รนใหม ตองการเพมยอดขายของผลตภณฑ

1. Business Understanding

ตองการท านายวาจะสงโปรโมชนอะไรไปใหลกคา

2. Data Understanding

ท าความเขาลกษณะของลกคาและการซอสนคาในเวบ โดยแบงกลมคนออกเปน 5 กลม

Innovators ลกคาทวางสปดาหแรกไป , Early Adopters หลกสปดาหแรกไมเกน 3 สปดาห,

Early Majority , Late Majority ลกคาทซอหลงจากสปดาหท 3 แตไม เกน 2 เดอนแรก ,

Laggards ลกคาทซอหลงจาก 2 เดอนแรก

3. Data Preparation

Page 7: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 7 | 106

ก าหนด Attribute user_ID ท าการ Mark ไว

4. Modeling

สรางโมเดลดวยเทคนค Decision Tree ออกไปในเชงลกนดเพราะเปนเรองจรง จะวเคราะหใน

หลายมม

5. Evaluation

ท าการทดสอบเพอแบงหาขอมลทใชในการท าสอบ ค านวนคาความถกตอง

6. Deployment

น าขอมลลกคาทยงไมเคยซอไปให eReader รนกอนท าการท านายดวยโมเดลทสรางขน แลว

จดสงขอมลโปรโมชนไปใหลกคาในชวงเวลาแตละกลม

Data Mining software ม 2 ฝง

- Commercial Software

- SAS Enterprise Miner

- IBM SPSS Modeler

- Rapid miner

- Open source software

- Rapid Miner Studio

- Weka

- R

RapidMiner software

เกดขนในป 2016 จาก Ingo Mierswa และ Ralf Kilnkenberg กอนหนาเวอรชน 6 และ 7 เปน

เวอรชนฟรแบบ Open Source ตวอยางบรษททใช RapidMiner บรษท Paypal

ท าไมถงเลอกใช RapidMiner ?

จากผลการส ารวจเวบไซต KDnuggets ในป 2014 พบวาผรวมตอบมผสนใจ Rapid Miner มาก

เปนอนดบ 1 และม Gartner ไดจดให Rapid Miner อยในกลม Leaders ส าหรบซอฟตแวรวเคราะหขอมล

ป 2016 ไดแก SAS, IBM , KNIME , Rapid Miner

RappidMiner Studio7

แบงเปน 2 เวอรชน ฟรและเสยงเงน แตกตางกนคอ Basic , Community , Professional ตวท

เสยเงนสามารถดงคาจาก Data Base ไดมากขน เชนจาก Amazon , Twitter สวนตวฟรสามารถดง

ออกจากพวก MySQL , SQL ไดและไมจ ากดอตราเรวในเครอง ฉะนนแตกตางกนตรงการดงขอมลจาก

แหลงอนๆ ภายนอกทเปนโซเชยล

RapidMiner Academia เวลาสมครใหใชอเมลสถาบน .ac.th ซงจะได license สามารถใชงาน 1 ป

Page 8: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 8 | 106

Workshop 1 : การตดตงโปรแกรม RipidMiner Studio7

1. ดาวนโหลดโปรแกรมจาก http://docs.rapidminer.com/studio/installation/

2. ตดตงโปรแกรมดบเบลคลกทไอคอนตวตดตงเพอด าเนนการ Install

3. คลก I Accept เพอรบทราบเงอนไข

4. รอการตดตง

Page 9: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 9 | 106

5. พบหนา Welcome to RapidMiner Studio คลกเลอกประเภทการเขาใ ชงานเปน Join the

RapidMiner Community

6. หนาตางแสดงภาพรวมของหนายนดตอนรบเขาสการใชงานประเภท Join the RapidMiner

Community

7. สรางขอมลสามาชกผใชงาน RapidMiner Community ดวยก าหนด Email และ Password สวน

บคคลส าหรบการใชงาน กรอกขอมลเสรจกดปม Create account

Page 10: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 10 | 106

8. เมอสรางขอมลผใชงานส าเรจจะพบหนาตาง We’ve sent you an email แจงใหผสมครเขาไป

ยนยนการสมครผานอเมลทใช โดยระบบไดด าเนนการจดสง Link ยนยนการใชงานให

9. ตวอยางของอเมลทไดรบเพอใหด าเนนการ Verify การสมครเขาใชงาน RapidMiner คลกลงค

confirm your email address

Page 11: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 11 | 106

10. การตดตง Rapid Miner Studio7 แบบทดลองใชงานส าเรจ สามารถใชงานได 15 วน

11. การท างานของ RapidMiner จะท างานเปน Process จากซายมอไปขวามอ สามารถจดเกบขอมล

ไวแลวน ามาแกไข

Page 12: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 12 | 106

12. หนาตา Interface RapidMiner Studio 7

- Repository ใชในการเกบขอมล

- Operator ไวเกบขอมลไฟลมาใชงาน

- Process เปนสวนของการท างาน

- Parameter เปนสวนทเกยวของ เชน การอานไฟลจาก Excel

Icon

Chapter 4 Preprocess

Data : ขอมลทมอยในตารางตาง ๆ ทประกอบไปดวยแถวและคอลมม ซงจะเรยกในแถวเปน ตวอยาง

(Example) สวนคอลมพเรยก แอททรบวต (Attribute) มหนาท (role) 3 แบบ คอ ID , Attribute เปน

แอทรบวตปกตทจะใชในการสรางโมเดลหรอเรยกวาฟเจอร ( feature) หรอตวแปรตน (independent) ,

label คอเปน Attribute ทเปนค าตอบ

Value type

คาของขอมลทเกบในแตละแอตทรบวต

- Polynomial ม 2 คาขนไป

Page 13: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 13 | 106

- Binominal ขอมลประเภท Category

- Numeric หรอ Integer ขอมลประเภทตวเลข

Workshop 2: Create Repository

1. กดปมสราง Repository

2. ก าหนดสราง new local repository

3. ตงชอ Repository วา RMTraining

Page 14: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 14 | 106

4. สรางโฟลเดอรส าหรบจดเกบงาน

5. สราง 2 โฟลเดอรชอ data และ process ไวใน RMTraning

CSV File

ขอมลทจะน าเขาไปใชงาน 2 แบบ CSV (Comma Separated Value) ใชเครองหมาย comma การน า

ไฟลเขามาใชงานได 2 แบบ 1. Import ในสวน Repositories โหลดมาใชงานไวใน Repositories แลวเรยกใช

งานไดตลอด ถาขอมลไฟล csv มการเปลยนแปลงจะไม update ตองท าการโหลดใหม แบบท 2 คอ

6. Operator Read CSV

การ Import File พมพเลอก Operators read csv แลวลากไปวางตรง Process

Page 15: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 15 | 106

ก าหนด File Encoding = UTF-8 เลอก Comma

เชอมตอสาย out ไปยง res ตวยอมความหมายคอ Fil = Input , Out = Output แลวกด Run

Page 16: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 16 | 106

หนาตางการแสดงผลในรปแบบตาง ๆ จากเมนฝงซายมอ เชน Data สามารถยายคอลมมขอมลได

Statistics

Page 17: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 17 | 106

Charts

Import Configuration Wizard มนจะมขอดกวาตรงทถามขอมลใหม มนจะท าการอานมาใหมแลว Update

ใหใหมทกครง คอแสดงใหเราเหน

การจดเกบบนทกไฟลไวท Repository ส าหรบการเรยกใชงาน

Page 18: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 18 | 106

การ Read Excel to Rapid

Excel เลอกไดมากกวา 1 Sheet เลอกไดหลาย ทละ 1

การแจง Filter

สถานะ Filter : all ทงหมด , no_missing_attributes เชค

คาวาง

Page 19: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 19 | 106

Data Exploration

แสดงขอมลทโหลดเขามาไดหลายรปแบบ เชน ตาราง คาสรปทางสถต กราฟรปแบบตาง ๆ การ Sort

ขอมลมากกวา 1 คอลมม ใชค าสงปม Ctrl รวม

แสดงคาสรปทางสถตมคอลมมตาง ๆ

Data Visualization

แสดงขอมลเปนกราฟในรปแบบตางๆ เชน กราฟแทง กราฟ Histogram กราฟวงกลม สามตวนจะ

แสดงคาเพยงตวแปรเดยว ถาตองการแสดงมากกวา 1 Attribute ใชกราฟการกระจายตว (Scantter)

Page 20: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 20 | 106

พบสงผดปกตเกดขน

7. Operator Select Attribute

Data Preparation การจดการขอมล (Preprocessing) การเลอกแอททรบวต ใช Selection เลอกตาม

ประเภท Select attribute เลอกบางประเภทมาใชงานบน Process โดยใหเชอมตอกบไฟล Read CSV

เลอก Attribute Filter type การเลอกขอมลเฉพาะบางคอลมมออกมา

Page 21: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 21 | 106

8. Operator Filter example เปนการกรอกเลอกขอมลบางเงอนไขออกมา

ก าหนดขอมล Filter

ผลลพธการรนโปรแกรมไดผลดงภาพ

Page 22: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 22 | 106

Data Preparation กรณมขอมล 2 ชดแลวตองการลงคขอมลเขามาดวยกนได ดวยการ Join

9. Inner Join

ใช Operators Join

ลาก Operator Join ไปวางไวท Process แลวลากเสนปลกเขาเชอมตอกนดงภาพ

Page 23: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 23 | 106

รนผลโปรแกรมไดดงภาพ

10. Replace Value

การเกบขอมลมาจากหลายๆ แหลงฐานขอมล มกจะเกดปญหาขอมลไมตรงกน

Page 24: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 24 | 106

F\z|WOMAN ค าสง | แทนค าวา หรอ

เปลยนเงอนไขการคนหา M\z|MAN replace by MALE

ผลการลพธโปรแกรม

Page 25: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 25 | 106

11. Replace missing Value

ขอมลบางอยางอาจจะขาดหายไป สามารถท าไดหลายวธ

กลมแรกถาพบวาไมมขอมล หรอกรอกขอมลผดพลาด มคา Error เกดขน 1 สามารถตดคา Example ทง

ไป หรอหาคามาใสแทนดวยการ Replace missing Value

สามารถท าไดดงน

- แทนทดวยคาทระบเอง เชน ไมระบ หรอ N/A

- แทนทดวยคาเฉลย (mean) ในกรณแอตทรบวตเปนตวเลข

- แทนทดวยคาฐานนยม ในกรณทขอมลเปน nominal

- แทนทคาดวย 0

ลากโอเปอรเรเตอร Replace Missing Value มาวางไวท Process ระหวาง Replace(2) ไปหา res

Page 26: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 26 | 106

ผลลพธของ regin ไมม null แลว

Page 27: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 27 | 106

เปลยนคาขอมล Chiden

ผลลพธทได

บนทกไฟลเกบไวท data ใน RMTraining

Page 28: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 28 | 106

12. Outlier : ขอมลแปลกแยก

จากการกระจายตวของขอมล

Detect Outlier by distance การวดระยะทางระหวางขอมล ตวทมระยะทางหางกบขอมลอน ๆ

มากๆ นาจะเปน Outlier

การคดระยะจด 2 จดทอยบนเสนตรงจากสตรโอพเนยน

เลอก Samples process17Outlier Detector

Page 29: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 29 | 106

หาระยะทางทมากทสดแลวก Sort ขอมลจากมากไปนอย ตวไหนทมระยะทางแปลกหางๆ มาก ๆ กจะ

เปน Outlier ทเกดขน จะเอา Outlier กตวกสามารถท าไดโดยเราเปนผก าหนด โดยตวอยางนสามารถ

น าไปใชกบตวอยางฟอรดได

ตวอยางถดมาตองการลบคา Outlier ออกไป ก าหนดคาเปน Fault

13. Discretization

การแปลงขอมลตวเลขใหเปนขอมล nominal โดยการแบงขอมลออกเปนชวง ๆ แบงตามเงอนไขท

ก าหนด โดยใช Discretize by User Specification

Page 30: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 30 | 106

Page 31: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 31 | 106

Page 32: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 32 | 106

14. Discretization : การแบงความถแตละชวงใหเทาๆกนเรยก Discretize by Frequency

15. Multiply

Page 33: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 33 | 106

Page 34: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 34 | 106

Chapter 5 Association Rules

การหาความสมพนธ หรอเรยกวา กฏความสมพนธ

เรมจากการ Market Basket Analysis จากการมองเหนวาคนซอสนคา1 ชน แลวนาจะเลอกซอ

สนคาใดตอรวม จากขอมลทไดจากการซอสนคาแตละครง จะพบวาการซอครงท 1 ซออะไรบาง แลว

Record ไว จากนนท าการบนทกขอมลคนถดๆไปเรอยๆ จ านวนแถวขอมลการซอกจะเพมมากยงขน

เรอยๆ เปน Transaction ซงขอมลทไดกไมสะดวกในการน าไปวเคราะห โดยทางทดกน าขอมลมาท าการ

แปลงขอมลเปนแถวโดย Group by ตามเวลาทซอสนคา

Support

นบจ านวนครงการซอสนคาแตละชนดคดเปน % ของการซอสนคา หรอการพบสนคา ท าการ

นบในการซอสนคา (จ านวนครง)

Frequent itemset

จ านวนสนคาทมการพบบอย รปแบบของการซอสนคา ( items) ทมคา support >= minimum

support การม Frequent กบ infrequent เพอเปนการกรองขอมลออกไป

สนคาใน Supermarket มจ านวน 3 ชนด โอกาสทเปนไปไดทงหมด (หรอ Subset ทงหมด)

ถาตวไหนไมผานเงอนไขทก าหนดใหตดทงเลย

การหากฏความสมพนธ (association rules) ม 2 ขนตอนใหญ ๆ

- Apriori : แอบเพยวร (Agrawal and Srikant, 1994)

สรางรปแบบสนคาทมการเพมจ านวนทละ 1 ถาผานเงอนไขกจะท าการ Join เพมไปเรอยๆ

แบบนมนจะชา เพราะการหาความสมพนธแตละครง กตองไปดงคาจาก Database ทกครง

หลกการท างาน superset ของรปแบบทเปน frequent Apriori นบจ านวนครงในการซอท

นอยกวา 50% ตดผาออมออก จบคใหเปน set ขน เมอเปน set ขอมลทอยขางในไม

Page 35: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 35 | 106

จ าเปนตองมล าดบ 1 ตวหนาทท าการ JOIN กนตองเหมอนกน เชน {Beer, Cereal, Eggs}

เพอใหไดมา Frequent Itemset สนคาทมการซอมากกวาหรอเทากบ 50% จะไดขนาด size

ออกมาดวย

- FP-Growth : เอฟพโกลฟ

ขนตอนท 1 ท าโดยการสราง Compact data Structure เรยก FP-Tree ขนมา โดยการอาน

ขอมลจากฐานขอมลเพยงแค 2 ครงเทานน แลวหาคา Support ของรปแบบการซอสนคา

(Items) ทมความยาว 1 แลวเรยงล าดบตาม Support ทค านวณได แลวมาท าการสราง

FP-Tree จากการอานขอมลในฐานขอมลเพยงหนงรอบ เชน เจอ Apple 1 ครงมนจะมลงค

ตอไปเกดเปน 1 เสนทาง ทวงไปโดยดวาตวไหนทมนสามารถซอนกนไดกซอนไป ขอดคอถา

ม Database 10ลานแถว เราสามารถท าทละสวนได แลว Free memory ทงไปได แลวเรยก

สวนทเหลอมาท างานตอได คอยๆ อานคามาท างาน Operator แบบนจะเรยก Stream

Database

ขนตอนท 2 สรางรปแบบของสนคาทซอบอยๆ (Frequent items) จาก FP-Tree โดยก าหนด

min_support = 50%

เปรยบเทยบผลงของ Apriori & FP-Growth จะพบวา FP-Growth จะเรวกวาแตผลลพธ

เหมอนกน

Association Rules : สรางกฏความสมพนธ

สรงจากสนคาทลกคาซอบอยๆ รปแบบของกฏ คอ LHS RHS

LHS คอ Left Hand Side สนคาทซอพรอมกนบอยๆ ดานซายของกฏ เชน Apple Cereal

RHS คอ Right Hand Side สนคาทซอพรอมกนบอยๆ ดานขวาของกฏ เชน Cereal Apple

ตววดประสทธภาพของกฏความสมพนธ

- Confidence

แสดงความเชอมนของกฏความสมพนธทเมอรปแบบ LHS เกดขนแลวรปแบบ RHS จะเกดขน%

ความนาจะเปน 1 ความนาจะเปนจะเกดขนดวยทกครง

ถา Confidence กฏนนสงนาสนใจกวา

- Lift

ถา Lift เกน 1 แสดงวาโอกาสจะเกดขนพรอมกนมากวาแยก

ถานอยกวา 1 แสดงวาตวลางมากกวาตวบน แสดงวาซอแยกมากกวา

Applications

ใชในการเพมยอดขายโดยการแนะน าสนคาทลกคามกจะซอพรอมกนบอย ๆ (cross-selling) ใช

ในการจดสนคาในราน เชน วางสนคาทลกคามกจะซอพรอม ๆ กนไวใกลๆ กน หรอวางสนคาไวใน

Catalog ตาง ๆ

Page 36: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 36 | 106

Workshop 3 Association Rules

จ าลองการซอสนคาแลวเกบไวใน Database การซอสนคามากกวา1 ชนด โดยใหผานกระบวนการ

Pivot จากขอมล โอเปอรเรเตอรทใช Pivot

1. Operator Pivot และ Retrieve

เชอมตอปลกเขาส Pivot

Page 37: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 37 | 106

ก าหนด Parameter

ผลลพธการรน

2. Operator numerical to Binominal

Page 38: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 38 | 106

3. ตอไปหาสนคาอะไรทเกดขนบอยๆ ดวย Operator fp-growth

ภาพการเชอมตอแตละโอเปอรเรเตอรใน Process

ก าหนดคา Parameter FP-Growth คลกออกจาก find min number of itemsets

จากนน Run โปรแกรม ผลลพธทไดดงภาพ

Page 39: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 39 | 106

สนคาทซอคกนบอย ๆ

หาสนคาทสนใจ

Page 40: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 40 | 106

4. Operator Create Association Rules

การเชอมตอแตละ Operator ทใชงานพรอมลากปลกเสนการเชอมตอดงภาพ

ก าหนดคา Parameter min confidence

Page 41: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 41 | 106

Run Program ดผลลพธไดดงภาพ

ตวอยาง Supermarket

มแอททรบวตตาง ๆ ในชดขอมล

Page 42: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 42 | 106

ขอมลความจรงการซอสนคามากกวา 50% ของแสนมนไมม

เปลยนเงอนไขเปน 0.2

Page 43: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 43 | 106

Chapter 6 Clustering

การจดกลมขอมล

ตวอยางแรก มรปผกและผลไมหลายๆ ชนด ถาอยากแบงขอมลรปภาพพวกนออกเปน 2

กลม จะแบงไดจากอะไรบาง ค าตอบ ส รปทรง เชน กลมมผกสเขยว กลมผกทไมใชส เขยว

รปทรง เชน ผกทรงกลม ทรงแทง ทรงกระบอก

ตวอยางถดมา พฤตกรรมการใชงานโทรศพทของคน 6 คน มการใชงานโทรศพทมากนอย

SMS มากนอยขนาดไหน ถาตองการแบงออกเปน 3 กลม ใครอยกลมเดยวกนบาง จากภาพพบวา 1

ค 6 คอ โทรมาก และ 2 ค 3 โทรนอย

ทงสองตวอยางน คอการแบงกลม โดยการแบงกลมสงทเหมอนกนอยกลมดวยกน คณสมบตทมมาก

ขน พฤตกรรมเดยวกนอยกลมเดยวกน สงเกตแตละกลมจะเรยกวา คลสเตอร ทมขอมลแตกตางกน

ตามกลมทแยก

วธการวด ใช Euclidean distance ระยะหางกนของกลมทแบง

สตรทได Euclidean distance ผลตางแกน X ก าลง 2 บวกกบ ผลตางของแกน Y ยกก าลง 2 เรา

สามารถมผลตางไดมากวา 3 มต โดยเอาผลตางทไดมาถอดสแควรด ท าการ Clustering ลกคาตาม

พฤตกรรมการใชงาน SMS และ Phone พอเรามา Map เปนรปภาพจะพบวามกลมทใชงานโทรศพท

มากๆ เปนสสม

Clustering : Applications

การแบงขอมลลกคาออกเปนกลมยอยๆ เพอจะไดเขาใจพฤตกรรมการบรโภคของลกคาไดดขน โดย

อาจจะจดเปนกลมๆ ออกมาแลวคอยเจาะเปนกลมๆ ไป เพอจดท าโปรโมชนใหลกคนตอไป

เทคนค K-Means Clustering

เปนประเภท partitional clustering

นยมใชในการท า Clustering K คอจ านวน กลม ตองการแบงกกลมคอคา K ตวแทนแตละ

กลม ใชเปนคาเฉลยของสมาชกในแตละกลม เลยเปนคา Means ขนมาให โดยคา Means

ออกมาเรยกเปนเซนพอย

วธการท างาน

ก าหนดจดศนยกลางของแตละคลสเตอร แลวหาระยะหางระหวางขอมลแตละตวกบจด

ศนยกลาง มน ของแตละคลสเตอร แลวก าหนดใหขอมลทอยในคลสเตอรทใกลสด แลว

ค านวณหาจดศนยกลางของแตละคลสเตอรใหม ท าซ าจนขอมลในคลสเตอรเดมไมมการ

เปลยนแปลง

Page 44: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 44 | 106

ตวอยาง K-Means

ในการแบงกลมรอบแรก K-Means จะยงไมเชอขอมลเทาไหร จะท าการท าซ าอกรอบ

จนกวาจะหาจดศนยกลางใหมวาจะไดผลลพธเทาเดมไหม ซงจากตวอยางไดผลการ

ค านวณระยะหางกบจดศนยกลางของแตละคลสเตอรอกครง ผลขอมลทกตวอย ใน

กลมคลสเตอรทแบงรอบแรก มนกจะหยดท างาน

จากผลการค านวณหาจดศนยกลางของแตละคลสเตอรพบวา คนทอยใน คลสเตอร 3

สง SMS มาสด โดยออกมาเปนคาเฉลย 115 และคนทอยในคลสเตอรกลม 1 ท าการ Phone

มากสด 132.5

K-Means กบการท าสมขอมล 3 ตวเพอเปนจดศนยกลางของคลสเตอร ดวยรปภาพ

จากนนจดใหขอมลแตละตวอยในกลมทมระยะหางจากจดศยยกลางนอยสด แลวหาจด

ศนยกลางของแตละคลสเตอรทแบงไวแลววดระยะหงเทยบกบจดศนยกลางใหมอกครง

ท าซ าอกครง

K ก าหนดกลม 3-4-5 กลม ไมเกนน ทงนสามารถใชทางสถตมาชวยค านวณเพอวด

ประสทธภาพของ Clustering แบงนอยใหญกวาระยะหางกจะมากขน ดวย Average within

centroid distance คาเฉลยระยะหางของทกจดจากจดศนยกลางของคลสเตอร = d1c +

d2c+d3c หาร 3 (จ านวนK) ทงนสามารรถวดประสทธภาพคลสเตอรดวยการปรบเปลยน

กลมของคลสเตอร K แลวท าการ Plot กราฟระหวางจ านวนกลมของคลสเตอรกบคา ดวย

Average within centroid distance

1. Operator K-Means

2. ใชงาน Operator

Page 45: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 45 | 106

3. ก าหนดคาพารามเตอร

ผลลพธจากการท า Clustering

เขยวโทรมาก

Page 46: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 46 | 106

จดศนยกลางเรยก Centroid Table

อยทเราสนใจขอมลในสวนใหญจบสวนนนออกมา

ตวอยาง Bank Call Center

มการโทรสอบถามขอมลประเภทเงนฝากแตละประเภท เงนก คาทใสแตละชอง 1 คอ สนใจ 0 คอ

ไมไดสนใจไมไดถาม น าเอาขอมลมาจดกลม แบงเปน 5 กลมกอน K=5

Page 47: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 47 | 106

มาท า Clustering

Page 48: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 48 | 106

ผลคาเฉลยของขอมลทอยในแตละคลสเตอร ขอมลทอยขางในมคาเปน O และ 1

ค าถามวาคาเฉลยในกลมไหนสนใจ Deposit_C มาสด คอ Cluster_3 , Cluster_0 สนใจโปรดก Load_C

และ Deposit_A แลวถาอยากทราบวาเกน 50% ไปมการชอบอะไรบาง ตรงนดไมไดเพราะไมม

ความสมพนธทเกดขน เราจะตองท าเพมดวยการหา Association Rule

4. Operators filter

Page 49: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 49 | 106

FP-Growth

มคา True , False

Page 50: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 50 | 106

ใหคลก Find min number of itemsets ออกกอน

หา Pattern ทเกดขนรวมกนบอยๆ โดยการจดกลมกอน สงทไดจะไดคอ สงทคลาย ๆ กน

Page 51: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 51 | 106

ตวเงอนไขทชวยกรองสงทเราสนใจ ในทนสนใจ Deposit_C

ตวอยาง Social Network

วเคราะหบนเครอขายสงคมออนไลน เพอท าการแบงกลม ผใชงานทมความชอบคลาย ๆ กน

ทงหมดจ านวน 30,000 คน คดเลอกกลมค า Keyword ทส าคญออกมามจ านวน 36 ค าทพบในขอความ

ในการใชงานของนกศกษาแตละคน มแอดทรบวตตางๆ เพศ อาย จ านวนทพดทพด ค าทเกดขนม

ลกษณะกครงออกมาเปนตวเลข แตปญหาทพบคอในไฟลทไดมาเพศไมไดก าหนดเปน 1,0 เลยตองเอา

คอลมพเพศออกไปกอน

โอเปอรเรเตอรทใชงาน : Retrieve , Replace Missing Value, Loop Parameters , K-Means

Cluster Distance Performance วดคาประสทธภาพ , Log เกบลอคใสในตารางไวกอนแลว

คอยมาพอทเปนกราฟ

Page 52: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 52 | 106

ท าการเคลยรขอมลใหดกอนสงเกตขอมลตอนแรกทน าเขามา gender เปน F/M

Double click สามเลยมฟามม Loop

Page 53: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 53 | 106

ท าใหมเอาออก Exclude

แลวทบไฟลเดมไปกอน

Page 54: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 54 | 106

Page 55: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 55 | 106

ตอนนม Error ใหคลกแกไขลป

เลอก K

ก าหนด Max = 20 , Steps = 19

Page 56: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 56 | 106

Charts เลอกแกน X = k และแกน Y เปน performance

เทคนคท 2 Agglomerative Clustering

เปนประเภท Hierarchical clustering

(แอคเพอเมอรทฟคลสเตอรลง) เปนการรวม Bottom up หมายความวาดขอมลแตละตว

เปน 1 คลสเตอรกอนคอยๆ รวมเปนชดทใหญขน ดทละคลสเตอร มเบอร 1-2-3-4-5-6 ไป

เรอยๆ แลวท าการเปรยบเทยบแตละตวไปเรอยๆ 1,2,3,4,5,6 แลวดเปนคๆ มาจบเปนกลม

จากภาพกราฟจะรวม 1 กบ 3 เปน 1 กลมคลสเตอรกอน ถดมาท าการเทยบกนแตละชด

ค าถามเบอร 1 จะเทยบกบสฟาไดอยางไร โดยท าการวดระยะหาง หรอความคลาย ระหวาง

ขอมลกบคลสเตอร

1. วดระยะหางเทยบกบขอมลทอยใกลสดในคลสเตอร : Single Link

2. วดระยะหางกบขอมลทอยไกลทสดในคลสเตอร : Complete Link

3. วดระยะหางเทยบกบขอมลทกตวในคลสเตอร : Average Link

สดทายมนจะท าการ Group เขามาเปนคลสเตอรเดยว

Page 57: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 57 | 106

กราฟเรยกเดนโดแกรม ยงหางกนมาจดมาก ใกลกน Group รวมกนได สดทายอยทเรา

พจารณาวาจะยอมรบความหางของจดไดมากนอยแคไหน เชน การตดกนในแนวแกน Y จะได

กลม 2กบ 3 รวมกน (หนา 325) การตดนอยไปเรอยๆ จะเหลอ 2 และ ตดเพมอกกจะเหลอ

กลมเดยว โดยมนจะท าของไปเรอยๆ จนเหลอจดสด มนจะใชเวลานานมากเวลาขอมลมากๆ

แลวกจะท างานเปนล าดบขนขนไปเรอย ๆ จนถงจดสดทายสงสด เหลอเพยง Group เดยว

ตวเลขหลงเครองหมาย : คอ ตวเลขชดทอยในหมายเลขนน ขางหนา : คอตวเลขจ านวนสเตปขางหลง :

คอคาทรวมไว เชน Step5 รวม 1 กบ 6 เขาไวดวยกน , Step7 คอ รวม 3 กบ 4 สวนคาในวงเวบคอคา

Distance

Graph แสดงภาพรวมของการท างานแตละโหนด แตละขนล าดบ

Page 58: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 58 | 106

สรปวา K-Mean มขอดแตถามขอมลทแปลกประหลาดมาก ๆ จะท าใหเกดเปนวง ๆ แตก

ออกมา เหมาะส าหรบกลมทมนเกาะกลมกนจรงๆ ซงจะมการแบงขอมลทมการแบงเปน

วงกลมหรอวงกลมได

เทคนค DBSCAN Clustering

เปนเทคนคการท า Clustering ดวยการพจารณาจ านวนขอมลทอยในรศมทก าหนด

พารามเตอรทส าคญ คอ

- Epsilon (แอพสลอน) คอ การระบรศมรอบขอมล

- min pints คอ เปนการระบจ านวนขอมลในรศม

ถามนอยใกลกนมากพอถอวาอยในกลมเดยวกน จะขยบไปอยทใกลกน ในตวอยางขยบไปดานบนขวา

เกดเปนเสนประวงกลมเขม แลวหาจดทมมากพอไหมกรวมกน ท าไปเรอย ๆ จนสดทายผลการ

แบงกลมขอมลดวยเทคนค DBSCAN จะไดผลทอยขางในวงกลมในสด

Workshop

ตวอยางเรยกใชท Sample Process 7_Clustering 12_DBSCAN

สรป DBSCAN มนเปนการท า Clustering อยางหนงเหมาะส าหรบการท าขอมลทแปลกๆ

คอนเซปคลสเตอรลง คอ มนจะท าการจดการแบงกลมคลายๆ กนใหอยในกลมเดยวกน แลว

จดศนยกลางทอยในแตละกลมมอะไรบาง

สรป

Association Rule รวมกนใชในการอธบายขอมลมากกวาการคาดการณสงทเกดขนในอนาคต

และเชนเดยวกบการ Clustering ไมสามารถคาดการณในอนาคตได ท าไดแคจดกลมใกอยในกลม

เดยวกนเทานน

Page 59: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 59 | 106

Chapter 7 Classification

งานสวนใหญของ Data Mining จะเปนในการท า Classification ซงสามารถพบในชวตประจ าวน

เชน การพยากรณอากาศ , เรอง Speech recognition , face recognition การอพโหลดรป แลวบอก

วาเปนหนาใครเชนในเฟสบค , Spam e-mail

ตวอยางการท า Spam e-mail classification

- ใหระบวา e-mail ไหนบางทเปน spam e-mail เชน Keyword ทมค าวา won , FREE,cash

ในบทนน าความคดมาสรางเปนโมเดลแลวสรางการท านายขอมลทมมาใหมได

- หา Keyword ทใชบงบอกเปน spam-email แลวสรางเปนตารางประกอบดวยคอลมม FREE,

Won, Cash , Type แลวก าหนด Keyword Y,N (หนา 356)

- สรางเปนโมเดล (Classification model) ได จากขอมล training data ซงมลาเบล (label) เปน

ค าตอบไวกอน บางทเรยกวาลาเบล หรอคลาส ถาลาเบลของเรองท านายฝนตก คอ ตก

หรอไมตก นศ.คนนควรเรยนวชาไหนด ลาเบลคอค าตอบวชา ฉะนนลาเบลคอค าตอบ

ของการท านายนน ๆ ตวไหนทเปนค าตอบมนจะอยลาสดของ Decision Tree โดยค าตอบ

เรมจากโหนดบนสดกอนไลมาลาสดกจะเจอค าตอบ สงทตองค านงถงคอ ถาค าตอบ

เปลยนโมเดลกจะเปลยนดวย ถาขอมลมมากขนอาจจะมขอมลทค านวณมากขนตาม

- น าขอมลใหม (unseen data) ท านายโดยใชโมเดล จากตวอยางเบอร 11 และ 12 เปน Spam

ทงค

สรป เอา Training Data Model

Classification & Regression

Regression ค าตอบจะเปนตวเลข

Classification คอตอบคาไมใชตวเลข เชน คลาส , ลาเบล Y,N

ขนตอนการสรางโมเดล

- Training Data

- Testing Data

ทงสองขนตอนมาจาก Training Data รวมใหญทงค หากผลการท าไมเหมาะสมกบเทคนคกตองเปลยน

เทคนคใหม

เอา Test Data มาทดสอบวาถกตองมากนอยแคไหน Prediction Results ถาผลการท านายออกมาตรงกน

กจะงานไดและวดประสทธภาพผลการท านายวาไดกเปอรเซนต

ตววดประสทธภาพของโมเดล (Classification)

- Confusion Matrix เปนการท านายไววาถกผดเทาไหร

Page 60: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 60 | 106

เปนตาราง ขนาดเทากบจ านวนแถวคณจ านวนคอลมมทม (หนา 365) ก าหนดสถานะผล

ดงน

- True Positive (TP)

- True Negative (TN)

- False Positive (FP)

- False Negative (FN)

มสไลดอยในเวบไซต

ตวทท านายมความถกมมทะแยงสง

- Precision ดสงทเรา Predict ออกมา แลวทายถกไดกเปอรเซนต

ผลการค านวณไดทายถกกตวจากผลทไดออกมาจากตวอยาง

Precision ส าหรบ normal มคา True Positive หาร ดวย TP+FP เชน 4/7x100 = 57.12%

Precision ส าหรบ spam มคาเทากบ 6/8x100 =75%

- Recall จ านวนทท านายถกกตว

ความถกตองของแตละค าตอบ

ในการทายวาสงทตองการคออะไร ตองการท านายจ านวนคนทปวยเยอะกวา จะดไดจาก Recall

ออกมาวาตวไหนใหค าตอบมากกวานอยกวา

อกตวจะมาชวยในการท านายชอ

- F-Measure ชวยหาคาเฉลยของ Precision และ Recall

เชนค านวณจากคาเฉลยของทงสองกอนหนาคอ 2XPrecisionXRecall หาร Precision+Recall

- Accuracy จ านวนขอมลทท านายถกของทกคลาส

จากผลตวอยางมการถกตงอทงหมด 10/15X100 = 66.6%

- ROC Graph & Area แสดงกราฟความสมพนธ ท านายถกไปทางแกนตง (Y) ถาทาย

ผดไปแนวแกนนอน (X)

มากสดอยดานลาง จะเรมจากดานลางกอน มเสนขนมาจากเบอร 12 (หนา 380) ถาม

ขอมลผดเกดเปนแนวนอนในเบอร 7 กราฟทไดจะขนมาแบบบรรใด ขนมาเปน Curve

ค าถามคอ ถาเราท านายถกเยอะๆ กราฟจะขนไปขางบน เปนโมเดลทด แตถาเปนเสน

ทะแยงมม กราฟเรมไมดแลว แสดงถงขอมลไมคอยด จากตวอยางจะเหนไดจากคอลมมท

ท านายไดผลเพมขนทละ 0.2 กราฟจะคอยๆ เพมขนไปเรอยๆ ในคอลมม 3-4

- ROC Curve มคาเขาใกล 1 จะแสดงวามประสทธภาพดกวา จากกราฟ

- Area Under Curve พนทใตกราฟ (AUC) ถาพนทใตกราฟเขาใกล 1 จะมพนทใตกราฟ

มาก ฉะนนมคามาก (เขาใกล 1) จะยงด

- สรปแลวเปนตววดประสทธภาพเหลานจะชวยมองในมมมองตาง ๆ ได

Page 61: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 61 | 106

Validation การแบงขอมลเพอทดสอบประสทธภาพของโมเดล

วธการทดสอบโมเดลแบงออกเปน 3 ตว

- Self-consistency test (use training set) เอา Training Data มาเปนตว Test เลย คอ

ใชขอมลเดมแลวมนมความถกตองมากนอยแคไหน

- Split test แบงออกเปน 2 สวนเลย คอ เปนโมเดล และสวนทดสอบ เชน 70% สราง

โมเดล 30% ใชทดสอบ หรอ 80:20 ใชขอมล 2 ชด เปน Training data ส าหรบสราง

Model และ Testing Data ส าหรบทดสอบ ถา Sampling มาดกไดขอมลทดสอบด Split

Test จะดเมอมขอมลมากๆ หมนหรอแสนตวขนไป

- Cross-validation test ใชคอนขางเยอะเหมอนกน การท า Split หลาย ๆ รอบ การท า

คลายๆ กบ Split แตแบงจ านวน N ชดเทาๆ กน เชน N=5 , N= 10 แลวท างานโดยการ

สรางโมเดลทงหมด N ตว จนครบ Split Test ท ารอบเดยวแลวจบไป คอเกบ1,2 ไว แตใน

Cross จะเอา 3 ไปเปนตวทดสอบ แลวใส 2 กลบเขาไป แลวเอา 1 เปนตวทดสอบ จะ

พบวาทกตวจะถกน ามาทดสอบหมด เราจะไดความถกตองเฉลยออกมาในแตละรอบ แต

ไมเหมาะกบการท าแบบนกบกรณทขอมลมากๆ ไมเหมาะ

ตวอยางของ 5-fold cross-validation

มขอมล 5 สวนแบงออกเปนกลมเทา ๆ กน เหลอง เขยว ฟา แดง มวง แลววนท าให

ครบ 5 รอบ เชนรอบท 1 ท าแลวเกบเปนตว Test ไว รอบท 2 เอาสเขยวใสเขาไป แลวทดสอบ

ดวยกลมสเหลอง ท าแบบนวนไปใหครบทกรอบส แลวสดทายเอาทกสมาเฉลยกน ค าถามจะ

เลอกใชโมเดลไหนดจากผลการรนทดสอบ ดตวโมเดลทไดตวไหนใหผลเฉลยออกมาไดดสด

เลอกตวนน แนวทางท 2 ไมใชงาน 5 ตวนเลย แตจะเอาทงหมด หนงแสนตวมาสรางโมเดล

อกท คอ ถามขอมล 5 แสนตว แตละรอบแบงโมเดล แสนตวกบแปดแสนตว (หนา 395)

สรปคอวดประสทธภาพกอนแลวหาเทคนคไหนเหมาะสม ระหวง A ,B, C ถาไดเทคนค

ไหนดทสดกเอาไปสรางเปนโมเดลทใชงานจรง

Classification Techniques

- Decision Tree

- Naïve Bayes

- K-Nearest Neighbors (kNN)

- Linear Regression

- Neural network

- Support Vector Machines

Page 62: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 62 | 106

- Ensemble Classifiers

- Attribute Selection

- Compare classification performance

Decision Tree การท างานเปนโหนด

โหนดทเปนทวๆ ไป X , โหลดทเปนลฟโหลดไมมอะไรมาตอ Y โหนดบนสด Root มเสนทเชอม

เรยก กง หรอ Branch , Internal Node ตวอธบายการตดสนใจไปเรอย ๆ

ขอด คอสามารถแทนความหมายไดงาย

Decision Tree เปนเทคนคทจ าแนกท าการหาจาก Training Data ทเราม Attribute ทวไปทมเชน

ม Free, won ,Cash จาก Label ทเราม มนจะตองมการแบงแยกค าตอบไดอยางชดเจนทสด ดวยการ

ค านวณคา Entropy (เอนโทป) และ Information Gain (IG)

สตร Entropy (c1) = -p(c1) log p(c1)

IG (parent, child) = Entropy (parent) – [p(c1) x Entropy(c1) + p(c2) x Entropy(c2)+…]

ลกษณะของคา Entropy ถาคาเหมอนกนหมดจะมคาเปน ศนย มาจากสตร ความนาจเปน 1

แอททรบวตไหนทจะน ามาเปน Root Node คอเอาแอทรบวตทสามารถแบงแยกค าตอบไดอยาง

ชดเจนกอน

ตวอยางขอมล Weather เกบสภาพภมอากาศจ านวน 14 วนเพอพจารณาวามการแขงขน

กฬาไดหรอไม (ถามวาม Yes กตว ตอบ = 9 แทนดวยรปสฟา No = 5 แทนดวยสสม) ผลของวงกลมยง

ไมไดแบงขอมลออกมาน าออกมาพอทค านวณ เขาสตร Entropy = 0.97 มคาใกล 1 แลวท าการกรอง

ขอมลจาก 14 ตวทมผลเปน Sunny

โหนดไหนแบงแยกค าตอบไดอยางชดเจนเปน root node กอน ในตวอยางเลอก outlook เพราะม

ค าตอบ outlook = overcast ทเปนสฟาลวนใหค าตอบในทางเดยวไดชดเจน

โมเดลเปลยนตามดาตาทม แตถามขอมลใหมมนตองเรยนรไดมากขน

ถาขอมลเปนตวเลข

- เรยงล าดบขอมลทเปนตวเลขจากนอยไปมาก

- แบงขอมลออกเปน 2 สวนโดยหาจดกงกลางระหวางคาตวเลข 2 คา

- ค านวณคา information Gain จากขอมล 2 สวนทแบงได

- เลอกจดกงกลางทใหคา Information Gain สงทสดมาใชงานตอ

Workshop : Decision Tree

Operator ทเกยวของ Retrieve, Decision Tree

Page 63: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 63 | 106

Page 64: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 64 | 106

Export file รป Tree ได

เปลยน Tree เปนกฏออกมา

Page 65: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 65 | 106

เลอกดในมมมองของ Tree Result

Page 66: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 66 | 106

พอได Validation ออกมาแลว น าขอมลไป Predict ตอ ทไดคอสเขยว เปนผลการท านาย

Page 67: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 67 | 106

เทคนค Naive Bayes : ใชหลกการความนาจะเปน (Probablility) ไมตองใช Tree

โอกาสทเกดเหตการณจากเหตการณทงหมด ใชสญลกษณ P() หรอ Pr() เชน การโยนเหรยนค

วามนาจะเปนของการเกดหวและกอย อกอนคอ Joint Probability คอ ความนาจะเปนของ 2

เหตการณทเกดขนรวมกน พรอมกน สดทายคอใชหลกการของ POP Probability (หนา 453) Bayes

Theorem โดย C คอ คลาส (หนา 454) รตวแปล X แตไมรตวแปล Y รค าตอบความนาจะเปนของ C

สตรทไดเกดจากการ Training Data

Workshop : Naive Bayes

Page 68: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 68 | 106

บอกความนาจะเปนของแตละคลาส

บอกคาความนาจะเปนทเกดขนในตาราง ถาไมเคยพบเหตการณนนมากอนเลยความนาจะเปน 0 พอ

ไปค านวณแลวจะเทากบศนย จะไดผลออกมาเปนศนย แกไดดวยเอาคา laplace correction ออกไป

Page 69: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 69 | 106

คลกเอาคา laplace correction ออก

เทคนค K-Nearest Neighbors (kNN) : ดจ านวนทใกลทสด K ตว

ตวอยางวเคราะหขอมลการใหยาของคนไขโดยดจากอายและคา Na/K เอาขอมล Training Data มา

วเคราะหไดดง หนา 480 จ านวนขอมลตวทใกลมมากสดจะเปนขอมลสนน ๆ

โอเปอรเรเตอรทเกยวของ

Page 70: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 70 | 106

Page 71: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 71 | 106

คลกท Performance เพอดคาผลลพธ

Page 72: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 72 | 106

Page 73: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 73 | 106

เทคนค Linear Regression : การแสดงผลแนวเสนตรง เปนการสรางสมการเพอแสดง

ความสมพนธของตวแปรอสระ (แอทรบวต) และตวแปรตาม (คลาสค าตอบ) ต าตอบทนาสนใจ

เปน “คาตวเลข”

ตวอยางผลการเรยน GPA นศ.ปรญญาตร และคาดการณวาตอนจบปรญญาโทดวยเกรดเทาไหร

ตววดคา Error วดประสทธภาพของ Regression

RMSE (Root Mean Square Error) สงแรกทมตองม Error กอน แลวน ามาเขาสตรการค านวณ น า

Training Data ทเตรยมไวมาค านวณ เอาจ านวน Error ทงหมดยกก าลงสองลบกบ Error ทงหมดถอด

Square Loot ถาวด Regression Error อยากใหมคาต าๆ นอยๆ จะด แตถาถามถงความถกตองเลขผลท

ไดสงๆ จะดกวา

Workshop :

Page 74: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 74 | 106

คาเดม

Page 75: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 75 | 106

เทคนค Neural Network : ท างานกบขอมลทมความซบซอนไดดกวา Linear

แบบ Basic คอโมเดลทางคณตศาสตรทเลยนแบบการท างานของสมองมนษญ แบงการท างาน

เปนวงกลม 1 วงกลม คอ 1 โหนด จะมการเรยงตวเปนชนๆ บนสดเรยก Input Node ชนสองเรยก

Hidden node มนซอนอยสรางขอมลให นอกสดเปน output node ทเปนตวเลข ดค าตอบตวไหน

มากกวากนเปนค าตอบนนไป สงเกตจากโหนดสแดง H1 มเสนเชอมเขามาหา การท างานส าคญคอคา

น าหนกทสงไปใหแตละเสนแตละโหนด มนจะมคาน าหนกอย เชน W11 คอ คาน าหนกจาก input node 1

ไปยง hidden node1 พอมเสนเชอมไปยง hidden node แตละตวแลวจะมการท างานขางในแตละตว เชน

Hidden node 1 จะมคาอยขางใน เขาไปแลวจะพบวา คาน าหนงสวนใหญจะเปฯ sigmoid function แตละ

ตวแปรจะมคา A1, A2,A3,A4,A5 เสน W1, W2,W3,W4,W5, แลวมา Sum หาผลรวมเฉลยออกไป มคา

เปน 0,1 โดยเรยกใช function ทใกลเคยงทสดในนน คอ f(x) = 1(1+eยกก าลงลบ x)

ถา label ทอยในโหนด active function ผล output note ทไดจะม active function กจะออกมา

เปน linear function

Neural Network โดยสวนใหญจะม 3 ชน input node , hidden node , output node

การม 3 ชนกสามารถท างานไดดแลว หากมการซบซอน hidden node เขามากไปอกมนจะเกด Over

fitting น าหนกบนเสนแตละเสนส าคญกบค าตอบวามผลมากนอยแคไหน ซงการท างาน neural

network จะเปนการท างานแบบ Back box มากกวา

งานทน าไปใชเทคนคนไมเหมาะกบการคาดการณทจะเอาไปอธบายตอ เชน จะคาดการณวา

ใครโกงไมโกงในการจะใหสนเชอกเงนควรเลอกใชเทคนคอนแทน

ตวอยางการใชงานกบโอเปอรเรเตอรทใช Read CSV, Neural Network

Page 76: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 76 | 106

การเพมคา Hidden

Page 77: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 77 | 106

ตวอยาง Gold trend prediction คาดการณทองค าวาจะขนหรอลง

Page 78: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 78 | 106

เทคนค Support Vector Machines (SVM) : ไอเดยคอเปนเทคนคทใชสมาการเสนตรงเสน

หนงมาพฒนา linear ทแบงขอมลออกเปน 2 คลาส (2ชด)

ความยากคอกรณมหลายเสน สงทเกดขนคอจดตดของขอบเสนขอมลทง 2 คลาส ตรงขอบของซาย

และขวาทง 2 คลาสเรยก Support Vector ของคลาส A และ Support Vector ของคลาส B ถาจดของส

มการขามเสนฝงใดฝงหนงมาจะทการเลอกโมเดลทมระยะหางระหวางคลาสมากทสด (หนา 555)

SVM มการใช Kernel function เพอท าการแปลงขอมลทไมสามารถใชโมเดล linear ไปอยมต

(dimension) ทสงขน โดยใช linear แบงขอมลไดงายขน (หนา 559)

Kernel function ชวยกรณทแบงขอมลไมไดมนจะท าการ Map dimension ทต ากวาไปอย

dimension ทสงขน แบงไดงายขนดวยเสนตรง

โอเปอรเรเตอรทใชงาน Retrieve , SVM(LibSVM) ใชส าหรบสรางโมเดล SVM

ตวอยาง Sonar เปนหน หรอ แร จากไฟล Sample Data Sonar

Page 79: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 79 | 106

วดประสทธภาพการท า

Page 80: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 80 | 106

ผลออกมายงไมคอยด SVM เพราะคา Rock เปน 0

ปรบคาดวย Optimize Parameter (Grid)

Page 81: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 81 | 106

Page 82: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 82 | 106

Page 83: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 83 | 106

ผลลพธทไดดขน

เทคนค Ensemble Classifiers (Vote) : เปนการสราง Classification model มากกวา 1 ตว

เพอชวยกน predict ค าตอบเหมาะส าหรบ 6 เทคนคกอนหนามนตดแลว ใหน าเทคนค เอสเซม

เปล คลาสซไฟเออ โมเดลนมประสทธภาพทดกวาการใช Classification model หนงโมเดล โมเดล

ตาง ๆ ตอง independent กน เทคนคการสรางใชโมเดลรวมกนเชน Tree , k-nearest neighbors ,

Neural Network โดยจะเชอผลจากการโหวตแลววา 2 ใน 3 มคาเหมอนกน โดยแตละโมเดลตองมคา

ความถกตองมากกวา 50%

โอเปอรเรเตอร Read CSV, Vote ใชในการสรางโมเดล Ensemble

Page 84: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 84 | 106

Page 85: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 85 | 106

ตวอยาง

เพม Operation เพอ ชวยการแกไขตวแปร k-NN อยากทราบวา K เปนเทาไหรด ใ ช Optimize

Parameter(Grid) เรยกคา K ใหเทาไร แลวชนท 2 กจะม Cross-validation

ผลโหวตตวไหนสงทสด มคา K ความถกตองมากทสด

Page 86: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 86 | 106

ผลการ Run

จากผลจะเหนวา K=2 ไดคาความถกตอง 83%

Page 87: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 87 | 106

เทคนค Attribute Selection : การเลอกแอทรบวต ทางทดใหเลอกตวแปรเฉพาะทจ าเปนหรอ

ส าคญใชงาน เลอกคาแอททรบวตแลวไปจบคถดไปเรอยๆ จาก 2 ไปเปน 3 ถา 2 ใหประสทธภาพได

ดกวาจบ 3 แสดงวาใชแค 2 กเพยงพอแลว แลวท าการตดคาซอยยอยออกมา ดวา 4 ดกวา 5 หรอไม

หาก 3 ดกวา 4 แสดงวาไมตองลดแลว เนอหานอยในเวบไซต http:///datatrainingtrend.com เรยก

Evolutionary , Genetic ท าเปนลกหลานตอยอยไปเรอยๆ

โอเปอรเรเตอร Optimize Weight (Evolutionary) ใหผลการสมดกวา Backward , Split-Validation แทน

เพราะจะท าใช Test

ตวอยาง Gold

Page 88: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 88 | 106

คา Performance ทได split

Page 89: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 89 | 106

Page 90: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 90 | 106

CD = 0 ตวไหนเปนศนยจะตดออกไป

ใช Select มาเลอก

Wet บอกไดวาจะเอาตงแตเทาไหรขนไป

Page 91: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 91 | 106

Page 92: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 92 | 106

เทคนค Compare classification performance : เปนการเปรยบเทยบวาตวไหนดกวาตวไหน

โอเปอรเรเตอร Multiply ใชกระจายใหเปนหลายๆ ชด ,

ไมม ไอด มแตลาเบล

Page 93: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 93 | 106

Page 94: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 94 | 106

ชวยพจารณาการเปรยบเทยบขอมล

Page 95: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 95 | 106

สรป เทคนคการท า Data Mining

1. การหากฏความสมพนธ association rule ตองการคาทมนเกดขนรวมกนบอยๆ คาทเราสนใจ

2. การจดกลมขอมลคลาย ๆ กนไวดวยกน Clustering ลกคาซอสนคาในกลมเดยวกนไวดวยกน

3. การสรางสงทมในอดตมาท านาย Classification ม Application คอนขางหลายตว

โดยทงหมดนเปนการอานคาเขามาเปนในรปแบบตารางเขามาพจารณาการท างานตอยอด

Chapter 8 Introduction to Text Mining

หลกการน า 3 หลกการของ Data Mining มาใชงาน ในตวซอฟตแวร Rapid Miner สามารถท าได

รปแบบขอมบม 3 แบบคอ

Page 96: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 96 | 106

- ขอมลทมโครงสรางในรปแบบตาราง excel , db

- ขอมลไมมโครงสราง ไมมอะไรบงบอกแถวหรอคอลมม Unstructured Data

- รปภาพ

ขอมลทไมมโครงสรางทเกบขอมลในรปแบบขอความ รปภาพ เสยงมจ านวนมากถง 80%

- V volume

- V velocity

- V vality

กลมค าทคลาย ๆ กน ขาวเดยวกนมาอยในกลมดวยกนคลายการท า clustering และการท างานดวย

Sentiment การใหความหมายของค า คนทมทศนคตอยางไรจดกลมเดยวกนดานบวกหรอลบ

Text Representation:

ในการวเคราะหขอมลขอความตองท าการแปลงขอมลใหอยในรปแบบทมโครงสราง จดวาเปน

Positive , Negative ตวอยางขอความจาก Twitter

Text Representation : Bag of Words

จ านวนความถของค าทเกดขนในขอความ แลวมาท าการตดค าขอความทพบความถบอย แลวท าการ

แปลงขอความมาเปนตาราง เรยกวา Bag of words ภาษาองกฤษสามารถท าไดในเรองตดค าเพราะมจด

stop ขอความ

Text Representation : Stemming

แปลงค าใหเปนรากศทพ (root) เชน finding เปน find การท า Stemming ตด e, se ,ing ทง

Text Representation : Remove stopwords

ตดค าทเปน stop word ทง แลวน าแอทรบวตทไดไปท างานตอดวย Convert text to structured data

Binary occurrence ถามค าทเกดขนในแตละเอกสารจะใหคาเปน 1 ถาไมเกดขนจะเปน 0 สนใจดวาเกด

หรอไมเกด ตวอยาง หนา 628 ขอจ ากดคอ มนบอกไดแตวา เกดหรอไมเกด แตไมสามารถบอกไดวา

เกดบอยแคไหน มนเลยมวธการท 2 คอการหา Term Frequency มนคอ จ านวนครงทค านนเกดขนใน

เอกสารทงหมด เกดขนบอยแคไหน เกดขน 10 แสดง 10 ตวเลขออกมา แตมนกมขอจ ากด เชนค า

Common เกดขนบอยมากๆ ในหลายๆ เอกสาร แลวเอกสารพวกนมนอยคนละ Label กน เชนเราจะท า

ค านนมนควรจะเกดใน Positive , Negative อยางเดยวแตมนดนไปเกดทง สองอยาง มนเลยมการแกไข

ขนดวย TF-IDE คอ จ านวนครงจองค าทเกดขนคณกบจ านวนค าทเกดเฉพาะเอกสารในคลาส ซงตวน

จะเปนตวทนยมใช แตจะพบปญหาเกยวกบคา แอททรบวตทมาก จงจ าเปนตองใชเทคนคการเลอกใช

Attribute ทส าคญหรอตองการจรง ๆ ออกมา

N-Gram sequences: จ านวนค าทพจารณาตอกน N ตว

- Unigram การดทละค า พจารณาการเกดขนของแตละค า

Page 97: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 97 | 106

- Bi-gram การดสองค าตดกน พจารณาการเกดขนของค าทตดกน 2 ค า เชน so good

- Tri-gram การดสามค าตดกน พจารณาการเกดขนของค าทตดกน 3 ค า เชน smells so

good

ตดตง install text mining plunging to RM7

คนหา plugin ชอ text processing หนา 650

จากนนปดแลวเปดเครองใหมใชงาน

ตวอยาง Sentiment analysis

โดยมขอมลทตดคดมาใหแลววาเปน Positive , Negative

โอเปอรเรเตอรทใช process document from files การอานจากไฟลมา

ท าการ Review หนงแตละเรอง

Page 98: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 98 | 106

C:\Users\nongkran\Dropbox\MyLeaning\Data

Mining\RapidMiner\dataset\Chapter8\review_polarity\txt_sentoken

Page 99: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 99 | 106

Page 100: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 100 | 106

Page 101: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 101 | 106

Page 102: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 102 | 106

Chapter 9 Introduction to Image Mining

ตวอยางการท า detect ปายทะเบยนรถยนตแบบอตโนมต , การท า detect ลายมอ , การแบงรปภาพ

ออกเปนกลม ๆ ประเภทตาง ๆ เชน รปกหลาบ กระตาย

Image Classification ในสายตามนษยสามารถบอกไดวาภาพไหนเปนภาพชายทะเล หรอภาพปาไม

เวลาการประมวลผลจะแปลคาสเปนเกสเกลกอน ใหเปนรปขาวด ากอน เหนความแตกตางของรปอย

ในรปเหลานแบงเปนพเซลในชองตางๆ จะมคาอย อยในชวง 0-255 โดย 0 คอสด า 255 คอ ขาว

ฉะนนสใดเขมเขาใกล 0 กจะมการ Convert image to structured data แปลงขอมลภาพมาเปนขอมลท

มโครงสรางในรปตาราง จดเปนคาส เชน ผลทได 188.2 ผลรปสนออกไปทางขาว เปน ประเภทรป

beach ทะเล ตวอยางท 2 ไดผล 52.41 ผลรปทไดคอไปทางด า ปรเภทรปนเปน forest รปปา แลวท า

การเกบรปไวแลวแปลงขอมลออกมา วธนท าอยางไดโดยการแปลงคาขอมลภาพเปน Pixel เมอได

ขอมลตารางแลวกน าไปสรางโมเดล Classification ได เปนรป Tree คอ Mean ถามากกวา 98.833 เปน

beach แตถาไปทางนอยกวา 98.833 เปนสด า

Install image plugin

ตวอยาง

Page 103: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 103 | 106

Page 104: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 104 | 106

Page 105: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 105 | 106

Page 106: ITSCI Practicalbps.moph.go.th/new_bps/sites/default/files... · ITSCI 20 มีนาคม 2559 Practical Data Mining With RapidMiner Studio 7 เรียบเรียงโดยอาจารย์นงคราญ

I t . n o n g k r a n @ g m a i l . c o m P a g e 106 | 106

อางององคความรการจดท าเอกสารฉบบนจากการเขารวมฝกอบรมหลกสตรการวเคราะหขอมลดวย

เทคนค Data Mining โดยซอฟตแวร Rapid Miner Studio7 ณ โรงแรมเค ย โฮม มหาวทยาลย

เกษตรศาสตร วทยาเขตบางเขน กรงเทพมหานคร รนท 12 ระหวางวนพฤหสบดท 17 มนาคม 2559

ถงวนเสาร ท 19 มนาคม 2559 โดยวทยากรผสอน ดร.เอกสทธ พชรวงศศกดา แหลงขอมลผอบรม

เวบไซต http://dataminingtrend.com/2014/ training/rapidminer-training-12/ และเฟสบต

https://www.facebook.com/datacube.th/

Reference