itsci practicalbps.moph.go.th/new_bps/sites/default/files... · itsci 20 มีนาคม 2559...
TRANSCRIPT
ITSC
I
www.itsci.mju.ac.th 20 มนาคม 2559
Practical Data Mining
With
RapidMiner Studio 7
เรยบเรยงโดยอาจารยนงคราญ ค าวชย
สาขาวชาเทคโนโลยสารสนเทศ คณะวทยาศาตร มหาวทยาลยแมโจ
I t . n o n g k r a n @ g m a i l . c o m P a g e 2 | 106
Contents
Chapter 1 Introduction to Data Mining ............................................................................................... 3
Chapter 2 Introduction to CRISP-DM ................................................................................................ 4
Workshop 1 : การตดตงโปรแกรม RipidMiner Studio7 .................................................................... 8
Chapter 4 Preprocess ....................................................................................................................... 12
Workshop 2: Create Repository .................................................................................................... 13
Chapter 5 Association Rules ............................................................................................................. 34
Workshop 3 Association Rules ..................................................................................................... 36
Chapter 6 Clustering ........................................................................................................................ 43
เทคนค K-Means Clustering ......................................................................................................... 43
เทคนคท 2 Agglomerative Clustering .......................................................................................... 56
เทคนค DBSCAN Clustering ......................................................................................................... 58
Chapter 7 Classification ................................................................................................................... 59
เทคนค Decision Tree .................................................................................................................. 62
เทคนค Naive Bayes ..................................................................................................................... 67
เทคนค K-Nearest Neighbors (kNN) ............................................................................................ 69
เทคนค Linear Regression ............................................................................................................. 73
เทคนค Neural Network ................................................................................................................ 75
เทคนค Support Vector Machines (SVM) ......................................................................................78
เทคนค Ensemble Classifiers (Vote) ............................................................................................. 83
เทคนค Attribute Selection ............................................................................................................87
เทคนค Compare classification performance ............................................................................. 92
Chapter 8 Introduction to Text Mining ............................................................................................ 95
Chapter 9 Introduction to Image Mining ........................................................................................ 102
อางอง............................................................................................................................................106
Content
I t . n o n g k r a n @ g m a i l . c o m P a g e 3 | 106
Chapter 1 Introduction to Data Mining
ในปจจบนในเชงของธรกจนนการมรานคาแตไมมขอมลลกคาไมชวยเรองการตลาด ยกตวอยาง
ความตองการลกคาและรานอาหารดวยทางบรษท IBM ถาวนไหนฝนตกจบพฤตกรรมลกคาไดมคนมา
ซอเคกมาขน วนไหนอากศรอนๆ จะมคนมาซอเนอสตวเพมขน เชนเดยวกบทางดานโทรศพทมอถอและ
โซเชยลการซอขายสนคาออนไลน ในแตละวนเราสรางขอมลขนมาโดยรตวและไมรตว เปนขอมลทเรา
สรางขนมานนสามารถแบงขอมลได 2 สวนคอในองคกร เปนลกษณะทเปนโครงสราง และนอกองคกร
เปนขอมลทเปน Data ทวไป พอมขอมลมากขนเรากรวมขอมลจากหลาย ๆ ทมาเกบไว Data
Warehouse ท าการ Prepare สามารถออกเปนรายงานเปน Dashboard ตางๆ เมอน ามาท าการวเคราะห
เราจะเรยกเปน Data Mining ซงขอมลในระดบนนบเรยกวาเปนเพชร เพราะมสงทซอนอยในขอมลของ
เรา ซงสามารถสรปใหเขาใจงายๆ ไดวา Data Warehouse นนเนนดงขอมลออกมาใหเรวทสด สวน Data
Mining คอกระบวนการน าสงทซอนอยในขอมลออกนนมาใหเกดประโยชน
BI & Data Mining
กราฟบอกแกนอดต และอนาคต Business Intelligence มองไปในอดต วามยอดขายอะไรเกด
ขนกบปทผานมา มปญหาอะไรบาง มองในมม BI การวเคราะหเปนในเชงบรรยายไมซบซอนมาก สวน
Data Mining เปนการน าขอมลอดตมาเพอจะท าการ Predict ท านายในอนาคตวาจะเกดอะไรขน อะไร
จะเกดขนในอนาคตขางหนา อนนคอความแตกตางกนระหวาง BI และ Data Mining
What is data mining?
ขอมล ใชเทคนคการท า Data Mining รปแบบทมประโยชน สงส าคญทซอนอย
Data mining กบการน าไปใชงาน
ยกตวอยางใหเหนภาพกบการน า Data Mining ไปใชงาน เกยวกบเปาหมายการชอปปง ในซปเปอรมา
เกต กบการใชงานรวมกบพวกบตรเครดตตาง ๆ บตรสมาชก (loyalty card) เชน บตรคลบการดของ
Lotus กจะท าใหเขาทราบพฤตกรรมการซอสนคาของลกคารวมบอย ๆ กจะหารปแบบ Pattern สวนลด
มาใหลกคาเพอจดโปรโมชนสวนลดแตละบคคลไป ตวอยางถดมาเชน ตวอยางเบยรและผาออม
ความหมายคอ ผชายจะออกไปซอของกลบบานทกวนศกรไปซอเบยรแลวกจะซอผาออมไปดวยใหลก
ในประเทศไทยเรามอะไรมกจะซอรวมกนบอยๆ ยกตวอยาง การซอขายขนน า มชวงทซอขนน าบอยๆ
คอเอาไปท าบญจดรวมกบพวกยาและของใช ตวอยางถดมาทาง TARGET คาดการณวาชวงไหนท
คนเราจะมการซอสนคาใชบอยๆ เขาคาดการณคอการตงครรภ เปาหมายลกคาของเขากดจาก
พฤตกรรมของลกคา พวกคณแมทดแลตวเองในแตละชวงของการตงครรภ ท าการวเคราะหพฤตกรรม
การซอสนคาของลกคาเพศหญง TARGET ท าจนรและท านายไดแมนมากๆ ในการจดสงโปรโมชนไปให
ทบาน จาก Shot หนงทในวดโอ เกยวกบการสงโปรโมชนการตงครรภไปใหลกสาวทบาน แตผเปนคน
I t . n o n g k r a n @ g m a i l . c o m P a g e 4 | 106
คณพอรบแทนเลยเกดการทะเลาะกน แตสดทายปรากฏวาลกสาวทองจรงๆ ฉะนนมมมองหนงทมอง
ในการใหขอมลถาเราใหไปแลวไดอะไรสกอยางกลบมากจะยอมใหขอมลสวนตวเราไปนนเอง
แนะน าสนคาทเกยวของเวบไซต Amazon.com จะเหนไดวาแถบบรเวณดานลางจะเหนการ
แนะน าหนงสอมาใหเกยวกบหนงสอทเกยวของกบเรองทเราซอไป และเชนเดยวกบ Netflix จะแนะน า
ภาพยนตจากคนทเคยดหนงเรองนนไปแลวแนะน าเรองทเกยวของให เชน Life of Pi เปนตน
เวลาเราเลอกซอ Application หนงไปแลวกจะมการแนะน าแอพทใกลเคยงมาใหเรา ตวอยาง
ถดมา Application เกยวกบ How-Old.net น าเสนอเกยวกบการน าเอารปของเราไปเทยบขอมลฐาน
ตวเลขอายจะมอยแลวน ามา Map กบใบหนารปเรา เทยบกบ Database บานเราชวงหลง ๆ กปรากฏ
ตวเลขใกลความเปนจรงมาขนคนกเรมไมใชละ
Google News จะเปนการจดกลมขาวทมกลมเดยวกนไวดวยกน เนอหาคลายๆ กนไวดวยกน
ระบบถดมาคอ Sentiment140 จาก Sentiment140.com วเคราะหทศนคตในแงตางๆ จากสงคมออนไลน
เมอคนตองการหาค าเชน iphone6 มนจะท าการท านายเกยวกบค านออกมาใหวาคนพดหรอบนคนนใน
แงมมบวกหรอลบออกมา
S-sence ของ NECTEC เปนเวอรชนไทย วเคราะหทศนคตในแงตาง ๆ จากสงคมออนไลน
http://pop.ssence.in.th
การคาดการณแนวโนมของตลาดหน ดวาคนทเขยน Blog หนในแตละวนมความเครยดมากนอย
ขนาดไหน Stock market , Anxiety index คาดการณวาวนใดกตามคนทเขยน Blog มความเครยดสง
หนจะตก โดยทงหมดนคอตวอยางของการน า Data Mining หรอขอมลมหาศาลไปใชประโยชนทงสน
Chapter 2 Introduction to CRISP-DM
ส าหรบมาตรฐานการท า Data Mining คอ CRISP-DM พฒนามาจาก 3 บรษท SPSS,
DaimlerChrysler NCR , พฒนาดวยขนตอน 6 ขนตอน
1. Business Understanding
ตงโจทยวาเราจะท า Data Mining ไปใชอยางไรใหเกดประโยชน เปนขนตอนแรกของ CRISP-DM
ท าความเขาใจกบปญหา หรอโอกาสทางธรกน ตงค าถามกอน
2. Data Understanding
จะหาขอมลจากไหน เพยงพอไหม โดยท าความเขาใจรวบรวมขอมลจาก ค าถามทเราตองการ
เชน ขอมลนกศกษา
3. Data Preparation ท าการ Clean หรอ Prepare ขอมลกอน
ขอมลของเรามความถกตองเพยงพอแลวหรอยง โดยขนตอนดงน
- ท าการคดเลอกขอมล (Data Selection) ก าหนดเปาหมายกอนวาจะท าอยางไร
I t . n o n g k r a n @ g m a i l . c o m P a g e 5 | 106
- ท าการกลนกรองขอมล (Data Cleaning) การลบขอมลซ าซอน แกไขขอมลทผดพลาด
เชนขอมลทผดรปแบบ ขอมลทหายไป ขอมล Outlier ทแปลกแยกจากคนอนผดปกต
คอนขางมาก เชน ตารางขอมลนกศกษาชนปท 1 ปการศกษา 2557
- แปลงรปแบบขอมล (Data transformation) เปนขนตอนการเตรยมขอมลใหอยในรปท
พรอมน าไปใชในการวเคราะห ตามอลกอรทมของ Data mining ทเลอกใช เชน เทคนคหา
ความสมพนธการซอตอครง ขอมส าหรบการหากฏความสมพนธ (Association Rules)
อกตวอยาง มขอความ Text ภาษาไทย Unstructured Data ใหไปเปนตารางเสยกอน เพอหา
ความซ าซอนหรอความบอยในการปรากฏค า ๆ นนบอยมากสดออกมา ตวอยงาถดมา
พวกรปภาพ ไมมโครงสราง กน ามาวเคราะหหาสทเกดขน เชน สแดง เขยว น าเงน ทเกดขน
ในภาพ ๆ นน
โดย 3 ขนตอนหลกนจะใชเวลาคอนขางนานมากๆ
4. Modeling การวเคราะหขอมลดวยเทคนคดาตาไมนง
- Classification เทคนคนเปนการน าขอมลในอดตมาท าการคาดการณทจะเกดขนอกใน
อนาคต เชน การเชคเมลวามนเปนสเปมหรอไมเปนสเปม วาเปนอเมลปกต ถามค าๆ นเขา
มาอกจดเปนสเป
- Clustering การจดกลมขอมลเปนกลมๆ
- Association rules การหาความสมพนธกนของขอมล เชน คนดหนงสอเลมนแลวจะด
หนงสออะไรอกบาง
โดยในการอธบายนจะเรมจากจดทงายๆ ขนไปหายาก
5. Evaluation การวดผลประเมนผล การพสจนขนตอนดไมด
เปนการวเคราหวามนตรงแลวหรอยง
เทคนคทเราใชเทคนค A และ B ตวไหนดกวากน ซงมนจะใชการเปรยบเทยบนกบงานวจย
6. Deployment การพฒนา
น าโมเดลทไดหรอผลการวเคราะหทไดไปใชงานจรง เชน ลกคาทมาซอเบยร แลวจะซอสนคา
อะไรอกบาง
ตวอยาง CRISP-DM
อางองจากงานวจยเรอง การใชเทคนคดาตาไมนงเพอพฒนาคณภาพการศกษานสตคณะ
วศวกรรมศาสตร
1. Business Understanding
นสตนกศกษาเลอกเรยนไมตรงกบความสามารถ เพอใหเลอกใหตรงความสามารถมากขน
2. Data Understanding
I t . n o n g k r a n @ g m a i l . c o m P a g e 6 | 106
ขอมลจากส านกทะเบยน โดยม 1. ขอมลทวไปของนกศกษา 2. ขอมลเกยวกบการลงทะเบยน
เกรดผลการเรยน
3. Data Preparation
คดเลอกวชาทเกยวของกบภาควชาตางๆ แลวแปลงขอมลใหเหมาะสมกบการวเคราะห จาก
ตารางตวอยางพบวาท าการ Join ตารางขอมลประวตสวนตวของนสต กบตารางขอมลการ
ลงทะเบยนของนสต โดยตดเลอกเฉพาะทส าคญทจะน ามาใช เชน เลอกคอลมพ รหสนสต
เพศ คอมพวเตอร คณตศาสตร ... GPA แลวจดเรยงล าดบเปน Low high ซงตรงนจะท า
ใหพบขอมลแถวตามจ านวนนกศกษาทงหมด
4. Modeling
โดยขอมลตรงนจะน าไปสรางโมเดลใหมขนมา วาถามนกศกษาใหมเขามา แลวมาใชแนวคด
โมเดลนวามการคดเลอกนกศกษาใหมวาดหรอไมด โดยเลอกแยกตามภาควชา เชน เครองกล
วศวะ โดยโมเดลทไดจะเปน Decision Tree โดยแบงขอมลออกเปน 2 สวน
- สวน 70% ของขอมลทงหมดใชในการสรางโมเดล Train
- สวน 30% ของขอมลน ามาท าการ Predict ท านายวามนถกหรอผด
ถาผลการท านายโมเดลถกแสดงวาโมเดลด
รปโมเดล Decision Tree ของภาควชาวศวกรรมคอมพวเตอร พบวา
รปขอดนคอ สามารถแปลงออกมาเปนกฏไดวา ถา Computer เปน High Good
5. Evaluation
การวดผลมาดวามความถกตองกเปอรเซนต จากขอมล 30% ทแบงไวสามารถค านวณคาความ
ถกตองในระดบใด เชน จากผลการค านวณของเดก Computer ชายออกมาเปน Row เลอก
Mathematics ผลเลอกออกมาเปน Row ทาง Physics
6. Deployment
สการพฒนาตามโมเดล
ตวอยางท 2 CRISP-DM
บรษทแหงหนงก าลงจะวางตลาด eReader รนใหม ตองการเพมยอดขายของผลตภณฑ
1. Business Understanding
ตองการท านายวาจะสงโปรโมชนอะไรไปใหลกคา
2. Data Understanding
ท าความเขาลกษณะของลกคาและการซอสนคาในเวบ โดยแบงกลมคนออกเปน 5 กลม
Innovators ลกคาทวางสปดาหแรกไป , Early Adopters หลกสปดาหแรกไมเกน 3 สปดาห,
Early Majority , Late Majority ลกคาทซอหลงจากสปดาหท 3 แตไม เกน 2 เดอนแรก ,
Laggards ลกคาทซอหลงจาก 2 เดอนแรก
3. Data Preparation
I t . n o n g k r a n @ g m a i l . c o m P a g e 7 | 106
ก าหนด Attribute user_ID ท าการ Mark ไว
4. Modeling
สรางโมเดลดวยเทคนค Decision Tree ออกไปในเชงลกนดเพราะเปนเรองจรง จะวเคราะหใน
หลายมม
5. Evaluation
ท าการทดสอบเพอแบงหาขอมลทใชในการท าสอบ ค านวนคาความถกตอง
6. Deployment
น าขอมลลกคาทยงไมเคยซอไปให eReader รนกอนท าการท านายดวยโมเดลทสรางขน แลว
จดสงขอมลโปรโมชนไปใหลกคาในชวงเวลาแตละกลม
Data Mining software ม 2 ฝง
- Commercial Software
- SAS Enterprise Miner
- IBM SPSS Modeler
- Rapid miner
- Open source software
- Rapid Miner Studio
- Weka
- R
RapidMiner software
เกดขนในป 2016 จาก Ingo Mierswa และ Ralf Kilnkenberg กอนหนาเวอรชน 6 และ 7 เปน
เวอรชนฟรแบบ Open Source ตวอยางบรษททใช RapidMiner บรษท Paypal
ท าไมถงเลอกใช RapidMiner ?
จากผลการส ารวจเวบไซต KDnuggets ในป 2014 พบวาผรวมตอบมผสนใจ Rapid Miner มาก
เปนอนดบ 1 และม Gartner ไดจดให Rapid Miner อยในกลม Leaders ส าหรบซอฟตแวรวเคราะหขอมล
ป 2016 ไดแก SAS, IBM , KNIME , Rapid Miner
RappidMiner Studio7
แบงเปน 2 เวอรชน ฟรและเสยงเงน แตกตางกนคอ Basic , Community , Professional ตวท
เสยเงนสามารถดงคาจาก Data Base ไดมากขน เชนจาก Amazon , Twitter สวนตวฟรสามารถดง
ออกจากพวก MySQL , SQL ไดและไมจ ากดอตราเรวในเครอง ฉะนนแตกตางกนตรงการดงขอมลจาก
แหลงอนๆ ภายนอกทเปนโซเชยล
RapidMiner Academia เวลาสมครใหใชอเมลสถาบน .ac.th ซงจะได license สามารถใชงาน 1 ป
I t . n o n g k r a n @ g m a i l . c o m P a g e 8 | 106
Workshop 1 : การตดตงโปรแกรม RipidMiner Studio7
1. ดาวนโหลดโปรแกรมจาก http://docs.rapidminer.com/studio/installation/
2. ตดตงโปรแกรมดบเบลคลกทไอคอนตวตดตงเพอด าเนนการ Install
3. คลก I Accept เพอรบทราบเงอนไข
4. รอการตดตง
I t . n o n g k r a n @ g m a i l . c o m P a g e 9 | 106
5. พบหนา Welcome to RapidMiner Studio คลกเลอกประเภทการเขาใ ชงานเปน Join the
RapidMiner Community
6. หนาตางแสดงภาพรวมของหนายนดตอนรบเขาสการใชงานประเภท Join the RapidMiner
Community
7. สรางขอมลสามาชกผใชงาน RapidMiner Community ดวยก าหนด Email และ Password สวน
บคคลส าหรบการใชงาน กรอกขอมลเสรจกดปม Create account
I t . n o n g k r a n @ g m a i l . c o m P a g e 10 | 106
8. เมอสรางขอมลผใชงานส าเรจจะพบหนาตาง We’ve sent you an email แจงใหผสมครเขาไป
ยนยนการสมครผานอเมลทใช โดยระบบไดด าเนนการจดสง Link ยนยนการใชงานให
9. ตวอยางของอเมลทไดรบเพอใหด าเนนการ Verify การสมครเขาใชงาน RapidMiner คลกลงค
confirm your email address
I t . n o n g k r a n @ g m a i l . c o m P a g e 11 | 106
10. การตดตง Rapid Miner Studio7 แบบทดลองใชงานส าเรจ สามารถใชงานได 15 วน
11. การท างานของ RapidMiner จะท างานเปน Process จากซายมอไปขวามอ สามารถจดเกบขอมล
ไวแลวน ามาแกไข
I t . n o n g k r a n @ g m a i l . c o m P a g e 12 | 106
12. หนาตา Interface RapidMiner Studio 7
- Repository ใชในการเกบขอมล
- Operator ไวเกบขอมลไฟลมาใชงาน
- Process เปนสวนของการท างาน
- Parameter เปนสวนทเกยวของ เชน การอานไฟลจาก Excel
Icon
Chapter 4 Preprocess
Data : ขอมลทมอยในตารางตาง ๆ ทประกอบไปดวยแถวและคอลมม ซงจะเรยกในแถวเปน ตวอยาง
(Example) สวนคอลมพเรยก แอททรบวต (Attribute) มหนาท (role) 3 แบบ คอ ID , Attribute เปน
แอทรบวตปกตทจะใชในการสรางโมเดลหรอเรยกวาฟเจอร ( feature) หรอตวแปรตน (independent) ,
label คอเปน Attribute ทเปนค าตอบ
Value type
คาของขอมลทเกบในแตละแอตทรบวต
- Polynomial ม 2 คาขนไป
I t . n o n g k r a n @ g m a i l . c o m P a g e 13 | 106
- Binominal ขอมลประเภท Category
- Numeric หรอ Integer ขอมลประเภทตวเลข
Workshop 2: Create Repository
1. กดปมสราง Repository
2. ก าหนดสราง new local repository
3. ตงชอ Repository วา RMTraining
I t . n o n g k r a n @ g m a i l . c o m P a g e 14 | 106
4. สรางโฟลเดอรส าหรบจดเกบงาน
5. สราง 2 โฟลเดอรชอ data และ process ไวใน RMTraning
CSV File
ขอมลทจะน าเขาไปใชงาน 2 แบบ CSV (Comma Separated Value) ใชเครองหมาย comma การน า
ไฟลเขามาใชงานได 2 แบบ 1. Import ในสวน Repositories โหลดมาใชงานไวใน Repositories แลวเรยกใช
งานไดตลอด ถาขอมลไฟล csv มการเปลยนแปลงจะไม update ตองท าการโหลดใหม แบบท 2 คอ
6. Operator Read CSV
การ Import File พมพเลอก Operators read csv แลวลากไปวางตรง Process
I t . n o n g k r a n @ g m a i l . c o m P a g e 15 | 106
ก าหนด File Encoding = UTF-8 เลอก Comma
เชอมตอสาย out ไปยง res ตวยอมความหมายคอ Fil = Input , Out = Output แลวกด Run
I t . n o n g k r a n @ g m a i l . c o m P a g e 16 | 106
หนาตางการแสดงผลในรปแบบตาง ๆ จากเมนฝงซายมอ เชน Data สามารถยายคอลมมขอมลได
Statistics
I t . n o n g k r a n @ g m a i l . c o m P a g e 17 | 106
Charts
Import Configuration Wizard มนจะมขอดกวาตรงทถามขอมลใหม มนจะท าการอานมาใหมแลว Update
ใหใหมทกครง คอแสดงใหเราเหน
การจดเกบบนทกไฟลไวท Repository ส าหรบการเรยกใชงาน
I t . n o n g k r a n @ g m a i l . c o m P a g e 18 | 106
การ Read Excel to Rapid
Excel เลอกไดมากกวา 1 Sheet เลอกไดหลาย ทละ 1
การแจง Filter
สถานะ Filter : all ทงหมด , no_missing_attributes เชค
คาวาง
I t . n o n g k r a n @ g m a i l . c o m P a g e 19 | 106
Data Exploration
แสดงขอมลทโหลดเขามาไดหลายรปแบบ เชน ตาราง คาสรปทางสถต กราฟรปแบบตาง ๆ การ Sort
ขอมลมากกวา 1 คอลมม ใชค าสงปม Ctrl รวม
แสดงคาสรปทางสถตมคอลมมตาง ๆ
Data Visualization
แสดงขอมลเปนกราฟในรปแบบตางๆ เชน กราฟแทง กราฟ Histogram กราฟวงกลม สามตวนจะ
แสดงคาเพยงตวแปรเดยว ถาตองการแสดงมากกวา 1 Attribute ใชกราฟการกระจายตว (Scantter)
I t . n o n g k r a n @ g m a i l . c o m P a g e 20 | 106
พบสงผดปกตเกดขน
7. Operator Select Attribute
Data Preparation การจดการขอมล (Preprocessing) การเลอกแอททรบวต ใช Selection เลอกตาม
ประเภท Select attribute เลอกบางประเภทมาใชงานบน Process โดยใหเชอมตอกบไฟล Read CSV
เลอก Attribute Filter type การเลอกขอมลเฉพาะบางคอลมมออกมา
I t . n o n g k r a n @ g m a i l . c o m P a g e 21 | 106
8. Operator Filter example เปนการกรอกเลอกขอมลบางเงอนไขออกมา
ก าหนดขอมล Filter
ผลลพธการรนโปรแกรมไดผลดงภาพ
I t . n o n g k r a n @ g m a i l . c o m P a g e 22 | 106
Data Preparation กรณมขอมล 2 ชดแลวตองการลงคขอมลเขามาดวยกนได ดวยการ Join
9. Inner Join
ใช Operators Join
ลาก Operator Join ไปวางไวท Process แลวลากเสนปลกเขาเชอมตอกนดงภาพ
I t . n o n g k r a n @ g m a i l . c o m P a g e 23 | 106
รนผลโปรแกรมไดดงภาพ
10. Replace Value
การเกบขอมลมาจากหลายๆ แหลงฐานขอมล มกจะเกดปญหาขอมลไมตรงกน
I t . n o n g k r a n @ g m a i l . c o m P a g e 24 | 106
F\z|WOMAN ค าสง | แทนค าวา หรอ
เปลยนเงอนไขการคนหา M\z|MAN replace by MALE
ผลการลพธโปรแกรม
I t . n o n g k r a n @ g m a i l . c o m P a g e 25 | 106
11. Replace missing Value
ขอมลบางอยางอาจจะขาดหายไป สามารถท าไดหลายวธ
กลมแรกถาพบวาไมมขอมล หรอกรอกขอมลผดพลาด มคา Error เกดขน 1 สามารถตดคา Example ทง
ไป หรอหาคามาใสแทนดวยการ Replace missing Value
สามารถท าไดดงน
- แทนทดวยคาทระบเอง เชน ไมระบ หรอ N/A
- แทนทดวยคาเฉลย (mean) ในกรณแอตทรบวตเปนตวเลข
- แทนทดวยคาฐานนยม ในกรณทขอมลเปน nominal
- แทนทคาดวย 0
ลากโอเปอรเรเตอร Replace Missing Value มาวางไวท Process ระหวาง Replace(2) ไปหา res
I t . n o n g k r a n @ g m a i l . c o m P a g e 26 | 106
ผลลพธของ regin ไมม null แลว
I t . n o n g k r a n @ g m a i l . c o m P a g e 27 | 106
เปลยนคาขอมล Chiden
ผลลพธทได
บนทกไฟลเกบไวท data ใน RMTraining
I t . n o n g k r a n @ g m a i l . c o m P a g e 28 | 106
12. Outlier : ขอมลแปลกแยก
จากการกระจายตวของขอมล
Detect Outlier by distance การวดระยะทางระหวางขอมล ตวทมระยะทางหางกบขอมลอน ๆ
มากๆ นาจะเปน Outlier
การคดระยะจด 2 จดทอยบนเสนตรงจากสตรโอพเนยน
เลอก Samples process17Outlier Detector
I t . n o n g k r a n @ g m a i l . c o m P a g e 29 | 106
หาระยะทางทมากทสดแลวก Sort ขอมลจากมากไปนอย ตวไหนทมระยะทางแปลกหางๆ มาก ๆ กจะ
เปน Outlier ทเกดขน จะเอา Outlier กตวกสามารถท าไดโดยเราเปนผก าหนด โดยตวอยางนสามารถ
น าไปใชกบตวอยางฟอรดได
ตวอยางถดมาตองการลบคา Outlier ออกไป ก าหนดคาเปน Fault
13. Discretization
การแปลงขอมลตวเลขใหเปนขอมล nominal โดยการแบงขอมลออกเปนชวง ๆ แบงตามเงอนไขท
ก าหนด โดยใช Discretize by User Specification
I t . n o n g k r a n @ g m a i l . c o m P a g e 30 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 31 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 32 | 106
14. Discretization : การแบงความถแตละชวงใหเทาๆกนเรยก Discretize by Frequency
15. Multiply
I t . n o n g k r a n @ g m a i l . c o m P a g e 33 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 34 | 106
Chapter 5 Association Rules
การหาความสมพนธ หรอเรยกวา กฏความสมพนธ
เรมจากการ Market Basket Analysis จากการมองเหนวาคนซอสนคา1 ชน แลวนาจะเลอกซอ
สนคาใดตอรวม จากขอมลทไดจากการซอสนคาแตละครง จะพบวาการซอครงท 1 ซออะไรบาง แลว
Record ไว จากนนท าการบนทกขอมลคนถดๆไปเรอยๆ จ านวนแถวขอมลการซอกจะเพมมากยงขน
เรอยๆ เปน Transaction ซงขอมลทไดกไมสะดวกในการน าไปวเคราะห โดยทางทดกน าขอมลมาท าการ
แปลงขอมลเปนแถวโดย Group by ตามเวลาทซอสนคา
Support
นบจ านวนครงการซอสนคาแตละชนดคดเปน % ของการซอสนคา หรอการพบสนคา ท าการ
นบในการซอสนคา (จ านวนครง)
Frequent itemset
จ านวนสนคาทมการพบบอย รปแบบของการซอสนคา ( items) ทมคา support >= minimum
support การม Frequent กบ infrequent เพอเปนการกรองขอมลออกไป
สนคาใน Supermarket มจ านวน 3 ชนด โอกาสทเปนไปไดทงหมด (หรอ Subset ทงหมด)
ถาตวไหนไมผานเงอนไขทก าหนดใหตดทงเลย
การหากฏความสมพนธ (association rules) ม 2 ขนตอนใหญ ๆ
- Apriori : แอบเพยวร (Agrawal and Srikant, 1994)
สรางรปแบบสนคาทมการเพมจ านวนทละ 1 ถาผานเงอนไขกจะท าการ Join เพมไปเรอยๆ
แบบนมนจะชา เพราะการหาความสมพนธแตละครง กตองไปดงคาจาก Database ทกครง
หลกการท างาน superset ของรปแบบทเปน frequent Apriori นบจ านวนครงในการซอท
นอยกวา 50% ตดผาออมออก จบคใหเปน set ขน เมอเปน set ขอมลทอยขางในไม
I t . n o n g k r a n @ g m a i l . c o m P a g e 35 | 106
จ าเปนตองมล าดบ 1 ตวหนาทท าการ JOIN กนตองเหมอนกน เชน {Beer, Cereal, Eggs}
เพอใหไดมา Frequent Itemset สนคาทมการซอมากกวาหรอเทากบ 50% จะไดขนาด size
ออกมาดวย
- FP-Growth : เอฟพโกลฟ
ขนตอนท 1 ท าโดยการสราง Compact data Structure เรยก FP-Tree ขนมา โดยการอาน
ขอมลจากฐานขอมลเพยงแค 2 ครงเทานน แลวหาคา Support ของรปแบบการซอสนคา
(Items) ทมความยาว 1 แลวเรยงล าดบตาม Support ทค านวณได แลวมาท าการสราง
FP-Tree จากการอานขอมลในฐานขอมลเพยงหนงรอบ เชน เจอ Apple 1 ครงมนจะมลงค
ตอไปเกดเปน 1 เสนทาง ทวงไปโดยดวาตวไหนทมนสามารถซอนกนไดกซอนไป ขอดคอถา
ม Database 10ลานแถว เราสามารถท าทละสวนได แลว Free memory ทงไปได แลวเรยก
สวนทเหลอมาท างานตอได คอยๆ อานคามาท างาน Operator แบบนจะเรยก Stream
Database
ขนตอนท 2 สรางรปแบบของสนคาทซอบอยๆ (Frequent items) จาก FP-Tree โดยก าหนด
min_support = 50%
เปรยบเทยบผลงของ Apriori & FP-Growth จะพบวา FP-Growth จะเรวกวาแตผลลพธ
เหมอนกน
Association Rules : สรางกฏความสมพนธ
สรงจากสนคาทลกคาซอบอยๆ รปแบบของกฏ คอ LHS RHS
LHS คอ Left Hand Side สนคาทซอพรอมกนบอยๆ ดานซายของกฏ เชน Apple Cereal
RHS คอ Right Hand Side สนคาทซอพรอมกนบอยๆ ดานขวาของกฏ เชน Cereal Apple
ตววดประสทธภาพของกฏความสมพนธ
- Confidence
แสดงความเชอมนของกฏความสมพนธทเมอรปแบบ LHS เกดขนแลวรปแบบ RHS จะเกดขน%
ความนาจะเปน 1 ความนาจะเปนจะเกดขนดวยทกครง
ถา Confidence กฏนนสงนาสนใจกวา
- Lift
ถา Lift เกน 1 แสดงวาโอกาสจะเกดขนพรอมกนมากวาแยก
ถานอยกวา 1 แสดงวาตวลางมากกวาตวบน แสดงวาซอแยกมากกวา
Applications
ใชในการเพมยอดขายโดยการแนะน าสนคาทลกคามกจะซอพรอมกนบอย ๆ (cross-selling) ใช
ในการจดสนคาในราน เชน วางสนคาทลกคามกจะซอพรอม ๆ กนไวใกลๆ กน หรอวางสนคาไวใน
Catalog ตาง ๆ
I t . n o n g k r a n @ g m a i l . c o m P a g e 36 | 106
Workshop 3 Association Rules
จ าลองการซอสนคาแลวเกบไวใน Database การซอสนคามากกวา1 ชนด โดยใหผานกระบวนการ
Pivot จากขอมล โอเปอรเรเตอรทใช Pivot
1. Operator Pivot และ Retrieve
เชอมตอปลกเขาส Pivot
I t . n o n g k r a n @ g m a i l . c o m P a g e 37 | 106
ก าหนด Parameter
ผลลพธการรน
2. Operator numerical to Binominal
I t . n o n g k r a n @ g m a i l . c o m P a g e 38 | 106
3. ตอไปหาสนคาอะไรทเกดขนบอยๆ ดวย Operator fp-growth
ภาพการเชอมตอแตละโอเปอรเรเตอรใน Process
ก าหนดคา Parameter FP-Growth คลกออกจาก find min number of itemsets
จากนน Run โปรแกรม ผลลพธทไดดงภาพ
I t . n o n g k r a n @ g m a i l . c o m P a g e 39 | 106
สนคาทซอคกนบอย ๆ
หาสนคาทสนใจ
I t . n o n g k r a n @ g m a i l . c o m P a g e 40 | 106
4. Operator Create Association Rules
การเชอมตอแตละ Operator ทใชงานพรอมลากปลกเสนการเชอมตอดงภาพ
ก าหนดคา Parameter min confidence
I t . n o n g k r a n @ g m a i l . c o m P a g e 41 | 106
Run Program ดผลลพธไดดงภาพ
ตวอยาง Supermarket
มแอททรบวตตาง ๆ ในชดขอมล
I t . n o n g k r a n @ g m a i l . c o m P a g e 42 | 106
ขอมลความจรงการซอสนคามากกวา 50% ของแสนมนไมม
เปลยนเงอนไขเปน 0.2
I t . n o n g k r a n @ g m a i l . c o m P a g e 43 | 106
Chapter 6 Clustering
การจดกลมขอมล
ตวอยางแรก มรปผกและผลไมหลายๆ ชนด ถาอยากแบงขอมลรปภาพพวกนออกเปน 2
กลม จะแบงไดจากอะไรบาง ค าตอบ ส รปทรง เชน กลมมผกสเขยว กลมผกทไมใชส เขยว
รปทรง เชน ผกทรงกลม ทรงแทง ทรงกระบอก
ตวอยางถดมา พฤตกรรมการใชงานโทรศพทของคน 6 คน มการใชงานโทรศพทมากนอย
SMS มากนอยขนาดไหน ถาตองการแบงออกเปน 3 กลม ใครอยกลมเดยวกนบาง จากภาพพบวา 1
ค 6 คอ โทรมาก และ 2 ค 3 โทรนอย
ทงสองตวอยางน คอการแบงกลม โดยการแบงกลมสงทเหมอนกนอยกลมดวยกน คณสมบตทมมาก
ขน พฤตกรรมเดยวกนอยกลมเดยวกน สงเกตแตละกลมจะเรยกวา คลสเตอร ทมขอมลแตกตางกน
ตามกลมทแยก
วธการวด ใช Euclidean distance ระยะหางกนของกลมทแบง
สตรทได Euclidean distance ผลตางแกน X ก าลง 2 บวกกบ ผลตางของแกน Y ยกก าลง 2 เรา
สามารถมผลตางไดมากวา 3 มต โดยเอาผลตางทไดมาถอดสแควรด ท าการ Clustering ลกคาตาม
พฤตกรรมการใชงาน SMS และ Phone พอเรามา Map เปนรปภาพจะพบวามกลมทใชงานโทรศพท
มากๆ เปนสสม
Clustering : Applications
การแบงขอมลลกคาออกเปนกลมยอยๆ เพอจะไดเขาใจพฤตกรรมการบรโภคของลกคาไดดขน โดย
อาจจะจดเปนกลมๆ ออกมาแลวคอยเจาะเปนกลมๆ ไป เพอจดท าโปรโมชนใหลกคนตอไป
เทคนค K-Means Clustering
เปนประเภท partitional clustering
นยมใชในการท า Clustering K คอจ านวน กลม ตองการแบงกกลมคอคา K ตวแทนแตละ
กลม ใชเปนคาเฉลยของสมาชกในแตละกลม เลยเปนคา Means ขนมาให โดยคา Means
ออกมาเรยกเปนเซนพอย
วธการท างาน
ก าหนดจดศนยกลางของแตละคลสเตอร แลวหาระยะหางระหวางขอมลแตละตวกบจด
ศนยกลาง มน ของแตละคลสเตอร แลวก าหนดใหขอมลทอยในคลสเตอรทใกลสด แลว
ค านวณหาจดศนยกลางของแตละคลสเตอรใหม ท าซ าจนขอมลในคลสเตอรเดมไมมการ
เปลยนแปลง
I t . n o n g k r a n @ g m a i l . c o m P a g e 44 | 106
ตวอยาง K-Means
ในการแบงกลมรอบแรก K-Means จะยงไมเชอขอมลเทาไหร จะท าการท าซ าอกรอบ
จนกวาจะหาจดศนยกลางใหมวาจะไดผลลพธเทาเดมไหม ซงจากตวอยางไดผลการ
ค านวณระยะหางกบจดศนยกลางของแตละคลสเตอรอกครง ผลขอมลทกตวอย ใน
กลมคลสเตอรทแบงรอบแรก มนกจะหยดท างาน
จากผลการค านวณหาจดศนยกลางของแตละคลสเตอรพบวา คนทอยใน คลสเตอร 3
สง SMS มาสด โดยออกมาเปนคาเฉลย 115 และคนทอยในคลสเตอรกลม 1 ท าการ Phone
มากสด 132.5
K-Means กบการท าสมขอมล 3 ตวเพอเปนจดศนยกลางของคลสเตอร ดวยรปภาพ
จากนนจดใหขอมลแตละตวอยในกลมทมระยะหางจากจดศยยกลางนอยสด แลวหาจด
ศนยกลางของแตละคลสเตอรทแบงไวแลววดระยะหงเทยบกบจดศนยกลางใหมอกครง
ท าซ าอกครง
K ก าหนดกลม 3-4-5 กลม ไมเกนน ทงนสามารถใชทางสถตมาชวยค านวณเพอวด
ประสทธภาพของ Clustering แบงนอยใหญกวาระยะหางกจะมากขน ดวย Average within
centroid distance คาเฉลยระยะหางของทกจดจากจดศนยกลางของคลสเตอร = d1c +
d2c+d3c หาร 3 (จ านวนK) ทงนสามารรถวดประสทธภาพคลสเตอรดวยการปรบเปลยน
กลมของคลสเตอร K แลวท าการ Plot กราฟระหวางจ านวนกลมของคลสเตอรกบคา ดวย
Average within centroid distance
1. Operator K-Means
2. ใชงาน Operator
I t . n o n g k r a n @ g m a i l . c o m P a g e 45 | 106
3. ก าหนดคาพารามเตอร
ผลลพธจากการท า Clustering
เขยวโทรมาก
I t . n o n g k r a n @ g m a i l . c o m P a g e 46 | 106
จดศนยกลางเรยก Centroid Table
อยทเราสนใจขอมลในสวนใหญจบสวนนนออกมา
ตวอยาง Bank Call Center
มการโทรสอบถามขอมลประเภทเงนฝากแตละประเภท เงนก คาทใสแตละชอง 1 คอ สนใจ 0 คอ
ไมไดสนใจไมไดถาม น าเอาขอมลมาจดกลม แบงเปน 5 กลมกอน K=5
I t . n o n g k r a n @ g m a i l . c o m P a g e 47 | 106
มาท า Clustering
I t . n o n g k r a n @ g m a i l . c o m P a g e 48 | 106
ผลคาเฉลยของขอมลทอยในแตละคลสเตอร ขอมลทอยขางในมคาเปน O และ 1
ค าถามวาคาเฉลยในกลมไหนสนใจ Deposit_C มาสด คอ Cluster_3 , Cluster_0 สนใจโปรดก Load_C
และ Deposit_A แลวถาอยากทราบวาเกน 50% ไปมการชอบอะไรบาง ตรงนดไมไดเพราะไมม
ความสมพนธทเกดขน เราจะตองท าเพมดวยการหา Association Rule
4. Operators filter
I t . n o n g k r a n @ g m a i l . c o m P a g e 49 | 106
FP-Growth
มคา True , False
I t . n o n g k r a n @ g m a i l . c o m P a g e 50 | 106
ใหคลก Find min number of itemsets ออกกอน
หา Pattern ทเกดขนรวมกนบอยๆ โดยการจดกลมกอน สงทไดจะไดคอ สงทคลาย ๆ กน
I t . n o n g k r a n @ g m a i l . c o m P a g e 51 | 106
ตวเงอนไขทชวยกรองสงทเราสนใจ ในทนสนใจ Deposit_C
ตวอยาง Social Network
วเคราะหบนเครอขายสงคมออนไลน เพอท าการแบงกลม ผใชงานทมความชอบคลาย ๆ กน
ทงหมดจ านวน 30,000 คน คดเลอกกลมค า Keyword ทส าคญออกมามจ านวน 36 ค าทพบในขอความ
ในการใชงานของนกศกษาแตละคน มแอดทรบวตตางๆ เพศ อาย จ านวนทพดทพด ค าทเกดขนม
ลกษณะกครงออกมาเปนตวเลข แตปญหาทพบคอในไฟลทไดมาเพศไมไดก าหนดเปน 1,0 เลยตองเอา
คอลมพเพศออกไปกอน
โอเปอรเรเตอรทใชงาน : Retrieve , Replace Missing Value, Loop Parameters , K-Means
Cluster Distance Performance วดคาประสทธภาพ , Log เกบลอคใสในตารางไวกอนแลว
คอยมาพอทเปนกราฟ
I t . n o n g k r a n @ g m a i l . c o m P a g e 52 | 106
ท าการเคลยรขอมลใหดกอนสงเกตขอมลตอนแรกทน าเขามา gender เปน F/M
Double click สามเลยมฟามม Loop
I t . n o n g k r a n @ g m a i l . c o m P a g e 53 | 106
ท าใหมเอาออก Exclude
แลวทบไฟลเดมไปกอน
I t . n o n g k r a n @ g m a i l . c o m P a g e 54 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 55 | 106
ตอนนม Error ใหคลกแกไขลป
เลอก K
ก าหนด Max = 20 , Steps = 19
I t . n o n g k r a n @ g m a i l . c o m P a g e 56 | 106
Charts เลอกแกน X = k และแกน Y เปน performance
เทคนคท 2 Agglomerative Clustering
เปนประเภท Hierarchical clustering
(แอคเพอเมอรทฟคลสเตอรลง) เปนการรวม Bottom up หมายความวาดขอมลแตละตว
เปน 1 คลสเตอรกอนคอยๆ รวมเปนชดทใหญขน ดทละคลสเตอร มเบอร 1-2-3-4-5-6 ไป
เรอยๆ แลวท าการเปรยบเทยบแตละตวไปเรอยๆ 1,2,3,4,5,6 แลวดเปนคๆ มาจบเปนกลม
จากภาพกราฟจะรวม 1 กบ 3 เปน 1 กลมคลสเตอรกอน ถดมาท าการเทยบกนแตละชด
ค าถามเบอร 1 จะเทยบกบสฟาไดอยางไร โดยท าการวดระยะหาง หรอความคลาย ระหวาง
ขอมลกบคลสเตอร
1. วดระยะหางเทยบกบขอมลทอยใกลสดในคลสเตอร : Single Link
2. วดระยะหางกบขอมลทอยไกลทสดในคลสเตอร : Complete Link
3. วดระยะหางเทยบกบขอมลทกตวในคลสเตอร : Average Link
สดทายมนจะท าการ Group เขามาเปนคลสเตอรเดยว
I t . n o n g k r a n @ g m a i l . c o m P a g e 57 | 106
กราฟเรยกเดนโดแกรม ยงหางกนมาจดมาก ใกลกน Group รวมกนได สดทายอยทเรา
พจารณาวาจะยอมรบความหางของจดไดมากนอยแคไหน เชน การตดกนในแนวแกน Y จะได
กลม 2กบ 3 รวมกน (หนา 325) การตดนอยไปเรอยๆ จะเหลอ 2 และ ตดเพมอกกจะเหลอ
กลมเดยว โดยมนจะท าของไปเรอยๆ จนเหลอจดสด มนจะใชเวลานานมากเวลาขอมลมากๆ
แลวกจะท างานเปนล าดบขนขนไปเรอย ๆ จนถงจดสดทายสงสด เหลอเพยง Group เดยว
ตวเลขหลงเครองหมาย : คอ ตวเลขชดทอยในหมายเลขนน ขางหนา : คอตวเลขจ านวนสเตปขางหลง :
คอคาทรวมไว เชน Step5 รวม 1 กบ 6 เขาไวดวยกน , Step7 คอ รวม 3 กบ 4 สวนคาในวงเวบคอคา
Distance
Graph แสดงภาพรวมของการท างานแตละโหนด แตละขนล าดบ
I t . n o n g k r a n @ g m a i l . c o m P a g e 58 | 106
สรปวา K-Mean มขอดแตถามขอมลทแปลกประหลาดมาก ๆ จะท าใหเกดเปนวง ๆ แตก
ออกมา เหมาะส าหรบกลมทมนเกาะกลมกนจรงๆ ซงจะมการแบงขอมลทมการแบงเปน
วงกลมหรอวงกลมได
เทคนค DBSCAN Clustering
เปนเทคนคการท า Clustering ดวยการพจารณาจ านวนขอมลทอยในรศมทก าหนด
พารามเตอรทส าคญ คอ
- Epsilon (แอพสลอน) คอ การระบรศมรอบขอมล
- min pints คอ เปนการระบจ านวนขอมลในรศม
ถามนอยใกลกนมากพอถอวาอยในกลมเดยวกน จะขยบไปอยทใกลกน ในตวอยางขยบไปดานบนขวา
เกดเปนเสนประวงกลมเขม แลวหาจดทมมากพอไหมกรวมกน ท าไปเรอย ๆ จนสดทายผลการ
แบงกลมขอมลดวยเทคนค DBSCAN จะไดผลทอยขางในวงกลมในสด
Workshop
ตวอยางเรยกใชท Sample Process 7_Clustering 12_DBSCAN
สรป DBSCAN มนเปนการท า Clustering อยางหนงเหมาะส าหรบการท าขอมลทแปลกๆ
คอนเซปคลสเตอรลง คอ มนจะท าการจดการแบงกลมคลายๆ กนใหอยในกลมเดยวกน แลว
จดศนยกลางทอยในแตละกลมมอะไรบาง
สรป
Association Rule รวมกนใชในการอธบายขอมลมากกวาการคาดการณสงทเกดขนในอนาคต
และเชนเดยวกบการ Clustering ไมสามารถคาดการณในอนาคตได ท าไดแคจดกลมใกอยในกลม
เดยวกนเทานน
I t . n o n g k r a n @ g m a i l . c o m P a g e 59 | 106
Chapter 7 Classification
งานสวนใหญของ Data Mining จะเปนในการท า Classification ซงสามารถพบในชวตประจ าวน
เชน การพยากรณอากาศ , เรอง Speech recognition , face recognition การอพโหลดรป แลวบอก
วาเปนหนาใครเชนในเฟสบค , Spam e-mail
ตวอยางการท า Spam e-mail classification
- ใหระบวา e-mail ไหนบางทเปน spam e-mail เชน Keyword ทมค าวา won , FREE,cash
ในบทนน าความคดมาสรางเปนโมเดลแลวสรางการท านายขอมลทมมาใหมได
- หา Keyword ทใชบงบอกเปน spam-email แลวสรางเปนตารางประกอบดวยคอลมม FREE,
Won, Cash , Type แลวก าหนด Keyword Y,N (หนา 356)
- สรางเปนโมเดล (Classification model) ได จากขอมล training data ซงมลาเบล (label) เปน
ค าตอบไวกอน บางทเรยกวาลาเบล หรอคลาส ถาลาเบลของเรองท านายฝนตก คอ ตก
หรอไมตก นศ.คนนควรเรยนวชาไหนด ลาเบลคอค าตอบวชา ฉะนนลาเบลคอค าตอบ
ของการท านายนน ๆ ตวไหนทเปนค าตอบมนจะอยลาสดของ Decision Tree โดยค าตอบ
เรมจากโหนดบนสดกอนไลมาลาสดกจะเจอค าตอบ สงทตองค านงถงคอ ถาค าตอบ
เปลยนโมเดลกจะเปลยนดวย ถาขอมลมมากขนอาจจะมขอมลทค านวณมากขนตาม
- น าขอมลใหม (unseen data) ท านายโดยใชโมเดล จากตวอยางเบอร 11 และ 12 เปน Spam
ทงค
สรป เอา Training Data Model
Classification & Regression
Regression ค าตอบจะเปนตวเลข
Classification คอตอบคาไมใชตวเลข เชน คลาส , ลาเบล Y,N
ขนตอนการสรางโมเดล
- Training Data
- Testing Data
ทงสองขนตอนมาจาก Training Data รวมใหญทงค หากผลการท าไมเหมาะสมกบเทคนคกตองเปลยน
เทคนคใหม
เอา Test Data มาทดสอบวาถกตองมากนอยแคไหน Prediction Results ถาผลการท านายออกมาตรงกน
กจะงานไดและวดประสทธภาพผลการท านายวาไดกเปอรเซนต
ตววดประสทธภาพของโมเดล (Classification)
- Confusion Matrix เปนการท านายไววาถกผดเทาไหร
I t . n o n g k r a n @ g m a i l . c o m P a g e 60 | 106
เปนตาราง ขนาดเทากบจ านวนแถวคณจ านวนคอลมมทม (หนา 365) ก าหนดสถานะผล
ดงน
- True Positive (TP)
- True Negative (TN)
- False Positive (FP)
- False Negative (FN)
มสไลดอยในเวบไซต
ตวทท านายมความถกมมทะแยงสง
- Precision ดสงทเรา Predict ออกมา แลวทายถกไดกเปอรเซนต
ผลการค านวณไดทายถกกตวจากผลทไดออกมาจากตวอยาง
Precision ส าหรบ normal มคา True Positive หาร ดวย TP+FP เชน 4/7x100 = 57.12%
Precision ส าหรบ spam มคาเทากบ 6/8x100 =75%
- Recall จ านวนทท านายถกกตว
ความถกตองของแตละค าตอบ
ในการทายวาสงทตองการคออะไร ตองการท านายจ านวนคนทปวยเยอะกวา จะดไดจาก Recall
ออกมาวาตวไหนใหค าตอบมากกวานอยกวา
อกตวจะมาชวยในการท านายชอ
- F-Measure ชวยหาคาเฉลยของ Precision และ Recall
เชนค านวณจากคาเฉลยของทงสองกอนหนาคอ 2XPrecisionXRecall หาร Precision+Recall
- Accuracy จ านวนขอมลทท านายถกของทกคลาส
จากผลตวอยางมการถกตงอทงหมด 10/15X100 = 66.6%
- ROC Graph & Area แสดงกราฟความสมพนธ ท านายถกไปทางแกนตง (Y) ถาทาย
ผดไปแนวแกนนอน (X)
มากสดอยดานลาง จะเรมจากดานลางกอน มเสนขนมาจากเบอร 12 (หนา 380) ถาม
ขอมลผดเกดเปนแนวนอนในเบอร 7 กราฟทไดจะขนมาแบบบรรใด ขนมาเปน Curve
ค าถามคอ ถาเราท านายถกเยอะๆ กราฟจะขนไปขางบน เปนโมเดลทด แตถาเปนเสน
ทะแยงมม กราฟเรมไมดแลว แสดงถงขอมลไมคอยด จากตวอยางจะเหนไดจากคอลมมท
ท านายไดผลเพมขนทละ 0.2 กราฟจะคอยๆ เพมขนไปเรอยๆ ในคอลมม 3-4
- ROC Curve มคาเขาใกล 1 จะแสดงวามประสทธภาพดกวา จากกราฟ
- Area Under Curve พนทใตกราฟ (AUC) ถาพนทใตกราฟเขาใกล 1 จะมพนทใตกราฟ
มาก ฉะนนมคามาก (เขาใกล 1) จะยงด
- สรปแลวเปนตววดประสทธภาพเหลานจะชวยมองในมมมองตาง ๆ ได
I t . n o n g k r a n @ g m a i l . c o m P a g e 61 | 106
Validation การแบงขอมลเพอทดสอบประสทธภาพของโมเดล
วธการทดสอบโมเดลแบงออกเปน 3 ตว
- Self-consistency test (use training set) เอา Training Data มาเปนตว Test เลย คอ
ใชขอมลเดมแลวมนมความถกตองมากนอยแคไหน
- Split test แบงออกเปน 2 สวนเลย คอ เปนโมเดล และสวนทดสอบ เชน 70% สราง
โมเดล 30% ใชทดสอบ หรอ 80:20 ใชขอมล 2 ชด เปน Training data ส าหรบสราง
Model และ Testing Data ส าหรบทดสอบ ถา Sampling มาดกไดขอมลทดสอบด Split
Test จะดเมอมขอมลมากๆ หมนหรอแสนตวขนไป
- Cross-validation test ใชคอนขางเยอะเหมอนกน การท า Split หลาย ๆ รอบ การท า
คลายๆ กบ Split แตแบงจ านวน N ชดเทาๆ กน เชน N=5 , N= 10 แลวท างานโดยการ
สรางโมเดลทงหมด N ตว จนครบ Split Test ท ารอบเดยวแลวจบไป คอเกบ1,2 ไว แตใน
Cross จะเอา 3 ไปเปนตวทดสอบ แลวใส 2 กลบเขาไป แลวเอา 1 เปนตวทดสอบ จะ
พบวาทกตวจะถกน ามาทดสอบหมด เราจะไดความถกตองเฉลยออกมาในแตละรอบ แต
ไมเหมาะกบการท าแบบนกบกรณทขอมลมากๆ ไมเหมาะ
ตวอยางของ 5-fold cross-validation
มขอมล 5 สวนแบงออกเปนกลมเทา ๆ กน เหลอง เขยว ฟา แดง มวง แลววนท าให
ครบ 5 รอบ เชนรอบท 1 ท าแลวเกบเปนตว Test ไว รอบท 2 เอาสเขยวใสเขาไป แลวทดสอบ
ดวยกลมสเหลอง ท าแบบนวนไปใหครบทกรอบส แลวสดทายเอาทกสมาเฉลยกน ค าถามจะ
เลอกใชโมเดลไหนดจากผลการรนทดสอบ ดตวโมเดลทไดตวไหนใหผลเฉลยออกมาไดดสด
เลอกตวนน แนวทางท 2 ไมใชงาน 5 ตวนเลย แตจะเอาทงหมด หนงแสนตวมาสรางโมเดล
อกท คอ ถามขอมล 5 แสนตว แตละรอบแบงโมเดล แสนตวกบแปดแสนตว (หนา 395)
สรปคอวดประสทธภาพกอนแลวหาเทคนคไหนเหมาะสม ระหวง A ,B, C ถาไดเทคนค
ไหนดทสดกเอาไปสรางเปนโมเดลทใชงานจรง
Classification Techniques
- Decision Tree
- Naïve Bayes
- K-Nearest Neighbors (kNN)
- Linear Regression
- Neural network
- Support Vector Machines
I t . n o n g k r a n @ g m a i l . c o m P a g e 62 | 106
- Ensemble Classifiers
- Attribute Selection
- Compare classification performance
Decision Tree การท างานเปนโหนด
โหนดทเปนทวๆ ไป X , โหลดทเปนลฟโหลดไมมอะไรมาตอ Y โหนดบนสด Root มเสนทเชอม
เรยก กง หรอ Branch , Internal Node ตวอธบายการตดสนใจไปเรอย ๆ
ขอด คอสามารถแทนความหมายไดงาย
Decision Tree เปนเทคนคทจ าแนกท าการหาจาก Training Data ทเราม Attribute ทวไปทมเชน
ม Free, won ,Cash จาก Label ทเราม มนจะตองมการแบงแยกค าตอบไดอยางชดเจนทสด ดวยการ
ค านวณคา Entropy (เอนโทป) และ Information Gain (IG)
สตร Entropy (c1) = -p(c1) log p(c1)
IG (parent, child) = Entropy (parent) – [p(c1) x Entropy(c1) + p(c2) x Entropy(c2)+…]
ลกษณะของคา Entropy ถาคาเหมอนกนหมดจะมคาเปน ศนย มาจากสตร ความนาจเปน 1
แอททรบวตไหนทจะน ามาเปน Root Node คอเอาแอทรบวตทสามารถแบงแยกค าตอบไดอยาง
ชดเจนกอน
ตวอยางขอมล Weather เกบสภาพภมอากาศจ านวน 14 วนเพอพจารณาวามการแขงขน
กฬาไดหรอไม (ถามวาม Yes กตว ตอบ = 9 แทนดวยรปสฟา No = 5 แทนดวยสสม) ผลของวงกลมยง
ไมไดแบงขอมลออกมาน าออกมาพอทค านวณ เขาสตร Entropy = 0.97 มคาใกล 1 แลวท าการกรอง
ขอมลจาก 14 ตวทมผลเปน Sunny
โหนดไหนแบงแยกค าตอบไดอยางชดเจนเปน root node กอน ในตวอยางเลอก outlook เพราะม
ค าตอบ outlook = overcast ทเปนสฟาลวนใหค าตอบในทางเดยวไดชดเจน
โมเดลเปลยนตามดาตาทม แตถามขอมลใหมมนตองเรยนรไดมากขน
ถาขอมลเปนตวเลข
- เรยงล าดบขอมลทเปนตวเลขจากนอยไปมาก
- แบงขอมลออกเปน 2 สวนโดยหาจดกงกลางระหวางคาตวเลข 2 คา
- ค านวณคา information Gain จากขอมล 2 สวนทแบงได
- เลอกจดกงกลางทใหคา Information Gain สงทสดมาใชงานตอ
Workshop : Decision Tree
Operator ทเกยวของ Retrieve, Decision Tree
I t . n o n g k r a n @ g m a i l . c o m P a g e 63 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 64 | 106
Export file รป Tree ได
เปลยน Tree เปนกฏออกมา
I t . n o n g k r a n @ g m a i l . c o m P a g e 65 | 106
เลอกดในมมมองของ Tree Result
I t . n o n g k r a n @ g m a i l . c o m P a g e 66 | 106
พอได Validation ออกมาแลว น าขอมลไป Predict ตอ ทไดคอสเขยว เปนผลการท านาย
I t . n o n g k r a n @ g m a i l . c o m P a g e 67 | 106
เทคนค Naive Bayes : ใชหลกการความนาจะเปน (Probablility) ไมตองใช Tree
โอกาสทเกดเหตการณจากเหตการณทงหมด ใชสญลกษณ P() หรอ Pr() เชน การโยนเหรยนค
วามนาจะเปนของการเกดหวและกอย อกอนคอ Joint Probability คอ ความนาจะเปนของ 2
เหตการณทเกดขนรวมกน พรอมกน สดทายคอใชหลกการของ POP Probability (หนา 453) Bayes
Theorem โดย C คอ คลาส (หนา 454) รตวแปล X แตไมรตวแปล Y รค าตอบความนาจะเปนของ C
สตรทไดเกดจากการ Training Data
Workshop : Naive Bayes
I t . n o n g k r a n @ g m a i l . c o m P a g e 68 | 106
บอกความนาจะเปนของแตละคลาส
บอกคาความนาจะเปนทเกดขนในตาราง ถาไมเคยพบเหตการณนนมากอนเลยความนาจะเปน 0 พอ
ไปค านวณแลวจะเทากบศนย จะไดผลออกมาเปนศนย แกไดดวยเอาคา laplace correction ออกไป
I t . n o n g k r a n @ g m a i l . c o m P a g e 69 | 106
คลกเอาคา laplace correction ออก
เทคนค K-Nearest Neighbors (kNN) : ดจ านวนทใกลทสด K ตว
ตวอยางวเคราะหขอมลการใหยาของคนไขโดยดจากอายและคา Na/K เอาขอมล Training Data มา
วเคราะหไดดง หนา 480 จ านวนขอมลตวทใกลมมากสดจะเปนขอมลสนน ๆ
โอเปอรเรเตอรทเกยวของ
I t . n o n g k r a n @ g m a i l . c o m P a g e 70 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 71 | 106
คลกท Performance เพอดคาผลลพธ
I t . n o n g k r a n @ g m a i l . c o m P a g e 72 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 73 | 106
เทคนค Linear Regression : การแสดงผลแนวเสนตรง เปนการสรางสมการเพอแสดง
ความสมพนธของตวแปรอสระ (แอทรบวต) และตวแปรตาม (คลาสค าตอบ) ต าตอบทนาสนใจ
เปน “คาตวเลข”
ตวอยางผลการเรยน GPA นศ.ปรญญาตร และคาดการณวาตอนจบปรญญาโทดวยเกรดเทาไหร
ตววดคา Error วดประสทธภาพของ Regression
RMSE (Root Mean Square Error) สงแรกทมตองม Error กอน แลวน ามาเขาสตรการค านวณ น า
Training Data ทเตรยมไวมาค านวณ เอาจ านวน Error ทงหมดยกก าลงสองลบกบ Error ทงหมดถอด
Square Loot ถาวด Regression Error อยากใหมคาต าๆ นอยๆ จะด แตถาถามถงความถกตองเลขผลท
ไดสงๆ จะดกวา
Workshop :
I t . n o n g k r a n @ g m a i l . c o m P a g e 74 | 106
คาเดม
I t . n o n g k r a n @ g m a i l . c o m P a g e 75 | 106
เทคนค Neural Network : ท างานกบขอมลทมความซบซอนไดดกวา Linear
แบบ Basic คอโมเดลทางคณตศาสตรทเลยนแบบการท างานของสมองมนษญ แบงการท างาน
เปนวงกลม 1 วงกลม คอ 1 โหนด จะมการเรยงตวเปนชนๆ บนสดเรยก Input Node ชนสองเรยก
Hidden node มนซอนอยสรางขอมลให นอกสดเปน output node ทเปนตวเลข ดค าตอบตวไหน
มากกวากนเปนค าตอบนนไป สงเกตจากโหนดสแดง H1 มเสนเชอมเขามาหา การท างานส าคญคอคา
น าหนกทสงไปใหแตละเสนแตละโหนด มนจะมคาน าหนกอย เชน W11 คอ คาน าหนกจาก input node 1
ไปยง hidden node1 พอมเสนเชอมไปยง hidden node แตละตวแลวจะมการท างานขางในแตละตว เชน
Hidden node 1 จะมคาอยขางใน เขาไปแลวจะพบวา คาน าหนงสวนใหญจะเปฯ sigmoid function แตละ
ตวแปรจะมคา A1, A2,A3,A4,A5 เสน W1, W2,W3,W4,W5, แลวมา Sum หาผลรวมเฉลยออกไป มคา
เปน 0,1 โดยเรยกใช function ทใกลเคยงทสดในนน คอ f(x) = 1(1+eยกก าลงลบ x)
ถา label ทอยในโหนด active function ผล output note ทไดจะม active function กจะออกมา
เปน linear function
Neural Network โดยสวนใหญจะม 3 ชน input node , hidden node , output node
การม 3 ชนกสามารถท างานไดดแลว หากมการซบซอน hidden node เขามากไปอกมนจะเกด Over
fitting น าหนกบนเสนแตละเสนส าคญกบค าตอบวามผลมากนอยแคไหน ซงการท างาน neural
network จะเปนการท างานแบบ Back box มากกวา
งานทน าไปใชเทคนคนไมเหมาะกบการคาดการณทจะเอาไปอธบายตอ เชน จะคาดการณวา
ใครโกงไมโกงในการจะใหสนเชอกเงนควรเลอกใชเทคนคอนแทน
ตวอยางการใชงานกบโอเปอรเรเตอรทใช Read CSV, Neural Network
I t . n o n g k r a n @ g m a i l . c o m P a g e 76 | 106
การเพมคา Hidden
I t . n o n g k r a n @ g m a i l . c o m P a g e 77 | 106
ตวอยาง Gold trend prediction คาดการณทองค าวาจะขนหรอลง
I t . n o n g k r a n @ g m a i l . c o m P a g e 78 | 106
เทคนค Support Vector Machines (SVM) : ไอเดยคอเปนเทคนคทใชสมาการเสนตรงเสน
หนงมาพฒนา linear ทแบงขอมลออกเปน 2 คลาส (2ชด)
ความยากคอกรณมหลายเสน สงทเกดขนคอจดตดของขอบเสนขอมลทง 2 คลาส ตรงขอบของซาย
และขวาทง 2 คลาสเรยก Support Vector ของคลาส A และ Support Vector ของคลาส B ถาจดของส
มการขามเสนฝงใดฝงหนงมาจะทการเลอกโมเดลทมระยะหางระหวางคลาสมากทสด (หนา 555)
SVM มการใช Kernel function เพอท าการแปลงขอมลทไมสามารถใชโมเดล linear ไปอยมต
(dimension) ทสงขน โดยใช linear แบงขอมลไดงายขน (หนา 559)
Kernel function ชวยกรณทแบงขอมลไมไดมนจะท าการ Map dimension ทต ากวาไปอย
dimension ทสงขน แบงไดงายขนดวยเสนตรง
โอเปอรเรเตอรทใชงาน Retrieve , SVM(LibSVM) ใชส าหรบสรางโมเดล SVM
ตวอยาง Sonar เปนหน หรอ แร จากไฟล Sample Data Sonar
I t . n o n g k r a n @ g m a i l . c o m P a g e 79 | 106
วดประสทธภาพการท า
I t . n o n g k r a n @ g m a i l . c o m P a g e 80 | 106
ผลออกมายงไมคอยด SVM เพราะคา Rock เปน 0
ปรบคาดวย Optimize Parameter (Grid)
I t . n o n g k r a n @ g m a i l . c o m P a g e 81 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 82 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 83 | 106
ผลลพธทไดดขน
เทคนค Ensemble Classifiers (Vote) : เปนการสราง Classification model มากกวา 1 ตว
เพอชวยกน predict ค าตอบเหมาะส าหรบ 6 เทคนคกอนหนามนตดแลว ใหน าเทคนค เอสเซม
เปล คลาสซไฟเออ โมเดลนมประสทธภาพทดกวาการใช Classification model หนงโมเดล โมเดล
ตาง ๆ ตอง independent กน เทคนคการสรางใชโมเดลรวมกนเชน Tree , k-nearest neighbors ,
Neural Network โดยจะเชอผลจากการโหวตแลววา 2 ใน 3 มคาเหมอนกน โดยแตละโมเดลตองมคา
ความถกตองมากกวา 50%
โอเปอรเรเตอร Read CSV, Vote ใชในการสรางโมเดล Ensemble
I t . n o n g k r a n @ g m a i l . c o m P a g e 84 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 85 | 106
ตวอยาง
เพม Operation เพอ ชวยการแกไขตวแปร k-NN อยากทราบวา K เปนเทาไหรด ใ ช Optimize
Parameter(Grid) เรยกคา K ใหเทาไร แลวชนท 2 กจะม Cross-validation
ผลโหวตตวไหนสงทสด มคา K ความถกตองมากทสด
I t . n o n g k r a n @ g m a i l . c o m P a g e 86 | 106
ผลการ Run
จากผลจะเหนวา K=2 ไดคาความถกตอง 83%
I t . n o n g k r a n @ g m a i l . c o m P a g e 87 | 106
เทคนค Attribute Selection : การเลอกแอทรบวต ทางทดใหเลอกตวแปรเฉพาะทจ าเปนหรอ
ส าคญใชงาน เลอกคาแอททรบวตแลวไปจบคถดไปเรอยๆ จาก 2 ไปเปน 3 ถา 2 ใหประสทธภาพได
ดกวาจบ 3 แสดงวาใชแค 2 กเพยงพอแลว แลวท าการตดคาซอยยอยออกมา ดวา 4 ดกวา 5 หรอไม
หาก 3 ดกวา 4 แสดงวาไมตองลดแลว เนอหานอยในเวบไซต http:///datatrainingtrend.com เรยก
Evolutionary , Genetic ท าเปนลกหลานตอยอยไปเรอยๆ
โอเปอรเรเตอร Optimize Weight (Evolutionary) ใหผลการสมดกวา Backward , Split-Validation แทน
เพราะจะท าใช Test
ตวอยาง Gold
I t . n o n g k r a n @ g m a i l . c o m P a g e 88 | 106
คา Performance ทได split
I t . n o n g k r a n @ g m a i l . c o m P a g e 89 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 90 | 106
CD = 0 ตวไหนเปนศนยจะตดออกไป
ใช Select มาเลอก
Wet บอกไดวาจะเอาตงแตเทาไหรขนไป
I t . n o n g k r a n @ g m a i l . c o m P a g e 91 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 92 | 106
เทคนค Compare classification performance : เปนการเปรยบเทยบวาตวไหนดกวาตวไหน
โอเปอรเรเตอร Multiply ใชกระจายใหเปนหลายๆ ชด ,
ไมม ไอด มแตลาเบล
I t . n o n g k r a n @ g m a i l . c o m P a g e 93 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 94 | 106
ชวยพจารณาการเปรยบเทยบขอมล
I t . n o n g k r a n @ g m a i l . c o m P a g e 95 | 106
สรป เทคนคการท า Data Mining
1. การหากฏความสมพนธ association rule ตองการคาทมนเกดขนรวมกนบอยๆ คาทเราสนใจ
2. การจดกลมขอมลคลาย ๆ กนไวดวยกน Clustering ลกคาซอสนคาในกลมเดยวกนไวดวยกน
3. การสรางสงทมในอดตมาท านาย Classification ม Application คอนขางหลายตว
โดยทงหมดนเปนการอานคาเขามาเปนในรปแบบตารางเขามาพจารณาการท างานตอยอด
Chapter 8 Introduction to Text Mining
หลกการน า 3 หลกการของ Data Mining มาใชงาน ในตวซอฟตแวร Rapid Miner สามารถท าได
รปแบบขอมบม 3 แบบคอ
I t . n o n g k r a n @ g m a i l . c o m P a g e 96 | 106
- ขอมลทมโครงสรางในรปแบบตาราง excel , db
- ขอมลไมมโครงสราง ไมมอะไรบงบอกแถวหรอคอลมม Unstructured Data
- รปภาพ
ขอมลทไมมโครงสรางทเกบขอมลในรปแบบขอความ รปภาพ เสยงมจ านวนมากถง 80%
- V volume
- V velocity
- V vality
กลมค าทคลาย ๆ กน ขาวเดยวกนมาอยในกลมดวยกนคลายการท า clustering และการท างานดวย
Sentiment การใหความหมายของค า คนทมทศนคตอยางไรจดกลมเดยวกนดานบวกหรอลบ
Text Representation:
ในการวเคราะหขอมลขอความตองท าการแปลงขอมลใหอยในรปแบบทมโครงสราง จดวาเปน
Positive , Negative ตวอยางขอความจาก Twitter
Text Representation : Bag of Words
จ านวนความถของค าทเกดขนในขอความ แลวมาท าการตดค าขอความทพบความถบอย แลวท าการ
แปลงขอความมาเปนตาราง เรยกวา Bag of words ภาษาองกฤษสามารถท าไดในเรองตดค าเพราะมจด
stop ขอความ
Text Representation : Stemming
แปลงค าใหเปนรากศทพ (root) เชน finding เปน find การท า Stemming ตด e, se ,ing ทง
Text Representation : Remove stopwords
ตดค าทเปน stop word ทง แลวน าแอทรบวตทไดไปท างานตอดวย Convert text to structured data
Binary occurrence ถามค าทเกดขนในแตละเอกสารจะใหคาเปน 1 ถาไมเกดขนจะเปน 0 สนใจดวาเกด
หรอไมเกด ตวอยาง หนา 628 ขอจ ากดคอ มนบอกไดแตวา เกดหรอไมเกด แตไมสามารถบอกไดวา
เกดบอยแคไหน มนเลยมวธการท 2 คอการหา Term Frequency มนคอ จ านวนครงทค านนเกดขนใน
เอกสารทงหมด เกดขนบอยแคไหน เกดขน 10 แสดง 10 ตวเลขออกมา แตมนกมขอจ ากด เชนค า
Common เกดขนบอยมากๆ ในหลายๆ เอกสาร แลวเอกสารพวกนมนอยคนละ Label กน เชนเราจะท า
ค านนมนควรจะเกดใน Positive , Negative อยางเดยวแตมนดนไปเกดทง สองอยาง มนเลยมการแกไข
ขนดวย TF-IDE คอ จ านวนครงจองค าทเกดขนคณกบจ านวนค าทเกดเฉพาะเอกสารในคลาส ซงตวน
จะเปนตวทนยมใช แตจะพบปญหาเกยวกบคา แอททรบวตทมาก จงจ าเปนตองใชเทคนคการเลอกใช
Attribute ทส าคญหรอตองการจรง ๆ ออกมา
N-Gram sequences: จ านวนค าทพจารณาตอกน N ตว
- Unigram การดทละค า พจารณาการเกดขนของแตละค า
I t . n o n g k r a n @ g m a i l . c o m P a g e 97 | 106
- Bi-gram การดสองค าตดกน พจารณาการเกดขนของค าทตดกน 2 ค า เชน so good
- Tri-gram การดสามค าตดกน พจารณาการเกดขนของค าทตดกน 3 ค า เชน smells so
good
ตดตง install text mining plunging to RM7
คนหา plugin ชอ text processing หนา 650
จากนนปดแลวเปดเครองใหมใชงาน
ตวอยาง Sentiment analysis
โดยมขอมลทตดคดมาใหแลววาเปน Positive , Negative
โอเปอรเรเตอรทใช process document from files การอานจากไฟลมา
ท าการ Review หนงแตละเรอง
I t . n o n g k r a n @ g m a i l . c o m P a g e 98 | 106
C:\Users\nongkran\Dropbox\MyLeaning\Data
Mining\RapidMiner\dataset\Chapter8\review_polarity\txt_sentoken
I t . n o n g k r a n @ g m a i l . c o m P a g e 99 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 100 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 101 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 102 | 106
Chapter 9 Introduction to Image Mining
ตวอยางการท า detect ปายทะเบยนรถยนตแบบอตโนมต , การท า detect ลายมอ , การแบงรปภาพ
ออกเปนกลม ๆ ประเภทตาง ๆ เชน รปกหลาบ กระตาย
Image Classification ในสายตามนษยสามารถบอกไดวาภาพไหนเปนภาพชายทะเล หรอภาพปาไม
เวลาการประมวลผลจะแปลคาสเปนเกสเกลกอน ใหเปนรปขาวด ากอน เหนความแตกตางของรปอย
ในรปเหลานแบงเปนพเซลในชองตางๆ จะมคาอย อยในชวง 0-255 โดย 0 คอสด า 255 คอ ขาว
ฉะนนสใดเขมเขาใกล 0 กจะมการ Convert image to structured data แปลงขอมลภาพมาเปนขอมลท
มโครงสรางในรปตาราง จดเปนคาส เชน ผลทได 188.2 ผลรปสนออกไปทางขาว เปน ประเภทรป
beach ทะเล ตวอยางท 2 ไดผล 52.41 ผลรปทไดคอไปทางด า ปรเภทรปนเปน forest รปปา แลวท า
การเกบรปไวแลวแปลงขอมลออกมา วธนท าอยางไดโดยการแปลงคาขอมลภาพเปน Pixel เมอได
ขอมลตารางแลวกน าไปสรางโมเดล Classification ได เปนรป Tree คอ Mean ถามากกวา 98.833 เปน
beach แตถาไปทางนอยกวา 98.833 เปนสด า
Install image plugin
ตวอยาง
I t . n o n g k r a n @ g m a i l . c o m P a g e 103 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 104 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 105 | 106
I t . n o n g k r a n @ g m a i l . c o m P a g e 106 | 106
อางององคความรการจดท าเอกสารฉบบนจากการเขารวมฝกอบรมหลกสตรการวเคราะหขอมลดวย
เทคนค Data Mining โดยซอฟตแวร Rapid Miner Studio7 ณ โรงแรมเค ย โฮม มหาวทยาลย
เกษตรศาสตร วทยาเขตบางเขน กรงเทพมหานคร รนท 12 ระหวางวนพฤหสบดท 17 มนาคม 2559
ถงวนเสาร ท 19 มนาคม 2559 โดยวทยากรผสอน ดร.เอกสทธ พชรวงศศกดา แหลงขอมลผอบรม
เวบไซต http://dataminingtrend.com/2014/ training/rapidminer-training-12/ และเฟสบต
https://www.facebook.com/datacube.th/
Reference