an introduction to data mining techniques · ดร. เอกสิทธิ์...
TRANSCRIPT
An Introduction to Data Mining Techniques
Thai version
!Eakasit Pacharawongsakda, Ph.D.
Certified RapidMiner AnalystData Cube: http://facebook.com/datacube.th
การวเคราะหขอมลดวยเทคนคดาตา ไมนนง เบองตน
โดย ดร. เอกสทธ พชรวงศศกดา
หสม. ดาตา ควบhttp://facebook.com/datacube.thhttp://www.dataminingtrend.com
ชอผแตง ดร. เอกสทธ พชรวงศศกดา
ชอหนงสอ การวเคราะหขอมลดวยเทคนคดาตา ไมนนง เบองตน
จำนวนหนา 124 หนา
พมพครงท 1
เดอนปทพมพ สงหาคม 2557
ชอโรงพมพ บรษท เอเชย ดจตอลการพมพ จำกด
21/19-20 ถ.งามวงศวาน แขวงลาดยาว
เขตจตจกร กรงเทพมหานคร 10900
จดจำหนายโดย หสม. ดาตา ควบ
53/486 หม 13 นวนคร ต.คลองหนง
อ.คลองหลวง จ.ปทมธาน
ออกแบบปก นางสาว กมนนทธ บางแวก
ราคา 499 บาท
สงวนลขสทธตาม พ.ร.บ. ลขสทธ พ.ศ. 2537
หามลอกเลยนแบบไมวาสวนหนงสวนใดของหนงสอ/เอกสารเลมน
นอกจากจะไดรบอนญาตเปนลายลกษณอกษร
คำเตอน !!!
การนำไปถายเอกสารอาจจะทำใหขอความและรปไมชดทำใหอานไดยากและ
จะทำใหผแตงเสยใจเปนอนมาก T_T
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
แด พอ แม ผใหกำเนด
และอาจารยผประสทธ ประศาสตรวชาความรตางๆ
http://www.facebook.com/datacube.th 1
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
http://www.facebook.com/datacube.th 2
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
คำนำ
ยอนหลงไปเมอ 12 ปกอน การวเคราะหขอมลดวยเทคนค ดาตา ไมนนง (Data Mining) ยงรจกกนใน
วงแคบสวนใหญเปนนกศกษาปรญญาโทและเอกทสนใจทำงานวจยทางดานน ผมเองเรมตนรจกกบดาตา
ไมนนงเมอประมาณ 12 ปกอนเชนกน ในสมยทเปนนกศกษาปรญญาตรตวเลกๆ ในหองปฏบตการวจยการ
คนหาความรจากฐานขอมลขนาดใหญ (Knowledge Discovery Laboratory) ในภาควชาวศวกรรม
คอมพวเตอร คณะวศวกรรมศาสตร มหาวทยาลยเกษตรศาสตร ในชวงเวลาทผานมาผมไดเหนการ
เปลยนแปลงเกยวกบความสนใจของผคนในเรองดาตา ไมนนงอยางมากมาย ตงแตตอนแรกทความสนใจ
อยในวงแคบดงทไดกลาวมาแลวจนมาถงปจจบนทมผสนใจเพมขนเปนวงกวาง เชน บรษทเอกชนหรอ
ธนาคารตางเรมใหความสนใจนำการวเคราะหขอมลดวยเทคนคดาตา ไมนนงไปใชงานกนมากขนหรอ
มหาวทยาลยบางแหงเรมจดใหมการเรยนการสอนเกยวกบเรองนในระดบชนปรญญาตร จากความนยมท
เพมขนและการเกบเกยวประสบการณในการทำงานและการอบรมการวเคราะหขอมลทางดานดาตา ไมนนง
ทำใหผมคดอยากจะเขยนหนงสอสกเลมซงทำการแนะนำเทคนคการวเคราะหขอมลทางดาตา ไมนนงเบอง
ตนสำหรบนกศกษาและผสนใจขนมาและนนเองคอทมาของหนงสอเลมนทชอวา An Introduction to Data
Mining Techniques โดยในหนงสอเลมนผมจะแสดงหลกการทำงานของวธการทางดานดาตา ไมนนงไมวา
จะเปน การหากฎความสมพนธ (association rules discovery) การแบงกลมขอมล (clustering) และ การ
จำแนกประเภทขอมล (classifcation) พรอมทงตวอยางการทำงานของวธการเหลานเพอใหผอานเขาใจได
งายโดยทไมตองมความรพนฐานทางดานคณตศาสตรขนสง โดยการจดพมพครงท 2 นผมตงใจเผยแพร
ความรทางดาน ดาตา ไมนนงใหกบผสนใจโดยทวไป ผมอยากใหคนรจกดาตา ไมนนงวาแทจรงแลวเปน
อยางไร ไมใชเปนเพยงแคคดเอาเองวาบก ดาตา (Big Data) คอ ดาตา ไมนนง ผมขออธบายแบบนครบวา
บก ดาตา แบงเปน 2 สวน สวนแรกคอการจดเกบขอมลทมจำนวนมหาศาลมาเกบไว ซงในปจจบน
ประเทศไทยเราคงเรมอยทระดบน ในสวนท 2 คอ การนำขอมลทมจำนวนมากมาทำการวเคราะห สำหรบผม
คดวาการวเคราะหขอมลคงตองใชเวลาอกสกพกสำหรบบก ดาตาและเมอถงเวลานนผมคดวาทานผอานจะ
มความสามารถในการวเคราะหขอมลเหลานไดเปนอยางดแลว
สดทายนหนงสอเลมนคงไมสามารถเกดขนไดถาผมไมไดมโอกาสเรยนรเรองการวเคราะหขอมลดวย
ดาตา ไมนนงจาก รศ. ดร. กฤษณะ ไวยมย จากมหาวทยาลยเกษตรศาสตร ดร. สภาวด องศรสวาง จากศนย
พนธวศวกรรมและเทคโนโลยชวภาพแหงชาต ศ. ดร. ธนารกษ ธระมนคง จากสถาบนเทคโนโลยนานาชาต
สรนธร มหาวทยาลยธรรมศาสตร และ ศ. ดร. นค เซอรโคน (Nick Cercone) จากมหาวทยาลย ยอรค
(York University) ประเทศแคนาดา
ดร. เอกสทธ พชรวงศศกดา
28 สงหาคม 2557
http://www.facebook.com/datacube.th 3
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
http://www.facebook.com/datacube.th 4
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
สารบญ
หนา
บทท 1 การวเคราะหขอมลดวยเทคนค ดาตา ไมนนง (Data Mining) 7
1.1 แนะนำการวเคราะหขอมลดวยเทคนคดาตา ไมนนง (Data Mining) 7
◦ ความหมายของดาตา ไมนนง 8
◦ การประยกตใชงานดาตา ไมนนง 9
1.2 ขอมลในรปแบบตางๆ 13
◦ ขอมลแบบทมโครงสราง (structured data) 13
◦ ขอมลแบบทไมมโครงสราง (unstructured data) 14
1.3 เทคนคในการวเคราะหขอมลดวยดาตา ไมนนง 15
◦ เทคนคทการเรยนรแบบไมมผสอน (unsupervised learning) 15
◦ เทคนคการเรยนรแบบมผสอน (supervised learning) 15
บทท 2 การหากฏความสมพนธ (Association Rules) 16
• กฏความสมพนธและการประยกตใชงาน 16
• เทคนคในการหากฏความสมพนธดวยวธ Apriori 18
บทท 3 การแบงกลมขอมล (Clustering) 27
• การแบงกลมขอมลและการประยกตใชงาน 27
• การหาระยะหางระหวางขอมล (distance function) 29
• เทคนคในการแบงกลมขอมลดวยวธ K-Means 31
• เทคนคในการแบงกลมขอมลดวยวธ Agglomerative Clustering 36
บทท 4 การจำแนกประเภทขอมล (Classifcation) 50
• การจำแนกประเภทขอมลและการประยกตใชงาน 50
• ตววดประสทธภาพของโมเดลการจำแนกประเภทขอมล 53
http://www.facebook.com/datacube.th 5
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
สารบญ (ตอ)
หนา
• การแบงขอมลเพอใชในการวดประสทธภาพของโมเดลการจำแนกประเภทขอมล 56
• เทคนคการจำแนกประเภทขอมลดวยวธ Decision Tree 59
• เทคนคการจำแนกประเภทขอมลดวยวธ Naive Bayes 76
• เทคนคการจำแนกประเภทขอมลดวยวธ K-Nearest Neighbors (K-NN) 83
• เทคนคการจำแนกประเภทขอมลดวยวธ Neural Network 88
บทท 5 กระบวนการการวเคราะหขอมลดวย CRISP-DM 105
• แนะนำกระบวนการวเคราะหขอมล CRISP-DM 106
◦ Business Understanding 106
◦ Data Understanding 107
◦ Data Preparation 107
◦ Modeling 107
◦ Evaluation 107
◦ Deployment 107
• ตวอยางการใชงาน CRISP-DM ในการแนะนำสาขาวชาใหกบนกศกษา 108
http://www.facebook.com/datacube.th 6
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
บทท 1 การวเคราะหขอมลดวยเทคนคดาตา ไมนนง
(Data Mining)
• แนะนำการวเคราะหขอมลดวยเทคนคดาตา ไมนนง (Data Mining)
◦ ความหมายของดาตา ไมนนง
◦ การประยกตใชงานดาตา ไมนนง
• ขอมลในรปแบบตางๆ
◦ ขอมลแบบทมโครงสราง (structured data)
◦ ขอมลแบบทไมมโครงสราง (unstructured data)
• เทคนคในการวเคราะหขอมลดวยดาตา ไมนนง
◦ เทคนคทการเรยนรแบบไมมผสอน (unsupervised learning)
◦ เทคนคการเรยนรแบบมผสอน (supervised learning)
1.1 แนะนำการวเคราะหขอมลดวยเทคนคดาตา ไมนนง
เคยลองสงเกตดไหมครบวารอบๆ ตวเราเตมไปดวย … ขอมล … ซงตวเราเองเปนสวนหนงททำให
ขอมลเหลานเกดขน ทานผอานลองจนตนาการตามเรองทผมจะเลาตอไปนดนะครบ ...
“เชาวนทำงานทเรงรบวนหนง ปตตนนอนดวยความสดชน แตแลวความหวกบงเกดขนตามมาเขา
จงเดนเขาไปซอขนมจบและซาลาเปาทรานสะดวกซอซงเปดตลอด 24 ชวโมงทตงอยหนาปากซอย เมอทอง
อมกไดเวลาทตองออกไปทำงานเสยท ปตจงไดขบรถออกไปและสกระยะหนงเขากพบวานำมนรถนนใกลจะ
หมดจงจำเปนตองเลยวรถเขาไปเตมนำมนในปมเสยกอน เมอนำมนถกเตมจนเตมแลวพนกงานปมจงเดนมา
เพอขอเกบเงน ปตหยบบตรเครดตออกมาเพอจายคานำมน หลงจากนนจงเดนทางตอไปทำงาน หนาทของ
ปต คอ ผใหบรการขอมล (call center) ของบรษทเครอขายโทรคมนาคมรายใหญแหงหนง ซงในแตละวนเขา
จะตองใหบรการลกคาทมปญหาในดานตางๆ และโดยเฉลยในหนงวนนนปตตองใหบรการลกคาหลายสบ
ราย ในชวงบายของวนนน ชใจซงเปนเพอนสนทของปตคดอยากจะดภาพยนตรจงไดโทรศพทมาชวนปตเพอ
นดทานขาวแลวกดภาพยนตรในตอนเยนหลงเลกงาน ปตเหนดวยกบชใจ เธอจงทำการซอบตรภาพยนตร
ผานทางระบบอนเตอรเนตและชำระเงนดวยบตรเครดตของเธอเองกอน หลงจากนนเธอจงนดเขาใหไปเจอ
กนทหางสรรพสนคาทเปดใหมใจกลางกรง แตปตลองคดดแลววาถาเขาขบรถไปกคงไมสะดวกจงไดตดสนใจ
จะเดนทางไปดวยรถไฟฟา เมอถงตอนเลกงานปตจงไดเดนทางออกจากททำงานไปยงสถานรถไฟฟา และ
โดยสารรถไฟฟาไป เมอไปถงหางสรรพสนคาและพบชใจแลว ทงสองยงมเวลาเหลอพอทจะไปหาอาหารรบ
ประทาน ปตและชใจจงเดนไปเดนมาพบวามรานบะหมญปนชอนาอรอยแหงหนงมโปรโมชนใหมทนาสนใจท
http://www.facebook.com/datacube.th 7
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
สามารถใหลกคาสามารถสรางเมนใหมขนมาเองได ปตและชใจจงไดตดสนใจรบประทานอาหารทรานน เมอ
ทงสองไดรบอาหารแลวตางกถายรปอาหารของตวเองและโพสตลงไปในเวบไซต Facebook และ
Instagram เพอแชรภาพเหลานใหกบเพอนของตนเองไดเหน หลงจากทองอมแลวจงไดเวลาไปชมภาพยนตร
ทงสองใชเวลาในการเพลดเพลนกบการชมภาพยนตรไปรวม 2 ชวโมง เมอออกมาจงพบวาดกมากแลวปต
และชใจจงไดแยกยายกนกลบบาน”
จากตวอยางทยกขนมานกจะพอสรปไดวาปตและชใจสรางขอมลขนมามากมาย ดงน
• ขอมลการซอสนคาในรานสะดวกซอ
• ขอมลการใชบรการผานบตรเครดตในการเตมนำมนและซอบตรชมภาพยนตร
• ขอมลลกคาทมาใชบรการสอบถามขอมลทางโทรศพท (call center)
• ขอมลการใชโทรศพทในการตดตอสอสาร
• ขอมลอาหารทเลอกรบประทาน
• ขอมลรปภาพตางๆ ทแสดงบนเวบไซตเครอขายสงคม (online social network) ตางๆ
จะเหนไดวาขอมลสวนใหญนนเกดจากการทำกจวตรประจำวนของเราทงสนไมวาจะเปนแบบออฟ
ไลน (offine) เชน การซอสนคาจากรานคาตางๆ หรอขอมลในรปแบบออนไลน (online) เชน การ โพสต
ขอความหรอรปภาพตางๆ ขนไปบนเวบไซตเครอขายทางสงคม เปนตน ขอมลเหลานมกจะถกเกบไวในรป
แบบดจตอล (digital) เพอใหสะดวกตอการคนหา โดยในแตละวนขอมลเหลานกจะมปรมาณเพมมากขน
เรอยๆ จนทำใหเรากาวเขาสยคทเรยกวาบก ดาตา (Big Data) หรอยคทมขอมลขนาดมหาศาลเมอขอมลม
จำนวนมากขนยอมทำใหเกดความตองการนำขอมลเหลานมาใชเพอกอใหเกดประโยชนมากทสด วธการหนง
ทนยมใชกนมากในปจจบนคอการวเคราะหหาความสมพนธทซอนอยในขอมล วธการนเรยกวา “การขด
เหมองขอมล” (Data Mining) หรอเรยกทบศพทวา ดาตา ไมนนง (ซงในหนงสอเลมนผมขอเรยกชอทบศพท
เพอใหเปนสากลและเขาใจไดงายกวาครบ) ดงนน ในหนงสอเลมนเราจะไดมาเรยนรถงวธการวเคราะหขอมล
ดวยเทคนคดาตา ไมนนง เพอคนหา “สงทมประโยชนทแอบซอนอยภายในขอมลเหลาน" กนครบ
โดยเนอหาในบทนจะอธบาย 2 เรองครบ คอ (1) ดาตา ไมนนงคออะไร และ (2) ควรจะทำดาตา ไมน
นงเมอไรและจะไดประโยชนอะไร ซงรายละเอยดจะมดงตอไปน
(1) ความหมายของดาตา ไมนนง
ดาตา ไมนนงเปนเทคนคในการวเคราะหขอมลอยางหนง ซงมาจากคำวา “เหมองขอมล” ซงเปนคำศพท
ทใชเปรยบกบการขดเหมองแรทวๆ ไป โดยในการขดเหมองแรนนสงทตองการกคอแรทมคา เชน เพชร พลอย
ตางๆ ในขนตอนการทำเหมองแรนนจะตองระเบดภเขาใหญหลายๆ ลกเพอคนหาแรทตองการ ซงแรทพบนน
http://www.facebook.com/datacube.th 8
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
กไดออกมานอยมากเมอเทยบกบหนทโดนระเบดจากภเขา เชนเดยวกนเมอในองคกรหรอบรษทมภเขาของ
ขอมลทมขนาดมหาศาล บรษทจงตองการขดคนหาลงไปในขอมลเหลานเพอใหไดสงทมคาซงอยในขอมล
เหลาน ทวานเปนการเปรยบเปรยใหเหนลกษณะทคลายกนระหวางการขดเหมองแรและการขดเหมองขอมล
นะครบ ถาพดกนตามหลกวชาการแลวมผเชยวชาญหลายทานไดใหความหมายของดาตา ไมนนงไวดงน
ครบ
• “The exploration and analysis of large quantities of data in order to discover meaningful
patterns and rules”
“เปนการวเคราะหขอมลเพอคนหารปแบบ (patterns) หรอ กฏ (rules) ทเกดขนในฐานขอมล
ขนาดใหญ” (จากหนงสอ Data Mining Techniques for Marketing, Sales and Customer
Relationship Management 3rd Edition)
• “Extraction of interesting (non-trivial, previously, unknown and potential useful)
information from data in large databases”
“เปนกระบวนการดงขาวสารทนาสนใจ และมประโยชนแต ไมเคยรมากอนจากฐานขอมลขนาด
ใหญ” (จากหนงสอ Data Mining Concept and Techniques 2nd Edition)
จากหนงสอทงสองเลมเราสามารถสรปไดวา ดาตา ไมนนง คอ “การคนหาสงทมประโยชนจากฐานขอมลทม
ขนาดใหญ” อาทเชน ขอมลการซอขายสนคาในซเปอรมารเกตตางๆ ซงขอมลนจะเกบรายการสนคาทลกคา
ซอในแตละครงโดยเมอทำการวเคราะหขอมลดวยเทคนคดาตา ไมนนง แลวจะไดสงทมประโยชนเชน “ลกคา
สวนใหญทซอเบยรมกจะซอผาออมดวย” จะหนไดวาขอมลนเปนขอมลทไมเคยคดวามความสมพนธกนและ
ไมเคยรมากอนเลย เมอไดความรแบบนออกมาแลวอาจจะนำไปออกโปรโมชนหรอชวยในการจดวางชน
สนคาในซปเปอรมารเกตตอไปได
(2) การประยกตใชงานดาตา ไมนนง
การวเคราะหขอมลดวยเทคนคดาตา ไมนนงนมตวอยางความสำเรจใหเหนอยเยอะครบ ผมขอยก
ตวอยางแรกซงเปนตวอยางคลาสสกใหทานผอานไดทราบกอนครบ นนกคอการทหางวอลมารท (Walmart)
ไดทำการคนพบพฤตกรรมการซอสนคาของลกคาทเปนเพศชายวา ในชวงเยนของวนศกรมกจะมลกคากลม
หนงมาซอสนคาบางอยางควบคกนไป นนกคอ “เบยรและผาออม” โดยจากการวเคราะหเจาะลกลงไปกพบ
เหตผลวาการทสนคาสองอยางนมการซอรวมกนบอยๆ เพราะวา พอบานสวนใหญมกจะซอผาออมใหลก
นอยและไมไดออกไปผบมากนกหลงจากจากมลกจงไดซอเบยรไปดมในชวงสดสปดาห [1] หลงจากทหาง
วอลมารทรถงพฤตกรรมแบบนทางหางกสามารถทจะจดวางสนคาสองชนดนใหสามารถคนหาไดงายๆ หรอ
http://www.facebook.com/datacube.th 9
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
มองเหนไดงายเพอเพมโอกาสทลกคาจะไดซอตดไมตดมอกนไปดวยครบ สวนตวอยางทสองกยงคงมาจาก
หางสรรพสนคาเหมอนกนครบ นนคอหางทารเกท (Target) หางนเปนหางทเกดขนมาทหลงทำใหการจะ
แขงขนกบหางวอลมารททมอยกอนแลวกคงไมใชเรองงาย ดงนนทางหางจงพยายามหาวธทจะดงดดให
ลกคามาซอสนคากบทางหางใหมากขนและรกษาฐานลกคาทมอยใหเชอใจและอยากกลบมาซอสนคาทหาง
ของตนเองใหไดมากทสด จากการวจยทางการตลาดของหางทารเกทพบวา เมอครอบครวมสมาชกใหมเกด
ขนคนในครอบครวกจะเรมมการจบจายใชสอยมากขนเพอรองรบการขยายขนาดของครอบครว ดงนนเมอ
ทราบเชนนแลวทางหางทารเกทจงไดทำการวเคราะหพฤตกรรมของลกคาผหญงทมาซอสนคาและพบวาเมอ
ลกคาเหลานเรมตงครรภ ลกคาจะมพฤตกรรมการซอสนคาทเปลยนไป เชน เรมมการซอวตามนบำรงมากขน
เปลยนไปกนอาหารทมประโยชน หรอแมกระทงซอตเสอผาเพม จากรปแบบพฤตกรรมลกษณะนทำใหทาง
หางสามารถสงโปรโมชนทเกยวกบการตงครรภหรอสนคาสำหรบเดกใหกบลกคากลมนได นอกจากนหางทาร
เกทยงมความมนใจวาถาลกคาเชอใจทจะซอสนคาใหกบบตรทเกดขนใหมแลวลกคาเหลานกจะเชอใจซอ
สนคาชนดอนๆ ของทางหางไปอกเรอยๆ [2]
เมอยอนกลบมาดหางสรรพสนคาในประเทศไทยเราจะพบวาในบานเรากเรมมการเกบขอมลเพอทำการ
วเคราะหกนมากขนโดยทอปส ซปเปอรมารเกต (TOPS supermarket) ในเครอบรษทเซนทรล (Central) เปน
หางสรรพสนคาแรกทมการวเคราะหขอมลการซอสนคาโดยใชขอมลจากบตร สปอท (SPOT) ซงเปนบตร
สมาชก (loyalty card) ของทอปสเอง หลงจากทำการวเคราะหขอมลแลวทอปสจะนำเสนอโปรโมชน
(promotion) ทแตกตางกนใหกบลกคาแตละคนผานทางระบบทเรยกวา เพอรซนนล ชอปปง ลสต (Personal
Shopping List) ซงสมาชกของทอปสสามารถดโปรโมชนทถกจดเตรยมไวใหตวเองไดโดยการนำบตร สปอท
ไปสอดทเครองอานทอยหนาทางเขาของซเปอรมารเกต [3] เราลองมาดหางสรรพสนคาอนๆ กนบางนะครบ
ผมขอยกตวอยางของหางเทสโก โลตส (Tesco Lotus) ซงเปนหางคาสงของประเทศองกฤษ ตองขอบอกกอน
ครบวาหางเทสโกทประเทศองกฤษนนไดวาจางบรษท ดนนฮมบ (Dunnhumby) ทำการวเคราะหขอมลดวย
เทคนค ดาตา ไมนนงมานานมากแลวครบ แตในประเทศไทยเราเรมมขนเมอประมาณ 3-4 ปทผานมาโดย
การเรมจากใหลกคาสมครบตร คลบ การด (Club card) หลงจากนนเมอลกคามาซอสนคาแตละครงทางหาง
เทสโก โลตสกจะทราบพฤตกรรมการซอสนคาของลกคาแตละรายเพอทำการวเคราะหขอมลและสงโปรโมชน
ออกไปใหลกคาแตละคน นอกจากนยงมตวอยางกรณศกษาของเทสโก โลตส ทพยายามจะทำการยกเลก
การขายอาหารสนขถงใหญขนาด 10-20 กโลกรมเนองจากมความเชอวาลกคาไมชอบทจะแบกอาหารสนข
ถงใหญขนาดนไปทรถ แตจากการวเคราะหพฤตกรรมการบรโภคโดยบรษท ดนนฮมบ ประเทศไทย พบวาม
ลกคากลมหนงทชอบซออาหารสนขถงใหญขนาด 10-20 กโลกรมอยเปนจำนวนหนงซงคนกลมนกจะไมซอ
อาหารสนขถงเลกเชนกน จากการทดสอบของเทสโก โลตสโดยการนำสนคาชนดนออกในบางสาขาพบวาย
อดขายลดลง [4] นคอตวอยางของการเขาใจพฤตกรรมของผบรโภคจากการวเคราะหขอมลทมอย
http://www.facebook.com/datacube.th 10
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
ทผานมาผมไดแนะนำตวอยางการนำเทคนคดาตา ไมนนงไปประยกตใชกบขอมลในรปแบบออฟไลน
(offine) ซงหมายถงไมไดใชในอนเตอรเนตกนไปบางแลว ในยคปจจบนนเราไดเขาสยคทอนเตอรเนต
กาวหนาไปมากครบ เรามาลองดตวอยางการนำเทคนคดาตา ไมนนงไปประยกตใชในเวบไซตตางๆ กนดบาง
ครบ เรมแรกผมขอแนะนำตวอยางทเหนไดชดเจนทสดคอเวบไซต อเมซอน (Amazon.com) ซงเปนเวบไซตท
ขายหนงสอผานทางอนเตอรเนต ผมคดวาผอานหลายๆ ทานนาจะเคยเขาไปดหรอใชบรการของเวบไซตนกน
มาบางแลว เมอเราเขาไปคนหาหนงสอเราจะพบวาอเมซอนจะมระบบแนะนำหนงสอ (recommendation
system) ใหโดยเปนการวเคราะหขอมลจากพฤตกรรมการซอหนงสอของลกคากอนหนาน ตวอยางของระบบ
แนะนำหนงสอของเวบไซตอเมซอนแสดงในรปท 1-1 ซงผมทำการเลอกคนหาหนงสอทเกยวของกบการใช
ซอฟตแวร RapidMiner ซงเปนซอฟตแวรทชวยในการวเคราะหขอมลดวยเทคนค ดาตา ไมนนง ระบบกจะ
ทำการแนะนำหนงสอทเกยวของมาให
รปท 1-1 ระบบแนะนำสนคาของเวบไซตอเมซอน
นอกจากเวบไซตอเมซอนทเปนผรเรมใชระบบแนะนำสนคาเปนแหงแรกแลวยงมเวบไซตอนๆ ทใชหลก
การนเชนกน ตวอยางเชน เวบไซต เนตฟลกซ (Netfix) ซงเปนผใหบรการดภาพยนตผานทางอนเตอรเนตกม
ระบบแนะนำภาพยนตทลกคาสวนใหญมกจะดพรอมกนไปดวยดงเชนรปท 1-2
รปท 1-2 ระบบแนะนำสนคาของเวบไซตเนตฟลกซ
http://www.facebook.com/datacube.th 11
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
นอกจากนยงมตวอยางเวบไซตหรอระบบอนๆ เชน ระบบซอแอพพลเคชนบนโทรศพทมอถอทมระบบ
ปฏบตการ แอนดรอยด (Android) ทเรยกวา เพลย สโตร (Play Store) กมระบบแนะนำแอพพลเคชนทมผใช
มกจะดาวนโหลดรวมกนบอยๆ อย
นอกจากนยงมการนำเทคนคดาตา ไมนนงไปใชคนหาขอมลทสำคญจากขอมลในเครอขายสงคม
ออนไลนตางๆ เชน การวเคราะหทศนคตของเรองตางๆ ทผคนกำลงสนใจอย ตวอยางเชน เวบไซต
sentiment140.com ไดทำการดงขอความทวต (tweet) จากเวบไซตทวตเตอร (twitter.com) ทเกยวของกบ
สนคาหรอคำศพท (keyword) ทผใชสนใจออกมาแลวจงทำการวเคราะหวาขอความใดมทศนคตเชงบวก
หรอเชงลบกบสนคาทพจารณาอย ตวอยางของเวบไซต sentiment140.com แสดงในรปท 1-3 โดยขอความ
ทเปนสแดง คอ ทศนคตเชงลบ ขอความทเปนสเขยน คอ ทศนคตเชงบวก และขอความทเปนสขาว คอ
ทศนคตทเปนกลาง การวเคราะหขอมลลกษณะนจะชวยองคกรหรอบรษทไดเขาใจความคดเหนของลกคาได
มากขน
รปท 1-3 ผลการวเคราะหขอความในเวบไซตทวตเตอรซงแสดงทศนคตเชงบวก ลบ หรอเปนกลาง
http://www.facebook.com/datacube.th 12
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
1.2 ขอมลในรปแบบตางๆ
หลงจากทเราไดเหนตวอยางการนำเทคนคดาตา ไมนนงไปใชงานกนบางแลว ถดมาผมขอแนะนำเรอง
เกยวกบขอมลและคำศพททเกยวของในการวเคราะหขอมลทจะไดพบในบทถดไป โดยปกตแลวขอมลท
สามารถนำมาวเคราะหไดจะตองเปนแบบมโครงสราง (structured data) หรออยในรปแบบตาราง เชน
ขอมลของสมาชก หรอ ขอมลการซอขายสนคาตางๆ แตในปจจบนเรากาวเขาสยคของบก ดาตา ซงมขอมล
ขนาดมหาศาลแตขอมลเหลานมกจะไมมโครงสราง (unstructured data) เชน ขอความตางๆ ไมวาจะอยใน
อเมล (e-mail) หรอเครอขายสงคมออนไลน (social network) ตางๆ ถาเราตองการนำขอมลทไมมโครงสราง
นมาทำการวเคราะห จำเปนจะตองทำการแปลงรปแบบขอมลเหลานใหอยในรปแบบทมโครงสราง หรอ รป
แบบตารางเสยกอน ในหนงสอเลมนผมจะเนนไปทขอมลทมโครงสรางแตขอแนะนำวธการแปลงขอมลทไมม
โครงสรางสกเลกนอย เรามาลองดคำศพทตางๆ ทเกยวของกบขอมลทงสองแบบกนกอนครบ
(1) ขอมลแบบมโครงสราง (structured data)
ขอมลแบบมโครงสรางเปนขอมลทวๆ ไปทเรามกจะพบเหนกนในรปแบบของตาราง เชน ขอมลทเกบ
รายละเอยดของสมาชก หรอ การซอขายสนคา โดยปกตแลวขอมลเหลานมกจะเกบอยในไฟลประเภท Excel
หรอในฐานขอมลตางๆ ตวอยางเชน ขอมลสมาชกทแสดงในตารางท 1-1 ซงประกอบดวย 5 แถวและ 5
คอลมน ในหนงสอทเกยวของกบการวเคราะหขอมลดวยเทคนคดาตา ไมนนงสวนใหญจะเรยกขอมลแตละ
"แถว" วา "ตวอยาง (example)” หรอ "อนสแตนซ (instance)” และขอมลแตละ "คอลมน" วา
"แอตทรบวต (attribute)” หรอ "ฟเจอร (feature)” ซงในหนงสอเลมนผมขอเรยกขอมลในแตละแถววา
ตวอยาง และแตละคอลมนวา แอตทรบวต ครบ และบรรทดแรกในตารางท 1-1 คอชอของแตละ
แอตทรบวต ดงนนเราสามารถอานไดวาลกคาทมหมายเลขสมาชกเปน 2014-00001 ชอวา สมชาย เปนเพศ
ชาย อาย 33 ปและมรายได 33,000 บาท เปนตน
ตารางท 1-1 แสดงขอมลรายละเอยดของลกคา
หมายเลขสมาชก ชอ เพศ อาย รายได
2014-00001 สมชาย ชาย 33 33,000
2014-00002 สมหญง หญง 35 35,000
2014-00003 ปต ชาย 23 23,000
2014-00004 มาน หญง 22 22,000
2014-00005 ชใจ หญง 23 23,000
http://www.facebook.com/datacube.th 13
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
(2) ขอมลแบบไมมโครงสราง (unstructured data)
ดงทไดกลาวไปแลววาขอมลสวนใหญจะเปนขอมลแบบทไมมโครงสราง เชน ขอความ หรอ รปภาพ
ตางๆ แตขอมลเหลานกมความสำคญ เชน ตวอยางของการนำไปประยกตเพอหาทศนคตตางๆ ของลกคาท
เกดขน ในหวขอนผมขอยกตวอยางการแปลงขอมลทเปนรปแบบขอความใหเปนขอมลในรปแบบตารางโดย
ใชวธการแปลงขอมล (data transformation) เชน ขอความขาวในตารางท 1-2
ตารางท 1-2 แสดงขอความขาวตางๆ
เอกสาร ขอความในเอกสาร
1 ชาวนาหลายจงหวดอสานปลมทหาร หลงไดรบเงนจำนำขาว
2 ชาวนาโคราช แหรบเงนจำนำขาวจาก ทหาร-ธ.ก.ส. พรอมขอบคณ
ค.ส.ช.
3 เกษตรกร เฮ ผวาฯปราจนบร นำเงนจำนำขาวคนชาวนาครบทกราย
จากขอความในตารางท 1-2 เราสามารถตดขอความออกมาเปนคำตางๆ ได เชน ชาวนา หลายจงหวด อสาน
ปลม ทหาร หลง เปนตน หลงจากนนคดเลอกคำทเปนคำสำคญและนำมาเปนชอของแตละแอตทรบวต และ
พจารณาวาในแตละเอกสารมคำใดปรากฏขนบาง ซงถาเอกสารมคำนนปรากฏขนจะมคาเปน Y และไมม
ปรากฏขนจะมคาเปน N ดงแสดงในตารางท 1-3 ซงแปลความหมายไดวา เอกสารท 1 มคำวา "ชาวนา",
"ปลม", "รบเงน", "จำนำขาว", "ทหาร" เกดขนแตไมมคำวา "ขอบคณ" ปรากฏอยเลย
ตารางท 1-3 แสดงขอความทไดทำการแปลงมาเปนขอมลในรปแบบตาราง
เอกสาร ชาวนา ปลม รบเงน จำนำขาว ทหาร ขอบคณ
1 Y Y Y Y Y N
2 Y N Y Y Y Y
3 Y N N Y N N
จากตวอยางนเปนการแปลงขอมลในรปแบบทไมมโครงสราง คอ ขอความใหเปนขอมลในรปแบบทม
โครงสราง คอ ตาราง ถดจากนผมจะแนะนำใหทานผอานรจกกบเทคนคในการวเคราะหขอมลดวยดาตา
ไมนนงซงม 2 ประเภทหลกดงจะไดอธบายในหวขอถดไปครบ
http://www.facebook.com/datacube.th 14
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
1.3 เทคนคการวเคราะหขอมลดวยดาตา ไมนนง
เทคนคในการวเคราะหขอมลดวยดาตา ไมนนงนนสามารถไดเปน 2 ประเภทหลกๆ คอ
• เทคนคการเรยนรแบบไมมผสอน (unsupervised learning)
• เทคนคการเรยนรแบบมผสอน (supervised learning)
(1) เทคนคการเรยนรแบบไมมผสอน (unsupervised learning)
เทคนคประเภทแรกนจะเนนทการพจารณาขอมลเปนหลก เชน พจารณาวาขอมลมความสมพนธกนใน
ลกษณะใดบาง เทคนคในประเภทนจะแบงยอยไดอก คอ เทคนคการคนหากฏความสมพนธ (association
rule) และ การแบงกลมขอมล (clustering) ซงจะไดอธบายรายละเอยดในบทท 2 และ 3 ตอไปตามลำดบ
(2) เทคนคการเรยนรแบบมผสอน (supervised learning)
เทคนคในประเภทนจะเนนการเรยนรจากขอมลทมอยในอดตเพอนำมาสรางโมเดลสำหรบทำนายหรอ
คาดการณสงทเกดขนในอนาคต โมเดลในทนอาจจะเปนสมการทางคณตศาสตร หรอ กฏตางๆ กเปนได
เทคนคการเรยนรแบบมผสอนนสามารถแบงยอยไดอก คอ การจำแนกประเภทขอมล (classifcation) และ
การประมาณคาขอมล (regression) ซงทงสองเทคนคจะมลกษณะทคลายกนมากแตแตกตางกนทคำตอบท
ตองการทำนาย ซงการจำแนกประเภทขอมลจะทำนายขอมลทมคาเปน นอมนอล (nominal) เชน เพศชาย
หญง หรอคาทไมใชตวเลขนนเอง สวนการประมาณคาขอมลจะใชกบขอมลคำตอบทเปนตวเลขเทานน ผม
จะอธบายรายละเอยดของทง 2 วธนในบทท 4 ครบ
ในหนงสอเลมนผมเนนไปทการแนะนำใหรจกเทคนคในการวเคราะหขอมลทางดาตา ไมนนงตางๆ และ
แสดงตวอยางการทำงานเบองตนใหทราบ แตขออนญาตไมลงในรายละเอยดเรองทฤษฎและการนำไปใช
งานในดานหนงดานใดโดยเฉพาะ สำหรบผอานทสนใจรายละเอยดของเทคนคตางๆ ในเชงลก ผมขอแนะนำ
ใหอานหนงสอ Introduction to Concepts and Techniques in Data Mining and Application to Text
Mining ซงเขยนโดย ศ. ดร. ธนารกษ ธระมนคง จากสถาบนเทคโนโลยนานาชาต
สรนธร มหาวทยาลยธรรมศาสตร
http://www.facebook.com/datacube.th 15
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
บทท 4 การจำแนกประเภทขอมล (Classifcation)
• การจำแนกประเภทขอมลและการประยกตใชงาน
• ตววดประสทธภาพของโมเดลการจำแนกประเภทขอมล
• การแบงขอมลเพอใชในการวดประสทธภาพของโมเดลการจำแนกประเภทขอมล
• เทคนคการจำแนกประเภทขอมลดวยวธ Decision Tree
• เทคนคการจำแนกประเภทขอมลดวยวธ Naive Bayes
• เทคนคการจำแนกประเภทขอมลดวยวธ K-Nearest Neighbors (K-NN)
• เทคนคการจำแนกประเภทขอมลดวยวธ Neural Network
4.1 การจำแนกประเภทขอมลและการประยกตใชงาน
ในสองบททผานมาผมไดแนะนำใหรจกเทคนคทางดาตา ไมนนงทเปนแบบไมมผสอน (unsupervised
learning) ซงไดแก การหากฎความสมพนธในบทท 2 และการแบงกลมขอมลในบทท 3 บทนเราจะมา
ทำความรจกกบเทคนคแบบทมผสอน (supervised learning) กนครบนนคอ เทคนคการจำแนกประเภท
ขอมล (classifcation) ในชวตเราไดพบกบการประยกตใชงานเทคนคการจำแนกประเภทขอมลนกนอย
มากมายครบ แตบางครงเราอาจจะไมทนรตว เชน การทำนายสภาพอากาศในวนถดไปวาฝนจะตกมากนอย
แคไหน หรอมอณหภมเทาไร หรอ การจำแนกอเมล (e-mail) ออกเปนประเภทสแปม (spam) หรอแบบปกต
(normal) นอกจากนในแอพพลเคชนหลายตว เชน Facebook กสามารถคนหาใบหนาของคนทปรากฎใน
รปภาพไดวามใครบาง สงเหลานเกดจากนำเทคนคการจำแนกประเภทขอมลไปประยกตใชครบ
เทคนคการจำแนกประเภทขอมลนจะนำขอมลทมในอดตมาสอนระบบเพอใหเรยนรรปแบบทเกดขนใน
ขอมลแลวจงสรางเปนสมการหรอโมเดล (model) ขนมาเพอหาคำตอบใหสำหรบขอมลใหม เชน การจำแนก
อเมลออกเปนสแปมหรอแบบปกตตองมการนำขอมลของอเมลประเภทสแปมและประเภทปกตมาให
คอมพวเตอรทำการเรยนรเสยกอน หลงจากนนจงสรางโมเดลการจำแนกประเภทของอเมลและใชจำแนก
อเมลทเขามาใหมวาเปนแบบสแปมหรอแบบปกต ตวอยางอน เชน การคาดการณวาพรงนจะมอณหภม
เทาไร กตองอาศยขอมลวนกอนหนาทไดทำการเกบมา เปนตน จากสองตวอยางทไดยกมาจะเหนวาคำตอบ
ทสนใจนนตางกน คอ ในตวอยางแรกคำตอบทสนใจคอประเภทของอเมล ซงมผลทเปนไปได 2 แบบ คอ
สแปม และ ปกต ซงคำตอบทเปนประเภทของคาตางๆ เหลานในการวเคราะหขอมลจะเรยกวา “คลาส”
(class) หรอ “ลาเบล” (label) และเทคนคทหาคำตอบเหลานเรยกวา เทคนคการจำแนกประเภทขอมล
หรอ classifcation สวนตวอยางท 2 สนใจทจะหาคำตอบทแตกตางจากไปจากในตวอยางแรกเพราะเนนหา
คำตอบทเปนเชงปรมาณ หรอ จำนวนตวเลข เปนหลก ดงนนเทคนคในลกษณะนจงเรยกวา เทคนคการ
http://www.facebook.com/datacube.th 50
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
ประมาณคา หรอ regression ตอจากนไปผมจะแนะนำใหรจกกบขนตอนในการจำแนกประเภทขอมลซง
โดยปกตแลวจะแบงเปน 3 ขนตอนใหญๆ คอ
ตารางท 4-1 แสดงขอมลสภาพอากาศยอนหลง 14 วน
No. Outlook Temperature Humidity Windy Play
1 sunny hot high false no
2 sunny hot high true no
3 overcast hot high false yes
4 rainy mild high false yes
5 rainy cool normal false yes
6 rainy cool normal true no
7 overcast cool normal true yes
8 sunny mild high false no
9 sunny mild normal false Yes
10 rainy mild normal false yes
11 sunny mild normal true yes
12 overcast mild high true yes
13 overcast hot normal false yes
14 rainy mild high true no
1. ขนตอนการสรางโมเดล
ขนตอนนเปนขนตอนแรกในการจำแนกประเภทขอมล โดยการนำขอมลเทรนนง ดาตา
(training data) หรอขอมลทใชในการเรยนร มาสรางเปนโมเดลขนมาดวยเทคนคการจำแนกประเภทขอมล
แบบตางๆ เชน วธ Decision Tree (หวขอท 4.4) วธ Naive Bayes (หวขอท 4.5) วธ K-Nearest Neighbors
(หวขอท 4.6) และ วธ Neural Network (หวขอท 4.7)
http://www.facebook.com/datacube.th 51
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
ในการจำแนกประเภทขอมลนนเราจำเปนอยางมากทจะตองมขอมลเทรนนง ดาตา เพอใหคอมพวเตอรไดเรยนรจากตวอยางของขอมล โดยขอมลเทรนนง ดาตาน คอ ขอมลทมในอดตโดยจะประกอบดวย 2 สวนคอ แอตทรบวตทวไปและแอตทรบวตทเปนคลาสคำตอบทสนใจ ตวอยางเชน ขอมลในตารางท 4-1 ซงเปนขอมลทเกบสภาพอากาศยอนหลง 14 วนเพอดวาในแตละวนจะมการจดการแขงขนเบสบอลขนหรอไม [9] ซงแอตทรบวต Outlook, Temperature, Humidity และ Windy จะเปนแอตทรบวตประเภททวไปทใชในการพจารณาวาถาคาในแอตทรบวตเหลานเปนลกษณะไหนแลวจงมการจดแขงเบสบอล สวนแอตทรบวตทเปนคลาสคำตอบทเราสนใจคอ แอตทรบวต Play สำหรบขอมลของทานผอานเองกจะตองพจารณาวาแอตทรบวตไหนทจะเปนคลาสคำตอบ นอกจากนสงทควรคำนงเปนอยางมากกคอขอมลแอตทรบวตทวไปจะตองมความสมพนธกบแอตทรบวตทเปนคลาสคำตอบจงจะทำใหโมเดลทเราสรางไดมประสทธภาพและนาเชอถอมาก
หลงจากนนเทคนคในการจำแนกประเภทขอมลตางๆ จะเรยนรจากขอมลเทรนนง ดาตาและสรางเปนโมเดลในรปแบบตางๆ ออกมา เชน โมเดล Decision Tree ในรปท 4-1
รปท 4-1 โมเดล Decision Tree ทสรางไดจากขอมลในตารางท 4-1 (สรางจากซอฟตแวร RapidMiner Studio 6)
จากโมเดล Decision Tree ทสรางไดสามารถสรปเปนกฎได เชน1. IF Outlook = overcast THEN play = yes2. IF Outlook = sunny AND Humidity = high THEN play = no
จากกฎขอท 1 แปลความหมายไดวาถาสภาพอากาศเปนแบบ overcast จะมการจดแขงขนเบสบอล แตจากกฎขอท 2 แปลความหมายไดวาถาสภาพอากาศเปนแบบ sunny และความชนมากแลวจะไมสามารถจดแขงเบสบอลได
http://www.facebook.com/datacube.th 52
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
2. ขนตอนการทดสอบประสทธภาพของโมเดล
หลงจากทสรางโมเดลขนมาไดแลว ขนตอนถดมาจะตองทำการวดประสทธภาพของโมเดลทสรางได ซง
ผมขอแยกสวนนมาอธบายในรายละเอยดในหวขอตววดประสทธภาพของโมเดลการจำแนกประเภทขอมล (หวขอท 4.2) และ การแบงขอมลเพอใชในการวดประสทธภาพของโมเดลการจำแนกประเภทขอมล (หวขอท 4.3)
3. ขนตอนนำโมเดลไปใชงานเพอทำนายขอมลใหม
หลงจากทวดประสทธภาพของโมเดลไดผลเปนทนาเชอถอหรอพอใจแลว เราสามารถนำโมเดลทสรางได
นไปใชในการทำนายขอมลทเขามาใหม เชน ถาพบวาสภาพอากาศในวนปจจบนมคาดงตารางท 4-2 จะ
ทำนายไดวาจะมการจดแขงเบสบอลขน เนองจากแอตทรบวต Outlook มคาเปน sunny และ Humidity เปน
normal แลว Play จะเปน yes (พจารณาจากโมเดลในรปท 4-1)
ตารางท 4-2 แสดงขอมลสภาพอากาศในวนปจจบนซงยงไมทราบคลาสคำตอบ
No. Outlook Temperature Humidity Windy Play
15 sunny hot normal false ?
ในหวขอถดไปผมจะแนะนำใหรจกกบตววดประสทธภาพของโมเดลการจำแนกประเภทขอมลตางๆ ซง
ประกอบดวย ตาราง confusion matrix, คา precision, คา recall, คา f-measure และ คา accuracy
เปนตน
4.2 ตววดประสทธภาพของโมเดลการจำแนกประเภทขอมล
ดงทไดกลาวไปแลววาการนำโมเดลไปใชงานจรงไดนนเราจำเปนจะตองทราบประสทธภาพของโมเดล
เสยกอน โดยทวไปแลวจะมตววดทนยมใชกนในงานวจยและการทำงานตางๆ อย 5 คา คอ
• Precision เปนการวดความแมนยำของโมเดล โดยพจารณาแยกทละคลาส
• Recall เปนการวดความถกตองของโมเดล โดยพจารณาแยกทละคลาส
• F-measure เปนการวดคา Precision และ Recall พรอมกนของโมเดล โดยพจารณาแยกทละ
คลาส
http://www.facebook.com/datacube.th 53
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
• Accuracy เปนการวดความถกตองของโมเดล โดยพจารณารวมทกคลาส
กอนทจะไปรจกกบตววดประสทธภาพของโมเดลตวตางๆ ผมขอแนะนำใหรจกกบตาราง confusion matrix กอนครบ confusion matrix คอ ตารางแบบจตรสโดยมจำนวนแถวเทากบจำนวนคอลมนและเทากบจำนวนคลาส เชน ในตารางท 4-1 มคลาสคำตอบอย 2 คา คอ yes และ no ฉะนนตาราง confusion matrix นจะสรางไดเปนตารางขนาด 2x2 ดงในตารางท 4-3 โดยขอมลดานคอลมนคอ คลาสทอยในขอมลเทรนนง ดาตา (actual) และขอมลในแนวแถว คอ คลาสทโมเดลทำนายมาได (predicted)
ตารางท 4-3 แสดงตาราง confusion matrix ของขอมล weather ซงม 2 คลาส
predicted / actual yes no
yes TP FP
no FN TN
จากในตารางท 4-3 คาทแสดงในชองตางๆ ของตารางประกอบดวย
• True Positive (TP) คอ จำนวนขอมลททำนายถกวาเปนคลาสซงกำลงสนใจอย• True Negative (TN) คอ จำนวนขอมลททำนายถกวาเปนคลาสซงไมไดสนใจอย• False Positive (FP) คอ จำนวนขอมลททำนายผดมาเปนคลาสซงกำลงสนใจอย• False Negative (FN) คอ จำนวนขอมลททำนายผดมาเปนคลาสซงไมไดสนใจอย
ตารางท 4-4 แสดงขอมลแอตทรบวต Play จากเทรนนง ดาตา 10 ตวแรกและคาททำนายได
No. Actual Predicted
1 no no
2 no no
3 yes no
4 yes yes
5 yes no
6 no yes
http://www.facebook.com/datacube.th 54
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
ตารางท 4-4 (ตอ) แสดงขอมลแอตทรบวต Play จากเทรนนง ดาตา 10 ตวแรกและคาททำนายได
No. Actual Predicted
7 yes yes
8 no no
9 yes no
10 yes yes
เพอความเขาใจทมากขนผมขอยกตวอยางขอมลทอยในเทรนนง ดาตาและททำนายออกมาไดมาแสดงใหด
ในตารางท 4-4 โดยทกำลงพจารณาคลาส Play = yes ดงนนจะสรปไดวา
• True Positive (TP) คอ จำนวนขอมลททำนายถกวาเปนคลาส Play = yes
◦ มจำนวน 3 ตว (แถวทเปนตวหนา คอ แถวท 4, 7 และ 10)
• True Negative (TN) คอ จำนวนขอมลททำนายถกวาเปนคลาส Play = no
◦ มจำนวน 3 ตว (แถวทเปนตวเอยง คอ แถวท 1, 2 และ 8)
• False Positive (FP) คอ จำนวนขอมลททำนายผดมาเปนคลาส Play = yes
◦ มจำนวน 1 ตว (แถวทขดเสนใต คอ แถวท 6)
• False Negative (FN) คอ จำนวนขอมลททำนายผดมาเปนคลาส Play = no
◦ มจำนวน 3 ตว (แถวทตวอกษรปกต คอ แถวท 3, 5 และ 9)
ดงนนจงสรางตาราง confusion matrix ไดดงตารางท 4-5
ตารางท 4-5 แสดงตาราง confusion matrix ของขอมล weather ซงม 2 คลาส
predicted / actual yes no
yes 3 1
no 3 3
หลงจากทเราสรางตาราง confusion matrix ไดดงตารางท 4-5 แลวเรามาดวธคำนวณคา Precision,
Recall, F-measure และ Accuracy กนตอเลยดกวาครบ
http://www.facebook.com/datacube.th 55
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
• Precision เปนการวดความแมนยำของโมเดล โดยพจารณาแยกทละคลาส
Precision=True Positive
True Positive+False Positive
ดงนน Precision ของคลาส yes คอPrecision (Play=yes) = 3/4 = 75%
• Recall เปนการวดความถกตองของโมเดล โดยพจารณาแยกทละคลาส
Recall=True Positive
True Positive+False Negative
ดงนน Recall ของคลาส yes คอRecall (Play=yes) = 3/6 = 50%
• F-measure เปนการวดคา Precision และ Recall พรอมกนของโมเดล โดยพจารณาแยกทละคลาส
F−measure=2×Precision×RecallPrecision+Recall
F-measure (Play=yes) = 2 x 75% x 50% / (75% + 50%) = 60%
• Accuracy เปนการวดความถกตองของโมเดล โดยพจารณารวมทกคลาส คอ จำนวน True Positive ของทกคลาสรวมกนไดเทากบ 6/10 = 60%
4.3 การแบงขอมลเพอใชในการวดประสทธภาพของโมเดลการจำแนกประเภท
ขอมล
ในหวขอทผานมาผมแนะนำใหรจกกบตววดประสทธภาพของโมเดลไปแลว การวดประสทธภาพแบบนไดจำเปนตองแบงขอมลออกเปน 2 สวน โดยทสวนท 1 ใชเพอสรางโมเดลและสวนท 2 ใหโมเดลทำนายคาคลาสคำตอบออกมา การแบงขอมลเพอทำการทดสอบนม 3 วธการใหญ ดงน
http://www.facebook.com/datacube.th 56
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
(1) วธ Self Consistency Test
วธ Self Consistency Test หรอบางครงเรยกวา Use Training Set นเปนวธการทงายทสด นนคอ
ขอมลทใชในการสรางโมเดลและขอมลทใชในการทดสอบโมเดลเปนขอมลชดเดยวกน กระบวนการนเรมจาก
สรางโมเดลดวยขอมลเทรนนง ดาตา หลงจากนนนำโมเดลทสรางไดมาทำนายขอมลเทรนนง ดาตา ชดเดม
ตวอยางเชน นำขอมลเทรนนง ดาตา ในตารางท 4-1 มาสรางโมเดลและทดสอบโมเดลเปนตน การวด
ประสทธภาพดวยวธนจะใหผลการวดประสทธภาพทมคาสงมาก (อาจจะเขาใกล 100%) เนองจากเปนขอมล
ชดเดมทระบบไดทำการเรยนรมาแลว แตผลการวดทไดไมเหมาะทจะนำไปรายงานในงานวจยตางๆ ซงวธ
การนเหมาะสำหรบใชในการทดสอบประสทธภาพเพอดแนวโนมของโมเดลทสรางขน ถาไดผลการวดทนอย
แสดงวาโมเดลไมเหมาะสมกบขอมล จงไมควรจะนำไปทดสอบดวยวธการแบงขอมลแบบตางๆ
(2) วธ Split Test
วธ Split Test เปนการแบงขอมลดวยการสมออกเปน 2 สวน เชน 70% ตอ 30% หรอ 80% ตอ 20%
โดยขอมลสวนทหนง (70% หรอ 80%) ใชในการสรางโมเดลและขอมลสวนทสอง (30% หรอ 20%) ใชใน
การทดสอบประสทธภาพของโมเดล ตวอยางเชน แบงขอมลเทรนนง ดาตา ในตารางท 4-1 แบงขอมล 10
ตวอยาง (14 x 0.7 = 9.8) ในการสรางโมเดลและขอมล 4 ตวอยาง (14 x 0.3 = 4.2) ใชในการทดสอบ
ประสทธภาพของโมเดล เปนตน แตการทดสอบแบบ Split Test นทำการสมขอมลเพยงครงเดยวซงในบาง
ครงถาการสมขอมลทใชในการทดสอบทมลกษณะคลายกบขอมลทใชสรางโมเดลทำใหผลการวด
ประสทธภาพไดออกมาด ในทางตรงขามถาการสมขอมลทใชในการทดสอบทมลกษณะแตกตางกบขอมลท
ใชสรางโมเดลมากทำใหผลการวดประสทธภาพไดออกมาแย ดงนนจงควรใชวธ Split Test นหรอทำการสม
หลายๆ ครง แตขอดของวธการนคอใชเวลาในการสรางโมเดลนอยซงเหมาะกบชดขอมลทมขนาดใหญมาก
(3) วธ Cross-validation Test
วธนเปนวธทนยมใชในการทดสอบประสทธภาพของโมเดลเนองจากผลทไดมความนาเชอถอ การวด
ประสทธภาพดวยวธ Cross-validation นจะทำการแบงขอมลออกเปนหลายสวน (มกจะแสดงดวยคา k) เชน
5-fold cross-validation คอ ทำการแบงขอมลออกเปน 5 สวน โดยทแตละสวนมจำนวนขอมลเทากน หรอ
10-fold cross-validation คอ การแบงขอมลออกเปน 10 สวน โดยทแตละสวนมจำนวนขอมลเทากน หลง
จากนนขอมลหนงสวนจะใชเปนตวทดสอบประสทธภาพของโมเดล ทำวนไปเชนนจนครบจำนวนทแบงไว
เชน การทดสอบดวยวธ 5-fold cross-validation ในรปท 4-2
http://www.facebook.com/datacube.th 57
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
รปท 4-2 ตวอยางการแบงขอมลแบบ 5-fold cross-validation
จากรปท 4-2 แบงขอมลเทรนนง ดาตาออกเปน 5 สวนทมจำนวนเทากน หลงจากนนทำการทดสอบ
ประสทธภาพของโมเดล 5 ครง ดงน
• รอบท 1 ใชขอมลสวนท 2,3,4 และ 5 สรางโมเดล และใชโมเดลทำนายขอมลสวนท 1
• รอบท 2 ใชขอมลสวนท 1,3,4 และ 5 สรางโมเดล และใชโมเดลทำนายขอมลสวนท 2
• รอบท 3 ใชขอมลสวนท 1,2,4 และ 5 สรางโมเดล และใชโมเดลทำนายขอมลสวนท 3
• รอบท 4 ใชขอมลสวนท 1,2,3 และ 5 สรางโมเดล และใชโมเดลทำนายขอมลสวนท 4
• รอบท 5 ใชขอมลสวนท 1,2,3 และ 4 สรางโมเดล และใชโมเดลทำนายขอมลสวนท 5
จะเหนไดวาขอมลทกชด (ขอมลทกตวอยาง) จะไดเปนตวทดสอบประสทธภาพของโมเดล โดยในการ
ทดสอบประสทธภาพของโมเดลแตละรอบจะไดจำนวน TP, TN, FP, FN ใสลงไปในตาราง confusion
matrix และบวกเพมเขาไป สดทายจะไดตาราง confusion matrix ทเปนคารวมทงหมดหลงจากนนจงทำการ
http://www.facebook.com/datacube.th 58
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
ประวตผเขยน
ชอ เอกสทธ พชรวงศศกดา (EAKASIT PACHARAWONGSAKDA)
การศกษา
• ปรญญาเอก วทยาการคอมพวเตอร สถาบนเทคโนโลยนานาชาตสรนธร (SIIT) มหาวทยาลย
ธรรมศาสตร (ทนโครงการปรญญาเอกกาญจนาภเษก)
• ปรญญาโทวศวกรรมศาสตร สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเกษตรศาสตร (บางเขน)
• ปรญญาตรวศวกรรมศาสตร สาขาวศวกรรมคอมพวเตอร (เกยรตนยมอนดบ 2) มหาวทยาลย
เกษตรศาสตร (บางเขน)
ประสบการณ
• Data Scientist ทบรษท GloriSys Cloud Solutions Co., Ltd.
• ผรวมกอตง หางหนสวนสามญ ดาตา ควบ (data cube)
• ไดรบทน visiting PhD Student ทมหาวทยาลยยอรค (York) เมองโตรอนโต ประเทศแคนาดา
• ไดรบ statement of completion หลกสตร Data Mining with Weka จากมหาวทยาลย Waikato
• อดตทปรกษาดานการวเคราะหขอมลใหกบสมาคมสงเสรมเทคโนโลย (ไทย-ญปน)
• ผกอตงหลกสตร An Introduction to Data Mining (Workshop with WEKA)
• วทยากรประจำหลกสตร Practical Data Mining with RapidMiner Studio 6
• วทยากรประจำหลกสตร Web Application Development using Weka and PHP
• วทยากรประจำหลกสตร Basic Data Mining with WEKA
• วทยากรรบเชญอบรม Practical Data Mining with RapidMiner Studio 6 ทมหาวทยาลย
เทคโนโลยราชมงคงสวรรณภม
• วทยากรรบเชญอบรม Practical Data Mining with RapidMiner Studio 6 ทมหาวทยาลยราชภฏ
สวนสนนทา
• วทยากรรบเชญอบรม Practical Data Mining with RapidMiner Studio 6 ทมหาวทยาลย
พระจอมเกลาพระนครเหนอ
• วทยากรรบเชญอบรม Basic Data Mining for Marketing using RapidMiner Studio 6 ท
ธนาคารเพอการเกษตรและสหกรณ (ธ.ก.ส.)
ประสบการณ (ตอ)
• วทยากรรบเชญอบรม Data Mining with WEKA ท บรษท ระยองวศวกรรมและซอมบำรง จำกด
(REPCO)
• วทยากรรบเชญอบรม Data Mining with WEKA ทคณะวทยาการสารสนเทศ มหาวทยาลยบรพา
http://www.facebook.com/datacube.th 115
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
• วทยากรรบเชญอบรมหลกสตร An Introduction to Data Mining ท บรษท โทเทล แอคเซส คอม
มนเคชน จำกด (มหาชน) – DTAC
• วทยากรรบเชญอบรม Data Mining with WEKA ท บรษท โมโนเทคโนโลย จำกด
• วทยากรรบเชญอบรม Data Mining with WEKA ทคณะเทคโนโลยสารสนเทศ มหาวทยาลย
พระจอมเกลาพระนครเหนอ
• วทยากรรบเชญหลกสตร ขดเหมองขอมลดวย Weka รนท 1 – 7 สถาบน Open Source
Education Center
• วทยากรหวขอ “Training Data Mining with Weka” จดโดยมลนธศกดพรทรพย
• ผเขยนบทความ “ขดเหมองขอมลดวย Weka” นตยสาร OpenSource2Day
• ประสบการณพฒนาระบบงาน Help Desk ดวยเทคนค data mining
• ประสบการณพฒนาระบบพยาการณนำฝนดวยเทคนค data mining ฯลฯ
• อดตผรวมกอตงและวทยากรของ หสม. โอเพน ไมเนอร
• อดตผชวยนกวจย หองปฏบตการ Information Systems ศนยพนธวศวกรรมและเทคโนโลย
ชวภาพแหงชาต (BIOTEC) งานวจยดาน Data Mining, Bioinformatics และ
Chemoinformatics
• อดตทปรกษาโครงงานปรญญาตร หองปฏบตการ Data Analysis and Knowledge Discovery
Laboratory (DAKDL) คณะวศวกรรมศาสตร (คอมพวเตอร) มหาวทยาลยเกษตรศาสตร
ผลงานวจยทมสวนรวม
• วารสารวชาการระดบนานาชาต (International Journals)
1. Eakasit Pacharawongsakda and Thanaruk Theeramunkong (2013), “Predict Subcellular
Locations of Singleplex and Multiplex Proteins by Semi-Supervised Learning and
Dimension-Reducing General Mode of Chou’s PseAAC”, NanoBioscience, IEEE
Transactions on, vol.12, no.4, pp.311-320, Dec. 2013 (Impact Factor (2013): 1.768)
2. Eakasit Pacharawongsakda and Thanaruk Theeramunkong (2013), “Multi-Label
Classifcation Using Dependent and Independent Dual Space Reduction”, The
Computer Journal, Oxford University Press, vol.56, no.9, pp.1113-1135, Feb. 2013
(Impact Factor (2013): 0.888)
3. Eakasit Pacharawongsakda, Sunai Yokwai and Supawadee Ingsriswang (2009),
“Potential natural product discovery from microbes through a diversity-guided
computational framework”, Applied Microbiology and Biotechnology, 82: 579 (Impact
Factor (2012): 3.689)
http://www.facebook.com/datacube.th 116
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
4. Wasna Viratyosin, Supawadee Ingsriswang, Eakasit Pacharawongsakda and Prasit
Palittapongarnpim (2008), “Genome-wide subcellular localization of putative outer
membrane and extracellular proteins in Leptospira interrogans serovar Lai genome
using bioinformatics approaches”, BMC Genomics, 9 (Impact Factor (2012): 4.400)
5. Supawadee Ingsriswang and Eakasit Pacharawongsakda (2007), “sMOL Explorer: an
open source, web-enabled database and exploration tool for Small MOLecules
datasets”, Bioinformatics, 18: pp. 2498-2500 (Impact Factor (2012): 5.323)
• การประชมวชาการระดบนานาชาต (International Conferences)
1. Eakasit Pacharawongsakda and Thanaruk Theeramunkong (2013), “A Two-Stage Dual
Space Reduction Framework for Multi-label Classifcation”, Proceedings of the the third
Quality issues, measures of interestingness and evaluation of data mining models
workshop, Gold Coast, Australia, April 14-17, 2013
2. Samatcha Thanangthanakij, Eakasit Pacharawongsakda, Nattapong Tongtep, Pakinee
Aimmanee and Thanaruk Theeramunkong (2012), “An Empirical Study on Multi-
dimensional Sentiment Analysis from User Service Reviews”. Proceedings of the
seventh International Conference on Knowledge, Information and Creativity Support
Systems, Melbourne, Australia, November 8 – 10, 2012 (Cited by 2)
3. Eakasit Pacharawongsakda, Cholwich Nattee and Thanaruk Theeramunkong (2012),
“Improving Multi-label Classifcation Using Semi-supervised Learning and
Dimensionality Reduction”, Proceedings of the twelfth Pacifc Rim International
Conference on Artifcial Intelligence (PRICAI), Kuching Sarawak, Malaysia, September
3-7, 2012.
4. Eakasit Pacharawongsakda and Thanaruk Theeramunkong (2012), “Towards More
Ecient Multi-Label Classifcation using Dependent and Independent Dual Space
Reduction”, Proceedings of the sixteenth Pacifc-Asia Conference on Knowledge
Discovery and Data Mining (PAKDD), Kuala Lumpur, Malaysia, May 29- June 1, 2012.
(Cited by 4)
5. Eakasit Pacharawongsakda and Thanaruk Theeramunkong (2011), “Improving Classifer
Chains for Multi-label Classifcation using Dual Space Reduction”, Proceedings of The
6th International Conference on Knowledge, Information and Creativity Support
Systems, Beijing, China, October, 22-24, 2011. (Best Paper Award)
http://www.facebook.com/datacube.th 117
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
6. Sunai Yokwai, Boonyarat Phadermrod, Eakasit Pacharawongsakda and Supawadee
Ingsriswang (2008), “Using Molecular Systematics and GIS-based Modeling
Approaches for Selection of Potential Sites to Explore the Desirable Microbial
Products”, Proceedings of GeoInformatics 2008, Guangzhou, China, June 28-29 2008
7. Eakasit Pacharawongsakda, Sunai Yokwai, Nitsara Karoonuthaisiri, Duangdao
Wichadakul and Supawadee Ingsriswang (2008), “ESTplus: An Integrative System for
Comprehensive and Customized EST Analysis and Proteomic Data Matching”,
Proceedings of The 2nd International Conference on Bioinformatics and Biomedical
Engineering (iCBBE2008), Shanghai, China. May 16-18, 2008 (Cited by 3)
8. Duangdao Wichadakul, Supawadee Ingsriswang, Eakasit Pacharawongsakda,
Boonyarat Phadermrod and Sunai Yokwai (2008), “ATGC-Dom: Alignment, Tree, and
Graph for Comparative proteomes by DOMain architecture”, Proceedings of the 12th
Annual International Conference on Research in Computational Molecular Biology
(RECOMB 2008), Singapore, Mar 30-Apr 2 2008 (Co-Winner of Poster Special
Commendation Award)
9. Wasna Viratyosin, Supawadee Ingsriswang, Eakasit Pacharawongsakda and Prasit
Palittapongarnpim (2005), “Computational Framework Analysis for Secreted Proteins in
Leptospira interrogans Genome”, Poster Presentation at of the Third Asia-Pacifc
Bioinformatics Conference (APBC2005), Singapore, 17-21 January 2005
10. Supawadee Ingsriswang, Wasna Viratyosin, Eakasit Pacharawongsakda and Prasit
Palittapongarnpim (2005), “Post-Prediction through Hierarchical Partitioning and
Discriminant Analysis for Decision Support of Putative Secreted Protein Identifcation”,
Poster Presentation at the Third Asia-Pacifc Bioinformatics Conference (APBC2005),
Singapore, 17-21 January 2005
11. Eakasit Pacharawongsakda, Supawadee Ingsriswang, Anuttara Nathalang and Warren
Brockelman (2004), “Mo-Singto: A Mobile Integrated Data Logging and Mapping
System for Study of Forest Regeneration”, Proceedings of the IUFRO4.11 Conference
on Applications of Statistics, Information Systems and Computers in Natural Resources
Monitoring and Management, Taiwan, June 7-11, 2004.
http://www.facebook.com/datacube.th 118
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
• การประชมวชาการระดบชาต (National Conferences)
1. Boonyarat Phadermrod, Sunai Yokwai, Eakasit Pacharawongsakda and Supawadee
Ingsriswang (2008), “An Opensource GIS-based Application to Improve the Molecular
Systematic Study of Microorganisms in National Parks of Thailand”, Proceedings of the
12th Annual Symposium on Computational Science and Engineering (ANSCSE 12
International Symposium), Ubon Rajathanee University, Thailand, Mar 27-29 2008
2. Eakasit Pacharawongsakda, Thanawin Rakthanmanon, Thanapat Kangkachit and
Kritsana Waiyamai (2007), “Prunning Strategies for Improving Sequential Pattern
Mining of Protein Sequence Dataset”, Proceedings of the 11th National Computational
Science and Engineering Conference (NCSEC 2007), Bangkok, Thailand.
3. Eakasit Pacharawongsakda and Supawadee Ingsriswang (2007), “Discovering
Discriminative Dipeptides in Subcellular Localization of Gram-Negative Bacterial
Proteins”, Proceedings of the 4th International Joint Conference on Computer Science
and Software Engineering, (JCSSE2007), Khonkaen, Thailand, 2-4 May 2007, pp. 343-
348
4. Boonyarat Phadermrod ,Sunai Yokwai, Eakasit Pacharawongsakda, Supawadee
Ingsriswang, (2007) “An Open-source Three-Tier Architecture for Mapping Microbial
Diversity”, Proceedings of NSTDA Annual Conference, (NAC 2007), Pathumthani,
Thailand, 28-30 March 2007
5. Eakasit Pacharawongsakda and Supawadee Ingsriswang (2006), “NAT : An Open
Source Platform for Searchable Structure and Property Database of Natural Bioactive
Compounds”, Proceedings of the 10th National Computational Science and Engineering
Conference (NCSEC 2006), Khonkaen, Thailand, 25-27 October 2006, pp.553-560
6. ! Siriwon Taewijit, Eakasit Pacharawongsakda and Supawadee Ingsriswang (2006),
“Improved Subcellular Localization Prediction of Gram-Positive Bacterial Proteins Using
Feature Selection and DDAG-SVM”, Proceedings of the 10th National Computer
Science and Engineering Conference (NCSEC 2006), 25-27 October 2006, Khonkaen,
Thailand, pp.535-543
7. Eakasit Pacharawongsakda and Supawadee Ingsriswang (2006), “AAA: Automatic
AIDS Antiviral Screening System Using SVM with Maximal Frequent Molecular
Fragments”, Proceeding of the 10th Annual National Symposium on Computational
Science and Engineering (ANSCSE10), Chiangmai, Thailand, March 22-24, pp. 171-
http://www.facebook.com/datacube.th 119
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
175, ISBN: 974-656-924-4
8. Eakasit Pacharawongsakda and Supawadee Ingsriswang (2005), “Subcellular
Localization Prediction of Gram-negative Bacterial Proteins Using Decision Directed
Acyclic Graph Support Vector Machines”, Proceeding of the 9th National Computer
Science and Engineering Conference, Bangkok (NCSEC 2005), Thailand, 27-28
October 2005, pp.161-170, ISBN-974-677-541-3
http://www.facebook.com/datacube.th 120
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
หลกสตรการวเคราะหขอมลดวยเทคนค Data Mining
โดยซอฟตแวร RapidMiner Studio 6 (ขนพนฐานและปานกลาง)
ภาพรวมของหลกสตร
โลกในยคปจจบนไดกาวเขาไปสยคทเรยกวา “Big Data” หรอ “ขอมลอภมหาศาล” เนองจากในแตละวนม
ขอมลเกดขนมากมาย อาทเชน ขอมลสมาชกของ Facebook ขอมลการซอสนคาจากในซปเปอรมารเกต
ตางๆ และเพอใหเกดประโยชนมากทสดเราจำเปนตองนำขอมลอภมหาศาลเหลานมาทำการวเคราะห
(analyze) ซงเทคนคหนงทไดรบการนยมอยางสงในปจจบน คอ เทคนค Data Mining ซงเปนเทคนคทคนหา
ความสมพนธในขอมล เชน ถาลกคาซอเบยรแลวลกคาจะซอผาออมรวมไปดวย หรอถาเรากด L ike หนา
Facebook page เราจะเหนวา Facebook มระบบแนะนำ page อนๆ ทเกยวของมาใหดวย หรอ การสราง
โมเดลเพอทำนายสงทจะเกดขนในอนาคต เชน ทำนายยอดขายในไตรมาสถดไป หรอ การทำนายวา
พนกงานคนไหนทจะลาออกจากบรษทในชวง 3 เดอนขางหนา ตวอยางเหลานลวนเปนผลมาจากการ
วเคราะหขอมลทางดาน Data Mining
การวเคราะหขอมลดวย Data Mining นกำลงเปนทนยมไปทวโลกดวยแรงขบเคลอนอยางหนงคอ การม
ซอฟตแวรทชวยใหทำการวเคราะหไดงายขน แตซอฟตแวรสวนใหญจะเปนซอฟตแวรเชงพาณชย
(commercial software) เช น SAS Enterprise Miner ห ร อ IBM Intelligent Miner ทวาการลงทนซอ
ซอฟตแวรเชงธรกจเหลานมาใชงานอาจจะไมคมคาในการลงทนสำหรบผประกอบการวสาหกจขนาดกลาง
และขนาดยอม (SMEs) หรออาจารย นกวจย และ นกศกษาระดบปรญญาโทและเอก ใ นมหาวทยาลยตางๆ
ดงนนวธการหนงทจะทำใหเราสามารถวเคราะหขอมลเหลานไดคอการใช open source software ทสามารถ
ดาวนโหลดมาใชงานไดโดยไมเสยคาใชจาย (ฟ ร !!!) เชน ซอฟตแวร Weka ผมคลกคลกบ Weka มาเปน
เวลาหลายป เคยเขยนคมอการใชงาน Weka Explorer ลงในนตยสาร OpenSource2Day สรางหลกสตรการ
อบรมการใชงาน Weka Explorer และอบรมการใชงานซอฟตแวรตวนมาเปนจำนวนเกอบยสบรน แมวา
ซอฟตแวรนจะใชงานไดงายสำหรบผเรมตนและสะดวกทจะนำไปใชในการพฒนา Web Application แตใน
หลายๆ ครงผมมกจะพบขอจำกดหรอความยากในการแสดงผลจากซอฟตแวรตวน ดงนนผมจงหนมาสนใจ
ซอฟตแวรตวอนทสามารถทดแทนหรอดกวาซอฟตแวร W e k a E x p l o r e r และผมกพบกบซอฟตแวร
RapidMiner Studio 6 ซงเปนซอฟตแวรทาง Data Mining ทไดรบการโหวตวามผใชงานมากทสดจาก
เวบไซต KDnuggets.com เมอป 2013 ในหลกสตรนผมจะแนะนำใหคณรจกการวเคราะหขอมลดวยเทคนค
Data Min ing ตงแตระดบตนจน (b as i c ) จนถงระดบกลาง (intermediate) ดวยการใชซอฟตแวร
RapidMiner Studio 6 ซงเปนเวอรชนลาสด ถาคณยงลงเลวาคณควรจะมาเขารวมอบรมหลกสตรนกบผม
หรอไม ผมขอถาม 8 คำถามสนๆ ดงนครบ
http://www.facebook.com/datacube.th 121
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
• สนใจการวเคราะหขอมลดวย Data Mining แตไมรจะเรมยงไงด
• อยากรวาลกคาซอสนคาอะไรเปนสวนใหญ
• อยากเขาใจพฤตกรรมการบรโภทของลกคา
• อยากทำงานวจยทางดาน text mining
• อยากทำงานวจยทางดาน image processing
• ไมชอบการเขยนโปรแกรมแตอยากวเคราะหขอมลทซบซอนได
• เคยเขารวมการอบรมการใชงาน Weka Explorer มาแลวและอยาก update ความรทาง Data
Mining ใหมๆ ดวยซอฟตแวรใหมๆ
ถาคณตอบวา “ใช” ใ นคำถามขอใดขอหนง ผมขอแนะนำวาคณควรจะมาเขารวมอบรมกบผมครบ และคณ
จะรวาทำไมผมถงเปลยนใจจาก Weka Explorer มาตกหลมรกซอฟตแวรทชอวา RapidMiner Studio 6
ครบ
เนอหาการอบรม
วนท 1
• แนะนำการวเคราะหขอมลดวยเทคนค Data Mining และการใชประโยชนในงานวจย
• แนะนำกระบวนการ CRISP-DM เบองตนสำหรบการวเคราะหขอมล
• แนะนำสวนตางๆ ของซอฟตแวร RapidMiner Studio 6
• การนำขอมลไฟล Excel, CSV เขามาใชใน RapidMiner Studio 6
• ลกษณะของแอตทรบวต (attribute) ตางๆ ในชดขอมล
• การเขยนไฟลใหอยในรปแบบของ Excel และ CSV
• การแสดงขอมลในกราฟแบบตางๆ เชน scatter plot, time series
• การคนหา Outlier ซงเปนขอมลทแตกตางจากขอมลอนๆ
• การคนหาขอมลทผดพลาด (missing value) และแทนทดวยคาทกำหนดเองหรอคาทางสถต
• การแปลงขอมลดวยเทคนค discretization แบบกำหนดชวงเองหรอแบบอตโนมต
• การลดจำนวนขอมลดวยการ sampling แบบตางๆ
• การเลอกแอตทรบวตเพอใชในการวเคราะหขอมล
• แนะนำการหากฏความสมพนธ (association rules) และการประยกตใชงานดานตางๆ
• แนะนำเทคนคการหากฏความสมพนธดวยเทคนค Apriori และ FP Growth
• การแปลงขอมลจากฐานขอมล relation database ใหเปนฐานขอมล transaction database
• การหากฏความสมพนธดวยเทคนค FP Growth ซงเปนวธทมประสทธภาพมากทสด
• Workshop การหากฏความสมพนธจากขอมลการซอสนคาจำนวนมากกวา 100,000 transactions
ดวย RapidMiner Studio
http://www.facebook.com/datacube.th 122
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
• แนะนำการแบงกลมขอมล (clustering) และการประยกตใชงานดานตางๆ
• แนะนำตววดประสทธภาพของการแบงกลมขอมล
• แนะนำการแบงกลมขอมลดวยเทคนค K-Means และ DBScan
• Workshop การแบงกลมขอมลทางดานการศกษาและการแพทยดวย RapidMiner Studio 6
วนท 2
• แนะนำการจำแนกประเภทขอมล (classifcation)
• การวดประสทธภาพของการจำแนกประเภทขอมล
• แนะนำเทคนค Linear Regression และการประยกตใชงาน
• การใชงาน Linear Regression ใน RapidMiner Studio 6
• แนะนำเทคนค Naive Bayes และการประยกตใชงาน
• การใชงาน Naive Bayes ใน RapidMiner Studio 6
• แนะนำเทคนค Decision Tree และการประยกตใชงาน
• การใชงาน Decision Tree ใน RapidMiner Studio 6
• แนะนำเทคนค K-Nearest Neighbours (KNN) และการประยกตใชงาน
• การใชงาน KNN ใน RapidMiner Studio 6
• แนะนำเทคนค Neural Networks และการประยกตใชงาน
• การใชงาน Neural Networks ใน RapidMiner Studio 6
• แนะนำเทคนค Support Vector Machines (SVM) และการประยกตใชงาน
• การใชงาน SVM ใน RapidMiner Studio 6
• Workshop การจำแนกประเภทขอมลในงานดานตางๆ
• ดานธรกจ
• ดานการศกษา
• ดานการแพทย
• การคดเลอกแอตทรบวต (attribute selection) และการประยกตใชในการจำแนกประเภทขอมล
• Workshop การคดเลอกแอตทรบวตและการจำแนกประเภทขอมลในงานดานตางๆ
วนท 3
• แนะนำการทำ Text Mining ดวย RapidMiner Studio 6
• Workshop การจำแนกขอความทเปน spam จาก SMS
• Workshop การแบงกลมขอมลจากขอความรวว (Review)
• Workshop การหากฏความสมพนธจากขอความรวว
http://www.facebook.com/datacube.th 123
ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques
• แนะนำการทำ Image Mining ดวย RapidMiner Studio 6
• Workshop การจำแนกรปภาพออกเปนประเภทตางๆ
วทยากร
• ดร. เอกสทธ พชรวงศศกดา วทยาศาสตรคอมพวเตอร สถาบนเทคโนโลยนานาชาตสรนธร
มหาวทยาลยธรรมศาสตร
วนเวลาและสถานทอบรม
• ระยะเวลาการอบรม 3 วน
• ณ โรงแรม เค. ย. โฮม มหาวทยาลยเกษตรศาสตร วทยาเขตบางเขน
คาลงทะเบยน
• ราคา 6,500 บาท (ลดพเศษจากราคาเตม 6,900 บาท)
• ผเขารวมอบรมจะไดรบหนงสอประกอบการอบรม fash drive
ตดตามรายละเอยดเพมเตมไดท htpp://www.dataminingtrend.com หรอ
http://facebook.com/datacube.th
http://www.facebook.com/datacube.th 124
ยอนหลงไปเมอ 12 ปกอน การวเคราะหขอมลดวยเทคนค ดาตา ไมนนง (Data Mining) ยงรจกกนในวงแคบสวนใหญเปนนกศกษาปรญญาโทและเอกทสนใจทำงานวจยทางดานน ผมเองเรมตนรจกกบดาตา ไมนนงเมอประมาณ 12 ปกอนเชนกน ในสมยทเปนนกศกษาปรญญาตรตวเลกๆ ในหองปฏบตการวจยการคนหาความรจากฐานขอมลขนาดใหญ (Knowledge Discovery Laboratory) ในภาควชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร มหาวทยาลยเกษตรศาสตร ในชวงเวลาทผานมาผมไดเหนการเปลยนแปลงเกยวกบความสนใจของผคนในเรองดาตา ไมนนงอยางมากมาย ตงแตตอนแรกทความสนใจอยในวงแคบดงทไดกลาวมาแลวจนมาถงปจจบนทมผสนใจเพมขนเปนวงกวาง เชน บรษทเอกชนหรอธนาคารตางเรมใหความ
สนใจนำการวเคราะหขอมลดวยเทคนคดาตา ไมนนงไปใชงานกนมากขนหรอมหาวทยาลยบางแหงเรมจดใหมการเรยนการสอนเกยวกบเรองนในระดบชนปรญญาตร จากความนยมทเพมขนและการเกบเกยว
ประสบการณในการทำงานและการอบรมการวเคราะหขอมลทางดานดาตา ไมนนง ทำใหผมคดอยากจะเขยนหนงสอสกเลมซงทำการแนะนำเทคนคการวเคราะหขอมลทางดาตา ไมนนงเบองตน สำหรบนกศกษาและผสนใจขนมาและนนเองคอทมาของหนงสอเลมนทชอวา An Introduction to Data Mining Techniques โดยในหนงสอเลมนผมจะแสดงหลกการทำงานของวธการทางดานดาตา ไมนนง ประกอบดวย !
• การหากฏความสมพนธ (association rules discovery)
• การหากฏความสมพนธดวยวธ Apriori
• การแบงกลมขอมล (clustering)
• การแบงกลมขอมลดวยวธ K-Means
• การแบงกลมขอมลดวยวธ Agglomerative Clustering
• การจำแนกประเภทขอมล (classification)
• การจำแนกประเภทขอมลดวยวธ Decision Tree
• การจำแนกประเภทขอมลดวยวธ Naive Bayes
• การจำแนกประเภทขอมลดวยวธ K-Nearest Neighbors
• การจำแนกประเภทขอมลดวยวธ Neural Network !พรอมทงตวอยางการทำงานของวธการเหลานเพอใหผอานเขาใจไดงายโดยทไมตองมความรพนฐานทาง
ดานคณตศาสตรขนสง
การวเคราะหขอมลดวยเทคนค ดาตา ไมนนง เบองตน
http://facebook.com/datacube.th http://www.dataminingtrend.com