an introduction to data mining techniques · ดร. เอกสิทธิ์...

38
An Introduction to Data Mining Techniques Thai version Eakasit Pacharawongsakda, Ph.D. Certified RapidMiner Analyst Data Cube: http://facebook.com/datacube.th

Upload: others

Post on 27-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

An Introduction to Data Mining Techniques

Thai version

!Eakasit Pacharawongsakda, Ph.D.

Certified RapidMiner AnalystData Cube: http://facebook.com/datacube.th

Page 2: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

การวเคราะหขอมลดวยเทคนคดาตา ไมนนง เบองตน

โดย ดร. เอกสทธ พชรวงศศกดา

หสม. ดาตา ควบhttp://facebook.com/datacube.thhttp://www.dataminingtrend.com

Page 3: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ชอผแตง ดร. เอกสทธ พชรวงศศกดา

ชอหนงสอ การวเคราะหขอมลดวยเทคนคดาตา ไมนนง เบองตน

จำนวนหนา 124 หนา

พมพครงท 1

เดอนปทพมพ สงหาคม 2557

ชอโรงพมพ บรษท เอเชย ดจตอลการพมพ จำกด

21/19-20 ถ.งามวงศวาน แขวงลาดยาว

เขตจตจกร กรงเทพมหานคร 10900

จดจำหนายโดย หสม. ดาตา ควบ

53/486 หม 13 นวนคร ต.คลองหนง

อ.คลองหลวง จ.ปทมธาน

ออกแบบปก นางสาว กมนนทธ บางแวก

ราคา 499 บาท

สงวนลขสทธตาม พ.ร.บ. ลขสทธ พ.ศ. 2537

หามลอกเลยนแบบไมวาสวนหนงสวนใดของหนงสอ/เอกสารเลมน

นอกจากจะไดรบอนญาตเปนลายลกษณอกษร

คำเตอน !!!

การนำไปถายเอกสารอาจจะทำใหขอความและรปไมชดทำใหอานไดยากและ

จะทำใหผแตงเสยใจเปนอนมาก T_T

Page 4: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

แด พอ แม ผใหกำเนด

และอาจารยผประสทธ ประศาสตรวชาความรตางๆ

http://www.facebook.com/datacube.th 1

Page 5: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

http://www.facebook.com/datacube.th 2

Page 6: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

คำนำ

ยอนหลงไปเมอ 12 ปกอน การวเคราะหขอมลดวยเทคนค ดาตา ไมนนง (Data Mining) ยงรจกกนใน

วงแคบสวนใหญเปนนกศกษาปรญญาโทและเอกทสนใจทำงานวจยทางดานน ผมเองเรมตนรจกกบดาตา

ไมนนงเมอประมาณ 12 ปกอนเชนกน ในสมยทเปนนกศกษาปรญญาตรตวเลกๆ ในหองปฏบตการวจยการ

คนหาความรจากฐานขอมลขนาดใหญ (Knowledge Discovery Laboratory) ในภาควชาวศวกรรม

คอมพวเตอร คณะวศวกรรมศาสตร มหาวทยาลยเกษตรศาสตร ในชวงเวลาทผานมาผมไดเหนการ

เปลยนแปลงเกยวกบความสนใจของผคนในเรองดาตา ไมนนงอยางมากมาย ตงแตตอนแรกทความสนใจ

อยในวงแคบดงทไดกลาวมาแลวจนมาถงปจจบนทมผสนใจเพมขนเปนวงกวาง เชน บรษทเอกชนหรอ

ธนาคารตางเรมใหความสนใจนำการวเคราะหขอมลดวยเทคนคดาตา ไมนนงไปใชงานกนมากขนหรอ

มหาวทยาลยบางแหงเรมจดใหมการเรยนการสอนเกยวกบเรองนในระดบชนปรญญาตร จากความนยมท

เพมขนและการเกบเกยวประสบการณในการทำงานและการอบรมการวเคราะหขอมลทางดานดาตา ไมนนง

ทำใหผมคดอยากจะเขยนหนงสอสกเลมซงทำการแนะนำเทคนคการวเคราะหขอมลทางดาตา ไมนนงเบอง

ตนสำหรบนกศกษาและผสนใจขนมาและนนเองคอทมาของหนงสอเลมนทชอวา An Introduction to Data

Mining Techniques โดยในหนงสอเลมนผมจะแสดงหลกการทำงานของวธการทางดานดาตา ไมนนงไมวา

จะเปน การหากฎความสมพนธ (association rules discovery) การแบงกลมขอมล (clustering) และ การ

จำแนกประเภทขอมล (classifcation) พรอมทงตวอยางการทำงานของวธการเหลานเพอใหผอานเขาใจได

งายโดยทไมตองมความรพนฐานทางดานคณตศาสตรขนสง โดยการจดพมพครงท 2 นผมตงใจเผยแพร

ความรทางดาน ดาตา ไมนนงใหกบผสนใจโดยทวไป ผมอยากใหคนรจกดาตา ไมนนงวาแทจรงแลวเปน

อยางไร ไมใชเปนเพยงแคคดเอาเองวาบก ดาตา (Big Data) คอ ดาตา ไมนนง ผมขออธบายแบบนครบวา

บก ดาตา แบงเปน 2 สวน สวนแรกคอการจดเกบขอมลทมจำนวนมหาศาลมาเกบไว ซงในปจจบน

ประเทศไทยเราคงเรมอยทระดบน ในสวนท 2 คอ การนำขอมลทมจำนวนมากมาทำการวเคราะห สำหรบผม

คดวาการวเคราะหขอมลคงตองใชเวลาอกสกพกสำหรบบก ดาตาและเมอถงเวลานนผมคดวาทานผอานจะ

มความสามารถในการวเคราะหขอมลเหลานไดเปนอยางดแลว

สดทายนหนงสอเลมนคงไมสามารถเกดขนไดถาผมไมไดมโอกาสเรยนรเรองการวเคราะหขอมลดวย

ดาตา ไมนนงจาก รศ. ดร. กฤษณะ ไวยมย จากมหาวทยาลยเกษตรศาสตร ดร. สภาวด องศรสวาง จากศนย

พนธวศวกรรมและเทคโนโลยชวภาพแหงชาต ศ. ดร. ธนารกษ ธระมนคง จากสถาบนเทคโนโลยนานาชาต

สรนธร มหาวทยาลยธรรมศาสตร และ ศ. ดร. นค เซอรโคน (Nick Cercone) จากมหาวทยาลย ยอรค

(York University) ประเทศแคนาดา

ดร. เอกสทธ พชรวงศศกดา

28 สงหาคม 2557

http://www.facebook.com/datacube.th 3

Page 7: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

http://www.facebook.com/datacube.th 4

Page 8: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

สารบญ

หนา

บทท 1 การวเคราะหขอมลดวยเทคนค ดาตา ไมนนง (Data Mining) 7

1.1 แนะนำการวเคราะหขอมลดวยเทคนคดาตา ไมนนง (Data Mining) 7

◦ ความหมายของดาตา ไมนนง 8

◦ การประยกตใชงานดาตา ไมนนง 9

1.2 ขอมลในรปแบบตางๆ 13

◦ ขอมลแบบทมโครงสราง (structured data) 13

◦ ขอมลแบบทไมมโครงสราง (unstructured data) 14

1.3 เทคนคในการวเคราะหขอมลดวยดาตา ไมนนง 15

◦ เทคนคทการเรยนรแบบไมมผสอน (unsupervised learning) 15

◦ เทคนคการเรยนรแบบมผสอน (supervised learning) 15

บทท 2 การหากฏความสมพนธ (Association Rules) 16

• กฏความสมพนธและการประยกตใชงาน 16

• เทคนคในการหากฏความสมพนธดวยวธ Apriori 18

บทท 3 การแบงกลมขอมล (Clustering) 27

• การแบงกลมขอมลและการประยกตใชงาน 27

• การหาระยะหางระหวางขอมล (distance function) 29

• เทคนคในการแบงกลมขอมลดวยวธ K-Means 31

• เทคนคในการแบงกลมขอมลดวยวธ Agglomerative Clustering 36

บทท 4 การจำแนกประเภทขอมล (Classifcation) 50

• การจำแนกประเภทขอมลและการประยกตใชงาน 50

• ตววดประสทธภาพของโมเดลการจำแนกประเภทขอมล 53

http://www.facebook.com/datacube.th 5

Page 9: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

สารบญ (ตอ)

หนา

• การแบงขอมลเพอใชในการวดประสทธภาพของโมเดลการจำแนกประเภทขอมล 56

• เทคนคการจำแนกประเภทขอมลดวยวธ Decision Tree 59

• เทคนคการจำแนกประเภทขอมลดวยวธ Naive Bayes 76

• เทคนคการจำแนกประเภทขอมลดวยวธ K-Nearest Neighbors (K-NN) 83

• เทคนคการจำแนกประเภทขอมลดวยวธ Neural Network 88

บทท 5 กระบวนการการวเคราะหขอมลดวย CRISP-DM 105

• แนะนำกระบวนการวเคราะหขอมล CRISP-DM 106

◦ Business Understanding 106

◦ Data Understanding 107

◦ Data Preparation 107

◦ Modeling 107

◦ Evaluation 107

◦ Deployment 107

• ตวอยางการใชงาน CRISP-DM ในการแนะนำสาขาวชาใหกบนกศกษา 108

http://www.facebook.com/datacube.th 6

Page 10: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

บทท 1 การวเคราะหขอมลดวยเทคนคดาตา ไมนนง

(Data Mining)

• แนะนำการวเคราะหขอมลดวยเทคนคดาตา ไมนนง (Data Mining)

◦ ความหมายของดาตา ไมนนง

◦ การประยกตใชงานดาตา ไมนนง

• ขอมลในรปแบบตางๆ

◦ ขอมลแบบทมโครงสราง (structured data)

◦ ขอมลแบบทไมมโครงสราง (unstructured data)

• เทคนคในการวเคราะหขอมลดวยดาตา ไมนนง

◦ เทคนคทการเรยนรแบบไมมผสอน (unsupervised learning)

◦ เทคนคการเรยนรแบบมผสอน (supervised learning)

1.1 แนะนำการวเคราะหขอมลดวยเทคนคดาตา ไมนนง

เคยลองสงเกตดไหมครบวารอบๆ ตวเราเตมไปดวย … ขอมล … ซงตวเราเองเปนสวนหนงททำให

ขอมลเหลานเกดขน ทานผอานลองจนตนาการตามเรองทผมจะเลาตอไปนดนะครบ ...

“เชาวนทำงานทเรงรบวนหนง ปตตนนอนดวยความสดชน แตแลวความหวกบงเกดขนตามมาเขา

จงเดนเขาไปซอขนมจบและซาลาเปาทรานสะดวกซอซงเปดตลอด 24 ชวโมงทตงอยหนาปากซอย เมอทอง

อมกไดเวลาทตองออกไปทำงานเสยท ปตจงไดขบรถออกไปและสกระยะหนงเขากพบวานำมนรถนนใกลจะ

หมดจงจำเปนตองเลยวรถเขาไปเตมนำมนในปมเสยกอน เมอนำมนถกเตมจนเตมแลวพนกงานปมจงเดนมา

เพอขอเกบเงน ปตหยบบตรเครดตออกมาเพอจายคานำมน หลงจากนนจงเดนทางตอไปทำงาน หนาทของ

ปต คอ ผใหบรการขอมล (call center) ของบรษทเครอขายโทรคมนาคมรายใหญแหงหนง ซงในแตละวนเขา

จะตองใหบรการลกคาทมปญหาในดานตางๆ และโดยเฉลยในหนงวนนนปตตองใหบรการลกคาหลายสบ

ราย ในชวงบายของวนนน ชใจซงเปนเพอนสนทของปตคดอยากจะดภาพยนตรจงไดโทรศพทมาชวนปตเพอ

นดทานขาวแลวกดภาพยนตรในตอนเยนหลงเลกงาน ปตเหนดวยกบชใจ เธอจงทำการซอบตรภาพยนตร

ผานทางระบบอนเตอรเนตและชำระเงนดวยบตรเครดตของเธอเองกอน หลงจากนนเธอจงนดเขาใหไปเจอ

กนทหางสรรพสนคาทเปดใหมใจกลางกรง แตปตลองคดดแลววาถาเขาขบรถไปกคงไมสะดวกจงไดตดสนใจ

จะเดนทางไปดวยรถไฟฟา เมอถงตอนเลกงานปตจงไดเดนทางออกจากททำงานไปยงสถานรถไฟฟา และ

โดยสารรถไฟฟาไป เมอไปถงหางสรรพสนคาและพบชใจแลว ทงสองยงมเวลาเหลอพอทจะไปหาอาหารรบ

ประทาน ปตและชใจจงเดนไปเดนมาพบวามรานบะหมญปนชอนาอรอยแหงหนงมโปรโมชนใหมทนาสนใจท

http://www.facebook.com/datacube.th 7

Page 11: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

สามารถใหลกคาสามารถสรางเมนใหมขนมาเองได ปตและชใจจงไดตดสนใจรบประทานอาหารทรานน เมอ

ทงสองไดรบอาหารแลวตางกถายรปอาหารของตวเองและโพสตลงไปในเวบไซต Facebook และ

Instagram เพอแชรภาพเหลานใหกบเพอนของตนเองไดเหน หลงจากทองอมแลวจงไดเวลาไปชมภาพยนตร

ทงสองใชเวลาในการเพลดเพลนกบการชมภาพยนตรไปรวม 2 ชวโมง เมอออกมาจงพบวาดกมากแลวปต

และชใจจงไดแยกยายกนกลบบาน”

จากตวอยางทยกขนมานกจะพอสรปไดวาปตและชใจสรางขอมลขนมามากมาย ดงน

• ขอมลการซอสนคาในรานสะดวกซอ

• ขอมลการใชบรการผานบตรเครดตในการเตมนำมนและซอบตรชมภาพยนตร

• ขอมลลกคาทมาใชบรการสอบถามขอมลทางโทรศพท (call center)

• ขอมลการใชโทรศพทในการตดตอสอสาร

• ขอมลอาหารทเลอกรบประทาน

• ขอมลรปภาพตางๆ ทแสดงบนเวบไซตเครอขายสงคม (online social network) ตางๆ

จะเหนไดวาขอมลสวนใหญนนเกดจากการทำกจวตรประจำวนของเราทงสนไมวาจะเปนแบบออฟ

ไลน (offine) เชน การซอสนคาจากรานคาตางๆ หรอขอมลในรปแบบออนไลน (online) เชน การ โพสต

ขอความหรอรปภาพตางๆ ขนไปบนเวบไซตเครอขายทางสงคม เปนตน ขอมลเหลานมกจะถกเกบไวในรป

แบบดจตอล (digital) เพอใหสะดวกตอการคนหา โดยในแตละวนขอมลเหลานกจะมปรมาณเพมมากขน

เรอยๆ จนทำใหเรากาวเขาสยคทเรยกวาบก ดาตา (Big Data) หรอยคทมขอมลขนาดมหาศาลเมอขอมลม

จำนวนมากขนยอมทำใหเกดความตองการนำขอมลเหลานมาใชเพอกอใหเกดประโยชนมากทสด วธการหนง

ทนยมใชกนมากในปจจบนคอการวเคราะหหาความสมพนธทซอนอยในขอมล วธการนเรยกวา “การขด

เหมองขอมล” (Data Mining) หรอเรยกทบศพทวา ดาตา ไมนนง (ซงในหนงสอเลมนผมขอเรยกชอทบศพท

เพอใหเปนสากลและเขาใจไดงายกวาครบ) ดงนน ในหนงสอเลมนเราจะไดมาเรยนรถงวธการวเคราะหขอมล

ดวยเทคนคดาตา ไมนนง เพอคนหา “สงทมประโยชนทแอบซอนอยภายในขอมลเหลาน" กนครบ

โดยเนอหาในบทนจะอธบาย 2 เรองครบ คอ (1) ดาตา ไมนนงคออะไร และ (2) ควรจะทำดาตา ไมน

นงเมอไรและจะไดประโยชนอะไร ซงรายละเอยดจะมดงตอไปน

(1) ความหมายของดาตา ไมนนง

ดาตา ไมนนงเปนเทคนคในการวเคราะหขอมลอยางหนง ซงมาจากคำวา “เหมองขอมล” ซงเปนคำศพท

ทใชเปรยบกบการขดเหมองแรทวๆ ไป โดยในการขดเหมองแรนนสงทตองการกคอแรทมคา เชน เพชร พลอย

ตางๆ ในขนตอนการทำเหมองแรนนจะตองระเบดภเขาใหญหลายๆ ลกเพอคนหาแรทตองการ ซงแรทพบนน

http://www.facebook.com/datacube.th 8

Page 12: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

กไดออกมานอยมากเมอเทยบกบหนทโดนระเบดจากภเขา เชนเดยวกนเมอในองคกรหรอบรษทมภเขาของ

ขอมลทมขนาดมหาศาล บรษทจงตองการขดคนหาลงไปในขอมลเหลานเพอใหไดสงทมคาซงอยในขอมล

เหลาน ทวานเปนการเปรยบเปรยใหเหนลกษณะทคลายกนระหวางการขดเหมองแรและการขดเหมองขอมล

นะครบ ถาพดกนตามหลกวชาการแลวมผเชยวชาญหลายทานไดใหความหมายของดาตา ไมนนงไวดงน

ครบ

• “The exploration and analysis of large quantities of data in order to discover meaningful

patterns and rules”

“เปนการวเคราะหขอมลเพอคนหารปแบบ (patterns) หรอ กฏ (rules) ทเกดขนในฐานขอมล

ขนาดใหญ” (จากหนงสอ Data Mining Techniques for Marketing, Sales and Customer

Relationship Management 3rd Edition)

• “Extraction of interesting (non-trivial, previously, unknown and potential useful)

information from data in large databases”

“เปนกระบวนการดงขาวสารทนาสนใจ และมประโยชนแต ไมเคยรมากอนจากฐานขอมลขนาด

ใหญ” (จากหนงสอ Data Mining Concept and Techniques 2nd Edition)

จากหนงสอทงสองเลมเราสามารถสรปไดวา ดาตา ไมนนง คอ “การคนหาสงทมประโยชนจากฐานขอมลทม

ขนาดใหญ” อาทเชน ขอมลการซอขายสนคาในซเปอรมารเกตตางๆ ซงขอมลนจะเกบรายการสนคาทลกคา

ซอในแตละครงโดยเมอทำการวเคราะหขอมลดวยเทคนคดาตา ไมนนง แลวจะไดสงทมประโยชนเชน “ลกคา

สวนใหญทซอเบยรมกจะซอผาออมดวย” จะหนไดวาขอมลนเปนขอมลทไมเคยคดวามความสมพนธกนและ

ไมเคยรมากอนเลย เมอไดความรแบบนออกมาแลวอาจจะนำไปออกโปรโมชนหรอชวยในการจดวางชน

สนคาในซปเปอรมารเกตตอไปได

(2) การประยกตใชงานดาตา ไมนนง

การวเคราะหขอมลดวยเทคนคดาตา ไมนนงนมตวอยางความสำเรจใหเหนอยเยอะครบ ผมขอยก

ตวอยางแรกซงเปนตวอยางคลาสสกใหทานผอานไดทราบกอนครบ นนกคอการทหางวอลมารท (Walmart)

ไดทำการคนพบพฤตกรรมการซอสนคาของลกคาทเปนเพศชายวา ในชวงเยนของวนศกรมกจะมลกคากลม

หนงมาซอสนคาบางอยางควบคกนไป นนกคอ “เบยรและผาออม” โดยจากการวเคราะหเจาะลกลงไปกพบ

เหตผลวาการทสนคาสองอยางนมการซอรวมกนบอยๆ เพราะวา พอบานสวนใหญมกจะซอผาออมใหลก

นอยและไมไดออกไปผบมากนกหลงจากจากมลกจงไดซอเบยรไปดมในชวงสดสปดาห [1] หลงจากทหาง

วอลมารทรถงพฤตกรรมแบบนทางหางกสามารถทจะจดวางสนคาสองชนดนใหสามารถคนหาไดงายๆ หรอ

http://www.facebook.com/datacube.th 9

Page 13: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

มองเหนไดงายเพอเพมโอกาสทลกคาจะไดซอตดไมตดมอกนไปดวยครบ สวนตวอยางทสองกยงคงมาจาก

หางสรรพสนคาเหมอนกนครบ นนคอหางทารเกท (Target) หางนเปนหางทเกดขนมาทหลงทำใหการจะ

แขงขนกบหางวอลมารททมอยกอนแลวกคงไมใชเรองงาย ดงนนทางหางจงพยายามหาวธทจะดงดดให

ลกคามาซอสนคากบทางหางใหมากขนและรกษาฐานลกคาทมอยใหเชอใจและอยากกลบมาซอสนคาทหาง

ของตนเองใหไดมากทสด จากการวจยทางการตลาดของหางทารเกทพบวา เมอครอบครวมสมาชกใหมเกด

ขนคนในครอบครวกจะเรมมการจบจายใชสอยมากขนเพอรองรบการขยายขนาดของครอบครว ดงนนเมอ

ทราบเชนนแลวทางหางทารเกทจงไดทำการวเคราะหพฤตกรรมของลกคาผหญงทมาซอสนคาและพบวาเมอ

ลกคาเหลานเรมตงครรภ ลกคาจะมพฤตกรรมการซอสนคาทเปลยนไป เชน เรมมการซอวตามนบำรงมากขน

เปลยนไปกนอาหารทมประโยชน หรอแมกระทงซอตเสอผาเพม จากรปแบบพฤตกรรมลกษณะนทำใหทาง

หางสามารถสงโปรโมชนทเกยวกบการตงครรภหรอสนคาสำหรบเดกใหกบลกคากลมนได นอกจากนหางทาร

เกทยงมความมนใจวาถาลกคาเชอใจทจะซอสนคาใหกบบตรทเกดขนใหมแลวลกคาเหลานกจะเชอใจซอ

สนคาชนดอนๆ ของทางหางไปอกเรอยๆ [2]

เมอยอนกลบมาดหางสรรพสนคาในประเทศไทยเราจะพบวาในบานเรากเรมมการเกบขอมลเพอทำการ

วเคราะหกนมากขนโดยทอปส ซปเปอรมารเกต (TOPS supermarket) ในเครอบรษทเซนทรล (Central) เปน

หางสรรพสนคาแรกทมการวเคราะหขอมลการซอสนคาโดยใชขอมลจากบตร สปอท (SPOT) ซงเปนบตร

สมาชก (loyalty card) ของทอปสเอง หลงจากทำการวเคราะหขอมลแลวทอปสจะนำเสนอโปรโมชน

(promotion) ทแตกตางกนใหกบลกคาแตละคนผานทางระบบทเรยกวา เพอรซนนล ชอปปง ลสต (Personal

Shopping List) ซงสมาชกของทอปสสามารถดโปรโมชนทถกจดเตรยมไวใหตวเองไดโดยการนำบตร สปอท

ไปสอดทเครองอานทอยหนาทางเขาของซเปอรมารเกต [3] เราลองมาดหางสรรพสนคาอนๆ กนบางนะครบ

ผมขอยกตวอยางของหางเทสโก โลตส (Tesco Lotus) ซงเปนหางคาสงของประเทศองกฤษ ตองขอบอกกอน

ครบวาหางเทสโกทประเทศองกฤษนนไดวาจางบรษท ดนนฮมบ (Dunnhumby) ทำการวเคราะหขอมลดวย

เทคนค ดาตา ไมนนงมานานมากแลวครบ แตในประเทศไทยเราเรมมขนเมอประมาณ 3-4 ปทผานมาโดย

การเรมจากใหลกคาสมครบตร คลบ การด (Club card) หลงจากนนเมอลกคามาซอสนคาแตละครงทางหาง

เทสโก โลตสกจะทราบพฤตกรรมการซอสนคาของลกคาแตละรายเพอทำการวเคราะหขอมลและสงโปรโมชน

ออกไปใหลกคาแตละคน นอกจากนยงมตวอยางกรณศกษาของเทสโก โลตส ทพยายามจะทำการยกเลก

การขายอาหารสนขถงใหญขนาด 10-20 กโลกรมเนองจากมความเชอวาลกคาไมชอบทจะแบกอาหารสนข

ถงใหญขนาดนไปทรถ แตจากการวเคราะหพฤตกรรมการบรโภคโดยบรษท ดนนฮมบ ประเทศไทย พบวาม

ลกคากลมหนงทชอบซออาหารสนขถงใหญขนาด 10-20 กโลกรมอยเปนจำนวนหนงซงคนกลมนกจะไมซอ

อาหารสนขถงเลกเชนกน จากการทดสอบของเทสโก โลตสโดยการนำสนคาชนดนออกในบางสาขาพบวาย

อดขายลดลง [4] นคอตวอยางของการเขาใจพฤตกรรมของผบรโภคจากการวเคราะหขอมลทมอย

http://www.facebook.com/datacube.th 10

Page 14: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

ทผานมาผมไดแนะนำตวอยางการนำเทคนคดาตา ไมนนงไปประยกตใชกบขอมลในรปแบบออฟไลน

(offine) ซงหมายถงไมไดใชในอนเตอรเนตกนไปบางแลว ในยคปจจบนนเราไดเขาสยคทอนเตอรเนต

กาวหนาไปมากครบ เรามาลองดตวอยางการนำเทคนคดาตา ไมนนงไปประยกตใชในเวบไซตตางๆ กนดบาง

ครบ เรมแรกผมขอแนะนำตวอยางทเหนไดชดเจนทสดคอเวบไซต อเมซอน (Amazon.com) ซงเปนเวบไซตท

ขายหนงสอผานทางอนเตอรเนต ผมคดวาผอานหลายๆ ทานนาจะเคยเขาไปดหรอใชบรการของเวบไซตนกน

มาบางแลว เมอเราเขาไปคนหาหนงสอเราจะพบวาอเมซอนจะมระบบแนะนำหนงสอ (recommendation

system) ใหโดยเปนการวเคราะหขอมลจากพฤตกรรมการซอหนงสอของลกคากอนหนาน ตวอยางของระบบ

แนะนำหนงสอของเวบไซตอเมซอนแสดงในรปท 1-1 ซงผมทำการเลอกคนหาหนงสอทเกยวของกบการใช

ซอฟตแวร RapidMiner ซงเปนซอฟตแวรทชวยในการวเคราะหขอมลดวยเทคนค ดาตา ไมนนง ระบบกจะ

ทำการแนะนำหนงสอทเกยวของมาให

รปท 1-1 ระบบแนะนำสนคาของเวบไซตอเมซอน

นอกจากเวบไซตอเมซอนทเปนผรเรมใชระบบแนะนำสนคาเปนแหงแรกแลวยงมเวบไซตอนๆ ทใชหลก

การนเชนกน ตวอยางเชน เวบไซต เนตฟลกซ (Netfix) ซงเปนผใหบรการดภาพยนตผานทางอนเตอรเนตกม

ระบบแนะนำภาพยนตทลกคาสวนใหญมกจะดพรอมกนไปดวยดงเชนรปท 1-2

รปท 1-2 ระบบแนะนำสนคาของเวบไซตเนตฟลกซ

http://www.facebook.com/datacube.th 11

Page 15: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

นอกจากนยงมตวอยางเวบไซตหรอระบบอนๆ เชน ระบบซอแอพพลเคชนบนโทรศพทมอถอทมระบบ

ปฏบตการ แอนดรอยด (Android) ทเรยกวา เพลย สโตร (Play Store) กมระบบแนะนำแอพพลเคชนทมผใช

มกจะดาวนโหลดรวมกนบอยๆ อย

นอกจากนยงมการนำเทคนคดาตา ไมนนงไปใชคนหาขอมลทสำคญจากขอมลในเครอขายสงคม

ออนไลนตางๆ เชน การวเคราะหทศนคตของเรองตางๆ ทผคนกำลงสนใจอย ตวอยางเชน เวบไซต

sentiment140.com ไดทำการดงขอความทวต (tweet) จากเวบไซตทวตเตอร (twitter.com) ทเกยวของกบ

สนคาหรอคำศพท (keyword) ทผใชสนใจออกมาแลวจงทำการวเคราะหวาขอความใดมทศนคตเชงบวก

หรอเชงลบกบสนคาทพจารณาอย ตวอยางของเวบไซต sentiment140.com แสดงในรปท 1-3 โดยขอความ

ทเปนสแดง คอ ทศนคตเชงลบ ขอความทเปนสเขยน คอ ทศนคตเชงบวก และขอความทเปนสขาว คอ

ทศนคตทเปนกลาง การวเคราะหขอมลลกษณะนจะชวยองคกรหรอบรษทไดเขาใจความคดเหนของลกคาได

มากขน

รปท 1-3 ผลการวเคราะหขอความในเวบไซตทวตเตอรซงแสดงทศนคตเชงบวก ลบ หรอเปนกลาง

http://www.facebook.com/datacube.th 12

Page 16: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

1.2 ขอมลในรปแบบตางๆ

หลงจากทเราไดเหนตวอยางการนำเทคนคดาตา ไมนนงไปใชงานกนบางแลว ถดมาผมขอแนะนำเรอง

เกยวกบขอมลและคำศพททเกยวของในการวเคราะหขอมลทจะไดพบในบทถดไป โดยปกตแลวขอมลท

สามารถนำมาวเคราะหไดจะตองเปนแบบมโครงสราง (structured data) หรออยในรปแบบตาราง เชน

ขอมลของสมาชก หรอ ขอมลการซอขายสนคาตางๆ แตในปจจบนเรากาวเขาสยคของบก ดาตา ซงมขอมล

ขนาดมหาศาลแตขอมลเหลานมกจะไมมโครงสราง (unstructured data) เชน ขอความตางๆ ไมวาจะอยใน

อเมล (e-mail) หรอเครอขายสงคมออนไลน (social network) ตางๆ ถาเราตองการนำขอมลทไมมโครงสราง

นมาทำการวเคราะห จำเปนจะตองทำการแปลงรปแบบขอมลเหลานใหอยในรปแบบทมโครงสราง หรอ รป

แบบตารางเสยกอน ในหนงสอเลมนผมจะเนนไปทขอมลทมโครงสรางแตขอแนะนำวธการแปลงขอมลทไมม

โครงสรางสกเลกนอย เรามาลองดคำศพทตางๆ ทเกยวของกบขอมลทงสองแบบกนกอนครบ

(1) ขอมลแบบมโครงสราง (structured data)

ขอมลแบบมโครงสรางเปนขอมลทวๆ ไปทเรามกจะพบเหนกนในรปแบบของตาราง เชน ขอมลทเกบ

รายละเอยดของสมาชก หรอ การซอขายสนคา โดยปกตแลวขอมลเหลานมกจะเกบอยในไฟลประเภท Excel

หรอในฐานขอมลตางๆ ตวอยางเชน ขอมลสมาชกทแสดงในตารางท 1-1 ซงประกอบดวย 5 แถวและ 5

คอลมน ในหนงสอทเกยวของกบการวเคราะหขอมลดวยเทคนคดาตา ไมนนงสวนใหญจะเรยกขอมลแตละ

"แถว" วา "ตวอยาง (example)” หรอ "อนสแตนซ (instance)” และขอมลแตละ "คอลมน" วา

"แอตทรบวต (attribute)” หรอ "ฟเจอร (feature)” ซงในหนงสอเลมนผมขอเรยกขอมลในแตละแถววา

ตวอยาง และแตละคอลมนวา แอตทรบวต ครบ และบรรทดแรกในตารางท 1-1 คอชอของแตละ

แอตทรบวต ดงนนเราสามารถอานไดวาลกคาทมหมายเลขสมาชกเปน 2014-00001 ชอวา สมชาย เปนเพศ

ชาย อาย 33 ปและมรายได 33,000 บาท เปนตน

ตารางท 1-1 แสดงขอมลรายละเอยดของลกคา

หมายเลขสมาชก ชอ เพศ อาย รายได

2014-00001 สมชาย ชาย 33 33,000

2014-00002 สมหญง หญง 35 35,000

2014-00003 ปต ชาย 23 23,000

2014-00004 มาน หญง 22 22,000

2014-00005 ชใจ หญง 23 23,000

http://www.facebook.com/datacube.th 13

Page 17: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

(2) ขอมลแบบไมมโครงสราง (unstructured data)

ดงทไดกลาวไปแลววาขอมลสวนใหญจะเปนขอมลแบบทไมมโครงสราง เชน ขอความ หรอ รปภาพ

ตางๆ แตขอมลเหลานกมความสำคญ เชน ตวอยางของการนำไปประยกตเพอหาทศนคตตางๆ ของลกคาท

เกดขน ในหวขอนผมขอยกตวอยางการแปลงขอมลทเปนรปแบบขอความใหเปนขอมลในรปแบบตารางโดย

ใชวธการแปลงขอมล (data transformation) เชน ขอความขาวในตารางท 1-2

ตารางท 1-2 แสดงขอความขาวตางๆ

เอกสาร ขอความในเอกสาร

1 ชาวนาหลายจงหวดอสานปลมทหาร หลงไดรบเงนจำนำขาว

2 ชาวนาโคราช แหรบเงนจำนำขาวจาก ทหาร-ธ.ก.ส. พรอมขอบคณ

ค.ส.ช.

3 เกษตรกร เฮ ผวาฯปราจนบร นำเงนจำนำขาวคนชาวนาครบทกราย

จากขอความในตารางท 1-2 เราสามารถตดขอความออกมาเปนคำตางๆ ได เชน ชาวนา หลายจงหวด อสาน

ปลม ทหาร หลง เปนตน หลงจากนนคดเลอกคำทเปนคำสำคญและนำมาเปนชอของแตละแอตทรบวต และ

พจารณาวาในแตละเอกสารมคำใดปรากฏขนบาง ซงถาเอกสารมคำนนปรากฏขนจะมคาเปน Y และไมม

ปรากฏขนจะมคาเปน N ดงแสดงในตารางท 1-3 ซงแปลความหมายไดวา เอกสารท 1 มคำวา "ชาวนา",

"ปลม", "รบเงน", "จำนำขาว", "ทหาร" เกดขนแตไมมคำวา "ขอบคณ" ปรากฏอยเลย

ตารางท 1-3 แสดงขอความทไดทำการแปลงมาเปนขอมลในรปแบบตาราง

เอกสาร ชาวนา ปลม รบเงน จำนำขาว ทหาร ขอบคณ

1 Y Y Y Y Y N

2 Y N Y Y Y Y

3 Y N N Y N N

จากตวอยางนเปนการแปลงขอมลในรปแบบทไมมโครงสราง คอ ขอความใหเปนขอมลในรปแบบทม

โครงสราง คอ ตาราง ถดจากนผมจะแนะนำใหทานผอานรจกกบเทคนคในการวเคราะหขอมลดวยดาตา

ไมนนงซงม 2 ประเภทหลกดงจะไดอธบายในหวขอถดไปครบ

http://www.facebook.com/datacube.th 14

Page 18: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

1.3 เทคนคการวเคราะหขอมลดวยดาตา ไมนนง

เทคนคในการวเคราะหขอมลดวยดาตา ไมนนงนนสามารถไดเปน 2 ประเภทหลกๆ คอ

• เทคนคการเรยนรแบบไมมผสอน (unsupervised learning)

• เทคนคการเรยนรแบบมผสอน (supervised learning)

(1) เทคนคการเรยนรแบบไมมผสอน (unsupervised learning)

เทคนคประเภทแรกนจะเนนทการพจารณาขอมลเปนหลก เชน พจารณาวาขอมลมความสมพนธกนใน

ลกษณะใดบาง เทคนคในประเภทนจะแบงยอยไดอก คอ เทคนคการคนหากฏความสมพนธ (association

rule) และ การแบงกลมขอมล (clustering) ซงจะไดอธบายรายละเอยดในบทท 2 และ 3 ตอไปตามลำดบ

(2) เทคนคการเรยนรแบบมผสอน (supervised learning)

เทคนคในประเภทนจะเนนการเรยนรจากขอมลทมอยในอดตเพอนำมาสรางโมเดลสำหรบทำนายหรอ

คาดการณสงทเกดขนในอนาคต โมเดลในทนอาจจะเปนสมการทางคณตศาสตร หรอ กฏตางๆ กเปนได

เทคนคการเรยนรแบบมผสอนนสามารถแบงยอยไดอก คอ การจำแนกประเภทขอมล (classifcation) และ

การประมาณคาขอมล (regression) ซงทงสองเทคนคจะมลกษณะทคลายกนมากแตแตกตางกนทคำตอบท

ตองการทำนาย ซงการจำแนกประเภทขอมลจะทำนายขอมลทมคาเปน นอมนอล (nominal) เชน เพศชาย

หญง หรอคาทไมใชตวเลขนนเอง สวนการประมาณคาขอมลจะใชกบขอมลคำตอบทเปนตวเลขเทานน ผม

จะอธบายรายละเอยดของทง 2 วธนในบทท 4 ครบ

ในหนงสอเลมนผมเนนไปทการแนะนำใหรจกเทคนคในการวเคราะหขอมลทางดาตา ไมนนงตางๆ และ

แสดงตวอยางการทำงานเบองตนใหทราบ แตขออนญาตไมลงในรายละเอยดเรองทฤษฎและการนำไปใช

งานในดานหนงดานใดโดยเฉพาะ สำหรบผอานทสนใจรายละเอยดของเทคนคตางๆ ในเชงลก ผมขอแนะนำ

ใหอานหนงสอ Introduction to Concepts and Techniques in Data Mining and Application to Text

Mining ซงเขยนโดย ศ. ดร. ธนารกษ ธระมนคง จากสถาบนเทคโนโลยนานาชาต

สรนธร มหาวทยาลยธรรมศาสตร

http://www.facebook.com/datacube.th 15

Page 19: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

บทท 4 การจำแนกประเภทขอมล (Classifcation)

• การจำแนกประเภทขอมลและการประยกตใชงาน

• ตววดประสทธภาพของโมเดลการจำแนกประเภทขอมล

• การแบงขอมลเพอใชในการวดประสทธภาพของโมเดลการจำแนกประเภทขอมล

• เทคนคการจำแนกประเภทขอมลดวยวธ Decision Tree

• เทคนคการจำแนกประเภทขอมลดวยวธ Naive Bayes

• เทคนคการจำแนกประเภทขอมลดวยวธ K-Nearest Neighbors (K-NN)

• เทคนคการจำแนกประเภทขอมลดวยวธ Neural Network

4.1 การจำแนกประเภทขอมลและการประยกตใชงาน

ในสองบททผานมาผมไดแนะนำใหรจกเทคนคทางดาตา ไมนนงทเปนแบบไมมผสอน (unsupervised

learning) ซงไดแก การหากฎความสมพนธในบทท 2 และการแบงกลมขอมลในบทท 3 บทนเราจะมา

ทำความรจกกบเทคนคแบบทมผสอน (supervised learning) กนครบนนคอ เทคนคการจำแนกประเภท

ขอมล (classifcation) ในชวตเราไดพบกบการประยกตใชงานเทคนคการจำแนกประเภทขอมลนกนอย

มากมายครบ แตบางครงเราอาจจะไมทนรตว เชน การทำนายสภาพอากาศในวนถดไปวาฝนจะตกมากนอย

แคไหน หรอมอณหภมเทาไร หรอ การจำแนกอเมล (e-mail) ออกเปนประเภทสแปม (spam) หรอแบบปกต

(normal) นอกจากนในแอพพลเคชนหลายตว เชน Facebook กสามารถคนหาใบหนาของคนทปรากฎใน

รปภาพไดวามใครบาง สงเหลานเกดจากนำเทคนคการจำแนกประเภทขอมลไปประยกตใชครบ

เทคนคการจำแนกประเภทขอมลนจะนำขอมลทมในอดตมาสอนระบบเพอใหเรยนรรปแบบทเกดขนใน

ขอมลแลวจงสรางเปนสมการหรอโมเดล (model) ขนมาเพอหาคำตอบใหสำหรบขอมลใหม เชน การจำแนก

อเมลออกเปนสแปมหรอแบบปกตตองมการนำขอมลของอเมลประเภทสแปมและประเภทปกตมาให

คอมพวเตอรทำการเรยนรเสยกอน หลงจากนนจงสรางโมเดลการจำแนกประเภทของอเมลและใชจำแนก

อเมลทเขามาใหมวาเปนแบบสแปมหรอแบบปกต ตวอยางอน เชน การคาดการณวาพรงนจะมอณหภม

เทาไร กตองอาศยขอมลวนกอนหนาทไดทำการเกบมา เปนตน จากสองตวอยางทไดยกมาจะเหนวาคำตอบ

ทสนใจนนตางกน คอ ในตวอยางแรกคำตอบทสนใจคอประเภทของอเมล ซงมผลทเปนไปได 2 แบบ คอ

สแปม และ ปกต ซงคำตอบทเปนประเภทของคาตางๆ เหลานในการวเคราะหขอมลจะเรยกวา “คลาส”

(class) หรอ “ลาเบล” (label) และเทคนคทหาคำตอบเหลานเรยกวา เทคนคการจำแนกประเภทขอมล

หรอ classifcation สวนตวอยางท 2 สนใจทจะหาคำตอบทแตกตางจากไปจากในตวอยางแรกเพราะเนนหา

คำตอบทเปนเชงปรมาณ หรอ จำนวนตวเลข เปนหลก ดงนนเทคนคในลกษณะนจงเรยกวา เทคนคการ

http://www.facebook.com/datacube.th 50

Page 20: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

ประมาณคา หรอ regression ตอจากนไปผมจะแนะนำใหรจกกบขนตอนในการจำแนกประเภทขอมลซง

โดยปกตแลวจะแบงเปน 3 ขนตอนใหญๆ คอ

ตารางท 4-1 แสดงขอมลสภาพอากาศยอนหลง 14 วน

No. Outlook Temperature Humidity Windy Play

1 sunny hot high false no

2 sunny hot high true no

3 overcast hot high false yes

4 rainy mild high false yes

5 rainy cool normal false yes

6 rainy cool normal true no

7 overcast cool normal true yes

8 sunny mild high false no

9 sunny mild normal false Yes

10 rainy mild normal false yes

11 sunny mild normal true yes

12 overcast mild high true yes

13 overcast hot normal false yes

14 rainy mild high true no

1. ขนตอนการสรางโมเดล

ขนตอนนเปนขนตอนแรกในการจำแนกประเภทขอมล โดยการนำขอมลเทรนนง ดาตา

(training data) หรอขอมลทใชในการเรยนร มาสรางเปนโมเดลขนมาดวยเทคนคการจำแนกประเภทขอมล

แบบตางๆ เชน วธ Decision Tree (หวขอท 4.4) วธ Naive Bayes (หวขอท 4.5) วธ K-Nearest Neighbors

(หวขอท 4.6) และ วธ Neural Network (หวขอท 4.7)

http://www.facebook.com/datacube.th 51

Page 21: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

ในการจำแนกประเภทขอมลนนเราจำเปนอยางมากทจะตองมขอมลเทรนนง ดาตา เพอใหคอมพวเตอรไดเรยนรจากตวอยางของขอมล โดยขอมลเทรนนง ดาตาน คอ ขอมลทมในอดตโดยจะประกอบดวย 2 สวนคอ แอตทรบวตทวไปและแอตทรบวตทเปนคลาสคำตอบทสนใจ ตวอยางเชน ขอมลในตารางท 4-1 ซงเปนขอมลทเกบสภาพอากาศยอนหลง 14 วนเพอดวาในแตละวนจะมการจดการแขงขนเบสบอลขนหรอไม [9] ซงแอตทรบวต Outlook, Temperature, Humidity และ Windy จะเปนแอตทรบวตประเภททวไปทใชในการพจารณาวาถาคาในแอตทรบวตเหลานเปนลกษณะไหนแลวจงมการจดแขงเบสบอล สวนแอตทรบวตทเปนคลาสคำตอบทเราสนใจคอ แอตทรบวต Play สำหรบขอมลของทานผอานเองกจะตองพจารณาวาแอตทรบวตไหนทจะเปนคลาสคำตอบ นอกจากนสงทควรคำนงเปนอยางมากกคอขอมลแอตทรบวตทวไปจะตองมความสมพนธกบแอตทรบวตทเปนคลาสคำตอบจงจะทำใหโมเดลทเราสรางไดมประสทธภาพและนาเชอถอมาก

หลงจากนนเทคนคในการจำแนกประเภทขอมลตางๆ จะเรยนรจากขอมลเทรนนง ดาตาและสรางเปนโมเดลในรปแบบตางๆ ออกมา เชน โมเดล Decision Tree ในรปท 4-1

รปท 4-1 โมเดล Decision Tree ทสรางไดจากขอมลในตารางท 4-1 (สรางจากซอฟตแวร RapidMiner Studio 6)

จากโมเดล Decision Tree ทสรางไดสามารถสรปเปนกฎได เชน1. IF Outlook = overcast THEN play = yes2. IF Outlook = sunny AND Humidity = high THEN play = no

จากกฎขอท 1 แปลความหมายไดวาถาสภาพอากาศเปนแบบ overcast จะมการจดแขงขนเบสบอล แตจากกฎขอท 2 แปลความหมายไดวาถาสภาพอากาศเปนแบบ sunny และความชนมากแลวจะไมสามารถจดแขงเบสบอลได

http://www.facebook.com/datacube.th 52

Page 22: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

2. ขนตอนการทดสอบประสทธภาพของโมเดล

หลงจากทสรางโมเดลขนมาไดแลว ขนตอนถดมาจะตองทำการวดประสทธภาพของโมเดลทสรางได ซง

ผมขอแยกสวนนมาอธบายในรายละเอยดในหวขอตววดประสทธภาพของโมเดลการจำแนกประเภทขอมล (หวขอท 4.2) และ การแบงขอมลเพอใชในการวดประสทธภาพของโมเดลการจำแนกประเภทขอมล (หวขอท 4.3)

3. ขนตอนนำโมเดลไปใชงานเพอทำนายขอมลใหม

หลงจากทวดประสทธภาพของโมเดลไดผลเปนทนาเชอถอหรอพอใจแลว เราสามารถนำโมเดลทสรางได

นไปใชในการทำนายขอมลทเขามาใหม เชน ถาพบวาสภาพอากาศในวนปจจบนมคาดงตารางท 4-2 จะ

ทำนายไดวาจะมการจดแขงเบสบอลขน เนองจากแอตทรบวต Outlook มคาเปน sunny และ Humidity เปน

normal แลว Play จะเปน yes (พจารณาจากโมเดลในรปท 4-1)

ตารางท 4-2 แสดงขอมลสภาพอากาศในวนปจจบนซงยงไมทราบคลาสคำตอบ

No. Outlook Temperature Humidity Windy Play

15 sunny hot normal false ?

ในหวขอถดไปผมจะแนะนำใหรจกกบตววดประสทธภาพของโมเดลการจำแนกประเภทขอมลตางๆ ซง

ประกอบดวย ตาราง confusion matrix, คา precision, คา recall, คา f-measure และ คา accuracy

เปนตน

4.2 ตววดประสทธภาพของโมเดลการจำแนกประเภทขอมล

ดงทไดกลาวไปแลววาการนำโมเดลไปใชงานจรงไดนนเราจำเปนจะตองทราบประสทธภาพของโมเดล

เสยกอน โดยทวไปแลวจะมตววดทนยมใชกนในงานวจยและการทำงานตางๆ อย 5 คา คอ

• Precision เปนการวดความแมนยำของโมเดล โดยพจารณาแยกทละคลาส

• Recall เปนการวดความถกตองของโมเดล โดยพจารณาแยกทละคลาส

• F-measure เปนการวดคา Precision และ Recall พรอมกนของโมเดล โดยพจารณาแยกทละ

คลาส

http://www.facebook.com/datacube.th 53

Page 23: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

• Accuracy เปนการวดความถกตองของโมเดล โดยพจารณารวมทกคลาส

กอนทจะไปรจกกบตววดประสทธภาพของโมเดลตวตางๆ ผมขอแนะนำใหรจกกบตาราง confusion matrix กอนครบ confusion matrix คอ ตารางแบบจตรสโดยมจำนวนแถวเทากบจำนวนคอลมนและเทากบจำนวนคลาส เชน ในตารางท 4-1 มคลาสคำตอบอย 2 คา คอ yes และ no ฉะนนตาราง confusion matrix นจะสรางไดเปนตารางขนาด 2x2 ดงในตารางท 4-3 โดยขอมลดานคอลมนคอ คลาสทอยในขอมลเทรนนง ดาตา (actual) และขอมลในแนวแถว คอ คลาสทโมเดลทำนายมาได (predicted)

ตารางท 4-3 แสดงตาราง confusion matrix ของขอมล weather ซงม 2 คลาส

predicted / actual yes no

yes TP FP

no FN TN

จากในตารางท 4-3 คาทแสดงในชองตางๆ ของตารางประกอบดวย

• True Positive (TP) คอ จำนวนขอมลททำนายถกวาเปนคลาสซงกำลงสนใจอย• True Negative (TN) คอ จำนวนขอมลททำนายถกวาเปนคลาสซงไมไดสนใจอย• False Positive (FP) คอ จำนวนขอมลททำนายผดมาเปนคลาสซงกำลงสนใจอย• False Negative (FN) คอ จำนวนขอมลททำนายผดมาเปนคลาสซงไมไดสนใจอย

ตารางท 4-4 แสดงขอมลแอตทรบวต Play จากเทรนนง ดาตา 10 ตวแรกและคาททำนายได

No. Actual Predicted

1 no no

2 no no

3 yes no

4 yes yes

5 yes no

6 no yes

http://www.facebook.com/datacube.th 54

Page 24: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

ตารางท 4-4 (ตอ) แสดงขอมลแอตทรบวต Play จากเทรนนง ดาตา 10 ตวแรกและคาททำนายได

No. Actual Predicted

7 yes yes

8 no no

9 yes no

10 yes yes

เพอความเขาใจทมากขนผมขอยกตวอยางขอมลทอยในเทรนนง ดาตาและททำนายออกมาไดมาแสดงใหด

ในตารางท 4-4 โดยทกำลงพจารณาคลาส Play = yes ดงนนจะสรปไดวา

• True Positive (TP) คอ จำนวนขอมลททำนายถกวาเปนคลาส Play = yes

◦ มจำนวน 3 ตว (แถวทเปนตวหนา คอ แถวท 4, 7 และ 10)

• True Negative (TN) คอ จำนวนขอมลททำนายถกวาเปนคลาส Play = no

◦ มจำนวน 3 ตว (แถวทเปนตวเอยง คอ แถวท 1, 2 และ 8)

• False Positive (FP) คอ จำนวนขอมลททำนายผดมาเปนคลาส Play = yes

◦ มจำนวน 1 ตว (แถวทขดเสนใต คอ แถวท 6)

• False Negative (FN) คอ จำนวนขอมลททำนายผดมาเปนคลาส Play = no

◦ มจำนวน 3 ตว (แถวทตวอกษรปกต คอ แถวท 3, 5 และ 9)

ดงนนจงสรางตาราง confusion matrix ไดดงตารางท 4-5

ตารางท 4-5 แสดงตาราง confusion matrix ของขอมล weather ซงม 2 คลาส

predicted / actual yes no

yes 3 1

no 3 3

หลงจากทเราสรางตาราง confusion matrix ไดดงตารางท 4-5 แลวเรามาดวธคำนวณคา Precision,

Recall, F-measure และ Accuracy กนตอเลยดกวาครบ

http://www.facebook.com/datacube.th 55

Page 25: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

• Precision เปนการวดความแมนยำของโมเดล โดยพจารณาแยกทละคลาส

Precision=True Positive

True Positive+False Positive

ดงนน Precision ของคลาส yes คอPrecision (Play=yes) = 3/4 = 75%

• Recall เปนการวดความถกตองของโมเดล โดยพจารณาแยกทละคลาส

Recall=True Positive

True Positive+False Negative

ดงนน Recall ของคลาส yes คอRecall (Play=yes) = 3/6 = 50%

• F-measure เปนการวดคา Precision และ Recall พรอมกนของโมเดล โดยพจารณาแยกทละคลาส

F−measure=2×Precision×RecallPrecision+Recall

F-measure (Play=yes) = 2 x 75% x 50% / (75% + 50%) = 60%

• Accuracy เปนการวดความถกตองของโมเดล โดยพจารณารวมทกคลาส คอ จำนวน True Positive ของทกคลาสรวมกนไดเทากบ 6/10 = 60%

4.3 การแบงขอมลเพอใชในการวดประสทธภาพของโมเดลการจำแนกประเภท

ขอมล

ในหวขอทผานมาผมแนะนำใหรจกกบตววดประสทธภาพของโมเดลไปแลว การวดประสทธภาพแบบนไดจำเปนตองแบงขอมลออกเปน 2 สวน โดยทสวนท 1 ใชเพอสรางโมเดลและสวนท 2 ใหโมเดลทำนายคาคลาสคำตอบออกมา การแบงขอมลเพอทำการทดสอบนม 3 วธการใหญ ดงน

http://www.facebook.com/datacube.th 56

Page 26: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

(1) วธ Self Consistency Test

วธ Self Consistency Test หรอบางครงเรยกวา Use Training Set นเปนวธการทงายทสด นนคอ

ขอมลทใชในการสรางโมเดลและขอมลทใชในการทดสอบโมเดลเปนขอมลชดเดยวกน กระบวนการนเรมจาก

สรางโมเดลดวยขอมลเทรนนง ดาตา หลงจากนนนำโมเดลทสรางไดมาทำนายขอมลเทรนนง ดาตา ชดเดม

ตวอยางเชน นำขอมลเทรนนง ดาตา ในตารางท 4-1 มาสรางโมเดลและทดสอบโมเดลเปนตน การวด

ประสทธภาพดวยวธนจะใหผลการวดประสทธภาพทมคาสงมาก (อาจจะเขาใกล 100%) เนองจากเปนขอมล

ชดเดมทระบบไดทำการเรยนรมาแลว แตผลการวดทไดไมเหมาะทจะนำไปรายงานในงานวจยตางๆ ซงวธ

การนเหมาะสำหรบใชในการทดสอบประสทธภาพเพอดแนวโนมของโมเดลทสรางขน ถาไดผลการวดทนอย

แสดงวาโมเดลไมเหมาะสมกบขอมล จงไมควรจะนำไปทดสอบดวยวธการแบงขอมลแบบตางๆ

(2) วธ Split Test

วธ Split Test เปนการแบงขอมลดวยการสมออกเปน 2 สวน เชน 70% ตอ 30% หรอ 80% ตอ 20%

โดยขอมลสวนทหนง (70% หรอ 80%) ใชในการสรางโมเดลและขอมลสวนทสอง (30% หรอ 20%) ใชใน

การทดสอบประสทธภาพของโมเดล ตวอยางเชน แบงขอมลเทรนนง ดาตา ในตารางท 4-1 แบงขอมล 10

ตวอยาง (14 x 0.7 = 9.8) ในการสรางโมเดลและขอมล 4 ตวอยาง (14 x 0.3 = 4.2) ใชในการทดสอบ

ประสทธภาพของโมเดล เปนตน แตการทดสอบแบบ Split Test นทำการสมขอมลเพยงครงเดยวซงในบาง

ครงถาการสมขอมลทใชในการทดสอบทมลกษณะคลายกบขอมลทใชสรางโมเดลทำใหผลการวด

ประสทธภาพไดออกมาด ในทางตรงขามถาการสมขอมลทใชในการทดสอบทมลกษณะแตกตางกบขอมลท

ใชสรางโมเดลมากทำใหผลการวดประสทธภาพไดออกมาแย ดงนนจงควรใชวธ Split Test นหรอทำการสม

หลายๆ ครง แตขอดของวธการนคอใชเวลาในการสรางโมเดลนอยซงเหมาะกบชดขอมลทมขนาดใหญมาก

(3) วธ Cross-validation Test

วธนเปนวธทนยมใชในการทดสอบประสทธภาพของโมเดลเนองจากผลทไดมความนาเชอถอ การวด

ประสทธภาพดวยวธ Cross-validation นจะทำการแบงขอมลออกเปนหลายสวน (มกจะแสดงดวยคา k) เชน

5-fold cross-validation คอ ทำการแบงขอมลออกเปน 5 สวน โดยทแตละสวนมจำนวนขอมลเทากน หรอ

10-fold cross-validation คอ การแบงขอมลออกเปน 10 สวน โดยทแตละสวนมจำนวนขอมลเทากน หลง

จากนนขอมลหนงสวนจะใชเปนตวทดสอบประสทธภาพของโมเดล ทำวนไปเชนนจนครบจำนวนทแบงไว

เชน การทดสอบดวยวธ 5-fold cross-validation ในรปท 4-2

http://www.facebook.com/datacube.th 57

Page 27: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

รปท 4-2 ตวอยางการแบงขอมลแบบ 5-fold cross-validation

จากรปท 4-2 แบงขอมลเทรนนง ดาตาออกเปน 5 สวนทมจำนวนเทากน หลงจากนนทำการทดสอบ

ประสทธภาพของโมเดล 5 ครง ดงน

• รอบท 1 ใชขอมลสวนท 2,3,4 และ 5 สรางโมเดล และใชโมเดลทำนายขอมลสวนท 1

• รอบท 2 ใชขอมลสวนท 1,3,4 และ 5 สรางโมเดล และใชโมเดลทำนายขอมลสวนท 2

• รอบท 3 ใชขอมลสวนท 1,2,4 และ 5 สรางโมเดล และใชโมเดลทำนายขอมลสวนท 3

• รอบท 4 ใชขอมลสวนท 1,2,3 และ 5 สรางโมเดล และใชโมเดลทำนายขอมลสวนท 4

• รอบท 5 ใชขอมลสวนท 1,2,3 และ 4 สรางโมเดล และใชโมเดลทำนายขอมลสวนท 5

จะเหนไดวาขอมลทกชด (ขอมลทกตวอยาง) จะไดเปนตวทดสอบประสทธภาพของโมเดล โดยในการ

ทดสอบประสทธภาพของโมเดลแตละรอบจะไดจำนวน TP, TN, FP, FN ใสลงไปในตาราง confusion

matrix และบวกเพมเขาไป สดทายจะไดตาราง confusion matrix ทเปนคารวมทงหมดหลงจากนนจงทำการ

http://www.facebook.com/datacube.th 58

Page 28: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

ประวตผเขยน

ชอ เอกสทธ พชรวงศศกดา (EAKASIT PACHARAWONGSAKDA)

การศกษา

• ปรญญาเอก วทยาการคอมพวเตอร สถาบนเทคโนโลยนานาชาตสรนธร (SIIT) มหาวทยาลย

ธรรมศาสตร (ทนโครงการปรญญาเอกกาญจนาภเษก)

• ปรญญาโทวศวกรรมศาสตร สาขาวศวกรรมคอมพวเตอร มหาวทยาลยเกษตรศาสตร (บางเขน)

• ปรญญาตรวศวกรรมศาสตร สาขาวศวกรรมคอมพวเตอร (เกยรตนยมอนดบ 2) มหาวทยาลย

เกษตรศาสตร (บางเขน)

ประสบการณ

• Data Scientist ทบรษท GloriSys Cloud Solutions Co., Ltd.

• ผรวมกอตง หางหนสวนสามญ ดาตา ควบ (data cube)

• ไดรบทน visiting PhD Student ทมหาวทยาลยยอรค (York) เมองโตรอนโต ประเทศแคนาดา

• ไดรบ statement of completion หลกสตร Data Mining with Weka จากมหาวทยาลย Waikato

• อดตทปรกษาดานการวเคราะหขอมลใหกบสมาคมสงเสรมเทคโนโลย (ไทย-ญปน)

• ผกอตงหลกสตร An Introduction to Data Mining (Workshop with WEKA)

• วทยากรประจำหลกสตร Practical Data Mining with RapidMiner Studio 6

• วทยากรประจำหลกสตร Web Application Development using Weka and PHP

• วทยากรประจำหลกสตร Basic Data Mining with WEKA

• วทยากรรบเชญอบรม Practical Data Mining with RapidMiner Studio 6 ทมหาวทยาลย

เทคโนโลยราชมงคงสวรรณภม

• วทยากรรบเชญอบรม Practical Data Mining with RapidMiner Studio 6 ทมหาวทยาลยราชภฏ

สวนสนนทา

• วทยากรรบเชญอบรม Practical Data Mining with RapidMiner Studio 6 ทมหาวทยาลย

พระจอมเกลาพระนครเหนอ

• วทยากรรบเชญอบรม Basic Data Mining for Marketing using RapidMiner Studio 6 ท

ธนาคารเพอการเกษตรและสหกรณ (ธ.ก.ส.)

ประสบการณ (ตอ)

• วทยากรรบเชญอบรม Data Mining with WEKA ท บรษท ระยองวศวกรรมและซอมบำรง จำกด

(REPCO)

• วทยากรรบเชญอบรม Data Mining with WEKA ทคณะวทยาการสารสนเทศ มหาวทยาลยบรพา

http://www.facebook.com/datacube.th 115

Page 29: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

• วทยากรรบเชญอบรมหลกสตร An Introduction to Data Mining ท บรษท โทเทล แอคเซส คอม

มนเคชน จำกด (มหาชน) – DTAC

• วทยากรรบเชญอบรม Data Mining with WEKA ท บรษท โมโนเทคโนโลย จำกด

• วทยากรรบเชญอบรม Data Mining with WEKA ทคณะเทคโนโลยสารสนเทศ มหาวทยาลย

พระจอมเกลาพระนครเหนอ

• วทยากรรบเชญหลกสตร ขดเหมองขอมลดวย Weka รนท 1 – 7 สถาบน Open Source

Education Center

• วทยากรหวขอ “Training Data Mining with Weka” จดโดยมลนธศกดพรทรพย

• ผเขยนบทความ “ขดเหมองขอมลดวย Weka” นตยสาร OpenSource2Day

• ประสบการณพฒนาระบบงาน Help Desk ดวยเทคนค data mining

• ประสบการณพฒนาระบบพยาการณนำฝนดวยเทคนค data mining ฯลฯ

• อดตผรวมกอตงและวทยากรของ หสม. โอเพน ไมเนอร

• อดตผชวยนกวจย หองปฏบตการ Information Systems ศนยพนธวศวกรรมและเทคโนโลย

ชวภาพแหงชาต (BIOTEC) งานวจยดาน Data Mining, Bioinformatics และ

Chemoinformatics

• อดตทปรกษาโครงงานปรญญาตร หองปฏบตการ Data Analysis and Knowledge Discovery

Laboratory (DAKDL) คณะวศวกรรมศาสตร (คอมพวเตอร) มหาวทยาลยเกษตรศาสตร

ผลงานวจยทมสวนรวม

• วารสารวชาการระดบนานาชาต (International Journals)

1. Eakasit Pacharawongsakda and Thanaruk Theeramunkong (2013), “Predict Subcellular

Locations of Singleplex and Multiplex Proteins by Semi-Supervised Learning and

Dimension-Reducing General Mode of Chou’s PseAAC”, NanoBioscience, IEEE

Transactions on, vol.12, no.4, pp.311-320, Dec. 2013 (Impact Factor (2013): 1.768)

2. Eakasit Pacharawongsakda and Thanaruk Theeramunkong (2013), “Multi-Label

Classifcation Using Dependent and Independent Dual Space Reduction”, The

Computer Journal, Oxford University Press, vol.56, no.9, pp.1113-1135, Feb. 2013

(Impact Factor (2013): 0.888)

3. Eakasit Pacharawongsakda, Sunai Yokwai and Supawadee Ingsriswang (2009),

“Potential natural product discovery from microbes through a diversity-guided

computational framework”, Applied Microbiology and Biotechnology, 82: 579 (Impact

Factor (2012): 3.689)

http://www.facebook.com/datacube.th 116

Page 30: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

4. Wasna Viratyosin, Supawadee Ingsriswang, Eakasit Pacharawongsakda and Prasit

Palittapongarnpim (2008), “Genome-wide subcellular localization of putative outer

membrane and extracellular proteins in Leptospira interrogans serovar Lai genome

using bioinformatics approaches”, BMC Genomics, 9 (Impact Factor (2012): 4.400)

5. Supawadee Ingsriswang and Eakasit Pacharawongsakda (2007), “sMOL Explorer: an

open source, web-enabled database and exploration tool for Small MOLecules

datasets”, Bioinformatics, 18: pp. 2498-2500 (Impact Factor (2012): 5.323)

• การประชมวชาการระดบนานาชาต (International Conferences)

1. Eakasit Pacharawongsakda and Thanaruk Theeramunkong (2013), “A Two-Stage Dual

Space Reduction Framework for Multi-label Classifcation”, Proceedings of the the third

Quality issues, measures of interestingness and evaluation of data mining models

workshop, Gold Coast, Australia, April 14-17, 2013

2. Samatcha Thanangthanakij, Eakasit Pacharawongsakda, Nattapong Tongtep, Pakinee

Aimmanee and Thanaruk Theeramunkong (2012), “An Empirical Study on Multi-

dimensional Sentiment Analysis from User Service Reviews”. Proceedings of the

seventh International Conference on Knowledge, Information and Creativity Support

Systems, Melbourne, Australia, November 8 – 10, 2012 (Cited by 2)

3. Eakasit Pacharawongsakda, Cholwich Nattee and Thanaruk Theeramunkong (2012),

“Improving Multi-label Classifcation Using Semi-supervised Learning and

Dimensionality Reduction”, Proceedings of the twelfth Pacifc Rim International

Conference on Artifcial Intelligence (PRICAI), Kuching Sarawak, Malaysia, September

3-7, 2012.

4. Eakasit Pacharawongsakda and Thanaruk Theeramunkong (2012), “Towards More

Ecient Multi-Label Classifcation using Dependent and Independent Dual Space

Reduction”, Proceedings of the sixteenth Pacifc-Asia Conference on Knowledge

Discovery and Data Mining (PAKDD), Kuala Lumpur, Malaysia, May 29- June 1, 2012.

(Cited by 4)

5. Eakasit Pacharawongsakda and Thanaruk Theeramunkong (2011), “Improving Classifer

Chains for Multi-label Classifcation using Dual Space Reduction”, Proceedings of The

6th International Conference on Knowledge, Information and Creativity Support

Systems, Beijing, China, October, 22-24, 2011. (Best Paper Award)

http://www.facebook.com/datacube.th 117

Page 31: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

6. Sunai Yokwai, Boonyarat Phadermrod, Eakasit Pacharawongsakda and Supawadee

Ingsriswang (2008), “Using Molecular Systematics and GIS-based Modeling

Approaches for Selection of Potential Sites to Explore the Desirable Microbial

Products”, Proceedings of GeoInformatics 2008, Guangzhou, China, June 28-29 2008

7. Eakasit Pacharawongsakda, Sunai Yokwai, Nitsara Karoonuthaisiri, Duangdao

Wichadakul and Supawadee Ingsriswang (2008), “ESTplus: An Integrative System for

Comprehensive and Customized EST Analysis and Proteomic Data Matching”,

Proceedings of The 2nd International Conference on Bioinformatics and Biomedical

Engineering (iCBBE2008), Shanghai, China. May 16-18, 2008 (Cited by 3)

8. Duangdao Wichadakul, Supawadee Ingsriswang, Eakasit Pacharawongsakda,

Boonyarat Phadermrod and Sunai Yokwai (2008), “ATGC-Dom: Alignment, Tree, and

Graph for Comparative proteomes by DOMain architecture”, Proceedings of the 12th

Annual International Conference on Research in Computational Molecular Biology

(RECOMB 2008), Singapore, Mar 30-Apr 2 2008 (Co-Winner of Poster Special

Commendation Award)

9. Wasna Viratyosin, Supawadee Ingsriswang, Eakasit Pacharawongsakda and Prasit

Palittapongarnpim (2005), “Computational Framework Analysis for Secreted Proteins in

Leptospira interrogans Genome”, Poster Presentation at of the Third Asia-Pacifc

Bioinformatics Conference (APBC2005), Singapore, 17-21 January 2005

10. Supawadee Ingsriswang, Wasna Viratyosin, Eakasit Pacharawongsakda and Prasit

Palittapongarnpim (2005), “Post-Prediction through Hierarchical Partitioning and

Discriminant Analysis for Decision Support of Putative Secreted Protein Identifcation”,

Poster Presentation at the Third Asia-Pacifc Bioinformatics Conference (APBC2005),

Singapore, 17-21 January 2005

11. Eakasit Pacharawongsakda, Supawadee Ingsriswang, Anuttara Nathalang and Warren

Brockelman (2004), “Mo-Singto: A Mobile Integrated Data Logging and Mapping

System for Study of Forest Regeneration”, Proceedings of the IUFRO4.11 Conference

on Applications of Statistics, Information Systems and Computers in Natural Resources

Monitoring and Management, Taiwan, June 7-11, 2004.

http://www.facebook.com/datacube.th 118

Page 32: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

• การประชมวชาการระดบชาต (National Conferences)

1. Boonyarat Phadermrod, Sunai Yokwai, Eakasit Pacharawongsakda and Supawadee

Ingsriswang (2008), “An Opensource GIS-based Application to Improve the Molecular

Systematic Study of Microorganisms in National Parks of Thailand”, Proceedings of the

12th Annual Symposium on Computational Science and Engineering (ANSCSE 12

International Symposium), Ubon Rajathanee University, Thailand, Mar 27-29 2008

2. Eakasit Pacharawongsakda, Thanawin Rakthanmanon, Thanapat Kangkachit and

Kritsana Waiyamai (2007), “Prunning Strategies for Improving Sequential Pattern

Mining of Protein Sequence Dataset”, Proceedings of the 11th National Computational

Science and Engineering Conference (NCSEC 2007), Bangkok, Thailand.

3. Eakasit Pacharawongsakda and Supawadee Ingsriswang (2007), “Discovering

Discriminative Dipeptides in Subcellular Localization of Gram-Negative Bacterial

Proteins”, Proceedings of the 4th International Joint Conference on Computer Science

and Software Engineering, (JCSSE2007), Khonkaen, Thailand, 2-4 May 2007, pp. 343-

348

4. Boonyarat Phadermrod ,Sunai Yokwai, Eakasit Pacharawongsakda, Supawadee

Ingsriswang, (2007) “An Open-source Three-Tier Architecture for Mapping Microbial

Diversity”, Proceedings of NSTDA Annual Conference, (NAC 2007), Pathumthani,

Thailand, 28-30 March 2007

5. Eakasit Pacharawongsakda and Supawadee Ingsriswang (2006), “NAT : An Open

Source Platform for Searchable Structure and Property Database of Natural Bioactive

Compounds”, Proceedings of the 10th National Computational Science and Engineering

Conference (NCSEC 2006), Khonkaen, Thailand, 25-27 October 2006, pp.553-560

6. ! Siriwon Taewijit, Eakasit Pacharawongsakda and Supawadee Ingsriswang (2006),

“Improved Subcellular Localization Prediction of Gram-Positive Bacterial Proteins Using

Feature Selection and DDAG-SVM”, Proceedings of the 10th National Computer

Science and Engineering Conference (NCSEC 2006), 25-27 October 2006, Khonkaen,

Thailand, pp.535-543

7. Eakasit Pacharawongsakda and Supawadee Ingsriswang (2006), “AAA: Automatic

AIDS Antiviral Screening System Using SVM with Maximal Frequent Molecular

Fragments”, Proceeding of the 10th Annual National Symposium on Computational

Science and Engineering (ANSCSE10), Chiangmai, Thailand, March 22-24, pp. 171-

http://www.facebook.com/datacube.th 119

Page 33: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

175, ISBN: 974-656-924-4

8. Eakasit Pacharawongsakda and Supawadee Ingsriswang (2005), “Subcellular

Localization Prediction of Gram-negative Bacterial Proteins Using Decision Directed

Acyclic Graph Support Vector Machines”, Proceeding of the 9th National Computer

Science and Engineering Conference, Bangkok (NCSEC 2005), Thailand, 27-28

October 2005, pp.161-170, ISBN-974-677-541-3

http://www.facebook.com/datacube.th 120

Page 34: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

หลกสตรการวเคราะหขอมลดวยเทคนค Data Mining

โดยซอฟตแวร RapidMiner Studio 6 (ขนพนฐานและปานกลาง)

ภาพรวมของหลกสตร

โลกในยคปจจบนไดกาวเขาไปสยคทเรยกวา “Big Data” หรอ “ขอมลอภมหาศาล” เนองจากในแตละวนม

ขอมลเกดขนมากมาย อาทเชน ขอมลสมาชกของ Facebook ขอมลการซอสนคาจากในซปเปอรมารเกต

ตางๆ และเพอใหเกดประโยชนมากทสดเราจำเปนตองนำขอมลอภมหาศาลเหลานมาทำการวเคราะห

(analyze) ซงเทคนคหนงทไดรบการนยมอยางสงในปจจบน คอ เทคนค Data Mining ซงเปนเทคนคทคนหา

ความสมพนธในขอมล เชน ถาลกคาซอเบยรแลวลกคาจะซอผาออมรวมไปดวย หรอถาเรากด L ike หนา

Facebook page เราจะเหนวา Facebook มระบบแนะนำ page อนๆ ทเกยวของมาใหดวย หรอ การสราง

โมเดลเพอทำนายสงทจะเกดขนในอนาคต เชน ทำนายยอดขายในไตรมาสถดไป หรอ การทำนายวา

พนกงานคนไหนทจะลาออกจากบรษทในชวง 3 เดอนขางหนา ตวอยางเหลานลวนเปนผลมาจากการ

วเคราะหขอมลทางดาน Data Mining

การวเคราะหขอมลดวย Data Mining นกำลงเปนทนยมไปทวโลกดวยแรงขบเคลอนอยางหนงคอ การม

ซอฟตแวรทชวยใหทำการวเคราะหไดงายขน แตซอฟตแวรสวนใหญจะเปนซอฟตแวรเชงพาณชย

(commercial software) เช น SAS Enterprise Miner ห ร อ IBM Intelligent Miner ทวาการลงทนซอ

ซอฟตแวรเชงธรกจเหลานมาใชงานอาจจะไมคมคาในการลงทนสำหรบผประกอบการวสาหกจขนาดกลาง

และขนาดยอม (SMEs) หรออาจารย นกวจย และ นกศกษาระดบปรญญาโทและเอก ใ นมหาวทยาลยตางๆ

ดงนนวธการหนงทจะทำใหเราสามารถวเคราะหขอมลเหลานไดคอการใช open source software ทสามารถ

ดาวนโหลดมาใชงานไดโดยไมเสยคาใชจาย (ฟ ร !!!) เชน ซอฟตแวร Weka ผมคลกคลกบ Weka มาเปน

เวลาหลายป เคยเขยนคมอการใชงาน Weka Explorer ลงในนตยสาร OpenSource2Day สรางหลกสตรการ

อบรมการใชงาน Weka Explorer และอบรมการใชงานซอฟตแวรตวนมาเปนจำนวนเกอบยสบรน แมวา

ซอฟตแวรนจะใชงานไดงายสำหรบผเรมตนและสะดวกทจะนำไปใชในการพฒนา Web Application แตใน

หลายๆ ครงผมมกจะพบขอจำกดหรอความยากในการแสดงผลจากซอฟตแวรตวน ดงนนผมจงหนมาสนใจ

ซอฟตแวรตวอนทสามารถทดแทนหรอดกวาซอฟตแวร W e k a E x p l o r e r และผมกพบกบซอฟตแวร

RapidMiner Studio 6 ซงเปนซอฟตแวรทาง Data Mining ทไดรบการโหวตวามผใชงานมากทสดจาก

เวบไซต KDnuggets.com เมอป 2013 ในหลกสตรนผมจะแนะนำใหคณรจกการวเคราะหขอมลดวยเทคนค

Data Min ing ตงแตระดบตนจน (b as i c ) จนถงระดบกลาง (intermediate) ดวยการใชซอฟตแวร

RapidMiner Studio 6 ซงเปนเวอรชนลาสด ถาคณยงลงเลวาคณควรจะมาเขารวมอบรมหลกสตรนกบผม

หรอไม ผมขอถาม 8 คำถามสนๆ ดงนครบ

http://www.facebook.com/datacube.th 121

Page 35: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

• สนใจการวเคราะหขอมลดวย Data Mining แตไมรจะเรมยงไงด

• อยากรวาลกคาซอสนคาอะไรเปนสวนใหญ

• อยากเขาใจพฤตกรรมการบรโภทของลกคา

• อยากทำงานวจยทางดาน text mining

• อยากทำงานวจยทางดาน image processing

• ไมชอบการเขยนโปรแกรมแตอยากวเคราะหขอมลทซบซอนได

• เคยเขารวมการอบรมการใชงาน Weka Explorer มาแลวและอยาก update ความรทาง Data

Mining ใหมๆ ดวยซอฟตแวรใหมๆ

ถาคณตอบวา “ใช” ใ นคำถามขอใดขอหนง ผมขอแนะนำวาคณควรจะมาเขารวมอบรมกบผมครบ และคณ

จะรวาทำไมผมถงเปลยนใจจาก Weka Explorer มาตกหลมรกซอฟตแวรทชอวา RapidMiner Studio 6

ครบ

เนอหาการอบรม

วนท 1

• แนะนำการวเคราะหขอมลดวยเทคนค Data Mining และการใชประโยชนในงานวจย

• แนะนำกระบวนการ CRISP-DM เบองตนสำหรบการวเคราะหขอมล

• แนะนำสวนตางๆ ของซอฟตแวร RapidMiner Studio 6

• การนำขอมลไฟล Excel, CSV เขามาใชใน RapidMiner Studio 6

• ลกษณะของแอตทรบวต (attribute) ตางๆ ในชดขอมล

• การเขยนไฟลใหอยในรปแบบของ Excel และ CSV

• การแสดงขอมลในกราฟแบบตางๆ เชน scatter plot, time series

• การคนหา Outlier ซงเปนขอมลทแตกตางจากขอมลอนๆ

• การคนหาขอมลทผดพลาด (missing value) และแทนทดวยคาทกำหนดเองหรอคาทางสถต

• การแปลงขอมลดวยเทคนค discretization แบบกำหนดชวงเองหรอแบบอตโนมต

• การลดจำนวนขอมลดวยการ sampling แบบตางๆ

• การเลอกแอตทรบวตเพอใชในการวเคราะหขอมล

• แนะนำการหากฏความสมพนธ (association rules) และการประยกตใชงานดานตางๆ

• แนะนำเทคนคการหากฏความสมพนธดวยเทคนค Apriori และ FP Growth

• การแปลงขอมลจากฐานขอมล relation database ใหเปนฐานขอมล transaction database

• การหากฏความสมพนธดวยเทคนค FP Growth ซงเปนวธทมประสทธภาพมากทสด

• Workshop การหากฏความสมพนธจากขอมลการซอสนคาจำนวนมากกวา 100,000 transactions

ดวย RapidMiner Studio

http://www.facebook.com/datacube.th 122

Page 36: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

• แนะนำการแบงกลมขอมล (clustering) และการประยกตใชงานดานตางๆ

• แนะนำตววดประสทธภาพของการแบงกลมขอมล

• แนะนำการแบงกลมขอมลดวยเทคนค K-Means และ DBScan

• Workshop การแบงกลมขอมลทางดานการศกษาและการแพทยดวย RapidMiner Studio 6

วนท 2

• แนะนำการจำแนกประเภทขอมล (classifcation)

• การวดประสทธภาพของการจำแนกประเภทขอมล

• แนะนำเทคนค Linear Regression และการประยกตใชงาน

• การใชงาน Linear Regression ใน RapidMiner Studio 6

• แนะนำเทคนค Naive Bayes และการประยกตใชงาน

• การใชงาน Naive Bayes ใน RapidMiner Studio 6

• แนะนำเทคนค Decision Tree และการประยกตใชงาน

• การใชงาน Decision Tree ใน RapidMiner Studio 6

• แนะนำเทคนค K-Nearest Neighbours (KNN) และการประยกตใชงาน

• การใชงาน KNN ใน RapidMiner Studio 6

• แนะนำเทคนค Neural Networks และการประยกตใชงาน

• การใชงาน Neural Networks ใน RapidMiner Studio 6

• แนะนำเทคนค Support Vector Machines (SVM) และการประยกตใชงาน

• การใชงาน SVM ใน RapidMiner Studio 6

• Workshop การจำแนกประเภทขอมลในงานดานตางๆ

• ดานธรกจ

• ดานการศกษา

• ดานการแพทย

• การคดเลอกแอตทรบวต (attribute selection) และการประยกตใชในการจำแนกประเภทขอมล

• Workshop การคดเลอกแอตทรบวตและการจำแนกประเภทขอมลในงานดานตางๆ

วนท 3

• แนะนำการทำ Text Mining ดวย RapidMiner Studio 6

• Workshop การจำแนกขอความทเปน spam จาก SMS

• Workshop การแบงกลมขอมลจากขอความรวว (Review)

• Workshop การหากฏความสมพนธจากขอความรวว

http://www.facebook.com/datacube.th 123

Page 37: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ดร. เอกสทธ พชรวงศศกดา An Introduction to Data Mining Techniques

• แนะนำการทำ Image Mining ดวย RapidMiner Studio 6

• Workshop การจำแนกรปภาพออกเปนประเภทตางๆ

วทยากร

• ดร. เอกสทธ พชรวงศศกดา วทยาศาสตรคอมพวเตอร สถาบนเทคโนโลยนานาชาตสรนธร

มหาวทยาลยธรรมศาสตร

วนเวลาและสถานทอบรม

• ระยะเวลาการอบรม 3 วน

• ณ โรงแรม เค. ย. โฮม มหาวทยาลยเกษตรศาสตร วทยาเขตบางเขน

คาลงทะเบยน

• ราคา 6,500 บาท (ลดพเศษจากราคาเตม 6,900 บาท)

• ผเขารวมอบรมจะไดรบหนงสอประกอบการอบรม fash drive

ตดตามรายละเอยดเพมเตมไดท htpp://www.dataminingtrend.com หรอ

http://facebook.com/datacube.th

http://www.facebook.com/datacube.th 124

Page 38: An Introduction to Data Mining Techniques · ดร. เอกสิทธิ์ พัชรวงศ์ศักดา An Introduction to Data Mining Techniques คำนำ ย้อนหลังไปเมื่อ

ยอนหลงไปเมอ 12 ปกอน การวเคราะหขอมลดวยเทคนค ดาตา ไมนนง (Data Mining) ยงรจกกนในวงแคบสวนใหญเปนนกศกษาปรญญาโทและเอกทสนใจทำงานวจยทางดานน ผมเองเรมตนรจกกบดาตา ไมนนงเมอประมาณ 12 ปกอนเชนกน ในสมยทเปนนกศกษาปรญญาตรตวเลกๆ ในหองปฏบตการวจยการคนหาความรจากฐานขอมลขนาดใหญ (Knowledge Discovery Laboratory) ในภาควชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร มหาวทยาลยเกษตรศาสตร ในชวงเวลาทผานมาผมไดเหนการเปลยนแปลงเกยวกบความสนใจของผคนในเรองดาตา ไมนนงอยางมากมาย ตงแตตอนแรกทความสนใจอยในวงแคบดงทไดกลาวมาแลวจนมาถงปจจบนทมผสนใจเพมขนเปนวงกวาง เชน บรษทเอกชนหรอธนาคารตางเรมใหความ

สนใจนำการวเคราะหขอมลดวยเทคนคดาตา ไมนนงไปใชงานกนมากขนหรอมหาวทยาลยบางแหงเรมจดใหมการเรยนการสอนเกยวกบเรองนในระดบชนปรญญาตร จากความนยมทเพมขนและการเกบเกยว

ประสบการณในการทำงานและการอบรมการวเคราะหขอมลทางดานดาตา ไมนนง ทำใหผมคดอยากจะเขยนหนงสอสกเลมซงทำการแนะนำเทคนคการวเคราะหขอมลทางดาตา ไมนนงเบองตน สำหรบนกศกษาและผสนใจขนมาและนนเองคอทมาของหนงสอเลมนทชอวา An Introduction to Data Mining Techniques โดยในหนงสอเลมนผมจะแสดงหลกการทำงานของวธการทางดานดาตา ไมนนง ประกอบดวย !

• การหากฏความสมพนธ (association rules discovery)

• การหากฏความสมพนธดวยวธ Apriori

• การแบงกลมขอมล (clustering)

• การแบงกลมขอมลดวยวธ K-Means

• การแบงกลมขอมลดวยวธ Agglomerative Clustering

• การจำแนกประเภทขอมล (classification)

• การจำแนกประเภทขอมลดวยวธ Decision Tree

• การจำแนกประเภทขอมลดวยวธ Naive Bayes

• การจำแนกประเภทขอมลดวยวธ K-Nearest Neighbors

• การจำแนกประเภทขอมลดวยวธ Neural Network !พรอมทงตวอยางการทำงานของวธการเหลานเพอใหผอานเขาใจไดงายโดยทไมตองมความรพนฐานทาง

ดานคณตศาสตรขนสง

การวเคราะหขอมลดวยเทคนค ดาตา ไมนนง เบองตน

http://facebook.com/datacube.th http://www.dataminingtrend.com