ตัวแบบกำรจ ำแนกกำรเลือก...

8
NCTechEd09SIT17 บทคัดย่อ ปัจจุบันนี้การรับสมัครนักศึกษาใหม่โดยการสอบคัดเลือกของแต่ละสถาบันอุดมศึกษามีลักษณะที่เป็นเชิงรุกมากขึ้น ซึ่งแต ่ละ สถาบันมีการประชาสัมพันธ์หลักสูตรและการแนะแนวตามโรงเรียนเนื่องจากสภาวะการแข ่งขันของแต่ละสถาบันในปัจจุบัน งานวิจัยนี้ได ้นาเอาเทคนิคเหมืองข้อมูลมาช่วยวิเคราะห์ข้อมูลผู ้สมัครเข้าศึกษาต่อจากข้อมูลที่ถูกเก็บไว้ในฐานข้อมูลเพื่อช ่วยในการ วางแผนการรับนักศึกษาในอนาคต งานวิจัยนี้ประกอบด ้วย การเปรียบเทียบตัวแบบการจาแนก 4 เทคนิค คือ Decision Tree, Naïve Bayes, k-NN และ Rule Induction ผลปรากฏว่าเทคนิค Decision Tree ค่าความถูกต้องสูงสุดได้ 83.97%. คำสำคัญ: ตัวแบบการจาแนก เหมืองข้อมูล Abstract Nowadays, a recruitment examination of a new student for each institution of higher education has a more aggressive policy such as course public relations or Guidance to the school curriculum. Due to the higher competition of each institution. This research has gotten data mining concept for helping the analysis of the candidate collected in the database and planning in the future. This research has two main components. Performance comparison of Decision Tree, Naïve Bayes, k-NN, Rule Induction for Classification Model. The results show that the highest accuracy is Decision Tree 83.97%. Keyword: classification model, data mining 1. บทนำ มหาวิทยาลัยราชภัฏมหาสารคามในปีการศึกษา 2558 ทีผ่านมา ได้ทาการรับสมัครนักศึกษาเพื่อทาการคัดเลือกให้เข้า ศึกษาต่อใน 3 รูปแบบ คือ รับนักศึกษาผ่านระบบการสอบ คัดเลือกของ สกอ. การสอบคัดเลือกด้วยวิธีสอบตรง และการ สอบคัดเลือกแบบโควตาทั ้งเรียนดีและกีฬา เพื่อให้ ตัวแบบกำรจำแนกกำรเลือกหลักสูตรกำรศึกษำ คณะเทคโนโลยีสำรสนเทศ มหำวิทยำลัยรำชภัฏมหำสำรคำม โดยใช้เทคนิคเหมืองข้อมูล Classification Model for Selection of Program Studies in Faculty of Information Technology in Rajabhat MahaSarakham University Using Data Mining Techniques ธาดา จันตะคุณ สาขาวิชาระบบสารสนเทศเพื่อการจัดการ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏมหาสารคาม thada.phd@gmail.com การประชุมวิชาการครุศาสตร์อุตสาหกรรมระดับชาติ ครั ้งที9 The 9 th National Conference on Technical Education www.ncteched.org 24 พฤศจิกายน 2559 คณะครุศาสตร์อุตสาหกรรม มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ 336

Upload: others

Post on 17-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ตัวแบบกำรจ ำแนกกำรเลือก ...ncteched.fte.kmutnb.ac.th/nc9/NCTechEd09/NCTechEd09SIT17.pdf · 2016-11-20 · NCTechEd09SIT17 ภาพที่

NCTechEd09SIT17

บทคดยอ

ปจจบนนการรบสมครนกศกษาใหมโดยการสอบคดเลอกของแตละสถาบนอดมศกษามลกษณะทเปนเชงรกมากขน ซงแตละสถาบนมการประชาสมพนธหลกสตรและการแนะแนวตามโรงเรยนเนองจากสภาวะการแขงขนของแตละสถาบนในปจจบน งานวจยนไดน าเอาเทคนคเหมองขอมลมาชวยวเคราะหขอมลผสมครเขาศกษาตอจากขอมลทถกเกบไวในฐานขอมลเพอชวยในการ

วางแผนการรบนกศกษาในอนาคต งานวจยนประกอบดวย การเปรยบเทยบตวแบบการจ าแนก 4 เทคนค คอ Decision Tree, Naïve Bayes, k-NN และ Rule Induction ผลปรากฏวาเทคนค Decision Tree คาความถกตองสงสดได 83.97%.

ค ำส ำคญ: ตวแบบการจ าแนก เหมองขอมล

Abstract

Nowadays, a recruitment examination of a new student for each institution of higher education has a more

aggressive policy such as course public relations or Guidance to the school curriculum. Due to the higher competition

of each institution. This research has gotten data mining concept for helping the analysis of the candidate collected in

the database and planning in the future. This research has two main components. Performance comparison of Decision

Tree, Naïve Bayes, k-NN, Rule Induction for Classification Model. The results show that the highest accuracy is

Decision Tree 83.97%.

Keyword: classification model, data mining

1. บทน ำมหาวทยาลยราชภฏมหาสารคามในปการศกษา 2558 ท

ผานมา ไดท าการรบสมครนกศกษาเพอท าการคดเลอกใหเขา

ศกษาตอใน 3 รปแบบ คอ รบนกศกษาผานระบบการสอบคดเลอกของ สกอ. การสอบคดเลอกดวยวธสอบตรง และการสอบคด เล อกแบบ โควต าท ง เร ยน ด และ กฬ า เพ อ ให

ตวแบบกำรจ ำแนกกำรเลอกหลกสตรกำรศกษำ คณะเทคโนโลยสำรสนเทศ มหำวทยำลยรำชภฏมหำสำรคำม โดยใชเทคนคเหมองขอมล

Classification Model for Selection of Program Studies in Faculty of

Information Technology in Rajabhat MahaSarakham University

Using Data Mining Techniques

ธาดา จนตะคณ สาขาวชาระบบสารสนเทศเพอการจดการ

คณะวทยาศาสตรและเทคโนโลย มหาวทยาลยราชภฏมหาสารคาม [email protected]

การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education

www.ncteched.org 24 พฤศจกายน 2559 คณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 336

Page 2: ตัวแบบกำรจ ำแนกกำรเลือก ...ncteched.fte.kmutnb.ac.th/nc9/NCTechEd09/NCTechEd09SIT17.pdf · 2016-11-20 · NCTechEd09SIT17 ภาพที่

NCTechEd09SIT17

มหาวทยาลยไดผเรยนทมความร ความสามารถ ความถนดตรงตามหลกสตรทเรยน และเปนการสงเสรมใหการเรยนการสอนในระดบปรญญาตรเปนไปตามปรชญาและวตถประสงคของหลกสตร โดยมองคประกอบในการพจารณาคดเลอกผสมครสอบ ดงน พจารณาจากผลรวมคะแนนสอบวชาศกษาทวไป และวชาชพเฉพาะโดยมหาวทยาลยจะพจารณาคดเลอก จะพจารณาจากหลกสตรทผสมครคดเลอกเปนอนดบ 1 วธและขนตอนการเลอกหลกสตร ผสมครสามารถเลอกหลกสตรทสมครสอบไดสงสด 3 อนดบ

จากสภาวะการแขงขน ท สงขนสาหรบความตองการนกศกษาเขาใหมในแตละสถาบนอมดมศกษาท งในดานคณภาพการเรยนและปรมาณของนกศกษาใหม สงผลใหรปแบบการรบสมคร เปนนโยบาย เช ง รกมาก ขน โดยกระบวนการประชาสมพนธถอไดวาเปนกระบวนการทมความสาคญยง สาหรบการสมครเขาเปนนกศกษาใหมของแตละสถาบนอดมศกษาโดยเฉพาะวธการประชาสมพนธตามโรงเรยนจาเปนตองใชงบประมาณสง และอาจไมตรงกบกลมเปาหมายทตองการของแตละสาขาวชา การวเคราะหถงพฤตกรรมการเลอกสมครเรยนเพอใหทราบถงกลมพฤตกรรมในการเลอกสมครเรยนจะทาใหไดสารสนเทศประกอบการตดสนใจเพอการวางแผนสาหรบการรบสมครนกศกษาใหม

งานวจยนผ วจยไดนาเสนอเทคนคเหมองขอมล (Data Mining) โดยใชขอมลของนกศกษาระดบปรญญาตร คณะเทคโนโลยสารสนเทศ มหาวทยาลยราชภฏมหาสารคาม ทนกศกษาไดทาการสมครเขาศกษาและไดรบการคดเลอกใหเป นน ก ศ กษ าตามหลก ส ตรของมห าวท ยาลยราชภฏมหาสารคามแลว นามาผานกระบวนการตามมาตรฐานส าห รบการทา เห ม องขอ ม ล CRISP-DM (Cross Industry Standard Process for Data Mining) [1] ดวยโปรแกรม Rapid Miner Studio [2] ซงไดพฒนาตวแบบการจาแนกพฤตกรรมและคณลกษณะของผเรยนจากการเลอกหลกสตรการศกษาโดยใชเทคนคเหมองขอมล (Data Mining) [3] จาก 4 เทคนค ไดแก Decision Tree, Naïve Bayes, k-NN แ ล ว ท า ก า ร ป ร ะ เม นประสทธภาพเปรยบเทยบตวแบบทไดพฒนาขน

2. เอกสารและงานวจยทเกยวของ

2.1 เอกสารทเกยวของ2.1.1 เหมองขอมล (Data Mining)

การทาเหมองขอมล คอ กระบวนการวเคราะหเพอหาความสมพนธและการสรปผลขอมล ซงสามารถเขาใจไดและเปนประโยชนตอผทาการรวบรวมขอมล [3]

2.1.2 กระบวนการมาตรฐานการทาเหมองขอมลครสป-ดเอม (Cross-Industry Standard Process Data Mining: CRISP-DM) [1] เรมตนจากบรษท DaimlerChysler บรษท SPSS และบรษท NCR มความตองการกระบวนการมาตรฐานเพอนามาใชทาเหมองขอมลทเปนระบบซงในเวลานนยงไมมการกาหนดมาตรฐานเหลาน นออกมาอยางเปนรปธรรม จงรเรมจดทาแนวทางใหมกระบวนการทเปนมาตรฐานกลางขนมาโดยไมองกบระบบของบรษทหรอซอฟตแวรใดๆ และไมเปนวชาการมากจนเกนไป แตเนนการใชงานเปนหลก เพอใหเกดการยอมรบในวงกวางทงในกลมผเกยวของกบการทาคลงขอมลและเหมองขอมล จดประสงคหลกของการสรางกระบวนการมาตรฐานเพอใหเกดโครงการ หรองานการทาเหมองขอมลรวดเรวและเปนไปตามกาหนด โดยมกระบวนการทมประสทธภาพและนาเชอถอในการทางาน เพอใหจดการไดโดยใชเงนไมมากเกนไปหรอประหยดงบประมาณมากทสด โดย มาตรฐานครสป-ดเอม ถกพฒนาขนในป ค.ศ.1996 ในกระบวนการทาเหมองขอมลแบบครสป-ดเอม ไดกาหนดไว 6 ขนตอน คอ 1) ความเขาใจในธรกจ (business understanding) 2) ความเขาใจขอมล (data understanding) 3) การเตรยมขอมล(data preparation) 4) การจดทาตวแบบ (modelling) 5) การประเมนผล (evaluation) 6) การนาเอาตวแบบไปใชงาน(deployment) ดงภาพท 1

การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education

24 พฤศจกายน 2559 www.ncteched.orgคณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 337

Page 3: ตัวแบบกำรจ ำแนกกำรเลือก ...ncteched.fte.kmutnb.ac.th/nc9/NCTechEd09/NCTechEd09SIT17.pdf · 2016-11-20 · NCTechEd09SIT17 ภาพที่

NCTechEd09SIT17

ภาพท 1 : ภาพแสดงกระบวนการของครสป-ดเอม ทง 6 ขนตอน [1] 2.1.3 ตนไมตดสนใจ (Decision Tree)

ตนไมตดสนใจ เปนวธหนงทสาคญในการจาแนกกฎ โดยจะมลกษณะเปนการทางานเหมอนโครงสรางตนไม ทแตละโหนด (Node) แสดงคณลกษณะ (Attribute) ท ใชทดสอบขอมลแตละกงแสดงผลในการทดสอบและลฟโหนด (Leaf Node) แสดงกลมหรอคลาส (Class) ทก าหนดไว ซงตนไมตดสนใจนงายตอการเขาใจและการปรบเปลยนเปนกฎการจาแนก(Classification Rules) [3]

โดยจะสรางตนไมจากบนลงลางแบบวนซ า (Recursive) ดวยว ธการแบงปญหาใหญ เปนปญหายอย (Divide-and-Conquer) ซงรปแบบของตนไมจะประกอบดวย โหนดแรกสดทเรยกวา Root Node จาก Root Node กจะแตกออกเปนโหนดลก และทโหนดลก กจะมลกของตวเองซงโหนดในระดบสดทายจะเรยกวา Leaf Node เชน ตวอยางนเปนขอมล weather data ซงเปนขอมลขนาดเลกมเพยง 14 กรณ จากตวอยางนในโปรแกรม RapidMiner Studio [2] ใชชอวา Golf Dataset สวนใ น Weka [ 4] ม ต ว อ ย า ง ข อ ม ล 2 ช ด ใ ช ช อ ว า weather.nominal.arff และ weather.numeric.arff ซงชดขอมลนเปนชดขอมลเกยวกบเงอนไขสภาพอากาศทเหมาะสมในการเลนกอลฟ ดงภาพท 2 และ 3

ตนไมตดสนใจ (Decision Tree) เปนเทคนคทคอนขางแพรหลาย เนองจากผใชสามารถทาความเขาใจผลลพธไดงาย เทคนคตนไมตดสนใจจะจากดขอมลท เปนตวแปรตาม (Dependent Variable) 1 ตวตอ 1 แบบจาลอง ถาตองการทานาย

ตวแปรตามหลาย ๆ ตว จะตองสรางแบบจาลอง สาหรบตวแปรตามแตละตวอลกอรทมของเทคนคแบบตนไมตดสนใจ

ภาพท 2 : ตวอยางชดขอมล Golf Dataset ทรนบน Rapidminer Studio

2.1.4 อลกอรทม Naïve Bayes (Naïve Bayes Algorithm) [5] การจาแนกประเภทขอมลดวย Naïve Bayes นเปนวธทไดรบความนยม เนองจากอาศยความนาจะเปน (probability) เปนหลก โดยอาศยสมการน

P(A|B) คอ ค า conditional probability หรอค าความนาจะเปนทเกดเหตการณ B ขนกอนและจะมเหตการณ A ตามมา

ภาพท 3 : ตวอยางตนไมตดสนใจ (Decision Tree)จากชดขอมลตวอยาง

การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education

www.ncteched.org 24 พฤศจกายน 2559 คณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 338

Page 4: ตัวแบบกำรจ ำแนกกำรเลือก ...ncteched.fte.kmutnb.ac.th/nc9/NCTechEd09/NCTechEd09SIT17.pdf · 2016-11-20 · NCTechEd09SIT17 ภาพที่

NCTechEd09SIT17

P(A ∩ B) คอ คา joint probability หรอคาความนาจะเปนทเหตการณ A และเหตการณ B เกดขนรวมกน

P(B) คอ คาความนาจะเปนทเหตการณ B เกดขน 2 .1.5 อลกอรทมความใกลเคยงกนมากท สด (k-

Nearest Neighbor Algorithm) [5] หลกการทางานของ k-NN คลายๆ กบการแบงกลมขอมล คอ ทาการวดระยะหางระหวางขอมลทตองการทานาย กบขอมลทอยใกลเคยงเปนจานวน k ตว และคาตอบททานายไดคอ คลาสทพบมากทสดของขอมลทเปนเพอนบานทง k ตว ในเทคนคนจะใชวธวดระยะหางแบบ Euclidean ซงเกดจากรากทสองของผลตางระหวางแอตทรบวตตางๆ ยกกาลงสอง ดงสมการ

2.1.6 กฎการอปนย (Rule Induction) กฎการอปนย (Rule Induction) [6] คอ กฎการอปนยเปนวธ

สาหรบการดงเอาชดกฎเกณฑตางๆ มาเพอจดแบงเงอนไขหรอกรณ โครงสรางตนไมสามารถสรางชดของกฎตางๆ และขณะทบางครงเรยก วธการแบบนวา การสรางกฎใหมจากตวอยาง แตวธการนกยงมความหมายทแตกตางกนเนองจากวธการใชการอปนยจะสรางชดของกฎทเปนอสระซงไมจาเปนตองอยในรปโครงสรางตนไม เพราะตวสรางกฎ (Rule Inducer) ไมไดบงคบการแตกขอมลแตละระดบ แตอาจจะสามารถคนหารปแบบ (Pattern) ทแตกตางกนได และบางครงอาจดกวาสาหรบการจดแบง Class ของผลลพธ ลกษณะการนากฎอปนย ดงภาพท 4

2.1.7 การประเมนตวแบบดวยวธการ Cross-validation Test วธการนเปนทนยมใชในการทดสอบประสทธภาพของตวแบบ เนองจากผลทไดมความนาเชอถอ การวดประสทธภาพดวยวธ Cross-validation Test นจะทาการแบงขอมลออกเปนหลายสวน เชน 5-fold cross-validation คอการแบ งขอ มลออกเปน 5 สวน โดยทแตละสวนมจานวนขอมลเทากน หรอ 10-fold cross-validation คอ การแบงขอมลออกเปน 10 สวนโดยแตละสวนมจานวนขอมลเทากน หลงจากนนขอมลหนงสวนจะใชเปนตวทดสอบประสทธภาพของตวแบบ ทาวนไปเชนนจนครบจานวนทแบงไว [5] ดงภาพท 5

ภาพท 4 : ตวอยางอลกอรทมสาหรบการนากฎอปปนยมาประยกตใช

ภาพท 5 : ตวอยางการแบงขอมลแบบ 5-fold cross-validation [5]

2.2 งานวจยทเกยวของ แกวสวรรค ศรหรง ไดทาการศกษาวจยเรอง การพยากรณ

โอกาสส า เร จก าร ศกษ าของน ก ศกษ าป รญญ าต รของมหาวท ยาลย :รามคาแหงตามระยะเวลาท กาหนดโดยเปรยบเทยบวธการทางโครงขายประสาทเทยม กบวธตนไมตดสนใจ [7] งานวจย น มว ต ถประสงค เพอ เป รยบ เทยบประสทธภาพของโมเดลโครงขายประสาท วธตนไมตดสนใจ และตรรกศาสตรคลมเครอ เพอคาดคะเนความสามารถในการศกษาของนกศกษาแตละคนทผานระบบการรบสมคร

การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education

24 พฤศจกายน 2559 www.ncteched.orgคณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 339

Page 5: ตัวแบบกำรจ ำแนกกำรเลือก ...ncteched.fte.kmutnb.ac.th/nc9/NCTechEd09/NCTechEd09SIT17.pdf · 2016-11-20 · NCTechEd09SIT17 ภาพที่

NCTechEd09SIT17

นกศกษาใหมไดวา สามารถทจะสาเรจการศกษาในหลกสตรตามระยะเวลาทมหาวทยาลยรามคาแหงกาหนดไดหรอไม โดยใชขอมลของมหาวทยาลยรามคาแหง สาขาวทยบรการเฉลมพระเกยรตจงหวดลพบร ต งแตปการศกษา 2550 – 2554 จานวน 437 คน พจารณาจากตวแปรทจะนามาศกษาทงสน 20 ตวแปร และไดนาขอมลจานวนปทสาเรจการศกษาจดกลมเปน 6 กลม คอ ตากวา 4 ป, 4 ป, 5 ป, 6 ป, 7 ป และ 8 ป จากนนจงนาขอมลไปวเคราะหตอโดยโครงขายประสาทเทยมขนาด 2 ช น , 3 ช น ตามลาดบ เพ อทาก าร เร ยน รขอ ม ลแลว จ งเปรยบเทยบผลลพธ วธตนไมตดสนใจในการสรางแบบจาลอง และตรรกศาสตรคลมเครอ พบวาวธโครงขายประสาทเทยมขนาด 2 ชน ซงมขนาดแตละชน 16-6 ไดผลลพธท 99.64% โดยใชฟ งกชน กระตนแบบ Tansig-Purelin ว ธโครงข ายประสาทเทยมขนาด 3 ชน ไดผลลพธท 99.80% ซงมขนาดแตละช น 24-6-6 โดยใชฟงกชนกระตนแบบ Tansig-Logsig-Purelin ว ธ ตน ไมตด ส น ใจ ไดผลลพ ธ ท 9 9 .5 4 % และตรรกศาสตรคลมเครอไดผลลพธท 89.24% ผลการทดลองพบวา แบบจาลองโครงขายประสาทเทยมขนาด 3 ชน เปนโมเดลทเหมาะแกการนาไปพฒนาตอ เพราะใหประสทธภาพมากทสด

ไพฑรย จนทรเรอง ไดทาการศกษาวจยเรอง ระบบสนบสนนการตดสนใจเลอกสาขาการเรยนของนกศกษา ระดบปรญญาตรโดยใชเทคนคตนไมตดสนใจ [8] มใจความสาคญ ดงน งานวจยนไดทาการพฒนาระบบสนบสนนการตดสนใจเลอกสาขาการเรยนของนกศกษาระดบปรญญาตรโดยใชเทคนคตนไมตดสนใจ ซงจากการทดลองพบวาในการสรางตวแบบสาหรบพฒนาระบบสนบสนนการตดสนใจเลอกสาขาการเรยนของนกศกษาระดบปรญญาตร โดยใชเทคนคตนไมตดสนใจนน ควรแยกสรางตวแบบสาหรบแตละสาขาการเรยนเนองจากคณสมบตของผเรยนแตละสาขามความแตกตางกน เพอใหไดตวแบบทสามารถทานายแนวโนมของผลการเรยนทเหมาะสมสาหรบแตละสาขา แตเนองจากคะแนนเฉลยของนกศกษาทนามาพฒนาตวแบบนน สวนใหญจะมเกณฑคะแนนเกาะกลมกนอยในชวงกลางของขอมล (2.00 – 3.00) ทาใหผล

การตดสนสวนใหญจะโนมเอยงไปในเกณฑพอใช (ชวงคะแนน 2.00 – 2.49) และปานกลาง (ชวงคะแนน 2.50 – 2.99)

ณฐ พลอยออง ไดทาการศกษาวจยเรอง ระบบคดกรองนก ศกษาท มความสามารถในการเรยนวชาเทคโนโลยสารสนเทศผานสออเลกทรอนกสโดยการเปรยบเทยบเทคนคตนไมการตดสนใจและซพพอรตเวกเตอรแมชชน [9] งานวจยนมประสงคเพอคดเลอกโมเดลระหวางเทคนคตนไมตดสนใจกบเทคนคซพพอรตเวกเตอรแมชชน เพอใชพฒนาระบบคดกรองนกศกษาทมความสามารถในการเรยนวชาเทคโนโลยส ารสน เทศโดยการเรยน รผ าน ส อ อ เลกทรอนกสของมหาวทยาลยราชภฏสวนสนนทาเพอเปนการสงเสรมผเรยนโดยเนนผเรยนเปนหลกใหสามารถเลอกรปแบบการเรยนทเหมาะสมกบตนเองได ผลการเปรยบเทยบโมเดลทไดคอ เทคนคตนไมการตดสนใจใหผลความถกตองสงทสดจากการสรางโมเดลแบบ 100 Folds ไดคาความถกตองท74.46% ซงมากกวาเทคนคซพพอรตเวกเตอรแมชชนทใหผลความถกตองสงทสด จากการสรางโมเดลแบบ 100 Folds ไดคาความถกตองท 72.48% จากผลดงกลาวเทคนคตนไมตดสนใจถกนามาใชพฒนาโปรแกรมระบบคดกรองนกศกษา

ธรพงษ สงขศร ไดศกษาวจยเรอง การวเคราะหพฤตกรรมสาหรบการเลอกสมครสาขาวชาเรยนและการเปรยบเทยบตวแบบพยากรณจานวนนกศกษา [10] งานวจยชนนไดนาเอาแนวคดเหมองขอมลมาชวยวเคราะหโดยสามารถแบงสวนการทางานออกไดเปน 2 สวนหลกประกอบดวย 1) การวเคราะห พฤตกรรมสาหรบการเลอกสมครสาขาวชาเรยนเปนการประยกตใช เทคนคการจดกลมขอมล (Clustering) แบบ Simple K-means สามารถแบงขอมลพฤตกรรมของผ สมครได เปน 4กลมและใช การหากฎความสมพนธ ของขอมล (AssociationRules) ดวยเทคนคแอพรออร (Apriori) เพอหากฎความสมพนธของขอมลในแตละกลมพฤตกรรมผสมคร โดยใช คาความเชอมนเทากบ 0.9และ 2) การเปรยบเทยบตวแบบพยากรณจานวนนกศกษาใหมโดยตวแบบพยากรณ ทถกสรางขนดวยเทคนคตนไมตดสนใจ (Decision Tree) มคาความถกตองเทากบ 93.76% และตวแบบทถกสรางขนดวยเทคนคโครงขาย

การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education

www.ncteched.org 24 พฤศจกายน 2559 คณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 340

Page 6: ตัวแบบกำรจ ำแนกกำรเลือก ...ncteched.fte.kmutnb.ac.th/nc9/NCTechEd09/NCTechEd09SIT17.pdf · 2016-11-20 · NCTechEd09SIT17 ภาพที่

NCTechEd09SIT17

ประสาทเทยม(Artificial Neural Network) มคาความถกตองเทากบ 93.60%

3. วธการดาเนนงานวจยงานวจยนผวจยใชกระบวนการของ CRISP-DM ดงน

3.1 การทาความเขาใจในดานธรกจ (BusinessUnderstanding)

พบปญหาของการประชาสมพนธหลกสตร ไมตรงกบความสนใจของนกเรยนทาใหจานวนนกศกษาลดลง จงพฒนาตวแบบการจาแนกพฤตกรรมการเลอกสาขาวชาใหกบนกศกษา จานวน 4 หลกสตร ดงน หลกสตรเทคโนโลยสารสนเทศ หลกสตรเทคโนโลยมลตม เดยและแอน เมชน หลกสตรเทคโนโลยคอมพวเตอรและการสอสาร และหลกสตรการจดการเทคโนโลย

3.2 การทาความเขาใจขอมล (Data Understanding) ปการศกษา 2558 คณะเทคโนโลยสารสนเทศ มหาวทยาลย

ราชภฏมหาสารคามในระดบปรญญาตรมการรบสมครนกศกษาจานวน 4 หลกสตร มจานวนนกศกษาทสมครแลวไดรบการคดเลอกทง 4 หลกสตร รวมทงสนจานวน 162 คน มปจจยทตองพจารณาท งหมด 8 ปจจย (แอตทรบวต) ไดแก Major หมายถง หลกสตรทสมครเขาศกษา, Study หมายถง จงหวดเดมทเคยเรยนมากอน, Rank_Study_group หมายถง วฒการศกษาทใชสมครสอบ, Gpa_old_group หมายถง เกรดเฉลยนของวฒการศกษาเดม, SCI หมายถง ระดบคะแนนรายวชาวทยาศาสตร, MAT หมายถงระดบคะแนนวชาคณตศาสตร, SOC หมายถง ระดบคะแนนรายวชาสงคม, TH หมายถง ระดบคะแนนรายวชาภาษาไทย, ENG หมายถง ระดบคะแนนรายวชาภาษาองกฤษ แสดงชดขอมล ดงภาพท 6

3.3 ขนตอนการเตรยมขอมล ขอมลทไดมาอยในรปแบบของแฟมขอมลไมโครซอฟทแอคเซส โดยทาการคดเลอกแอตทรบวตทเกยวของแลวแปลงใหอยในรปแบบของแฟมขอมลทมนามสกลเปน .CSV จากน นทาการกาหนดแอตทรบวต Student_id เปนประเภท id กาหนดใหแอตทรบวต Major เปนประเภท Label จากน นทาการแปลงขอมลแอตทรบวต ทเกยวของทง 8 แอตทรบวตใหอยในรปแบบ ดงตารางท 1

ภาพท 6 : ภาพแสดงชดขอมล (Data Set)

ตารางท 1 อธบายแอตทรบวตทเกยวของ แอตทรบวต ลกษณะของขอมลทถกแปลงกอน

นาไปสรางตวแบบ Major เทคโนโลยสารสนเทศ, เทคโนโลย

มลตมเดยและแอนเมชน, เทคโนโลยคอมพวเตอรและการสอสาร, การจดการเทคโนโลย

Study ระบชอจงหวดทจบการศกษามา เชน “มหาสารคาม”

Rank_Study_group สายสามญ, สายอาชพ Gpa_old_group ระดบตา, ระดบปานกลาง, ระดบด SCI ระดบตา, ระดบปานกลาง, ระดบด MAT ระดบตา, ระดบปานกลาง, ระดบด SOC ระดบตา, ระดบปานกลาง, ระดบด TH ระดบตา, ระดบปานกลาง, ระดบด ENG ระดบตา, ระดบปานกลาง, ระดบด

3 .4 การสรางตวแบบ (Modeling) สรางตวแบบดวย RapidMiner Studio โดยใชโอเปอรเรเตอร Multiply เพอใหสามารถสรางตวแบบดวยเทคนค Decision Tree, Naïve Bayes, k-NN และ Rule Induction ในโปรเซสเดยว ดงภาพท 7

3.5 การประเมนประสทธภาพตวแบบ (Evaluation) ใ ช ว ธ ก า ร Cross-validation Test ด ว ย 5-fold cross-

validation, 10-fold cross-validation เพ อหาค าความถกตอง (accuracy) โดยตวแบบทพฒนาจากเทคนค Decision Tree ทถกทดสอบดวยขอมลทแบงออกเปน 5 สวน น น ไดคาความถกตองเท ากบ 83.31% และเมอทดสอบดวยขอมลทแบง

การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education

24 พฤศจกายน 2559 www.ncteched.orgคณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 341

Page 7: ตัวแบบกำรจ ำแนกกำรเลือก ...ncteched.fte.kmutnb.ac.th/nc9/NCTechEd09/NCTechEd09SIT17.pdf · 2016-11-20 · NCTechEd09SIT17 ภาพที่

NCTechEd09SIT17

ออกเปน 10 สวนไดคาความถกตองเทากบ 83.97% ตวแบบทพฒนาจากเทคนค Naïve Bayes ทถกทดสอบดวยขอมลทแบงออกเปน 5 สวน นน ไดคาความถกตองเทากบ 74.07% และเมอทดสอบดวยขอมลทแบงออกเปน 10 สวนไดคาความถกตองเทากบ 73.53% ตวแบบทพฒนาจากเทคนค k-NN ทถกทดสอบดวยขอมลทแบงออกเปน 5 สวน นน ไดคาความถกตองเทากบ 73.41% และเมอทดสอบดวยขอมลทแบงออกเปน 10 สวนไดคาความถกตองเทากบ 74.71% ตวแบบทพฒนาจากเทคนค Rule Induction ทถกทดสอบดวยขอมลทแบงออกเปน 5 สวน น น ไดคาความถกตองเทากบ 82.75% และเมอทดสอบดวยขอมลทแบงออกเปน 10 สวนไดคาความถกตองเทากบ 75.18% ดงตารางท 2

ภาพท 7 : ภาพแสดงสรางตวแบบและประมวลผลเพอเปรยบเทยบไดในโปรเซสเดยวบน RapidMiner Studio

ตารางท 2 เปรยบเทยบประสทธภาพของตวแบบทพฒนาขน

Classification Model

5-foldcross-validation

(Accuracy)

10-foldcross-validation

(Accuracy) Decision Tree 83.31% 83.97% Naïve Bayes 74.07% 73.53% k-NN 73.41% 74.71% Rule Induction 82.75% 75.18%

3.6 การนาไปใชงาน (Deployment) นาตวแบบทพฒนาดวยเทคนค Decision Tree ซงไดคา

ความถกตองสงทสดไปแนะนาหลกสตรใหกบนกเรยน โดยใหเปรยบเทยบกบตวแบบกบนกเรยนโดยใหเรมไลจากโหนด

บนสดทเปนวชาตางๆ และไลเรยงลงมาจนถงโหนดสดทาย (leaf) ดงภาพท 8

ภาพท 8 : แสดงตวแบบในรปแบบตนไมตดสนใจ

4. สรปผลการวจยสรปผลการดาเนนการวจยครงนโดยพฒนาและเปรยบเทยบ

ตวแบบการจาแนกท ง 4 เทคนค ไดแก Decision Tree, Naïve Bayes, k-NN, Rule Induction ซงผลการประเมนประสทธภาพตวแบบ คอ Decision Tree ซงไดคาท สงท สดจากการแบงขอมลทดสอบออกเปน 10 ชด คาความถกตอง (Accuracy) ได 83.97% จงสรปไดวาDecision Tree เปนตวแบบทเหมาะสมทสดทจะนาไปใชประชาสมพนธหลกสตร

5. เอกสารอางอง[1] IBM Corporation, "http://www.ibm.com/us-en/,". [Online].

Available: ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/14.2/en/CRISP_DM.pdf.

[2] RapidMiner USA, "https://rapidminer.com/,". [Online]. Available: https://rapidminer.com/products/studio/.

[3] J. Han, Data Mining Concepts and Techniques ThirdEdition, United States of America: Morgan KaufmannPublishers, 2012.

[4] Data Mining Software in Java,"http://www.cs.waikato.ac.nz/ml/weka/,". [Online]. Available: http://www.cs.waikato.ac.nz/ml/weka/book.html.

[5] เอกสทธ พชรวงศศกดา, การวเคราะหขอมลดวยดาตา ไมนนงเบองตน, กรงเทพฯ: บรษท เอเชย ดจตอลการพมพ จากด, 2557.

[6] ฝนทพย คนแกว, “การสงเคราะหโมเดลเพอการจาแนกตามขอกาหนดของผใช,” มหาวทยาลยสรนาร, นครราชสมา, 2555.

[7] แกวสวรรค ศรหรง, "การพยากรณโอกาสสาเรจการศกษาของนกศกษาปรญญาตรของมหาวทยาลยรามคาแหงตามระยะเวลาทกาหนดโดยเปรยบเทยบวธการทางโครงขายประสาทเทยม วธตนไมตดสนใจและตรรกศาสตรคลมเครอ," มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ, 2556.

[8] ไพฑรย จนทรเรอง, " ระบบสนบสนนการตดสนใจเลอกสาขาการเรยนของนกศกษาระดบปรญญาตร โดยใชเทคนคตนไมตดสนใจ,"

การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education

www.ncteched.org 24 พฤศจกายน 2559 คณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 342

Page 8: ตัวแบบกำรจ ำแนกกำรเลือก ...ncteched.fte.kmutnb.ac.th/nc9/NCTechEd09/NCTechEd09SIT17.pdf · 2016-11-20 · NCTechEd09SIT17 ภาพที่

NCTechEd09SIT17

มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ, กรงเทพฯ,

2550.

[9] ณฐ พลอยออง, "ระบบคดกรองนกศกษาทมความสามารถในการเรยนวชาเทคโนโลยสารสนเทศผานสออเลกทรอนกส โดยการเปรยบเทยบเทคนคตนไมการตดสนใจและซพพอรตเวก,"

มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ, กรงเทพฯ,

2555.

[10] ธรพงษ สงขศร, "การวเคราะหพฤตกรรมสาหรบการเลอกสมครสาขาวชาเรยนและการเปรยบเทยบตวแบบพยากรณจานวนนกศกษาใหมโดยใชเทคนคการทาเหมองขอมล," การประชมวชาการระดบชาตดานคอมพวเตอรและเทคโนโลยสารสนเทศ ครงท10, กรงเทพฯ, 2557.

การประชมวชาการครศาสตรอตสาหกรรมระดบชาต ครงท 9 The 9th National Conference on Technical Education

24 พฤศจกายน 2559 www.ncteched.orgคณะครศาสตรอตสาหกรรม มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ 343