วุฒิ สุขเจริญ wut sookcharoenromphruekj.krirk.ac.th/books/2558/2/1.pdfง 12...
TRANSCRIPT
การด�าเนนการกบขอมลขาดหายDealing with Missing Data
วฒ สขเจรญWut Sookcharoen
บทท
1
วารสารรมพฤกษ มหาวทยาลยเกรก 12 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 12
บทท 1
การด�าเนนการกบขอมลขาดหายDealing with Missing Data
วฒ สขเจรญ 1
Wut Sookcharoen
บทคดยอการวจยเกอบทกประเภทมโอกาสเกดขอมลขาดหาย ซงเกดจากสาเหตหลาก
หลาย ปญหาของขอมลขาดหายท�าใหการวเคราะหขอมลขาดประสทธภาพและมความยงยากในการวเคราะหขอมล เนองจากขอมลมความล�าเอยงจากขอมลทขาดหาย จงไดพฒนาวธตาง ๆ เพอพยายามทดแทนขอมลขาดหาย การด�าเนนการกบขอมลทขาดหายโดยใชวธ listwise deletion, pairwise deletion และการแทนคาดวยคาเฉลยเลขคณตหรอคาฐานนยม เปนวธทมความถกตองต�า ผเขยนแนะน�าใหใชการด�าเนนการกบขอมลขาดหายโดยใชวธทมความถกตองสง เชน full information maximum-likelihood, expectation-maximization algorithm และ multiple Imputation ค�าส�าคญ : ขอมลขาดหาย การด�าเนนการ
AbstractIn almost all research, there is the potential for missing data.
Missing data can occur for various reasons. Problems associated with missing values are loss of efficiency, complications in handling and analyzing the data, and bias resulting from differences between missing data and complete data. A variety of methods have been developed to
1 อาจารยประจ�าคณะบรหารธรกจ สถาบนเทคโนโลยไทย-ญปน, ผชวยศาสตราจารย (Ph.D.)
1บทท
บทท 1 การดำาเนนการกบขอมลขาดหาย Dealing with Missing Data 1313
บทท 1
attempt to compensate for missing data. The author suggests that listwise deletion, pairwise deletion and mean/mode substitution are poor methods for handling missing data, whereas full information maximum-likelihood, expectation-maximization algorithm, and multiple imputations are recommended alternatives to this approach.Key words : Missing Data ; Dealing
บทน�าขอมลขาดหาย คอ ขอมลทไมครบถวนหรอไมสมบรณ สามารถเกดขนไดกบงาน
วจยทกประเภท โดยเฉพาะอยางยงงานวจยเชงปรมาณทใชแบบสอบถามเปนเครองมอในการเกบรวบรวมขอมล
Chao-Ying Joanne Peng, et al. (2006) ไดศกษาผลงานวจยตพมพในวารสารดานการศกษาและจตวทยาจ�านวน 11 ฉบบ ระหวางป ค.ศ.1998-2004 พบวา รอยละ 48 ของผลงานทตพมพระบวาการเกบรวบรวมขอมลมขอมลขาดหาย
Angela M Wood, Ian R White and Simon G Thompson (2004) ไดศกษาผลการวจยโดยการสมตวอยางจากผลงานวจยทไดรบการตพมพในวารสาร BMJ, JAMA, Lancet and New England Journal of Medicine ระหวางเดอนกรกฎาคมถงธนวาคม จ�านวน 71 ชน พบวา มผลงานวจยจ�านวน 63 ชน คดเปนรอยละ 89 ระบวามขอมลขาดหายบางสวน และมผลงานวจยจ�านวน 13 ชน คดเปนรอยละ 18 ทระบวามขอมลขาดหายเกนกวารอยละ 20 ของกลมตวอยาง จะเหนไดวาขอมลขาดหายพบไดปกตในการท�าวจย
ถงแมขอมลขาดหายจะพบไดปกตในการเกบรวบรวมขอมลเพอการวจย แตยงไมมขอสรปทชดเจนในแนวทางการด�าเนนการเกยวกบขอมลขาดหาย Yiran Dong and Chao-Ying Joanne Peng (2013) ไดศกษาการด�าเนนการเกยวกบขอมลขาดหาย พบวางานวจยทมขอมลขาดหายรอยละ 37 ไมไดมการด�าเนนการใด ๆ เกยวกบขอมลขาดหาย
การด�าเนนการกบขอมลขาดหายมกเปนดลยพนจของนกวจย ซงอาจท�าใหผลการวจยมความคลาดเคลอนหรอมความล�าเอยง ดงนนนกวจยจงจ�าเปนตองมแนวทาง
วารสารรมพฤกษ มหาวทยาลยเกรก 14 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 14
บทท 1
ในการปองกนเพอลดการเกดขอมลขาดหาย และตองมความรเกยวกบการด�าเนนการเกยวกบขอมลหายขาด เพอเลอกใชวธการด�าเนนการกบขอมลหายขาดอยางเหมาะสม
สาเหตและแนวทางการปองกนการเกดขอมลขาดหายขอมลขาดหายเกดไดจากหลายสาเหต แตเมอพจารณาจากแหลงทมาของการ
เกดขอมลขาดหาย สามารถแบงการเกดขอมลขาดหายออกเปน 2 กลม ดงน1. การเกดขอมลขาดหายจากกระบวนการวจย ไดแก l การก�าหนดประเดนการวจย การด�าเนนการวจยมตนทนดานการใช
ทรพยากร บางครงนกวจยไดก�าหนดประเดนทตองการศกษาไวหลากหลายเกนไป ท�าใหผใหขอมลไมสามารถใหขอมลไดครบทกประเดน สงผลใหเกดขอมลขาดหาย เนองจากผใหขอมลไมสามารถใหขอมลในบางประเดน เพอปองกนปญหาดงกลาว นกวจยควรก�าหนดประเดนการศกษาใหตรงประเดนและกระชบ
l การออกแบบแบบสอบถามทใชเวลาตอบมากเกนไป ระยะเวลารวมในการท�าแบบสอบถามเปนปจจยหนงทเปนสาเหตท�าใหเกดขอมลขาดหาย แบบสอบถามทใชเวลาตอบมากเกนไป ผตอบแบบสอบถามอาจตอบไมครบค�าถามขอทาย ๆ ของแบบสอบถาม ผตอบแบบสอบถามอาจเรงรบตอบ ท�าใหนกวจยการตลาดไดขอมลทไมถกตอง จากการส�ารวจความคดเหนของผตอบแบบสอบถามพบวา แบบสอบถามทใชเวลาในการตอบระหวาง 6-10 นาท มความเหมาะสมมากทสด (ตารางท 1)
ตารางท 1 เวลาทเหมาะสมในการตอบแบบสอบถาม (Carl McDaniel and Roger Gates, 2013 : 169)
เวลาทเหมาะสมในการตอบแบบสอบถาม รอยละของผเหนดวย
นอยกวา 2 นาท 2
2-5 นาท 21
6-10 นาท 44
11-15 นาท 21
16-25 นาท 3
26 นาทขนไป 0
อน ๆ 9
บทท 1 การดำาเนนการกบขอมลขาดหาย Dealing with Missing Data 1515
บทท 1
l การใชขอค�าถามทไมเหมาะสม นกวจยมกเปนผคดขอค�าถามดวยตนเอง บางครงจงใชค�าศพทเฉพาะเนองจากมความเคยชน ท�าใหผตอบแบบสอบถามไมเขาใจค�าถาม สงผลใหเกดขอมลขาดหาย เพอปองกนปญหาดงกลาว นกวจยควรน�าแบบสอบถามไปทดลองกบกลมตวอยาง และสอบถามความคดเหนตอขอค�าถามแตละขอ เพอน�าขอมลทไดมาปรบปรงขอค�าถาม
l การก�าหนดกลมตวอยางทกวางเกนไป กลมตวอยางทมความหลากหลายสง ท�าใหกลมตวอยางมความรและความสามารถในการใหขอมลแตกตางกน ซงอาจเปนสาเหตท�าใหเกดขอมลขาดหาย ดงนนนกวจยจงควรก�าหนดกลมตวอยางทมลกษณะใกลเคยงกนเพอปองกนการเกดปญหาดงกลาว
l กระบวนการเกบรวบรวมขอมลไมเหมาะสม โดยทวไปนกวจยมกไมไดเปนผด�าเนนการเกบรวบรวมขอมลดวยตนเอง การใหผอนด�าเนนการเกบรวบรวมขอมลแทน บางครงพบวาผด�าเนนการเกบรวบรวมขอมลตองการใหงานเสรจ จงเรงผใหขอมลจนท�าใหเกดขอมลขาดหาย เพอปองกนปญหาดงกลาว นกวจยตองมกระบวนฝกอบรมและควบคมผเกบรวบรวมขอมล
l ความผดพลาดในกระบวนการน�าเขาขอมล การน�าขอมลจากแบบ สอบถามปอนสโปรแกรมวเคราะหสถต เปนสาเหตหนงทท�าใหเกดขอมลขาดหายอนเนองมาจากความผดพลาดของผน�าเขาขอมล นกวจยจงควรตรวจสอบความถกตองของขอมลกอนน�าขอมลไปวเคราะห
2. สาเหตจากผใหขอมล หมายถง การเกดขอมลขาดหายเนองจากผใหขอมลใหขอมลไมครบ ไมสมบรณ หรอไมสามารถใหขอมลอยางตอเนองดวยเหตผลหรอขอจ�ากดของผใหขอมลเอง ไดแก
l ผใหขอมลไมเตมใจใหขอมล เชน ผใหขอมลมเวลาจ�ากด หรอถกบงคบใหขอมล เพอลดขอมลขาดหายจากผใหขอมลไมเตมใจใหขอมล นกวจยควรอธบายและสอบถามความสมครใจในการใหขอมลกอนเกบขอมล
l กลมตวอยางไมสามารถใหขอมลตอเนอง การวจยบางประเภทจ�าเปนตองใชกลมตวอยางกลมเดมในการเกบขอมลอยางตอเนอง เชน การส�ารวจทศนคตกอนและหลงใชสนคา เพอใหผลลพธทถกตองนกวจยจ�าเปนตองศกษาโดยใชกลมตวอยางกลมเดม ดงนนในการคดเลอกกลมตวอยาง นกวจยตองตรวจสอบกลมตวอยางวามความสามารถใหขอมลอยางตอเนองไดหรอไม
วารสารรมพฤกษ มหาวทยาลยเกรก 16 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 16
บทท 1
แนวทางการจดการกบขอมลขาดหายถงแมนกวจยจะมกระบวนการปองกนการเกดขอมลขาดหาย แตการเกบรวบ
รวมขอมลในสถานการณจรง ยอมเกดขอมลขาดหายได Joseph F. Hair Jr. et. al. (2010 : 44-63) ไดใหแนวทางการจดการกบขอมลขาดหายโดยแบงเปน 4 ขนตอน ดงน
ขนท 1 การระบประเภทของขอมลขาดหาย ขอมลขาดหายมหลายประเภท ไดแก
l ขอมลขาดหายแบบสามารถละเลยได (Ignorable missing data) คอ ขอมลขาดหายทเกดจากขอจ�ากดหรอการออกแบบการวจย เชน การส�ารวจความพงพอใจของการใชบรการเครองเลนในสวนสนก นกวจยไดส�ารวจความพงพอใจของผใชบรการแยกเปนเครองเลนแตละชนด ผใชบรการไมตอบขอมลความพงพอใจของเครองเลนบางชนด เนองจากไมไดใชบรการ ขอมลขาดหายแบบสามารถละเลยไดอกประเภทหนง คอ ขอมลทถกตดทง (Censored data) เนองจากสถานการณทไมปกต เชน นกวจยตองการศกษาแนวโนมการใชจายของผบรโภคตอการซอสนคาประเภทเครองใชไฟฟาเปนเวลา 5 ป แตในบางปมเหตการณส�าคญทสงผลใหการใชจายของผบรโภคมรปแบบทไมปกต เชน การเกดเหตการณน�าทวมใหญ ท�าใหรปแบบการซอสนคาผดปกต ขอมลเหลานเปนขอมลทตองถกตดทง ซงท�าใหเปนขอมลขาดหายทไมตองด�าเนนการใด ๆ
l ขอมลขาดหายทไมสามารถละเลยได (Missing data processes that are not ignorable) คอ ขอมลขาดหายทเกดจากกระบวนการทรเหตผล เชน การลงรหสขอมลผดพลาด การไมควบคมการเกบขอมลใหครบถวน หรอขอมลขาดหายเกดจากกระบวนการทไมรเหตผล เชน ผใหขอมลไมยอมใหขอมล หรอใหขอมลไมครบถวน ขอมลขาดหายประเภทนนกวจยตองพจารณาด�าเนนการแกไข ไมสามารถละเลยได
ขนท 2 การระบขอบเขตหรอขนาดของขอมลขาดหาย เปนขนตอนพจารณาขอบเขตและรปแบบของขอมลขาดหาย นกวจยตองวเคราะหขอมลแบบตาราง (Tabulating) คอ รอยละของตวแปรทขาดหายไปในแตละตวอยาง และจ�านวนตวอยางทขาดหายไปในแตละตวแปร หลกอยางงายในการพจารณา คอ หากขอมลขาดหายนอยกวารอยละ 10 สามารถละเลยได แตขอมลขาดหายดงกลาวตองเกด
บทท 1 การดำาเนนการกบขอมลขาดหาย Dealing with Missing Data 1717
บทท 1
ขนแบบสม เชน ไมไดเกดในขอค�าถามใดขอค�าถามหนงเปนพเศษ นอกจากนจะตองมจ�านวนขอมลทสมบรณมากพอส�าหรบการวเคราะหโดยสถตทก�าหนด บางกรณ นกวจยตองการตดตวอยางทมขอมลขาดหายหรอตดตวแปรทมขอมลขาดหาย นกวจยการตลาดควรพจารณาในประเดนส�าคญกอนตดขอมลออก คอ ขอมลทตดออกตองนอยกวารอยละ 15 และเมอตดขอมลออกแลวขอมลทเหลออยตองเพยงพอตอการวเคราะหขอมล
ขนท 3 การวนจฉยการกระจายตวแบบสมของขอมลขาดหาย หมายถงการวเคราะหการกระจายตวแบบสมของขอมลขาดหาย โดยทวไปม 3 รปแบบ ไดแก
l การขาดหายแบบสม (Missing At Random : MAR) หมายถง รปแบบขอมลทขาดหายขนกบโครงสรางของขอมล แตไมไดขนกบขอมลทขาดหายทงหมด หรอขอมลขาดหาย Y จะเกดขนแบบสมในแตละตวแปร X แตหากพจารณาเฉพาะขอมลขาดหาย Y จะพบวาไมเปนแบบสม เชน ตวแปร Y คอน�าหนกตว ตวแปร X คอ เพศ เมอพจารณาขอมลของเพศชาย พบวา เพศชายไมใหขอมลน�าหนกตวมการกระจายตวแบบสม เมอพจารณาขอมลของเพศหญง พบวา เพศหญงไมใหขอมลน�าหนกตวมการกระจายตวแบบสม แตเพศหญงมอตราการไมใหขอมลน�าหนกตวสงกวาเพศชาย
l การขาดหายแบบสมอยางสมบรณ (Missing Completely At Random : MCAR) หมายถง รปแบบของขอมลทขาดหายเปนแบบสม โดยขอมลทขาดหายไมขนกบทงโครงสรางของขอมลและขอมลทขาดหายทงหมด เชน ตวแปร Y คอน�าหนกตว ตวแปร X คอ เพศ เมอพจารณาขอมลของเพศชาย พบวา เพศชายและเพศหญงไมใหขอมลน�าหนกตวมการกระจายตวแบบสมในอตราเดยวกน ดงนนการด�าเนนการกบขอมลขาดหายจงสามารถท�าไดโดยไมตองค�านงถงปจจยดานเพศ
l การขาดหายแบบไมสม (Missing not at Random : NMAR) หมายถง การขาดหายของขอมลขนกบขอมลขาดหายเอง เชน เชน ตวแปร Y คอน�าหนกตว ตวแปร X คอ เพศ เมอพจารณาขอมลขาดหายพบวาผมน�าหนกตวมากมกไมใหขอมลดานน�าหนกตว
ขนท 4 การเลอกวธเตมขอมล นอกจากนกวจยจะเลอกใชขอมลในแบบทมขอมลบางสวนทขาดหาย หรอใชการตดขอมลหรอตวแปรออก (ตามวธในขนท 1 และ 2) ในกรณทพบวาการขาดหายของขอมลเปนการขาดหายแบบสม หรอการขาดหาย
วารสารรมพฤกษ มหาวทยาลยเกรก 18 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 18
บทท 1
อยางสมบรณแบบสม นกวจยการตลาดสามารถพจารณาเตมขอมลทขาดหายดวยวธตาง ๆ เชน การใชคาเฉลยหรอคาฐานนยม (จ�านวนทมความถสงทสด) การใชเทคนคการพยากรณ โดยสรางสมการเพอใชพยากรณคาทขาดหาย
แนวทางการด�าเนนการกบขอมลขาดหายเมอเกดขอมลขาดหาย นกวจยมแนวทางการด�าเนนการกบขอมลขาดหายมได
หลายแนวทางดงน1. การตดทง หมายถง การตดตวอยางทใหขอมลไมครบถวนหรอไมสมบรณ
ออกจากขอมลทงหมด เชน นกวจยเกบขอมลมาไดทงสน 500 ตวอยาง พบวาม 30 ตวอยาง ทใหขอมลไมครบถวนหรอไมสมบรณ นกวจยจงตดตวอยางนนออกจากการวเคราะหขอมล การตดตวอยางทมขอมลขาดหาย นกวจยตองค�านงถงจ�านวนตวอยางทตดออกวา จ�านวนตวอยางทคงเหลอหลงจากตดตวอยางทมขอมลขาดหายมความเพยงพอตอการวเคราะหขอมลหรอไม นอกจากนนนกวจยควรพจารณาสดสวนของตวอยางทถกตดออกเทยบกบตวอยางทใหขอมลครบถวน หากพบวามสดสวนสงมาก เปนการสะทอนถงการออกแบบแบบสอบถามหรอการสรางขอค�าถามไมเหมาะสม หรอมปญหาในการสมตวอยางเพอเกบรวบรวมขอมล
2. การเกบขอมลเพมเตม หมายถง การตดตวอยางทใหขอมลไมครบถวนหรอไมสมบรณออกจากขอมลทงหมด และด�าเนนการเกบขอมลเพมเตมเพอทดแทนจ�านวนตวอยางทถกตดออก นกวจยควรเลอกวธการเกบขอมลเพมเตม ในกรณทจ�านวนตวอยางคงเหลอหลงจากตดตวอยางทมขอมลขาดหายมจ�านวนนอย ไมเพยงพอตอการวเคราะหขอมล อยางไรกด การเกบขอมลเพมเตมท�าใหมคาใชจายเพม และเสยเวลาในการเกบรวบรวมขอมล
3. การเลอกตวอยางเพอการวเคราะหขอมล หมายถง การวเคราะหขอมลโดยเลอกเฉพาะตวอยางทมขอมลทตองวเคราะห เชน การศกษาความพงพอใจของผใชบรการโรงแรม เกบตวอยางจ�านวนทงสน 400 ตวอยาง พบวาม 20 ตวอยาง ทไมตอบค�าถามเรองความพงพอใจในการใชบรการหองอาหาร 40 ตวอยาง ทไมตอบค�าถามเรองความพงพอใจการใชบรการสระวายน�า เมอวเคราะหคาเฉลยความพงพอใจของผใชบรการหองอาหารจะใชจ�านวนตวอยางเพยง 380 ตวอยาง และเมอวเคราะหคาเฉลยความพงพอใจของผใชบรการสระวายน�าจะใชจ�านวนตวอยางเพยง 360 ตวอยาง
บทท 1 การดำาเนนการกบขอมลขาดหาย Dealing with Missing Data 1919
บทท 1
4. การแทนคาขอมลขาดหาย หมายถง การใชเทคนคเพอก�าหนดคาเพอทดแทนขอมลทขาดหาย ใหจ�านวนตวอยางไมลดลง อยางไรกดการก�าหนดคาเพอทดแทนขอมลทขาดหายมหลายเทคนคดวยกน บางเทคนคมความถกตองนอย บางเทคนคมความถกตองสง นอกจากนนแตละเทคนคยงมระดบความยากงายแตกตางกน
เทคนคการด�าเนนการกบขอมลขาดดวยวธแบบดงเดมเทคนคการด�าเนนการกบขอมลขาดหายดวยวธแบบดงเดม เปนวธทไดรบความ
นยมจากนกวจยในอดต เนองจากมความงาย ไมซบซอน มวธตาง ๆ ดงน
Listwise deletion (LD)Listwise deletion (LD) ไดแก การตดขอมลทพบวามขอมลขาดหายออก
เชน การส�ารวจความพงพอใจของโรงแรมแหงหนง ผวจยไดส�ารวจความพงพอใจของผใชบรการในดานตาง ๆ ไดแก หองพก สระวายน�า หองออกก�าลงกาย หองอาหาร และหองบรการธรกจ จากการสมตวอยางจ�านวน 10 ตวอยาง พบวา มผตอบค�าถามความพงพอใจตอหองพกจ�านวน 10 ตวอยาง ความพงพอใจตอสระวายน�าจ�านวน 9 ตวอยาง ความพงพอใจตอหองออกก�าลงกายจ�านวน 8 ตวอยาง ความพงพอใจตอหองอาหารจ�านวน 10 ตวอยาง และความพงพอใจตอหองบรการธรกจจ�านวน 9 ตวอยาง ผวจยเลอกวธด�าเนนการกบขอมลขาดหายโดยใชวธ Listwise deletion จงเลอกวเคราะหขอมลโดยค�านวณคาเฉลยความพงพอใจเฉพาะผใหขอมลครบทกค�าถามเทากบ 6 คน ไดผลดงตารางท 2
ขอดของวธน คอ งาย และสามารถวเคราะหเชงเปรยบเทยบระหวางกลมตวอยางได เนองจากกลมตวอยางทน�ามาวเคราะหตอบค�าถามครบทกขอเหมอน ๆ กน แตวธนมขอเสย คอ อ�านาจในการวเคราะหจะลดลงเนองจากจ�านวนตวอยางถกตดออก กรณทการกระจายตวของขอมลขาดหายเปนแบบการขาดหายแบบสม การตดขอมลออกท�าใหขอมลมความล�าเอยงเนองจากขอมลของกลมตวอยางแตละกลมจะถกตดออกในอตราทไมเทากน
วารสารรมพฤกษ มหาวทยาลยเกรก 20 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 20
บทท 1
ตารางท 2 การด�าเนนการกบขอมลขาดหายโดยใชวธ Listwise deletion
ตวอยางท
คะแนนความพงพอใจของการใชบรการตาง ๆ
ด�าเนนการหองพก สระวายน�า หองออกก�าลงกาย
หองอาหาร
หองบรการธรกจ
1 2 3 2 2 5 -2 3 3 5 3 4 -3 5 5 1 5 ขอมล
ขาดหายตดออก
4 5 5 ขอมลขาดหาย
5 1 -
5 3 4 5 4 4 -6 5 ขอมล
ขาดหาย1 5 2 ตดออก
7 1 2 3 2 5 -8 2 3 5 3 4 -9 5 4 ขอมล
ขาดหาย5 1 ตดออก
10 3 3 4 3 4 -คาเฉลย 2.3 3.0 4.0 2.8 4.3 -
Pairwise deletion (PD)Pairwise deletion (PD) ไดแก การวเคราะหขอมลโดยใชเฉพาะขอมลทม
อย จากตวอยางการส�ารวจความพงพอใจของโรงแรม หากผวจยเลอกด�าเนนการกบขอมลขาดหายโดยใชวธ Pairwise deletion และค�านวณคาเฉลยความพงพอใจของผใชบรการดานตาง ๆ ดงน
การค�านวณคาเฉลยความพงพอใจดานหองพก ไมมการตดตวอยางออกเนองจากไมมขอมลขาดหาย พบวาไดคาเฉลยความพงพอใจเทากบ 3.4 ซงมคะแนนความพงพอใจเฉลยสงกวาการด�าเนนการกบขอมลขาดหายโดยใชวธ Listwise deletion ทมคะแนนความพงพอใจเฉลยเทากบ 2.3 (วธ Listwise deletion มการ
บทท 1 การดำาเนนการกบขอมลขาดหาย Dealing with Missing Data 2121
บทท 1
ตดตวอยางออกจ�านวน 4 ตวอยาง)การค�านวณคาเฉลยความพงพอใจดานสระวายน�า ถกตดตวอยางทมขอมลขาด
หายออกจ�านวน 1 ตวอยาง พบวาไดคาเฉลยความพงพอใจเทากบ 3.6 ซงมคะแนนความพงพอใจเฉลยสงกวาการด�าเนนการกบขอมลขาดหายโดยใชวธ Listwise deletion ทมคะแนนความพงพอใจเฉลยเทากบ 3.0
การค�านวณคาเฉลยความพงพอใจดานหองออกก�าลงกาย ถกตดตวอยางทมขอมลขาดหายออกจ�านวน 2 ตวอยาง พบวาไดคาเฉลยความพงพอใจเทากบ 3.2 ซงมคะแนนความพงพอใจเฉลยต�ากวาการด�าเนนการกบขอมลขาดหายโดยใชวธ Listwise deletion ทมคะแนนความพงพอใจเฉลยเทากบ 4.0
การค�านวณคาเฉลยความพงพอใจดานหองอาหาร ไมมการตดตวอยางออกเนองจากไมมขอมลขาดหาย พบวาไดคาเฉลยความพงพอใจเทากบ 3.7 ซงมคะแนนความพงพอใจเฉลยสงกวาการด�าเนนการกบขอมลขาดหายโดยใชวธ Listwise deletion ทมคะแนนความพงพอใจเฉลยเทากบ 2.8 (วธ Listwise deletion มการตดตวอยางออกจ�านวน 4 ตวอยาง)
การค�านวณคาเฉลยความพงพอใจดานหองธรกจ ถกตดตวอยางทมขอมลขาดหายออกจ�านวน 1 ตวอยาง พบวาไดคาเฉลยความพงพอใจเทากบ 3.3 ซงมคะแนนความพงพอใจเฉลยต�ากวาการด�าเนนการกบขอมลขาดหายโดยใชวธ Listwise deletion ทมคะแนนความพงพอใจเฉลยเทากบ 4.3
จากการเปรยบเทยบการด�าเนนการกบขอมลขาดหายดวยวธ Listwise deletion และวธ Pairwise deletion พบวา สงผลท�าใหไดคาเฉลยทแตกตางกน และอาจท�าใหแปลผลการวจยผดพลาด ดงนนกอนเลอกใชวธการด�าเนนการกบขอมลขาดหลาย นกวจยจงตองพจารณาผลกระทบกบการวเคราะหขอมลอยางรอบคอบ
ส�าหรบขอดของวธ Pairwise deletion คอ การวเคราะหขอมลจะใชขอมลทเกบรวบรวมไดทงหมด แตมขอเสย คอ ไมสามารถวเคราะหเชงเปรยบเทยบ เนองจากกลมตวอยางมจ�านวนไมเทากน และกลมตวอยางใหขอมลทแตกตางกน
วารสารรมพฤกษ มหาวทยาลยเกรก 22 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 22
บทท 1
ตารางท 3 การด�าเนนการกบขอมลขาดหายโดยใชวธ Pairwise deletion
ตวอยางท
คะแนนความพงพอใจของการใชบรการตาง ๆ
ด�าเนนการหองพก สระวายน�า หองออกก�าลงกาย
หองอาหาร
หองบรการธรกจ
1 2 3 2 2 5 -2 3 3 5 3 4 -3 5 5 1 5 ขอมล
ขาดหาย-
4 5 5 ขอมลขาดหาย
5 1 -
5 3 4 5 4 4 -6 5 ขอมล
ขาดหาย1 5 2 -
7 1 2 3 2 5 -8 2 3 5 3 4 -9 5 4 ขอมล
ขาดหาย5 1 -
10 3 3 4 3 4 -คาเฉลย 3.4 3.6 3.2 3.7 3.3
Single imputationSingle imputation ไดแก การแทนคาขอมลขาดหายโดยใชคาเดยว ผวจย
สามารถเลอกคาทใชแทนขอมลขาดหายไดดงนการแทนคาดวยคาเฉลยเลขคณตหรอคาฐานนยม (Mean/Mode substitution)
ไดแก การค�านวณคาเฉลยเลขคณตหรอคาฐานนยมจากขอมลทงหมด และน�าคาดงกลาวมาแทนคาของขอมลขาดหาย ขอดของวธน คอ ท�าใหจ�านวนตวอยางไมลดลง แตมขอเสย คอ ขอมลไมมความหลากหลาย เนองจากขอมลขาดหายถกแทนดวยคาเดยวกนทงหมด และไมเหมาะสมทจะน�าไปวเคราะหหาความสมพนธ เนองจากการแทนคาขอมลขาดหายไมไดค�านงถงความสมพนธระหวางตวแปร
บทท 1 การดำาเนนการกบขอมลขาดหาย Dealing with Missing Data 2323
บทท 1
การแทนคาดวยตวแทน (Dummy variable adjustment) ไดแก การสรางตวแปรทระบขอมลขาดหาย เชน หากมขอมลขาดหายใหแทนคาดวย 1 หากมขอมลครบถวนใหแทนคาดวย 0 เพอใชในการวเคราะหความถดถอยเชงพห (Multiple Regression Analysis) อยางไรกดการแทนคาดวยตวแทน ท�าใหเกดปญหาความล�าเอยงในการหาคาความสมพนธระหวางตวแปร
วธท Single imputation ทนยมใชมากทสด คอ การแทนขอมลขาดหายดวยคาเฉลย จากตวอยางการส�ารวจความพงพอใจของโรงแรม เมอแทนขอมลขาดหายดวยคาเฉลย และค�านวณคาเฉลยความพงพอใจของผใชบรการไดผลแสดงดงตารางท 4
ตารางท 4 การด�าเนนการกบขอมลขาดหายโดยแทนคาขอมลขาดหายโดยใชคาเฉลย
ตวอยางท
คะแนนความพงพอใจของการใชบรการตาง ๆ
ด�าเนนการหองพก สระวายน�า หองออกก�าลงกาย
หองอาหาร
หองบรการธรกจ
1 2 3 2 2 5 -2 3 3 5 3 4 -3 5 5 1 5 3.33 แทนคา4 5 5 3.25 5 1 แทนคา5 3 4 5 4 4 -6 5 3.56 1 5 2 แทนคา7 1 2 3 2 5 -8 2 3 5 3 4 -9 5 4 3.25 5 1 แทนคา10 3 3 4 3 4 -
คาเฉลย 3.4 3.6 4.1 3.7 3.3
เมอพจารณาจากคาเฉลยทค�านวณไดหลงจากการด�าเนนการกบขอมลขาดหายโดยใชเทคนคทแตกตางกน ไดแก Listwise deletion, Pairwise deletion และ Single imputation จะพบวาไดคาเฉลยทแตกตางกนมาก ทงนเนองจากการกระจาย
วารสารรมพฤกษ มหาวทยาลยเกรก 24 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 24
บทท 1
ตวของขอมลขาดหายไมเปนแบบสมอยางสมบรณ ท�าใหการตดตวอยางบางตวอยางออก การตดคาทขาดหายออก หรอการแทนคาดวยคาเฉลย เกดความคลาดเคลอนสง
Regression ImputationRegression Imputation ไดแก การใชเทคนคการวเคราะหความถดถอยเชง
พหเพอพยากรณคาของขอมลขาดหาย และน�าคาทไดจากการพยากรณไปแทนคาขอมลขาดหาย เปนวธทมความซบซอนมากกวาวธทผานมา นกวจยตองพยากรณคาทจะใชแทนขอมลทขาดหายโดยมสมมตฐานวา คาแตละคามความสมพนธกน นนหมายถงการกระจายตวของขอมลขาดหายเปนแบบสม การใชคาทไดจากการพยากรณแทนคาขอมลขาดหายมขอด คอ สามารถใชขอมลทเกบรวบรวมไดทกขอมล แตมขอเสย คอ คาทไดจากการพยากรณไมแมนย�าหากขอมลขาดหายมการกระจายตวแบบสมอยางสมบรณ
ตวอยาง การส�ารวจระดบ IQ และความสามารถในการท�างาน จากการส�ารวจแสดงดงตารางท 5 พบวามขอมลขาดหายจ�านวน 10 ตวอยาง ผวจยเชอวา IQ และความสามารถในการท�างาน มความสมพนธกน จงใชเทคนคการวเคราะหความถดถอยเชงพหเพอสรางสมการพยากรณคาความสามารถในการท�างานเพอใชแทนขอมลทขาดหาย ส�าหรบขอมล IQ 78-96 โดยใชการสรางสมการพยากรณจากขอมลทสมบรณส�าหรบ IQ 78-96
บทท 1 การดำาเนนการกบขอมลขาดหาย Dealing with Missing Data 2525
บทท 1
ตารางท 5 การเกบขอมลจากพนกงาน (ปรบปรงจาก Craig K. Enders, 2010)
ขอมลทสมบรณ ขอมลทขาดหาย
IQ คะแนนความสามารถในการท�างาน ความสามารถในการท�างาน
78 9 ขอมลขาดหาย
84 13 ขอมลขาดหาย
84 10 ขอมลขาดหาย
85 8 ขอมลขาดหาย
87 7 ขอมลขาดหาย
91 7 ขอมลขาดหาย
92 9 ขอมลขาดหาย
94 9 ขอมลขาดหาย
94 11 ขอมลขาดหาย
96 7 ขอมลขาดหาย
96 7 7
105 10 10
105 11 11
106 15 15
108 10 10
112 10 10
113 12 12
115 14 14
118 16 16
134 12 12
วารสารรมพฤกษ มหาวทยาลยเกรก 26 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 26
บทท 1
จากการใชเทคนคการวเคราะหความถดถอยเชงพหสามารถสรางสมการเพอพยากรณคาความสามารถในการท�างานดงน
คะแนนความสามารถในการท�างาน = -2.065 + 0.123 (IQ)การใชสมการพยากรณขางตนค�านวณคะแนนความสามารถในการท�างาน แสดง
ดงแผนภาพท 1 และไดผลลพธดงตารางท 6
แผนภาพท 1 รปแบบการพยากรณคาโดยวธ Regression Imputation(Craig K. Enders, 2010)
บทท 1 การดำาเนนการกบขอมลขาดหาย Dealing with Missing Data 2727
บทท 1
ตารางท 6 การเปรยบเทยบขอมลทเกบไดกบขอมลจากสมการพยากรณ
IQคะแนนความสามารถในการท�างาน
คะแนนทเกบได คะแนนจากสมการพยากรณ78 9 7.5384 13 8.2784 10 8.2785 8 8.3987 7 8.6491 7 9.1392 9 9.2594 9 9.5094 11 9.5096 7 9.74
(ปรบปรงจาก Craig K. Enders, 2010)
เทคนคการด�าเนนการกบขอมลขาดหายโดยใชการค�านวณทซบซอนในอดตนกวจยนยมเลอกการด�าเนนการกบขอมลขาดหายโดยใชวธแบบ
ดงเดม ไดแก Listwise deletion, Pairwise deletion, Single imputation และ Regression Imputation แตเนองจากผลทไดมความถกตองนอย และมความล�าเอยงสง ปจจบนนกวจยจงนยมเลอกใชวธการด�าเนนการกบขอมลขาดหายโดยใชการค�านวณแบบซบซอน ซงสามารถค�านวณไดจากโปรแกรมวเคราะหทางสถต ท�าใหไดผลทมความถกตองสง และมความล�าเอยงต�า ตวอยางการด�าเนนการกบขอมลขาดหายโดยใชการค�านวณทซบซอนจากโปรแกรมวเคราะหสถตมดงน
Maximum likelihood estimation (MLE) Maximum likelihood estimation (MLE) ไดแก การแทนทขอมลทขาด
หายโดยใชคาคาดหวงดวยวธการประมาณคาแบบความนาจะเปนสงสด โดยระบกลมของพารามเตอร (Parameter) ทใหคา log-likelihood สงสด ขอดของวธนคอ
วารสารรมพฤกษ มหาวทยาลยเกรก 28 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 28
บทท 1
การใชขอมลไดครบทกตวอยาง ทงมขอมลขาดหายและไมมขอมลขาดหาย และไมเกดความล�าเอยงหากขอมลขาดหายมการกระจายตวทงแบบการขาดหายแบบสมและมการกระจายตวแบบสมอยางสมบรณ
Expectation-maximization (EM) algorithmExpectation-maximization (EM) algorithm ไดแก การค�านวณโดย
ใชพนฐาน Maximum Likelihood Estimation โดยใชวธประมาณคาพารามเตอร ประกอบดวย 2 ขนตอน ไดแก ขนตอนประมาณคาคาดหวง (Expectation : E step) ไดแก การประมาณคา log-likelihood ของฟงกชนพารามเตอร และขนตอนการใชคาสงสด (Maximization : M step) เปนขนตอนการแทนคาขาดหายดวยคาทไดจากขนตอนประมาณคาคาดหวง และท�าการประมาณคาคาดหวงซ�าเพอเปรยบเทยบจนไดคาทเปลยนแปลงนอยมาก และใชคานนแทนขอมลทขาดหาย ขอดของวธนคอ การใชขอมลไดครบทกตวอยาง ทงมขอมลขาดหายและไมมขอมลขาดหาย และไมเกดความล�าเอยงหากขอมลขาดหายมการกระจายตวทงแบบการขาดหายแบบสมและมการกระจายตวแบบสมอยางสมบรณ
Multiple Imputation (MI)Multiple Imputation (MI) วธนมแนวคดใชการแทนคาขอมลขาดหายโดย
ยอมรบความไมแนนอนของคาทใชแทน ภายใตเงอนไขการกระจายของขอมลขาดหายเปนแบบสม วธนประกอบดวย 3 ขนตอน (แผนภาพท 2) ดงน
ขนตอนท 1 คอ ขนตอนการใชเทคนคการวเคราะหความถดถอยเชงพหเพอพยากรณคา และน�าคาทไดจากการพยากรณไปแทนขอมลทขาดหายไดเปนชดขอมล แตท�าซ�าเพอใหไดชดขอมลหลาย ๆ ชด โดยทวไปจะไดชดขอมล 5-10 ชด
ขนตอนท 2 คอ การวเคราะหขอมลแตละชดแยกกน เพอประมาณคาพารามเตอรจากขอมลแตละชด
ขนตอนท 3 คอ การรวบรวมผลทไดมาสรปคาทจะใชแทนขอมลขาดหายทงหมด ขอดของวธน คอ มความถกตองสงเนองจากใชการค�านวณหลายครงเพอใหไดคา
หลาย ๆ คา และน�าคามาสรปเพอใหไดคาทดทสด และยงค�านงถงความสมพนธของความหลากหลายของกลมตวอยาง แตวธนมขอเสย คอ มความยงยากในการค�านวณ
บทท 1 การดำาเนนการกบขอมลขาดหาย Dealing with Missing Data 2929
บทท 1
Full information maximum-likelihood (FIML)เปนวธการประมาณคาส�าหรบขอมลขาดหายโดยใชแบบจ�าลองสมการเชง
โครงสราง (Structural Equation Modeling) วธนใชการประมาณคาพารามเตอรแทนการค�านวณคาขอมลภายใตสมมตฐานการกระจายตวของขอมลเปนปกต โดยการกระจายตวของขอมลขาดหายเปนแบบสมและแบบสมอยางสมบรณ วธนมขอด คอ เปนการประมาณคาจากความแตกตางของอตราการขาดหายของขอมล ขนาดของกลมตวอยาง และรปแบบการกระจายตว จงไดผลลพธทถกตองและมความยดหยนของขอมล แตมขอเสย คอ การสรางแบบจ�าลองสมการเชงโครงสรางมความยงยาก และการพจารณาปรบสมการเชงโครงสรางอาจท�าใหเกดความคลาดเคลอน อยางไร กดหากการปรบสมการเชงโครงสรางท�าไดอยางถกตอง จะท�าใหไดผลลพธทไมมความล�าเอยงและมความถกตองสง
การรวมคาการวเคราะหการค�านวณคา
ชดขอมล
ทมขอมล
ขาดหาย
ชดขอมล
ทถกแทนคา
การวเคราะห
ชดขอมลแยก
สรปการ
ประมาณคา
แผนภาพท 2 ขนตอนการการประมาณคาโดยวธ Multiple Imputation
วารสารรมพฤกษ มหาวทยาลยเกรก 30 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 30
บทท 1
แนวโนมการเลอกใชเทคนคการด�าเนนการกบขอมลขาดหายYiran Dong and Chao-Ying Joanne Peng (2013) ไดสรปแนวโนมการ
เลอกใชเทคนคเพอด�าเนนการกบขอมลขาดหายของนกวจยระหวาง ค.ศ.1998-2004 พบวา นกวจยเลอกใชวธ LD ลดลงจากรอยละ 80.7 เปนรอยละ 21.7 วธ PD ลดลงจากรอยละ 17.3 เปนรอยละ 6.5 วธ FIML เพมขนจากรอยละ 0 เปนรอยละ 26.1 วธ EM เพมจากรอยละ 1.0 เปนรอยละ 8.7 และวธ MI เพมจากรอยละ 0 เปนรอยละ 6.5 จากแนวโนมดงกลาวจะเหนไดวาในอดตนกวจยเลอกการด�าเนนการกบขอมลขาดหายโดยวธแบบงาย ซงท�าใหไดผลลพธทมความถกตองนอย ตอมาจงเรมใชวธการทซบซอนและไดผลลพธทมความถกตองสงขน
เทคนคการด�าเนนการกบขอมลขาดหายในโปรแกรมวเคราะหสถตภาควชาสถตและขอมลทางวทยาศาสตร มหาวทยาลย Texas at Austin ได
รวบรวมขอมลการด�าเนนการกบขอมลขาดหายจากโปรแกรมวเคราะหสถต พบวา โปรแกรมวเคราะหสถตมรปแบบการด�าเนนการกบขอมลขาดหายทแตกตางกน แสดงดงตารางท 7
ตารางท 7 การด�าเนนการกบขอมลขาดหายในโปรแกรมวเคราะหสถต
ชอโปรแกรม วธ สมมตฐาน ค�าแนะน�า
Amelia MI MAR ใชงานงายถงปานกลาง ไมมคา
ใชจาย
SAS Base แทนคาโดยใช
คาเฉลย
MCAR ใชงานงาย แตแนะน�าส�าหรบม
ขอมลขาดหายไมเกนรอยละ 5
SAS/STAT MI MAR ใชงานยาก
SAS/IML MI MAR ใชงานยาก
Paul Allison’s SAS MI MAR ใชงานยาก
SAS EM EM MAR ใชงานยาก
บทท 1 การดำาเนนการกบขอมลขาดหาย Dealing with Missing Data 3131
บทท 1
ตารางท 7 การด�าเนนการกบขอมลขาดหายในโปรแกรมวเคราะหสถต (ตอ)
ชอโปรแกรม วธ สมมตฐาน ค�าแนะน�า
SPSS Base แทนคาโดยใช
คาเฉลย
MCAR ใชงานงาย แตแนะน�าส�าหรบม
ขอมลขาดหายไมเกนรอยละ 5
SPSS MVA add-in
module
EM MAR ใชงานงาย
AMOS MLE MAR ใชงานงาย
MX MLE MAR ใชงานงาย ไมมคาใชจาย
NORM MI MAR ใชงานคอนขางยาก ไมมคาใชจาย
SOLAS MI MAR และ
MCAR สามารถ
เลอกได
ใชงานคอนขางงาย
(ปรบปรงจาก https://stat.utexas.edu/software-faqs/general)
บทสรปการเกดขอมลขาดหายเปนสงทพบไดเปนปกตในการเกบรวบรวมขอมล ซง
อาจเกดจากกระบวนการวจย เชน การก�าหนดประเดนการวจยทกวางเกนไป การออกแบบแบบสอบถามทใชเวลาตอบมากเกนไป การใชขอค�าถามทไมเหมาะสม การก�าหนดกลมตวอยางทกวางเกนไป กระบวนการเกบรวบรวมขอมลไมเหมาะสม หรอจากความผดพลาดในกระบวนการน�าเขาขอมล ในบางกรณขอมลขาดหายเกดจากผใหขอมลเอง เชน ผใหขอมลไมเตมใจใหขอมล หรอกลมตวอยางไมสามารถใหขอมลตอเนอง ถงแมวาการเกดขอมลขาดหายจะเปนเรองทเกดไดเปนปกต แตหาก นกวจยมความรอบคอบในการออกแบบการวจย สามารถชวยลดจ�านวนขอมลขาดหายได
ในอดตเมอเกดขอมลขาดหายในงานวจย นกวจยบางกลมไมด�าเนนการกบขอมลขาดหาย แตนกวจยบางกลมเลอกใชวธด�าเนนการกบขอมลขาดหายแบบงายโดยใชวธตดขอมลออก เชน วธ Listwise deletion และ Pairwise deletion ซงวธดงกลาว
วารสารรมพฤกษ มหาวทยาลยเกรก 32 ปท 33 ฉบบท 2 พฤษภาคม - สงหาคม 2558 32
บทท 1
มความถกตองนอย ภายหลงนกวจยนยมใชวธด�าเนนการกบขอมลขาดหายทมความถกตองมากขน เชน Full information maximum-likelihood, Expectation-maximization algorithm และ Multiple Imputation
เมอเกดขอมลขาดหายในการวจย นกวจยควรด�าเนนการกบขอมลขาดหาย ไมควรปลอยใหมขอมลขาดหาย หรอไมควรตดขอมลขาดหายทงไป วธการแทนคาขอมลขาดหายมหลายวธดวยกน วธแทนคาดวยคาเฉลยเลขคณตเปนวธทงายแตมความถกตองต�า ดงนนผวจยควรด�าเนนการกบขอมลขาดหายดวยวธทมความถกตองสง เชน Full information maximum-likelihood, Expectation-maximization algorithm และ Multiple Imputation โดยนกวจยสามารถเลอกใชโปรแกรมวเคราะหทเหมาะสม เพอใหไดผลการวจยทถกตอง
เอกสารอางอง
Angela M. Wood, Ian R. White and Simon G. Thompson. “Are Missing Outcome Data Adequately Handled ?.” A Review of Published Randomized Controlled Trials in Major Medical Journals Clinical Trial 1 (2004) : 368-376.Carl McDaniel and Roger Gates. 2013. Marketing Research. Ninth edition. New York : Wiley.Chao-Ying Joanne Peng et al. “Advances in missing data methods and implications for educational research.” In : Sawilowsky SS, editor. Real data analysis. Charlotte, North Carolina : Information Age Pub ; 2006. pp. 31–78.Craig K. Enders. 2010. Applied Missing Data Analysis. New York : Guilford Press.Hair Joseph .F, et al. 2010. Multivariate Data Analysis. Seventh edition. New York : Prentice Hall.Yiran Dong and Chao-Ying Joanne Peng. Principled missing data methods for researchers. http://www.ncbi.nlm.nih.gov/. 8 May 2015.