การสุ มตัวอย างแบบแบ งกลุ ม (cluster...

38
การสุมตัวอยางแบบแบงกลุ(Cluster sampling) อภิรดี แซลิ่ม

Upload: truonghanh

Post on 04-May-2019

225 views

Category:

Documents


0 download

TRANSCRIPT

การสุมตัวอยางแบบแบงกลุม (Cluster sampling)

อภิรด ี แซลิ่ม

เนื้อหาของบทเรียน (1) คําศัพทตาง ๆ ที่เก่ียวของกับการสุมตัวอยาง ประเภทของการสุมตัวอยาง การเลือกวิธีการสุมตัวอยาง การสุมตัวอยางแบบแบงกลุม วิธีการสุมตัวอยางแบบแบงกลุม ขอดีและขอเสีย

เนื้อหาของบทเรียน (2) ประเด็นที่ควรพิจารณา ความนาจะเปนของสัดสวนตามขนาด (PPS) ตัวอยางการสุมตัวอยางแบบแบงกลุม Design effect และ Intraclass correlation ข้ันตอนในการประมาณขนาดตัวอยาง การคํานวณขนาดตัวอยาง

คําศัพทท่ีใชการสุมตัวอยาง (sampling)

วิธีการสุมเลือกสมาชิกจากประชากร และสามารถใชเปนตัวแทนของประชากรท้ังหมดได

หนวยการสุม (Sampling unit) สมาชิกท่ีสุมมาเพื่อเก็บรวบรวมขอมูลท่ีสนใจ เชน

เด็กอายุ < 5 ขวบ เปนตน

คําศัพทท่ีใชเศษสวนการสุม (sampling fraction)

อัตราสวนระหวางขนาดตัวอยาง และขนาดประชากร เชน ขนาดตัวอยาง 100 จาก 2,000 (5%)

กรอบการสุม (Sampling frame) หนวยการสุมทุกหนวยในประชากร เชน บาน

แผนการสุม (Sampling scheme) วิธีการเลือกสุมหนวยการสุมจากกรอบการสุม

ประเภทของการสุมตัวอยาง Non-probability เชน quotas, convenient sample probability

สุมอยางงาย (Simple random sampling) สุมแบบมีระบบ (Systematic sampling) สุมแบบแบงชั้น (Stratified sampling) สุมแบบแบงกลุม (Cluster sampling) สุมแบบหลายขั้นตอน (Multi-stage sampling)

การเลือกวิธีการสุมตัวอยาง ขึ้นอยูกับประชากรที่ศึกษา

ขนาด/ลักษณะทางภูมิประเทศ ความแตกตางกันของประชากร

ระดับความแมนยําที่ตองการ ทรัพยากรที่มีอยู ความแมนยําในการประมาณ sampling error

การสุมตัวอยางแบบแบงกลุม หนวยการสุมประกอบดวยสมาชิกหลายหนวยอยูรวมกัน

เปนกลุม เชน หมูบาน หองเรียน ครัวเรือน ประหยัดคาใชจายในการเดินทาง เวลา และแรงงานกวา

การสุมอยางงาย สมาชิกภายในกลุมเดียวกันอยูใกลกัน เหมาะสําหรับการศึกษาเชิงสํารวจ แตไมเหมาะสําหรับ

การทดสอบสมมุติฐาน

วิธีการสุมตัวอยางแบบแบงกลุม (1)

กําหนดกลุมที่ตองการเก็บขอมูล เชน โรงเรียน, สถานีอนามัย กลุมเหลานี ้คือ cluster

กําหนดรายชื่อกลุมทุกกลุม ซ่ึงก็คือกรอบการสุม ทําการสุมกลุมจากรายชื่อเหลานี ้ เชน

การสุมอยางงาย หรือ การสุมแบบมีระบบ

วิธีการสุมตัวอยางแบบแบงกลุม (2)

สุมเลือกหนวยตัวอยางจากกลุมที่ไดสุมมา ชนิดขั้นตอนเดียว (one-stage cluster sampling) เก็บ

ขอมูลจากสมาชิกทุกหนวยในกลุมท่ีสุมมาได กลุมตัวอยางท่ีสุมมา เรียกวา primary sampling units (PSUs)

ชนิดสองขั้นตอน (two-stage cluster sampling) เชน สุมโรงเรียน จากนั้นสุมหองเรียน แลวจึงสุมเลือกสมาชิกในกลุมท่ีสุมมาได ดวยวิธี สุมอยางงาย หรือแบบมีระบบ

ขอดีและขอเสีย ขอดี

ไมจําเปนตองมีรายละเอียดของสมาชิกทุกหนวย ในประชากร

สะดวก ประหยัดคาใชจายในการเดินทาง ขอเสีย

ถาหากภายในกลุมมีลักษณะคลายคลึงกันมาก ความถูกตองจะต่ํา

วัดความผิดพลาดจากการสุมไดยาก

ประเด็นที่ควรพิจารณา

การสุมเลือกหนวยตัวอยาง จํานวนกลุมตัวอยาง ขนาดกลุมที่ตางกัน

การพิจารณาเลือกหนวยตัวอยาง

ขึ้นกับตัวแปรที่ตองการศึกษา เชน ตองการศึกษาอัตราการไดรับวัคซีน BCG ในเด็กอาย ุ12 - 23 เดือน

ถาหากจํานวนสมาชิกทั้งหมดที่มีในกลุมไมมาก ก็จะทําการสุมเลือกทั้งหมด

การพิจารณาจํานวนกลุมที่จะเลือก

ควรเลือกกลุมใหมากที่สุดเทาที่ทรัพยากรมีเพียงพอ จํานวนกลุมนอย ความแมนยําจะลดลง

ความชุกของโรค 30 - 70% ควรมีกลุม 30 กลุม และสมาชิกในแตละกลุม คือ 7

โดยทั่วไปจํานวนหนวยตัวอยางที่เหมาะสมตอกลุม คือ 10 - 20

การพิจารณาขนาดกลุมที่ตางกัน

กลุมที่มีขนาดตางกัน เชน โรงเรียนแตละแหงมีจํานวนนักเรียนตางกัน หรือจํานวนประชากรแตกตางกันในแตละพื้นที่ ใชวิธี probability-propotional to size (PPS) มักใช

กับการสุมแบบแบงกลุมชนิดหลายขั้นตอน (multi-stage cluster sampling)

Probability proportional to size(1) ขนาดของประชากรแตกตางกันมาก เชน

หมูบาน จํานวนประชากร ความนาจะเปนถูกเลือกก 5,000 1/5,000ข 20,000 1/20,000ค 30,000 1/30,000

Probability proportional to size(2) กลุมที่มีขนาดใหญมีโอกาสถูกเลือกมากกวากลุมที่

มีขนาดเล็ก เพื่อใหสมาชิกในประชากรมีโอกาสถูกสุมเทา ๆ กัน

เพื่อหลีกเลี่ยงความความเคลื่อนมาตรฐาน (standard error) และอคต ิ(bias)

หลีกเลี่ยงการใชวิธีถวงน้ําหนัก

Probability proportional to size(3) วิธีการการสุมแบบ PPS คือ

สรางรายชื่อกลุมท่ีมีอยูท้ังหมด พรอมท้ังคํานวณความถี่สะสมของขนาดประชากร

สุมตัวอยางแบบมีระบบจากตัวเลขสุมเริ่มตน เลือกหนวยสมาชิกภายในกลุม

ตัวอยาง EPI Cluster sampling (1) เพื่อประเมินความครอบคลุมของการฉีดวัคซีน

ไมมีรายชื่อของประชากร

มีจํานวนรวมของประชากรในระดับหมูบาน

สุมเลือกจํานวน 30 cluster

สุมเด็กจํานวน 7 คนตอ cluster = 210 คน

EPI = Expanded Program on Immunizations

ตัวอยาง EPI Cluster sampling (2)

หมูบาน ประชากรทั้งหมด ประชากรเด็ก 12 - 23 เดือน ความถ่ีสะสม1 3,000 90 902 2,000 70 1603 10,000 300 4604 4,500 140 6005 15,000 400 1,0006 6,500 200 1,2007 5,000 150 1,3508 10,000 320 1,6709 5,000 170 1,84010 3,500 110 1,950

ตัวอยาง EPI Cluster sampling (3) คํานวณ sampling fraction

k = 1,950/30 = 65 สุมเลือกตัวเลขระหวาง 1 - 65 สมมุติสุมได 40 จากนั้นบวก 40 ดวย 65 ไปเรื่อย ๆ จนครบ 30

cluster คือ 105, 170, 235, …, 1,925

ตัวอยาง EPI Cluster sampling (4)

หมูบาน ชวงความถ่ีสะสม กลุม จํานวนเด็ก1 1 - 90 1 72 91 - 160 1 73 161 - 460 5 354 461 - 600 2 145 601 - 1,000 6 426 1,000 - 1,200 3 217 1,200 - 1,350 3 218 1,350 - 1,670 5 359 1,670 - 1,840 2 1410 1,840 - 1,950 2 14รวม 1,950 30 210

ตัวอยาง EPI Cluster sampling (5) ลงพื้นที่จุดกึ่งกลางหมูบาน เลือกทิศทางอยางสุม นับจํานวนบานทั้งหมดที่มีในกลุม สุมเลือกหมายเลขบานเริ่มตน เลือกบานถัดไปที่อยูใกลเคียงที่สุด สุมเด็กจนครบจํานวน 7 คน

สรุปขั้นตอนการสุมตัวอยางแบบแบงกลุม

กําหนดวัตถุประสงค กําหนดทรัพยาการทีม่ีอยู เชน งบประมาณ คน รถ กําหนดประชากรที่จะศึกษา กําหนดตัวแปรที่จะศึกษา กําหนดความแมนยําที่ตองการ สรางแบบสอบถาม สราง sampling frame

สรุปขั้นตอนการสุมตัวอยางแบบแบงกลุม

เลือกตัวอยาง เก็บขอมูลนํารอง เก็บขอมูล วิเคราะหขอมูล ผลการศึกษา การนําผลการศึกษาไปใช

Design effect (1) คือ อัตราสวนระหวางคาความแปรปรวนท่ีคํานวณจาก

การสุมแบบแบงกลุมตอความแปรปรวนท่ีคํานวณจากการสุมอยางงาย จากขนาดตัวอยางท่ีเทากัน

ในกรณี rare outecome จะมี design effect นอยกวา 1.5

Design effect (2)

ถาตัวอยางมีขนาดใหญ

เมื่อ

VarCLUSTER = คาความแปรปรวนที่ไดจากการสุมแบงกลุม

VarSRS = คาความแปรปรวนที่ไดจากการสุมอยางงาย

m = จํานวนสมาชิกในแตละ clusterICC = intraclass correlation

SRS

CLUSTVarVardeff

))(1(1 ICCmdeff

)1()( 2

kk

ppVar iCLUST

nppVarSRS)1(

เมื่อp = สัดสวนทั้งหมดpi = สัดสวนในแตละกลุมn = จํานวนสมาชิกทั้งหมดk = จํานวนกลุม

Intraclass correlation

22

2

bw

bICC

เปนการวัดความเหมือนกันภายใน cluster

เมื่อ= คาความแปรปรวนระหวางกลุม= คาความแปรปรวนภายในกลุม

คา ICC ที่เหมาะสม อยูระหวาง 0.01 - 0.05

2b2w

ขั้นตอนการประมาณขนาดตัวอยาง

กําหนดตัวแปรหลักที่ทําการศึกษา กําหนดวิธีการประมาณ (สัดสวน, คาเฉลี่ย

เปนตน) กําหนดคาความถี่คาดหวังของปจจัยที่สนใจ กําหนดคาความแมนยําที่ตองการสําหรับใชใน

ประมาณ

ขั้นตอนการประมาณขนาดตัวอยาง

กําหนดชวงความเชื่อม่ัน (95%) ปรับคาของการประมาณกับ design effect

การคํานวณขนาดตัวอยาง (1)

Z = คา z-score กําหนดท่ีระดับนัยสําคัญ 0.05= สวนเบ่ียงเบนมาตรฐาน

d = คาความแมนยําdeff = design effect

2

22

dZdeffn

การคํานวณจากคาเฉลี่ย

การคํานวณขนาดตัวอยาง (2)

Z = คา z-score กําหนดท่ีระดับนัยสําคัญ 0.05p = คาสัดสวนq = 1-pd = คาความแมนยําdeff = design effect

2

2

dpqZdeffn

การคํานวณจากคาสัดสวน

การคํานวณขนาดตัวอยาง (3) การศึกษาโรคไวรัสตับอักเสบซี มีวัตถุประสงคเพื่อ

ศึกษาลักษณะของสายพันธไวรัส สมมุติประชากรมีความชุกของการติดเชื้อไวรัส 10% ผูวิจัยตองการคํานวณหาขนาดตัวอยาง กําหนดระดับนัยสําคัญ 95% ความแมนยําท่ี 5% และ deff = 2n = 2 x (1.962 x 0.1x 0.9)/(0.05)2

n = 277

คํานวณขนาดตัวอยางดวยโปรแกรม Epi Info 6 จากเมน ูPorgrams -> EPITABLE

คํานวณขนาดตัวอยางดวยโปรแกรม Epi Info 6 จากเมน ูPorgrams -> EPITABLE

แบบฝกหัด อัตราการตายคาดหวังดวยบาดทะยักในเด็กแรกเกิด

(NT) ในประชากรเทากับ 20 ตอพันการเกิดมีชีพ นักวิจัยวางแผนจะทําการสํารวจอัตราการตายดังกลาว ตองการคํานวณหาขนาดตัวอยาง ท่ีระดับความเชื่อม่ัน 95% ความแมนยําท่ียอมรับได คือ 50% ของอัตราการตายดังกลาว คา design effect จากการศึกษากอนหนานี้ เทากับ 2

เฉลยp = 20/1000 = 0.02

อัตราการตายท่ียอมรับไดคือ 20 + 10 คือ 10 และ 30 ตอการเกิดมีชีพพันคน

d = 10/1000 = 0.01แทนคาในสูตร

n = 2 x (1.962 x 0.02*0.98)/(0.01)2

n = 1,505