4. ky thuat chon mau

49
KỸ THUẬT CHỌN MẪU GS. TS. LÊ HOÀNG NINH ThS. LÊ NỮ THANH UYÊN ??? 1

Upload: trung-huynh

Post on 24-Oct-2015

65 views

Category:

Documents


3 download

DESCRIPTION

ttt

TRANSCRIPT

Page 1: 4. Ky Thuat Chon Mau

KỸ THUẬT CHỌN MẪU

GS. TS. LÊ HOÀNG NINH ThS. LÊ NỮ THANH UYÊN

???

1

Page 2: 4. Ky Thuat Chon Mau

MỤC TIÊU HỌC TẬP

Phân biệt các phương pháp lấy mẫu phổ biến

Trình bày ưu khuyết điểm của từng phương pháp

Liệt kê các sai lệch và biện pháp khắc phục sai lệch chọn lựa trong chọn mẫu

2

Page 3: 4. Ky Thuat Chon Mau

Phân tích dữ kiện

Thu thập dữ kiện

Chọn mẫu

Chọn dân số

SƠ ĐỒ NGHIÊN CỨU

3

Page 4: 4. Ky Thuat Chon Mau

Khái niệm chọn mẫu (sample sampling)

Là quá trình chọn một số lượng nhỏ những đơn vị nghiên cứu từ một quần thể (dân số) nghiên cứu xác định.

CÁC KHÁI NIỆM

Câu hỏi:

1. Mẫu NC được rút ra trên nhóm người nào?

2. Cần bao nhiêu người trong mẫu NC?

3. Những người này được chọn như thế nào?

4

Page 5: 4. Ky Thuat Chon Mau

Kỹ thuật chọn mẫu là cách rút chọn 1 đối tượng/đơn vị nghiên cứu trong dân số vào mẫu.

Nguyên tắc thống kê đòi hỏi một mẫu có giá trị khi mẫu đó có kích thước đủ lớn (đủ cỡ mẫu) và mẫu đại diện cho dân số.

CÁC KHÁI NIỆM

Tính đại diện: 1. Trực giác (Huyện Ninh Hải đại điện cho khí hậu “gió

như phan, nắng như rang” của cả tỉnh Ninh Thuận (Phan Rang – Tháp Chàm)

2. Chọn mẫu xác suất (tốt nhất)

5

Page 6: 4. Ky Thuat Chon Mau

CÁC KHÁI NIỆM

Dân số (population): tập hợp các đối tượng có chung đặc điểm mà chúng ta muốn áp dụng kết quả nghiên cứu

Mẫu (sample): tập hợp những đối tượng được khảo sát có hệ thống nhằm ước lượng đặc trưng của dân số đích

6

Mẫu

Dân số mục tiêu

Dân số chọn mẫu

Page 7: 4. Ky Thuat Chon Mau

Thống kê Tham số

Mẫu Quần thể

7

Kỹ thuật chọn mẫu

Suy diễn

Dân số, mẫu nghiên cứu và suy diễn thống kê

Page 8: 4. Ky Thuat Chon Mau

Các thành phần:

• Đơn vị nghiên cứu (study unit): đơn vị cơ bản, nhỏ nhất cung cấp những giá trị của biến số

• Khung mẫu (sampling frame): tập hợp của những đơn vị nghiên cứu hợp lệ trong dân số.

1. Nghiên cứu về tỷ lệ cao huyết áp của người dân trên 40 tuổi trong năm 2013 của tỉnh Bình Dương.

2. Nghiên cứu về tỷ lệ hộ gia đình sử dụng nước máy tại tỉnh Tây Ninh, năm 2013.

CÁC KHÁI NIỆM (tt)

8

Page 9: 4. Ky Thuat Chon Mau

Đối tượng với một số đặc tính cụ thể

Đo lường

Kết quả Giá Trị Bên Ngoài (Khả năng khái quát hóa)

Giá Trị Bên Trong

Mẫu

Chọn lọc

Mẫu

?

??

Tất cả đối tượng được quan tâm

kiểm soát sai số

9

Page 10: 4. Ky Thuat Chon Mau

10

Không xác suất Phân bổ quota (Quota)

Quả bóng tuyết (Snowball)

Mẫu ngẫu nhiên đơn (simple random sampling)

Mẫu ngẫu nhiên phân tầng (stratified random sampling)

Mẫu ngẫu nhiên hệ thống (systematic random sampling)

CÁC PHƯƠNG PHÁP CHỌN MẪU PHỔ BIẾN

Xác suất

Thuận tiện (convenience)

Có chủ đích (purposes)

Mẫu cụm (cluster sampling)

Lấy mẫu nhiều bậc (Multistage sampling)

Có thể phối hợp nhiều phương pháp trên

Mẫu cụm (cluster sampling) PPS

Page 11: 4. Ky Thuat Chon Mau

Là phương pháp phổ biến nhất trong nghiên cứu định tính

Chọn tập hợp những người tham gia dựa theo những tiêu chí có tính đại diện liên quan tới 1 câu hỏi nghiên cứu

Cỡ mẫu có thể ấn định hoặc không ấn đinh trước khi thu thập thông tin vì cỡ mẫu phụ thuộc vào:

• Nguồn cung cấp thông tin

• Hạn định về thời gian

• Mục tiêu nghiên cứu.

CHỌN MẪU CÓ CHỦ ĐÍCH

11

Page 12: 4. Ky Thuat Chon Mau

• Là phương pháp lấy mẫu dựa trên sự thuận lợi hay dựa trên tính dễ tiếp cận của đối tượng.

VD:

- Khảo sát mẫu trên một vài bệnh viện có quen biết

- Tình cờ gặp hay chặn bất cứ người nào mà gặp.. để xin thực hiện cuộc phỏng vấn

CHỌN MẪU THUẬN TIỆN

12

Page 13: 4. Ky Thuat Chon Mau

PHÂN BỔ QUOTA

Là sự phân bổ số đơn vị cần điều tra cho từng đơn vị được chia hoàn toàn theo kinh nghiệm chủ quan của người nghiên cứu

VD: Nghiên cứu về tỷ lệ tăng huyết áp trên 400 người từ 40 tuổi trở lên tại 1 thành phố A, tiến hành như sau:

- Phân đơn vị theo giới tính và tuổi:

200 người (100 nam và 100 nữ) từ 40 – 60 tuổi,

200 người (100 nam và 100 nữ) từ 60 tuổi trở lên.

- Điều tra viên có thể chọn những người gần nhà hay thuận lợi cho việc điều tra để dễ nhanh chóng hoàn thành công việc.

13

Page 14: 4. Ky Thuat Chon Mau

QUẢ BÓNG TUYẾT (SNOWBALL)

Là phương pháp chọn một nhóm người trả lời thứ

nhất được chọn theo phương pháp chọn mẫu ngẫu

nhiên, nhưng những người trả lời sau là do nhóm

thứ nhất giới thiệu

VD: Nghiên cứu khảo sát KAP về HIV/AIDS của gái

mại dâm đường phố tại TP. HCM, năm 2012

14

Page 15: 4. Ky Thuat Chon Mau

Các pp chọn mẫu xác suất phổ biến

1. Mẫu ngẫu nhiên đơn (simple random sampling)

2. Mẫu ngẫu nhiên hệ thống (systematic random

sampling)

3. Mẫu ngẫu nhiên phân tầng (stratified random

sampling)

4. Mẫu cụm (cluster sampling)

5. Lấy mẫu nhiều bậc (Multistage sampling)

Có thể phối hợp nhiều phương pháp trên

15

Page 16: 4. Ky Thuat Chon Mau

MẪU NGẪU NHIÊN ĐƠN (SRS)

NGẪU NHIÊN ĐƠN (simple random sampling): phương pháp lấy mẫu mà mọi đơn vị lấy mẫu đều được chọn vào mẫu nghiên cứu với xác suất bằng nhau và độc lập với việc chọn đơn vị lấy mẫu khác.

VD: Rút thăm, lô tô, bảng số ngẫu nhiên, tờ tiền, vé số…

16

Page 17: 4. Ky Thuat Chon Mau

17

Page 18: 4. Ky Thuat Chon Mau

Bảng số ngẫu nhiên

34735 78219 18131 92594 94235 11721

35621 57344 02606 21961 07539 71006

78629 40478 63628 13640 82315 41919

08462 33570 21715 90409 33199 71764

24014 71381 58732 29417 32050 89880

37124 23597 73007 26705 94330 45206

92775 68533 86784 28870 61590 99165

26426 54602 71259 56747 36957 82629

21487 46012 10948 49446 32178 50727

17745 94929 23861 66784 15825 39009

Chọn 384 đối tượng trong khung mẫu? Tìm bảng số ngẫu nhiên trong sách xác suất thống kê

18

Page 19: 4. Ky Thuat Chon Mau

Tạo bảng số ngẫu nhiên bằng phần mềm

1. Epi info 6

2. Stata 12: tsample số_đầu số_cuối số_lượng

Nghiên cứu chọn ngẫu nhiên 20 người có ID từ 1 đến 400

tsample 1 400 20

19

Page 20: 4. Ky Thuat Chon Mau

ƯU ĐIỂM:

Đơn giản, chọn đơn vị NC thông qua 1 giai đoạn

Có đủ cơ sở tính xác suất (biết rõ xác xuất)

KHUYẾT ĐIỂM:

Cần khung mẫu chính xác kém khả thi

Mẫu được chọn có thể phân tán khó thu thập

Có cơ hội bỏ sót vài nhóm trong dân số (cơ hội)

ƯU – KHUYẾT ĐIỂM: NGẪU NHIÊN ĐƠN

20

Page 21: 4. Ky Thuat Chon Mau

Lấy mẫu hệ thống là phương pháp lấy mẫu chọn ngẫu nhiên một nhóm gồm nhiều đơn vị lấy mẫu cách nhau một khoảng cách mẫu.

Gồm các bước

Tính khoảng cách mẫu k = N/n

N: dân số chọn mẫu (trong khung mẫu)

n: cỡ mẫu

Chọn ngẫu nhiên một số r, 1 r k

Chọn một nhóm gồm các đơn vị lấy mẫu r, r+k, r+2k,…

MẪU NGẪU NHIÊN HỆ THỐNG (Systematic Sampling)

21

Page 22: 4. Ky Thuat Chon Mau

Chọn 5 đối tượng từ một dân số 15 đối tượng.

- Tính khoảng cách mẫu: k = 15/5 = 3

- Chọn ngẫu nhiên một số r: 1 r 3

- Ví dụ r = 2

- Những đối tượng được chọn vào mẫu nghiên cứu sẽ lần lượt có số thứ tự trong khung mẫu: 2, 2+3 = 5, 2 + 2(3) = 8, 2+3(3) = 11, 2 + 4(3) = 14

VÍ DỤ: NGẪU NHIÊN HỆ THỐNG

22

Page 23: 4. Ky Thuat Chon Mau

HÌNH MINH HỌA

23

Page 24: 4. Ky Thuat Chon Mau

24

Page 25: 4. Ky Thuat Chon Mau

ƯU ĐIỂM:

Thay ngẫu nhiên đơn khi không có khung mẫu chính xác

Có tính đại diện hơn ngẫu nhiên đơn

KHUYẾT ĐIỂM:

Khung mẫu được thiết lập có tính chu kỳ = k mẫu có thể bị sai lệch

Ví dụ: Khoa cấp cứu: 1 tuần 7 ngày, theo chu kỳ cứ cách 7 ngày: thứ 3 hàng tuần (vắng bệnh nhân so với thứ 7, CN) không đại diện

ƯU – KHUYẾT ĐIỂM: Ngẫu nhiên hệ thống

25

Page 26: 4. Ky Thuat Chon Mau

MẪU NGẪU NHIÊN PHÂN TẦNG

CHỌN MẪU NGẪU NHIÊN PHÂN TẦNG (stratified random sampling):

Đối tượng chia thành nhiều lớp

Mỗi lớp có những đặc trưng đồng nhất

Có thể thực hiện lấy mẫu ngẫu nhiên từ mỗi lớp

Sử dụng khi:

Các tầng có khác nhau về biến số quan tâm (nhóm tuổi, giới, vùng sinh thái…)

Sự khác biệt là ở mục tiêu của nghiên cứu

Dân số chung: nhiều dân số nhỏ có cùng một đặc trưng nào đó (1 dân số nhỏ: 1 tầng).

26

Page 27: 4. Ky Thuat Chon Mau

VD: MẪU NGẪU NHIÊN PHÂN TẦNG

Dân số : 100 học viên, chọn 1 mẫu 30 học viên từ 5 khoa: nội, ngoại, sản, nhi, YHDP.

Cách 1:

Cách 2: 5 khoa chọn 30, trung bình 1 khoa 30/5 = 6 hv

27

Khoa Số HV Cách tính Số HV chọn

Nội 30 (30:100) x 30 9

Ngoại 30 (30:100) x 30 9

Sản 20 (20:100) x 30 6

Nhi 10 (10: 100) x 30 3

YHDP 10 (10: 100) x 30 3

Page 28: 4. Ky Thuat Chon Mau

28

“Hispanic hay Latino” là một

người gốc Cuba, Mexico, Puerto Rico, Nam hoặc Trung Mỹ, hay một người mang văn hóa hoặc nguồn gốc Tây Ban Nha bất kể chủng tộc

Page 29: 4. Ky Thuat Chon Mau

ƯU ĐIỂM:

Số thống kê từ mẫu phân tầng có độ chính xác cao hơn kết quả tương ứng từ mẫu ngẫu nhiên đơn

Có thể biết được hình ảnh của từng tầng

Về mặt quản lý, mẫu phân tầng dễ hơn ngẫu nhiên đơn

KHUYẾT ĐIỂM:

Cần thiết lập khung mẫu chi tiết của từng tầng.

ƯU – KHUYẾT ĐIỂM: Ngẫu nhiên phân tầng

29

Page 30: 4. Ky Thuat Chon Mau

CHỌN MẪU CỤM CHỌN MẪU CỤM(Cluster sampling): phương pháp chọn

ngẫu nhiên nhiều cụm (được gọi là đơn vị lấy mẫu bậc 1 – PSU: primary sampling units). Nếu qua 2 giai đoạn: cụm lấy mẫu bậc 2 (SSU: secondary sampling units) Lấy mẫu qua

nhiều giai đoạn.

Dân số nghiên cứu Mẫu cụm bậc 1 Mẫu cụm bậc 2 30

Page 31: 4. Ky Thuat Chon Mau

CHỌN MẪU CỤM (PPS)

- Một kỹ thuật chọn mẫu cụm thường dùng là chọn cụm xác suất tỉ lệ theo cỡ (PPS: probability proportionate to size)

- Cụm nào có dân số lớn sẽ có nhiều cơ hội hơn để được chọn

- Số đơn vị liệt kê chọn ra trong từng cụm là bằng nhau

31

Page 32: 4. Ky Thuat Chon Mau

32

Page 33: 4. Ky Thuat Chon Mau

ƯU ĐIỂM:

Chỉ cần khung mẫu chi tiết cho bước kế chót tiết kiệm thời gian, công sức

Trong cộng đồng, mẫu cụm có tính kinh tế và khả thi cao.

KHUYẾT ĐIỂM:

Với cùng một cỡ mẫu, những số thống kê tính được từ mẫu cụm kém chính xác so với những số tương ứng từ mẫu ngẫu nhiên đơn.

Khắc phục: cỡ mẫu lớn hơn -> n*design effect

ƯU – KHUYẾT ĐIỂM: chọn mẫu cụm

33

Page 34: 4. Ky Thuat Chon Mau

CHỌN MẪU NHIỀU BẬC (Multistage sampling)

Ví dụ:

Khảo sát TCMR trong học sinh 1 tỉnh, gồm các bước:

- B1: chọn m huyện trong tổng M huyện của tỉnh

- B2: chọn n xã trong tổng N xã của 1 huyện

- B3: chọn p trường học trong tổng P trường học 1 xã

- B4: chọn q lớp học trong số Q lớp của 1 trường học

- B5: Khảo sát tất cả học sinh trong lớp đã chọn.

Đơn vị nghiên cứu: học sinh

Đơn vị liệt kê: lớp học

Đơn vị chọn mẫu bậc 1,2,3 lần lượt: huyện, xã, trường học.

Khung mẫu: tất cả học sinh trong tỉnh

Là sự kết hợp nhiều phương pháp lấy mẫu

34

Page 35: 4. Ky Thuat Chon Mau

Sai lệch trong chọn mẫu

- Sai lệch (BIAS): sai lầm hệ thống (Systemic Error)

- Sai lệch có khuynh hướng tạo ra những giá trị cao hay thấp hơn giá trị thật (có thể tăng hoặc giảm ước lượng của kết quả)

- Có 2 loại sai lệch: sai lệch chọn lựa và sai lệch thông tin.

- Sai lệch chọn lựa: nghiêm trọng nhất (lỗi người nghiên cứu khó khắc phục) phụ thuộc: dân số,

kỹ thuật, và tiêu chí chọn mẫu

35

Page 36: 4. Ky Thuat Chon Mau

- Khi xác suất chọn mẫu là không giống nhau trên từng đối tượng

- Chọn đối tượng NC bị ảnh hưởng bởi yếu tố phơi nhiễm (Bệnh chứng) hay bệnh (Đoàn hệ hồi cứu)

Xác suất chọn không đều

NC Bệnh chứng: người NC biết trước MLQ: hút thuốc lá – K phổi tăng ước lượng của MLQ

NC đoàn hệ hồi cứu: vào thời điểm chọn mẫu cả phơi nhiễm – bệnh đều xảy ra.

Sai lệch chọn lựa

36

Page 37: 4. Ky Thuat Chon Mau

MẤT MẪU

Đối tượng từ chối tham gia NC

Mất mẫu trong quá trình theo dõi

37

Lớn sai lệch

Ví dụ: khảo sát tỷ lệ SDD trẻ em < 5 tuổi và thực

hành nuôi con của các bà mẹ: bà mẹ vắng nhà

nhiều lần?

Page 38: 4. Ky Thuat Chon Mau

Mẫu NC < dân số tính đại diện tiêu chí chọn mẫu:

Tiêu chí đưa vào: thể hiện những đặc tính (who, where, when) mà căn cứ vào đó đối tượng được chọn vào NC.

Tiêu chí loại ra: thuộc tính không phù hợp đưa vào mẫu.

Lưu ý: TC loại ra không phải phần phụ của TC đưa vào

TIÊU CHÍ CHỌN MẪU

38

Page 39: 4. Ky Thuat Chon Mau

Các sai lệch khác:

Nghiên cứu người tình nguyện

Lấy mẫu những bệnh nhân đăng kí

Sai lệch do mùa (SXH)

Đạo đức:

Trung thực trong báo cáo khoa học nếu lấy mẫu không đại diện

Sai lệch chọn lựa trong chọn mẫu

39

Page 40: 4. Ky Thuat Chon Mau

Lọai sai số Biện pháp hạn chế sai số

Sai số lựa chọn •Chọn khung mẫu phù hợp, cỡ mẫu cho từng tầng trong nhóm NC. •Tập huấn kỹ thuật chọn mẫu cho GSV. •Áp dụng chọn ngẫu nhiên và liệt kê sẵn danh sách, tiêu chuẩn chọn vào nhóm NC….

Sai số do không đáp ứng, do bỏ cuộc

•Thông tin/thuyết phục sử dụng người có uy tín, có hình thức động viên; •Danh sách thay thế đã chọn cùng cách với danh sách chính thức •Theo dõi từng BN, thường xuyên thăm viếng kiểm tra sự tuân thủ điều trị, tìm nguyên nhân bỏ cuộc, động viên tham gia

Biện pháp khắc phục sai lệch chọn mẫu

40

Page 41: 4. Ky Thuat Chon Mau

Kết luận

Việc chọn lựa một kỹ thuật lấy mẫu phụ thuộc vào nhiều yếu tố bao gồm: mục tiêu nghiên cứu, thiết kế nghiên cứu và các nguồn lực sẵn có

Chi phí và lợi ích của từng phương pháp cần được cân nhắc kỹ lưỡng

Trên thực tế, các nhà điều tra thường phối hợp 2 hay nhiều chiến lược với nhau

41

Page 42: 4. Ky Thuat Chon Mau

BÀI TẬP KHẢO SÁT HỘ GIA ĐÌNH

Bộ câu hỏi Chỉ tiêu/ 1 học viên

Đối tượng hỏi Ghi chú

BCH phỏng vấn hộ gia đình của WHO

Khoảng 100 hộ gia đình

Chủ hộ hay thành viên trong hộ từ 18 tuổi trở lên

Ủy quyền trả lời thay: Cha mẹ: trả lời thay trẻ em dưới 15 tuổi. Người chăm sóc trực tiếp: trả lời thay người đang trong tình trạng sức khỏe không cho phép trả lời: câm, điếc, bệnh nặng…

BCH phỏng vấn cá nhân về tình hình sức khỏe của WHO

n = 1.5 x 384 = 576 600 người

Hỏi tất cả thành viên từ trẻ đến già

BCH Healthy Days

Khoảng 100 hộ GĐ (mỗi HGĐ trung bình khoảng 2 người ≥ 18 tuổi <==> 200 người)

Những người từ 18 tuổi trở lên trong HGĐ

42

Page 43: 4. Ky Thuat Chon Mau

CÁCH CHỌN MẪU PPS/1 học viên

43

HUYỆN PHÚ GIÁO – BÌNH DƯƠNG

Page 44: 4. Ky Thuat Chon Mau

CÁCH CHỌN MẪU PPS

44

Bước 1. Tính khoảng cách mẫu (Sampling Interval (SI))

= Tổng dân số tích lũy/tổng số cụm khảo sát

SI = 82.956/30 = 2765,2 ~ 2765

Bước 2. Chọn số ngẫu nhiên (Random Start (RS)): tsample 1 2765 1

+-----------+ | No | ID | |----+------| | 1 | 1000 | +-----------+

Ví dụ: chọn RS = 1000

Page 45: 4. Ky Thuat Chon Mau

CÁCH CHỌN MẪU PPS

45

Bước 3. Các dãy số được chọn:

Cụm 1. RS = 1000 (tổ 4, ấp 1, Xã Tân Long)

Cụm 2. RS + SI = 1000 + 2765 (tổ 4, ấp 3, Xã TL)

Cụm 3. RS + 2SI = 1000 + 2 x 2765 = 6530

Cụm 4. RS + 3SI = 1000 + 3 x 2765 = 9295

Cụm 5. RS + 4SI = 1000 + 4 x 2765 = 12060

Tương tự chọn ra 30 cụm.

Page 46: 4. Ky Thuat Chon Mau

Các dãy số của các cụm còn lại

46

Cụm 6. 14825 Cụm 18. 48005

Cụm 7. 17590 Cụm 19. 50770

Cụm 8. 20355 Cụm 20. 53535

Cụm 9. 23120 Cụm 21. 56300

Cụm 10. 25885 Cụm 22. 59065

Cụm 11. 28650 Cụm 23. 61830

Cụm 12. 31415 Cụm 24. 64595

Cụm 13. 34180 Cụm 25. 67360

Cụm 14. 36945 Cụm 26. 70125

Cụm 15. 39710 Cụm 27. 72890

Cụm 16. 42475 Cụm 28. 75655

Cụm 17. 45240 Cụm 29. 78420

Cụm 30. 81185

Page 47: 4. Ky Thuat Chon Mau

CÁCH CHỌN MẪU PPS

47

Cụm 1. RS = 1000 (tổ 4, ấp 1, Xã Tân Long) Cụm 2. RS + SI = 1000 + 2765 = 3765 (tổ 4, ấp 3, Xã TL)

1000

3765

Page 48: 4. Ky Thuat Chon Mau

1. BCH hộ gia đình WHO: PV chủ hộ (hay người đại diện ≥18 tuổi).

2. BCH cá nhân WHO: PV hết, từ già trẻ trong HGĐ.

Đối với trẻ em < 15 tuổi: ủy quyền cha mẹ trả lời

Đối với người có vấn đề SK không trả lời được PV: Ủy quyền người chăm sóc trực tiếp trả lời

Người từ 15 tuổi trở lên: PV trực tiếp. Đến 3 lần không gặp (loại khỏi KS)

3. BCH healthy days: PV thành viên trong hộ ≥ 18 tuổi 48

BÀI TẬP KHẢO SÁT HỘ GIA ĐÌNH

Số người trong 1 cụm = 576/30 = 19.2 ~ 20 người

Page 49: 4. Ky Thuat Chon Mau

49

DESIGNING AND CONDUCTING HEALTH SURVEYS (A Comprehensive Guide) - Lu Ann Aday , Llewellyn J. Cornelius (Foreword by Steven B. Cohen). Published by Jossey-Bass. A Wiley Imprint, 3rd edition, 2006.

TÀI LIỆU THAM KHẢO