so tay ytcc phien ban 1
TRANSCRIPT
Sổ tay Y tế Công cộng
cho thành viên Ytecongcong.COM
phiên bản 1: Thống kê với Stata
Nguyễn Văn Kính
BỘ MÔN DỊCH TỄ HỌC – ĐẠI HỌC Y DƯỢC TP.HCM
Trung tâm phát triển Y tế Công cộng PHD
Biên soạn từ tài liệu công khai của Đại học California, LA. USA
Không sử dụng cho mục đích thương mại
Tháng 07 năm 2010
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
1
Lời nói đầu
Tài liệu này được biên soạn với sự may mắn được tiếp xúc và làm việc với rất nhiều các nghiên cứu tại
Bộ môn Dịch tễ học – ĐHYD TP.HCM của tác giả. Thêm vào đó là nhu cầu và đề nghị từ một lần họp
mặt cùng các bạn sinh viên YTCC Huế, YTCC Cần Thơ. Đây cũng là nhu cầu của các bạn YTCC HCM
sau khi ra trường cho biết mình có nguy cơ…quên hết về dịch tễ học và thống kê y học.
Tài liệu này sẽ được viết thành nhiều giai đoạn, mỗi giai đoạn sẽ được bổ sung thêm nội dung liên
quan đến dịch tễ học và thống kê y học. Tác giả hi vọng trong phiên bản 2 sẽ có nhiều tác giả khác
gửi bài viết của mình về các chủ đề này để gom góp thành một cuốn sách cập nhật định kỳ.
Phiên bản đầu tiên này cung cấp một số kiểm định thống kê sử dụng Stata. Mỗi kiểm định sẽ có một
mô tả ngắn về phép kiểm, sau đó sẽ là lệnh Stata và kết quả cùng với diễn giải ngắn về kết quả. Để
có một phép kiểm đúng cho mình bạn cần xác định bản chất biến số của bạn là định lượng, định
tính, thứ tự, nhị giá và có phân phối bình thường hay không. Phiên bản 1 này chỉ bao gồm một số
phép kiểm thường gặp nhất.
Tuy nhiên cần chú ý rằng với sự đa dạng của dữ kiện trong nhiều chuyên ngành cũng như sự cập
nhật liên tục các lí thuyết về thống kê, bạn được khuyên là nên tham khảo ý kiến của một chuyên gia
trước khi quyết định sử dụng một phép kiểm trong nghiên cứu của mình.
Vì phiên bản này được xuất bản online nên và hoàn toàn không có mục đích thương mại nên người
đọc sẽ tự chịu trách nhiệm cho việc sử dụng tài liệu của mình.
Nguyễn Văn Kính
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
2
Hướng dẫn sử dụng: .................................................................................................................................. 3
Về bộ dữ kiện ytcc ...................................................................................................................................... 5
Kiểm định t một mẫu ................................................................................................................................. 6
Kiểm định trung vị một mẫu ......................................................................................................................... 6
Kiểm định Binomial ....................................................................................................................................... 7
Chi-square goodness of fit ............................................................................................................................ 7
Kiểm định t 2 mẫu độc lập ............................................................................................................................ 8
Kiểm định Wilcoxon-Mann-Whitney ............................................................................................................ 8
Kiểm định Chi bình phương .......................................................................................................................... 9
Kiểm định chính xác Fisher's ......................................................................................................................... 9
Phân tích phương sai một chiều ................................................................................................................. 10
Kiểm định Kruskal Wallis ............................................................................................................................. 12
Kiểm định t bắt cặp ..................................................................................................................................... 12
Kiểm định tổng sắp hạng có dấu ................................................................................................................. 13
Kiểm định McNemar ................................................................................................................................... 14
Kiểm định Friedman .................................................................................................................................... 14
Tương quan ................................................................................................................................................. 15
Hồi qui tuyến tính đơn biến ........................................................................................................................ 15
Kiểm định tương quan phi tham số Spearman ........................................................................................... 16
Hồi qui logistic đơn biến ............................................................................................................................. 16
Hồi qui đa biến ............................................................................................................................................ 17
Hồi qui logistic đa biến ................................................................................................................................ 17
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
3
Hướng dẫn sử dụng:
Font: lệnh để gõ vào ô nhập lệnh (command) của Stata
Font: Kết quả tính toán của Stata
Các thuật ngữ sử dụng trong ài liệu
Ytcc: Bộ dữ kiện mẫu tên ytcc lưu tại trang Ytecongcong.COM
Mẫu: Dân số nghiên cứu
Biến số định lượng (Interval variables) là những biến số xác định số lượng, bao gồm
- Biến số định lượng liên tục: như chiều cao, cân nặng…
- Biến số định lượng không liên tục như số con, số bạn tình …
Biến số định tính (Categorical variables) là những biến số xác định tính chất của đối tượng nghiên
cứu, bao gồm
- Biến số nhị giá (Dichotomous variables) có hai giá trị như sống-chết, bệnh–không bệnh,
phơi nhiễm-không phơi nhiễm,…
- Biến số thứ tự (Ordinal variables) có nhiều hơn 2 giá trị và có thể xếp hạng được như trình
độ học vấn, mức thu thập,…,
- Biến số danh định (Categorical variables) có nhiều hơn 2 giá trị nhưng không thể xếp
hạng theo thứ tự được như dân tộc, tôn giáo,…
Biến số tiên đoán (Predictor) là biến số góp phần dự đoán trong một mô hình tiên đoán (biến số độc
lập).
Giả thuyết bất dị (Ho) (Null Hypothesis) là giả thuyết đặt ra để kiểm định, giả thuyết này là bất dị
(không khác biệt) vì giả thuyết này là một phương trình, theo đó 2 vế bằng nhau. Ví dụ so sánh xem
nam và nữ ai có chỉ số IQ cao hơn thì Ho sẽ là IQnam=IQnữ.
Giá trị p (p-value) là xác suất bác bỏ Ho khi Ho đúng (còn gọi là xác suất sai lầm loại 1). Nghĩa là với
cỡ mẫu và tính toán như vậy thì có bao nhiêu phần trăm ta sẽ mắc sai lầm là sẽ bác bỏ giả thuyết Ho
khi Ho là đúng. Ví dụ trong trường hợp so sánh nam và nữ về chỉ số IQ nếu kết quả p-value=0.1 thì
có nghĩa là nếu thực tế IQnam=IQnữ thì có đến 10% ta sẽ bác bỏ và nói rằng IQnam và IQnữ khác
nhau. Do đó ta thấy nếu xác suất này càng nhỏ thì khả năng ta bác bỏ là đúng càng cao.
Tùy trường hợp mà người ta sẽ chọn mức p-value để bác bỏ giả thuyết Ho, tuy nhiên trong y khoa,
nhất là y tế công cộng thì thông thường chọn mức nhỏ hơn 5% tức là p-value<0,05, có những xét
nghiệm hoặc thử nghiệm đòi hỏi cao hơn thì cần p-value<0,0001. Lúc này ta sẽ sử dụng cụm từ là sự
khác biệt có ý nghĩa thống kê.
Giả định: điều kiện giả định trong kiểm định là điều kiện cần để tiến hành kiểm định.
Tỉ số số chênh (OR: Odd Ratios) là một số đo trong dịch tễ học cho thấy độ lớn sự khác biệt. Tìm đọc
các sách về Dịch tễ học cơ bản của PGS.TS. Nguyễn Đỗ Nguyên – Trưởng BM. Dịch tễ học – ĐHYD
TP.HCM.
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
4
Các lưu ý thêm
Các mối liên quan được lấy làm ví dụ có thể không có ý nghĩa về mặt sinh học, nhưng ở đây chúng ta
chỉ chú trọng đến mặt thống kê và làm thế nào để tính toán và diễn giải nó.
Người biên soạn sách này “giả định” rằng bạn đã có đọc và học về sinh thống kê cơ bản và dịch tễ
học cơ bản.
Mong đợi gì ở bản biên tập thứ 2: bổ sung các khái niệm về dịch tễ học, các khái niệm cơ bản, các
phân tích sâu hơn (One-way repeated measures ANOVA, Repeated measures logistic regression,
Factorial ANOVA, Factorial logistic regression, Analysis of covariance, Discriminant analysis,
Multivariate multiple regression, Canonical correlation, Factor analysis, bootstrap analysis), bạn đọc có
thể hiểu…phi tham số khi không cần giả định phía trên (bạn có thể hiểu khái niệm vui “hiểu phi tham
số” khi đọc hết tài liệu này).
Góp ý xin gửi về [email protected]
Hoặc Trung tâm phát triển Y tế Công cộng PHD
Phòng Dự án, Khoa Y tế Công cộng, 159 Hưng Phú, P.8, Q.8, tP.HCM
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
5
Về bộ dữ kiện ytcc
Hầu hết các ví dụ trong sách này sẽ sử dụng một bộ dữ kiện tên ytcc được lưu trữ trên trang chủ
Ytecongcong.COM thuộc Trung tâm Phát triển Y tế Công cộng PHD. Bộ dữ kiện này được sao chép
và chỉnh sửa gồm có 200 quan sát từ một mẫu các học sinh trung học với các đặc điểm dân số như
giới tính (biến số gioitinh), đặc điểm kinh tế xã hội (biến số ktxh) dân tộc (biến số chungtoc). Dữ kiện
cũng có điểm của các bài kiểm tra chuẩn của học sinh gồm điểm bài đọc (biến số doc), điểm bài viết
(biến số viet) và điểm toán học (biến số toan), điểm khoa học (khoahoc) và điểm nghiên cứu xã hội
(biến số khxh). Trước khi đọc tiếp, bạn hãy mở Stata và lấy bộ dữ kiện về máy sử dụng bằng cách gõ
lệnh sau:
use http://www.ytecongcong.com/ytcc
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
6
Kiểm định t một mẫu
Kiểm định này cho phép ta kiểm xem liệu trung bình của mẫu (của một biến số định lượng phân phối
bình thường) khác biệt có ý nghĩa thống kê so với một giá trị giả thuyết hay không. Ví dụ, giả sử ta
muốn kiểm định có sự khác biệt có ý nghĩa thống kê giữa điểm trung bình môn viết (biến số viet) và
50 hay không. Ta có thể làm (gõ lệnh) như sau
ttest viet=50 One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
viet | 200 52.775 .6702372 9.478586 51.45332 54.09668
------------------------------------------------------------------------------
mean = mean(viet) t = 4.1403
Ho: mean = 50 degrees of freedom = 199
Ha: mean < 50 Ha: mean != 50 Ha: mean > 50
Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 0.0000
Điểm trung bình bài viết của học sinh trong mẫu nghiên cứu này là 52.775, có sự khác biệt có ý nghĩa
thống kê với giá trị kiểm định là 50 (có thể là điểm trung bình của trường khác,..v.v.). Ta sẽ kết luận
rằng nhóm học sinh này có điểm trung bình phần viết cao hơn có ý nghĩa thống kê so với giá trị 50.
Kiểm định trung vị một mẫu
Phép kiểm này cho ta biết liệu trung vị của mẫu có khác biệt có có ý nghĩa thống kê so với một giá trị
giả thiết hay không. Ta sẽ vẫn sử dụng biến số viet như trên, nhưng trong trường hợp này ta không
cần giả định là biến số điểm có phân phối bình thường (ta chỉ cần giả định điểm viết là có thứ tự). Ta
sẽ kiểm định xem liệu trung vị của điểm viết (viet) khác biệt có ý nghĩa thống kê với 50 hay không.
signrank viet=50 Wilcoxon signed-rank test
sign | obs sum ranks expected
-------------+---------------------------------
positive | 126 13429 10048.5
negative | 72 6668 10048.5
zero | 2 3 3
-------------+---------------------------------
all | 200 20100 20100
unadjusted variance 671675.00
adjustment for ties -1760.25
adjustment for zeros -1.25
----------
adjusted variance 669913.50
Ho: viet = 50
z = 4.130
Prob > |z| = 0.0000
Kết quả cho thấy trung vị của điểm viết trong nhóm học sinh này có sự khác biệt có ý nghĩa thống kê
so với 50.
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
7
Kiểm định nhị thức
Kiểm định nhị thức một mẫu kiểm định xem tỉ lệ một giá trị của một biến số định tính (được mã hóa
là 1) có khác biệt có ý nghĩa thống kê so với một giá trị giả thiết hay không. Chẳng hạn ta muốn xem
tỷ lệ nam trong mẫu nghiên cứu (biến số giới tính) có khác biệt có ý nghĩa thống kê với giá trị giả
thiết là 50% hay không. Ta có thể làm như sau.
bitest gioitinh=.5
Variable | N Observed k Expected k Assumed p Observed p
-------------+------------------------------------------------------------
gioitinh | 200 109 100 0.50000 0.54500
Pr(k >= 109) = 0.114623 (one-sided test)
Pr(k <= 109) = 0.910518 (one-sided test)
Pr(k <= 91 or k >= 109) = 0.229247 (two-sided test)
Kết quả cho thấy không có sự khác biệt có ý nghĩa thống kê (p = .2292). Nói cách khác, tỷ lệ nam
trong mẫu không có sự khác biệt có ý nghĩa thống kê với giá trị giả thiết là 50%.
Kiểm định Chi bình phương mức độ phù hợp
Kiểm định Chi bình phương mức độ phù hợp (chi-square goodness of fit) cho phép ta kiểm định xem
tỉ lệ quan sát được của một biến số định tính có khác biệt có ý nghĩa thống kê so với với một tỉ lệ giả
thiết hay không. Giả sử, trong các điều tra chung về chủng tộc ta tin rằng tỉ lệ dân số chung sẽ bao
gồm 10% người Nùng, 10% người Tày, 10% người Hoa và 70% là người Kinh. Ta muốn kiểm định
xem tỷ lệ quan sát được trong mẫu nghiên cứu có khác biệt có ý nghĩa thống kê so với những tỉ lệ giả
thuyết hay không. Để tiến hành kiểm định này ta cần tải lệnh csgof bằng cách gõ findit csgof và chọn
cài đặt gói lệnh này.
Khi đã cài xong gói lệnh csgof, ta có thể gõ:
csgof chungtoc, expperc(10 10 10 70)
+----------------------------------------+
| chungtoc expperc expfreq obsfreq |
|----------------------------------------|
| Nung 10 20 24 |
| Tay 10 20 11 |
| Hoa 10 20 20 |
| Kinh 70 140 145 |
+----------------------------------------+
chisq(3) is 5.03, p = .1697
Kết quả cho thấy kết cấu dân số trong mẫu nghiên cứu không khác biệt có ý nghĩa thống kê so với
giá trị giả thuyết mà chúng cung cấp (Độ tự do = 3, Chi bình phương = 5.03, p = .1697).
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
8
Kiểm định t 2 mẫu độc lập
Được sử dụng khi ta muốn so sánh trung bình của một biến số phụ thuộc có phân phối bình thường
của 2 nhóm độc lập. Giả sử ta muốn xem có sự khác biệt giữa điểm bài viết ở nam và nữ hay không.
ttest viet, by(gioitinh)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
nu | 91 50.12088 1.080274 10.30516 47.97473 52.26703
nam | 109 54.99083 .7790686 8.133715 53.44658 56.53507
---------+--------------------------------------------------------------------
combined | 200 52.775 .6702372 9.478586 51.45332 54.09668
---------+--------------------------------------------------------------------
diff | -4.869947 1.304191 -7.441835 -2.298059
------------------------------------------------------------------------------
diff = mean(nu) - mean(nam) t = -3.7341
Ho: diff = 0 degrees of freedom = 198
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.0001 Pr(|T| > |t|) = 0.0002 Pr(T > t) = 0.9999
Kết quả cho thấy có sự khác biệt có ý nghĩa thống kê về trung bình điểm viết ở nam và ở nữ (t = -
3.7341, p = .0002). Nói cách khác, nữ có điểm viết trung bình cao hơn có ý nghĩa thống kê so với
nam (54.99 so với 50.12).
Kiểm định Wilcoxon-Mann-Whitney
Kiểm định Wilcoxon-Mann-Whitney là kiểm định tương tự với kiểm định t 2 mẫu độc lập nhưng được
sử dụng khi ta không giả định rằng biến số phụ thuộc là biến số định lượng có phân phối bình
thường (ta chỉ giả định rằng biến số này ít nhất là có thứ tự). Cấu trúc lệnh của Stata cho kiểm định
Wilcoxon-Mann-Whitney giống hệt kiểm định t 2 mẫu độc lập. Ta sẽ kiểm định lại kết quả đã làm ở
trên nhưng lần này ta không giả định là biến số phụ thuộc viet có phân phối bình thường.
ranksum viet, by(gioitinh)
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
gioitinh | obs rank sum expected
-------------+---------------------------------
nu | 91 7792 9145.5
nam | 109 12308 10954.5
-------------+---------------------------------
combined | 200 20100 20100
unadjusted variance 166143.25
adjustment for ties -852.96
----------
adjusted variance 165290.29
Ho: viet(gioitinh==nu) = viet(gioitinh==nam)
z = -3.329
Prob > |z| = 0.0009
Kết quả cho thấy có sự khác biệt có ý nghĩa thống kê giữa nam và nữ về sự phân phối điểm bài viết
(z = -3.329, p = 0.0009). Ta có thể xác định nhóm nào có hạng cao hơn bằng cách so giá trị thật của
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
9
tổng hạng (cột ranksum) với vọng trị của tổng hạng (giá trị mong đợi của tổng hạng khi
giả thuyết bất dị xảy ra). Tổng hạng của nữ cao hơn trong khi tổng hạng của nam lại thấp
hơn do đó nữ có hạng cao hơn nam.
Kiểm định Chi bình phương
Kiểm định này dùng khi ta muốn xem có mối liên quan giữa hai biến số định tính hay không. Giả sử
ta muốn biết có mối liên quan giữa loại hình trường theo học (loaitruong) và giới tính học sinh
(gioitinh). Nên nhớ rằng kiểm định Chi bình phương giả định rằng vọng trị của mỗi ô là ≥5. Giả định
này được đáp ứng trong ví dụ sau. Tuy nhiên, có thể không xảy ra với các bộ dữ liệu khác, xem thêm
trong phần kiểm định chính xác Fisher's.
tabulate loaitruong gioitinh, chi2
Loai hinh | Gioi tinh
truong | nu nam | Total
------------+----------------------+----------
Truong cong | 77 91 | 168
Truong tu | 14 18 | 32
------------+----------------------+----------
Total | 91 109 | 200
Pearson chi2(1) = 0.0470 Pr = 0.828
Kết quả cho thấy không có sự khác biệt có ý nghĩa thống kê giữa các loại hình trường theo học và
giới tính (Độ tự do = 1, Chi bình phương = 0.0470, p = 0.828).
Hãy xem một ví dụ khác về xét mối liên quan giữa giới tính (gioitinh) và tình trạng kinh tế xã hội
(ktxh). Trong ví dụ này, một (hoặc cả hai) biến số có thể có hơn 2 nhóm, và các biến số không nhất
thiết phải có cùng số nhóm. Biến số gioitinh có 2 nhóm (nam và nữ) và biến số ktxh có 3 nhóm
(thấp, trung và cao).
tabulate gioitinh ktxh, chi2
| Kinh te xa hoi
Gioi tinh | Thap Trung Cao | Total
-----------+---------------------------------+----------
nu | 15 47 29 | 91
nam | 32 48 29 | 109
-----------+---------------------------------+----------
Total | 47 95 58 | 200
Pearson chi2(2) = 4.5765 Pr = 0.101
Một lần nữa ta thấy không có mối liên quan có ý nghĩa thống kê giữa các biến số (Độ tự do = 2, Chi
bình phương = 4.5765, p = 0.101).
Kiểm định chính xác Fisher's
Kiểm định chính xác Fisher's sử dụng khi muốn tiến hành một kiểm định Chi bình phương nhưng có
trên 1 ô có vọng trị nhỏ hơn 5. Nên nhớ rằng kiểm định Chi bình phương giả định mỗi ô có vọng trị
lớn ≥ 5 nhưng kiểm định chính xác Fisher's không có giả định này và có thể sử dụng bất kể với vọng
trị nhỏ đến mức nào. Trong ví dụ dưới đây ta có các ô với tần số quan sát được chỉ là trên 2 hoặc 1
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
10
đối tượng, các ô này có thể có vọng trị nhỏ hơn 5 do vậy ta sử dụng kiểm định chính xác
Fisher's với tùy chọn exact trong lệnh tabulate.
tabulate loaitruong chungtoc, exact
Loai hinh | Chung toc
truong | Nung Tay Hoa Kinh | Total
------------+--------------------------------------------+----------
Truong cong | 22 10 18 118 | 168
Truong tu | 2 1 2 27 | 32
------------+--------------------------------------------+----------
Total | 24 11 20 145 | 200
Fisher's exact = 0.597
Kết quả cho thấy không có mối liên quan có ý nghĩa thống kê giữa chủng tộc và loại hình trường (p
= 0.597). Lưu ý rằng kiểm định chính xác Fisher's không thực hiện một “kiểm định thống kê" nào mà
tính toán trực tiếp p-value.
Phân tích phương sai một chiều
Sử dụng kiểm định này khi ta có một biến số độc lập định tính (từ 2 nhóm trở lên) và một biến số
phụ thuộc định lượng phân phối bình thường. Ta đang muốn xem có sự khác biệt của trung bình của
biến số phụ thuộc theo từng phân nhóm của biến số độc lập. Chẳng hạn ta muốn xem có sự khác
biệt giữa điểm trung bình bài viết (viet) giữa 3 chương trình học (chuongtrinh) hay không. Ta sẽ làm
như sau.
anova viet chuongtrinh
Number of obs = 200 R-squared = 0.1776
Root MSE = 8.63918 Adj R-squared = 0.1693
Source | Partial SS df MS F Prob > F
------------+----------------------------------------------------
Model | 3175.69786 2 1587.84893 21.27 0.0000
chuongtrinh | 3175.69786 2 1587.84893 21.27 0.0000
Residual | 14703.1771 197 74.635417
------------+----------------------------------------------------
Total | 17878.875 199 89.843593
Trung bình của điểm số bài viết khác biệt có ý nghĩa thống kê giữa các chương trình học. Tuy nhiên
ta không biết sự khác biệt là chỉ giữa 2 chương trình hay là cả 3 chương trình. Để xem điểm trung
bình bài viết (viet) theo mỗi loại chương trình học, ta có thể sử dụng lệnh tabulate với tùy chọn
summarize như sau.
tabulate chuongtrinh, summarize(viet)
Chuong | Summary of Diem bai viet
trinh hoc | Mean Std. Dev. Freq.
------------+------------------------------------
Tong quat | 51.333333 9.3977754 45
Hoc thuat | 56.257143 7.9433433 105
Chuyen ng | 46.76 9.3187544 50
------------+------------------------------------
Total | 52.775 9.478586 200
Từ kết quả trên ta có thể thấy rằng học sinh trong chương trình học thuật có điểm trung bình cao
nhất trong khi học sinh trong chương trình chuyên ngành là thấp nhất.
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
11
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
12
Kiểm định Kruskal Wallis
Kiểm định Kruskal Wallis sử dụng khi có một biến số độc lập có từ 2 nhóm trở lên và một biến số phụ
thuộc là biến số thứ tự. Nói cách khác, đây là dạng kiểm định phân tích phương sai phi tham số và là
dạng khái quát của kiểm định Mann-Whitney vì nó cho phép so sánh 2 hoặc nhiều nhóm. Trong ví
dụ này ta sử dụng cùng mục tiêu như phần phân tích phương sai một chiều ở trên nhưng lần này ta
sẽ không giả định là biến số viet là biến số định lượng phân phối bình thường.
kwallis viet, by(chuongtrinh)
Kruskal-Wallis equality-of-populations rank test
+-------------------------------+
| chuongtrinh | Obs | Rank Sum |
|--------------+-----+----------|
| Tong quat | 45 | 4079.00 |
| Hoc thuat | 105 | 12764.00 |
| Chuyen nganh | 50 | 3257.00 |
+-------------------------------+
chi-squared = 33.870 with 2 d.f.
probability = 0.0001
chi-squared with ties = 34.045 with 2 d.f.
probability = 0.0001
Nếu có một số bài viết bị xếp hạng ràng buộc (tied rank: theo đó những đối tượng có số điểm bằng
nhau sẽ được tính hạng bằng tổng số hạng của các đối tượng có cùng điểm chia cho số đối tượng
có cùng điểm, ví dụ có 3 đối tượng có cùng điểm có số hạng được sắp là 5, 6 và 7 thì số hạng ràng
buộc sẽ bằng (5+6+7)/3 = 6.0) thì một nhân tố hiệu chỉnh sẽ được sử dụng và cho ra một giá trị Chi
bình phương hơi khác. Ví dụ trên cho thấy là dù có hay không có ràng buộc trong xếp hạng, kết quả
cho thấy điểm trung bình bài viết có sự khác biệt có ý nghĩa thống kê giữa 3 chương trình học.
Kiểm định t bắt cặp
Kiểm định t bắt cặp (mẫu) được sử dụng khi ta có 2 quan sát có liên quan với nhau (như quan sát
một đặc điểm 2 lần trên cùng đối tượng) và ta muốn xem các trung bình của những biến số định
lượng phân phối bình thường này có khác nhau hay không. Ví dụ ta muốn xem trung bình bài viết có
bằng trung bình bài đọc hay không, ta làm như sau.
ttest doc = viet
Paired t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
doc | 200 52.23 .7249921 10.25294 50.80035 53.65965
viet | 200 52.775 .6702372 9.478586 51.45332 54.09668
---------+--------------------------------------------------------------------
diff | 200 -.545 .6283822 8.886666 -1.784142 .6941424
------------------------------------------------------------------------------
mean(diff) = mean(doc - viet) t = -0.8673
Ho: mean(diff) = 0 degrees of freedom = 199
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Pr(T < t) = 0.1934 Pr(|T| > |t|) = 0.3868 Pr(T > t) = 0.8066
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
13
Kết quả cho thấy không có sự khác biệt có ý nghĩa thống kê giữa điểm bài viết (viet) và
điểm bài đọc (doc) (t = -0.8673, p = 0.3868).
Kiểm định tổng sắp hạng có dấu
Đây là dạng phép kiểm phi tham số của kiểm định t mẫu bắt cặp. Kiểm định này sử dụng khi ta
không giả định rằng sự khác biệt giữa 2 biến số là định lượng và phân phối bình thường (nhưng ta có
giả định là sự khác biệt là có thứ tự). Ta sử dụng cùng ví dụ như trên nhưng ta không giả định sự
khác biệt giữa điểm bài đọc (doc) và bài viết (viet) có phân phối bình thường.
signrank doc = viet
Wilcoxon signed-rank test
sign | obs sum ranks expected
-------------+---------------------------------
positive | 88 9264 9990
negative | 97 10716 9990
zero | 15 120 120
-------------+---------------------------------
all | 200 20100 20100
unadjusted variance 671675.00
adjustment for ties -715.25
adjustment for zeros -310.00
----------
adjusted variance 670649.75
Ho: doc = viet
z = -0.887
Prob > |z| = 0.3753
Kết quả cho thấy không có sự khác biệt có ý nghĩa thống kê giữa điểm bài đọc (doc) và điểm bài viết
(viet).
Nếu dựa vào kinh nghiệm bạn tin rằng sự khác biệt giữa điểm bài đọc (doc) và điểm bài viết (viet) là
không có thứ tự mà chỉ có thể phân loại đơn giản là dương tính hoặc âm tính mà thôi thì lúc này bạn
có thể xem xét kiểm định có dấu (sign test) thay vì kiểm định có dấu xếp hạng (sign rank test). Ta vẫn
sử dụng cùng biến số trong ví dụ trên nhưng không giả định là sự khác biệt này là có thứ tự.
signtest doc = viet
Sign test
sign | observed expected
-------------+------------------------
positive | 88 92.5
negative | 97 92.5
zero | 15 15
-------------+------------------------
all | 200 200
One-sided tests:
Ho: median of doc - viet = 0 vs.
Ha: median of doc - viet > 0
Pr(#positive >= 88) =
Binomial(n = 185, x >= 88, p = 0.5) = 0.7688
Ho: median of doc - viet = 0 vs.
Ha: median of doc - viet < 0
Pr(#negative >= 97) =
Binomial(n = 185, x >= 97, p = 0.5) = 0.2783
Two-sided test:
Ho: median of doc - viet = 0 vs.
Ha: median of doc - viet ~= 0
Pr(#positive >= 97 or #negative >= 97) =
min(1, 2*Binomial(n = 185, x >= 97, p = 0.5)) = 0.5565
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
14
Kết quả cho thấy kết quả của kiểm định một bên cũng như kiểm định 2 bên. Giả sử ta đang
tìm kiếm xem có bất cứ sự khác biệt nào hay không thì ta sẽ dùng kết quả kiểm định 2 bên
và kết luận không có sự khác biệt có ý nghĩa thống kê nào được tìm thấy (p=.5565).
Kiểm định McNemar
Kiểm định McNemar's được sử dụng trong trường hợp bạn quan tâm tần số biên của 2 biến số kết
cuộc nhị giá. Những kết cuộc này có thể là cùng một kết cuộc trên các cặp bắt cặp (như trong
nghiên cứu bệnh-chứng) hoặc 2 biến số kết cuộc của một nhóm. Ví dụ, giả sử ta có 2 câu hỏi, câu 1
và câu 2, được dùng để kiểm tra 200 học sinh. Cho rằng có 172 học sinh trả lời đúng cả hai câu, 15
học sinh trả lời sai cả hai câu, 7 học sinh trả lời đúng câu 1 và sai câu 2, 6 học sinh trả lời đúng câu 2
và sai câu 1. Ta lập một bảng 2x2 với dữ kiện trên và xem xét giả thuyết bất dị là tỷ lệ trả lời đúng và
sai ở 2 câu hỏi là như nhau (hay bảng phân phối ngẫu nhiên ta có là có tính đối xứng). Ta có thể tính
toán trực tiếp trong Stata sử dụng lệnh mcci. Các biến số kết cuộc được dán nhãn theo qui tắc của
một nghiên cứu bệnh-chứng.
mcci 172 6 7 15
| Controls |
Cases | Exposed Unexposed | Total
-----------------+------------------------+------------
Exposed | 172 6 | 178
Unexposed | 7 15 | 22
-----------------+------------------------+------------
Total | 179 21 | 200
McNemar's chi2(1) = 0.08 Prob > chi2 = 0.7815
Exact McNemar significance probability = 1.0000
Proportion with factor
Cases .89
Controls .895 [95% Conf. Interval]
--------- --------------------
difference -.005 -.045327 .035327
ratio .9944134 .9558139 1.034572
rel. diff. -.047619 -.39205 .2968119
odds ratio .8571429 .2379799 2.978588 (exact)
Thống kê Chi bình phương McNemar's cho thấy không có sự khác biệt có ý nghĩa thống kê về tỷ lệ
trả lời đúng/sai với 2 câu hỏi này.
Kiểm định Friedman
Kiểm định này được sử dụng khi có một biến số độc lập có từ 2 nhóm trở lên thu thập trên cùng một
đối tượng và một biến số phụ thuộc không có phân phối bình thường (nhưng ít nhất có thứ tự). Ta sẽ
sử dụng kiểm định Friedman để xác định xem có sự khác biệt giữa điểm bài viết (viet), bài đọc (doc)
và điểm toán (toan) hay không. Giả thuyết bất dị trong kiểm định này là phân phối thứ hạng của mỗi
loại điểm là như nhau. Để tiến hành kiểm định ta cần tải thêm kiểm định này bằng cách gõ findit
friedman và chọn cài đặt. Thêm vào đó, ta cần hoán vị để xếp các đối tượng quan sát xuống thành
các cột và các biến số thành các hàng bằng lệnh xpose.
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
15
use http://www.ytecongcong.com/ytcc
keep doc viet toan
xpose, clear
friedman v1-v200
Friedman = 0.6175
Kendall = 0.0015
P-value = 0.7344
Giá trị Chi bình phương Friedman's là 0.6175 và p-value là 0.7344 cho thấy không có sự khác biệt có
ý nghĩa thống kê. Do vậy, không có chứng cứ rằng phân phối của ba loại điểm là khác nhau.
Tương quan
Sử dụng khi bạn muốn xem có mối liên quan tuyến tính giữa 2 (hoặc nhiều hơn) các biến số định
lượng phân phối bình thường hay không. Ví dụ, ta có thể xem mối liên quan giữa hai biến số định
lượng liên tục là điểm bài viết (viet) và điểm bài đọc (doc).
corr doc viet
(obs=200)
| doc viet
-------------+------------------
doc | 1.0000
viet | 0.5968 1.0000
Trong ví dụ tiếp theo ta sẽ xem mối tương quan giữa một biến số nhị giá là giới tính (gioitinh) và một
biến số định lượng liên tục là điểm bài viết (viet). Mặc dù cần phải có giả định là biến số phải là biến
số định lượng và phân phối bình thường, ta có thể dùng một biến số thay thể khi kiểm định mối
tương quan.
corr gioitinh viet
(obs=200)
| gioitinh viet
-------------+------------------
gioitinh | 1.0000
viet | 0.2565 1.0000
Trong ví dụ đầu tiên ta thấy mối tương quan giữa doc và viet là 0.5968. Bằng cách lấy bình phương
chỉ số này rồi nhân với 100, ta có thể xác định phần trăm đóng góp của biến số vào sự biến thiên. Ví
dụ trên, ta làm tròn 0.5968 thành 0.6, rồi bình phương sẽ là 0.36, nhân với 100 là 36%. Do đó, điểm
bài đọc đóng góp 36% trong sự biến thiên của điểm bài đọc với điểm bài viết. Trong ví dụ thứ hai kết
quả bình phương là 0.06579225, có nghĩa là giới tính (gioitinh) góp gần 6.5% trong sự biến thiên của
nó với điểm bài viết (viet).
Hồi qui tuyến tính đơn biến
Phân tích này cho ta xét mối liên quan tuyến tính giữa một biến số tiên đoán định lượng có phân
phối bình thường và một biến số kết cuộc định lượng có phân phối bình thường. Ví dụ ta muốn xét
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
16
mối liên quan giữa điểm bài viết (viet) và điểm bài đọc (doc); nói cách khác ta muốn tiên
đoán điểm bài viết từ điểm bài đọc.
regress viet doc
------------------------------------------------------------------------------
viet | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
doc | .5517051 .0527178 10.47 0.000 .4477446 .6556656
_cons | 23.95944 2.805744 8.54 0.000 18.42647 29.49242
------------------------------------------------------------------------------
Ta thấy mối liên quan giữa viet và doc là dương tính (.5517051) và với t=10.47 và p=0.000, ta sẽ kết
luận mối liên quan này là có ý nghĩa thống kê. Vì vậy, ta sẽ nói rằng có mối liên quan tuyến tính
dương có ý nghĩa thống kê giữa điểm bài đọc và điểm bài viết.
Kiểm định tương quan phi tham số Spearman
Kiểm định này sử dụng khi một biến số hoặc cả hai biến số không được giả định là biến số định
lượng và phân phối bình thường (nhưng được giả định là có thứ tự). Các giá trị của biến số sẽ được
chuyển thành hạng và sau đó xét tương quan. Ví dụ ta tìm mối liên quan giữa doc và viet. Ta sẽ
không giả định cả 2 biến số định lượng này đều có phân phối bình thường trong ví dụ sau.
spearman doc viet
Number of obs = 200
Spearman's rho = 0.6167
Test of Ho: doc and viet are independent
Prob > |t| = 0.0000
Kết quả cho thấy có mối liên quan có ý nghĩa thống kê giữa doc và viet (rho = 0.6167, p = 0.000).
Hồi qui logistic đơn biến
Hồi qui logistic giả định biến số kết cuộc là nhị giá (được mã hóa là 0 và 1). Biến số đầu tiên sau lệnh
logistic (hay logit) sẽ là biến số kết cuộc (hay biến số phụ thuộc), và tất cả các biến số được liệt kê sau
đó sẽ là biến số tiên đoán (biến số độc lập). Ta có thể sử dụng lệnh logit nếu muốn xem hệ số hồi
qui hoặc lệnh logistic nếu muốn xem tỉ số số chênh. Trong ví dụ sau, giới tính (gioitinh) sẽ được sử
dụng là biến số kết cuộc, và điểm bài viết (doc) sẽ là biến số tiên đoán. Trong lệnh này thì các biến số
tiên đoán phải là biến số nhị giá hoặc là biến số định lượng liên tục; biến số định danh, thứ tự không
sử dụng được.
logistic gioitinh doc
Logit estimates Number of obs = 200
LR chi2(1) = 0.56
Prob > chi2 = 0.4527
Log likelihood = -137.53641 Pseudo R2 = 0.0020
------------------------------------------------------------------------------
gioitinh | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
doc | .9896176 .0137732 -0.75 0.453 .9629875 1.016984
------------------------------------------------------------------------------
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
17
logit gioitinh doc
Logit estimates Number of obs = 200
LR chi2(1) = 0.56
Prob > chi2 = 0.4527
Log likelihood = -137.53641 Pseudo R2 = 0.0020
------------------------------------------------------------------------------
gioitinh | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
doc | -.0104367 .0139177 -0.75 0.453 -.0377148 .0168415
_cons | .7260875 .7419612 0.98 0.328 -.7281297 2.180305
------------------------------------------------------------------------------
Kết quả cho thấy điểm bài đọc (doc) không phải là một biến số tiên đoán có ý nghĩa thống kê của
giới tính (cụ thể là ta không tiên đoán được người đó là nam hay nữ dựa vào điểm bài đọc), z = -
0.75, p = 0.453. Tương tự, kiểm định mô hình tổng quát cũng không có ý nghĩa thống kê với Chi
bình phương LR = 0.56, p = 0.4527.
Hồi qui đa biến
Hồi qui đa biến rất giống với hồi qui đơn biến, chỉ khác biệt là trong hồi qui đa biến bạn sẽ có từ 2
biến số tiên đoán trở lên trong công thức. Ví dụ ta sẽ tiên đoán điểm bài viết bằng các biến số giới
tính (gioitinh), điểm bài đọc (doc), điểm toán (toan), điểm khoa học (khoahoc) và điểm nghiên cứu xã
hội (khxh).
regress viet gioitinh doc toan khoahoc khxh
Source | SS df MS Number of obs = 200
-------------+------------------------------ F( 5, 194) = 58.60
Model | 10756.9244 5 2151.38488 Prob > F = 0.0000
Residual | 7121.9506 194 36.7110855 R-squared = 0.6017
-------------+------------------------------ Adj R-squared = 0.5914
Total | 17878.875 199 89.843593 Root MSE = 6.059
------------------------------------------------------------------------------
viet | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gioitinh | 5.492502 .8754227 6.27 0.000 3.765935 7.21907
doc | .1254123 .0649598 1.93 0.055 -.0027059 .2535304
toan | .2380748 .0671266 3.55 0.000 .1056832 .3704665
khoahoc | .2419382 .0606997 3.99 0.000 .1222221 .3616542
khxh | .2292644 .0528361 4.34 0.000 .1250575 .3334713
_cons | 6.138759 2.808423 2.19 0.030 .599798 11.67772
------------------------------------------------------------------------------
Kết quả cho thấy mô hình tổng quát là có ý nghĩa thống kê (F = 58.60, p = 0.0000). Hơn nữa, tất cả
các biến số tiên đoán đều có ý nghĩa thống kê ngoài trừ điểm bài đọc (doc).
Hồi qui logistic đa biến
Tương tự như hồi qui logistic đơn biến, khác biệt là có từ 2 biến số tiên đoán trở lên. Biến số tiên
đoán có thể là biến số định lượng hoặc biến số câm, nhưng không thể là biến số danh định. Nếu có
một biến số tiên đoán là danh định thì cần được mã hóa thành 1 hoặc nhiều biến số câm. Trong bộ
dữ kiện ytcc ta chỉ có một biến số mã hóa là 0 và 1 là biến số giới tính (gioitinh). Ta đều thấy là giới
tính là một biến số kết cuộc hơi…ngớ ngẩn nhưng ta có thể dùng giới tính như một biến số kết cuộc
Trung tâm phát triển Y tế Công cộng PHD
Ytecongcong.COM | YTCC Online
18
để minh họa các việc mã hóa được cấu trúc và diễn giải như thế nào. Biến số liệt kê đầu
tiên sau lệnh logistic (hay logit) là biến số kết cuộc (hay biến số phụ thuộc), tất cả các biến
số còn lại là biến số tiên đoán (hay biến số độc lập). Ta có thể sử dụng lệnh logit nếu muốn xem hệ
số hồi qui hoặc lệnh logistic nếu muốn xem tỉ số số chênh. Trong ví dụ sau giới tính (gioitinh) sẽ là
biến số kết cuộc và điểm bài viết (doc) và điểm bài đọc (viet) sẽ là các biến số tiên đoán.
logistic gioitinh doc viet Logit estimates Number of obs = 200
LR chi2(2) = 27.82
Prob > chi2 = 0.0000
Log likelihood = -123.90902 Pseudo R2 = 0.1009
------------------------------------------------------------------------------
gioitinh | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
doc | .9314488 .0182578 -3.62 0.000 .8963428 .9679298
viet | 1.112231 .0246282 4.80 0.000 1.064993 1.161564
------------------------------------------------------------------------------
Kết quả cho thấy cả điểm bài viết và điểm bài đọc đều là các biến số tiên đoán có ý nghĩa thống kê
cho giới tính (gioitinh).
End of 1st edition. 25 June 2010.