so tay ytcc phien ban 1

Sổ tay Y tế Công cộng

cho thành viên Ytecongcong.COM

phiên bản 1: Thống kê với Stata

Nguyễn Văn Kính

BỘ MÔN DỊCH TỄ HỌC – ĐẠI HỌC Y DƯỢC TP.HCM

Trung tâm phát triển Y tế Công cộng PHD

Biên soạn từ tài liệu công khai của Đại học California, LA. USA

Không sử dụng cho mục đích thương mại

Tháng 07 năm 2010


Ytecongcong.COM | YTCC Online

1

Lời nói đầu

Tài liệu này được biên soạn với sự may mắn được tiếp xúc và làm việc với rất nhiều các nghiên cứu tại

Bộ môn Dịch tễ học – ĐHYD TP.HCM của tác giả. Thêm vào đó là nhu cầu và đề nghị từ một lần họp

mặt cùng các bạn sinh viên YTCC Huế, YTCC Cần Thơ. Đây cũng là nhu cầu của các bạn YTCC HCM

sau khi ra trường cho biết mình có nguy cơ…quên hết về dịch tễ học và thống kê y học.

Tài liệu này sẽ được viết thành nhiều giai đoạn, mỗi giai đoạn sẽ được bổ sung thêm nội dung liên

quan đến dịch tễ học và thống kê y học. Tác giả hi vọng trong phiên bản 2 sẽ có nhiều tác giả khác

gửi bài viết của mình về các chủ đề này để gom góp thành một cuốn sách cập nhật định kỳ.

Phiên bản đầu tiên này cung cấp một số kiểm định thống kê sử dụng Stata. Mỗi kiểm định sẽ có một

mô tả ngắn về phép kiểm, sau đó sẽ là lệnh Stata và kết quả cùng với diễn giải ngắn về kết quả. Để

có một phép kiểm đúng cho mình bạn cần xác định bản chất biến số của bạn là định lượng, định

tính, thứ tự, nhị giá và có phân phối bình thường hay không. Phiên bản 1 này chỉ bao gồm một số

phép kiểm thường gặp nhất.

Tuy nhiên cần chú ý rằng với sự đa dạng của dữ kiện trong nhiều chuyên ngành cũng như sự cập

nhật liên tục các lí thuyết về thống kê, bạn được khuyên là nên tham khảo ý kiến của một chuyên gia

trước khi quyết định sử dụng một phép kiểm trong nghiên cứu của mình.

Vì phiên bản này được xuất bản online nên và hoàn toàn không có mục đích thương mại nên người

đọc sẽ tự chịu trách nhiệm cho việc sử dụng tài liệu của mình.

Nguyễn Văn Kính



2

Hướng dẫn sử dụng: .................................................................................................................................. 3

Về bộ dữ kiện ytcc ...................................................................................................................................... 5

Kiểm định t một mẫu ................................................................................................................................. 6

Kiểm định trung vị một mẫu ......................................................................................................................... 6

Kiểm định Binomial ....................................................................................................................................... 7

Chi-square goodness of fit ............................................................................................................................ 7

Kiểm định t 2 mẫu độc lập ............................................................................................................................ 8

Kiểm định Wilcoxon-Mann-Whitney ............................................................................................................ 8

Kiểm định Chi bình phương .......................................................................................................................... 9

Kiểm định chính xác Fisher's ......................................................................................................................... 9

Phân tích phương sai một chiều ................................................................................................................. 10

Kiểm định Kruskal Wallis ............................................................................................................................. 12

Kiểm định t bắt cặp ..................................................................................................................................... 12

Kiểm định tổng sắp hạng có dấu ................................................................................................................. 13

Kiểm định McNemar ................................................................................................................................... 14

Kiểm định Friedman .................................................................................................................................... 14

Tương quan ................................................................................................................................................. 15

Hồi qui tuyến tính đơn biến ........................................................................................................................ 15

Kiểm định tương quan phi tham số Spearman ........................................................................................... 16

Hồi qui logistic đơn biến ............................................................................................................................. 16

Hồi qui đa biến ............................................................................................................................................ 17

Hồi qui logistic đa biến ................................................................................................................................ 17



3

Hướng dẫn sử dụng:

Font: lệnh để gõ vào ô nhập lệnh (command) của Stata

Font: Kết quả tính toán của Stata

Các thuật ngữ sử dụng trong ài liệu

Ytcc: Bộ dữ kiện mẫu tên ytcc lưu tại trang Ytecongcong.COM

Mẫu: Dân số nghiên cứu

Biến số định lượng (Interval variables) là những biến số xác định số lượng, bao gồm

- Biến số định lượng liên tục: như chiều cao, cân nặng…

- Biến số định lượng không liên tục như số con, số bạn tình …

Biến số định tính (Categorical variables) là những biến số xác định tính chất của đối tượng nghiên

cứu, bao gồm

- Biến số nhị giá (Dichotomous variables) có hai giá trị như sống-chết, bệnh–không bệnh,

phơi nhiễm-không phơi nhiễm,…

- Biến số thứ tự (Ordinal variables) có nhiều hơn 2 giá trị và có thể xếp hạng được như trình

độ học vấn, mức thu thập,…,

- Biến số danh định (Categorical variables) có nhiều hơn 2 giá trị nhưng không thể xếp

hạng theo thứ tự được như dân tộc, tôn giáo,…

Biến số tiên đoán (Predictor) là biến số góp phần dự đoán trong một mô hình tiên đoán (biến số độc

lập).

Giả thuyết bất dị (Ho) (Null Hypothesis) là giả thuyết đặt ra để kiểm định, giả thuyết này là bất dị

(không khác biệt) vì giả thuyết này là một phương trình, theo đó 2 vế bằng nhau. Ví dụ so sánh xem

nam và nữ ai có chỉ số IQ cao hơn thì Ho sẽ là IQnam=IQnữ.

Giá trị p (p-value) là xác suất bác bỏ Ho khi Ho đúng (còn gọi là xác suất sai lầm loại 1). Nghĩa là với

cỡ mẫu và tính toán như vậy thì có bao nhiêu phần trăm ta sẽ mắc sai lầm là sẽ bác bỏ giả thuyết Ho

khi Ho là đúng. Ví dụ trong trường hợp so sánh nam và nữ về chỉ số IQ nếu kết quả p-value=0.1 thì

có nghĩa là nếu thực tế IQnam=IQnữ thì có đến 10% ta sẽ bác bỏ và nói rằng IQnam và IQnữ khác

nhau. Do đó ta thấy nếu xác suất này càng nhỏ thì khả năng ta bác bỏ là đúng càng cao.

Tùy trường hợp mà người ta sẽ chọn mức p-value để bác bỏ giả thuyết Ho, tuy nhiên trong y khoa,

nhất là y tế công cộng thì thông thường chọn mức nhỏ hơn 5% tức là p-value<0,05, có những xét

nghiệm hoặc thử nghiệm đòi hỏi cao hơn thì cần p-value<0,0001. Lúc này ta sẽ sử dụng cụm từ là sự

khác biệt có ý nghĩa thống kê.

Giả định: điều kiện giả định trong kiểm định là điều kiện cần để tiến hành kiểm định.

Tỉ số số chênh (OR: Odd Ratios) là một số đo trong dịch tễ học cho thấy độ lớn sự khác biệt. Tìm đọc

các sách về Dịch tễ học cơ bản của PGS.TS. Nguyễn Đỗ Nguyên – Trưởng BM. Dịch tễ học – ĐHYD

TP.HCM.



4

Các lưu ý thêm

Các mối liên quan được lấy làm ví dụ có thể không có ý nghĩa về mặt sinh học, nhưng ở đây chúng ta

chỉ chú trọng đến mặt thống kê và làm thế nào để tính toán và diễn giải nó.

Người biên soạn sách này “giả định” rằng bạn đã có đọc và học về sinh thống kê cơ bản và dịch tễ

học cơ bản.

Mong đợi gì ở bản biên tập thứ 2: bổ sung các khái niệm về dịch tễ học, các khái niệm cơ bản, các

phân tích sâu hơn (One-way repeated measures ANOVA, Repeated measures logistic regression,

Factorial ANOVA, Factorial logistic regression, Analysis of covariance, Discriminant analysis,

Multivariate multiple regression, Canonical correlation, Factor analysis, bootstrap analysis), bạn đọc có

thể hiểu…phi tham số khi không cần giả định phía trên (bạn có thể hiểu khái niệm vui “hiểu phi tham

số” khi đọc hết tài liệu này).

Góp ý xin gửi về [email protected]

Hoặc Trung tâm phát triển Y tế Công cộng PHD

Phòng Dự án, Khoa Y tế Công cộng, 159 Hưng Phú, P.8, Q.8, tP.HCM



5

Về bộ dữ kiện ytcc

Hầu hết các ví dụ trong sách này sẽ sử dụng một bộ dữ kiện tên ytcc được lưu trữ trên trang chủ

Ytecongcong.COM thuộc Trung tâm Phát triển Y tế Công cộng PHD. Bộ dữ kiện này được sao chép

và chỉnh sửa gồm có 200 quan sát từ một mẫu các học sinh trung học với các đặc điểm dân số như

giới tính (biến số gioitinh), đặc điểm kinh tế xã hội (biến số ktxh) dân tộc (biến số chungtoc). Dữ kiện

cũng có điểm của các bài kiểm tra chuẩn của học sinh gồm điểm bài đọc (biến số doc), điểm bài viết

(biến số viet) và điểm toán học (biến số toan), điểm khoa học (khoahoc) và điểm nghiên cứu xã hội

(biến số khxh). Trước khi đọc tiếp, bạn hãy mở Stata và lấy bộ dữ kiện về máy sử dụng bằng cách gõ

lệnh sau:

use http://www.ytecongcong.com/ytcc



6

Kiểm định t một mẫu

Kiểm định này cho phép ta kiểm xem liệu trung bình của mẫu (của một biến số định lượng phân phối

bình thường) khác biệt có ý nghĩa thống kê so với một giá trị giả thuyết hay không. Ví dụ, giả sử ta

muốn kiểm định có sự khác biệt có ý nghĩa thống kê giữa điểm trung bình môn viết (biến số viet) và

50 hay không. Ta có thể làm (gõ lệnh) như sau

ttest viet=50 One-sample t test

------------------------------------------------------------------------------

Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

---------+--------------------------------------------------------------------

viet | 200 52.775 .6702372 9.478586 51.45332 54.09668

------------------------------------------------------------------------------

mean = mean(viet) t = 4.1403

Ho: mean = 50 degrees of freedom = 199

Ha: mean < 50 Ha: mean != 50 Ha: mean > 50

Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 0.0000

Điểm trung bình bài viết của học sinh trong mẫu nghiên cứu này là 52.775, có sự khác biệt có ý nghĩa

thống kê với giá trị kiểm định là 50 (có thể là điểm trung bình của trường khác,..v.v.). Ta sẽ kết luận

rằng nhóm học sinh này có điểm trung bình phần viết cao hơn có ý nghĩa thống kê so với giá trị 50.

Kiểm định trung vị một mẫu

Phép kiểm này cho ta biết liệu trung vị của mẫu có khác biệt có có ý nghĩa thống kê so với một giá trị

giả thiết hay không. Ta sẽ vẫn sử dụng biến số viet như trên, nhưng trong trường hợp này ta không

cần giả định là biến số điểm có phân phối bình thường (ta chỉ cần giả định điểm viết là có thứ tự). Ta

sẽ kiểm định xem liệu trung vị của điểm viết (viet) khác biệt có ý nghĩa thống kê với 50 hay không.

signrank viet=50 Wilcoxon signed-rank test

sign | obs sum ranks expected

-------------+---------------------------------

positive | 126 13429 10048.5

negative | 72 6668 10048.5

zero | 2 3 3

-------------+---------------------------------

all | 200 20100 20100

unadjusted variance 671675.00

adjustment for ties -1760.25

adjustment for zeros -1.25

----------

adjusted variance 669913.50

Ho: viet = 50

z = 4.130

Prob > |z| = 0.0000

Kết quả cho thấy trung vị của điểm viết trong nhóm học sinh này có sự khác biệt có ý nghĩa thống kê

so với 50.



7

Kiểm định nhị thức

Kiểm định nhị thức một mẫu kiểm định xem tỉ lệ một giá trị của một biến số định tính (được mã hóa

là 1) có khác biệt có ý nghĩa thống kê so với một giá trị giả thiết hay không. Chẳng hạn ta muốn xem

tỷ lệ nam trong mẫu nghiên cứu (biến số giới tính) có khác biệt có ý nghĩa thống kê với giá trị giả

thiết là 50% hay không. Ta có thể làm như sau.

bitest gioitinh=.5

Variable | N Observed k Expected k Assumed p Observed p

-------------+------------------------------------------------------------

gioitinh | 200 109 100 0.50000 0.54500

Pr(k >= 109) = 0.114623 (one-sided test)

Pr(k <= 109) = 0.910518 (one-sided test)

Pr(k <= 91 or k >= 109) = 0.229247 (two-sided test)

Kết quả cho thấy không có sự khác biệt có ý nghĩa thống kê (p = .2292). Nói cách khác, tỷ lệ nam

trong mẫu không có sự khác biệt có ý nghĩa thống kê với giá trị giả thiết là 50%.

Kiểm định Chi bình phương mức độ phù hợp

Kiểm định Chi bình phương mức độ phù hợp (chi-square goodness of fit) cho phép ta kiểm định xem

tỉ lệ quan sát được của một biến số định tính có khác biệt có ý nghĩa thống kê so với với một tỉ lệ giả

thiết hay không. Giả sử, trong các điều tra chung về chủng tộc ta tin rằng tỉ lệ dân số chung sẽ bao

gồm 10% người Nùng, 10% người Tày, 10% người Hoa và 70% là người Kinh. Ta muốn kiểm định

xem tỷ lệ quan sát được trong mẫu nghiên cứu có khác biệt có ý nghĩa thống kê so với những tỉ lệ giả

thuyết hay không. Để tiến hành kiểm định này ta cần tải lệnh csgof bằng cách gõ findit csgof và chọn

cài đặt gói lệnh này.

Khi đã cài xong gói lệnh csgof, ta có thể gõ:

csgof chungtoc, expperc(10 10 10 70)

+----------------------------------------+

| chungtoc expperc expfreq obsfreq |

|----------------------------------------|

| Nung 10 20 24 |

| Tay 10 20 11 |

| Hoa 10 20 20 |

| Kinh 70 140 145 |

+----------------------------------------+

chisq(3) is 5.03, p = .1697

Kết quả cho thấy kết cấu dân số trong mẫu nghiên cứu không khác biệt có ý nghĩa thống kê so với

giá trị giả thuyết mà chúng cung cấp (Độ tự do = 3, Chi bình phương = 5.03, p = .1697).



8

Kiểm định t 2 mẫu độc lập

Được sử dụng khi ta muốn so sánh trung bình của một biến số phụ thuộc có phân phối bình thường

của 2 nhóm độc lập. Giả sử ta muốn xem có sự khác biệt giữa điểm bài viết ở nam và nữ hay không.

ttest viet, by(gioitinh)

Two-sample t test with equal variances

------------------------------------------------------------------------------

Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

---------+--------------------------------------------------------------------

nu | 91 50.12088 1.080274 10.30516 47.97473 52.26703

nam | 109 54.99083 .7790686 8.133715 53.44658 56.53507

---------+--------------------------------------------------------------------

combined | 200 52.775 .6702372 9.478586 51.45332 54.09668

---------+--------------------------------------------------------------------

diff | -4.869947 1.304191 -7.441835 -2.298059

------------------------------------------------------------------------------

diff = mean(nu) - mean(nam) t = -3.7341

Ho: diff = 0 degrees of freedom = 198

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Pr(T < t) = 0.0001 Pr(|T| > |t|) = 0.0002 Pr(T > t) = 0.9999

Kết quả cho thấy có sự khác biệt có ý nghĩa thống kê về trung bình điểm viết ở nam và ở nữ (t = -

3.7341, p = .0002). Nói cách khác, nữ có điểm viết trung bình cao hơn có ý nghĩa thống kê so với

nam (54.99 so với 50.12).

Kiểm định Wilcoxon-Mann-Whitney

Kiểm định Wilcoxon-Mann-Whitney là kiểm định tương tự với kiểm định t 2 mẫu độc lập nhưng được

sử dụng khi ta không giả định rằng biến số phụ thuộc là biến số định lượng có phân phối bình

thường (ta chỉ giả định rằng biến số này ít nhất là có thứ tự). Cấu trúc lệnh của Stata cho kiểm định

Wilcoxon-Mann-Whitney giống hệt kiểm định t 2 mẫu độc lập. Ta sẽ kiểm định lại kết quả đã làm ở

trên nhưng lần này ta không giả định là biến số phụ thuộc viet có phân phối bình thường.

ranksum viet, by(gioitinh)

Two-sample Wilcoxon rank-sum (Mann-Whitney) test

gioitinh | obs rank sum expected

-------------+---------------------------------

nu | 91 7792 9145.5

nam | 109 12308 10954.5

-------------+---------------------------------

combined | 200 20100 20100



----------


Ho: viet(gioitinh==nu) = viet(gioitinh==nam)

z = -3.329

Prob > |z| = 0.0009

Kết quả cho thấy có sự khác biệt có ý nghĩa thống kê giữa nam và nữ về sự phân phối điểm bài viết

(z = -3.329, p = 0.0009). Ta có thể xác định nhóm nào có hạng cao hơn bằng cách so giá trị thật của



9

tổng hạng (cột ranksum) với vọng trị của tổng hạng (giá trị mong đợi của tổng hạng khi

giả thuyết bất dị xảy ra). Tổng hạng của nữ cao hơn trong khi tổng hạng của nam lại thấp

hơn do đó nữ có hạng cao hơn nam.

Kiểm định Chi bình phương

Kiểm định này dùng khi ta muốn xem có mối liên quan giữa hai biến số định tính hay không. Giả sử

ta muốn biết có mối liên quan giữa loại hình trường theo học (loaitruong) và giới tính học sinh

(gioitinh). Nên nhớ rằng kiểm định Chi bình phương giả định rằng vọng trị của mỗi ô là ≥5. Giả định

này được đáp ứng trong ví dụ sau. Tuy nhiên, có thể không xảy ra với các bộ dữ liệu khác, xem thêm

trong phần kiểm định chính xác Fisher's.

tabulate loaitruong gioitinh, chi2

Loai hinh | Gioi tinh

truong | nu nam | Total

------------+----------------------+----------

Truong cong | 77 91 | 168

Truong tu | 14 18 | 32

------------+----------------------+----------

Total | 91 109 | 200

Pearson chi2(1) = 0.0470 Pr = 0.828

Kết quả cho thấy không có sự khác biệt có ý nghĩa thống kê giữa các loại hình trường theo học và

giới tính (Độ tự do = 1, Chi bình phương = 0.0470, p = 0.828).

Hãy xem một ví dụ khác về xét mối liên quan giữa giới tính (gioitinh) và tình trạng kinh tế xã hội

(ktxh). Trong ví dụ này, một (hoặc cả hai) biến số có thể có hơn 2 nhóm, và các biến số không nhất

thiết phải có cùng số nhóm. Biến số gioitinh có 2 nhóm (nam và nữ) và biến số ktxh có 3 nhóm

(thấp, trung và cao).

tabulate gioitinh ktxh, chi2

| Kinh te xa hoi

Gioi tinh | Thap Trung Cao | Total

-----------+---------------------------------+----------

nu | 15 47 29 | 91

nam | 32 48 29 | 109

-----------+---------------------------------+----------

Total | 47 95 58 | 200

Pearson chi2(2) = 4.5765 Pr = 0.101

Một lần nữa ta thấy không có mối liên quan có ý nghĩa thống kê giữa các biến số (Độ tự do = 2, Chi

bình phương = 4.5765, p = 0.101).

Kiểm định chính xác Fisher's

Kiểm định chính xác Fisher's sử dụng khi muốn tiến hành một kiểm định Chi bình phương nhưng có

trên 1 ô có vọng trị nhỏ hơn 5. Nên nhớ rằng kiểm định Chi bình phương giả định mỗi ô có vọng trị

lớn ≥ 5 nhưng kiểm định chính xác Fisher's không có giả định này và có thể sử dụng bất kể với vọng

trị nhỏ đến mức nào. Trong ví dụ dưới đây ta có các ô với tần số quan sát được chỉ là trên 2 hoặc 1



10

đối tượng, các ô này có thể có vọng trị nhỏ hơn 5 do vậy ta sử dụng kiểm định chính xác

Fisher's với tùy chọn exact trong lệnh tabulate.

tabulate loaitruong chungtoc, exact

Loai hinh | Chung toc

truong | Nung Tay Hoa Kinh | Total

------------+--------------------------------------------+----------

Truong cong | 22 10 18 118 | 168

Truong tu | 2 1 2 27 | 32

------------+--------------------------------------------+----------

Total | 24 11 20 145 | 200

Fisher's exact = 0.597

Kết quả cho thấy không có mối liên quan có ý nghĩa thống kê giữa chủng tộc và loại hình trường (p

= 0.597). Lưu ý rằng kiểm định chính xác Fisher's không thực hiện một “kiểm định thống kê" nào mà

tính toán trực tiếp p-value.

Phân tích phương sai một chiều

Sử dụng kiểm định này khi ta có một biến số độc lập định tính (từ 2 nhóm trở lên) và một biến số

phụ thuộc định lượng phân phối bình thường. Ta đang muốn xem có sự khác biệt của trung bình của

biến số phụ thuộc theo từng phân nhóm của biến số độc lập. Chẳng hạn ta muốn xem có sự khác

biệt giữa điểm trung bình bài viết (viet) giữa 3 chương trình học (chuongtrinh) hay không. Ta sẽ làm

như sau.

anova viet chuongtrinh

Number of obs = 200 R-squared = 0.1776

Root MSE = 8.63918 Adj R-squared = 0.1693

Source | Partial SS df MS F Prob > F

------------+----------------------------------------------------

Model | 3175.69786 2 1587.84893 21.27 0.0000

chuongtrinh | 3175.69786 2 1587.84893 21.27 0.0000

Residual | 14703.1771 197 74.635417

------------+----------------------------------------------------

Total | 17878.875 199 89.843593

Trung bình của điểm số bài viết khác biệt có ý nghĩa thống kê giữa các chương trình học. Tuy nhiên

ta không biết sự khác biệt là chỉ giữa 2 chương trình hay là cả 3 chương trình. Để xem điểm trung

bình bài viết (viet) theo mỗi loại chương trình học, ta có thể sử dụng lệnh tabulate với tùy chọn

summarize như sau.

tabulate chuongtrinh, summarize(viet)

Chuong | Summary of Diem bai viet

trinh hoc | Mean Std. Dev. Freq.

------------+------------------------------------

Tong quat | 51.333333 9.3977754 45

Hoc thuat | 56.257143 7.9433433 105

Chuyen ng | 46.76 9.3187544 50

------------+------------------------------------

Total | 52.775 9.478586 200

Từ kết quả trên ta có thể thấy rằng học sinh trong chương trình học thuật có điểm trung bình cao

nhất trong khi học sinh trong chương trình chuyên ngành là thấp nhất.



11



12

Kiểm định Kruskal Wallis

Kiểm định Kruskal Wallis sử dụng khi có một biến số độc lập có từ 2 nhóm trở lên và một biến số phụ

thuộc là biến số thứ tự. Nói cách khác, đây là dạng kiểm định phân tích phương sai phi tham số và là

dạng khái quát của kiểm định Mann-Whitney vì nó cho phép so sánh 2 hoặc nhiều nhóm. Trong ví

dụ này ta sử dụng cùng mục tiêu như phần phân tích phương sai một chiều ở trên nhưng lần này ta

sẽ không giả định là biến số viet là biến số định lượng phân phối bình thường.

kwallis viet, by(chuongtrinh)

Kruskal-Wallis equality-of-populations rank test

+-------------------------------+

| chuongtrinh | Obs | Rank Sum |

|--------------+-----+----------|

| Tong quat | 45 | 4079.00 |

| Hoc thuat | 105 | 12764.00 |

| Chuyen nganh | 50 | 3257.00 |

+-------------------------------+

chi-squared = 33.870 with 2 d.f.

probability = 0.0001

chi-squared with ties = 34.045 with 2 d.f.

probability = 0.0001

Nếu có một số bài viết bị xếp hạng ràng buộc (tied rank: theo đó những đối tượng có số điểm bằng

nhau sẽ được tính hạng bằng tổng số hạng của các đối tượng có cùng điểm chia cho số đối tượng

có cùng điểm, ví dụ có 3 đối tượng có cùng điểm có số hạng được sắp là 5, 6 và 7 thì số hạng ràng

buộc sẽ bằng (5+6+7)/3 = 6.0) thì một nhân tố hiệu chỉnh sẽ được sử dụng và cho ra một giá trị Chi

bình phương hơi khác. Ví dụ trên cho thấy là dù có hay không có ràng buộc trong xếp hạng, kết quả

cho thấy điểm trung bình bài viết có sự khác biệt có ý nghĩa thống kê giữa 3 chương trình học.

Kiểm định t bắt cặp

Kiểm định t bắt cặp (mẫu) được sử dụng khi ta có 2 quan sát có liên quan với nhau (như quan sát

một đặc điểm 2 lần trên cùng đối tượng) và ta muốn xem các trung bình của những biến số định

lượng phân phối bình thường này có khác nhau hay không. Ví dụ ta muốn xem trung bình bài viết có

bằng trung bình bài đọc hay không, ta làm như sau.

ttest doc = viet

Paired t test

------------------------------------------------------------------------------

Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

---------+--------------------------------------------------------------------

doc | 200 52.23 .7249921 10.25294 50.80035 53.65965

viet | 200 52.775 .6702372 9.478586 51.45332 54.09668

---------+--------------------------------------------------------------------

diff | 200 -.545 .6283822 8.886666 -1.784142 .6941424

------------------------------------------------------------------------------

mean(diff) = mean(doc - viet) t = -0.8673

Ho: mean(diff) = 0 degrees of freedom = 199

Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0

Pr(T < t) = 0.1934 Pr(|T| > |t|) = 0.3868 Pr(T > t) = 0.8066



13

Kết quả cho thấy không có sự khác biệt có ý nghĩa thống kê giữa điểm bài viết (viet) và

điểm bài đọc (doc) (t = -0.8673, p = 0.3868).

Kiểm định tổng sắp hạng có dấu

Đây là dạng phép kiểm phi tham số của kiểm định t mẫu bắt cặp. Kiểm định này sử dụng khi ta

không giả định rằng sự khác biệt giữa 2 biến số là định lượng và phân phối bình thường (nhưng ta có

giả định là sự khác biệt là có thứ tự). Ta sử dụng cùng ví dụ như trên nhưng ta không giả định sự

khác biệt giữa điểm bài đọc (doc) và bài viết (viet) có phân phối bình thường.

signrank doc = viet

Wilcoxon signed-rank test

sign | obs sum ranks expected

-------------+---------------------------------

positive | 88 9264 9990

negative | 97 10716 9990

zero | 15 120 120

-------------+---------------------------------

all | 200 20100 20100



adjustment for zeros -310.00

----------


Ho: doc = viet

z = -0.887

Prob > |z| = 0.3753

Kết quả cho thấy không có sự khác biệt có ý nghĩa thống kê giữa điểm bài đọc (doc) và điểm bài viết

(viet).

Nếu dựa vào kinh nghiệm bạn tin rằng sự khác biệt giữa điểm bài đọc (doc) và điểm bài viết (viet) là

không có thứ tự mà chỉ có thể phân loại đơn giản là dương tính hoặc âm tính mà thôi thì lúc này bạn

có thể xem xét kiểm định có dấu (sign test) thay vì kiểm định có dấu xếp hạng (sign rank test). Ta vẫn

sử dụng cùng biến số trong ví dụ trên nhưng không giả định là sự khác biệt này là có thứ tự.

signtest doc = viet

Sign test

sign | observed expected

-------------+------------------------

positive | 88 92.5

negative | 97 92.5

zero | 15 15

-------------+------------------------

all | 200 200

One-sided tests:

Ho: median of doc - viet = 0 vs.

Ha: median of doc - viet > 0

Pr(#positive >= 88) =

Binomial(n = 185, x >= 88, p = 0.5) = 0.7688


Ha: median of doc - viet < 0

Pr(#negative >= 97) =

Binomial(n = 185, x >= 97, p = 0.5) = 0.2783

Two-sided test:


Ha: median of doc - viet ~= 0

Pr(#positive >= 97 or #negative >= 97) =

min(1, 2*Binomial(n = 185, x >= 97, p = 0.5)) = 0.5565



14

Kết quả cho thấy kết quả của kiểm định một bên cũng như kiểm định 2 bên. Giả sử ta đang

tìm kiếm xem có bất cứ sự khác biệt nào hay không thì ta sẽ dùng kết quả kiểm định 2 bên

và kết luận không có sự khác biệt có ý nghĩa thống kê nào được tìm thấy (p=.5565).

Kiểm định McNemar

Kiểm định McNemar's được sử dụng trong trường hợp bạn quan tâm tần số biên của 2 biến số kết

cuộc nhị giá. Những kết cuộc này có thể là cùng một kết cuộc trên các cặp bắt cặp (như trong

nghiên cứu bệnh-chứng) hoặc 2 biến số kết cuộc của một nhóm. Ví dụ, giả sử ta có 2 câu hỏi, câu 1

và câu 2, được dùng để kiểm tra 200 học sinh. Cho rằng có 172 học sinh trả lời đúng cả hai câu, 15

học sinh trả lời sai cả hai câu, 7 học sinh trả lời đúng câu 1 và sai câu 2, 6 học sinh trả lời đúng câu 2

và sai câu 1. Ta lập một bảng 2x2 với dữ kiện trên và xem xét giả thuyết bất dị là tỷ lệ trả lời đúng và

sai ở 2 câu hỏi là như nhau (hay bảng phân phối ngẫu nhiên ta có là có tính đối xứng). Ta có thể tính

toán trực tiếp trong Stata sử dụng lệnh mcci. Các biến số kết cuộc được dán nhãn theo qui tắc của

một nghiên cứu bệnh-chứng.

mcci 172 6 7 15

| Controls |

Cases | Exposed Unexposed | Total

-----------------+------------------------+------------

Exposed | 172 6 | 178

Unexposed | 7 15 | 22

-----------------+------------------------+------------

Total | 179 21 | 200

McNemar's chi2(1) = 0.08 Prob > chi2 = 0.7815

Exact McNemar significance probability = 1.0000

Proportion with factor

Cases .89

Controls .895 [95% Conf. Interval]

--------- --------------------

difference -.005 -.045327 .035327

ratio .9944134 .9558139 1.034572

rel. diff. -.047619 -.39205 .2968119

odds ratio .8571429 .2379799 2.978588 (exact)

Thống kê Chi bình phương McNemar's cho thấy không có sự khác biệt có ý nghĩa thống kê về tỷ lệ

trả lời đúng/sai với 2 câu hỏi này.

Kiểm định Friedman

Kiểm định này được sử dụng khi có một biến số độc lập có từ 2 nhóm trở lên thu thập trên cùng một

đối tượng và một biến số phụ thuộc không có phân phối bình thường (nhưng ít nhất có thứ tự). Ta sẽ

sử dụng kiểm định Friedman để xác định xem có sự khác biệt giữa điểm bài viết (viet), bài đọc (doc)

và điểm toán (toan) hay không. Giả thuyết bất dị trong kiểm định này là phân phối thứ hạng của mỗi

loại điểm là như nhau. Để tiến hành kiểm định ta cần tải thêm kiểm định này bằng cách gõ findit

friedman và chọn cài đặt. Thêm vào đó, ta cần hoán vị để xếp các đối tượng quan sát xuống thành

các cột và các biến số thành các hàng bằng lệnh xpose.



15

use http://www.ytecongcong.com/ytcc

keep doc viet toan

xpose, clear

friedman v1-v200

Friedman = 0.6175

Kendall = 0.0015

P-value = 0.7344

Giá trị Chi bình phương Friedman's là 0.6175 và p-value là 0.7344 cho thấy không có sự khác biệt có

ý nghĩa thống kê. Do vậy, không có chứng cứ rằng phân phối của ba loại điểm là khác nhau.

Tương quan

Sử dụng khi bạn muốn xem có mối liên quan tuyến tính giữa 2 (hoặc nhiều hơn) các biến số định

lượng phân phối bình thường hay không. Ví dụ, ta có thể xem mối liên quan giữa hai biến số định

lượng liên tục là điểm bài viết (viet) và điểm bài đọc (doc).

corr doc viet

(obs=200)

| doc viet

-------------+------------------

doc | 1.0000

viet | 0.5968 1.0000

Trong ví dụ tiếp theo ta sẽ xem mối tương quan giữa một biến số nhị giá là giới tính (gioitinh) và một

biến số định lượng liên tục là điểm bài viết (viet). Mặc dù cần phải có giả định là biến số phải là biến

số định lượng và phân phối bình thường, ta có thể dùng một biến số thay thể khi kiểm định mối

tương quan.

corr gioitinh viet

(obs=200)

| gioitinh viet

-------------+------------------

gioitinh | 1.0000

viet | 0.2565 1.0000

Trong ví dụ đầu tiên ta thấy mối tương quan giữa doc và viet là 0.5968. Bằng cách lấy bình phương

chỉ số này rồi nhân với 100, ta có thể xác định phần trăm đóng góp của biến số vào sự biến thiên. Ví

dụ trên, ta làm tròn 0.5968 thành 0.6, rồi bình phương sẽ là 0.36, nhân với 100 là 36%. Do đó, điểm

bài đọc đóng góp 36% trong sự biến thiên của điểm bài đọc với điểm bài viết. Trong ví dụ thứ hai kết

quả bình phương là 0.06579225, có nghĩa là giới tính (gioitinh) góp gần 6.5% trong sự biến thiên của

nó với điểm bài viết (viet).

Hồi qui tuyến tính đơn biến

Phân tích này cho ta xét mối liên quan tuyến tính giữa một biến số tiên đoán định lượng có phân

phối bình thường và một biến số kết cuộc định lượng có phân phối bình thường. Ví dụ ta muốn xét



16

mối liên quan giữa điểm bài viết (viet) và điểm bài đọc (doc); nói cách khác ta muốn tiên

đoán điểm bài viết từ điểm bài đọc.

regress viet doc

------------------------------------------------------------------------------

viet | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

doc | .5517051 .0527178 10.47 0.000 .4477446 .6556656

_cons | 23.95944 2.805744 8.54 0.000 18.42647 29.49242

------------------------------------------------------------------------------

Ta thấy mối liên quan giữa viet và doc là dương tính (.5517051) và với t=10.47 và p=0.000, ta sẽ kết

luận mối liên quan này là có ý nghĩa thống kê. Vì vậy, ta sẽ nói rằng có mối liên quan tuyến tính

dương có ý nghĩa thống kê giữa điểm bài đọc và điểm bài viết.

Kiểm định tương quan phi tham số Spearman

Kiểm định này sử dụng khi một biến số hoặc cả hai biến số không được giả định là biến số định

lượng và phân phối bình thường (nhưng được giả định là có thứ tự). Các giá trị của biến số sẽ được

chuyển thành hạng và sau đó xét tương quan. Ví dụ ta tìm mối liên quan giữa doc và viet. Ta sẽ

không giả định cả 2 biến số định lượng này đều có phân phối bình thường trong ví dụ sau.

spearman doc viet

Number of obs = 200

Spearman's rho = 0.6167

Test of Ho: doc and viet are independent

Prob > |t| = 0.0000

Kết quả cho thấy có mối liên quan có ý nghĩa thống kê giữa doc và viet (rho = 0.6167, p = 0.000).

Hồi qui logistic đơn biến

Hồi qui logistic giả định biến số kết cuộc là nhị giá (được mã hóa là 0 và 1). Biến số đầu tiên sau lệnh

logistic (hay logit) sẽ là biến số kết cuộc (hay biến số phụ thuộc), và tất cả các biến số được liệt kê sau

đó sẽ là biến số tiên đoán (biến số độc lập). Ta có thể sử dụng lệnh logit nếu muốn xem hệ số hồi

qui hoặc lệnh logistic nếu muốn xem tỉ số số chênh. Trong ví dụ sau, giới tính (gioitinh) sẽ được sử

dụng là biến số kết cuộc, và điểm bài viết (doc) sẽ là biến số tiên đoán. Trong lệnh này thì các biến số

tiên đoán phải là biến số nhị giá hoặc là biến số định lượng liên tục; biến số định danh, thứ tự không

sử dụng được.

logistic gioitinh doc

Logit estimates Number of obs = 200

LR chi2(1) = 0.56

Prob > chi2 = 0.4527

Log likelihood = -137.53641 Pseudo R2 = 0.0020

------------------------------------------------------------------------------

gioitinh | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

doc | .9896176 .0137732 -0.75 0.453 .9629875 1.016984

------------------------------------------------------------------------------



17

logit gioitinh doc

Logit estimates Number of obs = 200

LR chi2(1) = 0.56

Prob > chi2 = 0.4527


------------------------------------------------------------------------------

gioitinh | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

doc | -.0104367 .0139177 -0.75 0.453 -.0377148 .0168415

_cons | .7260875 .7419612 0.98 0.328 -.7281297 2.180305

------------------------------------------------------------------------------

Kết quả cho thấy điểm bài đọc (doc) không phải là một biến số tiên đoán có ý nghĩa thống kê của

giới tính (cụ thể là ta không tiên đoán được người đó là nam hay nữ dựa vào điểm bài đọc), z = -

0.75, p = 0.453. Tương tự, kiểm định mô hình tổng quát cũng không có ý nghĩa thống kê với Chi

bình phương LR = 0.56, p = 0.4527.

Hồi qui đa biến

Hồi qui đa biến rất giống với hồi qui đơn biến, chỉ khác biệt là trong hồi qui đa biến bạn sẽ có từ 2

biến số tiên đoán trở lên trong công thức. Ví dụ ta sẽ tiên đoán điểm bài viết bằng các biến số giới

tính (gioitinh), điểm bài đọc (doc), điểm toán (toan), điểm khoa học (khoahoc) và điểm nghiên cứu xã

hội (khxh).

regress viet gioitinh doc toan khoahoc khxh

Source | SS df MS Number of obs = 200

-------------+------------------------------ F( 5, 194) = 58.60

Model | 10756.9244 5 2151.38488 Prob > F = 0.0000

Residual | 7121.9506 194 36.7110855 R-squared = 0.6017

-------------+------------------------------ Adj R-squared = 0.5914

Total | 17878.875 199 89.843593 Root MSE = 6.059

------------------------------------------------------------------------------

viet | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

gioitinh | 5.492502 .8754227 6.27 0.000 3.765935 7.21907

doc | .1254123 .0649598 1.93 0.055 -.0027059 .2535304

toan | .2380748 .0671266 3.55 0.000 .1056832 .3704665

khoahoc | .2419382 .0606997 3.99 0.000 .1222221 .3616542

khxh | .2292644 .0528361 4.34 0.000 .1250575 .3334713

_cons | 6.138759 2.808423 2.19 0.030 .599798 11.67772

------------------------------------------------------------------------------

Kết quả cho thấy mô hình tổng quát là có ý nghĩa thống kê (F = 58.60, p = 0.0000). Hơn nữa, tất cả

các biến số tiên đoán đều có ý nghĩa thống kê ngoài trừ điểm bài đọc (doc).

Hồi qui logistic đa biến

Tương tự như hồi qui logistic đơn biến, khác biệt là có từ 2 biến số tiên đoán trở lên. Biến số tiên

đoán có thể là biến số định lượng hoặc biến số câm, nhưng không thể là biến số danh định. Nếu có

một biến số tiên đoán là danh định thì cần được mã hóa thành 1 hoặc nhiều biến số câm. Trong bộ

dữ kiện ytcc ta chỉ có một biến số mã hóa là 0 và 1 là biến số giới tính (gioitinh). Ta đều thấy là giới

tính là một biến số kết cuộc hơi…ngớ ngẩn nhưng ta có thể dùng giới tính như một biến số kết cuộc



18

để minh họa các việc mã hóa được cấu trúc và diễn giải như thế nào. Biến số liệt kê đầu

tiên sau lệnh logistic (hay logit) là biến số kết cuộc (hay biến số phụ thuộc), tất cả các biến

số còn lại là biến số tiên đoán (hay biến số độc lập). Ta có thể sử dụng lệnh logit nếu muốn xem hệ

số hồi qui hoặc lệnh logistic nếu muốn xem tỉ số số chênh. Trong ví dụ sau giới tính (gioitinh) sẽ là

biến số kết cuộc và điểm bài viết (doc) và điểm bài đọc (viet) sẽ là các biến số tiên đoán.

logistic gioitinh doc viet Logit estimates Number of obs = 200

LR chi2(2) = 27.82

Prob > chi2 = 0.0000


------------------------------------------------------------------------------

gioitinh | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

doc | .9314488 .0182578 -3.62 0.000 .8963428 .9679298

viet | 1.112231 .0246282 4.80 0.000 1.064993 1.161564

------------------------------------------------------------------------------

Kết quả cho thấy cả điểm bài viết và điểm bài đọc đều là các biến số tiên đoán có ý nghĩa thống kê

cho giới tính (gioitinh).

End of 1st edition. 25 June 2010.

so tay ytcc phien ban 1

Documents