phân tích sốliệu sửdụng r: ống kê mô tả · 2013. 7. 29. · 2 thang đo lường 4...
Post on 26-Jan-2021
3 Views
Preview:
TRANSCRIPT
-
1
Phân tích số liệu sử dụng R:Thống kê mô tả
Nguyễn Bá Thanh
1
Tổng quan
• Đo lường• Tập hợp và mẫu• Tóm tắt dạng số liệu: trung bình, phương sai,
độ lệch chuẩn, sai số chuẩn• Phân tích đồ thị• Chuyển đổi dữ liệu
2
Thang đo lường• Thông thường, hầu hết các
hành vi quan sát được có thể đo lường bằng thang ratio
• Các biến tâm lý thường đo bằng thang interval
• Có hai loại biến: Biến phân loại (nominal) và biến liên tục (ordinal, interval, ratio)
3
Phân loại Liên tục
ordinal
interval
ratio
Biến
-
2
Thang đo lường
4
• Nominal—Định danh, Biến phân loại không có thứ tự. Ví dụ như giới tính, màu tóc, có mặt, vắng mặt
• Ordinal—Có thứ tự nhưng không có khoảng cách giữa các điểm khác nhau trong thang. Ví dụ như giai cấp xã hội, cấp bậc, giáo dục (tiểu học, trung học, đại học…)
• Interval— Có khoảng cách bằng nhau giữa các vị trí kế tiếp nhau trong thang, nhưng vị trí 0 có sự thay đổi. Ví dụ về đo nhiệt độ ở các thang khác nhau.
• Ratio—Thang đo lường cao nhất, có thể điều tra mức độ liên hệ của các điểm như sự khác biệt giữa chúng. Vị trí 0 là cố định. Ví dụ đo nhiệt độ, tuổi, cân nặng, chiều cao.
Thang Ordinal • Ordinal: Biến thứ bậc, thứ hạng
– Không chắc chắn khoảng cách giữa các số là như nhau.– Vị trí hoàn thành trên đường đua (vị trí thứ 1, vị trí thứ 2)
5
1 hour 2 hours 3 hours 4 hours 5 hours 6 hours 7 hours 8 hours
1st place 2nd place 3rd place 4th place
Thang Interval và Ratio • Interval: Sắp xếp theo khoảng cách có trật tự• Khoảng cách giữa số 1-2 bằng khoảng cách 3-4
– Ví dụ: Chỉ số IQ thông thường sử dụng thang interal
• Ratio: designates an equal-interval ordering with a true zero point (i.e., the zero implies an absence of the thing being measured)– Ví dụ: số mối quan hệ thân thiết một người có
• Số “0” có ý nghĩa là không có• Một người có 4 mối quan hệ,gấp 2 lần nguời có 2 mối quan
hệ6
-
3
Thống kê: Enquiry to the unknown
Tập hợp MẫuTham số Ước lượng
7
Ước lượng giá trị trung bình của tập hợpChiều cao trung bình của dân số Việt Nam = 160 cm
Độ lệch chuẩn (standard deviation) = 5.0 cm
8
ht
-
4
Tóm tắt về dữ liệu liên tục• Đo lường xu hướng tại tâm:
– Trung bình(mean), số trung vị (median), số mode
• Đo lường sự phân phối của số liệu:– Phương sai, độ lệch chuẩn, sai số chuẩn– Khoảng phần tư (interquartile range)
10
R commandslength(x), mean(x), median(x), var(x), sd(x)summary(x)
Ví dụ trên Rheight
-
5
Đồ thị đường thẳng-Strip chart
13
30 40 50 60 70 80
Tính liên tục của số liệu
Đồ thị tần số - Histogram
14
Histogram of height
height
Freq
uenc
y
30 40 50 60 70 80 90
050
100
150
200
250
Ý nghĩa của giá trị trung bình và SD• “Dân số Việt Nam trên 30 tuổi, nặng trung bình
55.0 kg và độ lệch chuẩn là 8,2 kg.”• Điều này có ý nghĩa gì?
15
• 68% dân số trên có chiều cao khoảng từ 55 +/- 8.2*1 = 46.8 đến 63.2 kg
• 95% dân số trên có chiều cao khoảng từ 55 +/- 8.2*1.96 = 38.9 đến 71.1 kg
-
6
Ý nghĩa của giá trị trung bình và SD• Phân phối về khối lượng của toàn bộ dân số có
thể được thể hiện như sau:
16
1SD
1.96SD
Số liệu dạng phân loại
• Số liệu phân loại: – Giới tính: nam, nữ– Chủng tộc: Á, Âu, Phi
• Số liệu bán định lượng: – Tình trạng bệnh tật: ôn hòa, khá, nghiêm trọng– Giai đoạn của bệnh ung thư: I, II, III, IV– Ưa thích: Rất không thích, không thích, không ý
kiến, thích, rất thích
17
Giá trị trung bình và phương sai của tỉ lệ
• Một người tiêu dùng i có xác suất thích sản phẩm A là pi. Đảm bảo rằng tất cả người tiêu dùng đều độc lập, với xác suất là pi = p.
• Phương sai của pi là var(pi) = p(1-p)
18
• Đối với một mẫu trong n người tiêu dùng, xác suất ước lượng mức độ ưa thích đối với sản phẩm A là:
nppppp n ...321
Và phương sai của p là:
nppp 1var
-
7
Xấp xỉ phân phối thường của một phân phối nhịthức
• Đối với cá nhân người tiêu dùng i, xác suất thích sản phẩm A là pi. Đảm bảo rằng tất cảngười tiêu dùng là độc lập thì pi = p.
• Phương sai của pi là var(pi) = p(1-p)
19
• Đối với 1 mẫu của n người tiêu dùng, xác suất ước lượng mức độ ưa thích sản phẩm A là:
nppppp n ...321
Và phương sai của p là:
nppp 1var
Độ lệch chuẩn: n
pps 1
Xấp xỉ phân phối thường của một phân phối nhị thức
• 10 người, 8 người thích A. • Tỉ lệ ưa thích A: p = 0.8• Phương sai: var(p) = 0.8(0.2)/10 = 0.016• Độ lệch chuẩn của p: s = 0.126• 95% CI of p: 0.8 + 1.96(0.126) = 0.55 to 1.00
20
Thống kê mô tảDữ liệu liên tục
21
-
8
Paired t-test• Số liệu liên tục• Phân phối chuẩn• Hai mẫu không độc lập (phụ thuộc)
22
Paired t-test – ví dụ• Vấn đề: Đánh giá một loại thịt dưới ánh sáng trắng và ánh sáng đỏ
về mức độ ưa thích loại thịt. 12 người tham gia được hỏi đánh giá mức độ đỏ của thịt dưới ánh sáng đỏ và ánh sáng trắng
23
Kết quả:Người AS đỏ AS trắng1 20 222 18 193 19 174 22 185 17 216 20 237 19 198 16 209 21 2210 17 2011 23 2712 18 24
Paired t-test – phân tích
24
Người AS đỏ AS trắng Sự khác biệt
1 20 22 2
2 18 19 1
3 19 17 -2
4 22 18 -4
5 17 21 4
6 20 23 3
7 19 19 0
8 16 20 4
9 21 22 1
10 17 20 3
11 23 27 4
12 18 24 6
GTTB 21.0 19.2 1.83
SD 2.8 2.1 2.82
Sự khác biệt: 1.83,
SD: 0.81
Sai số chuẩn (SE): SD/sqrt(n) = 0.81/sqrt(10) = 0.81
T-test = (1.83 – 0)/0.81 = 2.23
P-value = 0.0459
Kết luận: Có sự khác nhau có ý nghĩa về hiệu ứng màu sắc của ánh sáng.
-
9
Paired t-test – R phân tíchred < -c(20,18,19,22,17,20,19,16,21,17,23,18)white < -c(22,19,17,18,21,23,19,20,22,20,27,24)t.test(red, white, paired=TRUE)
25
data: red and white t = -2.2496, df = 11, p-value = 0.04592alternative hypothesis: true difference in means is not
equal to 0 95 percent confidence interval:-3.6270234 -0.0396433 sample estimates:mean of the differences
-1.833333
Two-sample t-test
26
Mẫu Nhóm 1 Nhóm21 x1 y1 2 x2 y23 x3 y34 x4 y45 x5 y5… …n xn ynKích thước n1 n2GTTB x y
SD sx sy
Sự khác biệt:
D = x – y
Phương sai của D:
T-statistic:
95% khoảng tin cậy:
Two-group comparison: Ví dụ
ID A B
1 3 3
2 7 1
3 1 2
4 9 4
5 3 5
6 4 2
7 1 2
8 2 5
9 6 3
10 7 2
27
ID A B11 5 312 8 413 5 214 9 315 4 516 6 417 4 318 3 119 9 320 5 2
20 người tiêu dùng đánh giá mức độ ưa thích của hộ đối với 2 món ăn tráng miệng làm từ gạo (A & B)
-
10
Unpaired t-test -dùng Ra
-
11
Giải thích số liệu Phân màn hình thành 1
dòng 2 cộtpar(mfrow=c(1,2))hist(g1)hist(g2)
31
Histogram of g1
g1
Fre
quen
cy
0 10 20 30 40 50 60
05
1015
Histogram of g2
g2
Fre
quen
cy
0 5 10 20 30
05
1015
Group 1:mean(g1) = 14.3sd(g1) = 15.7
Group 2:mean(g2) = 7.7sd(g2) = 7.8
Phân tích lại số liệu về lysozyme log.g1
-
12
So sánh hai tỉ lệ - Giả thiết
34
Nhóm1 2
____________________________________________
Kích thước mẫu n1 n2Số sự kiện e1 e2Tỉ lệ của sự kiện p1 p2
Sai khác biệt: D = p1 – p2Sai số khác biệt: SE = [p1(1–p1)/n1 + p2(1–p2)/n2]1/2Z = D / SE95% CI: D + 1.96(SE)
Với (n1 + n2) > 20, và nếu Z > 2, có thể từ chối giả thiết Ho.
So sánh hai tỉ lệ- Ví dụ
35
GroupHeroine Cocaine
__________________________________________
Sample size 100 100Number of deaths 90 36Mortality rate 0.90 0.36
Thirty-day mortality rate (%) of 100 rats who had been exposed to heroine or cocain.
Phân tích
Difference: D = 0.90 – 0.36 = 0.54SE (D) = [0.9(0.1)/100 + 0.36(0.64)/100]1/2
= 0.057Z = 0.54 / 0.057 = 9.54
95% CI:0.54 + 1.96(0.057)0.43 to 0.65
Kết luận: Từ chối giả thiết Ho.
So sánh 2 tỉ lệ - Revents
-
13
So sánh hơn 2 tỉ lệ –Phân tích Chi square
table(sex, ethnicity)ethnicity
sex African Asian Caucasian OthersFemale 4 43 22 0Male 4 17 8 2
37
females
top related