bao cao.docx
TRANSCRIPT
BÀI 1: Câu A.Ví dụ 3.4/207/Sách BT XSTK 2012 ( NGUYỄN ĐÌNH HUY )
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo 3 yếu tố : pH(A), nhiệt độ (B), va chất xúc tác (C) được trình bày trong bảng sau:
Yếu tố A
Yếu tố B
B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10
A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng.
Bài làm
1. Dạng toán: Phân Tích Phương Sai 3 Yếu Tố
2. Cơ sở lý thuyết:
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố C).
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
B C D A
C D A B
D A B C
A B C D
ThienPhuoc.Tk Page 1
Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố C (T..k. Ví dụ: T..1 = Y111 + Y421 + Y331 + Y241)
Yếu tố AYếu tố B
B1 B2 B3 B4
A1 C1 Y111 C2 Y122 C3 Y133 C4 Y144 T1..
A2 C2 Y212 C3 Y223 C4 Y234 C1 Y241 T2..
A3 C3 Y313 C4 Y324 C1 Y331 C2 Y342 T3..
A4 C4 Y414 C1 Y421 C2 Y432 C3 Y443 T4..
T.i. T.1. T.2. T.3. T.4.
Bảng ANOVA:
Nguồn sai số
Bậc tự do Tổng số bình phươngBình phương trung
bìnhGiá trị thống kê
Yếu tố A
(Hàng)(r-1)
SSR = MSR=
SSR(r−1)
FR=
MSRMSE
Yếu tố B
(Cột)(r-1)
SSC =
∑j=1
r T . j .2
r−
T. . .2
r 2
MSC=
SSC(r−1)
FC=
MSCMSE
Yếu tố C (r-1)SSF =
∑k=1
r T . . k2
r−
T.. .2
r2
MSF=
SSF(r−1)
F=
MSFMSE
Sai số (r-1)(r-2)SSE = SST –
(SSF + SSR + SSC) MSE=
SSE(r−1)(r−2)
Tổng cộng (r2-1)SST =
Trắc nghiệm Giả thiết:
H0: μ1 = μ2 = ...= μk “Các giá trị trung bình bằng nhau” H1: μi ¿ μj “Có ít nhất hai giá trị trung bình khác nhau”
Giá trị thống kê: FR ,FC , F
ThienPhuoc.Tk Page 2
Biện luận:Nếu FR < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố ANếu FC < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố BNếu F < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố C3.Phương pháp giải toán trên Excel :
Giả thiết H0: pH không ảnh hưởng đến hiệu suất phản ứng.Giả thiết H0: Nhiệt độ không ảnh hưởng đến hiệu suất phản ứng.Giả thiết H0: Chất xúc tác không ảnh hưởng đến hiệu suất phản ứng.- Bước 1: Nhập dữ liệu
- Bước 2: Thiết lập các giá trị biểu thức và tính giá trị thống kê
Tính các giá trị Ti…,Tj.. và T..k ,T…
- Các giá trị Ti.. :
Chọn ô B7 và nhập biểu thức “=SUM(B2:E2)”Chọn ô C7 và nhập biểu thức “=SUM(B3:E3)”Chọn ô D7 và nhập biểu thức “=SUM(B4:E4)”Chọn ô E7 và nhập biểu thức “=SUM(B5:E5)”
- Các giá trị T.j. :
Chọn ô B8 và nhập “=SUM(B2:B5)”Dùng con trỏ kéo kí hiệu tự điền từ ô B8 tới ô E8.
- Các giá trị T..k :
Chọn ô B9 và nhập biểu thức “=SUM(B2,C5,D4,E3)”Chọn ô C9 và nhập biểu thức “=SUM(B3,C2,D5,E4)”Chọn ô D9 và nhập biểu thức “=SUM(B4,C3,D2,E5)”Chọn ô E9 và nhập biểu thức “=SUM(B5,C4,D3,E2)”
- Giá trị T.. :
Chọn ô B10 và nhập biểu thức “=SUM(B2:E5)”
ThienPhuoc.Tk Page 3
Tính các giá trị SUMSQ:Ti,Tj,Tk,T,Yij
-Các giá trị SUMSQ Ti Tj Tk: Chọn ô G7 và nhập biểu thức “=SUMSQ(B7:E7)”Dùng con trỏ kéo kí hiệu tự điền từ ô G7 tới G9- G iá trị SQT Chọn ô G10 và nhập biểu thức “=POWER(B10,2)”- G iá trị SUMSQ Y IJ:Chọn ô G11 và nhập biểu thức “=SUMSQ(B2:E5)”
Tính các giá trị SSR, SSC, SSF, SST và SSE
-Các giá trị SSR , SSC và SSF Chọn ô I7 và nhập biểu thức “=G7/4-39601/POWER(4,2)”Dùng con trỏ kéo kí hiệu tự điền từ ô I7 tới I9-Giá trị SSEChọn ô I10 và nhập biểu thức “=I11-SUM(I7:I9)”-Giá trị SSTChọn ô I11 và nhập biểu thức “=G11-G10/POWER(4,2)”
Tính các giá trị MSR. MSC. MSF và MSE
-Các giá trị MSR , MSC và MSF : Chọn ô K7 và nhập biểu thức “=I7/(4-1)”Dùng con trỏ kéo kí hiệu tự điền từ ô K7 tới ô K9-Giá trị MSE : Chọn ô K10 và nhập biểu thức “=I10/((4-1)*(4-2))”
Tính giá trị FR ,FC và F
Chọn ô M7 và nhập biểu thức “=K7/0.3958”Dùng con trỏ kéo kí hiệu tự điền từ ô M7 tới ô M9
ThienPhuoc.Tk Page 4
- Bước 3: Kết quả và biện luận
+ Tính F0.05(3,6) trong Excel như sau: ta nhập hàm “=FINV(0.05,3,6)” sau đó ta được kết quả F0.05(3,6)=4.7570≈ 4.76+ Ta có:FR = 3.10 < F0.05(3,6) = 4.76 chấp nhận Ho (pH)
FC = 11.95 > F0.05(3,6) = 4.76 bác bỏ Ho (nhiệt độ)F = 30.05 > F0.05 (3,6)=4.76 bác bỏ Ho (chất xúc tác)
Vậy chỉ có nhiệt và chất xúc tác gây ảnh hưởng đến hiệu suất.
CÂU B. Ví dụ 4.2/216/Sách BT XSTK 2012 ( NGUYỄN ĐÌNH HUY )Người ta đã dùng ba mức nhiệt độ gồm 105, 120 và 1350C kết hợp với ba khoảng thời
gian là 15, 30, 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất của phản ứng (%) được trình bày trong bảng sau đây:
Thời gian (phút)X1
Nhiệt độ (0C)X2
Hiệu suất (%)Y
15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
60 135 7.26
ThienPhuoc.Tk Page 5
Hãy cho biết yếu tố nhiệt độ và thời gian/ hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 1150C trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
Bài làm
1. Dạng toán: Hồi Quy Tuyến Tính Đa Tham Số
2. Cơ sở lý thuyết:
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến số độc lập Xi (I = 1,2,...,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản.
Phương trình tổng quát:
Ŷx0,x1,...,xk = B0 + B1X1 +B2X2 + ... + BkXk
Bảng ANOVA:
Nguồn sai số Bậc tự doTổng số bình
phươngBình phương
trung bìnhGiá trị thống
kê
Hồi quy K SSRMSR=
SSRk
F=
MSRMSE
Sai số N-k-1 SSEMSE =
MSRMSE
Tổng cộng N-1 SST = SSR + SSE
Giá trị thống kê:
Giá trị R-bình phương:
Giá trị R2 được hiệu chỉnh (Adjusted R Square)
R2=SSRSST
= kF( N−k−1 )+kF
( là khá tốt)
Giá trị R2 được hiệu chỉnh (Adjusted R Square)
( sẽ trở nên âm hay không xác định nếu R2 hay N nhỏ)
Độ lệch chuẩn:
ThienPhuoc.Tk Page 6
S=√ SSE( N−k−1)
( là khá tốt)
Trắc nghiệm thống kê:- Trong trắc nghiệm t:
H0: βi = 0 “Các hệ số hồi quy không có ý nghĩa”.H1: βi ¿ 0 “Có ít nhất vài hệ số hồi quy có ý nghĩa”.
Bậc tự do của giá trị t: = N – k – 1
- Trong trắc nghiệm F:
H0: βi = 0 “Phương trình hồi quy không thích hợp”.H1: βi ¿ 0 “Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi”.
Bậc tự do của giá trị F: v1 = 1, v2 = N – k – 1.3.Phương pháp giải trên Excel :
- Bước 1: Nhập dữ liệu vào bảng tính:
Dữ kiệu nhất thiết phải được nhập theo cột:
- Bước 2: Sử dụng “Regression”
a) Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysisb) Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấn nút OKc) Trong hộp Regression, lần lượt ấn định các chi tiết:- Phạm vi của biến số Y (Input Y Range)
ThienPhuoc.Tk Page 7
- Phạm vi của biến số X (Input X Range)
- Nhãn dữ liệu (Labels)
- Mức tin cậy (Confidence Level)
- Tọa độ đầu ra (Output Range)
- Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (residuals
plots...)
-
*Phương trình hồi quy Y (x1)=f (X1)
ThienPhuoc.Tk Page 8
- Y (x1) = 2,73 + 0,04X1 (R2 = 0,21; S = 1.81)
t0 = 2,1290 < t0,05 = 2,365 ( hay = 0,071 > α = 0,05) Chấp nhận giả thiết H0.(Cách tính t0,05 bằng Excel ta nhập biểu thức sau “=TINV(0.05,7)” kết quả ta thu được t0,05 = 2,365)t1 = 1,3801 < t0,05 = 2,365 ( hay PV = 0,209 > α = 0,05) Chấp nhận giả thiết H0.
F = 1,905 < = 5,591 (hay = 0,209 > α = 0,05) Chấp nhận giả thiết H0.
(Cách tính bằng Excel ta nhập biểu thức sau “=FINV(0.05,1,7)” kết quả ta thu được = 2,365)
Vậy cả 2 hệ số 2,37 (B0) và 0,04(B1) của phương trình hồi quy = 2,73 + 0.04X1 đều không có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy này không thích hợp.
ThienPhuoc.Tk Page 9
Kết Luận: Yếu tố thời gian không liên quan tuyến tính tới hiệu suất của phản ứng tổng hợp.
Phương trình hồi quy:
Y (x2)= -11,141 + 0,13X2 (R2 = 0,76; S = 0,99)
ThienPhuoc.Tk Page 10
t0 = 3,418 > t0,05 = 2,365 ( hay = 0,011 < α = 0,05) bác bỏ giả thiết H0.t2 = 4,757 > t0,05 = 2,365 ( hay PV = 0,00206 < α = 0,05) bác bỏ giả thiết H0.
F=22,631 > = 5,590 (hay =0,00206 < α = 0,05) bác bỏ giả thiết H0.
(Cách tính t0,05 và tương tự ở trên)
ThienPhuoc.Tk Page 11
Vậy cả 2 hệ số -11,14 (B0) và 0,13(B2) của phương trình hồi quy = -11,14 + 0,13X2 đều có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy này thích hợp.
Kết Luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
Phương trình hồi quy
-12,70 + 0,04X1 + 0.13X2(R2 = 0,97; S = 0,33)
ThienPhuoc.Tk Page 12
t0 = 11,528 > t0,05 = 2,365 (hay PV = 2,260 < α = 0,05) => bác bỏ giả thiết H0.t1 = 7,583 > t0,05 = 2,365 (hay PV = 0,00207 < α = 0,05) => bác bỏ giả thiết H0.
t2 = 14,328 > t0,05 = 2,365 (hay PV =7,233 < α = 0,05)=> bác bỏ giả thiết H0.
F = 131,329 > F0,05 = 5,143 (hay FS = 1,112 < α = 0,05) => bác bỏ giả thiết H0.(F0,05 = 5,143 được tính như sau ta nhập hàm “=FINV(0.05,2,6)” kết quả thu được F0,05 = 5,143)
Vậy cả 2 hệ số -12.70 (B0); 0,04 (B1) và 0,13(B2) của phương trình hồi quy -12,70 + 0,04X1 + 0,13X2 đều có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy này thích hợp.
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt độ.
Sự tuyến tính của phương trình -12,70 + 0,04X1 + 0,13X2 có thể được trình bày trên biểu đồ phân tán (Scatterplots).
Cách thực hiện như sau: Chọn tất cả dữ liệu ở cột “Predicted Y” trong bảng “RESIDUAL OUTPUT” trên tab menu chọn Insert => Scatter
0 1 2 3 4 5 6 7 8 9 100
1
2
3
4
5
6
7
8
Hàm l ng th c nghi m (Y)ượ ự ệ
Hàm
lượn
g dự
đoá
n (Y
')
Muốn dự đoán hiệu suất của phản ứng bằng phương trình hồi quy : -12,70 + 0,04X1 + 0,13X2, bạn chỉ cần chọn một ô, ví dụ B21, sau đó nhập hàm và được kết quả như sau:
ThienPhuoc.Tk Page 13
Ghi chú: B17 tọa độ của B0, B18 tọa độ của B1, B19 tọa độ của B2, 50 là giá trị của X1 (thời gian) và 115 là giá trị của X2 (nhiệt độ)
BÀI 2: Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E yêu cầu những
người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống. kết quả như sau:
Thành phố Mức độ thoả mãn
Rất thoả mãn Tương đối Không
A 220 121 63
B 130 207 75
C 84 54 25
D 156 95 43
E 122 164 73
Với mức ý nghĩa = 2%, hãy kiểm định xem mức độ thỏa mãn cuộc sống có phân bố giống nhau trong 5 thành phố trên hay không?
---------------------------------------------------------------------------------------------------------------------
1. Dạng toán: So Sánh Tỷ Số
ThienPhuoc.Tk Page 14
2. Cơ sở lý thuyết:
Giả thiết:
Ho : P1=P1,0;P2= P2,0;….;Pk,0 các cặp Pi và Pi,0 giống nhau.H1 : có ít nhất một cặp Pi và Pi,0 khác nhau.Giá trị thống kê
χ2 =∑i=1
k (Oi−Ei)2
Ei
Oi : các tần số thực nghiệm.Ei : các tần số lý thuyết.
Biện Luận:1 > 2(a) bác bỏ giả thiết Ho (DF=K-1)
Trong Excel có hàm Chitest có thể tính giá trị 2 theo biểu thức:
χ2 =∑j=1
r
∑j=1
c (Oịj−Eịj)2
Eịj
Oi j : các tần số thực nghiệm của ô thuộc hàng thứ I cột j.Ei j : các tần số lý thuyết của ô thuộc hàng thứ I cột j; r là số hàng; c là số cột. Xác suất P(X > χ
2) với bậc tự do DF= (r-1) (c-1)
Nếu P(X >χ2) ¿ ∝ chấp nhận giả thiết Ho và ngược lại.
3.Phương pháp giải trên Excel:
- Bước 1: Nhập dữ liệu vào bảng tính:
ThienPhuoc.Tk Page 15
- Bước 2:Ta đi thiết lập một số biểu thức và tiến hành tính toán:+ Tính các tổng số
Tính tổng hàng tổng cột ta là như sau:chọn dữ liệu từ ô B2->E7
Sau đó nhấn “AutoSum” trên tab Home,ta được kết quả như sau:
+ Tính các tần số lí thuyết:Tần số lí thuyết = (tổng hàng × tổng cột) / tổng cộng
Các tần số tại thành phố A ,B,C,D : - Chọn ô B10 nhập biểu thức sau : “ =$E2*B$7/$E$7 ”- Sau đó kéo tự động điền từ ô B10 sang các ô còn lại , ta được các giá trị cần tính.
ThienPhuoc.Tk Page 16
+ Tính xác suất P(X> χ 2) áp dụng hàm số “CHITEST” trong Excel :* Tính xác suất P(X > χ
2) bằng cách chọn B15 và nhập biểu thức sau:
“ =CHITEST(B2:D6,B10:D14) ”* Hoặc trên tab menu chọn tab Formulas -> Insert Funcion trong hộp thoại mới hiện ra
chọn ngay khung Selection a Funcion->CHITEST.Hộp thoại mới xuất hiện mục Actual_rage (Tần số thực nghiệm) điền B2:D6 ,mục Expected_rage (Tần số lý thuyết) điền B10:D14
Kết quả : P(X > χ 2) = 3.5299.10-13 < α =0.02 => bác bỏ giả thiết H0
Kết Luận: Như vậy mức độ thỏa mãn cuộc sống tại 5 thành phố trên là không giống nhau
ThienPhuoc.Tk Page 17
BÀI 3 : Bảng sau đây cho ta số liệu về màu tóc của 422 người:
Màu tóc Nam Nữ
Đen
Hung
Nâu
Vàng
56
37
84
19
32
66
90
38
Với mức ý nghĩa 1%, nhận định xem số liệu có mối quan hệ giữa màu tóc và giới tính hay không.
Bài làm
1. Dạng toán: Kiểm Định Tính Độc Lập
2. Cơ sở lý thuyết:
- Mục đích: Xét một tổng thể gồm 2 dấu hiện X, Y. Các dấu hiệu này có thể là dấu hiệu định tính hoặc định lượng. Trong trường hợp bài toán nêu trên là cả 2 dấu hiệu đều là dấu hiệu định tính.
- Lấy mẫu kích thước n ta có bảng số liệu như sau:
Trong đó:
- ni (i =1,k) – số lần X nhận xi
- mj (j =1,h) – số lần Y nhận yj
nij (i = 1,...,k ; j = 1,...,h) – số lần đồng thời X nhận xi và Y nhận yj
Kiểm định giả thiết: H0: X và Y độc lập, với mức ý nghĩa α.
ThienPhuoc.Tk Page 18
Tìm từ bảng phân vị χ2 “khi bình phương”
Cách 1: Tính thống kê dựa vào các công thức sau:
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST(nij,γij), với lưu ý số lượng các giá trị của nij và γij phải bằng nhau.
Kết luận
Nếuχ0
2< χα2
→ Chấp nhận giả thiết H0.
Hoặc kết quả hàm CHITEST > α = 0.01 → Chấp nhận giả thiết H0.
3. Phương pháp giải trên Excel :
– Giả thuyết H0: Màu tóc độc lập với giới tính
– Nhập bảng số liệu như hình sau:
Tính các tổng số
+ Tổng hàng (ni) và tổng cột (mj) :Tương tự bài 2,ta chọn từ ô B2 đến ô D6,nhấn “AutoSum” trên tab Home ta được kết quả cần tính
+ Tổng cộng: Vị trí ô D6
ThienPhuoc.Tk Page 19
Tính tần số lý thuyết dựa vào công thức sau:
- Chọn từ ô G2->H5 ta nhấn dấu “=” và nhập tiếp biểu thức sau: “$D2*B$6/$D$6” sau đó nhấn CTRL+ENTER
- Sau cùng ta được kết quả:
Áp dụng hàm số “CHITEST”
Tính xác suất P(X> ) bằng cách chọn ô G7và nhập biểu thức “=CHITEST(B2:C5,G2:H5)”.
ThienPhuoc.Tk Page 20
Kết quả: P(X> ) = 0,000247 < α =0,01 ... Bác bỏ giả thuyết Ho.
Kết Luận: Vậy màu tóc và giới tính có mối liên hệ với nhau.
BÀI 4 : Với mức ý nghĩa 1%, Hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt động kinh tế của các
hộ gia đình ở một vùng nông thôn trên cơ sở bảng số liệu về thu nhập trung bình của một hộ tương ứng với các ngành nghề nói trên như sau:
Nghề chínhNghề phụ
(1) (2) (3) (4)
Trồng lúa (1)
Trồng cây ăn quả (2)
Chăn nuôi (3)
Dịch vụ (4)
3.5
5.6
4.1
7.2
7.4
4.1
2.5
3.2
8.0
6.1
1.8
2.2
3.5
9.6
2.1
1.5
1. Dạng toán: Toán Phân Tích Phương Sai Hai Yếu Tố (Không Lăp):
2. Cơ sở lý thuyết:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Yij(i=1,2….r:yếu tố A;j=1,2…c:yếu tố B)
Mô hình
Yếu tố A Yếu tố B Tổng cộng Trung bình
1 2 … c
Y11
Y12
Y12
Y22
…
…
Y1c
Y2c
Y1
Y2
Ŷ1
Ŷ2
ThienPhuoc.Tk Page 21
…
Yr1
…
Yr2
…
…
…
Yr
…
Yr
…
Ŷr
Tổng cộng T1 T2 … Tc T..
Trung bình Ŷ.1 Ŷ.2 … Ŷ.c Ŷ...
Bảng ANOVA:
Nguồn sai số
Bậc tự do Tổng số bình phươngBình phương trung
bìnhGiá trị thống kê
Yếu tố A
(Hàng)(r-1)
SSB =
∑i=1
r T i2
c−
T. . .2
rcMSB=
SSB(r−1)
FR=
MSBMSE
Yếu tố B
(Cột)(c-1)
SSB =
∑j=1
c T j2
r−
T. . .2
rcMSF=
SSF(c−1 )
FC=
MSFMSE
Sai số (r-1)(c-2)SSE = SST –
(SSF + SSR) MSB=
SSB(r−1)
Tổng cộng (rc-1)SST =
∑i=1
r
∑j=1
c
Y ij
2
−rT . ..
2
¿ ¿
Trắc nghiệm
Giả thiết:
H0: μ1 = μ2 = ...= μk “Các giá trị trung bình bằng nhau”
H1: μi ¿
μj “Ít nhất hai giá trị trung bình khác nhau”
Giá trị thống kê: FR và FC
Biện luận:
Nếu FR < Fα[(b-1),(k-1)(b-1)] → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα[(k-1),(k-1)(b-1)] → Chấp nhận H0 đối với yếu tố B
3. Phương pháp giải trên Excel :
Giả thiết H0: Các giá trị trung bình là bằng nhau
ThienPhuoc.Tk Page 22
Đối giả thiết H1: Các giá trị trung bình là không bằng nhau.
- Bước 1: Nhập dữ liệu
- Bước 2: Áp dụng “Anova: Two – Factor without Replication”
+ Nhấp lần lượt đơn lệnh Data và lệnh Data Analysis
+ Chọn chương trình Anova: Two-Factor Without Replication trong hộp thoại
Data Analysis rồi nhấp nút OK .
+ Trong hộp thoại Anova: Two-Factor Without Replication lần lượt ấn định các chi tiết:
Phạm vi đầu vào (Input Rangle). Chọn từ A1 kéo đến E5 Nhãn dữ liệu (Labels in First Row / Column). Bấm check Ngưỡng tin cậy (Alpha).Nhập Alpha=0.01 Chọn đầu ra (Output Option) điền thông tin mong muốn hoặc check newWorksheet Ply. Nhấp OK.
+ Bảng Anova sau khi hoàn thành
ThienPhuoc.Tk Page 23
- Bước 3:Kết quả và biện luận
FR(rows-Thực nghiệm) = 1,99662<F (crit-Lý thuyết)=6,99192 => chấp nhận giả thiết H0 (các nghề chính tạo ra thu nhập trung bình như nhau.)
FC(columns-Thực nghiệm) = 0,11057 < F (crit-Lý thuyết)=6,99192 => chấp nhận giả thiết H0( các nghề phụ tạo ra thu nhập trung bình như nhau)
Vậy, thu nhập của gia đình giống nhau xét cho nghề chính hay nghề phu.
BÀI 5 :
Bảng sau đây ghi lại kỷ luc thế giới về chạy 1 dặm trong thế kỷ 20:
Năm(X) 1931 1933 1934 1937Thời gian
(Y)4:09.2 4:07.6 4:06.8 4:06.4
X 1942 1942 1942 1943 1944
ThienPhuoc.Tk Page 24
Năm(X) 1911 1913 1915 1923Thời gian
(Y)4:15.4 4:14.6 4:12.6 4:10.4
Y 4:06.2 4:06.2 4:04.6 4:02.6 4:01.6
X 1945 1954 1954 1957 1958Y 4:01.4 3:59.4 3:58 3:57.2 3:54.5
X 1962 1964 1965 1966 1967Y 3:54.4 3:54.1 3:53.6 3:51.3 3:51.1
X 1975 1975 1979 1980 1981Y 3:51 3:49.4 3:49 3:48.9 3:48.8
X 1981 1981 1985Y 3:48.7 3:47.6 3:46.5
a) Tính hệ số tương quan giữa X và Y (đơn vị của Y là giây)b) Tìm đường thẳng hồi quy giữa Y và X.c) Tìm sai số tiêu chuẩn của đường thẳng hồi quy. Kiểm định giả thiết có hồi quy.d) Dựa trên phương trình này ước lượng kỷ luc thế giới năm 2050.e) Ước lượng năm mà kỷ luc thế giới là 3 phút 30 giây.f) Dựa trên phương trình hồi quy ước lượng kỷ luc thế giới năm 2500.Kết quả này có hợp lý hay không?
(Chú thích: 3:48.7 = 3 phút 48.7 giây).
1. Dạng toán: Phân Tích Tương Quan Và Phân Tích Hồi Quy
2. Cơ sở lý thuyết:
Hai biến số ngẫu nhiên Y và X có thể liên quan tuyến tính (ρ=1,ρ=-1), cókhuynh hướng tuyến tính (0<ρ<1) hoặc không có liên quan.Hệ số tương quan Pearson:
ρ X,Y=COV (X , Y )
σ X σ X ; σ X
2
= ;
Sự phân tích tương quan khảo sát khuynh hướng và mức độ của sự liên quan, trong sự phân tích hồi quy xác định lương giữa 2 biến số ngẫu nhiên Y, X.Hệ số tương quan có thể được ước tính bởi biểu thức :
ThienPhuoc.Tk Page 25
Hồi quy tuyến tính đơn giản: Y: biến số phụ thuộcX: biến số độc lậpB0 và B :các hệ số hồi quyBảng ANOVA
Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình
Giá trị trung bình
Hồi quy 1 SSR= MSR=SSRF=
MSRMSE
Sai số N-2 SSE= MSE=SSE/(N-2)
Tổng cộng N-1 SST=
=SSR=SSE
Giá trị thống kê:
- Giá trị R-Bình phương(R-square): R=SSRSST
(100R2: là % của biến đổi trên Y được giải
thích bởi X).
- Độ lệch chuẩn (Standard Error): S=√ 1N−2
∑ (Y i−Y i' )2
(Sự phân tán của dữ liệu càng ít thì giá trị của S càng gần 0)Trắc nghiệm thống kê: Đối với một phương trình hồi quy,
, ý nghĩa thống kê của các hệ số Bi(B0 và B) được đánh giá bằng trắc nghiệm t(phân phối Student)trong khi tính chất thích hợp của phương
trình được đánh giá bằng trắc nghiệm F(phân bố Fisher)Trắc nghiệm t:-Giả thiết: H0:βi =0 “Hệ số hồi quy không có ý nghĩa” H0: βi≠0 “Hệ số hồi quy có ý nghĩa”-Giá trị thống kê:
Phân bố Student γ=N-2
ThienPhuoc.Tk Page 26
-Biện luận: Nếu t<tα (N-2) => chấp nhận giả thiết H0
Trắc nghiệm F-Giả thiết : H0: β0=0 “Phương trình hồi quy không thích hợp” H0: β0=0 “Phương trình hồi quy thích hợp”
-Giá trị thống kê: F=MSRMSE
Phân bố Fisher v1=1, v2=N-2-Kết luận: Nếu F<F0(1,N-2) => chấp nhận giả thiết H0
3.Phương Pháp Giải Trên Excel :
- Bước 1: Nhập dữ liệu và chuyển đổi dữ liệu
+ Dữ liệu nhất thiết phải được nhập theo cột+ Chuyển đổi đơn vị thời gian của Y thành giây
- Bước 2: Tính toán các câu a,b,c,d,e,fCâu a:Tính hệ số tương qua giữa X và Y
+ Vào Data(Dữ liệu) Data analysis(Phân tích dữ liệu), chọn Correlation(Tương Quan)
ThienPhuoc.Tk Page 27
+ Input Range(Phạm vi đầu vào), quét vùng (A1:B32).
+ Group By, chọn Columns (nhóm theo cột).+ Chọn Labels in first row (nhãn dữ liệu ở hàng đầu).+ Output Range (Xuất dữ liệu) chọn New Worksheet Ply
+ Kết quả ta thu được:
Câu b: Tìm đường thẳng hồi quy:+ Giả thiết :
H0: Phương trình hồi quy không thích hợp. Đối với H0 là H1: Phương trình hồi quy thích hợp.
+ Quay trở lại dữ liệu bài toán
ThienPhuoc.Tk Page 28
+ Chon Data → Data Analysis(Phân tích dữ liệu)→Regression(Hồi Quy)
+ Một hộp thoại xuất hiện ta điện các thông số như sau: Chọn phạm vi của biến số Y (Input Y Range): chọn B1:B32 Chọn phạm vi của biến số X (Input X Range): chọn A1:A32 Chọn nhãn dữ liệu (Lables) Mức tin cậy ( Confidence Level) : 95% Chọn Line Fit Plots (Đường hồi quy)
+ Kết quả ta thu được như sau:
ThienPhuoc.Tk Page 29
Phương trình hồi quy YX= f(X) YX=1022.8-0.4X t0=47.858> t0.05=2.045 => Bác bỏ giả thiết H0
(t0.05 ta tính như sau: “=TINV(0.05,29)” )t1=36.677>t0.05=2.045 => Bác bỏ giả thiết H0
(t0.05 ta tính như sau: “=TINV(0.05,29)” )
F=1345.2 > F0.053 = 4.18 => Bác bỏ giả thiết H0
(F0.053 ta tính như sau “=FINV(0.05,1,29)” )
Kết luận: Vậy cả hai hệ số của phương trình hồi quy YXi=1022.8-0.4X đều có ý nghĩa thống kê.Vậy X và Y có liên quan tuyến tính với nhau. Phương trình đường thẳng hồi quy của Y và X là :YX=1022.8-0.4X
Câu c: Sai số tiêu chuẩn (Standard Error) là: 21.3721915
ThienPhuoc.Tk Page 30
Câu d: Dựa trên phương trình này ước lượng kỷ lục thế giới 2050
Kỷ lục thế giới 2050 ta có X=2050 thế vào phương trình ta đượcY=1022.8-0.4*2050=202.8 (giây) =3 phút 22.8 giây.Vậy kỷ lục thế giới ở năm 2050 là 3 phút 22.8 giây
Câu e: Năm kỷ lục thế giới là 3 phút 30 giây = 210 giây.
Ta có YX=210=1022.8-0.4X X=2032Vậy kỷ lục thế giới là 3 phút 30 giây ước lượng đạt được năm 2032
Câu f: Ước lượng kỷ lục năm 2500
Ta có X=2500.Thay vào phương trình hồi quy:YX=1022.8-0.4*2500=22.8 giâyKết quả này không hợp lý
ThienPhuoc.Tk Page 31