第六章 方差分析 ( analysis of variance , anova )
DESCRIPTION
第六章 方差分析 ( Analysis of Variance , ANOVA ). 宇传华 [email protected] www.hstathome.com. ANOVA 由英国统计学家 R.A.Fisher 首创,为纪念 Fisher ,以 F 命名,故方差分析又称 F 检验 ( F test )。用于推断多个总体均数有无差异. Contents. §1. One-way analysis of variance 单因素方差分析 §2. Two-way analysis of variance 双因素方差分析 - PowerPoint PPT PresentationTRANSCRIPT
第六章 方差分析 ( Analysis of Variance , ANOV
A )
www.hstathome.com
ANOVA 由英国统计学家 R.A.Fisher 首创,为纪念 Fisher ,以 F命名,故方差分析又称 F 检验 ( F test )。用于推断多个总体均数有无差异
Contents
§1. One-way analysis of variance 单因素方差分析§2. Two-way analysis of variance 双因素方差分析§3. Multiple comparisons in ANOVA 方差分析的多重比较§4. 2×2 Factorial Analysis of variance 2×2 析因设计的方差分析§5. Test for homogeneity of variances 方差齐性检验
§1. One-way analysis of variance单因素方差分析
常用数据:1. 完全随机设计 将个体编号,按随机的方法分配到若干
组中,然后收集各组数据的方法。2. 现存多组定量数据的比较(如老中青不
同年龄的血脂含量分析)
观察数据例 某研究者为了了解男性高校教师的血脂水平,随机抽取了不同年龄组男性各 10名,检测
他们的总胆固醇(TC)含量(mmol / L)结果见表 8-3所示。问:三个年龄组的总胆固醇平均含
量之间的差别是否具有统计学意义?
表 8-3 男性各年龄组总胆固醇含量
组别 总胆固醇(TC)含量(mmol / L) in iY is
青年组 5.06 4.91 4.99 5.24 5.01 4.84 5.24 4.95 5.13 5.27 10 5.51 1.50
中年组 5.18 5.19 4.95 5.26 5.05 5.20 5.22 5.04 5.22 5.31 10 5.16 0.11
老年组 5.30 5.32 5.29 5.16 5.37 5.29 5.27 5.04 5.21 5.25 10 5.25 0.09
合计 30 5.16 0.14
因素也称为处理因素(因素( factorfactor )),每一处理因素至少有两个水平 (level) (也称“处理组”) 。
方差分析的假定条件1. 正态性正态性 各处理组(水平)样本是相互独立的随机样本,其总体服从正态分布; 2. 方差齐性方差齐性 相互比较的各处理组(水平)样本对应的总体方差相等,即具有方差齐同( homogeneity of variance )。
上述条件与两均数比较的 t 检验的应用条件相同。
例 6.1 拟探讨枸杞多糖( LBP )对酒精性脂肪肝大鼠 GSH 谷胱甘肽 ( mg/gprot )的影响,将 36 只大鼠随机分为甲、乙、丙三组,其中甲(正常对照组) 12 只,其余 24 只用乙醇灌胃 10 周造成大鼠慢性酒精性脂肪肝模型后,再随机分为 2 组,乙( LBP 治疗组)12 只,丙(戒酒组) 12 只, 8 周后测量三组 GSH 值。试问三种处理方式大鼠的 GSH 值是否相同?
One-way analysis of variance ( completely random design ANOVA )单因素方差分析(完全随机设计方差分析)
20
40
60
80
100
120
GSH值(
mg /
gpro
t)甲 乙 丙 70. 35总=
83. 15甲= 75. 63乙= 52. 27丙=
k
i
n
jijT
i
XXSS1 1
2)( 2
1 1
( )ink
E ij ii j
SS X X
2
1
)( XXnSS i
k
iiTR
总变异 组内变异 组间变异
离均差平方和( sum of squares, SS)的分解
组间变异
总变异
组内变异
三种“变异”之间的关系离均差平方和分解:
One-Factor ANOVA Partitions of Total Variation
Variation Due to Treatment SSTR
Variation Due to Treatment SSTR
Variation Due to Random Sampling SSE
Variation Due to Random Sampling SSE
Total Variation SSTTotal Variation SST
• Commonly referred to as:Sum of Squares Within, orSum of Squares Error, orWithin Groups Variation
• Commonly referred to as:Sum of Squares Among, orSum of Squares Between, orSum of Squares Model, orAmong Groups Variation
= +
均方差,均方 (mean square , MS)
F 值与 F 分布,
0. 0
0. 2
0. 4
0. 6
0. 8
1. 0
1. 2
1. 4
0 1 2 3 4FF 分布曲线
10,10 21
5,1 21
5,5 21
221
21
122/
22/
121
21
1
21
)(22
2)(
F
F
Ff
=FDIST(3.74,2,14) =FINV(0.05,1,10)
附表 4
F 分布曲线下面积与概率
Basic idea of ANOVA is to compare to variances to test our hyp
othesis--hence, analysis of variance
Compare Within-group estimate of variance ( MSE ) and Between-group estimate of variance ( MSTR ) . If they are similar, values in all groups could have come from same population, means could be the same, cannot reject null hypothesis. If variance among sample means is much larger than variance within samples, then sample means are farther apart than the sampling error of the individual sample means, can reject null hypothesis, means are different.
Basic idea of ANOVA 方差分析基本思想
单因素方差分析表
变异来源 平方和 SS 自由度 均方MS F值
总变异
k
i
n
jijT
i
XXSS1 1
2)(
= 2)1( Sn
1nT
处理组间
k
iiiTR XXnSS
1
2)( 1kTR TRTRTR SSMS TR EF MS MS
组内(误差)
k
i
n
jiijE
i
XXSS1 1
2)(
=
k
iii Sn
1
2)1(
knE EEE SSMS
⒈ 提出检验假设,确定检验水准。 H0: 三个组 GSH 值的总体均数相同; H1: 三个组 GSH 值的总体均数不全相同;
05.0
⒉ 根据公式计算 SS 、 MS 及 F 值完全随机设计的方差分析表
变异来源 平方和 SS 自由度 均方 MS F值
总变异 10530.6003 35
处理组间 6223.8752 2 3111.9376 23.85
组内(误差) 4306.7251 33 130.5068
例 6.1 的方差分析
得 F=23.85> F0.05(2,32)=3.30 。 P<0.05 ,差别有统计学意义,按照 0.05 的显著性水准,拒绝 H0 ,可认为三种处理方式大鼠的 GSH 值不全相同。
Excel 计算方法
Excel 计算结果
SPSS 计算方法
SPSS 结果
§2. Two-way analysis of variance 双因素方差分析
数据类型1. 随机区组设计 (randomized block design) 数据又称为配伍组设计数据。
将受试对象按性质相同或相近者组成 m 个组,称为区组或配伍组,每个区组中有 k 个受试对象,将 k 个受试对象随机地分到处理因素的 k 个水平组的一种设计方法。
2. 现存两种因素资料
数据结构
随机区组设计方差分析的数据结构
A :处理因素 B :区组因素
水平 1 水平 2 … 水平 k
区组 1 11X 21X … 1kX
区组 2 12X 22X … 2kX
… … … … …
区组m mX 1 mX 2 … kmX
方差分析表随机区组设计的方差分析表
变异来源 平方和 SS 自由度 均方MS F值
总变异
k
i
m
jijT XXSS
1 1
2)(
= 2)1( Sn
1nT
处理组间
k
iiA XXmSS
1
2)( 1kA AAA SSMS AA
E
MSF
MS
区组间
m
jjB XXkSS
1
2)( 1mB BBB SSMS BB
E
MSF
MS
误差 BATE SSSSSSSS )1)(1( mkE EEE SSMS
T A B E T A B ESS SS SS SS
例 6.2 为探讨 Rgl对镉诱导大鼠睾丸损伤的保护作用,某研究者将同一窝别的 3 只大鼠随机地分到 T1 、 T2 、 T3 三组,进行不同处理 , 共观察了 10 个窝别大鼠的睾丸MT含量( μg/g )。试问不同处理对大鼠 MT含量有无影响?
例 6.2 三组大鼠MT含量值(μ g/g)
窝别 1T 2T 3T
1 40.6 78.3 116.3
2 44.8 86.0 124.6
… … … …
9 46.8 86.5 128.4
10 44.7 85.3 124.3
20
70
120
170
MT含量值(
m g/g)
对照组 氯化镉组 Rgl +氯化镉86. 13总= 45. 78对= 85. 5氯=
Rgl 127. 11=
⒈ 提出检验假设,确定检验水准
)(0 AH : 321 mmm ,即三组大鼠MT含量的总体均值相同;
)(1 AH : 1m 、 2m 、 3m 不全相同,即三组大鼠MT含量的总体均值不全相同;
)(0 BH : 1021 ,即不同窝别大鼠MT含量的总体均值相同;
)(1 BH : 1 、 2 、…、 10 不全相同,即不同窝别大鼠 MT 含量的总体均值
不全相同; =0.05
⒉ 根据公式计算结果,并整理成方差分析表
随机区组设计的方差分析表
变异来源 平方和 SS 自由度 均方MS F值 P值
总变异 35226.4630 29
处理组间 A 33078.7980 2 16539.3990 341.92 <0.05
区组间 B 1276.9630 9 141.8848 2.93 <0.05
误差 870.7020 18 48.3723
对于 A因素
F =341.92> )18,2(05.0F =3.55, 故 P <0.05,差别有统计学意义,可认为三组大鼠
MT含量的总体均值不全相同,不同处理对大鼠MT含量有影响; 对于因素 B
F =2.93 > )18,9(05.0F =2.46 , 故P <0.05,差别有统计学意义,拒绝 )(0 BH ,可认
为不同窝别的大鼠MT含量的总体均值不全相同。
3.获得 P 值下结论
Tests of Between-Subjects Effects
Dependent Variable: VAR00003
34355.761a 11 3123.251 64.567 .000
222551.307 1 222551.307 4600.797 .000
1276.963 9 141.885 2.933 .025
33078.798 2 16539.399 341.919 .000
870.702 18 48.372
257777.770 30
35226.463 29
SourceCorrected Model
Intercept
VAR00001
VAR00002
Error
Total
Corrected Total
Type III Sumof Squares df Mean Square F Sig.
R Squared = .975 (Adjusted R Squared = .960)a.
VAR00003
Student-Newman-Keulsa,b
10 45.7800
10 85.5000
10 127.1100
1.000 1.000 1.000
VAR000021.00
2.00
3.00
Sig.
N 1 2 3
Subset
Means for groups in homogeneous subsets are displayed.Based on Type III Sum of SquaresThe error term is Mean Square(Error) = 48.372.
Uses Harmonic Mean Sample Size = 10.000.a.
Alpha = .05.b.
拒绝 H 0 ,接受 H 1, 表示总体均数不全相等 哪两两均数相等? 哪两两均数不等? ———>需要进一步作多重比较。
第一节 对例 6.1 作了完全随机方差分析F=23.85 , F> F0.05(2,32), P<0.05 ,差别有统计学意义,拒绝 H0 , 可认为三种处理方式大鼠的 GSH 值不全相同
§3. Multiple comparisons in ANOVA方差分析的多重比较
SNK(Student-Newman-Keuls) 法
•最常用方法之一,其检验统计量为 q ,故又称为 q 检验
)11
(2 BA
E
BA
nnMS
XXq
2 22 1 1 2 2
1 2
( 1) ( 1)
( 1) ( 1)
E
EE C
E
MS
SS n S n SMS S
n n
为误差均方
例 6.1 三组间两两比较
• 将各组的平均值按由大到小的顺序排列
组别 甲 乙 丙 均数 83.15 75.63 52.27
例数 12 12 12
秩次 1 2 3
SNK法两两比较结果表
对比组 组别 q值 a值 q界值(0.05) P值
1 – 2 甲 – 乙 2.28 2 2.89 >0.05
1 – 3 甲 – 丙 9.36 3 3.49 <0.05
2 – 3 乙 – 丙 7.07 2 2.89 <0.05
• 根据前面方差分析有: MSE=130.5068
E A B A B
1-2
1 2
=130.5068 =83.15 =75.63 =12 12
83.15 75.632.28
130.5068 1 11 12 12 122
1 "1 3" 3
A B
E
A B
A B
MS X X n n
X Xq
MSn n
a R R a
例如,第 组与第 组比较
余类推。
其中, ,如 对比,则
• 第 1 组与第 2 组比较: P> 0.05, 不拒绝 H0, 差别无统计学意义 , 尚不能认为甲组与乙组大鼠 GSH 值总体均数不相同;
• 第 1 组与第 3 组比较: P< 0.05, 拒绝 H0, 差别有统计学意义 , 可认为甲组与丙组大鼠 GSH 值总体均数不相同;
• 第 2 组与第 3 组比较: P< 0.05, 拒绝 H0, 差别有统计学意义 , 可认为乙组与丙组大鼠 GSH 值总体均数不相同。
做出推断结论
第四节 2×2 析因设计的方差分析
• 析因设计 (factorial design) 是将多个因素的各个水平进行排列组合,在每一种可能的水平组合下进行试验,以探讨各因素的效应以及各因素之间的交互效应,而且通过比较各种组合效应,找出最佳组合。
2×2 析因设计的数据结构
2× 2析因设计的数据结构
B因素 A因素
1B 2B
1A 111X , 112X …, , rX 11 121X , 122X …, , rX 12
2A 211X , 212X …, , rX 21 221X , 222X …, , rX 22
2×2 析因设计方差分析的目的
•考察 A、 B 两因素的“主效应”
•考察 A、 B 两因素间的“交互效应”
表 6-11 小鼠 BALF 中 IL-4 值( pg/ml)40 只小鼠随机分配到 4 组
A1B1 、 A1B2 、 A2B1 、 A2B2
B1 B2A1 37. 43 37. 94
35. 04 39. 2132. 02 39. 5833. 3 39. 77
36. 83 33. 6336. 88 32. 6230. 58 43. 538. 19 27. 4136. 32 39. 336. 6 46. 43
A2 30. 57 45. 1136. 27 54. 1537. 76 51. 6130. 63 52. 4535. 95 46. 7733. 95 47. 6629. 69 54. 9936. 06 50. 6532. 44 42. 7134. 69 48. 6
例 6.4资料 IL-4值均数整理表
B因素 A因素
1B 2B 均数 12 BB
1A 35.32 37.94 36.63 2.62
2A 33.80 49.47 41.64 15.67
均数 34.56 43.70 39.13 9.14
12 AA -1.52 11.53 5.01
单独效应(simple eff ect):
指其它因素水平固定在一个水平时,某一因素不同水平之间均数的差别。
主效应(main eff ect):某一因素各个水平间的平均差别。
交互效应(interaction eff ect):如果一个因素的单独效应随另一因素的
水平变化而变化,而且其变化幅度不能用随机误差解释时,则称这两个因
素间存在交互效应。
例 6.4资料 IL-4值均数整理表
B因素 A因素
1B 2B 均数 12 BB
1A 35.32 37.94 36.63 2.62
2A 33.80 49.47 41.64 15.67
均数 34.56 43.70 39.13 9.14
12 AA -1.52 11.53 5.01
按照方差分析基本思想,析因设计中,观测值总变异 TSS 可分
解为以下四个部分: A因素变异 ASS 、B因素变异 BSS 、交互作用
AB的变异 ABSS 、误差 ESS 。
EABBAT SSSSSSSSSS
EABBAT
2×2析因设计方差分析表
变异来
源 平方和 SS 自由度 均方MS F值
总变异
2
1
2
1 1
2)(i j
r
kijkT XXSS
2)122( Sr
122 rT
A因素 22
1
)(2 XXrSS ii
A
12 A A
AA
SSMS
E
AA MS
MSF
B因素 2
2
1
)(2 XXrSS j
jB
12 B B
BB
SSMS
E
BB MS
MSF
AB因素
BA
i jijAB
SSSS
XXrSS
22
1
2
1
)( )12)(12( AB
AB
ABAB
SSMS
E
ABAB MS
MSF
误差 ABB
ATE
SSSS
SSSSSS
)1(22 rE E
EE
SSMS
例 6.4 计算得到方差分析表
2×2析因设计方差分析表
变异来源 平方和 SS 自由度 均方MS F值
总变异 2055. 1779 39
A 因素 250. 6504 1 250. 6504 16. 63
B 因素 836. 2188 1 836. 2188 55. 48
AB因素 425. 6910 1 425. 6910 28. 24
误差 542. 6177 36 15. 0727
对于 A因素
A =1, e =36, )36,1(05.0F =4.11。 AF =16.63, )36,1(05.0FFA ,
故 P < 0.05,按照 = 0.05的显著性水准,拒绝 )(0 AH ,
认为 1A组与 2A 组 IL-4值总体均数不相等。
同理,可以得到结论:
1B 组与2B 组 IL-4值总体均数不相等;
A与 B间存在交互效应。
Tests of Between-Subjects Effects
Dependent Variable: VAR00003
1512.560a 3 504.187 33.450 .000
61253.320 1 61253.320 4063.855 .000
250.650 1 250.650 16.629 .000
836.219 1 836.219 55.479 .000
425.691 1 425.691 28.242 .000
542.618 36 15.073
63308.498 40
2055.178 39
SourceCorrected Model
Intercept
VAR00001
VAR00002
VAR00001 * VAR00002
Error
Total
Corrected Total
Type III Sumof Squares df Mean Square F Sig.
R Squared = .736 (Adjusted R Squared = .714)a.
方差分析的使用条件
• 各处理组样本来自随机、独立的正态总体 ------- (W法、 D法、卡方检验推断 )
• 各处理组样本的总体方差相等 ------ Bartlett 检验法 、 Levene 检验法
第五节 方差齐性检验 (Homogeneity of Variance Test)
• Bartlett 检验法:正态分布资料
• Levene 检验法:非正态分布资料
Bartlett 检验法
2
12
Q
Q
1k
k
iici SSnQ
1
221 )ln()1(
k
i i knnkQ
12
1
1
1
)1(3
11
2iS 为第 i组的方差
2cS 为合并方差,即组内或误差均方 EMS
k为比较组数, in为第 i组样本例数, inn 为总例数
如果 H0为真,检验统计量服从 1k 的2 分布
例 6.5 对例 6.1 中三组资料作方差齐性检验。
1.提出检验假设,确定检验水准。
0H : 21 = 2
2 =...= 2k ,即三个总体方差相等;
1H : 21 、 2
2 、...、 2k 不全相等;
=0.05。
2.计算检验统计量。
本例,k =3, 1n =12, 2n =12 , 3n =12, n=36 , 1S =12.30,
2S =11.07, 3S =10.85, EMS =130.5068。则
1Q
k
iici SSn
1
22 )ln()1(
2010.085.10
5068.130ln)112(
07.11
5068.130ln)112(
30.12
5068.130ln)112(
222
3.确定 P值,做出推断结论
自由度 2 ,查2 界值表,
20.05,2 =5.99。
由于2 =0.19,
2,2 05.0
2 , 故 P 0.05,
按照 = 0.05的显著性水准,不拒绝 0H ,
尚不能认为三个总体方差不齐同。
小 结
• 方差分析的基本原理• 完全随机设计的方差分析• 区组设计的方差分析• 多个样本均数间的两两比较 ----SNK 法• 2×2 析因设计的方差分析• 方差齐性检验