第六章 方差分析 ( analysis of variance , anova )

57
第第第 第第第第 Analysis of Variance ANOVA [email protected] www.hstathome.com

Upload: alexandra-zane

Post on 31-Dec-2015

122 views

Category:

Documents


4 download

DESCRIPTION

第六章 方差分析 ( Analysis of Variance , ANOVA ). 宇传华 [email protected] www.hstathome.com. ANOVA 由英国统计学家 R.A.Fisher 首创,为纪念 Fisher ,以 F 命名,故方差分析又称 F 检验 ( F test )。用于推断多个总体均数有无差异. Contents. §1. One-way analysis of variance 单因素方差分析 §2. Two-way analysis of variance 双因素方差分析 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第六章   方差分析 ( Analysis of Variance , ANOVA )

第六章 方差分析 ( Analysis of Variance , ANOV

A )

宇传华 [email protected]

www.hstathome.com

Page 2: 第六章   方差分析 ( Analysis of Variance , ANOVA )

ANOVA 由英国统计学家 R.A.Fisher 首创,为纪念 Fisher ,以 F命名,故方差分析又称 F 检验 ( F test )。用于推断多个总体均数有无差异

Page 3: 第六章   方差分析 ( Analysis of Variance , ANOVA )

Contents

§1. One-way analysis of variance 单因素方差分析§2. Two-way analysis of variance 双因素方差分析§3. Multiple comparisons in ANOVA 方差分析的多重比较§4. 2×2 Factorial Analysis of variance 2×2 析因设计的方差分析§5. Test for homogeneity of variances 方差齐性检验

Page 4: 第六章   方差分析 ( Analysis of Variance , ANOVA )

§1. One-way analysis of variance单因素方差分析

常用数据:1. 完全随机设计 将个体编号,按随机的方法分配到若干

组中,然后收集各组数据的方法。2. 现存多组定量数据的比较(如老中青不

同年龄的血脂含量分析)

Page 5: 第六章   方差分析 ( Analysis of Variance , ANOVA )

观察数据例 某研究者为了了解男性高校教师的血脂水平,随机抽取了不同年龄组男性各 10名,检测

他们的总胆固醇(TC)含量(mmol / L)结果见表 8-3所示。问:三个年龄组的总胆固醇平均含

量之间的差别是否具有统计学意义?

表 8-3 男性各年龄组总胆固醇含量

组别 总胆固醇(TC)含量(mmol / L) in iY is

青年组 5.06 4.91 4.99 5.24 5.01 4.84 5.24 4.95 5.13 5.27 10 5.51 1.50

中年组 5.18 5.19 4.95 5.26 5.05 5.20 5.22 5.04 5.22 5.31 10 5.16 0.11

老年组 5.30 5.32 5.29 5.16 5.37 5.29 5.27 5.04 5.21 5.25 10 5.25 0.09

合计 30 5.16 0.14

因素也称为处理因素(因素( factorfactor )),每一处理因素至少有两个水平 (level) (也称“处理组”) 。

Page 6: 第六章   方差分析 ( Analysis of Variance , ANOVA )

方差分析的假定条件1. 正态性正态性 各处理组(水平)样本是相互独立的随机样本,其总体服从正态分布; 2. 方差齐性方差齐性 相互比较的各处理组(水平)样本对应的总体方差相等,即具有方差齐同( homogeneity of variance )。

上述条件与两均数比较的 t 检验的应用条件相同。

Page 7: 第六章   方差分析 ( Analysis of Variance , ANOVA )

例 6.1 拟探讨枸杞多糖( LBP )对酒精性脂肪肝大鼠 GSH 谷胱甘肽 ( mg/gprot )的影响,将 36 只大鼠随机分为甲、乙、丙三组,其中甲(正常对照组) 12 只,其余 24 只用乙醇灌胃 10 周造成大鼠慢性酒精性脂肪肝模型后,再随机分为 2 组,乙( LBP 治疗组)12 只,丙(戒酒组) 12 只, 8 周后测量三组 GSH 值。试问三种处理方式大鼠的 GSH 值是否相同?

One-way analysis of variance ( completely random design ANOVA )单因素方差分析(完全随机设计方差分析)

20

40

60

80

100

120

GSH值(

mg /

gpro

t)甲 乙 丙 70. 35总=

83. 15甲= 75. 63乙= 52. 27丙=

k

i

n

jijT

i

XXSS1 1

2)( 2

1 1

( )ink

E ij ii j

SS X X

2

1

)( XXnSS i

k

iiTR

总变异 组内变异 组间变异

Page 8: 第六章   方差分析 ( Analysis of Variance , ANOVA )

离均差平方和( sum of squares, SS)的分解

组间变异

总变异

组内变异

Page 9: 第六章   方差分析 ( Analysis of Variance , ANOVA )

三种“变异”之间的关系离均差平方和分解:

Page 10: 第六章   方差分析 ( Analysis of Variance , ANOVA )

One-Factor ANOVA Partitions of Total Variation

Variation Due to Treatment SSTR

Variation Due to Treatment SSTR

Variation Due to Random Sampling SSE

Variation Due to Random Sampling SSE

Total Variation SSTTotal Variation SST

• Commonly referred to as:Sum of Squares Within, orSum of Squares Error, orWithin Groups Variation

• Commonly referred to as:Sum of Squares Among, orSum of Squares Between, orSum of Squares Model, orAmong Groups Variation

= +

Page 11: 第六章   方差分析 ( Analysis of Variance , ANOVA )

均方差,均方 (mean square , MS)

Page 12: 第六章   方差分析 ( Analysis of Variance , ANOVA )

F 值与 F 分布,

Page 13: 第六章   方差分析 ( Analysis of Variance , ANOVA )

0. 0

0. 2

0. 4

0. 6

0. 8

1. 0

1. 2

1. 4

0 1 2 3 4FF 分布曲线

10,10 21

5,1 21

5,5 21

221

21

122/

22/

121

21

1

21

)(22

2)(

F

F

Ff

Page 14: 第六章   方差分析 ( Analysis of Variance , ANOVA )

=FDIST(3.74,2,14) =FINV(0.05,1,10)

附表 4

Page 15: 第六章   方差分析 ( Analysis of Variance , ANOVA )

F 分布曲线下面积与概率

Page 16: 第六章   方差分析 ( Analysis of Variance , ANOVA )
Page 17: 第六章   方差分析 ( Analysis of Variance , ANOVA )

Basic idea of ANOVA is to compare to variances to test our hyp

othesis--hence, analysis of variance

Compare Within-group estimate of variance ( MSE ) and Between-group estimate of variance ( MSTR ) . If they are similar, values in all groups could have come from same population, means could be the same, cannot reject null hypothesis. If variance among sample means is much larger than variance within samples, then sample means are farther apart than the sampling error of the individual sample means, can reject null hypothesis, means are different.

Basic idea of ANOVA 方差分析基本思想

Page 18: 第六章   方差分析 ( Analysis of Variance , ANOVA )

单因素方差分析表

变异来源 平方和 SS 自由度 均方MS F值

总变异

k

i

n

jijT

i

XXSS1 1

2)(

= 2)1( Sn

1nT

处理组间

k

iiiTR XXnSS

1

2)( 1kTR TRTRTR SSMS TR EF MS MS

组内(误差)

k

i

n

jiijE

i

XXSS1 1

2)(

k

iii Sn

1

2)1(

knE EEE SSMS

Page 19: 第六章   方差分析 ( Analysis of Variance , ANOVA )

⒈ 提出检验假设,确定检验水准。 H0: 三个组 GSH 值的总体均数相同; H1: 三个组 GSH 值的总体均数不全相同;

05.0

⒉ 根据公式计算 SS 、 MS 及 F 值完全随机设计的方差分析表

变异来源 平方和 SS 自由度 均方 MS F值

总变异 10530.6003 35

处理组间 6223.8752 2 3111.9376 23.85

组内(误差) 4306.7251 33 130.5068

例 6.1 的方差分析

得 F=23.85> F0.05(2,32)=3.30 。 P<0.05 ,差别有统计学意义,按照 0.05 的显著性水准,拒绝 H0 ,可认为三种处理方式大鼠的 GSH 值不全相同。

Page 20: 第六章   方差分析 ( Analysis of Variance , ANOVA )

Excel 计算方法

Page 21: 第六章   方差分析 ( Analysis of Variance , ANOVA )

Excel 计算结果

Page 22: 第六章   方差分析 ( Analysis of Variance , ANOVA )

SPSS 计算方法

Page 23: 第六章   方差分析 ( Analysis of Variance , ANOVA )

SPSS 结果

Page 24: 第六章   方差分析 ( Analysis of Variance , ANOVA )

§2. Two-way analysis of variance 双因素方差分析

数据类型1. 随机区组设计 (randomized block design) 数据又称为配伍组设计数据。

将受试对象按性质相同或相近者组成 m 个组,称为区组或配伍组,每个区组中有 k 个受试对象,将 k 个受试对象随机地分到处理因素的 k 个水平组的一种设计方法。

2. 现存两种因素资料

Page 25: 第六章   方差分析 ( Analysis of Variance , ANOVA )

数据结构

随机区组设计方差分析的数据结构

A :处理因素 B :区组因素

水平 1 水平 2 … 水平 k

区组 1 11X 21X … 1kX

区组 2 12X 22X … 2kX

… … … … …

区组m mX 1 mX 2 … kmX

Page 26: 第六章   方差分析 ( Analysis of Variance , ANOVA )

方差分析表随机区组设计的方差分析表

变异来源 平方和 SS 自由度 均方MS F值

总变异

k

i

m

jijT XXSS

1 1

2)(

= 2)1( Sn

1nT

处理组间

k

iiA XXmSS

1

2)( 1kA AAA SSMS AA

E

MSF

MS

区组间

m

jjB XXkSS

1

2)( 1mB BBB SSMS BB

E

MSF

MS

误差 BATE SSSSSSSS )1)(1( mkE EEE SSMS

T A B E T A B ESS SS SS SS

Page 27: 第六章   方差分析 ( Analysis of Variance , ANOVA )

例 6.2 为探讨 Rgl对镉诱导大鼠睾丸损伤的保护作用,某研究者将同一窝别的 3 只大鼠随机地分到 T1 、 T2 、 T3 三组,进行不同处理 , 共观察了 10 个窝别大鼠的睾丸MT含量( μg/g )。试问不同处理对大鼠 MT含量有无影响?

例 6.2 三组大鼠MT含量值(μ g/g)

窝别 1T 2T 3T

1 40.6 78.3 116.3

2 44.8 86.0 124.6

… … … …

9 46.8 86.5 128.4

10 44.7 85.3 124.3

20

70

120

170

MT含量值(

m g/g)

对照组 氯化镉组 Rgl +氯化镉86. 13总= 45. 78对= 85. 5氯=

Rgl 127. 11=

Page 28: 第六章   方差分析 ( Analysis of Variance , ANOVA )

⒈ 提出检验假设,确定检验水准

)(0 AH : 321 mmm ,即三组大鼠MT含量的总体均值相同;

)(1 AH : 1m 、 2m 、 3m 不全相同,即三组大鼠MT含量的总体均值不全相同;

)(0 BH : 1021 ,即不同窝别大鼠MT含量的总体均值相同;

)(1 BH : 1 、 2 、…、 10 不全相同,即不同窝别大鼠 MT 含量的总体均值

不全相同; =0.05

⒉ 根据公式计算结果,并整理成方差分析表

随机区组设计的方差分析表

变异来源 平方和 SS 自由度 均方MS F值 P值

总变异 35226.4630 29

处理组间 A 33078.7980 2 16539.3990 341.92 <0.05

区组间 B 1276.9630 9 141.8848 2.93 <0.05

误差 870.7020 18 48.3723

对于 A因素

F =341.92> )18,2(05.0F =3.55, 故 P <0.05,差别有统计学意义,可认为三组大鼠

MT含量的总体均值不全相同,不同处理对大鼠MT含量有影响; 对于因素 B

F =2.93 > )18,9(05.0F =2.46 , 故P <0.05,差别有统计学意义,拒绝 )(0 BH ,可认

为不同窝别的大鼠MT含量的总体均值不全相同。

3.获得 P 值下结论

Page 29: 第六章   方差分析 ( Analysis of Variance , ANOVA )
Page 30: 第六章   方差分析 ( Analysis of Variance , ANOVA )
Page 31: 第六章   方差分析 ( Analysis of Variance , ANOVA )

Tests of Between-Subjects Effects

Dependent Variable: VAR00003

34355.761a 11 3123.251 64.567 .000

222551.307 1 222551.307 4600.797 .000

1276.963 9 141.885 2.933 .025

33078.798 2 16539.399 341.919 .000

870.702 18 48.372

257777.770 30

35226.463 29

SourceCorrected Model

Intercept

VAR00001

VAR00002

Error

Total

Corrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = .975 (Adjusted R Squared = .960)a.

VAR00003

Student-Newman-Keulsa,b

10 45.7800

10 85.5000

10 127.1100

1.000 1.000 1.000

VAR000021.00

2.00

3.00

Sig.

N 1 2 3

Subset

Means for groups in homogeneous subsets are displayed.Based on Type III Sum of SquaresThe error term is Mean Square(Error) = 48.372.

Uses Harmonic Mean Sample Size = 10.000.a.

Alpha = .05.b.

Page 32: 第六章   方差分析 ( Analysis of Variance , ANOVA )

拒绝 H 0 ,接受 H 1, 表示总体均数不全相等 哪两两均数相等? 哪两两均数不等? ———>需要进一步作多重比较。

第一节 对例 6.1 作了完全随机方差分析F=23.85 , F> F0.05(2,32), P<0.05 ,差别有统计学意义,拒绝 H0 , 可认为三种处理方式大鼠的 GSH 值不全相同

§3. Multiple comparisons in ANOVA方差分析的多重比较

Page 33: 第六章   方差分析 ( Analysis of Variance , ANOVA )

SNK(Student-Newman-Keuls) 法

•最常用方法之一,其检验统计量为 q ,故又称为 q 检验

)11

(2 BA

E

BA

nnMS

XXq

2 22 1 1 2 2

1 2

( 1) ( 1)

( 1) ( 1)

E

EE C

E

MS

SS n S n SMS S

n n

为误差均方

Page 34: 第六章   方差分析 ( Analysis of Variance , ANOVA )

例 6.1 三组间两两比较

• 将各组的平均值按由大到小的顺序排列

组别 甲 乙 丙 均数 83.15 75.63 52.27

例数 12 12 12

秩次 1 2 3

Page 35: 第六章   方差分析 ( Analysis of Variance , ANOVA )

SNK法两两比较结果表

对比组 组别 q值 a值 q界值(0.05) P值

1 – 2 甲 – 乙 2.28 2 2.89 >0.05

1 – 3 甲 – 丙 9.36 3 3.49 <0.05

2 – 3 乙 – 丙 7.07 2 2.89 <0.05

• 根据前面方差分析有: MSE=130.5068

E A B A B

1-2

1 2

=130.5068 =83.15 =75.63 =12 12

83.15 75.632.28

130.5068 1 11 12 12 122

1 "1 3" 3

A B

E

A B

A B

MS X X n n

X Xq

MSn n

a R R a

例如,第 组与第 组比较

余类推。

其中, ,如 对比,则

Page 36: 第六章   方差分析 ( Analysis of Variance , ANOVA )

• 第 1 组与第 2 组比较: P> 0.05, 不拒绝 H0, 差别无统计学意义 , 尚不能认为甲组与乙组大鼠 GSH 值总体均数不相同;

• 第 1 组与第 3 组比较: P< 0.05, 拒绝 H0, 差别有统计学意义 , 可认为甲组与丙组大鼠 GSH 值总体均数不相同;

• 第 2 组与第 3 组比较: P< 0.05, 拒绝 H0, 差别有统计学意义 , 可认为乙组与丙组大鼠 GSH 值总体均数不相同。

做出推断结论

Page 37: 第六章   方差分析 ( Analysis of Variance , ANOVA )

第四节 2×2 析因设计的方差分析

• 析因设计 (factorial design) 是将多个因素的各个水平进行排列组合,在每一种可能的水平组合下进行试验,以探讨各因素的效应以及各因素之间的交互效应,而且通过比较各种组合效应,找出最佳组合。

Page 38: 第六章   方差分析 ( Analysis of Variance , ANOVA )

2×2 析因设计的数据结构

2× 2析因设计的数据结构

B因素 A因素

1B 2B

1A 111X , 112X …, , rX 11 121X , 122X …, , rX 12

2A 211X , 212X …, , rX 21 221X , 222X …, , rX 22

Page 39: 第六章   方差分析 ( Analysis of Variance , ANOVA )

2×2 析因设计方差分析的目的

•考察 A、 B 两因素的“主效应”

•考察 A、 B 两因素间的“交互效应”

Page 40: 第六章   方差分析 ( Analysis of Variance , ANOVA )

表 6-11 小鼠 BALF 中 IL-4 值( pg/ml)40 只小鼠随机分配到 4 组

A1B1 、 A1B2 、 A2B1 、 A2B2

B1 B2A1 37. 43 37. 94

35. 04 39. 2132. 02 39. 5833. 3 39. 77

36. 83 33. 6336. 88 32. 6230. 58 43. 538. 19 27. 4136. 32 39. 336. 6 46. 43

A2 30. 57 45. 1136. 27 54. 1537. 76 51. 6130. 63 52. 4535. 95 46. 7733. 95 47. 6629. 69 54. 9936. 06 50. 6532. 44 42. 7134. 69 48. 6

Page 41: 第六章   方差分析 ( Analysis of Variance , ANOVA )
Page 42: 第六章   方差分析 ( Analysis of Variance , ANOVA )

例 6.4资料 IL-4值均数整理表

B因素 A因素

1B 2B 均数 12 BB

1A 35.32 37.94 36.63 2.62

2A 33.80 49.47 41.64 15.67

均数 34.56 43.70 39.13 9.14

12 AA -1.52 11.53 5.01

单独效应(simple eff ect):

指其它因素水平固定在一个水平时,某一因素不同水平之间均数的差别。

Page 43: 第六章   方差分析 ( Analysis of Variance , ANOVA )

主效应(main eff ect):某一因素各个水平间的平均差别。

交互效应(interaction eff ect):如果一个因素的单独效应随另一因素的

水平变化而变化,而且其变化幅度不能用随机误差解释时,则称这两个因

素间存在交互效应。

例 6.4资料 IL-4值均数整理表

B因素 A因素

1B 2B 均数 12 BB

1A 35.32 37.94 36.63 2.62

2A 33.80 49.47 41.64 15.67

均数 34.56 43.70 39.13 9.14

12 AA -1.52 11.53 5.01

Page 44: 第六章   方差分析 ( Analysis of Variance , ANOVA )

按照方差分析基本思想,析因设计中,观测值总变异 TSS 可分

解为以下四个部分: A因素变异 ASS 、B因素变异 BSS 、交互作用

AB的变异 ABSS 、误差 ESS 。

EABBAT SSSSSSSSSS

EABBAT

Page 45: 第六章   方差分析 ( Analysis of Variance , ANOVA )

2×2析因设计方差分析表

变异来

源 平方和 SS 自由度 均方MS F值

总变异

2

1

2

1 1

2)(i j

r

kijkT XXSS

2)122( Sr

122 rT

A因素 22

1

)(2 XXrSS ii

A

12 A A

AA

SSMS

E

AA MS

MSF

B因素 2

2

1

)(2 XXrSS j

jB

12 B B

BB

SSMS

E

BB MS

MSF

AB因素

BA

i jijAB

SSSS

XXrSS

22

1

2

1

)( )12)(12( AB

AB

ABAB

SSMS

E

ABAB MS

MSF

误差 ABB

ATE

SSSS

SSSSSS

)1(22 rE E

EE

SSMS

Page 46: 第六章   方差分析 ( Analysis of Variance , ANOVA )

例 6.4 计算得到方差分析表

2×2析因设计方差分析表

变异来源 平方和 SS 自由度 均方MS F值

总变异 2055. 1779 39

A 因素 250. 6504 1 250. 6504 16. 63

B 因素 836. 2188 1 836. 2188 55. 48

AB因素 425. 6910 1 425. 6910 28. 24

误差 542. 6177 36 15. 0727

Page 47: 第六章   方差分析 ( Analysis of Variance , ANOVA )

对于 A因素

A =1, e =36, )36,1(05.0F =4.11。 AF =16.63, )36,1(05.0FFA ,

故 P < 0.05,按照 = 0.05的显著性水准,拒绝 )(0 AH ,

认为 1A组与 2A 组 IL-4值总体均数不相等。

同理,可以得到结论:

1B 组与2B 组 IL-4值总体均数不相等;

A与 B间存在交互效应。

Page 48: 第六章   方差分析 ( Analysis of Variance , ANOVA )
Page 49: 第六章   方差分析 ( Analysis of Variance , ANOVA )

Tests of Between-Subjects Effects

Dependent Variable: VAR00003

1512.560a 3 504.187 33.450 .000

61253.320 1 61253.320 4063.855 .000

250.650 1 250.650 16.629 .000

836.219 1 836.219 55.479 .000

425.691 1 425.691 28.242 .000

542.618 36 15.073

63308.498 40

2055.178 39

SourceCorrected Model

Intercept

VAR00001

VAR00002

VAR00001 * VAR00002

Error

Total

Corrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = .736 (Adjusted R Squared = .714)a.

Page 50: 第六章   方差分析 ( Analysis of Variance , ANOVA )

方差分析的使用条件

• 各处理组样本来自随机、独立的正态总体 ------- (W法、 D法、卡方检验推断 )

• 各处理组样本的总体方差相等 ------ Bartlett 检验法 、 Levene 检验法

Page 51: 第六章   方差分析 ( Analysis of Variance , ANOVA )

第五节 方差齐性检验 (Homogeneity of Variance Test)

• Bartlett 检验法:正态分布资料

• Levene 检验法:非正态分布资料

Page 52: 第六章   方差分析 ( Analysis of Variance , ANOVA )

Bartlett 检验法

2

12

Q

Q

1k

k

iici SSnQ

1

221 )ln()1(

k

i i knnkQ

12

1

1

1

)1(3

11

2iS 为第 i组的方差

2cS 为合并方差,即组内或误差均方 EMS

k为比较组数, in为第 i组样本例数, inn 为总例数

如果 H0为真,检验统计量服从 1k 的2 分布

Page 53: 第六章   方差分析 ( Analysis of Variance , ANOVA )

例 6.5 对例 6.1 中三组资料作方差齐性检验。

1.提出检验假设,确定检验水准。

0H : 21 = 2

2 =...= 2k ,即三个总体方差相等;

1H : 21 、 2

2 、...、 2k 不全相等;

=0.05。

Page 54: 第六章   方差分析 ( Analysis of Variance , ANOVA )

2.计算检验统计量。

本例,k =3, 1n =12, 2n =12 , 3n =12, n=36 , 1S =12.30,

2S =11.07, 3S =10.85, EMS =130.5068。则

1Q

k

iici SSn

1

22 )ln()1(

2010.085.10

5068.130ln)112(

07.11

5068.130ln)112(

30.12

5068.130ln)112(

222

Page 55: 第六章   方差分析 ( Analysis of Variance , ANOVA )
Page 56: 第六章   方差分析 ( Analysis of Variance , ANOVA )

3.确定 P值,做出推断结论

自由度 2 ,查2 界值表,

20.05,2 =5.99。

由于2 =0.19,

2,2 05.0

2 , 故 P 0.05,

按照 = 0.05的显著性水准,不拒绝 0H ,

尚不能认为三个总体方差不齐同。

Page 57: 第六章   方差分析 ( Analysis of Variance , ANOVA )

小 结

• 方差分析的基本原理• 完全随机设计的方差分析• 区组设计的方差分析• 多个样本均数间的两两比较 ----SNK 法• 2×2 析因设计的方差分析• 方差齐性检验