第九章 方差分析及回归分析

Post on 04-Jan-2016

99 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

第九章 方差分析及回归分析. 第 14 讲 ( A ) 福建师范大学福清分校数计系. §1 单因素试验的方差分析. (一)单因素试验 见课本 P241 几个概念 1. 试验指标 :在试验中将要考察的指标称为试验指标 例如课本例 1 :三台机器生产规格相同的铝合金薄板,考察各台机器所生产的铝合金薄板的厚度情况。则试验指标就是铝合金金薄板的厚度。 又如课本例 2 :考察用于计算器的四种类型的电路的响应时间情况,这里试验指标就是电路的响应时间。 又如课本例 3 :考察火箭的推进器和燃料对火箭的射程的影响情况。这里试验指标就是火箭的射程. - PowerPoint PPT Presentation

TRANSCRIPT

1

第九章

方差分析及回归分析

第 14 讲 ( A )

福建师范大学福清分校数计系

2

§1 单因素试验的方差分析• (一)单因素试验 见课本 P241• 几个概念

1. 试验指标:在试验中将要考察的指标称为试验指标• 例如课本例 1 :三台机器生产规格相同的铝合金

薄板,考察各台机器所生产的铝合金薄板的厚度情况。则试验指标就是铝合金金薄板的厚度。

• 又如课本例 2 :考察用于计算器的四种类型的电路的响应时间情况,这里试验指标就是电路的响应时间。

• 又如课本例 3 :考察火箭的推进器和燃料对火箭的射程的影响情况。这里试验指标就是火箭的射程

3

2. 因素:影响试验指标的条件称为因素。因素分为可控因素和和不可控因素两类。见课本 P241 。以下我们所说的因素都是指可控因素。

• 例如课本例 1 :机器为因素• 又如课本例 2 :电路类型为因素• 又如课本例 3 :推进器和燃料是因素

4

3. 因素的水平:因素所处的状态称为因素的水平。

• 例如课本例 1 :不同的三台机器就是机器这个因素的三个不同的水平。即机器Ⅰ、机器Ⅱ、机器Ⅲ。

• 又如课本例 2 :不同的四种电路类型就是电路类型这个因素的四个不同的水平。即:类型Ⅰ、类型Ⅱ、类型Ⅲ、类型Ⅳ。

• 又如课本例 3 :推进器这个因素有三个水平 B1 、 B2 、 B3 ;燃料这个因素有四个水平 A1 、 A2 、 A3 、 A4 。

5

4. 单因素试验:如果在一项试验中只有一个因素在改变称为单因素试验;例如例 1 和例 2是单因素试验

5. 多因素试验:如果在一项试验中多于一个因素在改变称为多因素试验;例如例 3 是多因素试验。

6

下面讨论单因素试验的方差分析

• 设因素 A 有 S 个水平, 在水平 下, 进行 次独立试验,得到如下表的结果:

1 2, , , SA A A1 2, , , SA A A1 2, , , SA A A1 2, , , SA A A1 2, , , SA A A1 2, , , SA A A( 2)jn j ( 2)jn j

1 2, , , SA A A

( 1,2, , )jA j s ( 2)jn j

7

水平观察值

样本总和

样本均值

总体均值 1 2 s1x 2x sx

1T 2T ST

1

11

21

1n

x

x

x

2

12

22

2n

x

x

x

1

2

s

s

s

n s

x

x

x

1A 2A SA

8

21 2

2

( 1,2, , )

, , ,

( 1,2, , ) ( , )

j

j j nj

j j j

A j s

x x x

j s N

来自具有相同方差 均值分别为

的正态总体 , 与 均未

知,且

我们假定各个水

设不同水平下的样本之间相

平 下的样本

互独立。

2

2

( , )

(0, )

ij j

ij j

ij j

x N

x N

x

即有

故 可看成是随

由于

机误差。

9

2(0, )ij jx N

2

, 1, 2, , , 1, 2, ,1.1

0,

ij j ij

ij j ij j

ij ij

x

x i n j s

N

记 则

且各 相互独立

2

1.1

j 其中 与 均为未知参数。

式称为单因素试验方差分析的数学模型。

这是本节要研究的对象。

10

方差分析的任务是对于模型( 1.1 )进行:

2 2 21 2

0 1 2

1 1 2

1 , , , , , ,

: 1.2

: , , ,

S

S

S

S N N N

H

H

检验 个总体

的均值是否相等,即检验假设:

不全相等

21 22 , , , ,S 作出未知参数 的估计

11

为了将( 1.2 )式写成便于讨论的形式,记:

1 21

s

s jj

n n n n n

表示表中所有样本的总数

1

11.3

s

j jj

nn

称为总平均

j j jA 称为水平 的效应

1 1 2 2 0s sn n n 则有:

12

1 1 2 2 0s sn n n 则有:

1 1

s s

j j jj j

n n

1 1 2 2 s sn n n 事实上

1 1 2 2( ) ( ) ( )s sn n n

0

n n

:j j jA 表示水平 下总体均值与总平均的差异。

13

从而( 1.1 )式单因素试验方差分析的数学模型可改写为:

2

'

1

(0, ) ,

1.11,2, , ; 1,2, ,

0

ij j ij

ij ij

s

j jj

x

N

i n j s

n

各 相互独立

'0 1 2

1 1 2

1.2

: 01.2

: , , ,S

S

H

H

那么假设 等价于假设:

不全为零

14

1 2 0S 下面证:

1 2 0

0

1.2

1,2, ,=S

j j s

因为 式中的假设为:

即:

1

0 0 0 01 1 1

1 1 1 1

s

jj

s s s

j j j jj j j

n n

n n n nn n n n

0 0

0 1,2, ,

j j

j j j j s

即 由假设 从而

15

'0 1 2

1 1 2

: 01.2

: , , ,S

S

H

H

为了检验假设:

不全为零

需确定检验统计量和拒绝域。下面分别讨论这两个问题。

16

(二)平方和的分解• 首先记住下列公式:

1 1

11.

jns

ijj i

x xn

数据的总平均:

2

1 1

2.jns

T ijj i

S x x

总偏差平方和:

1

13.

jn

jj ijij

A x xn

水平 下的样本平均值:

17

2

1 1

4.jns

jE ijj i

S x x

误差平方和:

2

1 1

5.jns

jAj i

A S x x

因素 的效应平方和:

2

1

s

jjj

n x x

2 2

1j

s

jj

n x nx

6. T E AS S S 平方和分解式:

18

事实上:

2

1 1

jns

T ijj i

S x x

2

1 1

jns

j jijj i

x x x x

2

1 1

jns

j jijj i

x x x x

2 2

1 1 1 1 1 1

2j j jn n ns s s

j j j jij ijj i j i j i

x x x x x x x x

19

上式的最后一项

1 1

2jns

j jijj i

x x x x

1 1

2jns

j jijj i

x x x x

1 1

2jns

j jij jj i

x x x n x

1 1

12

jns

j jj ij jj ij

x x n x n xn

20

1

2 0s

j j jj jj

x x n x n x

1 1

12

jns

j jj ij jj ij

x x n x n xn

2 2

1 1 1 1

j jn ns s

j jT ijj i j i

S x x x x

所以:

E AS S

21

,E AS S三 的统计特性

ES先讨论 的统计特性

2

1 1

jns

jE ijj i

S x x

1 22 2 2

1 21 21 1 1

snn n

si i isi i i

x x x x x x

22

1

,

1

jn

jij ji

j

x x N

n

因为 是总体 的样本方差

的 倍,于是有:

2

212

1

jn

jiji

j

x xn

22

2

1,2, ,

,

j

j

A j s

N

事实上,对于每一个水平 都

代表一个正态总体 ,其样本方差为:

2

2

1

11,2, , 1

1

jn

jj ijij

S x x j sn

22152

2111

n SnP

据 第六章的定理 知:

2

22

11 2

j j

j

n Sn

从而

2

212

1 , 2 1

jn

jiji

j

x xn

比较 即得:

23

2

1 1

:jns

jE ijj i

S x x

因为

1 22 2 2

1 21 21 1 1

snn n

si i isi i i

x x x x x x

2由 分布的可加性得:

22

1

1S

Ej

j

Sn

2

2ES n s

即:

2

,E

E

S n s

E S n s

由上式知 的自由度为 且有:

24

AS下面讨论 的统计特性

2

1 1

jns

jAj i

S x x

2

1

s

jjj

n x x

2 2 2

1 21 2 ssn x x n x x n x x

2 2 2

1 21 2 ssn x x n x x n x x

25

2 2 2

1 21 2 ssn x x n x x n x x

1,2, , jjS n x x j s 它是 个变量 的平方和,

它们之间仅有一个线性约束条件:

1 1

s s

j jj j jj j

n n x x n x x

1 1 1 1

1j jn ns s

ij ijj i j i

x nx n x nxn

0nx nx

1AS s 故知 的自由度是

26

1 1 1

1 1 jns s

j j ij ijj j i

n x x xn n

由 和 及 的独立性知:

2,x N n 即得:

2 2

1

s

jA jj

E S E n x nx

2 2

1

s

jjj

n E x nE x

2 2

2 2

1

s

jj jj j

j

n nn n

27

2 2

2 2

1

s

j jj j

n nn n

2 2

2 2 2

1

2s

j j jj j

n nn n

2 2 2 2 2

1 1 1 1

2s s s s

j j j j jj j j j

n n n n

2 2 2 2 2

1 1

0s

j

s

jjj

jj

ns n n n

2 2

1

1s

j jj

s n

2 2

1

1s

A j jj

E S s n

即:

28

2

1 1 2152 2 2

1 1

jnS

ijj iT

x xS

P n

据 定理 知:

22ES n s

上面已证得:

T E AS S S 又平方和分解式:

20

22

1A

H

Ss

当 为真时,由 分布的可加性得:

1 1TS n n s s 的自由度

29

2 2

1

1s

A j jj

S s n

上面已求得:

(四)假设检验问题的拒绝域

20 1 2

1

: 0 0s

S j jj

H n

当假设 为真时, =

2

1AS

s

即 是 的无偏估计。2

1ASE

s

21 1 2 1

1

: , , , 0s

S j jj

H H n 而当 不全为零,即 为真时, >

2 2 2

1

1

1 1

sA

j jj

SE ns s

此时

30

2 2EE

SE S n s E

n s

又 则

20 EH S n s 即,不管 是否为真, 都是 的无偏估计

20

20

20

1

,

A

E

A

S sF

S n s

H

H

H

S

综上所述,分式 的分子与分母独立。

分母不论 是否为真,其数学期望总是

对于分子,当 为真时,其数学期望是

当 不真时,其数学期望大于

即 的取值有偏大的趋势

31

0 1 2: 0SH 所以检验问题:

1A

E

S sF k

S n s

的拒绝域具有形式:

1 1 2: , , , SH 不全为零

0

2 2 22

,

1

A E

AE

k

S S H

Ss S n s

其中 由预先给定的显著性水平 确定,由 的独立性及当 为真时,

32

2

2

111,

A

A

EE

SsS n

F s n sSS n s n s

1

1,A

E

S sF F s n s

S n s

由此得检验问题的拒绝域为:

上述分析的结果,可列成下表方

的差

形式,称为 分析表。

0H从而,当 为真时

33

均方

总和

误差

因素 A

F 比自由度平方和方差来源

AS 1s 1A

AS

Ss

A

E

SF

S

ES

TS

n s

1n

EE

SS

n s

方差分析表

34

, , .T A ES S S在实际中,我们可以按以下较简的公式来计算

1

1,2, ,jn

j iji

T x j s

1 1

jnS

ijj i

T x

222 2

1 1 1 1

j jn ns s

T ij ijj i j i

TS x nx x

n

2 22

1 1

s sj

jA jj j j

T TS n x nx

n n

E T AS S S

35

综上所述,得出单因素方差分析要进行的检验步骤归纳如下:

0 1 2

1 1 2

1. :

: , , ,S

S

H

H

假设

不全相等

12. A

E

S sF

S n s

选取检验统计量

3. 1,

11,A

E

F F s n s

S sF F s n s

S n s

在水平 下查 分布表求 的值

定出拒绝域为

36

2 2 2

1 1 1

14. 1 , , , , ,

j jn nS

j j j ij iji j ij

T T T x T xn

列表求 等数据

2 , ,T A E T AS S S S S 根据表中数据求 的值

1

1,2, ,jn

j iji

T x j s

1 1

jnS

ijj i

T x

222 2

1 1 1 1

j jn ns s

T ij ijj i j i

TS x nx x

n

其中

2 22

1 1

s sj

jA jj j j

T TS n x nx

n n

E T AS S S

37

5. 将以上所求结果列成“ 方差分析表”

方差来源 平方和 自由度 均方 F 比

因素

误差

总和

AS 1s 1A

AS

Ss

A

E

SF

S

ES

TS

n s

1n

EE

SS

n s

方差分析表

38

0 0

6.

11,

,

A

E

S sF F s n s

S n s

H H

判断并作出结论:若

则拒绝原假设 否则就接受原假设

39

例 4 见课本 P270 例 1 的题目试考察各台机器所生产的的薄板的厚度有无显著的差异?

0 1 2 3

1 1 2 3

1 :

: , ,

H

H

: 设解 假

不全相等

12 A

E

S sF

S n s

选取检验统计量

0.051, 2,12 3.89

F

F s n s F

3 在水平 下查 分布表

0.05

12,12 3.89A

E

S sF F

S n s

则拒绝域为

4 列表计算所需各值如下:

40

水平观察值 机器Ⅰ 机器Ⅱ 机器Ⅲ

0.236 0.257 0.258

0.238 0.253 0.264

0.248 0.255 0.259

0.245 0.254 0.267

0.243 0.261 0.262

1.21 1.28 1.310

1.4641 1.6384 1.7161

0.293 0.328 0.343 0.964

0.242 0.256 0.262

0.29292 0.32772 0.343274

jT

21j

j

Tn

2jT

jx

2

1

jn

iji

x

3.8T

2

1 1

0.963912

jns

ijj i

x

41

2 22

1 1

3.80.963912 0.00124533

15

jns

T ijj i

TS x

n

2 2 2

1

3.80.96372 0.00105333

15

sj

Aj j

T TS

n n

0.00124533 0.00105333

0.000192

E T AS S S

42

方差来源 平方和 自由度 均方 F 比

因素 0.00105333 2

0.00052667 32.92

误差 0.000192 120.000015

总和 0.00124533 14

( 5 )方差分析表

AS

ES

TS

AS

ES

=A

E

S

S

43

0 0.05

0

6 32.92 3.89 2,12

0.05

.

A

E

SF F

S

H

结论:因为

落入拒绝域。所以在水平 下,拒绝原假设 即认为各台机器生产的薄板

的厚度有显著的差异。

44

(五)未知参数的估计1. 求未知参数的点估计

21 ES

n s

2 x

3 jj x

1 1

4

0

jj

s s

j jj jj j

x x

n n x nx

且有

45

2. 两总体均值差的区间估计

20

2

,

, ,

1

j

k j k j k

H N

N j k

当拒绝 时,需要作出两总体 和

的均值差 的置信

度为 - 的区间估计。其作法如下:

2

1 j k Ex x S n s 据第六章附录知, 与

相互独立;

46

2 2

2 ,j kj kj k

x N x Nn n

因为 , ,

2 1 1,j k j kj k

j k

E x x D x xn n

2 1 1,j k j k

j k

x x Nn n

则有

47

0,1

1 1

j k j k

j k

x xN

n n

所以

276

2 2E

P

S n s

又前面 已证得

48

148

2

3

( )1 1

j k j k E

j k

P t

x x Sn s t n s

n n

据 的 分布的定义得:

1 1

j k j k

E

j k

E E

x xt n s

Sn n

S S n s

其中

49

1j k j k 所以均值差 的置信度为

的置信区间为:

/ 2

1 1( )j k E

j k

x x t n s Sn n

50

25 4 , , 1, 2,3

0.95

j j j 例 求例 中未知参数 ,

的点估计及均值差的置信度为 的置信区间。

2

: 4

1

0.000192 0.000192

15 3 120.000016

EE

SS

n s

解 根据例 表中已求得的数据

3.82 0.253

15

Tx

n

51

3 jj x 因为

11

22

33

0.242

0.256

0.262

x

x

x

所以

52

4 jj x x 因为

1 1

2 2

3 3

0.242 0.253 0.011

0.256 0.253 0.003

0.262 0.253 0.009

x x

x x

x x

所以

3.80.253

15

Tx

n 又

53

( 5 ) 均值差的区间估计如下

/ 2 0.025 12 2.1788t n s t 查表

0.025

1 1(12)

22.1788 0.000016 0.006

5

E

j k

t Sn n

54

1 2 1 3 2 3, ,

0.95

则 的置信度为

的置信区间分别为:

0.242 0.256 0.006 0.020 , 0.008

0.242 0.262 0.006 0.026, 0.014

0.256 0.262 0.006 0.012,0.00

/ 2

1 1( )j k E

j k

x x t n s Sn n

55

例 6 设在例 2 中,四种类型电路的响应时间的总体均为正态,且各总体的方差相同,又设各样本相互独立。试 , 检验各类型电路的响应时间是否有显著差异。(取检验水平为 )

• 解: 分别以 记类型 Ⅰ、 Ⅱ、Ⅲ、Ⅳ 四种电路响应时间总体的平均值。

1 2 3 4, , ,

0.05

0 1 2 3 4

1 1 2 3 4

:

: , , ,

H

H

1 假设

不全相等

12 A

E

S sF

S n s

取检验统计量

56

0.05

3 4, 18 0.05

1, (3,14) 3.34

s n

F F s n s F

在检验水平 下,

查 分布表

• ( 4 ) 列表计算所需数据如下:

0.05

1(3,14) 3.34A

E

S sF F

S n s

则拒绝域为

57

水平观察值

类型Ⅰ 类型Ⅱ 类型Ⅲ 类型Ⅳ

19 20 16 18

22 21 15 22

20 33 18 19

18 27 26

15 40 17

94 141 92 59

8836 19881 8464 3491

1767.2 3976.2 1692.8 1160.33 8596.53

18.8 28.2 18.4 19.667

1794 4259 1770 1169 8992

jT

2

jT

21j

j

Tn

jx

2

1 1

j

j

ns

j i

x

386T

58

2 22

1 1

3868992 714.44

18

jns

T ijj i

TS x

n

根据表中数据得:

2 2 2

1

3868596.53 318.97

18

sj

Aj j

T TS

n n

395.47E T AS S S

59

5. 方差分析表

方差来源 平方和 自由度 均方

因素 318.97 3

因素 395.47 14

总和 714.44 17

AS

ES

TS

=106.32AS

=28.25ES

=3.76A

E

S

S

F比

60

0 0.05

0

6

3.76 3.34 3,14

0.05 .

F F

H

结论:

因为

故在水平 下,拒绝原假设

即认为各类型电路的响应时间有显著的差异。

, ,

20

ij

T A E

ij ij

x k

S S S

x y

如果将所有的数据 同时减去一个数 ,

进行数据的简化,那么所得到的 的值不变。

见下表:将各数值 简化后的计算结果

61

水平观察值

类型Ⅰ 类型Ⅱ 类型Ⅲ 类型Ⅳ

-1 0 -4 -2

2 1 -5 2

0 13 -2 -1

-2 7 6

-5 20 -3

-6 41 -8 -1

36 1681 64 1

7.2 336.2 12.8 0.333 356.53

-1.2 8.2 -1.6 -0.333

34 619 90 9 752

jT

2

jT

21j

j

Tn

jx

2

1 1

j

ij

ns

j i

x

26T

62

2 22

1 1

26752 714.44

18

jns

T ijj i

TS x

n

根据表中数据得:

2 2 2

1

26356.53 318.97

18

sj

Aj j

T TS

n n

395.47E T AS S S

63

27 6 , , 1, 2,3

0.95

j j j 例 求例 中未知参数 ,

的点估计及均值差的置信度为 的置信区间。

,

:

j jT T k n x y k k

根据上表中已求得的数据

则原 简化后 为上面

所减去的数

26 20 18 3862 21.44

18 18

Tx

n

21 28.25E

E

SS

n s

64

3 jj x 因为

11

22

33

44

1.2 20 18.8

8.2 20 28.2

1.6 20 18.4

0.333 20 19.667

x

x

x

x

所以

65

4 jj x x 因为

1 1

2 2

3 3

4 3

38621.44

18

18.8 21.44 2.64

28.2 21.44 6.76

18.4 21.44 3.04

19.667 21.44 1.773

Tx

n

x x

x x

x x

x x

所以

66

( 5 ) 均值差的区间估计如下

/ 2 0.025 14 2.1448t n s t 查表

0.025

0.025

1 1(12) , 1, 2,3

1 1(12)

5 5

22.1448 28.25 7.2098

5

E

j k

E

t S j kn n

t S

67

0.025

0.025

1 1(12) 1,2,3 ; 4

1 1(12)

5 3

82.1448 28.25 8.3252

15

E

j k

E

t S j kn n

t S

68

1 2 1 3 1 4 2 3 2 4

3 4

, , , , ,

0.95

的置信度为 的置信区间分别为:

1 2 7.2098 18.8 28.2 7.2098 16.61 , 2.19x x

1 3 7.2098 18.8 18.4 7.2098 6.81 , 7.61x x

1 4 8.3252 18.8 19.667 8.3252 9.20 , 7.46x x

2 3 7.2098 28.2 18.4 7.2098 2.59 ,17.61x x

2 4 8.3252 28.2 19.667 8.3252 0.21 ,16.86x x

3 4 8.3252 18.4 19.667 8.3252 9.60 , 7.06x x

top related