第九章 回归分析和方差分析

102
第第第 第第第第第第第第第 第第第第第第第第 第第第第第 第第第第

Upload: owen-brewer

Post on 03-Jan-2016

134 views

Category:

Documents


1 download

DESCRIPTION

第九章 回归分析和方差分析. 关键词: 单因素试验 一元线性回归 回归诊断. 方差分析 (Analysis of variance, 简称 :ANOVA), 是由英国统计学家费歇尔 (Fisher) 在 20 世纪 20 年代提出的 , 可用于推断两个或两个以上总体均值是否有差异的显著性检验. §9.1 单因素方差分析. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第九章  回归分析和方差分析

第九章 回归分析和方差分析

关键词:

单因素试验

一元线性回归

回归诊断

Page 2: 第九章  回归分析和方差分析

方差分析 (Analysis of variance, 简称 :A

NOVA), 是由英国统计学家费歇尔 (Fishe

r) 在 20 世纪 20 年代提出的 , 可用于推断两个或两个以上总体均值是否有差异的显著性检验 .

Page 3: 第九章  回归分析和方差分析

§9.1 单因素方差分析例:为了比较三种不同类型日光灯管的寿命

( 小时 ), 现将从每种类型日光灯管中抽取 8 个 , 总共 24 个日光灯管进行老化试验 ,

根据下面经老化试验后测算得出的各个日光灯管的寿命 ( 小时 ) ,试判断三种不同类

型日光灯管的寿命是不是有存在差异 .

Page 4: 第九章  回归分析和方差分析

日光灯管的寿命 ( 小时 )类型 寿命 ( 小时 )

类型 I 5290 6210 5740 5000 5930 6120 6080 5310

类型 II 5840 5500 5980 6250 6470 5990 5470 5840

类型 .III 7130 6660 6340 6470 7580 6560 7290 6730

引起日光灯管寿命不同的原因有二个方面 : 其一 , 由于日光灯类型不同 , 而引起寿命不

同 . 其二 , 同一种类型日光灯管 , 由于其它随机

因素的影响 , 也使其寿命不同 .

Page 5: 第九章  回归分析和方差分析

在方差分析中 , 通常把研究对象的特征值 , 即所考察的试验结果 ( 例如日光灯管的寿命 ) 称为 试验指标 .

对试验指标产生影响的原因称为 因素 , “ 日光灯管类型” 即为因素 .

因素中各个不同状态称为 水平 , 如日光灯管三个不同的类型 , 即为三个水平 .

Page 6: 第九章  回归分析和方差分析

单因素方差分析 仅考虑有一个因素 A 对试验指标的影响 . 假如因素 A 有 r 个水平 , 分别在第 i 水平下进行了 多次独立观测 , 所得到的试验指标的数据

1 2

2 2 21 1 2 2

11 21 1

12 22 2

1 2

: , : , : ,

r

r r

r

r

n n rn

A N A N A N

X X X

X X X

X X X

Page 7: 第九章  回归分析和方差分析

2~ (0, ),

1, 2, , 1, 2, ,

ij i ij

ij ij

i

X

N

i r j n

各 独立,

每个总体相互独立 . 因此 , 可写成如下的 数学模型 :

Page 8: 第九章  回归分析和方差分析

方差分析的目的就是要比较因素A 的 r 个水平下试验指标理论均值的差异 , 问题可归结为比较这 r

个总体的均值差异 .

Page 9: 第九章  回归分析和方差分析

0 1 2

1 1 2

: ...

: , ,...,r

r

H

H

不全相等。检验假设

1 1

1— —

r r

j j ji i

n n nn

记 总平均,其中

, 1, 2,...,i i iA i r ——水平 的效应

1 1 2 2 ... 0r rn n n 此时有

Page 10: 第九章  回归分析和方差分析

2

1 1 2 2

(0, ),

1, 2, , 1, 2, ,

... 0

ij i ij

ij ij

i

r r

X

i r j n

n n n

模型为:各 独立

假设等价于 0 1 2

1 1 2

: 0

: , , ,r

r

H

H

不全为零。

Page 11: 第九章  回归分析和方差分析

为给出上面的检验,主要采用的方法是平方和分解。即

假设数据总的差异用总离差平方和 分解为二个部分 : 一部分是由于因素 A 引起的差异 ,

即效应平方和 ,另一部分则由随机误差所引

起的差异, 即误差平方和 。

TS

AS

ES

Page 12: 第九章  回归分析和方差分析

2

1 1

inr

E ij ii j

S X X

误差平方和

Page 13: 第九章  回归分析和方差分析

1 T A ES S S 性质:

2 2

1 1 1 1

i in nr r

T ij ij i ii j i j

S X X X X X X

证明:

2 2

1 1 1 1 1 1

2i i in n nr r r

ij i i ij i ii j i j i j

X X X X X X X X

A ES S

1 1 1 1

0i in nr r

ij i i i ij ii j i j

X X X X X X X X

Page 14: 第九章  回归分析和方差分析

2 2

1

2 1r

T i ii

E S n n

性质 :

2 2

1

1r

A i ii

E S n r

2EE S n r

Page 15: 第九章  回归分析和方差分析

2 2

1 1

( ) ( )inr

iji j

E X nE X

1 1

1

1( ) ( )

1( )

inr

iji j

r

i ii

E X E Xn

nn

22 2 2

1 1

[ ( ) ] [ ]inr

ii j

nn

Page 16: 第九章  回归分析和方差分析

2 2 2 2 2

1 1

2r r

i i i ii i

n n n n n

2 2

1

1r

i ii

n n

2

1 1

( )inr

E ij ii j

E S E X X

2 2

1

( 1) ( )r

ii

n n r

Page 17: 第九章  回归分析和方差分析

2 2

1

( ) ( ) 1r

A T E i ii

E S E S S n r

Page 18: 第九章  回归分析和方差分析

20 2

(3) ~ ( 1)ASH r

当 为真时, 。

定理 9.1.1

Page 19: 第九章  回归分析和方差分析

AS1

AASS s A

E

S

SES E

ESS n s

TS

方差来源 平方和 自由度 均方 F 比因素 A r-1

误差 n-r

总和 n-1

单因素试验方差分析表

Page 20: 第九章  回归分析和方差分析

, ,T A ES S S计算 的简便公式:

1 1 1

, 1, 2, , ,i in nr

i ij ijj i j

T X i r T X

22 2 2

1 1 1 1

i in nr r

T ij iji j i j

TS X nX X

n

2 2

2 2

1 1

r ri

A i ii i i

T TS n X nX

n n

E T AS S S

Page 21: 第九章  回归分析和方差分析

例 1 设有 5 种治疗荨麻疹的药,要比较它们的疗效。假设将 30 个病人分成 5 组,每组 6 人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录: (=0.05)

Page 22: 第九章  回归分析和方差分析

药物 x 治愈所需天数 y1 5 , 8 , 7 , 7 , 10

, 82 4 , 6 , 6 , 3 , 5, 63 6 , 4 , 4 , 5 , 4, 34 7 , 4 , 6 , 6 , 3, 55 9 , 3 , 5 , 7 , 7, 6

Page 23: 第九章  回归分析和方差分析

这里药物是因子,共有 5 个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效果都没有差别”。

0 1 2 3 4 5

1 1 2 5

:

: , ,...,

H

H

解:检验假设

不全相等。

Page 24: 第九章  回归分析和方差分析
Page 25: 第九章  回归分析和方差分析

0.05

0

(4,25) 2.76F

H

拒绝 ,认为疗效

有显著差异。

方差来源 平方和 自由度 均方 F 比因素 A 36.467 4 9.117 3.90

误差 58.500 25 2.334

总和 94.967 29

Page 26: 第九章  回归分析和方差分析

未知参数的估计

2 2ˆ ˆ1 ; (2)

ˆˆ(3) (4)

E

j i i i i i

SX

n r

X X X

() 的估计 的估计 ;

的估计 ; 的估计 。

容易证明,以上估计均为相应参数的无偏估计。

2 20 ( , ) ( , )

( )

j k

j k j k

H N N

j k

当拒绝 时,进一步比较 和 的差异,

可以作 的区间估计。

Page 27: 第九章  回归分析和方差分析

2 1 1( ) , ( )j k j k j k

j k

E X X D X Xn n

因为

2ˆ ( )j k EX X S n r 且 与 相互独立。

2

( ) ( ) ( ) ( )( ) ~ ( )

(1 1 )(1 1 )

j k j k j k j k E

j kE j k

X X X X Sn r t n r

n nS n n

( )

1

j k

得 的水平

为 的置信区间

2 ( ) (1 1 )j k E j kX X t n r S n n

Page 28: 第九章  回归分析和方差分析

2

1 3 1 2 5 3

2 1 , , ( 1, 2,3, 4,5)

0.95

j j j

例 求例中未知参数 的点估计,

并求 , , 的置信度为 的置信区间。

2 2ˆ ˆ2.3334 5.6333

7.5, 5, 4.3333, 5.1667, 6.1667

1.8667, 0.6333, 1.3, 0.4666, 0.5334

E

j

j

SX

n r

解: 的估计 ; 的估计 ;

的估计分布为: ;

的估计分布为:

0.025 (25) 2.0595, (1 1 ) 0.8819E j kt S n n 查表得

Page 29: 第九章  回归分析和方差分析

1 3 1 2 3 5 0.95

(1.3504, 4.983) (0.6837, 4.3163) ( 3.6497, 0.0171)

, , 的置信度为 的置信区间分别为:, ,

1 3 1 2 3 5 说明 与 , 与 , 与 的差异都显著。

Page 30: 第九章  回归分析和方差分析

在 Excel 上实现方差分析 先加载 '' 数据分析 " 这个模块 , 方法如下 :

在 excel 工作表中点击主菜单中 “工具” 点击下拉式菜单中“加载宏” 就会出现一个“加载宏” 的框 .

在 “分析工具库” 前的框内打勾点击“确定” .

这时候再点击下拉式菜单会新出现 “数据分析” .

然后就可以进行统计分析了 .

Page 31: 第九章  回归分析和方差分析

以下面的例子来说明用 Excel 进行方差分析的方法 :

保险公司某一险种在四个不同地区一年的索赔额情况记录如表所示 . 试判断在四个不同地区索赔额有无显著的差异 ?

Page 32: 第九章  回归分析和方差分析

保险索赔记录地区 索赔额 ( 万元 )

A1 1.60 1.61 1.65 1.68 1.70 1.70 1.78

A2 1.50 1.64 1.40 1.70 1.75

A3 1.64 1.55 1.60 1.62 1.64 1.60 1.74 1.80

A4 1.51 1.52 1.53 1.57 1.64 1.60

Page 33: 第九章  回归分析和方差分析

在 Excel 工作表中输入上面的数据点击主菜单中 “工具”点击下拉式菜单中“数据分析” 就会出现一个“数据分析” 的框 .

点击菜单中“方差分析 : 单因素方差分析”点击“确定” , 出现“方差分析 : 单因素方差分析” 框 .

Page 34: 第九章  回归分析和方差分析

在“输入区域”中标定你已经输入的数据的位置根据你输入数据分组情况 ( 是按行分或按列分 ) 确定分组 .

选定方差分析中 F 检验的显著水平选定输出结果的位置点击“确定” .

在你指定的区域中出现如下方差分析表 :

Page 35: 第九章  回归分析和方差分析

方差来源

平方和 自由度

均方 F 比 P-value

F crit

组间 0.0492 3 0.0164 2.1658 0.1208 3.0491

组内 0.1666 22 0.0076

总计 0.2158 25

方差分析表

Page 36: 第九章  回归分析和方差分析

根据 Excel 给出的方差分析表 , 假设 H0 的判别有二种方法 : 根据前面所讲的 F 检验查出 ),1( rnrF 的

值, 给出拒绝域 ),1( rnrFFW , 然

后根据由观测值计算得出的 F 的值, 判断 F 的值是不是落在拒绝域内,给出拒绝或接受假设

0H 的结论. Excel计算结果的方差分析表中在 F

crit 这列下面给出了 ),1( rnrF 这个值。

Page 37: 第九章  回归分析和方差分析

在这个例子中, 0.05 (3,22) 3.0491F , 因此拒

绝域为 3.0491W F . 由观测值计算得

1658.2F ,所以没有落在拒绝域内, 因此接

受假设 0H , 即各地区索赔额无显著差异.

Page 38: 第九章  回归分析和方差分析

方差分析的前提

进行方差分析必须具备三个基本的条件:

(1) 独立性. 数据是来自 r个独立总体的简单随机样本.

(2) 正态性. r个独立总体均为正态总体.

(3) 方差齐性. r个正态总体的方差是相同的, 即满足假设

不全相等222

211

222

210 ,,:: rr HH

Page 39: 第九章  回归分析和方差分析

方差分析和其它统计推断一样 , 样本的独立性对方差分析是非常重要的 , 在实际应用中会经常遇到非随机样本的情况 ,

这时使用方差分析得出的结论不可靠 . 因此 , 在安排试验或采集数据的过程中 , 一定要注意样本的独立性问题 .

Page 40: 第九章  回归分析和方差分析

在实际中 , 没有一个总体真正服从正态分布的 ,

但方差分析却依赖于正态性的假设 . 但经验可知 ,

方差分析 F.

检验对正态性的假设并不是非常敏感 , 也就是说 , 实际所得到的数据 , 如果没有异常值和偏性 ,

或者说 , 数据显示的分布比较对称的话 , 即使样本容量比较小 ( 如每个水平下的样本容量仅为5左右 ), 方差分析的结果仍是值得依赖的 .

Page 41: 第九章  回归分析和方差分析

方差齐性对于方差分析是非常重要的 , 因此在方差分析之前往往要进行方差齐性的诊断 , 即检验假设通常可采用 Barlett 检验 .

方差齐性检验也可采用如下的经验准则 :当最大样本标准差不超过最小样本标准差的两倍时 , 方差分析 F 检验结果近似正确 .

Page 42: 第九章  回归分析和方差分析

§3 一元线性回归分析

一、确定性关系: 当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度 h与下落时间 t 之间有函数关系: 21

h= gt2

变量与变量之间的关系

确定性关系相关性关系

Page 43: 第九章  回归分析和方差分析

二、相关性关系: 变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量 x 的同一值,在不同的观测中,因变量 Y 可以取不同的值,而且取值是随机的,但对应 x 在一定范围的不同值,对 Y 进行观测时,可以观察到 Y

随 x 的变化而呈现有一定趋势的变化。

Page 44: 第九章  回归分析和方差分析

如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,身高者,体也重。

如:父亲的身高与儿子的身高之间也有一定联系 , 通常父亲高,儿子也高。

Page 45: 第九章  回归分析和方差分析

我们以一个例子来建立回归模型

某户人家打算安装太阳能热水器 . 为了了解室外温度与燃气消耗的关系 ,

记录了 16 个月燃气的消耗量 , 数据见下表 .

Page 46: 第九章  回归分析和方差分析

月份 平均温度 燃气用量 月份 平均温度 燃气用量

Nov. 24 6.3 Jul. 0 1.2

Dec. 51 10.9 Aug. 1 1.2

Jan. 43 8.9 Sep. 6 2.1

Feb. 33 7.5 Oct. 12 3.1

Mar. 26 5.3 Nov. 30 6.4

Apr. 13 4 Dec. 32 7.2

May. 4 1.7 Jan. 52 11

Jun. 0 1.2 Feb. 30 6.9

Page 47: 第九章  回归分析和方差分析

在回归分析时 , 我们称“燃气消耗量”为响应变量记为 Y,“室外温度”为解释变量记为 X, 由所得数据计算相关系数得 r=0.995,

表明室外温度与燃气消耗之间有非常好的线性相关性 .

如果以室外温度作为横轴 , 以消耗燃气量作为纵轴 , 得到散点图的形状大致呈线形 .

Page 48: 第九章  回归分析和方差分析
Page 49: 第九章  回归分析和方差分析

室外温度 X 的变化是引起燃气消耗量Y 变化的主要因素,还有其他一些因素对燃气消耗量Y 也起着影响, 但这些因素是次要的.

从数学形式来考虑, 由于室外温度 X 的变化而引起燃气消耗量 Y 变化的主要部分记为a+bX,其中 a,b是未知参数,

另一部分是由其他随机因素引起的记为 ,

即 bXaY .

Page 50: 第九章  回归分析和方差分析

2~ 0 .N 正态假设: ,

2

2

( ) 0, ( ) ,

, ( ,

Y a bx

E D

a b

是随机误差,不可控制,基本假设:

回归系数) 未知.

Page 51: 第九章  回归分析和方差分析

1 1 2 2, ( , ), ( , ),..., ( , )n nx x Y x Y x Y对 的一组不全相同的值 得到样本

2~ 0 , 1,2,..., .i N i n 正态假设: , 相互独立,

Page 52: 第九章  回归分析和方差分析

通常我们假定随机误差 i 是相互独立的, 服从正态分

布 ),0( 2N .显然, 在这样的假定下 iy 也是相互独立,

服从正态分布 ),( 2ibxaN . 由所得样本可给出未

知参数 a,b 的点估计, 分别记为 , b , 称 xbaY ˆˆˆ

为 x关于 y的一元线性回归方程.

Page 53: 第九章  回归分析和方差分析

(1) ,a b的估计;2(2) 的估计;

(3)线性假设的显著性检验;

(4) b回归系数 的置信区间;

(5) ( )x a bx 回归函数 的点估计和置信区间;

(6) Y的观察值的点预测和区间预测。

一元线性回归要解决的问题:

Page 54: 第九章  回归分析和方差分析

2

1

,n

i ii

Q a b y a bx

1

2 ( ) 0,n

i ii

Qy a bx

a

1

2 ( ) 0.n

i i ii

Qy a bx x

b

参数估计

Page 55: 第九章  回归分析和方差分析

1x 2x 3x ix nx

ˆˆy a bx

Page 56: 第九章  回归分析和方差分析

1 1

2

1 1 1

( ) ,

( ) ( ) .

n n

i ii i

n n n

i i i ii i i

na x b y

x a x b x y

整理得正规方程系数行列式

Page 57: 第九章  回归分析和方差分析

2

2

1 1, , ,

, .

i i xx ii i i

xy i i yy ii i

y y x x S x xn n

S x x y y S y y

记号:

ˆ ˆˆ, , / .xy xxa b a y xb b S S 的最小二乘估计:

ˆ ˆˆ , .xx xya xb y S b S 将正规方程整理得:

Page 58: 第九章  回归分析和方差分析

为了给出另一个参数 的估计,

定义残差。记 iii yye ˆ , 称 ie 为残差。残差可以看

成是不可观测的误差 i 的估计。

采用残差平方和

n

iii yy

1

2ˆ 作为 2 的估计。

n

iii yy

ns

1

22 ˆ2

1,可以证明 2s 为 2 的无偏估计。

Page 59: 第九章  回归分析和方差分析

在误差为正态分布假定下,最小二乘估计等价于极大似然估计。

2

212 2

1 1, exp

22

n

i ini

L a b y a bx

2

1

,n

i ii

L a b y a bx

对 最大化等价于对

最小化,即最小二乘估计。

Page 60: 第九章  回归分析和方差分析

采用最大似然估计给出参数 a ,b 的估计与最小二乘法给出的估计完全一致。

采用最大似然估计给出误差 的估计与最小二乘法给出的估计不一致。此时给出的估计不是无偏估计。

2

n

iii yy

n 1

22 ˆ1

Page 61: 第九章  回归分析和方差分析

例 1 K.Pearson 收集了大量父亲身高与儿子

身高的资料。其中十对如下:

父亲身高x (吋)

60 62 64 65 66 67 68 70 72 74

儿子身高y (吋)

63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70

求 Y 关于 x 的线性回归方程。

Page 62: 第九章  回归分析和方差分析

2

67.01, 66.8,

44794, 44842.4,

171.6, 79.72.

i i ii i

xx xy

y x

x x y

S S

计算得:

ˆˆ, 35.9768, 0.4646a b a b 的最小二乘估计:

ˆ 35.9768 0.4646 .

ˆ 67.01 0.4646( 66.8).

y x

y x

回归方程:或写成:

Page 63: 第九章  回归分析和方差分析

参数性质定理 9.4.1 在模型的假设下,

(1) xxSbNb 2,~ˆ

(2)

2

21,~ˆ

xxS

x

naNa

Page 64: 第九章  回归分析和方差分析

1 1ˆ( ) ( ) ( )xx i i xx i ii i

E b S x x E Y S x x a bx

21 1xx i i xx i

i i

bS x x x bS x x b

即为正态随机变量的线性组合,所以服从正态分布。

证明( 1)

Page 65: 第九章  回归分析和方差分析

xxxx

n

ii

SS

xxbD

22

21

2)(]ˆ[

( 2)类似可得。

Page 66: 第九章  回归分析和方差分析

回归方程显著性检验

采用最小二乘法估计参数 a 和 b ,并不

需要事先知道 Y 与 x 之间一定具有相关关系。

因此 μ(x) 是否为 x 的线性函数:一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。

Page 67: 第九章  回归分析和方差分析

0 1: 0, : 0,H b H b 即要检验假设

(1)影响 Y取值的,除了 x,还有其他不可忽略的因素;(2) E(Y) 与 x的关系不是线性关系,而是其他关系;(3) Y与 x不存在关系。

若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明 Y 与 x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:

Page 68: 第九章  回归分析和方差分析

假设的检验统计量

与方差分析方法类似,仍采用平方和分解。

Page 69: 第九章  回归分析和方差分析

可以证明:

Page 70: 第九章  回归分析和方差分析

可以证明, )2(~ 22

nSSE

2)ˆ( yySSR i 22 )(ˆ xxb i = xxSb

由参数估计的性质可知,当 b=0 时,

)(1~ˆ

22

2

2

xxSbSSR

Page 71: 第九章  回归分析和方差分析

)2,1(~ˆ

2/

1/2

2

nFs

Sb

nSSExxSSR

F

方差分析表

来源 平方和 自由度 均方和 F比

回归

xx

xy

ll

SSR2

1Rf 1

SSR

残差 SST-SSR=SSE 2nf E 2nSSE

2

1

nSSE

SSRF

总的 yyl 1nf t

Page 72: 第九章  回归分析和方差分析

当 0H 为真时,即 0b ,

)2,1(~ˆ

2

2

nFs

SbF xx ,

对于给定的显著水平 ,

F检验的拒绝域为 )}2,1({ nFFW .

Page 73: 第九章  回归分析和方差分析

当 0H 为真时,即 0b ,

)2(~ˆ

nts

Sbt xx ,

对于给定的显著水平 ,

t检验的拒绝域为 )}2(|{| 2/ nttW ;

也可采用 t 检验

Page 74: 第九章  回归分析和方差分析

例 3 检验例 1 中回归效果是否显著,取 α=0.05 。

2 0.0252 8 2.306.t n t 查表得:

0

0.4646171.6 14.1 2.306.

0.186

: 0

t

H b

计算得,

故拒绝 ,认为回归效果是显著的。

假设 0H : 0b 的检验拒绝域为 306.2ˆ

s

Sbt

xx

186.02 s

Page 75: 第九章  回归分析和方差分析

回归系数 的置信区间

)2(~ˆ

nts

Sbb xx

即 b的置信水平 1 的置信区间:

xxS

sntb )2(ˆ

2/

由于

Page 76: 第九章  回归分析和方差分析

0.95

0.1860.4646 2.306 0.389, 0.541 .

171.6

b

例如例1中 的置信水平为 的置信区间为:

Page 77: 第九章  回归分析和方差分析

回归参数估计和显著性检验的 Excel 实现 例 1(续 ) 前面我们已经分析了室外温度与燃气消耗量之间的关系 , 认为两者具有较好的线性关系 , 下面我们进一步建立燃气消耗量 ( 响应变量 )与室外温度( 解释变量 )之间的回归方程 . 采用 Excel 中的“数据分析” 模块 .

在 Excel 工作表中输入上面的数据 点击主菜单中“工具” 点击下拉式菜单中“数据分析” 就会出现一个“数据分析” 的框,点击菜单中“回归” ,点击“确定” , 出现“回归” 框 .

Page 78: 第九章  回归分析和方差分析

在“ Y 值输入区域”中标定你已经输入的响应变量数据的位置 ,

在“ X 值输入区域”中标定你已经输入的解释变量数据的位置 ( 注意 : 数据安“列”输入 )“ 置信度”中输入你已经确定置信度的值选定输出结果的位置点击“确定” .

在指定位置输出相应的方差分析表和回归系数输出结果 , 例 1 的输出结果如下所示 ,

Page 79: 第九章  回归分析和方差分析

df SS MS F Significance F

回归 1 168.581 168.581

1467.551

1.415E-15

误差 14 1.608 0.115

总的 15 170.189

方差分析表

Page 80: 第九章  回归分析和方差分析

Coef. 标准误差 t Stat P value Lower 95% Upper 95%

Intercept 1.089 0.139 7.841 1.729E- 06 0.791 1.387

X 0.189 0.005 38.309 1.415E-15 0.178 0.200

方差分析中 , 给出了假设检验 H0: b=0 的 F 检验 . 方差分析表中各项也前一节方差分析表中的意义类似 .

值得注意的是 , 方差分析表中 ``MS“ 列中 , 相应于 `

` 误差”行的值即为模型误码差方差的估计 , 即 =0.115.2s

Page 81: 第九章  回归分析和方差分析

这里``Coef."列中, 对应于``Intercept"行给出参数 a的估计, 即 a =1.089, 对应于 X 行的值为 b 的估计, 即

b =0.189. ``t Stat"列中, 对应于``X"行的值为假设检

验 H0: b=0 的 t 统计量的值, 即 309.38ˆ

s

Sb xx ,

查表可得, 510.2)14(025.0 t , 因此, 拒绝假设 H0

认为``室外温度" 对``燃料消耗量" 有显著影响.

Page 82: 第九章  回归分析和方差分析

“Lower 95%” 和“Upper 95%”中, 对应于“Intercept”行

的值 0.791 和 1.387分别是由 t分布所构造的参数 a区

间估计的下限和上限, 对应于“X”行所的值 0.178 和

0.200分别是由 t分布所构造的参数 b区间估计的下限

和上限.

Page 83: 第九章  回归分析和方差分析

预测 预测一般有两种意义 .

当给定 0xX 时, 求相应响应变量平均值即 ][ 0yE

的点估计和区间估计, 在例 1 中的意义是: 求某个室外温度下, 燃气消耗量的平均值, 如室外平均温度为$10$度这种月份燃气消耗量的平均值;

当给定 0xX 时, 求 0y 的预测值和预测区间, 在例

1 中的意义是: 求指定某个月的燃气消耗量, 如假设某个月的室外平均温度为 10 度, 预测这个月的燃气消耗量.

Page 84: 第九章  回归分析和方差分析

在此模型下:

220( )1ˆˆ ~ ,

xx

x xa bx N a bx

n S

Page 85: 第九章  回归分析和方差分析

0Ey 的点估计及置信区间

xy 100ˆˆˆ 也是 0100 xEy 的无

偏估计,故 0y 可作为 0Ey 的估计值。 0Ey 估计的

置信水平为 1 的置信区间为:

2

00 /2

( )1ˆ ( 2)

xx

x xy t n s

n S

Page 86: 第九章  回归分析和方差分析

0 0y a bx 预测和预测区间

所谓预测的精度是希望求出一个 的值,使,

1)|ˆ(| 00 yyP

其中是预先给定的一个小的正数。 越小表示预

测的精度越高,并称: )ˆ,ˆ( 00 yy

为 0y 的概率是 1 的预测区间。

Page 87: 第九章  回归分析和方差分析

由于 0y 与 0y 独立,故知:

))/)(/11(,0(~ˆ 22000 xxSxxnNyy

并且 2s 作为 2 的无偏估计,与 00 yy 独立,

所以有

)2(~)(1

1

ˆ2

0

00

nt

sSxx

n

yy

xx

Page 88: 第九章  回归分析和方差分析

对给定的

20

/2

( )1( 2) 1

xx

x xt n s

n S

从上式可看出,为了提高预测精度, n应该足

够大,并且 nxxx ,, 21 不能太集中。

Page 89: 第九章  回归分析和方差分析

例 1(续)由前面的 Excel 的输出结果, 计算

设 50 x 时, ][ 0yE 的区间估计和 0y 的预

测区间.

Page 90: 第九章  回归分析和方差分析

由前面的 Excel的输出结果,

034.25189.0089.1ˆ0 y ; 313.22x ;

723.29920 xx ; 510.2)14(025.0 t

438.4719xxS ; 115.0s

Page 91: 第九章  回归分析和方差分析

计算得出:

][ 0yE 的区间估计为[1.931, 1.137];

0y 的预测区间为[1.726, 2.341].

Page 92: 第九章  回归分析和方差分析

例 合金钢的强度 y与钢材中碳的含量 x 有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解 y与 x之间的关系。其中 x :碳含量(%) y :钢的强度( kg/mm2)数据见下:

x 0.03 0.04 0.05 0.07 0.09 0.10 0.12 0.15 0.17 0.20

y 40.5 39.5 41.0 41.5 43.0 42.0 45.0 47.5 53.0 56.0

Page 93: 第九章  回归分析和方差分析

( 1)画出散点图;( 2)设 μ(x)=a+bx, 求 a,b的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数 b是否为零(取 α=0.05) ;( 5)求回归系数 b的 95%置信区间;(6)求在 x=0.06点,回归函数的点估计和 95%置信区间;(7)求在 x=0.06点, Y的点预测和 95%区间预测。

Page 94: 第九章  回归分析和方差分析

0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19

56

54

52

50

48

46

4

4 4

2 4

0 3

8

( 1)合金钢的强度 y与钢材中碳的含量 x 的散点图

Page 95: 第九章  回归分析和方差分析

2

449, 1.02,

0.1338, 48.555,

0.02976, 2.757.

i ii i

i i ii i

xx xy

y x

x x y

S S

(2)计算得:

ˆˆ ,

ˆ / .xy xx

a y xb

b S S

Page 96: 第九章  回归分析和方差分析

ˆˆ, 35.4506, 92.6411a b a b 的最小二乘估计:

ˆ 35.4506 92.6411 .

ˆ 44.9 92.6411( 0.102).

y x

y x

回归方程:或写成:

Page 97: 第九章  回归分析和方差分析

2449, 20443, 282.9.i i yyi i

y y S (3)计算得:

ˆ2.757, 92.6411.xyS b 又已知

4884.27SSE

所以, 2 的无偏估计 436.32 s

Page 98: 第九章  回归分析和方差分析

0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19 x

0

e

Page 99: 第九章  回归分析和方差分析

0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19

56

54

52

50

48

46

44

42

40

38

合金钢的强度 y 与钢材中碳的含量 x 的回归直线图

Page 100: 第九章  回归分析和方差分析

拒绝原假设,认为合金钢强度与炭含量的回归效果显著。

显著水平为 0.05

Page 101: 第九章  回归分析和方差分析

0 0 0ˆˆ ˆ6 0.06 41.0091x y a bx ()当 时,

(0.06) 39.303,42.715 .所以, 的0. 95的置信区间为:

Page 102: 第九章  回归分析和方差分析