第 13 章 多重线性回归与相关

43
第 13 第 第第第第第第第第第 multiple linear regression & multiple correlation)

Upload: scarlett-mckay

Post on 01-Jan-2016

182 views

Category:

Documents


8 download

DESCRIPTION

第 13 章 多重线性回归与相关. ( multiple linear regression & multiple correlation ). content. 第一节   多重线性回归的概念与统计推断 第二节 假设检验及其评价 第三节 复相关系数与偏相关系数 第四节 自变量筛选 第五节 多元线性回归的应用与注意事项. 目的 :作出以多个自变量估计应变量的多元线性回归方程。 资料 :应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。 用途 :解释和预报。更精确 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第 13 章  多重线性回归与相关

第 13章 多重线性回归与相关(multiple linear regression &

multiple correlation)

Page 2: 第 13 章  多重线性回归与相关

content

第一节 多重线性回归的概念与统计推断第二节 假设检验及其评价第三节 复相关系数与偏相关系数第四节    自变量筛选第五节 多元线性回归的应用与注意事项

Page 3: 第 13 章  多重线性回归与相关

目的:作出以多个自变量估计应变量的多元线性回归方程。

资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。

用途:解释和预报。更精确 意义:由于事物间的联系常常是多方面的,

一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。

Page 4: 第 13 章  多重线性回归与相关

第一节   多重线性回归的概念与统计推断

Page 5: 第 13 章  多重线性回归与相关

• 变量:应变量 1 个,自变量 k 个,共 k+1 个。• 样本含量: n• 数据格式见表 13-1• 回归模型一般形式:

上式表示数据中应变量 Y 可以近似地表示为自变量

1 2, , , kX X X 的线性函数。

0 为常数项, 1 2, , , k 为偏回归系数,表示在其它自变

量保持不变时, jX 增加或减少一个单位时 Y 的平均变化

量,e是去除 k个自变量对 Y影响后的随机误差(残差)。

一、数据与多元线性回归模型

ikikiii xxxY ...22110

Page 6: 第 13 章  多重线性回归与相关

例号 X1 X2 … Xk Y

1 X11 X12 … X1k Y1 2 X21 X22 … X2k Y2 ┇ ┇ ┇ … ┇ ┇ n Xn1 Xn2 … Xnk Yn

多元回归分析数据格式

(1)Y与 1 2, , , kX X X 之间具有线性关系。

(2)各例观测值 )21( n,,,iYi 相互独立。

(3)残差 e~N(0, 2 )且各自变量与应变量 Y具有相同方差,

并服从正态分布。

条件

Page 7: 第 13 章  多重线性回归与相关

车流(X1)

气温(X2)

气湿(X3)

风速(X4)

一氧化氮(Y)

车流(X1)

气温(X2)

气湿(X3)

风速(X4)

一氧化氮(Y)

1300 20.0 80 0.45 0.066 948 22.5 69 2.00 0.005

1444 23.0 57 0.50 0.076 1440 21.5 79 2.40 0.011

786 26.5 64 1.50 0.001 1084 28.5 59 3.00 0.003

1652 23.0 84 0.40 0.170 1844 26.0 73 1.00 0.140

1756 29.5 72 0.90 0.156 1116 35.0 92 2.80 0.039

1754 30.0 76 0.80 0.120 1656 20.0 83 1.45 0.059

1200 22.5 69 1.80 0.040 1536 23.0 57 1.50 0.087

1500 21.8 77 0.60 0.120 960 24.8 67 1.50 0.039

1200 27.0 58 1.70 0.100 1784 23.3 83 0.90 0.222

1476 27.0 65 0.65 0.129 1496 27.0 65 0.65 0.145

1820 22.0 83 0.40 0.135 1060 26.0 58 1.83 0.029

1436 28.0 68 2.00 0.099 1436 28.0 68 2.00 0.099

Page 8: 第 13 章  多重线性回归与相关

一般步

(1)求偏回归系数 0 1 2, , , , kb b b b

0 1 1 2 2ˆ

k kY b b X b X b X

建立回归方程 ( 样本 )

(2) 检验并评价回归方程及各自变量的作用大小

Page 9: 第 13 章  多重线性回归与相关

二、多元线性回归方程的建立

样本估计而得的多重线性回归方程

bj 为自变量 Xj 的偏回归系数( partial regression coeffic

ient ),是 βj 的估计值,表示当方程中其他自变量保持常量时,自变量 Xj 变化一个计量单位 , 反应变量 Y 的平均值变化的单位数。

kk xbxbxbby ...ˆ 22110

Page 10: 第 13 章  多重线性回归与相关

2 20 1 1 2 2

ˆ( ) [ ( )]k kQ Y Y Y b b X b X b X

11 1 12 2 1 1

21 1 22 2 2 2

1 1 2 2

k k Y

k k Y

k k kk k kY

l b l b l b l

l b l b l b l

l b l b l b l

0 1 1 2 2( )k kb Y b X b X b X

求偏导数(一阶)

( )( ) , , j=1,2, ,k

( )( ) , 1, 2 ,

i jij i i j j i j

jjY j j j

X Xl X X X X X X i

n

X Yl X X Y Y X Y j k

n

1 2 3 4ˆ 0 14166 0 00011619 0 00449 0 00000655 0 03468Y . . X . X . X . X

原 理最小二乘法

统计软件包

Page 11: 第 13 章  多重线性回归与相关

第二节 假设检验及其评价

0 1 2: 0kH ,

1 : jH j =1, 2, , k)各 ( 不全为 0,

0.05

1. 方差分析法:

残回总 SSSSSS /

/ 1)

SS k MSF

SS n k MS

回 回

残 残(

(一)对回归方程

~ ( , 1)F F k n k

Page 12: 第 13 章  多重线性回归与相关

变异来源 自由度 SS MS F P 总变异 n-1 SS 总 回 归 k SS 回 SS 回 /k MS 回/MS 残 残 差 n-k-1 SS 残 SS 残 /(n-k-1)

多元线性回归方差分析表 ( 0.05)

Page 13: 第 13 章  多重线性回归与相关

变异来源 自由度 SS MS F P

回归模型 4 0.06396 0.01599 17.59 <.0001

残差 19 0.017270.000909

03

总变异 23 0.08123

表 13-2 显示, P <0.0001, 拒绝 H0 。说明从整体上而言,用这四个自变量构成的回归方程解释空气中 NO 浓度的变化是有统计学意义的。

Page 14: 第 13 章  多重线性回归与相关

偏回归系数的 t检验

偏回归系数的 t检验是在回归方程具有统计学意义的情况下,检验某个总体偏回归系数等于零的假设 , 以判断是否相应的那个自变量对回归确有贡献

bi

ibi S

bt

Page 15: 第 13 章  多重线性回归与相关

利用 SAS 对例 13-1 的四个偏回归系数进行 t 检验与标准化偏回归系数的结果如表 13-3 所示。

变量 自由度 回归系数 标准误 t值 P值 标准化偏回归系数

截距 1 -0.14166 0.06916 -2.05 0.0546 0

X1 10.0001161

90.00002748 4.23 0.0005

0.59249

X2 1 0.00449 0.00190 2.36 0.0289 0.27274

X3 1-

0.00000655

0.00069083 -0.01 0.9925-0.00110

X4 1 -0.03468 0.01081 -3.21 0.0046 -0.44770

Page 16: 第 13 章  多重线性回归与相关

10 2 R ,说明自变量 1 2, , , kX X X 能够解释Y 变

化的百分比,其值愈接近于 1,说明模型对数据的拟合程度

愈好。

2 1SS SS

RSS SS

回 残

总 总

第三节 复相关系数与偏相关系数 确定系数、复相关系数与调整确定系数

复相关系数的平方称为确定系数( coefficient of determination ) , 或决定系数,记为 R2 ,用以反映线性回归模型能在多大程度上解释反应变量 Y 的变异性。其定义为

Page 17: 第 13 章  多重线性回归与相关

复相关系数:确定系数的算术平方根

对例 13-1 ,由方差分析表可得: SSR=0.06396 SSE=0.01727 SST=0.08123

7874.008123.0

01727.01

08123.0

06396.02 R

SST

SSRR

表示变量 Y与 k个自变量( X1,X2,…Xk)的线性相关的密切程度。

说明,用包含气车流量、气温、气湿与风速这四个自变量的回归方程可解释交通点空气 NO 浓度变异性的 78.74% 。

Page 18: 第 13 章  多重线性回归与相关

8703.07574.0 R

表示交通点空气 NO浓度与气车流量、气温、气湿与风速等四个变量的复相关系数为 0.8703

Page 19: 第 13 章  多重线性回归与相关

• 调整的 R2(Adjusted R-Square) 当回归方程中包含有很多自变量,即使其中有一些自变量(如本例中的 X3 )对解释反应变量变异的贡献极小,随着回归方程的自变量的增加, R2 值表现为只增不减,这是复相关系数 R2 的缺点。调整的 R2 定义为

1

)1( 222

kn

RkRRa

7426.004475789.07874.01424

)7874.01(47874.02

aR

Page 20: 第 13 章  多重线性回归与相关

偏相关系数冷饮销售量(元)

X1

游泳人数(人)X2

气温( oC)X3

267 722 29

397 814 30

451 924 31

528 1066 32

618 1253 33

655 1369 34

690 1593 35

740 1761 36

780 1931 37

889 2231 38

996 2749 39

Page 21: 第 13 章  多重线性回归与相关
Page 22: 第 13 章  多重线性回归与相关

• 偏相关系数( partial correlation coefficient ) : 一般地,扣除其他变量的影响后,变量Y 与 X 的相关 .表 13-5 空气中 NO浓度与各自变量的相关系数和偏相关系数

自变量 相关系数 偏相关系数 偏相关系数 P值

车流 X1 0.80800 0.69620 0.0005

气温 X2 0.01724 0.47670 0.0289

气湿 X3 0.27854 -0.00218 0.9925

风速 X4 -0.67957 -0.59275 0.0046

Page 23: 第 13 章  多重线性回归与相关

X1汽车流量( )

4002000-200-400-600

Y一氧化氮浓度()

.2

.1

0.0

-.1

ÆøΣ¨X2)

86420-2-4-6

Ò»

Ñõ

»¯

µª

Ũ

¶È

£¨

Y£©

.08

.06

.04

.02

0.00

-.02

-.04

-.06

Æøʪ£¨X3£©

3020100-10-20

Ò»

Ñõ

»¯

µª

Ũ

¶È

£¨

Y£©

.10

.08

.06

.04

.02

0.00

-.02

-.04

-.06

X4风速( )

1.51.0.50.0-.5-1.0

Y一氧化氮浓度()

.10

.08

.06

.04

.02

0.00

-.02

-.04

-.06

-.08

Page 24: 第 13 章  多重线性回归与相关

(二)对各自变量 指明方程中的每一个自变量对 Y 的影响(即方差分析和决定系数检验整体)。

含义 回归方程中某一自变量 jX 的偏回归平方和表示模型中含有其它 k-1个自变量的条件下该自变量对 Y的回归贡献,相当于从回归方程中剔除 jX 后所引起的回归平方和的减少量,或在 k-1个自变量的基础上新增加 jX 引起的回归平方和的增加量。

1. 偏回归平方和

Page 25: 第 13 章  多重线性回归与相关

)( jXSS回 表示偏回归平方和,其值愈大说

明相应的自变量愈重要。

( )/1

/ ( 1)j

j

SS XF

SS n k

一般情况下,k-1个自变量对 Y的回归平方和由重新建立的新方程得到,而不是简单地把 jj Xb

从有 k个自变量的方程中剔出后算得。

1 2 1, 1n k

Page 26: 第 13 章  多重线性回归与相关

平 方 和 ( 变 异 ) 回 归 方 程 中

包 含 的 自 变 量 S S 回 S S 残

① 4321 X,X,X,X 1 3 3 . 7 1 0 7 8 8 . 8 4 1 2 ② 432 X,X,X 1 3 3 . 0 9 7 8 8 9 . 4 5 4 0 ③ 431 XX,X 1 2 1 . 7 4 8 0 1 0 0 . 8 0 3 8 ④ 421 XX,X 1 1 3 . 6 4 7 2 1 0 8 . 9 0 4 7 ⑤ 321 XX,X 1 0 5 . 9 1 6 8 1 1 6 . 6 3 5 1

各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到

Page 27: 第 13 章  多重线性回归与相关

1 1 2 3 4 2 3 4( ) ( , , , ) ( , , )

1 3 3 . 7 1 0 7 - 1 3 3 . 0 9 7 8 = 0 . 6 1 2 9

S S X S S X X X X S S X X X

回 回 回

2 1 2 3 4 1 3 4( ) ( , , , ) ( , , )

1 3 3 . 7 1 0 7 - 1 2 1 . 7 4 8 0 1 1 . 9 6 2 7

S S X S S X X X X S S X X X

回 回 回

3 1 2 3 4 1 2 4( ) ( , , , ) ( , , )

1 3 3 . 7 1 0 7 - 1 1 3 . 6 4 7 2 2 0 . 0 6 3 5

S S X S S X X X X S S X X X

回 回 回

4 1 2 3 4 1 2 3( ) ( , , , ) ( , , )

1 3 3 . 7 1 0 7 - 1 0 5 . 9 1 6 8 2 7 . 7 9 3 9

S S X S S X X X X S S X X X

回 回 回

152.0)1427(/8412.88

1/6129.01

F , 962.2

)1427/(8412.88

1/9627.112

F

968.4)1427/(8412.88

1/0635.203

F , 883.6

)1427/(8412.88

1/7939.274

F

结果

Page 28: 第 13 章  多重线性回归与相关

2. t 检验法 是一种与偏回归平方和检验完全等价的一种方法。计算公式为

jb

jj S

bt

检验假设:

H0: 0j , jt 服从自由度为 1n k 的 t分布。

如果 / 2, 1| |j n kt t ,则在(0.05)水平上拒绝 H0,

接受 H1,说明 jX 与Y有线性回归关系。

jb为偏回归系数的估计值,jbS是jb的标准误。

Page 29: 第 13 章  多重线性回归与相关

结 论

P 值均小于 0.05,说明 3b 和 4b 有统计学意义,而 1b 和 2b 则没有统计学意义。

Page 30: 第 13 章  多重线性回归与相关

标准化回归系数 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。

' ( )j jj

j

X XX

S

计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。

Y

jj

YY

jjjj S

Sb

l

lbb '

标准化回归系数没有单位,可以用来比较各个自变

量 jX 对Y的影响强度,通常在有统计学意义的前提下,

标准化回归系数的绝对值愈大说明相应自变量对 Y的作

用愈大。

Page 31: 第 13 章  多重线性回归与相关

注意: 一般回归系数 有单位,用来解释各自变量

对应变量的影响,表示在其它自变量保持不变时, 增加或减少一个单位时 Y 的平均变化量 。不能用各 来比较各 对 的影响大小。

标准化回归系数无单位,用来比较各自变量对应变量的影响大小, 越大, 对

的影响越大。

jXjbjX

Yjb jX

Y

Page 32: 第 13 章  多重线性回归与相关

第四节    自变量筛选

目的:使得预报和(或)解释效果好

Page 33: 第 13 章  多重线性回归与相关

自变量筛选的标准与原则 1.残差平方和( SSE )缩小与确定系数( R2 )增

2.残差均方( SSE )缩小与调整确定系数增大

3. CP 统计量

选择既具有较小 CP 值,在图中又接近于 CP =q直线的模型作为“最优”的准则

SST

SSER 12

1

pn

SSEMSE

nqSSE

C qp 2

ˆ 2

Page 34: 第 13 章  多重线性回归与相关

全局择优法

目的:预报效果好意义:对自变量各种不同的组合所建立

的回归方程进行比较 择优。选择方法:

1.校正决定系数 2cR 选择法

2. pC 选择法

Page 35: 第 13 章  多重线性回归与相关

1.调整决定系数 2aR 选择法,其计算公式为

2 2 11 (1 ) 1

1a

MSnR R

n p MS

n为样本含量, 2R 为包含 )( mpp 个自

变量的回归方程的决定系数。 2aR 的变化规

律是:当 2R 相同时,自变量个数越多 2aR 越

“ ”小。所谓 最优 回归方程是指 2aR 最大者。

Page 36: 第 13 章  多重线性回归与相关

2 . pC 选 择 法

)]1(2[)(

)( pn

MS

SSC

m

p

p

pSS )( 残 是 由 )( mpp 个 自 变 量 作 回 归

的 误 差 平 方 和 , mMS )( 残 是 从 全 部 m 个 自

变 量 的 回 归 模 型 中 得 到 的 残 差 均 方 。

当由p个自变量拟合的方程理论上为最优时,

pC的期望值是p+1,因此应选择pC最接近p+1的回

归方程为最优方程。如果全部自变量中没有包含对Y

有主要作用的变量,则不宜用pC方法选择自变量。

Page 37: 第 13 章  多重线性回归与相关

逐步选择法

1. 1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。这种选择自变量的方法基于残差均方缩小的准则,不一定能保证“最优” . 此法已基本淘汰。 2.  后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。 剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作 F 检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。 3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。

Page 38: 第 13 章  多重线性回归与相关

检验水准的设置:小样本定为0.10或0.15,

大样本定为0.05。

值定得越小表示选取自变量的标准越严,被

选入的自变量个数相对也较少;反之,值定得越

大表示选取自变量的标准越宽,被选入的自变量个

数也就相对较多。

注意:选入自变量的检验水准 入 要小于或等

于剔除自变量的检验水准 出 。

Page 39: 第 13 章  多重线性回归与相关

第五节 多元线性回归的应用与注意事项

1. 影响因素分析 解释应变量。

2. 估计与预测

3. 统计控制 逆估计,少用。

多元线性回归的应用

Page 40: 第 13 章  多重线性回归与相关

多元线性回归应用的注意事项

1、非同质资料的合并问题 斜率相同(同质):可以利用男、女合并的资料拟合共同的回归模型; 不同质:此时应按不同性别分别拟合回归模型。2、指标的数量化

Page 41: 第 13 章  多重线性回归与相关

3 、样本含量 : n =(5~ 10)m 。 4、关于逐步回归 : 对逐步回归得到的结果不要盲

目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统计学意义。例如,例 15-3 中若将选入标准和剔除标准定为 和 ,选入的变量是 ,而不是 ,结果发生了改变。

不同回归方程适应于不同用途,依专业知识定。

05.0入 10.0出41, XX

4321 ,,, XXXX

Page 42: 第 13 章  多重线性回归与相关

5 、多重共线性 即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果:

( 1 )参数估计值的标准误变得很大,从而 t 值变得很小。( 2 )回归方程不稳定,增加或减少某几个观察值,估计值可

能会发生很大的变化。( 3 ) t 检验不准确,误将应保留在模型中的重要变量舍弃。( 4 )估计值的正负符号与客观实际不一致。

消除多重共线性:剔除某个造成共线性的自变量,重建回归方程;合并自变量,采用逐步回归方法。

Page 43: 第 13 章  多重线性回归与相关

5.变量间的交互作用

6.残差分析 即 iii YYe ˆ 。

在正常情况下ie服从均值为0,方

差为2的正态分布。标准化残差

残MS

ee ii '

为纵坐标,以iY为横坐标作残差图

进行分析。