应用回归分析 - course.shufe.edu.cncourse.shufe.edu.cn/tjrj/ppt/7.pdf · 选择形式：ऍ...

1

应用回归分析

上海财经大学统计与管理学院

2

1. 相关分析

2. 一元线性回归分析

3. 多元线性回归分析

4. 变量选择

5. 非线性回归(可化为线性)

6. 回归诊断

7.案例分析

目录

3

回归分析

回归分析是处理多个变量间相关关系的一种数学方法. 变量间的关系有两种类型:确定性的函数关系和相关关系.回归分析方法是处理变量间相关关系的统计分析工具. 回归分析用于确定一个变量(因变量)与另一些变量(自变量)间的相互依赖关系。回归分析是研究一个(或几个)因变量Y与另一些变量的相互依赖关系.具体地说,研究问题如下： ① 建立因变量Y与x1,x2,…,xm的经验公式(回归方程) ② 对经验公式的可信度进行检验； ③ 判断每个自变量xi(i=1,…,m)对Y的影响是否显著? ④ 利用经验公式进行预报和控制,指导生产； ⑤ 诊断经验公式是否适合这组数据.

4

相关分析-相关关系的类型

3. 4.

1. 2.线性非线性

周期性无规律

6

相关分析-相关系数(Correlation Coef.)

线性关系是描述变量间联系中最简单和最常用的一种(𝑌 = 𝑎1𝑥1 + 𝑎2𝑥2 + 𝑏); 相关系数是描述两个变量间线性联系程度的统计指标;

样本相关系数的计算公式：

ｒ＝∑ 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌

∑ 𝑋𝑖 − 𝑋 2∑ 𝑌𝑖 − 𝑌 2

7

相关系数两个区间型变量间的关系有很多种可能，在考察散点图后，可用相关系数度量两变量的相关程度.若两变量间存在线性关系，则相关的，否则，变量间的相关是不强的. 相关系数是描述变量间线性联系程度的一个统计量，统计中有多个描述相关的指标，最常用的是Pearson相关系数，简称相关系数，此外还有Spearman秩相关系数。

相关系数的值为 ① -1和+ 1之间； ② 若两个变量间有高度线性关系其值接近任一个极端值； ③ 若两个变量间不相关，其值接近于零； ④ 相关系数大于零，两变量正相关（即两变量同向变化）； ⑤ 相关系数小于零，两变量负相关（即两变量反向变化）。

8

正相关：一个变量数值增加时另一个变量也增加

负相关：一个变量数值增加时另一个变量减少

相关系数

9

相关系数的计算--CORR过程

PROC CORR DATA=数据集名; VAR 变量名列;

WITH 变量名列;

PARTIAL 变量名列;

BY 变量名列; RUN;

Corr语句默认返回pearson相关系数和简单描述统计分析，可以添加spearman，kendall选项来返回对应的非参相关系数，也可以添加nosimple不进行简单描述统计。

10

例：var height weight age;

做身高、体重和年龄三者相互的相关系数阵。 var iq gpa; with test1-test10;

做上述两组变量之间的相关分析。 var height weight; partial age;

去除age因素影响做身高与体重的偏相关系数

相关系数的计算--CORR过程

11

绘制散点图—GPLOT过程

散点图是直观地观察连续变化变量间相依关系的重要工具。利用编程可绘制两个变量的散点图。

Symbol v=star cv=red;

proc gplot data=class;

plot weight*height;

Run ;

或 (ch07_01.sas)

proc plot data=sashelp.class;

plot weight*height='*';

run;

12

在使用相关系数说明问题时要注意的是： (1)相关系数很强并不表示变量间一定有因果关系，也可能是两个变量同时受第三个变量的影响而使他们有很强的相关（如学习能力和鞋码大小）； (2)相关系数是说明线性联系程度的。相关系数接近于0的变量间可能存在非线性联系（可能是曲线关系）； (3)有时个别极端数据可能影响相关系数。

相关分析量化连续型变量之间线性相关的强度；回归分析确

定一个连续变量与另一些连续变量间的相互依赖关系。

相关与回归

13

强相关并不表示一定存在因果关系; 弱相关并不表示变量间不存在关系;

曲线关系

个别极端数据可能影响相关系数.

-3

-2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13

-2-10123456789

10111213

Y

X

有极端数据下的相关

相关与回归

14

相关分析练习题

1. 对学生数据(CLASS),完成以下练习:

(1) 计算AGE,WEIGHT,HEIGHT的相关系数

(2) 绘制WEIGHT与HEIGHT的散点图(男女用不同颜色表示).

2. 对fitness数据集中的所有指标进行相关分析，找出相关性显

著的指标。

15

一元线性回归分析

建立回归方程：

确定变量：𝑌 与变量𝑥1, 𝑥2, … , 𝑥𝑚 有相关关系。

选择形式：𝑌 与 𝑥1, 𝑥2, … , 𝑥𝑚 以什麽形式相联系，即 𝑓(. ) 的表示式。

确定系数：确定 𝑌 = 𝑎1𝑥1 + 𝑎2𝑥1𝑥2 + 𝑎3𝑥12 + ⋯中的 𝑎𝑖。

回归(Regression)分析描述一个变量与一些变量间统计联系的关系式,𝑌 = 𝑓 (𝑥1, 𝑥2, … , 𝑥𝑚 ), 并用于解释和预测。

16

因变量𝑌和自变量𝑥的𝑛次观测数据(𝑋𝑖 ,𝑌𝑖)可以用以下方程表示： 𝑌𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝑖 (i=1,2,. . .,n) 𝑌𝑖 : 因变量的第 𝑖 次观测值; 𝑥𝑖 : 自变量的第 𝑖 次观测值;

𝛽0, 𝛽1: 待估参数， 𝛽0是截距，它对应自变量为0时因变量的均

值； 𝛽1是斜率，它对应自变量改变一个单位时因变量均值的改

变量；随机误差𝑖 是独立的，等方差(𝜎2)的正态分布。

估计线性回归模型的目的就是要从观测(𝑥𝑖 , 𝑌𝑖) (𝑖 = 1, … , 𝑛) 出

发对模型中的未知参数0 , 1和𝜎2进行估计；从图形上看就是要

从观测点(𝑥𝑖 , 𝑌𝑖)出发，拟合直线𝑌 = 0 + 1 𝑥。

未知参数0 和1的估计是由最小二乘法算出，该方法估计使

由此估计确定的直线满足观测值和直线间纵向距离的平方和为

最小。换言之，拟合的回归直线尽可能地靠近所有的数据点。

一元线性回归分析

17

0 1( )i iY b b x

0 1Y b b x

一元线性回归分析-回归拟合

18

记𝑄 𝛽0, 𝛽1 = ∑ 𝑦𝑖 − 0 + 1𝑥𝑖12

使𝑄 𝛽0, 𝛽1 达到最小值的点为𝑏0 , 𝑏1 。称 𝑏0 , 𝑏1 是参数的最小二乘估计（LSE）。

𝑄 = ∑ 𝑦𝑖 − 𝑏0 + 𝑏1𝑥𝑖12 = ∑ 𝑦𝑖 − 𝑦𝑖

2 称Q为残差平方和。

∑ 𝑌𝑖 − 𝑏0 − 𝑏1𝑥𝑖2 = 𝑚𝑖𝑛𝑄,

𝑏0 = 𝑌 − 𝑏1𝑥 , 𝑠𝑏0

2 =∑𝑥𝑖

2 𝜎2

𝑛𝑆𝑥𝑥,

𝑏1 =∑ 𝑌𝑖−𝑌 𝑥𝑖−𝑥

∑ 𝑥𝑖−𝑥 2 =𝑆𝑦𝑥

𝑆𝑥𝑥, 𝑠𝑏1

2 =𝜎2

𝑆𝑥𝑥,

𝑌𝑖 = 𝑏0 + 𝑏1𝑥𝑖 = 𝑌 + 𝑏1(𝑥𝑖 − 𝑥 )

一元线性回归分析-最小二乘法LSE

19

因变量(Y)

自变量(x)

0 1Y b b x

一元线性回归分析-方差分解

20

Y

xi

Yi

0 1ˆi iY b b x

自变量(x)

因变量(Y)

SS(C-Total)=∑ 𝑌𝐼 − 𝑌 2 (𝑥𝑖 , 𝑦𝑖)


21

SS(C-Total)=∑ 𝑌𝑖 − 𝑌 2

SS(Model)=∑ 𝑌𝑖 − 𝑌

2

=𝑅2∑ 𝑌𝑖 − 𝑌 2,其中𝑅2 =𝑆𝑆 𝑀𝑜𝑑𝑒𝑙

𝑆𝑆 𝐶−𝑇𝑜𝑡𝑎𝑙

SS(Error)=∑ 𝑌𝑖 − 𝑌𝑖 2

=(1-𝑅2)∑ 𝑌𝑖 − 𝑌 2 SS(C-Total)=SS(Model)+SS(Error)


22

简单线性回归分析--模型检验的假设和回归统计量模型检验的假设为： 𝐻0： 1 = 0， 𝐻1： 1 ≠ 0；检验结果若拒绝原假设就表示回归方程的作用是显著的;接受原假设就表示所考虑的自变量X对因变量Y的回归作用并不显著。基线模型：𝑌𝑖 = 𝑌 + 𝑒𝑖 原假设: 简单线性回归模型拟合数据不比基线模型好；备择假设: 简单线性回归模型拟合数据比基线模型好。

𝑅2 =𝑆𝑆 𝑀𝑜𝑑𝑒𝑙

𝑆𝑆 𝐶−𝑇𝑜𝑡𝑎𝑙=

𝑏12∑ 𝑥𝑖−𝑥 2

∑ 𝑌𝑖−𝑌 2 ，

Adj-𝑅2 = 1 −𝑀𝑆 𝐸𝑟𝑟𝑜𝑟

𝑀𝑆 𝐶−𝑇𝑜𝑡𝑎𝑙= 1 −

𝑛−1 1−𝑅2

𝑛−𝑚

Press=∑ 𝑌𝑖 − 𝑌(𝑖) 2

,(预测残差平方和）

23

回归统计量--预测值与置信限

预测值：𝑌𝑥0 = 𝑏0 + 𝑏1𝑥0

均值置信区间（CLM）：

𝑌𝑥0 ± 𝑡(

𝛼

2, 𝑛 − 2)

1

𝑛+

𝑥0 − 𝑥 2

𝑆𝑥𝑥𝑆𝑆𝑒

预测值置信区间（CLI）：

𝑌𝑥0 ± 𝑡(

𝛼

2, 𝑛 − 2) 1 +

1

𝑛+

𝑥0 − 𝑥 2

𝑆𝑥𝑥𝑆𝑆𝑒

25

一元线性回归分析应用例

例2.1:讨论英国11年有执照汽车数x(万辆)与车祸次数Y(千次)的相关关系(数据见DATA步的数据行),并进行预测.

data dreg21;

input year y x @@;

datalines;

1947 166 352 1948 153 373 1949 177 411

1950 201 441 1951 216 462 1952 208 490

1953 227 529 1954 238 577 1955 268 641

1956 268 692 1957 274 743

;

proc reg data=dreg21;

model y = x ;

run;

(ch07_02.sas)

26

一元线性回归分析--REG过程

PROC REG DATA=数据集名; MODEL 因变量=自变量名列/ p cli clm noprint noint ; ID 变量名; OUTPUT out=数据集名关键统计量名=输出名...; RUN;

27

一元线性回归的计算

proc reg data=fitness ;

model oxygen = runtime ;

run;

proc reg data=fitness ;

model oxygen = runtime / p cli clm ;

id runtime;

output out=outfit p=poxy r=roxy

l95=l95oxy u95=u95oxy;

run;

28

回归线作图--用REG中的PLOT语句

PROC REG DATA=数据集名 noprint; MODEL 因变量=自变量/p cli clm r;

PLOT y变量*x变量/选项;

SYMBOL𝑛 c=颜色 v=值; RUN;

利用proc reg 中的plot语句可以绘制与拟合数据有关的散点图、回归直线和置信曲线、预测区间曲线.cv-点的颜色；ci-连线颜色；co-对应置信带的颜色。如回归中的点是红色，拟合线为蓝色，对应的置信带为绿色的sas代码：symbol cv=red ci=blue co=green;

noprint 不输出拟合的结果.

29

回归线作图--用REG中的PLOT语句

PROC REG DATA=数据集名 noprint; MODEL 应变量=自变量/p cli clm r;


symboln c=颜色 v=值; RUN;

y变量和x变量可以是因变量、自变量和其它与回归分析结果有关的变量： p.(predicted) 预测值 r. (residual) 残差 U95., L95. 预测值置信限 U95M.,L95M. 预测均值置信限

选项： conf 95---预测均值的置信曲线 pred95---作预测值的置信曲线 overlay---多图叠加在一幅图上 AIC CP MSE SSE--在图形左边显示相应的统计量

30

回归线作图--用GPLOT过程

PROC GPLOT DATA=数据集; PLOT 纵轴变量*横轴变量纵轴变量*横轴变量… / overlay; SYMBOL1 i=rlcli|rlclm/*置信百分数其它图形选项*/; SYMBOL2 i=rlcli|rlclm /*置信百分数其它图形选项*/; RUN;

图形选项: c= value= cv= height= font= Line= width= interpol=r<类型><0><clm|cli><50...99> ci=

31

回归线作图--例子

symbol1 value=star ci=blue cv=red

i=rlclm95 width=2;

proc gplot data=dreg21;

plot y*x;

title2 'Y对x的回归线及均值的95%置信限';

run;

(i=rlclm95 表示绘制线性回归预测均值的95%置信限)

(ch07_03.sas或ch07_03b.sas)

32

一元线性回归分析-练习题

1. 讨论某种合成纤维的强度Y与拉伸倍数x的相关关系(数据集regE21).

(1) 建立合成纤维强度与拉伸倍数的回归，并分析回归系数的检验结果。

(2) 给出当𝑥=２.2,3.2,6.2和10.2时,合成纤维的强度的预测值及线性回归预测均值的90%置信区间。

(3) 绘制𝑌对𝑥的散点图,回归线及均值的95%的置信限。

2.对不同类型汽车的价格和性能的数据(CARS)

(1) 建立MIDPRICE(中间价)与PERFORM(使用效率--性能)回归关系式,并给

出回归系数的检验结果。

(2) 给出当PERFORM=0.03,0.04,0.05和0.06时,中间价的预测值及线性回归预

测均值的90%置信区间。

(3) 绘制MIDPRICE(中间价)对PERFORM(性能)的散点图,回归线及均值的

95%的置信限。

33

多元线性回归分析多元线性回归模型可同时研究 Y 与多个自变量(独立变量) 𝑥1, 𝑥2, . . , 𝑥𝑝

间的关系；对多元回归模型进行解释和选择最优要比单变量的模型复杂；多元线性回归用于分析因变量与自变量的关系、预测因变量等。一些变量间的非线性关系也可归为多元线性回归模型（例如多项式关系）。

多元线性回归模型:

𝑌𝑖 = 𝑏0 + 𝑏1

𝑥𝑖1+. . . + 𝑏𝑝

𝑥𝑖𝑝 + 𝜀𝑖, 𝑖 = 1, . . . , 𝑛 i: 相互独立、正态分布、同方差、零均值. 用最小二乘准则估计0 ,1 ,. . .,p ,使得：

𝑄 𝛽 = ∑ 𝑌𝑖 − 𝛽0 − 𝛽1𝑥𝑖1 − ⋯ − 𝛽𝑝𝑥𝑖𝑝2

→ min

通过求导得到0 ,1 ,. . .,p 的一个线性方程组(正规方程)可得参数的估计.

34

多元线性回归分析-最小二乘法和平方和分解

多元线性回归模型（用矩阵向量的符号）：Y=X +

的最小二乘估计𝑏为 b =(X ’X)-1X ’Y

预测向量为 𝑌 = 𝑋 𝑏

Total SS=∑ 𝑦 − 𝑦 2= 𝑦 − 𝑦 2 + ∑ 𝑦 − 𝑦 2 =Model SS+Error SS

Error SS=𝑌′ 𝐼 − 𝑋 𝑋′𝑋 −1𝑋′ 𝑌 = 𝑄 𝑏

其中𝐼 − 𝑋 𝑋′𝑋 −1𝑋′为𝐻阵

𝜎2 = 𝑠2 = 𝑀𝑆𝐸 = 𝐸𝑟𝑟𝑜𝑟𝑆𝑆

𝑛−𝑚−1

𝑅2 =𝑀𝑜𝑑𝑒𝑙 𝑆𝑆

𝑇𝑜𝑡𝑎𝑙 𝑆𝑆

35

预测值和预测区间--选项: P,CLM,CLI

预测残差平方和:PRESS=∑ 𝑌𝑖 − 𝑌(𝑖) 2

预测值(P):𝑌 = 𝑋𝛽

均值E(y)置信限(CLM):𝑦 ± 𝑡𝛼

2𝑉𝑎𝑟(𝑦 )

𝑉𝑎𝑟 𝑦 = x′ X′X −1x MSE

预测值y置信限(CLI):𝑦 ± 𝑡𝛼

2𝑉𝑎𝑟(𝑦 − 𝑦 )

𝑉𝑎𝑟(𝑦 − 𝑦 )= 1 + x′ X′X −1x MSE

36

回归方程的显著性检验求得回归方程后，此方程是否有意义?首先应检验以下假设： 𝐻0: 𝑏1 = 𝑏2 = ⋯ . = 𝑏𝑚

= 0

从分析引起 𝑌𝑡(𝑡 = 1, … , 𝑛) 变化的总变差Total SS的原因入手，显然使得𝑌变化的原因有二个：第一,因𝑌与𝑥𝑖(𝑖 = 1, … , 𝑚)线性相关,由𝑥𝑖的变化引起𝑌的变化；第二,其它因素或误差引起的.若𝑌的变化主要是由𝑥𝑖的变化引起的,则模型中的自变量𝑥𝑖的系数𝛽𝑖 ≠0.用方差分析的思想,把𝑦𝑡( 𝑡 = 1, … , 𝑛)的总变差进行分解： Total SS=Model SS+Error SS

由总变差的分解公式： Total SS=MSS+ESS 可构造检验假设的检验统计量𝐹

𝑭 =𝑴𝑺𝑺

𝒇𝒎/(

𝑬𝑺𝑺

𝒇𝒆)=

𝑴𝑴𝑺(模型均方） 𝑬𝑴𝑺(误差均方）

37

由观测数据计算𝐹值及显著性概率(𝑝值)，𝑝值是指在𝐻0下，利用F的分布规律，计算出检验统计量𝐹大于等于样本𝐹值的概率。若得出的𝑝值很小(小于显著性水平𝛼)，依统计思想，小概率事件在一次实验中一般不会发生。如果发生小概率事件，将否定𝐻0。

对回归方程的显著性检验，若否定𝐻0，仅表示𝛽1, 𝛽2, … , 𝛽𝑚不全为0，但并不排除有个别βi为0。若𝛽𝑖 = 0,说明自变量xi对因变量Y的影响不明显，应从回归模型中删除。因此对回归系数𝛽𝑖 (𝑖 = 1,2,… , 𝑚)是否为0逐个进行检验是很必要的。

回归方程的显著性检验

38

即检验以下的假设： 𝐻(𝑖) ：𝛽𝑖 = 0 (𝑖 = 1,2, … , 𝑚)

类似一元回归，构造检验统计量T,并由n组观测计算T值和显著

性概率(𝑝值)。从而对𝐻(𝑖)是否成立进行统计推断。

在多元线性回归分析中输出回归系数的𝑡检验里，都是假定其它自变量进入回归的前提下检验该变量进入的显著性.即构造t 统计量的平方和为偏回归平方和, 称为II型平方和(SS2)。

若模型中有两个变量相关性强，在这一检验中两者的显著性都有可能被隐蔽起来.所以,这一检验结果必须小心分析。

删除变量时，必须逐个删除.并在删除每个变量后，注意观测其它变量的𝑝值的变化.

回归系数的显著性检验

39

多元线性回归分析例例3.1分析FITNESS数据集,并建立肺活量与其它指标的回归关系。

解先用GPLOT过程画OXYGEN和RUNTIME的散点图： proc gplot data=fitness;

plot oxygen*runtime=′*′;

title "肺活量与1.5英里跑时间的散布图";

run;

用REG过程对FITNESS数据进行回归计算： proc reg data=fitness;

model oxygen=age weight runtime rstpulse

runpulse maxpulse;

title "oxygen与其它指标的多元回归模型";

run;

(ch07_04.sas)

40

多元线性回归分析-练习题

对不同类型汽车的价格和性能的数据(CARS)

(1) 建立MIDPRICE(中间价) 与 citympg, cylinder, hwympg,egnsize,

rpm,revltns,fueltnk和perform的多元回归关系式,并给出各

个回归系数的检验结果.

(2) 由回归系数的显著性检验结果,能否指出影响中间价格的主

要因素是哪些?哪几个因素是不显著的(=0.10)?

(3) 对92辆汽车的数据用以上拟合的回归式进行预测,并且给出

均值的95%的置信区间.

41

变量选择

什么是“最优”回归方程?直观考虑应该是方程中包含的所有变量对因变量𝑌的影响都是显著的；而不包含在方程中的变量对𝑌的影响是不显著的(可忽略).也就是从自变量集{x1 ,x2 ,…，xm}中选出适当的子集{xi1

,xi2 ,…，xil

}(𝑙 ≤ 𝑚)，使得建立𝑌与xi1

,xi2 ,…，xil

的回归方程就是这样的“最优”回归方程.这就是回归变量的选择问题。回归变量的选择在应用和理论上都很重要。这个问题最大的困难就是如何比较不同选择(即不同子集)的优劣，即最优选择的标准。从不同的角度出发，可以有不同的比较准则，在不同的准则下，“最优”回归方程也可能不同.

注：实证分析中并不刻意考虑最优模型选择，更多从实际问题和分析角度出发对多个模型进行分析和结果比较。

42

(1) 均方误差s2最小选择子集A={xi1

,xi2 ,…，xil

}，使均方误差： s2(A)=ESS (A)/(n-l-1) 达最小。其中ESS (A)是Y与子集A回归模型的误差平方和，𝑙是子集A中自变量的个数。 (2) 预测均方误差最小

选择子集A, 使得J(A)=𝒏+𝒍+𝟏

𝒏−𝒍−𝟏ESS(A)达最小。

(3) 𝐶𝑝统计量最小准则

选择子集A，使得𝑪𝒑(𝑨)= 𝑬𝑺𝑺 𝑨

𝑬𝑺𝑺/(𝒏−𝒎−𝟏)+2l-n 达最小，其中ESS

是包含所有𝑚个自变量的全模型的误差平方和.

MSE

变量选择准则

43

(4) AIC或BIC准则选择子集A，使得

𝐴𝐼𝐶(𝐴) = ln (𝐸𝑆𝑆(𝐴)) +2𝑙

𝑛 或𝐵𝐼𝐶(𝐴) = ln (𝐸𝑆𝑆(𝐴)) +

𝑙 𝑙𝑛𝑛

𝑛

达最小。

(5) 修正𝑅2准则

选择子集A，使得修正R2=1- 𝑛−𝑖

𝑛−(𝑙+𝑖) (1-R2)

(当模型含截距项时i=1，否则i=0)达最大。

(6) SBC准则

Schwarz's Bayesian Criterion =𝑛𝑙𝑛𝐸𝑆𝑆 𝐴

𝑛+ 𝑙𝑙𝑛(𝑛)

变量选择准则

44

在回归方程中，若遗漏了应加入的变量,将使所有的回归系数估计量产生偏差；若加入了不该加入的变量，将加大所有的回归系数估计量的方差。

回归分析中变量的选择是在自变量(独立变量)集中找出合适的子集，用以描述模型和进行预报。常用的有：所有可能回归法(更多的侯选模型)和逐步筛选回归法(节省计算机资源)。REG过程逐步筛选变量方法选项如下：

NONE: 全部进入，不筛选变量;

FORWARD: 向前加入法,即逐个加入变量;

BACKWARD: 向后删除法,全部加入后逐个剔除;

STEPWISE: 逐步筛选法,边进边出;

MAXR：逐个加入和对换，使R2增加最大;

MINR：逐个加入和对换，使R2增加最小.

变量选择

45

MAXR：开始加入使R2增加最大的变量以后每一步选择模型内外变量进行对换—１.选择使R2增加最大的对换;

２.选择加入一个使R2增加最大的新变量.

MINR：开始加入使R2增加最小的变量以后每一步选择模型内外变量进行对换—１.选择R2增加最小的对换;

２.选择加入一个使R2增加最小的新变量.

RSQRARE：对不同个数自变量分别选择RSQ最大的模型

ADJRSQ: 选Adj-RSQ最大的模型

𝐶𝑝:选最先满足𝐶𝑝 ≤ 𝑝 的模型，其中𝑝为进入回归的变量数

Hocking建议: 𝐶𝑝 ≤ 𝑝 (预测)和 𝐶𝑝 ≤ 2𝑝 − 𝑚 + 1(估计)， (𝑚为

全模型的变量个数)

变量选择-逐步筛选法

46

变量选择变量的选择--回归分析计算

PROC REG DATA=数据集名; MODEL 因变量=自变量名列/p cli clm r noprint selection= backward |forward| stepwise rsquare |adjrsq|cp slentry=0.05 slstay=0.10 best=个数 aic sbc rmse include=n ; ID 变量名; OUTPUT out=数据集名关键统计量名=输出名. . .; RUN;

(ch07_05.sas) (3) REG过程及选项SELECTION=

变量选择

47

以上介绍的选择回归子集的几种方法中，最常用的是逐步筛选法。逐步回归的基本思想和基本步骤如下：基本思想：逐个引入自变量，每次引入对Y影响最显著的自变量，并对方程中的老变量逐个进行检验，把变为不显著的变量逐个从方程中剔除掉。最终得到的方程中即不漏掉对Y影响显著的变量，又不包含对Y影响不显著的变量。基本步骤：首先给出引入变量的显著性水平𝛼𝑖𝑛和剔除变量的显著水平𝛼𝑜𝑢𝑡。然后按以下框图筛选变量。

变量选择-逐步回归

49

例4.1 用REG过程分析FITNESS数据，并用逐步筛选方法建

立“最优”的回归关系式；然后进行预测。

解调用REG过程完成逐步回归计算。假设引入变量的显著

性水平𝛼𝑖𝑛=0.15,剔除变量的显著性水平𝛼𝑜𝑢𝑡=0.15(一般取𝛼𝑖𝑛 =

𝛼𝑜𝑢𝑡 ,也可取为不等.但要求𝛼𝑖𝑛 ≤ 𝛼𝑜𝑢𝑡 ,否则可能出现死循环) 。

要求计算预测值和95%置信界限。SAS程序如下：

变量选择-逐步回归例

50

proc reg data=fitness;

model oxygen = age weight rstpulse

maxpulse runpulse runtime /

selection=stepwise

sle=0.15 sls=0.15;

print cli;

title 'Stepwise Selection';

run;

(ch07_06.sas)

0.15是系统的缺省值,可以

省略.


51

以上SAS程序的输出结果,首先给出筛选变量的过程:

第一步引入runtime，一元线性回归模型的R2=0.7434;

第二步引入age,Y与runtime,age的二元回归模型的

R2 =0.7642；

第三步引入runpulse,Y与runtime,age 和runpulse 的三元回归模型的 R2 =0.8111；

第四步引入maxpulse,Y与runtime,age,runpulse和maxpulse的四元回归模型的 R2 =0.8368；

经过四步筛选变量的过程结束后，“最优”回归方程中包含4个变量。并可写出回归方程式(省略)。


52

proc reg data=fitness;

model oxygen=age weight rstpulse

maxpulse runpulse runtime

/selection=rsquare best=2 sbc rmse;

title 'R-Square Selection';

run; (ch07_07.sas)

计算所有可能回归子集.对每种变量个数输出最好的二个回归子集及该子集相应的sbc和rmse统计量.

变量选择- 其它例

53

变量选择-其它例

54

对不同类型汽车的价格和性能的数据(CARS)

(1) 用逐步回归建立MIDPRICE与 citympg, cylinder, hwympg,egnsize,rpm,revltns,fueltnk, perform的最优回归方程,(引入和保留变量的显著水平为0.05).

(2) 计算MIDPRICE(中间价)与citympg,cylinder, hwympg,egnsize,rpm,revltns,fueltnk和perform的所有可能回归式.并且对每种变量个数输出最好的二个回归子集.

变量选择-练习题

55

非线性回归曲线回归--可化为线性的曲线回归

在有些实际问题中,因变量Y与x的关系不是线性关系.它们之间的关系有时可根据专业知识知道；有时通过画散点图可猜测Y与x的函数形式.这里要求我们了解常见函数的曲线图形. 对这类不满足线性关系的回归问题，首先初步确定函数形式；然后对变量Y或x作适当的变换,目的是化为线性回归(一元线性或多元线性)；然后求出变换后的线性关系式，最后转化为回归曲线.

56

非线性回归曲线回归--常见的函数及图形

指数函数: Y=aebx

(b>0) 指数函数: Y=aebx

(b<0)

对数函数:Y=a+blog x

(b>0)

对数函数:Y=a+blog x

(b<0)

57

非线性回归曲线回归--常见的函数及图形

幂函数: Y=a x b

(b>1) 幂函数: Y=a x b

(0<b<1)

双曲函数:----=a+b--- 1 Y

1 x

S型函数:

Y= 1

a+be-x

58

非线性回归曲线回归

确定函数的形式的方法: (1) 根据专业知识或经验; (2) 利用散点图来猜测函数的可能形式(熟悉常见函数图形) .

作适当的变换化曲线回归为线性回归: (1) 以上给出的函数形式,均可作适当的变换化为一元线性回归(如双曲函数,令y*=1/y , x*=1/x,则y*与x*满足:y*=a+bx*); (2) 有些函数形式变换可化为多元线性关系(如多项式关系).

59

曲线回归例-钢包侵蚀数据

炼钢厂出钢时所用的盛钢水的钢包,在使用过程中由于受浸蚀,其容积不断增大.经试验得钢包的容积𝑌(以钢包盛满时钢水的重量表示)与相应使用的次数𝑋的数据如下表.试用REG过程分析钢包数据,并建立最适合这组数据的回归关系，然后进行预测。

60

用REG过程在PLOT语句中斜线后的可用选项CONF95和PRED95要求在散点图上附加上均值的95%置信线和预测值的95%置信线，用全局语句SYMBOL还可以按用户的希望对散点图进行各种图形参数设置(如V=STAR要求散点用星号)。 proc reg data=data51；/*graphics*/

model y=x;

plot y*x / conf95 pred95;

symbol v=star;

run;

从生成的散点图大概可看出𝑌和𝑋之间的关系不能很好地用一条直线表示。𝑌随𝑋的增加开始也增加，但增加到某个位置时它看来似乎趋于平衡。由散点图可看出应该用一条曲线(比如双曲线)拟合这组数据。

(ch07_08.sas)


61

(3) 曲线回归(双曲线) 对数据进行曲线拟合之前，首先需要生成一个存放对𝑋,𝑌 变换(求倒数)后的新变量。在DATA步增加一条赋值语句用于创建新变量(变量名分别为XA,YA)。 data da51a;

set data51;

ya=1/y; xa=1/x;

run;

现在已经为拟合𝑌与𝑋的双曲线回归准备好了数据。下面键入调用REG过程的SAS程序(输出结果省略)： proc reg data=da51a;

model ya=xa;

title "双曲线回归模型";

run; (ch07_08.sas)


62

从计算结果可以得到： ① 回归方程是显著的(显著性概率p值=0.001)。 ② 回归系数也是显著的(显著性概率p值=0.001)。 ③ 拟合的回归曲线方程式为：

1

𝑌 = 0.008967 +

0.000829

𝑥

④ 线性回归模型的决定系数𝑅2=0.9736;


63

线性回归的效果用可决系数R2和误差均方s2来判断。如上例回归中，R2=0.9736,对于曲线回归也有类似的统计量用于度量回归曲线的拟合效果。 (1) 相关指数

在曲线回归中称: 𝑅2 = 1 −∑ 𝑦𝑖−𝑦𝑖 2

∑ 𝑦𝑖−𝑦 2

为曲线回归模型的相关指数。 R2愈靠近1表示曲线回归的效果愈好。在上例中，所考虑的双曲线回归的相关指数等于0.9729。一般说来，当化为线性回归后的决定系数愈大，曲线回归的相关指数也大。


64

(2) 剩余标准差𝑠

在一元曲线回归中(𝑚 = 1)，称𝑠 =∑ 𝑦𝑖−𝑦𝑖 2

𝑛−2

𝑠为曲线回归模型的剩余标准差。𝑠值愈小表示拟合的曲线回归模型愈好 .在钢包数据例子中𝑠=0.2285 . 如果对某组数据可能拟合几种不同形式的曲线回归，为了确定哪条曲线更适合这组数据，可以比较相关指数𝑅2或剩余标准差𝑠，哪个模型的𝑅2最大(或𝑠最小)，该模型最适合这组数据。(见“本节练习题”2)


65

非线性回归多项式回归

多项式函数是非线性函数中较为简单的一类，它也可通过多元线性回归来拟合,如

𝑌 = 0 + 1𝑥 + 2𝑥2 + 3𝑥3+. . .

引入新变量 𝑥𝑖 = 𝑥𝑖

𝑌 = 0 + 1𝑥1 + 2𝑥2 + 3𝑥3+. . .

PROC REG和PROC GLM都可用于拟合多项式.

66

非线性回归多项式回归--Ｉ型平方和(SS1)

(1) 多项式回归考虑引入的阶次从１阶,2阶,…,k 阶多项式,与次序有关.

(2) 用向前法(SELECTION=FORWARD)选择变量时,也是逐个引入变量.它是在前一步已含有Ｌ个变量的基础上考虑能含再引入这个变量.

以上两种情况下检验可否引入变量时,用到的平方和是与变量引入次序有关,称为类型Ｉ平方和 (SS1).

69


I型平方和可转化为F 统计量,用以对回归模型: Y=b0+b1x1+b2x2+b3x3+e

作如下的检验:

𝐻0: 𝛽0 = 0

𝐻0: 𝛽1 = 0|𝛽0

𝐻0: 𝛽2 = 0|𝛽1, 𝛽0

𝐻0: 𝛽3 = 0|𝛽2, 𝛽1, 𝛽0

𝐹 = (𝑅 .

𝑑𝑓)/𝑀𝑆𝐸

70

非线性回归多项式回归--两种平方和:SS1,SS2

模型1：𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + 𝜖 模型2：𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + +𝛽3𝑥3 + 𝛽4𝑥4𝜖

𝑅 𝛽3, 𝛽4 𝛽0, 𝛽1, 𝛽2 = 𝑀𝑜𝑑𝑒𝑙𝑆𝑆2 − 𝑀𝑜𝑑𝑒𝑙𝑆𝑆1 =𝐸𝑟𝑟𝑜𝑟𝑆𝑆1 − 𝐸𝑟𝑟𝑜𝑟𝑆𝑆2 𝑆𝑆1 𝑠𝑒𝑞𝑢𝑒𝑛𝑡𝑖𝑎𝑙 : 𝑅 𝛽1 𝛽0 , 𝑅 𝛽2 𝛽0, 𝛽1 , 𝑅 𝛽3 𝛽0, 𝛽1, 𝛽2 𝑆𝑆2 𝑝𝑎𝑟𝑡𝑖𝑎𝑙 : 𝑅 𝛽1 𝛽0, 𝛽2, 𝛽3, 𝛽4 , 𝑅 𝛽2 𝛽0, 𝛽1, 𝛽3, 𝛽4 ,…

71


因此,若进入回归模型的变量有一定的优先次序（如对多项式,线性项先于二次项,二次项先于三次项等）,应该用I型平方和(SS1)及相应的F统计量。若平等地考虑各个变量是否进入回归模型，则可用II型平方和(SS2)及其相应的F统计量。

例5.2(温度随时间变化的规律):以下DATA步中的数据行给出某化学试验中,每隔５分钟对温度进行一次测量的数据,试找出温度(tc)随时间(t)变化的规律. 解:首先生成SAS数据集,名为reg52.

72

非线性回归多项式回归—例5.2

title ' reg52B.sas--试验温度数据';

data reg52;

input t tc @@;

tt=t*t; ttt=tt*t;

cards;

5 99.2 10 99.7 15 99.9 20 100.2 25 100.3

30 100.4 35 100.4 40 100.3 45 100 50 99.8 55 99.4

;

proc reg data=reg52;

Lin: model tc = t / ss1 ss2;

Quad: model tc = t tt / ss1 ss2;

Cubic: model tc = t tt ttt / ss1 ss2;

title2 '用REG过程拟合回归直线,二次曲线,三次曲线';

run; (ch07_09.sas)

73


这是拟合三次多项式的结果

74


75


以上方差分析表和参数估计表是三次多项式模型的主要计算结果,由选项SS1,SS2,在参数估计表中还给出类型Ｉ和类型Ⅱ平方和.但没有进行检验。注意到模型平方和SSM满足: SSM=R(t,截距)+R(tt|t,截距) +R(ttt|tt,t,截距),即

1.64929=0.03636+1.61287+0.00005828.

为了确定多项式的阶次,适合于这组数据的多项式是取二次多项式,三次多项式还是需要更高阶次的多项式?以上只给出了类型Ｉ和类型Ⅱ平方和,还不能解决我们关心的问题,但利用类型Ｉ平方和及其它输出结果,可以通过以下检验来确定最高阶次:

76


第三阶次: F=0.00005828/0.00231=0.02523(p=0.8783) 在显著性水平=0.05时是不显著的.这说明多项式的最高阶次低于三阶次.

第二阶次: F=1.61287/0.00231=698.2121(p<0.001) 在显著性水平=0.05时是高度显著的.这说明多项式的最高阶次取为二阶次即可.

77


PROC REG DATA=数据集名; MODEL 因变量名=自变量名列 </ SS1 SS2 其它选项>; OUTPUT OUT= 数据集名<选项>; RUN;

用REG过程进行k次多项式回归计算时,首先应使用DATA步准备好数据,即令k个新变量:

xi = xi (i=1,…,k).

并把xi (i=1,…,k)作为k个自变量列在MODEL语句的等号右边.

78

非线性回归一般线性模型(GLM过程)

GLM过程用最小二乘法拟合一般的线性模型,包括回归分析、方差分析、协方差分析等. 它与REG过程一样提供方差分析表,参数估计,回归系数的检验和两类平方和;

GLM可提供关于两类平方和的检验;用GLM过程拟合多项式回归时不必预先生成变量的高次项;但GLM过程不能提供回归诊断的信息.

79

非线性回归一般线性模型(GLM过程)

PROC GLM DATA=数据集名; CLASS 变量名列; MODEL 因变量名列=自变量名列 </SS1 SS2 其它选项>; OUTPUT OUT= 数据集名<选项>; RUN;

变量*变量*... 变量|变量|... 用GLM过程中MODEL语句的选项SS1不仅计算Ｉ型平方和且计算由SS1构造的检验统计量和p值,由此可确定多项式回归的合适阶次.

(ch07_10.sas)

80

非线性回归本节的练习题

1. 试对发动机性能数据用编程方法完成以下练习:

(1) 绘制POWER(马力) 对SPEED(用每分钟转几百转度量)的散布图，它们是满足线性关系吗?

(2) 建立POWER与SPEED的线性关系式,并进行显著性检验.

(3) 建立POWER与SPEED的二次多项式回归.并且与一元线性回归式比较之.用几阶多项式拟合最合适?

2. 钢包浸蚀数据进行分析，假定Y与X的函数关系为

① 双曲函数:1/y=a+b/x;

② 对数函数：y=a+blogx; ③ 幂函数：y=a+bx1/2; ④ 负指数函数：y=ae-b/x，试作变量变换化为线性，并建立回归方程,并比较以上四种函数关系，找出最佳的拟合曲线.

81

回归诊断

在多元线性回归模型中我们做了以下假定：

① 𝐸(𝑌) = 𝛽0 + 𝛽1𝑥1 + ⋯ + 𝛽𝑚𝑥𝑚,即𝐸(𝑌)与𝑚个自变量线性相关；

② 误差𝜀1，𝜀2，… , 𝜀𝑛相互独立, 且𝐸(𝜺𝒊) =0,𝑉𝑎𝑟(𝜺𝒊) = 𝝈𝟐 (方差齐性) (𝑖 = 1, … , 𝑛)；

③ 𝜀𝑖 ～𝑁(0, 𝜎2 )(正态性)(i=1,2,…,n) .

在实际问题中这些假定是否成立?如果成立，那么经典回归分析中讨论的估计和检验问题的结论是可靠的；否则前几节的讨论结果将是根据不足。

82

回归诊断的必要性-- Anscombe数据及散点图

( ch07_11.SAS)

83

回归诊断回归诊断的必要性-- Anscombe数据计算结果

Model R^2 F Prob>F Correct 0.6665 17.990 0.0022 Quadrat 0.6662 17.966 0.0022 Outlier 0.6663 17.972 0.0022 Influent 0.6667 18.003 0.0022

(ch07_11.sas)

Model Intercept Prob>|T| Slope Prob>|T|

Correct 3.000091 0.0257 0.500091 0.0022

Quadrat 3.000909 0.0258 0.500000 0.0022

Outlier 3.002455 0.0256 0.499727 0.0022

Influent 3.001727 0.0256 0.499909 0.0022

84

回归诊断回归诊断的必要性

Anscombe例子告诉我们,回归分析中讨论的估计和检验问题并不

能用于验证回归模型的各项假定.另数据中的异常点可能使回

归结果不稳定或不适用.这些任务需要在回归后进行回归诊断

.具体说有以下几方面:

１.异常值(outliers)或强影响点的检查;

２.从已拟合回归的数据中分析线性模型的假定是否被破坏:因

变量的均值是否是自变量的线性函数，是否需要对变量进行

变换或拟合曲线回归;

误差项是否同方差，不相关，正态分布;

３.自变量间是否存在线性关系(仅多元有)—共线性诊断; 考察残

差散点图是进行回归诊断的必要步骤.

85

回归诊断残差分析--残差

回归分析的残差值是回归诊断的重要工具.

残差的定义为：ri = 𝑌𝑖 − 𝑌𝑖 ，其中𝑌𝑖

为第𝑖个预测值

r Y Yi i i = - ^

{

利用残差可以考察残

差和预测值或自变量

的散点图,也可以检

验残差分布的正态性.

86

回归诊断残差分析--残差图的类型

3. 4.

1. 2.模型合适应改曲线模型

不等方差观测值不独立

87

回归诊断残差分析--生成残差

在PROC REG的model语句加上选项p(或 r)，就会输出预测值和相应的残差.

RPOC REG DATA=数据集名 ; MODEL 应变量=自变量/p ;


SYMBOL𝑛 c=颜色 v=值; RUN;

利用plot语句plot r.*p. ; 可得残差-预测散点图。

(ch07_12.sas)

88

回归诊断识别异常观测值

Outlier

89

回归诊断识别异常观测值

在PROC REG的model语句加上选项 r, 就会输出与预测值和残差有关的一些统计量.他们可用于识别异常数据(outlier)及其强影响点.

PROC REG DATA=数据集名 ; MODEL 应变量=自变量/r;

RUN;

Predict Value 预测值 Std Err Predict 预测值标准差 Residual 残差 Std Err Residual 残差标准差 Student Residual student化的残差 -2 -1 0 1 2 残差显著性图 Cook's D Cook's D统计量

90

回归诊断识别异常观测值--与残差有关的统计量

Std Err Residual(残差标准差): 𝑉𝑎𝑟(𝑦 − 𝑦 )

Student Residual:Residual/Std Err Residual

Residual(残差): 𝑟 = 𝑦 − 𝑦

𝑉𝑎𝑟(𝑦 − 𝑦 )= 1 + x′ X′X −1x MSE

预测值(P):𝑌 = 𝑋𝛽

均值E(y)置信限(CLM):𝑦 ± 𝑡𝛼

2𝑉𝑎𝑟(𝑦 )

𝑉𝑎𝑟 𝑦 = x′ X′X −1x MSE

91

回归诊断识别异常观测值--与残差有关的统计量

残差: 𝑟𝑖 = 𝑦𝑖 − 𝑦𝑖 , (i=1,2,…n)

标准化残差:𝑟𝑠𝑖 =𝑟𝑖

𝑠 1−x𝑖′ X′X −1𝑥𝑖

“学生化”残差:𝑟𝑡𝑖 =𝑟𝑖

𝑠(𝑖) 1−𝑥𝑖′ 𝑋′𝑋 −1𝑥𝑖

其中𝑠(𝑖)是删去第𝑖个观测点后所拟合回归式的均方误差。

若|标准化残差或“学生化”残差|＞3,则观测点为异常点; 若|标准化残差或“学生化”残差|＞２,则观测点为可疑点。

92

回归诊断残差的正态性检验

有了残差的数据，就可对其运用图形方法或对残

差的分布作正态性检验.

在PROC REG可利用下列语句用图形分析残差分

布正态性.

PROC REG DATA=数据集名 ; MODEL 应变量=自变量;

PLOT nqq.*student. (nqq.*r.); RUN;

(ch07_13.sas)

93

回归诊断识别强影响点

Y

X

*除去*的余差

通常的余差

94

回归诊断识别强影响点--Cook D 统计量

Cook D统计量度量一个观测从分析中剔除时参数

估计值的变化

对一个观测值其 Cook D 统计量的值超过 4/n 时

(n为样本容量)，这个观测存在反常效应(经验结论).

95

回归诊断识别强影响点--Dffits统计量

Dffitsi 度量第i 个观测对预测值的影响

𝐷𝑓𝑓𝑖𝑡𝑠𝑖 =𝑌𝑖 −𝑌 𝑖

𝑆(𝑟𝑖), 𝐷𝑓𝑓𝑖𝑡𝑠𝑖 > 2 𝑝/𝑛

𝑌𝑖 第𝑖个观测的预测值，

𝑌(𝑖) 用排除第𝑖个观测的回归对第i个观测的预测值

𝑆(𝑟𝑖)第𝑖个观测的残差的标准差，

𝑝为模型中参数的个数， 𝑛 为样本容量。

96

回归诊断识别强影响点--有关统计量的计算

PROC REG 的 Model语句加选项r 可获得

Cook D 统计量

PROC REG 的 Model语句加选项 influence 可获得 Dffits 等反映观测点影响的统计量.

PROC REG DATA=数据集名 ; MODEL 因变量=自变量/r influence; RUN;

(ch07_14.sas)

97

回归诊断识别强影响点--选项 influence 生成的统计量

Cook D统计量的定义为:

𝐶𝑜𝑜𝑘𝐷𝑖 =𝑏 − 𝑏(𝑖)

′𝑋′𝑋 𝑏 − 𝑏(𝑖)

𝑚 + 1 𝑀𝑆𝐸

其中𝑏(𝑖)表示删除第𝑖个观测后回归系数𝑏的估计量.

另一统计量DFFITS定义为:

𝐷𝑓𝑓𝑖𝑡𝑠𝑖=𝑦𝑖 −𝑦(𝑖)

𝑠(𝑖) 1−𝑥𝑖′ 𝑋′𝑋 −1𝑥𝑖

98

识别强影响点--偏杠杆图

偏杠杆图是使有影响观测可视化的方法.

偏杠杆图是两个回归的残差的散点图.

例如对变量 xr 的偏杠杆图：纵轴是Y关于除xr以外所有x的回归的残差,横轴是xr关于所有x的回归的残差.

有影响观测通常分离与其它数据点或在某一轴上有极端数值.

偏杠杆图还可识别要加入哪些变量的高次项.

(２) Proc REG 的 Model语句加选项partial可得杠杆图（低分辨）

PROC REG DATA=数据集名 ; MODEL 应变量=自变量/partial; RUN;

(ch07_15.sas)

99

回归诊断识别强影响点

如何处理有影响的观测:

１.复验数据，确认并无数据输入错误发生;

２.若数据是有效的，模型可能不合适。拟合此数据可能需要使用高阶模型,也可能数据是反常的;

３.一般不剔除数据，某些有影响的观测提供重要的信息。若要剔除数据，应给出必要的描述和说明。

100

回归诊断共线性诊断

共线性(collinearity, multicollinearity)问题是指

自变量间存在线性关系.

１.自变量之间的线性关系会隐蔽变量的显著性;

２.也会增加参数估计的方差;

３.产生不稳定的模型.

只有拟合多元回归才会发生这一问题.

共线性的诊断可使用方差膨胀因子、条件指数和

方差比例.

101

回归诊断共线性诊断-VIF和TOL(容差)

方差膨胀因子(VIF)是对由于共线性而引起的参数估

计量的方差增加的一个相对度量:

𝑉𝐼𝐹𝑟 =系数方差

独立时系数方差=

1

1 − 𝑅𝑟2 =

1

𝑇𝑂𝐿𝑟

Rr2 是xr关于模型中其它自变量回归的R2

一般采用 VIF >10 表明存在强共线性问题.

Proc REG 的Model语句加选项 VIF

102

回归诊断共线性诊断-条件指数和方差比例

条件指数(condition index)和方差比例(variance

proportion)联合使用可确认存在线性关系的变量组.

条件指数(hi=(lmax/li)1/2)

在10-30间为弱相关;

在30-100间为中度相关;

大于100表明有强相关.

大的条件指数伴随方差比例>0.5 即可确认有共线性

的自变量子集.

PROC REG: Model语句加选项collin 或 collinoint

Ch07_17.sas

103

回归诊断-误差项的独立性

检验残差列的独立性：Durbin-Watson统计量d

𝜀𝑡 = 𝜌𝜀𝑡−1 + 𝑍𝑡，

𝑍𝑡 iid N 0, 𝜎2 ，

𝐻0: 𝜌 = 0，

𝑑 =∑ 𝑒𝑡−𝑒𝑡−1

2

∑ 𝑒𝑡2 ，

d的取值区间为[0,4]

如果𝑑 < 𝑑𝐿或𝑑 > 4 − 𝑑𝐿 ,则存在自相关性。

104

回归诊断-练习题

1. 试对数据Reynolds完成以下练习: (1) 建立sales与months的一元线性关系式,并绘制散点图,回归线图,sales对months和预测值的残差图,从中能否直观看出该线性模型是否适合这组数据? (2) 建立sales与months的二次多项式回归后.绘制POWER对预测值的残差图.残差图是否较(1)中正常? 2.对不同类型汽车的价格和性能的数据CARS (1) 建立MIDPRICE (中间价)与其它7项指标的多元回归关系式,计算预测值和残差值,并添加到数据表中.找出标准化残差的绝对值大于2的观测点(可疑点)生成一个数据集(名为outlier). (2) 计算COOKD和DFFITS统计量,并添加到数据表,然后找出强影响点.这些是否也是异常点或可疑点? (3) 检验标准化残差的正态性.

105

美国各州犯罪率影响因素分析 (一)问题描述：

犯罪率的高低，与哪些因素有关？现收集了美国47个州的犯罪率，以及可能与犯罪率有关的13个因素的数据。相应14个变量的具体含义如下

变量的描述：

R ：犯罪率，警方统计的每

百万人口的犯罪数

Age ：年龄分布，每1000人

口中14到24岁的男性数

S ：区分南部和其他地区的

二分类变量 (S = 1：南部)

Ed ：教育水平，25周岁及以

上人口的平均受教育年数

Ex0 ：1960年的警察支出

Ex1 ：1959年的警察支出

LF ：每1000个14到24岁的男性中的劳动力参与率

M ：男女人口比例（女性人口1000时，男性人口的个数）

N ：州人口规模（以十万为单位）

NW ：1000人中非白种人的个数

U1 ：年龄14-24，每1000人中失业城市男性的个数

U2 ：年龄35-39，每1000人中失业城市男性的个数

W：财富，可兑换资产或家庭收入的中位数（单位10美元）

X ：收入不平等: 1000户家庭中收入在平均收入一半以下的家庭个数。

美国各州犯罪率影响因素分析

问题提出：

想通过多元回归分析的方法得出以上哪些因素对犯罪率有影响，影响程度如何？

多元回归模型：

y𝒊=𝝱𝟎+𝝱𝟏𝒙𝟏𝒊+…+𝝱𝒑𝒙𝒑𝒊+𝞮𝒊

106

107

美国各州犯罪率影响因素分析 (二)数据分析

1.导入数据： data uscrime;

infile cards expandtabs;

input R Age S Ed Ex0 Ex1 LF M N NW U1 U2 W X;

cards;

79.1 151 1 91 58 56 510 950 33 301 108 41 394 261

…

Run;

2.多重共线性的检验（通过方差膨胀因子进行检验） proc reg data=uscrime;

model R= Age--X / vif;

run;

（ch07_17.sas）


多重共线性的结果:

108

一般认为VIF>10时，模型中存在严重共线性。

在图中可以得到:

VIFEx0 =94.63>10;

VIFEx1 =98.63>10;

其余变量的VIF均小于10，

所以，简单的去除Ex0.


3.消除多重共线性关系

去除变量Ex0后，再

进行多重共线性诊断，

程序如下：

proc reg data=uscrime;

model R= Age--Ed Ex1--X / vif;

run;

多重共线性检验结果：从图中看出所以变量的VIF均小于10，所以不删除任何变量。认为变量间不存在多重共线性关系。

109

（ch07_17.sas）

美国各州犯罪率影响因素分析 4.用逐步回归筛选变量： proc reg data=uscrime;

model R= Age--Ed Ex1--X / selection=stepwise

sle=.05 sls=.05;

plot student.*(ex1 x ed age u2);

plot student.*predicted. cookd.*obs.;

plot npp.*residual.;

run;

逐步回归的结果：

110

（ch07_17.sas）


111

Variable Parameter

Estimate Standard

Error Type II SS F Value Pr > F

Intercept -528.85572 99.61621 13961 28.18 <.0001

Age 1.01840 0.36909 3771.26606 7.61 0.0086

Ed 2.03634 0.49545 8367.48486 16.89 0.0002

Ex1 1.29735 0.15970 32689 65.99 <.0001

U2 0.99014 0.45210 2375.86580 4.80 0.0343

X 0.64633 0.15451 8667.44486 17.50 0.0001

最终所得回归方程：

R =-528.83572+100184Age+2.03634Ed+1.29735Ex1+0.99014U2+0.64633X

参数估计：

美国各州犯罪率影响因素分析 5.回归诊断：

诊断回归模型的几个假设是否成立是非常必要的，可

通过如下残差图来进行

（1）线性性诊断

以残差为纵坐标，以每个变量为横坐标绘制散点图。

如果自变量与残差的散点图呈现出一种曲线关系，则需要对相应的自变量进行高阶次的拟合。

图1：Ex1残差图

112


113

图2：x残差图


114

图3：Ex1残差图


115

图4：Age残差图


116

图5：U2残差图


分析：从图1中可见，随着Ex1的变大，残差的波动范围有增大的趋势。因此，在模型中增加的Ex1二次项可能拟合效果会更好。其他变量的残差图没有显示此种迹象。

117


（2）方差齐性诊断

以残差为纵坐标，以变量的预测值为横坐标绘制散点图

分析：图6未显示出有明显的方差非齐性迹象。

118


（3）强影响点的诊断

以Cook距离为纵坐标，以观测值序号为横坐标，作

散点图。

图7：Cook距离图

图中显示出有一些点有较大的Cook距离，但它们的值都没

有超过1。通常，超过1时，认为存在强影响点。

119


120

（4）正态性诊断----残差的正态概率图：

分析：从图中可以看出，散点基本呈直线分布，所以可以认为残差基本服从正态分布。

应用回归分析 - course.shufe.edu.cncourse.shufe.edu.cn/tjrj/ppt/7.pdf · 选择形式：ऍ...

Documents