第四章 多元线性回归模型

93
1 第第第 第第第第第第第第 简简简简简简简简简简简

Upload: russell-barron

Post on 02-Jan-2016

104 views

Category:

Documents


8 download

DESCRIPTION

第四章 多元线性回归模型. 简单线性回归模型的推广. 第一节 多元线性回归模型的概念 在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。因此,有必要考虑线性模型的更一般形式,即多元线性回归模型: t=1,2,…,n 在这个模型中, Y 由 X 1 ,X 2 ,X 3 , …X K 所解释,有 K+1 个未知参数 β 0 、 β 1 、 β 2 、 … β K 。 这里, “ 斜率 ” β j 的含义是 其它变量不变的情况下, X j 改变一个单位对因变量所产生的影响。. 例 1 : 其中, Y= 在食品上的总支出 X= 个人可支配收入 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第四章 多元线性回归模型

1

第四章 多元线性回归模型

简单线性回归模型的推广

Page 2: 第四章 多元线性回归模型

2

第一节 多元线性回归模型的概念 在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。因此,有必要考虑线性模型的更一般形式,即多元线性回归模型: t=1,2,…,n

在这个模型中, Y 由 X1,X2,X3, …XK 所解释,有 K+1 个未知参数 β0 、 β1 、 β2 、… βK 。

这里,“斜率” βj 的含义是其它变量不变的情况下, Xj 改变一个单位对因变量所产生的影响。

tktkttt XXXY uβ...βββ 22110

Page 3: 第四章 多元线性回归模型

3

例 1 : 其中, Y= 在食品上的总支出 X= 个人可支配收入 P= 食品价格指数

用美国 1959-1983 年的数据,得到如下回归结果(括号中数字为标准误差): Y 和 X 的计量单位为 10 亿美元 ( 按 1972 不变价格计算).

uβββ 210 PXY

)114.0()003.0()6.9(

99.0739.0112.07.116ˆ 2 RPXY

),(数总消费支出价格平减指

食品价格平减指数1001972100 P

Page 4: 第四章 多元线性回归模型

4

多元线性回归模型中斜率系数的含义

上例中斜率系数的含义说明如下: 价格不变的情况下,个人可支配收入每上升 10亿美元( 1 个 billion ),食品消费支出增加 1.12亿元( 0.112 个 billion )。

收入不变的情况下,价格指数每上升一个点, 食品消费支出减少 7.39 亿元( 0.739 个 billion )

Page 5: 第四章 多元线性回归模型

5

例 2 :

其中, Ct= 消费, Dt= 居民可支配收入 Lt= 居民拥有的流动资产水平 β2 的含义是,在流动资产不变的情况下,可支配收入变动一个单位对消费额的影响。这是收入对消费额的直接影响。

收入变动对消费额的总影响 = 直接影响 + 间接影响。 (间接影响:收入影响流动资产拥有量影响消费额)

但在模型中这种间接影响应归因于流动资产,而不是收入,因而, β2 只包括收入的直接影响。 在下面的模型中:

这里, β 是可支配收入对消费额的总影响,显然 β 和 β2

的 含义是不同的。

tttt uLDC 321 βββ

ntuDC ttt ,...,2,1,

Page 6: 第四章 多元线性回归模型

6

回到一般模型 t=1,2,… , n

即对于 n 组观测值,有

tktkttt XXXY uβ...βββ 22110

nKnKnnnn

KK

KK

uXXXXY

uXXXXY

uXXXXY

β...ββββ

......

β...ββββ

β...ββββ

3322110

2232322212102

1131321211101

Page 7: 第四章 多元线性回归模型

7

其矩阵形式为:

其中

nY

Y

Y

Y...

2

1

Knn

K

K

XX

XX

XX

X

...1

............

...1

...1

1

212

111

uXY

nK

u

u

u

u...

,

...

2

1

2

1

0

Page 8: 第四章 多元线性回归模型

8

第二节 多元线性回归模型的估计

多元线性回归模型的估计与双变量线性模型类似,仍采用最小二乘法。当然,计算要复杂得多,通常要借助计算机。理论推导需借助矩阵代数。下面给出最小二乘法应用于多元线性回归模型的假设条件、估计结果及所得到的估计量的性质。

一.假设条件( 1 ) E(ut)=0, t=1,2,…,n

( 2 ) E(ui uj)=0, i≠j ( 3 ) E(ut

2)=σ2, t=1,2,…,n ( 4 ) Xjt 是非随机量, j=1,2, … k t=1,2, … n

Page 9: 第四章 多元线性回归模型

9

除上面 4 条外,在多个解释变量的情况下,还有两个条件需要满足:

( 5 )( K+1 ) < n; 即观测值的数目要大于待估计的参数的个数 (要有足够数量的数据来拟合回归线)。

( 6 )各解释变量之间不存在严格的线性关系。

Page 10: 第四章 多元线性回归模型

10

上述假设条件可用矩阵表示为以下四个条件:(1) E(u)=0

(2)

由于

显然, 仅当 E(ui uj)=0 , i≠j

E(ut2) = σ2, t=1,2,…,n

这两个条件成立时才成立,因此, 此条件相当前面条件 (2), (3) 两条,即各期扰动项互不相关,并具有常数方差。

n I uu E2 ,

) (

221

22212

12121

212

1

......

.................................

......

......

......

nnn

n

n

n

n uuuuu

uuuuu

uuuuu

uuu

u

u

u

uu

nIuuE 2)(

Page 11: 第四章 多元线性回归模型

11

( 3 ) X 是 是一个非随机元素矩阵。

( 4 ) Rank(X) = (K+1) < n. ------ 相当于前面 (5) 、 (6) 两条

即矩阵 X 的秩 = ( K+1)< n

当然,为了后面区间估计和假设检验的需要,还要加 上一条:

( 5 ) ~ , t=1,2,…n),0( 2Ntu

Page 12: 第四章 多元线性回归模型

12

二.最小二乘估计我们的模型是:

t=1,2,…n

问题是选择 ,使得残差平方和最小。 残差为:

k ˆ,....,ˆ,ˆ10

KtKtt

ttt

XXY

YYe

β....βˆ

ˆ

110

tktkttt XXXY uβ...βββ 22110

Page 13: 第四章 多元线性回归模型

13

要使残差平方和

为最小,则应有:

我们得到如下 K+1 个方程(即正规方程):

21102 β...βˆ KtKttt XXYeS

...,,0ˆ

,0ˆ

10

K

SSS

Page 14: 第四章 多元线性回归模型

14

按矩阵形式,上述方程组可表示为:

tktKtKtktkt

ttKttKttt

ttKttKtt

tKtKt

YXXXXX

YXXXXXX

YXXXXX

YXXn

2

110

2212120

112

1110

110

β......ββ

........................

β......ββ

β......ββ

β......ββ

Page 15: 第四章 多元线性回归模型

15

=

)'( XX

β 'X Y

即 YXXX 'β)'(

21

1

2

11

1

...

............

...

...

KttKtKt

Ktttt

Ktt

XXXX

XXXX

XXn

...

β

β

1

0

nKnKK

n

Y

Y

Y

XXX

XXX

...

...

............

...

1...11

2

1

21

11211

Page 16: 第四章 多元线性回归模型

16

上述结果,亦可从矩阵表示的模型

出发,

完全用矩阵代数推导出来。

残差可用矩阵表示为:

其中:

βXY

YY

e

e

e

n

e...

2

1

uXY

Page 17: 第四章 多元线性回归模型

17

残差平方和

)()(

YYYY

)β()β(

XYXY

)β)(β(

XYXY

ββββ XXXYYXYY

eeeS t2

Page 18: 第四章 多元线性回归模型

18

注意到上式中所有项都是标量,且

用矩阵微分法,我们可得到

与采用标量式推导所得结果相同。由上述结果,我们有

β)ˆ( XYYX

βββ2 XXYXYYS

)(

S

YXXX

β

YXXX

1)(β

Page 19: 第四章 多元线性回归模型

19

YXXX

1)(β

三 . 最小二乘估计量 的性质 我们的模型为

估计式为 1. 的均值

β

β

βˆ XY

uXY

)uβ()( 1 XXXX

u)(β)( 11 XXXXXXX

u)(β 1 XXX

Page 20: 第四章 多元线性回归模型

20

(由假设 3 ) ( 由假设 1)

这表明, OLS 估计量 是无偏估计量。

β

KKK E

E

E

E

β

...

β

β

)β(

......

)β(

)β(

β

...

β

β

1

0

1

0

1

0

β

)u()(β)β( 1

EXXXE

Page 21: 第四章 多元线性回归模型

21

2. 的方差

为求 Var( ) ,我们考虑

这是一个( K+1 ) *(K+1) 矩阵,其主对角线上元素即构成 Var( ) ,非主对角线元素是相应的协方差,如下所示:

β

β

β

ββββE

Page 22: 第四章 多元线性回归模型

22

)β(...)β,β()β,β(

............

)β,β(...)β()β,β(

)β,β(...)β,β()β(

10

1101

0100

KKK

K

K

VarCovCov

CovVarCov

CovCovVar

下面推导此矩阵的计算公式 .

KK

KK

E ββ...ββββ

ββ

...

ββ

ββ

110011

00

Page 23: 第四章 多元线性回归模型

23

由上一段的结果,我们有因此,

uXXX

1)(ββ

11 uu XXXEXXX

11 XXXuuXXXE

uuββββ 11 XXXXXXEE

121 XXXIXXX n

211 XXXXXX

21 XX

Page 24: 第四章 多元线性回归模型

24

如前所述,我们得到的实际上不仅是 的方差,而且是一个方差 -协方差矩阵,为了反映这一事实,我们用下面的符号表示之:

展开就是:

21)()β( XXCovVar

β

21

10

1101

0100

)(

)β()β,β()β,β(

............

)β,β(...)β()β,β(

)β,β(...)β,β()β(

XX

VarCovCov

CovVarCov

CovCovVar

KKK

K

K

Page 25: 第四章 多元线性回归模型

25

3. 2 的估计 与双变量线性模型相似, 2 的无偏估计量是

这是因为我们在估计 的过程中,失去了(K+1 )个自由度。

4. 高斯 -马尔科夫定理

对于 以及标准假设条件( 1 ) - ( 4 ),

普通最小二乘估计量是最佳线性无偏估计量( BLUE)

)1(ˆ

2

2

Kn

et

kβ,...β,β 10

uβ XY

Page 26: 第四章 多元线性回归模型

26

我们已在上一段中证明了无偏性,下面证明线性和最小方差性。证明的路子与双变量模型中类似,只不过这里我们采用矩阵和向量的形式。 由 OLS 估计量 的公式

可知 , 可表示为一个矩阵和应变量观测值向量 的乘积:

其中 是一个 (K+1)*n 非随机元素矩阵。

因而显然有 是线性估计量。

YXXX

1)(β

Y

Yk

XXXk 1)(

Page 27: 第四章 多元线性回归模型

27

现设 为 的任意一个线性无偏估计量,即

其中 是一个 (K+1)*n 非随机元素矩阵。则

显然,若要 为无偏估计量,即 ,只有

, 为( K+1 )阶单位矩阵。

* Yc*

c

ucXcuXcYc )(*

Xc

uEcXc

ucXcEE

)(

)()( *

*)(E*

IXc I

Page 28: 第四章 多元线性回归模型

28

的方差为:

我们可将 写成

从而将 的任意线性无偏估计量 与 OLS 估计量 联系起来。

*

cc

cuVarc

ucVar

ucXcVarVar

2

*

)(

)(

)()(

DXXXc 1)(

c

*

Page 29: 第四章 多元线性回归模型

29

由 可推出:

即 因而有

由 从而 ,因此上式中间两项为 0 ,我们有

I Xc

IXDXXXX 1)(

IXDI

0XD

DDXXXDDXXXXXXXXX

DXXXDXXX

DXXXDXXXcc

1111

11

11

)()()()(

)()(

)()(

0XD 0DX

DDXXcc 1)(

Page 30: 第四章 多元线性回归模型

30

因此

最后的不等号成立是因为 为半正定矩阵。这就证明了 OLS估计量 是 的所有线性无偏估计量中方差最小的。至此,

我们证明了高斯 -马尔科夫定理。

)ˆ(

)ˆ(

)(

)(

*)(

2

212

12

2

Var

DDVar

DDXX

DDXX

ccVar

DD

Page 31: 第四章 多元线性回归模型

31

第三节 拟合优度

一.决定系数 R2

对于双变量线性模型

Y=α+βX + u我们有

其中, = 残差平方和

2

22 1

YY

eR

2e

Page 32: 第四章 多元线性回归模型

32

对于多元线性模型

我们可用同样的方法定义决定系数:

为方便计算,我们也可以用矩阵形式表示 R2

uXXY KK ...110

TSS

RSS

TSS

ESSR

YY

eR

1

1

2

2

22

总变差解释变差

Page 33: 第四章 多元线性回归模型

33

我们有:残差 ,其中,残差平方和:

YY

e

e

e

n

e...

2

1

βXY

)()(

2

YYYY

eeet

)β()β(

XYXY

)β)(β(

XYXY

ββββ XXXYYXYY

YXXXXXXYYXYY

1)(βββ

βXYYY

YXXYYXYY

βββ

Page 34: 第四章 多元线性回归模型

34

而 将上述结果代入 R2 的公式,得到:

2222YnYYYnYYY

这就是决定系数

R2 的矩阵形式。

2

22 1

YY

eR

2

22

YY

eYY

2

2 )ˆ(

YnYY

XYYYYnYY

2

YnYY

YnXY

Page 35: 第四章 多元线性回归模型

35

二.修正决定系数:

残差平方和的一个特点是,每当模型增加一个解释变量,并用改变后的模型重新进行估计,残差平方和的值会减小。 由此可以推论,决定系数是一个与解释变量的个数有关的量: 解释变量个数增加 减小 R2 增大

也就是说,人们总是可以通过增加模型中解释变量的方法来增大 R2 的值。因此,用 R2 来作为拟合优度的测度,不是十分令人满意的。

为此,我们定义修正决定系数 ( Adjusted )如下:

2R

2e

2R 2R

Page 36: 第四章 多元线性回归模型

36

是经过自由度调整的决定系数,称为修正决定系数。

我们有:( 1 )

( 2 )仅当 K=0 时,等号成立。即

( 3 )当 K 增大时,二者的差异也随之增大。

( 4 ) 可能出现负值。

2R22 RR

22 RR

2R

)1(

)1(1

2

22

nYY

KneR

2

2

)1(

)1(1

YYKn

en

1

)1)(1(1

2

Kn

Rn

Page 37: 第四章 多元线性回归模型

37

三.例子 下面我们给出两个简单的数值例子,以帮助理解这两节的内容 .

例 1 Yt = 1 + 2X2 t + 3X3 t + u t

设观测数据为: Y : 3 1 8 3 5 X2 : 3 1 5 2 4 X3 : 5 4 6 4 6 试求各参数的 OLS 估计值,以及 。

解:我们有

22 RR 和

Page 38: 第四章 多元线性回归模型

38

641

421

651

411

531

5

3

8

1

3

XY

1298125

815515

25155

641

421

651

411

531

64645

42513

11111

XX

Page 39: 第四章 多元线性回归模型

39

109

76

20

5

3

8

1

3

64645

42513

11111

YX

5.1

5.2

4

109

76

20

4/102/38

2/3110/45

810/4510/267

109

76

20

1298125

815515

25155

)(ˆ

1

1 YXXX

Page 40: 第四章 多元线性回归模型

40

故回归方程为: 32 5.15.24ˆ XXY

2

22

ˆ

YnYY

YnXYR

5.106

5.1

5.2

4

1097620ˆ

XY

108

5

3

8

1

3

53813

YY

Page 41: 第四章 多元线性回归模型

41

805

538135

22

Yn

9464.028

5.26

80108

805.1062

R

8928.0)35(

)9464.01(41

)1(

)1)(1(1

22

kn

RnR

Page 42: 第四章 多元线性回归模型

42

例 2. 设 n = 20, k = 3, R2 = 0.70 求 。 解:

下面改变 n 的值,看一看 的值如何变化。我们有

若 n = 10 ,则 = 0.55

若 n = 5 , 则 = - 0.20 由本例可看出, 有可能为负值。这与 R2 不同 ( )。

2R

644.0)420(

)70.01(191

)1(

)1)(1(1

22

kn

RnR

2R

2R

10 2 R

2R

2R

Page 43: 第四章 多元线性回归模型

43

第四节 非线性关系的处理

迄今为止,我们已解决了线性模型的估计问题。但在实际问题中,变量间的关系并非总是线性关系,经济变量间的非线性关系比比皆是。如大家所熟悉的柯布 -道格拉斯生产函数 :

就是一例。

在这样一些非线性关系中,有些可以通过代数变换变为线性关系处理,另一些则不能。下面我们通过一些例子来讨论这个问题。

LAKQ

Page 44: 第四章 多元线性回归模型

44

一 . 线性模型的含义 线性模型的基本形式是 :

其特点是可以写成每一个解释变量和一个系数相乘的形式。

线性模型的线性包含两重含义:

( 1 )变量的线性 变量以其原型出现在模型之中,而不是以 X2或 Xβ

之 类的函数形式出现在模型中。

( 2 )参数的线性 因变量 Y 是各参数的线性函数。

......22110 XXY

Page 45: 第四章 多元线性回归模型

45

二.线性化方法 对于线性回归分析,只有第二种类型的线性才是重要的,因为变量的非线性可通过适当的重新定义来解决。例如,对于

此方程的变量和参数都是线性的。如果原方程的扰动项满足高斯—马尔可夫定理条件,重写的方程的扰动项也将满足。

...

,,

...

332211

4

3322

211

4

3322

211

ZZZY

X

XZXZXZ

X

XXXY

该关系即可以重写为:

只需定义

Page 46: 第四章 多元线性回归模型

46

参数的非线性是一个严重得多的问题,因为它不能仅凭重定义来处理。可是,如果模型的右端由一系列的 Xβ或 eβ

X 项相乘,并且扰动项也是乘积形式的,则该模型可通过两边取对数线性化。例如,需求函数

其中, Y= 对某商品的需求 X= 收入 P= 相对价格指数 ν=扰动项

可转换为:

PXY

logloglogloglog PXY

Page 47: 第四章 多元线性回归模型

47

用 X,Y,P的数据,我们可得到 logY,logX和 logP,从而可以用 OLS法估计上式。 logX的系数是 β 的估计值,经济含义是需求的收入弹性, logP的系数将是 γ的估计值,即需求的价格弹性。

[ 注释 ] 弹性( elasticity ):一变量变动 1% 所引起的另一变量变动的百分比:

需求的收入弹性:收入变化 1% ,价格不变时,所引起的商品需求量变动的百分比。 需求的价格弹性:价格变化 1% ,收入不变时,所引起的商品需求量变动的百分比。

Y

X

X

Y

Page 48: 第四章 多元线性回归模型

48

三.例子

例 1 需求函数 本章 §1 中,我们曾给出一个食品支出为因变量,个人可支配收入和食品价格指数为解释变量的线性回归模型例子。现用这三个变量的对数重新估计(采用同样的数据),得到如下结果(括号内数字为标准误差):

回归结果表明,需求的收入弹性是 0.64, 需求的价格弹性是 0.48 ,这两个系数都显著异于 0 。

)12.0()03.0()42.0(

99.0log48.0log64.082.2log 2 RPXY

Page 49: 第四章 多元线性回归模型

49

例 2.柯布 -道格拉斯生产函数 生产函数是一个生产过程中的投入及其产出之间的一种关系。著名的柯布 -道格拉斯生产函数( C-D函数)为

用柯布和道格拉斯最初使用的数据(美国 1899-1922 年制造业数据)估计经过线性变换的模型

得到如下结果(括号内数字为标准误差) :

从上述结果可以看出,产出的资本弹性是 0.23,产出的劳动弹性为 0.81 。

LAKQ

logloglogloglog LKAY

)15.0()06.0()43.0(

96.0log81.0log23.018.0ˆlog 2 RLKY

Page 50: 第四章 多元线性回归模型

50

例 3 .货币需求量与利率之间的关系 M

r=2 r

M=a(r-2)b

(a>0,b<0)

M = a(r - 2)b

这里,变量非线性和参数非线性并存。对此方程采用对数变换 logM=loga+blog(r-2)

令Y=logM, X=log(r-2), β1= loga, β2=b 则变换后的模型为:

Yt=β1+β2Xt + ut

Page 51: 第四章 多元线性回归模型

51

将 OLS 法应用于此模型,可求得 β1 和 β2 的估计值从而可通过下列两式求出 a 和 b 估计值:

应当指出,在这种情况下,线性模型估计量的性质(如

BLUE, 正态性等)只适用于变换后的参数估计量 ,而

不一定适用于原模型参数的估计量 和 。

21ˆ,ˆ

2

1

ˆˆ

ˆ)ˆlog(

b

a

21ˆˆ 和

a b

Page 52: 第四章 多元线性回归模型

52

例 4.上例在确定货币需求量的关系式时,我们实际上给模型加进了一个结束条件。根据理论假设,在某一利率水平上,货币需求量在理论上是无穷大。我们假定这个利率水平为 2% 。假如不给这一约束条件,而是从给定的数据中估计该利率水平的值,则模型变为:

M = a(r - c)b

式中 a,b,c均为参数。仍采用对数变换,得到

log(Mt) = loga + blog(rt - c) + ut t=1,2,…,n 我们无法将 log(rt-c)定义为一个可观测的变量 X, 因为这里有一个未知量 c 。也就是说,此模型无法线性化。在这种情况下,只能用估计非线性模型参数值的方法。

Page 53: 第四章 多元线性回归模型

53

四.非线性回归

模型 Y = a(X - c)b

是一个非线性模型, a 、 b 和 c 是要估计的参数。此模型无法用取对数的方法线性化,只能用非线性回归技术进行估计,如非线性最小二乘法( NLS)。该方法的原则仍然是残差平方和最小。计量经济软件包通常提供这类方法,这里给出有关非线性回归方法的大致步骤如下:

Page 54: 第四章 多元线性回归模型

54

非线性回归方法的步骤

1. 首先给出各参数的初始估计值(合理猜测值) ;2. 用这些参数值和 X 观测值数据计算 Y 的各期预测值 (拟合 值) ;

3.计算各期残差,然后计算残差平方和∑ e2; 4.对一个或多个参数的估计值作微小变动; 5.计算新的 Y预测值 、残差平方和∑ e2; 6.若新的∑ e2 小于老的∑ e2 ,说明新参数估计值优于老估 计值,则以它们作为新起点; 7.重复步骤 4 , 5 , 6 ,直至无法减小∑ e2 为止。 8.最后的参数估计值即为最小二乘估计值。

Y

Y

Y

Page 55: 第四章 多元线性回归模型

55

第五节 假设检验

一.系数的显著性检验1. 单个系数显著性检验 目的是检验某个解释变量的系数 βj 是否为 0 ,即该解释变量是否对因变量有影响。

原假设: H0 : βj=0 备择假设: H1 : βj≠0

检验统计量是自由度为 n-K-1 的 t 统计量:

~ t(n-K-1))ˆ(

ˆ

)ˆ(

ˆ

j

j

j

j

VarSet

Page 56: 第四章 多元线性回归模型

56

单个系数显著性检验的检验统计量是自由度为 n-K-1 的 t 统计量:

~ t(n-K-1)

其中, 为矩阵 主对角线上第

j+1 个元素。而

)ˆ(

ˆ

)ˆ(

ˆ

j

j

j

j

VarSet

)ˆ( jVar 21 ˆ)( XX

1

ˆ

2

2

kn

XYYY

kn

et

Page 57: 第四章 多元线性回归模型

57

例:柯布 -道格拉斯生产函数

用柯布和道格拉斯最初使用的数据(美国 1899-1922 年制造业数据)估计经过线性变换的模型

得到如下结果(括号内数字为标准误差) :

)15.0()06.0()43.0(

96.0log81.0log23.018.0ˆlog 2 RLKY

请检验“斜率”系数和的显著性。

解: (1) 检验的显著性

原假设: H0 : = 0

备择假设: H1 : ≠ 0

logloglogloglog LKAY

Page 58: 第四章 多元线性回归模型

58

由回归结果,我们有: t= 0.23/0.06=3.83

用 =24- 3= 21查 t 表, 5% 显著性水平下, tc =2.08.

∵t= 3.83 tc = 2.08 , 故拒绝原假设 H0 。

结论:显著异于 0 。

(2) 检验 的显著性

原假设: H0 : = 0

备择假设: H1 : ≠ 0

由回归结果,我们有: t= 0.81/0.15=5.4

∵t= 5.4 tc = 2.08 , 故拒绝原假设 H0 。

结论:显著异于 0 。

Page 59: 第四章 多元线性回归模型

59

2.若干个系数的显著性检验(联合假设检验)

有时需要同时检验若干个系数是否为 0 ,这可以通过建立单一的原假设来进行。

设要检验 g 个系数是否为 0 ,即与之相对应的 g 个解释变量对因变量是否有影响。不失一般性,可设原假设和备择假设为:

H0: β1 =β2 = … =βg =0 H1: H0 不成立 ( 即 X1, …Xg 中某些变量对 Y 有 影响 )

Page 60: 第四章 多元线性回归模型

60

分析: 这实际上相当于检验 g 个约束条件 β1= 0 , β2 = 0 ,… , βg = 0 是否同时成立。

若 H0 为真,则正确的模型是:

据此进行回归(有约束回归),得到残差平方和

SR 是 H0 为真时的残差平方和。 若 H1 为真,正确的模型即原模型:

tKtKtt XXY uβ...ββ 110

tKtKtggt XXY uβ...ββ 110

2110 β...ββ KtRktg

Rg

RtR XXYS

Page 61: 第四章 多元线性回归模型

61

据此进行无约束回归(全回归),得到残差平方和

S 是 H1 为真时的残差平方和。

如果 H0 为真,则不管 X1, …Xg 这 g 个变量是否包括在模型中,所得到的结果不会有显著差别,因此应该有: S ≈ SR

如果 H1 为真,则由上一节中所讨论的残差平方和∑ e2 的特点,无约束回归增加了变量的个数,应有

S < SR

通过检验二者差异是否显著地大,就能检验原假设是否成立。

2k110 β...ββ Kttt XXYS

Page 62: 第四章 多元线性回归模型

62

所使用的检验统计量是: ~ F(g, n-K-1)

其中, g 为分子自由度, n-K-1 为分母自由度。

使用 的作用是消除具体问题中度量单位

的影响, 使计算出的 F 值是一个与度量单位无关的量。

)1(

KnS

gSSF R

S

SSR

Page 63: 第四章 多元线性回归模型

63

例:给定 20 组 Y, X1, X2, X3 的观测值,试检验模型 中 X1 和 X3 对 Y 是否有影响?

解:( 1 )全回归

估计

得到: S =∑e2 = 25

( 2 )有约束回归 估计

得到: SR =∑e2 = 30

ttttt XXXY uββββ 3322110

ttt XY uββ 220

Page 64: 第四章 多元线性回归模型

64

原假设 H0: β1 = β3 = 0 备择假设 H1: H0 不成立

我们有: n=20, g=2, K=3

用自由度( 2 , 16 )查 F分布表, 5% 显著性水平下, FC=3.63

∵F=1.6< FC =3.63, 故接受 H0 。

结论: X1 和 X3 对 Y无显著影响

6.1

1625

22530

)1(

KnS

gSSF R

Page 65: 第四章 多元线性回归模型

65

3.全部斜率系数为 0 的检验

上一段结果的一个特例是所有斜率系数均为 0 的检验,即回归方程的显著性检验:

H0 : β1 =β2 = … = βK = 0

也就是说,所有解释变量对 Y均无影响。

注意到 g=K , 则该检验的检验统计量为:

2)( YYSR

22

t

)(e

Y

YY

ut 时,模型为

)1(

)(

)1(

)(2

22

Kne

KeYY

KnS

KSSF R

Page 66: 第四章 多元线性回归模型

66

分子分母均除以 ,有

从上式不难看出,全部斜率为 0 的检验实际是检验 R2 的值是否显著异于 0 ,如果接受原假设,则表明因变量的行为完全归因于随机变化。若拒绝原假设,则表明所选择模型对因变量的行为能够提供某种程度的解释。

2)( YY

1)(

)(1

2

2

2

2

KnYY

e

KYY

e

F)1()1( 2

2

KnR

KR

Page 67: 第四章 多元线性回归模型

67

二.检验其他形式的系数约束条件

上面所介绍的检验若干个系数显著性的方法,也可以应用于检验施加于系数的其他形式的约束条件,如

检验的方法仍是分别进行有约束回归和无约束回归,求出各自的残差平方和 SR 和 S ,然后用 F 统计量进行检验。当然,单个系数的假设检验,如 H0 : 3=1.0 ,亦可用 t 检验统计量进行检验。

1,1

1,

5.2,0.1

3

243

42

Page 68: 第四章 多元线性回归模型

68

例: Cobb-Douglas生产函数 Y=AKαLβν 试根据美国制造业 1899-1922 年数据检验规模效益不变的约束: α+β=1

解:( 1 )全回归

( 2 )有约束回归: 将约束条件代入,要回归的模型变为: Y=AKαL1-αν 为避免回归系数的不一致问题, 两边除以 L ,模型变换为: Y/L=A(K/L)αν

252)15.0()06.0()43.0(:

96.0log81.0log23.018.0ˆlog 2

FSe

RLKY

Page 69: 第四章 多元线性回归模型

69

回归,得:

由软件包可得到约束回归和全回归的残差平方和分别为 SR=0.0716 S=0.0710 ( 3 )检验 原假设 H0:α+β= 1 备择假设 H1:α+β≠1 本例中, g=1, K=2, n=24

0.38,63.0

)04.0()02.0(:

)/log(25.002.0)/log(

2

FR

Se

LKLY

18.0

210710.0

10710.00716.0

)1(

KnS

gSSF R

Page 70: 第四章 多元线性回归模型

70

用自由度( 1 , 21 )查 F 表, 5% 显著性水平下, Fc=4.32

∵F=0.18< Fc=4.32 故接受原假设 H0:α+β= 1

( 4 )结论 我们的数据支持规模收益不变的假设。

Page 71: 第四章 多元线性回归模型

71

第六节 预测 我们用 OLS 法对多元回归模型的参数进行了估计之后,如果结果理想,则可用估计好的模型进行预测。与双变量模型的作法类似,预测指的是对各自变量的某一组具体值

来预测与之相对应的因变量值 。当然,要进行预测,有一个假设前提应当满足,即拟合的模型在预测期也成立。 点预测值由与给定的诸 X 值对应的回归值给出,即

而预测期的实际 Y 值由下式给出:

其中 u0 是从预测期的扰动项分布中所取的值。

)...1( 02010 kXXXC

ˆˆ...ˆˆˆˆ020210100

CXXXY kk

0Y

00020210100 ... uCuXXXY kk

Page 72: 第四章 多元线性回归模型

72

预测误差可定义为:

两边取期望值,得

因此, OLS预测量 是一个无偏预测量。

000 YYe

)ˆ(0 Cu

0

)ˆ()()( 00

ECuEeE

0CY

Page 73: 第四章 多元线性回归模型

73

预测误差的方差为:

从 的定义可看出, 为正态变量的线性函数,因此,它本身也服从正态分布。故

))(1(

)(

)ˆ()()(

12

212

00

CXXC

CXXC

CVarCuVareVar

0e 0e

)(

)(

0

00

eSe

eEe)1,0(~

)(1 1

0 NCXXC

e

Page 74: 第四章 多元线性回归模型

74

由于 为未知,我们用其估计值代替它,有

则 的 95%置信区间为:

(其中, )

)1(ˆ 2 knet

)1(~)(1ˆ

ˆ

1

00

kntCXXC

YY

CXXCtC 1025.0 )(1ˆˆ

0ˆ YC

0Y

Page 75: 第四章 多元线性回归模型

75

例 用书上 P79 例 4.3 的数据,预测 X2=10 , X3=10 的 Y 值。

解:

由例 4.3 我们已得到:

因此

的 95%置信区间为:

或 3.66至 23.65 之间 .

14)10(5.1)10(5.240 Y

7.6

10

10

1

4/102/38

2/3110/45

810/4510/267

)10101()( 1

CXXC

5.106ˆ XY 108YY

75.0125

5.106108

1

ˆ

2

2

kn

XYYY

kn

et

7.6175.0303.414 0Y

Page 76: 第四章 多元线性回归模型

76

第七节 虚拟变量( Dummy variables )一.虚拟变量的概念

在回归分析中,常常碰到这样一种情况,即因变量的波动不仅依赖于那种能够很容易按某种尺度定量化的变量(如收入、产出、价格、身高、体重等),而且依赖于某些定性的变量(如性别、地区、季节)。 在经济系统中,许多变动是不能定量的。如政府的更迭(工党 -保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这样一些变动都可以用大家所熟悉的 0-1 变量来表示,用 1 表示具有某一“品质”或属性,用 0 表示不具有该“品质”或属性。这种变量在计量经济学中称为“虚拟变量”。虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。下面给出几个可以引入虚拟变量的例子。

Page 77: 第四章 多元线性回归模型

77

例 1 :你在研究学历和收入之间的关系,在你的样本中,既 有女性又有男性,你打算研究在此关系中,性别是否 会导致差别。

例 2 :你在研究某省家庭收入和支出的关系,采集的样本中 既包括农村家庭,又包括城镇家庭,你打算研究二者 的差别。

例 3 :你在研究通货膨胀的决定因素,在你的观测期中,有 些年份政府实行了一项收入政策。你想检验该政策是 否对通货膨胀产生影响。

上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。

Page 78: 第四章 多元线性回归模型

78

二.虚拟变量的使用方法

1. 截距变动 设 Y 表示消费, X 表示收入,我们有: } 假定 β 不变。

对于 5 年战争和 5 年和平时期的数据,我们可分别估计上述两个模型,一般将给出 的不同值。 现引入虚拟变量 D, 将两式并为一式: 其中,

XY

uXY

2

1

和平时期:战时:

β

uDXY 210 0 战时D=

1 平时

Page 79: 第四章 多元线性回归模型

79

此式等价于下列两式: }截距变动,斜率不变

在包含虚拟变量的模型中, D 的数据为 0 , 0 , 0 , 0, 0 , 1 , 1 , 1 , 1 , 1 。

估计结果如下图所示:

应用 t 检验, β2 是否显著 可以表明截距项在两个时 期是否有变化。

uXY

uXY

120

10

平时:战时:

Y 平时

战时

α 2-α 1=β 2

α 1=β 0

X

Page 80: 第四章 多元线性回归模型

80

2. 斜率变动 如果我们认为战时和平时的消费函数中,截距项不变,而斜率不同,即 β 变动,则可用下面的模型来研究两个时期边际消费倾向的差异:

其中, D={ 不难看出,上式相当于下列两式:

同样,包括虚拟变量的模型中, β2 是否显著可以表明斜率在两个时期是否变化。

uDXXY

uXDY

)(

)(

21

21

即:

平时战时

1

0

uXY

uXY

)( 21

1

Y 战时 平时

α

X

Page 81: 第四章 多元线性回归模型

81

3.斜率和截距都变动在这种情况下,模型可设为:

其中, D={ 此式等价于下列两个单独的回归式:

uDXXDY

uXDDY

)(

)()(

4321

4321

即:

平时战时

1

0

uXY

uXY

)(平时:战时:

4321

31

)(

引进了虚拟变量的回归模型对于检验两个时期中是否 发生结构性变化很方便。 如上例中,相当于检验 H0: β2=β4=0

Page 82: 第四章 多元线性回归模型

82

4.季节虚拟变量的使用

许多变量展示出季节性的变异 ( 如商品零售额、电和天然气的消费等 ) ,我们在建立模型时应考虑这一点,这有两种方法: ( 1 ) 在估计前对数据进行季节调整; ( 2 ) 采用虚拟变量将季节性差异反映在模型中。

例:设 Y=购买汽车的实际支出额 X= 实际总消费支出

用美国 1973 ( 1 ) -1980(2) 的季度数据(按 1975 年价格计算),得回归结果如下:

)5.0()6.1(:)(

0281.00133.00.765ˆ 2

t

RXY

Page 83: 第四章 多元线性回归模型

83

这一结果很不理想,低 R2 值,低 t 值, X 的符号也不对。考虑到可能是季节性变异的问题,我们建立下面的模型:

其中, Q1={

Q2={

Q3={ 请注意我们仅用了 3 个虚拟变量就可表示 4 个季度的情况。

uXQQQY 43322110

其它季度季度

0

11

其它季度季度

0

21

其它季度季度

0

31

各季度的截距分别为:1季度: 0 + 1

2季度: 0 + 2

3季度: 0 + 3

4季度: 0

Page 84: 第四章 多元线性回归模型

84

估计结果如下:

结果仍不理想,但好多了。四个季度的截距项分别为: -1039.2 , -1122.7 , -1161.4 , -1455.8 。

所得到的实际总支出的参数估计值( 0.1044 )是一个不受季节变动影响的估计值。

65.0

1044.034.29421.3336.41681.1455

2

)5.4()9.5()4.6(1

)2.7()5.3(:)(

R

XQQQYt

Page 85: 第四章 多元线性回归模型

85

第四章 小结本章将双变量模型的结果推广到了多元线性回归模型的一般情形。一、多元线性回归模型的估计

多元线性回归模型的矩阵形式为 Y=Xβ+μ若满足以下四条假设条件: 1 、 E ( μ ) =0 2 、 E ( μμ’ ) = 2 In

3 、 X 是一个非随机元素矩阵 4 、 Rank ( X ) =k+1<n

则 OLS 估计量 = ( X’X ) -1X’Y为最佳线性无偏估计量( BLUE )。其方差 -协方差矩阵为 Var-cov ( ) = ( X’X ) -12

该矩阵主对角线元素为诸 的方差。

β

β

j

Page 86: 第四章 多元线性回归模型

86

二、拟合优度多元线性回归模型的决定系数为:

R2 =

由于当模型增加解释变量后,残差平方和的值会减小,为了使拟合优度的测度反映这一特点,可采用经过自由度调整的决定系数,即修正决定系数 :

2

2

2

2

'

ˆ'

)(1

YnYY

YnXY

YY

e

2R

1

1)1(1

)1/()(

)1/(1 2

2

22

kn

nR

nYY

kneR

Page 87: 第四章 多元线性回归模型

87

三、非线性关系的处理

线性模型的含义包括变量的线性和参数的线性。对于仅存在变量非线性的模型,可采用重新定义的方法将模型线性化。 存在参数非线性的模型,则仅有一部分可通过代数变换(主要是取对数)的方法将模型线性化。对于那些无法线性化的模型,只能采用非线性估计技术(如 NLS 法)估计模 型。

Page 88: 第四章 多元线性回归模型

88

四、假设检验

检验解释变量的系数是否为 0 的假设检验称为系数的显著性检验。这种检验实际上是检验所涉及的解释变量是否对因变量有影响。 检验单个系数 βj 是否为 0 的检验统计量

~ t(n-k-1 )

其中 Var ( )为矩阵 主对角线上第 j+1 个元素,而

n 和 k分别是观测值数目和解释变量的个数。

)ˆ(

ˆ

j

j

Vart

j

1

ˆ''

22

kn

XYYY

kn

et

21 ˆ)( XX

Page 89: 第四章 多元线性回归模型

89

涉及几个参数的联合假设检验的检验统计量

F= ~ F ( g , n-k-1 )

其中 SR 为有约束回归的残差平方和, S 为无约束回归(全回归)的残差平方和。 g 为原假设中约束条件个数,(对于涉及几个参数的显著性检验, g 为原假设中为 0 参数的个数)。

检验全部“斜率”系数均为 0 的检验统计量为 F = =

)1/(

/)(

knS

gSSR

)1/(

/)(

knS

kSSR

)1/()1(

/2

2

knR

kR

Page 90: 第四章 多元线性回归模型

90

五、虚拟变量

我们应用虚拟变量的目的是将那些无法定量化的变量引入到模型中。这样,一些定性因素对因变量的影响,如不同时期、不同地区、不同季节、不同经济政策的影响等,可放在一个模型中予以考虑。

Page 91: 第四章 多元线性回归模型

91

第四章 习题

1 、某经济学家试图解释某一变量 Y 的变动。他收集了 Y 和 5个可能的解释变量 X1 ~ X5 的观测值(共 10 组),然后分别作三个回归,结果如下(括号中为 t统计量):

( 1 ) = 51.5 + 3.21X1t R2 = 0.63 (3.45) (5.21)( 2 ) = 33.43 + 3.67X1t + 4.62X2t + 1.21X3t R2 = 0.75 (3.61) (2.56) (0.81) (0.22)( 3 ) = 23.21 + 3.82X1t + 2.32X2t + 0.82X3t + 4.10X4t + 1.21X5t

(2.21) (2.83) (0.62) (0.12) (2.10) (1.11) R2 = 0.80

你认为应采用哪一个结果?为什么?

tY

tY

tY

Page 92: 第四章 多元线性回归模型

92

2 、为研究旅馆的投资问题,我们收集了某地的 1987-1995年的数据来估计收益生产函数 R=ALαKβeu

其中 R=旅馆年净收益(万元), L=土地投入, K= 资金投入, e 为自然对数的底。设回归结果如下(括号内数字为标准误差):

= -0.9175 + 0.273lnL + 0.733lnK R2 = 0.94 (0.212) (0.135) (0.125)

( 1 )请对回归结果作必要说明;( 2 )分别检验 α 和 β 的显著性;( 3 )检验原假设: α=β= 0;

Rln

Page 93: 第四章 多元线性回归模型

93

3 、我们有某地 1970-1987 年间人均储蓄和收入的数据,用以研究文革期间和文革后储蓄和收入之间的关系是否发生显著变化。引入虚拟变量后,估计结果如下(括号内数据为标准差):

= -1.7502 + 1.4839D + 0.1504Xt - 0.1034D·Xt

(0.3319) (0.4704) (0.0163) (0.0332)

R2 = 0.9425

其中: Y= 人均储蓄, X= 人均收入,

请检验两时期是否有显著的结构性变化。

年年

19871979,1

19781970,0D

tY