第 3 章应用回归分析

1

第 3 章应用回归分析3.1 回归分析的步骤

2

第 3 章应用回归分析3.1回归分析的步骤3.2 回归分析实例：餐厅选址

3

第 4 章古典模型只有满足一些假设后 ,OLS才是最优估计方

法 .古典模型指满足上述假设的模型 .

4

4.1古典假设 :假设 1.回归模型是线性的 , 模型设定无误且含有误差项 .

，方程仍是线性。方程变成：

令

两边取对数，得例如，指数函数：

。性，也认为满足此假设如果方程能够转化成线注意是对参数线性。

多元线性总体回归模型

iii

iiii

iii

ii

iKikiii

XY

XXYY

XY

eXeY

XXXY

i

*10

*

**

10

22110

),ln(),ln(

)ln()ln(

,10

5

假设 2 误差项总体均值为零 E( )=0 i=1,2, …,n

误差项的零均值是指模型中不含的并归属的因素，对Ｙ的均值都没有系统影响；正的值抵销了负的值，以至于它们对 Y 的平均值影响为零。

在方程中加上常数项可以迫使任何回归中的的均值为零 .P53一个例子

i

i

ii

i

6

假设 3 所有解释变量与误差项都不相关 . 误差项与解释变量不相关，误差项本身是独立于解释变量之外的，且如果误差项与解释变量存在相关，则不能独自说明其作用

例如 , 如果解释变量与误差项正相关 ,估计的回归系数可能大于没有正相关时的系数估计 . 因为 OLS估计程序会错误地把由误差项引起的 Y 的变异归因于 X.

具有联立属性的模型将违背此假设 .

7

3

10

违背假设一起变动，偏好引起）和解释变量误差项（由未预期到的，增加也会引起消费增加导致总收入增加；收入需求，的偏好引起），增加总消费增加（由未预期到

为收入。为消费，其中，

中，在凯恩斯宏观经济模型例子：

ii

iii

XY

XY

8

假设 4 误差项的观察值互不相关

误差项之间互不相关意味着Ｙ的决定与它期的误差项无关，即不存在 (t-k)决定 (t)从而决定Ｙ的情况 , 否则误差项称为序列相关 .

ttt

tttt

XY

YY

10

11

因为：不相关。与不相关，则与若

...3,2,1...;3,2,1,,0),cov( jijiji

9

假设 5 误差项具有同方差

误差项的同方差性同时也意味着Ｙ的同方差性，即随着 x 的变动，Ｙ的取值分布是一定的，是分布不变的。

...)3,2,1(,)/( 22 iXE ii

10

(A)

(B)

密度储蓄Y

收入 X

iXBB 10

密度储蓄Y

收入 X

iXBB 10

同方差和异方差的图形表示

11

假设６任何一个解释变量都不是其他解释变量的完全线性函数．

完全多重共线性 :不完全多共线性 :

例子 : 假设研究城市轮胎销售店的利润模型 :若选择自变量为 : 每个商店的年轮胎销售量和每个商店的年销售税 , 则面临完全多重共线性 .

12

假设 7 误差项服从正态分布

正态性假设并非 OLS估计所要求 , 主要应用于假设检验中 .

13

值的概率分布。的的抽样分布：不同样本

24.

。分布，具有均值和方差是随机变量，服从一定对于不同样本，

，同的的不同样本都会产生不所以，来自于相同总体

的样本均值和是和其中

回忆公式：

XY

)X(X

)Y(Y)X(X

i

ii

10

21

YXYX

14

例： P56-57

15

4.2.1 均值的性质

　　

2 1

) (

)0)((

)(

)(

)(

)(

)(

)(

)(

)( .1

1

2

2221

10

estimatorLinearY

XnXnXX

YXX

XX

XX

XXYY

XX

XX

XX

YYXX

Y

XY

i

i

ii

i

i

ii

i

i

i

ii

ii

iii

性估计量的一个线性函数，是线是

）（

证明：的线性函数扰动项的线性函数，也是是因变量一、线性性：

16

的一个线性函数也是

的一个线性函数是

证明：

i

i

Y

Y

XY

0

1

10 .2

17

)0)((

)()(

)(

)(

)(

)(

)(

)(

)()(

)(

)(

)(

)(

)(

)(

)(

)(

)(

)( .1

1211

21221

22120

10221

XnXnXnXXX

EXX

XX)E(

XX

XX

XX

XX

XX

XXXXX

XX

XX

XX

XXX

XX

XX

XXX

XXY

XX

XX

)E(

ii

ii

i

ii

ii

i

i

i

ii

ii

i

i

ii

i

i

iii

ii

i

i

）（

）（证明：

二、无偏性：

18

0200

200

22

22

22120

1022

210

)(1

1

01

111

11

11

1 .2

ii

i

ii

i

i

iii

i

iii

iii

i

ii

i

i

iii

i

i

iii

ii

i

i

ii

ii

Ex

Xx

n)E(

x

Xx

n

XXx

XxXX

nx

XXx

n

X

xx

X

x

Xx

n

ux

Xx

nx

XXx

n

X

x

Xx

n

uXx

Xx

nY

x

Xx

n

XYx

xY

nXY

）（

证明：

19

注意 : 无偏性是重复抽样性质

20

58

1

2

2

2

22

21

21

10221

P

)XX(x

)var(x

x)var(

XxX,x

x

Xx

xY

x

x

ii

ii

i

iiii

i

iii

ii

i

i

的方差。以减小通过扩大样本容量，可

令

4.2.2 方差的性质

21

方差和标准差的性质

的标准误也是如此。、对

的方差也会增加。加，、随着误差项方差的增

的方差；减小、扩大样本容量，可以

3

2

1

22

当无偏与最小方差无法同时满足时 , 如何取舍 ?

均方差 : 对不同估计技术进行比较MSE均方误 = 方差 + 偏差平方 MSE越低 , 效果越好 . P58: 图 4-4

23

4.3 高斯 - 马尔可夫定理和 OLS估计量的性质在给定 6 个经典假设之下， OLS估计量在所有线性无偏一类估计量中，有最小方差。称之为最优线性无偏估计量 .

BLUE-Best Linear Unbiasedness Estimator

有最小方差的无偏估计量叫做有效估计量（ efficient estimator)

24

BLUE估计量的图形表示

线性无偏估计量

BLUE估计量

全部估计量

线性无偏估计量

BLUE估计量

25

正态性假定我们不仅要用 OLS法做点估计，我们还要进行假设检验 (hypothesis testing)，即对系数的真值做出推断，而这需要误差项的概率分布。

从干扰项的概率分布 ------估计量的概率分布 ----------系数真值的统计推断

26

假定 7 误差项服从正态分布

27

为何是正态分布而不是其他？原因 1 ：中心极限定理证明，如果存在大量独立且相同分布的随机变量，那么，除了少数例外情形，随着这些变量的个数无限的增大，它们的总和将趋向于正态分布

原因 2 ：中心极限定理的另一解说是，即使变量个数并不是很大或这些变量还不是严格独立的，它们的总和仍可视为正态分布

随机项的性质

28

系数的概率分布

))(

,(

))(

,(

) ,(

,

) ,0(

2

22

00

2

2

11

210

10

2

XXn

XN

XXN

XNY

XY

N

i

i

i

ii

iii

i

服从

服从则

服从所以，

服从增加一条假定，

29

由于正态性假定而新增的性质1、系数估计量也是服从正态分布的 ( 根据系数估计量是 Y 的线性函数，而 Y 又是误差项的线性函数 )2 、 OLS的系数估计量在整个无偏估计量中，无论是线性的还是非线性的估计，都有最小方差，所以我们说最小二乘估计量是最优无偏估计量 (BUE)

30

由于正态性假定而新增的性质3 、随着样本容量无限地增大，系数估计量将收敛于它们的真值 ( 一致性 )

31

误差项方差的估计

为解释变量个数。

的无偏估计量为：总体方差

行估计。常常未知，只能对其进，

误差项的方差的方差表达式中，含有和在

问题的提出：

KKn

ei ,1

ˆ 2

2

2

22

10

32

4.4 标准计量经济学符号P60

33

　虚拟变量

一、虚拟变量模型虚拟变量（ dummy variable）：在实际建模过程中，被解释变量不但受定量变量影响，同时还受定性变量影响。例如性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。

由于定性变量通常表示的是某种特征的有和无，所以量化方法可采用取值为 1 或 0 。这种变量称作虚拟变量，用 D 表示。虚拟变量应用于模型中，对其回归系数的估计与检验方法与定量变量相同。

34

１ . 包含一个虚拟变量的模型

iiii uDBXBBY 210

为加法模型。截距不影响斜率的模型称这种虚拟变量只影响歧视来自初始年薪。

，视，否则存在性别歧视，则说明不存在性别歧如果）（

：女性就业者的平均年薪）（

：男性就业者的平均年薪

0

1,/

0,/

2

210

10

B

BXBBDXYE

XBBDXYE

iiii

iiii

加法模型：例建立模型研究中国妇女在工作中是否受到歧视设有模型，

其中Ｙ为年薪，Ｘ为工作年限， D 为定性变量。当 D = 0 时表示男性，当Ｄ＝１时表示女性。

35

0

20

40

60

0 20 40 60

X

Y D = 1

D =0

Ｂ 0+Ｂ

2

Ｂ 0

36

注意：若定性变量含有 m 个类别，应引入 m-1个虚拟变量，否则会导致多重共线性，称作虚拟变量陷阱（ dummy variable trap）。

关于定性变量中的哪个类别取 0 ，哪个类别取 1 ，是任意的，不影响检验结果。

定性变量中取值为 0 所对应的类别称作基础类别（ base category）。

37

若区别男女两类的不同，引入两个虚拟变量，则会导致完全共线性。

假定有一个样本，该样本包括三个男性，两个女性，其数据矩阵如下：　　　Ｃ　　Ｄ１　Ｄ２　Ｘ男　　１　　１　　０　　Ｘ１男　　１　　１　　０　　Ｘ２女　　１　　０　　１　　Ｘ３男　　１　　１　　０　　Ｘ４女　　１　　０　　１　　Ｘ５所以Ｄ１＝１－Ｄ２，Ｄ１与Ｄ２完全共线。

iiiii uDBDBXBBY 231210

，女男

，男女；

1

,02

1

,01 ii DD

38

乘法模型：

。歧视来自年薪增加速度

视，否则存在性别歧视，则说明不存在性别歧如果）（

：女性就业者的平均年薪）（

：男性就业者的平均年薪

,0

1,/

0,/

2

210

10

B

XBXBBDXYE

XBBDXYE

iiiii

iiii

iiiii uXDBXBBY 210

39

加法模型和乘法模型的结合：检验结构变化

)2()

)1(*

210

3210

情形（

情形的模型：截距和斜率都发生变化

iiiiii

iiiiii

uDXXBXBBY

uDBXDBXBBY

40

0

10

20

30

40

50

60

70

0 20 40 60

T

Y

0

20

40

60

80

100

0 20 40 60

X

Y

情形 1 （不同类别数据的截距和斜率不同）情形 2 （不同类别数据的截距和斜率不同）

41

２ . 包含多个虚拟变量的模型

　　研究本科生、研究生和ＭＢＡ毕业生的初职月薪有何差异？Ｙ：初职月薪，

MBAD ，，其他

1

02 ，研究生，其他1

01 D

ii uDDY 22110

平均初始月薪研究生平均初始月薪

本科生平均初始月薪

MBADDYE

DDYE

DDYE

i

i

i

;)1,0/(

;)0,1/(

;)0,0/(

2021

1021

021

42

习题2,3,4,5

课后 1,6,7,9 ,10

第 3 章 应用回归分析

Documents

第 3 章应用回归分析