第 3 章 应用回归分析
DESCRIPTION
第 3 章 应用回归分析. 3.1 回归分析的步骤. 第 3 章 应用回归分析. 3.1 回归分析的步骤 3.2 回归分析实例:餐厅选址. 第 4 章 古典模型. 只有满足一些假设后 ,OLS 才是最优估计方法 . 古典模型指满足上述假设的模型. 4.1 古典假设 : 假设 1. 回归模型是线性的 , 模型设定无误且含有误差项. 假设 2 误差项 总体均值为零 E( )=0 i=1,2, …,n - PowerPoint PPT PresentationTRANSCRIPT
1
第 3 章 应用回归分析3.1 回归分析的步骤
2
第 3 章 应用回归分析3.1回归分析的步骤3.2 回归分析实例:餐厅选址
3
第 4 章 古典模型只有满足一些假设后 ,OLS才是最优估计方
法 .古典模型指满足上述假设的模型 .
4
4.1古典假设 :假设 1.回归模型是线性的 , 模型设定无误且含有误差项 .
,方程仍是线性。方程变成:
令
两边取对数,得例如,指数函数:
。性,也认为满足此假设如果方程能够转化成线注意是对参数线性。
多元线性总体回归模型
iii
iiii
iii
ii
iKikiii
XY
XXYY
XY
eXeY
XXXY
i
*10
*
**
10
22110
),ln(),ln(
)ln()ln(
,10
5
假设 2 误差项总体均值为零 E( )=0 i=1,2, …,n
误差项的零均值是指模型中不含的并归属 的因素,对Y的均值都没有系统影响;正的 值抵销了负的 值,以至于它们对 Y 的平均值影响为零。
在方程中加上常数项可以迫使任何回归中的 的均值为零 .P53一个例子
i
i
ii
i
6
假设 3 所有解释变量与误差项都不相关 . 误差项与解释变量不相关,误差项本身是独立于解释变量之外的,且如果误差项与解释变量存在相关,则不能独自说明其作用
例如 , 如果解释变量与误差项正相关 ,估计的回归系数可能大于没有正相关时的系数估计 . 因为 OLS估计程序会错误地把由误差项引起的 Y 的变异归因于 X.
具有联立属性的模型将违背此假设 .
7
3
10
违背假设一起变动,偏好引起)和解释变量误差项(由未预期到的,增加也会引起消费增加导致总收入增加;收入需求,的偏好引起),增加总消费增加(由未预期到
为收入。为消费,其中,
中,在凯恩斯宏观经济模型例子:
ii
iii
XY
XY
8
假设 4 误差项的观察值互不相关
误差项之间互不相关意味着Y的决定与它期的误差项无关,即不存在 (t-k)决定 (t)从而决定Y的情况 , 否则误差项称为序列相关 .
ttt
tttt
XY
YY
10
11
因为:不相关。与不相关,则与若
...3,2,1...;3,2,1,,0),cov( jijiji
9
假设 5 误差项具有同方差
误差项的同方差性同时也意味着Y的同方差性,即随着 x 的变动,Y的取值分布是一定的,是分布不变的。
...)3,2,1(,)/( 22 iXE ii
10
(A)
(B)
密度储蓄Y
收入 X
iXBB 10
密度储蓄Y
收入 X
iXBB 10
同方差和异方差的图形表示
11
假设6任何一个解释变量都不是其他解释变量的完全线性函数.
完全多重共线性 :不完全多共线性 :
例子 : 假设研究城市轮胎销售店的利润模型 :若选择自变量为 : 每个商店的年轮胎销售量和每个商店的年销售税 , 则面临完全多重共线性 .
12
假设 7 误差项服从正态分布
正态性假设并非 OLS估计所要求 , 主要应用于假设检验中 .
13
值的概率分布。的的抽样分布:不同样本
24.
。分布,具有均值和方差是随机变量,服从一定对于不同样本,
,同的的不同样本都会产生不所以,来自于相同总体
的样本均值和是和其中
回忆公式:
XY
)X(X
)Y(Y)X(X
i
ii
10
21
YXYX
14
例: P56-57
15
4.2.1 均值的性质
2 1
) (
)0)((
)(
)(
)(
)(
)(
)(
)(
)( .1
1
2
2221
10
estimatorLinearY
XnXnXX
YXX
XX
XX
XXYY
XX
XX
XX
YYXX
Y
XY
i
i
ii
i
i
ii
i
i
i
ii
ii
iii
性估计量的一个线性函数,是线是
)(
证明:的线性函数扰动项的线性函数,也是是因变量一、线性性:
16
的一个线性函数也是
的一个线性函数是
证明:
i
i
Y
Y
XY
0
1
10 .2
17
)0)((
)()(
)(
)(
)(
)(
)(
)(
)()(
)(
)(
)(
)(
)(
)(
)(
)(
)(
)( .1
1211
21221
22120
10221
XnXnXnXXX
EXX
XX)E(
XX
XX
XX
XX
XX
XXXXX
XX
XX
XX
XXX
XX
XX
XXX
XXY
XX
XX
)E(
ii
ii
i
ii
ii
i
i
i
ii
ii
i
i
ii
i
i
iii
ii
i
i
)(
)(证明:
二、无偏性:
18
0200
200
22
22
22120
1022
210
)(1
1
01
111
11
11
1 .2
ii
i
ii
i
i
iii
i
iii
iii
i
ii
i
i
iii
i
i
iii
ii
i
i
ii
ii
Ex
Xx
n)E(
x
Xx
n
XXx
XxXX
nx
XXx
n
X
xx
X
x
Xx
n
ux
Xx
nx
XXx
n
X
x
Xx
n
uXx
Xx
nY
x
Xx
n
XYx
xY
nXY
)(
证明:
19
注意 : 无偏性是重复抽样性质
20
58
1
2
2
2
22
21
21
10221
P
)XX(x
)var(x
x)var(
XxX,x
x
Xx
xY
x
x
ii
ii
i
iiii
i
iii
ii
i
i
的方差。以减小通过扩大样本容量,可
令
4.2.2 方差的性质
21
方差和标准差的性质
的标准误也是如此。、对
的方差也会增加。加,、随着误差项方差的增
的方差;减小、扩大样本容量,可以
3
2
1
22
当无偏与最小方差无法同时满足时 , 如何取舍 ?
均方差 : 对不同估计技术进行比较MSE均方误 = 方差 + 偏差平方 MSE越低 , 效果越好 . P58: 图 4-4
23
4.3 高斯 - 马尔可夫定理和 OLS估计量的性质 在给定 6 个经典假设之下, OLS估计量在所有线性无偏一类估计量中,有最小方差。称之为最优线性无偏估计量 .
BLUE-Best Linear Unbiasedness Estimator
有最小方差的无偏估计量叫做有效估计量( efficient estimator)
24
BLUE估计量的图形表示
线性无偏估计量
BLUE估计量
全部估计量
线性无偏估计量
BLUE估计量
25
正态性假定我们不仅要用 OLS法做点估计,我们还要进行假设检验 (hypothesis testing),即对系数的真值做出推断,而这需要误差项的概率分布。
从干扰项的概率分布 ------估计量的概率分布 ----------系数真值的统计推断
26
假定 7 误差项服从正态分布
27
为何是正态分布而不是其他? 原因 1 :中心极限定理证明,如果存在大量独立且相同分布的随机变量,那么,除了少数例外情形,随着这些变量的个数无限的增大,它们的总和将趋向于正态分布
原因 2 :中心极限定理的另一解说是,即使变量个数并不是很大或这些变量还不是严格独立的,它们的总和仍可视为正态分布
随机项的性质
28
系数的概率分布
))(
,(
))(
,(
) ,(
,
) ,0(
2
22
00
2
2
11
210
10
2
XXn
XN
XXN
XNY
XY
N
i
i
i
ii
iii
i
服从
服从则
服从所以,
服从增加一条假定,
29
由于正态性假定而新增的性质1、系数估计量也是服从正态分布的 ( 根据系数估计量是 Y 的线性函数,而 Y 又是误差项的线性函数 )2 、 OLS的系数估计量在整个无偏估计量中,无论是线性的还是非线性的估计,都有最小方差,所以我们说最小二乘估计量是最优无偏估计量 (BUE)
30
由于正态性假定而新增的性质3 、随着样本容量无限地增大,系数估计量将收敛于它们的真值 ( 一致性 )
31
误差项方差的估计
为解释变量个数。
的无偏估计量为:总体方差
行估计。常常未知,只能对其进,
误差项的方差的方差表达式中,含有和在
问题的提出:
KKn
ei ,1
ˆ 2
2
2
22
10
32
4.4 标准计量经济学符号P60
33
虚拟变量
一、虚拟变量模型虚拟变量( dummy variable):在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。
由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为 1 或 0 。这种变量称作虚拟变量,用 D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
34
1 . 包含一个虚拟变量的模型
iiii uDBXBBY 210
为加法模型。截距不影响斜率的模型称这种虚拟变量只影响歧视来自初始年薪。
,视,否则存在性别歧视,则说明不存在性别歧如果)(
:女性就业者的平均年薪)(
:男性就业者的平均年薪
0
1,/
0,/
2
210
10
B
BXBBDXYE
XBBDXYE
iiii
iiii
加法模型:例建立模型研究中国妇女在工作中是否受到歧视设有模型,
其中Y为年薪,X为工作年限, D 为定性变量。当 D = 0 时表示男性,当D=1时表示女性。
35
0
20
40
60
0 20 40 60
X
Y D = 1
D =0
B 0+B
2
B 0
36
注意: 若定性变量含有 m 个类别,应引入 m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱( dummy variable trap)。
关于定性变量中的哪个类别取 0 ,哪个类别取 1 ,是任意的,不影响检验结果。
定性变量中取值为 0 所对应的类别称作基础类别( base category)。
37
若区别男女两类的不同,引入两个虚拟变量,则会导致完全共线性。
假定有一个样本,该样本包括三个男性,两个女性,其数据矩阵如下: C D1 D2 X男 1 1 0 X1男 1 1 0 X2女 1 0 1 X3男 1 1 0 X4女 1 0 1 X5所以D1=1-D2,D1与D2完全共线。
iiiii uDBDBXBBY 231210
,女男
,男女;
1
,02
1
,01 ii DD
38
乘法模型:
。歧视来自年薪增加速度
视,否则存在性别歧视,则说明不存在性别歧如果)(
:女性就业者的平均年薪)(
:男性就业者的平均年薪
,0
1,/
0,/
2
210
10
B
XBXBBDXYE
XBBDXYE
iiiii
iiii
iiiii uXDBXBBY 210
39
加法模型和乘法模型的结合:检验结构变化
)2()
)1(*
210
3210
情形(
情形的模型:截距和斜率都发生变化
iiiiii
iiiiii
uDXXBXBBY
uDBXDBXBBY
40
0
10
20
30
40
50
60
70
0 20 40 60
T
Y
0
20
40
60
80
100
0 20 40 60
X
Y
情形 1 (不同类别数据的截距和斜率不同) 情形 2 (不同类别数据的截距和斜率不同)
41
2 . 包含多个虚拟变量的模型
研究本科生、研究生和MBA毕业生的初职月薪有何差异?Y:初职月薪,
MBAD ,,其他
1
02 ,研究生,其他1
01 D
ii uDDY 22110
平均初始月薪研究生平均初始月薪
本科生平均初始月薪
MBADDYE
DDYE
DDYE
i
i
i
;)1,0/(
;)0,1/(
;)0,0/(
2021
1021
021
42
习题2,3,4,5
课后 1,6,7,9 ,10