第三章回归分析概要

1

第三章回归分析概要• 第一节、经典线性回归模型• 第二节、普通最小二乘估计和最大似然估计• 第三节、假设检验• 第四节、置信区间

2

第一节经典线性回归模型• 一、函数关系和统计关系• （一）函数关系是一一对应的确定性关

系。（举例见教材）• （二）统计关系是不完全一致的对应关

系。（举例见教材）• 二、理论模型和回归模型• Y=f(X1,X2,……,Xp)• Y=f(X1,X2,…,Xk; ū)

3

• 三、随机误差和系统误差• 1 、随机误差：是由随机因素形成的误差。所

谓随机因素，是指那些对被解释变量的作用不显著，其作用方向不稳定（时正时负），在重复试验中，正作用与负作用可以相互抵消的因素。

• 2 、系统误差：由系统因素形成的误差。所谓系统因素，是指那些对被解释变量的作用较显著，其作用方向稳定，重复试验也不可能相互抵消的因素。

4

• 四、线性回归模型和非线性回归模型• 分类的标准：回归模型的期望函数关于

参数的倒数是否与参数有关。即期望函数的一阶导函数是否仍然是关于参数的函数。如果导函数不是关于参数的函数，即参数是线性的，则称该回归模型是线性回归模型；反之，则称该回归模型是非线性回归模型。

5

五、回归模型的矩阵方法和随机矩阵

一般线性回归模型的矩阵表示法

1 、解释变量矩阵 X

nkn

K

k

nkn

k

k

XX

XX

XX

XXXn

XXX

XXX

X

...1

............

...1

...1

...1

............

...

...

2

222

112

2

22221

11211

为了使模型中包含一个常数项，通常假设解释变量矩阵第一列的

取舍全为 1 , 即假设 1,...1,1,...,, 12111 nXXX 。

也就是说，解释变量中的第一个变量通常假设为取值恒为 1 的变量。

6

2、被解释变量向量Y、参数向量和随机干扰向量：

nknY

Y

Y

Y

...

;...

;...

2

1

2

1

2

1

依照矩阵运算法则，可用矩阵表示为：

XY (2.1.14)

在（2.1.14）式中，X一般是非随机矩阵，通常称为设计矩阵；Y、都是随机向量，而则是常数向量。

7

( 二 ) 随机向量的数学期望和协方差矩阵

在（ 2 . 1 . 1 4 ）式中， Y 和的元素都是随机变量，因此是随机向量。

1 、随机向量的数学期望。

随机向量的数学期望仍然是向量，是由原向量相应的随机变量元素的

数学期望值组成的向量。

kj

niYEYE ijnxk , . . . ,2,1

, . . . ,2,1, （ 2 . 1 . 1 6 ）

2 、随机向量的协方差矩阵。

记 Y 的方差为 22 YEYEY ( 2 . 1 . 1 7 )

记 Y 与 Z 的协方差为 ZEZYEYEZY , ( 2 . 1 . 1 8 )

8

依照方差与协方差的定义，我们类似地可以定义随机向量的

方差 — 协方差矩阵。仍然以 3 个观测值 Y 1 , Y 2 , Y 3 构成的随机向量

Y 来说明，记每个随机变量 iY 的方差为 iY2 ，任意两个随机变量

ji YY , 的协方差为 ji YY , ，这些方差和协方差可以组成一个矩阵，

称为随机变量 Y 的方差 — 协方差矩阵，常常简称为 Y 的协方差矩阵，

用 Y2 或 YVar 表示：

32

2313

1222

12

312112

,,

,,

,,

YYYYY

YYYYY

YYYYY

YVar

( 2 . 1 . 1 9 )

在矩阵（ 2 . 1 . 1 9 ）中，方差 iY2 在矩阵的主对角线上；对于 i ≠ j 时

的协方差，有 ijji YYYY ,, 。

9

对 n × 1 维随机向量，有：

nnnn

n

n

YYYYYY

YYYYY

YYYYY

YVar

,...,,

............

,...,

,...,

221

222

12

12112

（ 2 . 1 . 2 1 ）

假如，设由 3 个观测值组成的随机干扰项向量在每个观测点上方差

相同，即 22 i ，并且随机干扰项彼此不相关，即对于 i ≠ j ,

有 0, ji 。

于是可得到随机向量的方差 — 协方差矩阵为：

100

010

001

00

00

002

2

2

2

Var （ 2 . 1 . 2 2 ）

10

六、经典线性回归模型及其假设条件

• 一、有正确的期望函数。• 它要求在线性回归模型中没有遗漏任何重要

的解释变量，也没有包含任何多余的解释变量。• 二、被解释变量等于期望函数与随机干扰项之

和。• 三、随机干扰项独立于期望函数。即所有解释

变量 Xj 与随机干扰项 u 不相关。• 四、解释变量矩阵 X 是非随机矩阵，且其秩为

列满秩的，即 rank （ X ）＝ k 。•

11

• 五、随机干扰项服从正态分布。该假设给出了被解释变量的概率分布。

• 六、随机干扰项的期望值为 0 。即：• E （ u ）＝ 0

• 七、随机干扰项具有方差齐性。即：• 八、随机干扰项相互独立。•

12

第二节模型参数的估计一、普通最小二乘法

（ OLS 估计）• 通过协方差或相关系数证实变量之间存在关系，仅仅

只是知道变量之间线性相关的性质——正（负）相关和相关程度的大小。

• 既然它们之间存在线性关系，接下来必须探求它们之间关系的表现形式是什么？

• 最好用数学表达式将这种关系尽可能准确、严谨的表示出来—— y=a+bx+u—— 把它们之间的内在联系挖掘出来。也就是直线中的截距 a= ？；直线的斜率 b= ？

• 消费支出 = 基本生存 + 边际消费倾向 × 可支配收入 +随机扰动

13

解决问题的思路——可能性• 寻找变量之间直线关系的方法多多。于是，再接下

来则是从众多方法中，寻找一种优良的方法，运用方法去求出线性模型—— y=a+bx+u 中的截距 a= ？；直线的斜率 b= ？正是是本章介绍的最小二乘法。

• 根据该方法所得，即表现变量之间线性关系的直线有些什么特性？

• 所得直线可靠吗？怎样衡量所得直线的可靠性？• 最后才是如何运用所得规律——变量的线性关系？

14

最小二乘法产生的历史• 最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿（ F.Gallton ）——达尔文的表弟所创。

• 早年，道尔顿致力于化学和遗传学领域的研究。

• 他研究父亲们的身高与儿子们的身高之间的关系时，建立了回归分析法。

15

最小二乘法的地位与作用• 现在回归分析法已远非道尔顿的本意• 已经成为探索变量之间关系最重要的方

法，用以找出变量之间关系的具体表现形式。

• 后来，回归分析法从其方法的数学原理——误差平方和最小（平方乃二乘也）出发，改称为最小二乘法。

16

父亲们的身高与儿子们的身高之间关系的研究

• 1889年 F.Gallton 和他的朋友 K.Pearson收集了上千个家庭的身高、臂长和腿长的记录

• 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式

• 下图是根据 1078个家庭的调查所作的散点图（略图）

y

x160

165

170

175

180

185

140 150 160 170 180 190 200

Y

X

儿子们身高向着平均身高“回归”，以保持种族的稳定

18

“回归”一词的由来• 从图上虽可看出，个子高的父亲确有生出个子高的儿子的倾向，同样地，个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下：

• 如此以来，高的伸进了天，低的缩入了地。他百思不得其解，同时又发现某人种的平均身高是相当稳定的。最后得到结论：儿子们的身高回复于全体男子的平均身高，即“回归”——见 1889年 F.Gallton 的论文《普用回归定律》。

• 后人将此种方法普遍用于寻找变量之间的规律

xy

ubxay

516.033.84ˆ

19

最小二乘法的思路• 1．为了精确地描述 Y 与 X 之间的关系，必须使用这两个变量的每一对观察值，才不至于以点概面（作到全面）。

• 2． Y 与 X 之间是否是直线关系（协方差或相关系数）？若是，将用一条直线描述它们之间的关系。

• 3．在 Y 与 X 的散点图上画出直线的方法很多。• 任务？——找出一条能够最好地描述 Y 与 X

（代表所有点）之间的直线。• 4．什么是最好？—找出判断“最好”的原则。• 最好指的是找一条直线使得这些点到该直线的纵向距离的和（平方和）最小。

20

三种距离y

x

纵向距离

横向距离

距离

yx iiA ,

yx iiB ˆ,

A 为实际点， B 为拟合直线上与之对应的点

xyyyu iiiiiba ˆ纵向距离

21

距离是度量实际值与拟合值是否相符的有效手段

• 点到直线的距离——点到直线的垂直线的长度。

• 横向距离——点沿（平行） X轴方向到直线的距离。

• 纵向距离——点沿（平行） Y轴方向到直线的距离。也就是实际观察点的 Y坐标减去根据直线方程计算出来的 Y 的拟合值。

• 这个差数以后称为误差——残差（剩余）。

22

最小二乘法的数学原理• 纵向距离是 Y 的实际值与拟合值之差，

差异大拟合不好，差异小拟合好，所以又称为拟合误差或残差。

• 将所有纵向距离平方后相加，即得误差平方和，“最好”直线就是使误差平方和最小的直线。

• 于是可以运用求极值的原理，将求最好拟合直线问题转换为求误差平方和最小。

23

数学推证过程

)6(ˆ)5(ˆˆ

)4(

)3(

)2(02

)1(02

minmin

22

22

2

2

22

222

ˆ

ˆ

ˆ

ˆˆ

ˆˆ

xx

yx

yxy

xxx

yxxxyx

xxyuxyu

xbayu

xbayyyu

xyyyu

n

yxnbxbya

b

an

ba

bna

bab

baa

ii

iiii

ba

i

ii

ii

i

ii

i

iiii

ii

iii

i

ii

i

i

i

iiiii

或

24

关于所得直线方程的结论• 结论之一：

• 由（ 5 ）式，得• 即拟合直线过 y 和 x 的平均数点。

• 结论之二：• 由（ 2 ）式，得

• 残差与自变量 x 的乘积和等于 0 ，即两者不相关。

两者不相关。

）式，由（

0

ˆ0,cov

002

,ˆˆ

ˆˆ

xu

ba

ba

iixu

xuxxyxyyyu

ii

iiiii

iiiii

xbayxbya ˆˆˆˆ5 ）式：由（

25

拟合直线的性质• 1．估计残差和为零• 2． Y 的真实值和拟合值有共同的均值• 3．估计残差与自变量不相关• 4．估计残差与拟合值不相关

26

1．估计残差和为零（ Residuals Sum to zero ）

• 由（ 1 ）式直接得此结论无须再证明。并推出残差的平均数也等于零。

0

00

)1(02

ˆˆ

ˆ

ˆ

ˆˆ2

uu

uxy

xyu

xyyyu

i

i

iii

ii

i

iiiii

n

ba

baa

ba

27

2． Y 的真实值和拟合值有共同的均值（ The actual and fitted values of yi have t

he same mean ）

yy

baba

yyu

uyyuyyxyuxy

ii

i

iiiiii

iiiii

ˆ

01

ˆˆ

ˆˆ

ˆˆˆˆˆ

：性质

由

28

3．估计残差与自变量不相关（ Residuals are unrelated with independent varia

ble ）

0

0,20

00ˆ1

ˆ,cov

0ˆ,cov011

ˆ,cov

ˆˆˆˆˆ

ˆˆˆ

ˆˆ

ˆˆ22ˆ,

uxuxuxuux

uuxux

uxux

uuxx

ii

iiiiiii

iiiii

iiii

ux

x

xx

xx

xuxn

ux

ux

inin

ux

）式由（

29

4．估计残差与拟合值不相关（ Residuals are unrelated with fitted value of y

i ）

00ˆ0ˆˆˆˆˆ

ˆˆˆˆˆˆˆˆˆ

ˆˆˆˆˆˆˆˆˆˆ

0ˆˆˆ0ˆˆˆ1

ˆ,ˆcov

baubua

ubuaubauy

uyuyuyuyuy

uyyuyyn

uy

xxx

i

ii

30

关于回归直线性质的总结关于回归直线性质的总结

uxuyy iiiiiba ˆˆˆ ˆˆ

残差和 =0平均数相等

拟合值与残差不相关自变量与残差不相关

注意：这里的残差与随机扰动项不是一个概念。随机扰动项是总体的残差。

31

二、极大似然估计法二、极大似然估计（ M L 估计）

普通最小二乘法是根据期望的性质而建立的一种参数估计方法，

估计过程中并不需要了解模型随机干扰项的概率分布。

如果考虑随机干扰项的概率分布，则模型参数也可以根据极大似

然原理进行估计，由此而得出的极大似然法（ M a x i m u m l i k e l i h o o d e s t i m a t i o m ）

对于线性回归模型（ 2 . 1 . 1 4 ） XY ，在经典假设之下，

其随机干扰向量服从正态分布，即 2,0 N ，这意味着被解释变量

向量 Y 也服从正态分布，期望为 XYE ,协方差矩阵为 2yVar ，

即 Y ∽ 2, X ( 2 . 2 . 1 5 )

32

若记第 i 各样本观测点的解释变量观测值向量为

ikiii XXXX ,...,, 21 ，则该样本观测点上被解释变量

的观测值 Y i 的概率密度函数为：

2

22/122

2exp2,,

iiii

XYXYf （ 2 . 2 . 1 6 ）

因为各样本观测值假定是相互独立抽取的，所以样本的联合密度

函数为：

2

2/2

22121

2exp2

,,/...,...,,

XYXY

XYfYfYfYfYYYf

n

nn

( 2 . 2 . 1 7 )

33

此样本联合密度函数是在模型参数 2, 以及解释变量值 X

给定的条件下被解释变量的 n次观测向量 Y 的概率分布, 而一旦

样本被抽出, 则解释变量的观测向量 Y 就成为已知的确定值, 该

样本的联合密度函数就可看作是未知参数 2, 的函数, 即可将

其表示成 2, 的似然函数:

2

2/22

2exp2,/,

XYXY

YXLn

(2.2.18)

由于似然函数(2.2.18) 的值越大, 我们所观测到的样本所出现的

概率密度(2.2.17) 就越大, 所以极大似然准则就是要寻找出使得似然

函数取最大值的未知参数 2, 的估计量. 为此，将似然函数(2.2.18)

的两边取对数, 得到对数似然函数为:

34

2

22

2ln

22ln

2,ln

XYXYnn

L

( 2 . 2 . 1 9 )

由于对数函数是单调赠函数，所以使似然函数达到最大的未知参数

和 2 的值也就是使其对数似然函数达到最大的值，而极大化对数似

然函数在代数上处理更方便。因此，我们可直接求使得对数似然函数取

最大值的未知参数和 2 的估计量。

类似于普通最小二乘法，先计算对数似然函数 2,ln L 对和 2

的一阶偏导数：

XXYX

L

2

2 1,ln ( 2 . 2 . 2 0 )

422

2

22

,ln

XYXYnL

( 2 . 2 . 2 1 )

35

记使对数似然函数 2,ln L 取最小值的和 2 的值为

2~,~ ，则由极值原理可知，值 2~,

~ 就是使得上述导数（2.2.20）

式等于0向量和（2.2.21）等于0的值，即

0~1

2

XXYX (2.2.22)7

0

2

~~

~2 42

XYXYn

(2.2.23)

由此可得，参数和 2 的极大似然估计量分别为：

YXXX 1ˆ~ (2.2.24)

ˆˆ1~2 XYXYn

(2.2.25)

可见，在模型随机干扰项服从正态分布的假定下，回归模型的系数

向量的极大似然估计~也就是其普通最小二乘估计。

而 2~ 并不是 2 的无偏估计。（见教材P30）

36

最佳线性无偏估计

最佳线性无偏：

（一）线性无偏性

XXXEE 1ˆ

（二）有效性

（三）一致性

37

高斯—马尔柯夫定理

在假定 nYDXYE 2, 时，的任一线性函数c 的最小方差线性无偏估计（Best Liner Unbiased Estimator, BLUE）为

c，其中c是任一p+1维常数向量，是的最小二乘估计。

38

第三节拟合优度的评价

39

问题的提出• 由最小二乘法所得直线究竟能够对这些点之间

的关系加以反映吗？• 对这些点之间的关系或趋势反映到了何种程度？• 于是必须经过某种检验或者找出一个指标，在

一定可靠程度下，根据指标值的大小，对拟合的优度进行评价。

• 分四个问题进行讨论：平方和分解、方差分析、拟合优度、拟合优度与简单相关系数的关系。

40

一、平方和与自由度的分解• 1 、总平方和、回归平方和、残差平方和

的定义• 2 、平方和的分解• 3 、自由度的分解

41

1 、总平方和、回归平方和、残差平方和的定义

• TSS 度量 Y自身的差异程度， RSS 度量因变量 Y 的拟合值自身的差异程度， ESS 度量实际值与拟合值之间的差异程度。

uyy

yy

yy

iiiERS

iRSS

iTSS

ˆˆ

ˆ22

2

2

42

2 、平方和的分解

ESSRSSTSS

yy

yyy

yRSSESS

yiii

iyii

iii

iTSS

uyuuyuyuyyy

yyyyyyyyyy

yyyyyyy

yyyy

yy

iii

iiiiiiii

iii

iii

iii

000

2

2

2

ˆˆˆˆˆˆˆˆˆˆ

ˆˆˆˆˆˆ

ˆˆˆˆ

ˆˆ

22

22

2

2

43

平方和分解的意义• TSS=RSS+ESS

• 被解释变量 Y总的变动（差异） =

• 解释变量 X引起的变动（差异）• +除 X 以外的因素引起的变动（差异）• 如果 X引起的变动在 Y 的总变动中占很大比

例，那么 X很好地解释了 Y ；否则， X 不能很好地解释 Y 。

44

3 、自由度的分解• 总自由度

• dfT=n-1

• 回归自由度• dfR=1 （自变量的个数， k元为 k ）

• 残差自由度• dfE=n-2

• 自由度分解• dfT=dfR+dfE

45

平方和分解图

yy

yy ˆ

160

165

170

175

180

185

140 150 160 170 180 190 200

Y

X

yy ˆ

y

正交分解

yy

yy ˆ

yy ˆ

yy

yy ˆ

46

为什么回归平方和是由 X引起的变动

xxtgxxbxbxb

xbaxbayy

xyuyy

iii

i

iiiii

RSS

iRSS

xbayba

222

22

ˆˆˆ

ˆˆˆˆˆ

ˆˆˆ ˆˆˆˆ

yx,

xxi

yyiˆ

yi

xi

A B

C

47

二、方差分析

• 模型： y=a+bx+u ==>LS 估计： y^=a^+b^

x

• H0:b=0 HA:b<>0

变异来源平方和自由度均方 F统计量回归的 RSS 1 回归方差=RSS/1 F=回归方差/误差方差

剩余的 ESS n-2 误差方差=ESS/(n-1)

总的 TSS n-1

方差分析表

48

关于 F 检验• 零假设 H0 ： b=0 备择HA ： b<>0

• H0 ： b=0 <==>RSS 中的 X 不起作用， RSS 变动无异于随机变动 ==>

• 分子方差与分母方差是一回事 ==>F=1• 如果 F 显著地大于 1 ，甚至 F>F==> 小概率事件发生了，根据小

概率原理，小概率事件在一次试验中是不可能发生的，于是 H0 不成立。就不能认为 X 没有作用。则直线是有意义的。可靠性 =1-

成立成立， HFHss

A

e

r FF

nESS

RSS

F ,1

2

102

2

49

三、拟合优度（或称判定系数、决定系数）

• 目的：企图构造一个不含单位，可以相互进行比较，而且能直观判断拟合优劣。

• 拟合优度的定义：

• 意义：拟合优度越大，自变量对因变量的解释程度越高，自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。

• 取值范围： 0-1

TSS

ESS

TSS

RSSTSS

ESS

TSS

RSSESSRSSTSS

R

1

1

2

50

拟合优度与 F 统计量之间的联系

• F 显著 ==>拟合优度必然显著

R

R

ss

k

knF

TSSRSSTSS

k

TSSRSS

kn

RSSTSSk

RSSkn

kESS

RSSknF

knESSk

RSS

Fe

r

2

2

2

2

1

1

1

)(

11

1

51

四、拟合优度等于实际值与拟合值之间简单相关系数的平方

拟合得约好。说明

的相关程度的，与实际的一样，也是说明拟合的和

分母分子

分子

分子中的

分母

y

yyR

R

RSSnRSS

n

yuyyyuyy

yuyyuyyy

yyyy

yyyyn

i

iiyy

yy

iiiiii

iiiiiiii

yy

TSS

RSS

RSSn

TSSn

RSSyiyyy

yyyyyy

RSSn

TSSn

inin

ii

ˆ

ˆ

11

ˆˆˆˆˆˆˆ

ˆˆˆˆˆˆˆ

ˆ

ˆ1

22

ˆ,

2

2

2

ˆ,

2

2

22

2

2

ˆ,

11

0

1111

52

第四节各回归系数的显著性检验

• 上述由回归方差分析给出的 F 检验是对整个线性回归模型的检验，即使我们在上述检验中否定了原假设 H0 ： Bi=0 ，也并不意味着每个解释变量都对被解释变量有显著的影响。因此，还必须对模型中每个解释变量的重要性，即解释变量对被解释变量是否有显著性的影响进行检验。

53

• 对于一般线性回归模型，要检验某个解释变量 Xi 是否对被解释变量 Y 有显著的影响，可建立原假设和备择假设为：

• H0 ： Bi ＝ 0 ； H1:Bi 不等于 0

• （见教材 P40-41 ）

54

复习与提高

y=a+bx+u

xn+1 yn+1

xn yn

x2 y2

x1 y1

根据已知样本采用 LS得一拟合直线

拟合直线性质 :

残差和 =0

残差与自变量无关

拟合值与残差值无关

两个平均数均值相等

R20

TSS RSS ESS

R2

R21用直线反映总体

Good ?no

Yes

55

案例分析一：教学指导书 P20

• 教学目的：1．掌握普通最小二乘法2．掌握回归方程的拟合优度的判断3．掌握回归方程的显著性检验。

56

• 例 1 下表是某地区 10户家庭人均收入（ X ）和人均食物消费支出（ Y ）的数据。

• 试根据表中数据• （ 1 ）用普通最小二乘法估计该地居民家庭食物消费支出的回归直线 .

• （ 2 ）计算判定系数 R2 ，说明回归方程的拟合优度。

• （ 3 ）在 5% 的显著性水平下，对回归方程进行显著性检验。

57

Y X

70 80

65 100

90 120

95 140

110 160

115 180

120 200

140 220

155 240

150 260

58

Y X XY x2 Y ei y2

1 70 80 5600 6400 65.18 4.8181 4900

2 65 100 6500 10000 75.36 -10.36 4225

3 90 120 10800 14400 85.54 4.4545 8100

4 95 140 13300 19600 95.72 -0.727 9025

5 110 160 17600 25600 105.9 4.09 12100

6 115 180 20700 32400 116.1 -1.091 13225

7 120 200 24000 40000 126.3 -6.273 14400

8 140 220 30800 48400 136.5 3.545 19600

9 155 240 37200 57600 146.6 8.364 24025

150 260 39000 67600 156.8 -6.812 22500

∑ 1110

1700

205500

322000

1110 0 132100

第三章 回归分析概要

Documents

第三章回归分析概要