第三章 回归分析概要

58
1 第第第 第第第第第第 •第 第第 第第第第第第第第 一、 • 第第第 第第第第第第第第第第第第第第第 • 第第第 第第第第 • 第第第 第第第第

Upload: cullen

Post on 05-Jan-2016

106 views

Category:

Documents


0 download

DESCRIPTION

第三章 回归分析概要. 第一节、经典线性回归模型 第二节、普通最小二乘估计和最大似然估计 第三节、假设检验 第四节、置信区间. 第一节 经典线性回归模型. 一、函数关系和统计关系 (一)函数关系是一一对应的确定性关系。(举例见教材) (二)统计关系是不完全一致的对应关系。(举例见教材) 二、理论模型和回归模型 Y=f(X 1,X2,……,Xp) Y=f(X1,X2,…,Xk; ū). 三、随机误差和系统误差 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第三章 回归分析概要

1

第三章 回归分析概要• 第一节、经典线性回归模型• 第二节、普通最小二乘估计和最大似然估计• 第三节、假设检验• 第四节、置信区间

Page 2: 第三章 回归分析概要

2

第一节 经典线性回归模型• 一、函数关系和统计关系• (一)函数关系是一一对应的确定性关

系。(举例见教材)• (二)统计关系是不完全一致的对应关

系。(举例见教材)• 二、理论模型和回归模型• Y=f(X1,X2,……,Xp)• Y=f(X1,X2,…,Xk; ū)

Page 3: 第三章 回归分析概要

3

• 三、随机误差和系统误差• 1 、随机误差:是由随机因素形成的误差。 所

谓随机因素,是指那些对被解释变量的作用不显著,其作用方向不稳定(时正时负),在重复试验中,正作用与负作用可以相互抵消的因素。

• 2 、系统误差:由系统因素形成的误差。所谓系统因素,是指那些对被解释变量的作用较显著,其作用方向稳定,重复试验也不可能相互抵消的因素。

Page 4: 第三章 回归分析概要

4

• 四、线性回归模型和非线性回归模型• 分类的标准:回归模型的期望函数关于

参数的倒数是否与参数有关。即期望函数的一阶导函数是否仍然是关于参数的函数。如果导函数不是关于参数的函数,即参数是线性的,则称该回归模型是线性回归模型;反之,则称该回归模型是非线性回归模型。

Page 5: 第三章 回归分析概要

5

五、回归模型的矩阵方法和随机矩阵

一 般 线 性 回 归 模 型 的 矩 阵 表 示 法

1 、 解 释 变 量 矩 阵 X

nkn

K

k

nkn

k

k

XX

XX

XX

XXXn

XXX

XXX

X

...1

............

...1

...1

...1

............

...

...

2

222

112

2

22221

11211

为 了 使 模 型 中 包 含 一 个 常 数 项 , 通 常 假 设 解 释 变 量 矩 阵 第 一 列 的

取 舍 全 为 1 , 即 假 设 1,...1,1,...,, 12111 nXXX 。

也 就 是 说 , 解 释 变 量 中 的 第 一 个 变 量 通 常 假 设 为 取 值 恒 为 1 的 变 量 。

Page 6: 第三章 回归分析概要

6

2、被解释变量向量Y、参数向量和随机干扰向量:

nknY

Y

Y

Y

...

;...

;...

2

1

2

1

2

1

依照矩阵运算法则,可用矩阵表示为:

XY (2.1.14)

在(2.1.14)式中,X一般是非随机矩阵,通常称为设计矩阵;Y、 都是随机向量,而则是常数向量。

Page 7: 第三章 回归分析概要

7

( 二 ) 随 机 向 量 的 数 学 期 望 和 协 方 差 矩 阵

在 ( 2 . 1 . 1 4 ) 式 中 , Y 和 的 元 素 都 是 随 机 变 量 , 因 此 是 随 机 向 量 。

1 、 随 机 向 量 的 数 学 期 望 。

随 机 向 量 的 数 学 期 望 仍 然 是 向 量 , 是 由 原 向 量 相 应 的 随 机 变 量 元 素 的

数 学 期 望 值 组 成 的 向 量 。

kj

niYEYE ijnxk , . . . ,2,1

, . . . ,2,1, ( 2 . 1 . 1 6 )

2 、 随 机 向 量 的 协 方 差 矩 阵 。

记 Y 的 方 差 为 22 YEYEY ( 2 . 1 . 1 7 )

记 Y 与 Z 的 协 方 差 为 ZEZYEYEZY , ( 2 . 1 . 1 8 )

Page 8: 第三章 回归分析概要

8

依 照 方 差 与 协 方 差 的 定 义 , 我 们 类 似 地 可 以 定 义 随 机 向 量 的

方 差 — 协 方 差 矩 阵 。 仍 然 以 3 个 观 测 值 Y 1 , Y 2 , Y 3 构 成 的 随 机 向 量

Y 来 说 明 , 记 每 个 随 机 变 量 iY 的 方 差 为 iY2 , 任 意 两 个 随 机 变 量

ji YY , 的 协 方 差 为 ji YY , , 这 些 方 差 和 协 方 差 可 以 组 成 一 个 矩 阵 ,

称 为 随 机 变 量 Y 的 方 差 — 协 方 差 矩 阵 , 常 常 简 称 为 Y 的 协 方 差 矩 阵 ,

用 Y2 或 YVar 表 示 :

32

2313

1222

12

312112

,,

,,

,,

YYYYY

YYYYY

YYYYY

YVar

( 2 . 1 . 1 9 )

在 矩 阵 ( 2 . 1 . 1 9 ) 中 , 方 差 iY2 在 矩 阵 的 主 对 角 线 上 ; 对 于 i ≠ j 时

的 协 方 差 , 有 ijji YYYY ,, 。

Page 9: 第三章 回归分析概要

9

对 n × 1 维 随 机 向 量 , 有 :

nnnn

n

n

YYYYYY

YYYYY

YYYYY

YVar

,...,,

............

,...,

,...,

221

222

12

12112

( 2 . 1 . 2 1 )

假 如 , 设 由 3 个 观 测 值 组 成 的 随 机 干 扰 项 向 量 在 每 个 观 测 点 上 方 差

相 同 , 即 22 i , 并 且 随 机 干 扰 项 彼 此 不 相 关 , 即 对 于 i ≠ j ,

有 0, ji 。

于 是 可 得 到 随 机 向 量 的 方 差 — 协 方 差 矩 阵 为 :

100

010

001

00

00

002

2

2

2

Var ( 2 . 1 . 2 2 )

Page 10: 第三章 回归分析概要

10

六、经典线性回归模型及其假设条件

• 一、有正确的期望函数。• 它要求在线性回归模型中没有遗漏任何重要

的解释变量,也没有包含任何多余的解释变量。• 二、被解释变量等于期望函数与随机干扰项之

和。• 三、随机干扰项独立于期望函数。即所有解释

变量 Xj 与随机干扰项 u 不相关。• 四、解释变量矩阵 X 是非随机矩阵,且其秩为

列满秩的,即 rank ( X )= k 。•

Page 11: 第三章 回归分析概要

11

• 五、随机干扰项服从正态分布。该假设给出了被解释变量的概率分布。

• 六、随机干扰项的期望值为 0 。即:• E ( u )= 0

• 七、随机干扰项具有方差齐性。即:• 八、随机干扰项相互独立。•

Page 12: 第三章 回归分析概要

12

第二节 模型参数的估计一、普通最小二乘法

( OLS 估计)• 通过协方差或相关系数证实变量之间存在关系,仅仅

只是知道变量之间线性相关的性质——正(负)相关和相关程度的大小。

• 既然它们之间存在线性关系,接下来必须探求它们之间关系的表现形式是什么?

• 最好用数学表达式将这种关系尽可能准确、严谨的表示出来—— y=a+bx+u—— 把它们之间的内在联系挖掘出来。也就是直线中的截距 a= ?;直线的斜率 b= ?

• 消费支出 = 基本生存 + 边际消费倾向 × 可支配收入 +随机扰动

Page 13: 第三章 回归分析概要

13

解决问题的思路——可能性• 寻找变量之间直线关系的方法多多。于是,再接下

来则是从众多方法中,寻找一种优良的方法,运用方法去求出线性模型—— y=a+bx+u 中的截距 a= ?;直线的斜率 b= ?正是是本章介绍的最小二乘法。

• 根据该方法所得,即表现变量之间线性关系的直线有些什么特性?

• 所得直线可靠吗?怎样衡量所得直线的可靠性?• 最后才是如何运用所得规律——变量的线性关系?

Page 14: 第三章 回归分析概要

14

最小二乘法产生的历史• 最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿( F.Gallton )——达尔文的表弟所创。

• 早年,道尔顿致力于化学和遗传学领域的研究。

• 他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。

Page 15: 第三章 回归分析概要

15

最小二乘法的地位与作用• 现在回归分析法已远非道尔顿的本意• 已经成为探索变量之间关系最重要的方

法,用以找出变量之间关系的具体表现形式。

• 后来,回归分析法从其方法的数学原理——误差平方和最小(平方乃二乘也)出发,改称为最小二乘法。

Page 16: 第三章 回归分析概要

16

父亲们的身高与儿子们的身高之间关系的研究

• 1889年 F.Gallton 和他的朋友 K.Pearson收集了上千个家庭的身高、臂长和腿长的记录

• 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式

• 下图是根据 1078个家庭的调查所作的散点图(略图)

Page 17: 第三章 回归分析概要

y

x160

165

170

175

180

185

140 150 160 170 180 190 200

Y

X

儿子们身高向着平均身高“回归”,以保持种族的稳定

Page 18: 第三章 回归分析概要

18

“回归”一词的由来• 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:

• 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见 1889年 F.Gallton 的论文《普用回归定律》。

• 后人将此种方法普遍用于寻找变量之间的规律

xy

ubxay

516.033.84ˆ

Page 19: 第三章 回归分析概要

19

最小二乘法的思路• 1.为了精确地描述 Y 与 X 之间的关系,必须使用这两个变量的每一对观察值,才不至于以点概面(作到全面)。

• 2. Y 与 X 之间是否是直线关系(协方差或相关系数)?若是,将用一条直线描述它们之间的关系。

• 3.在 Y 与 X 的散点图上画出直线的方法很多。• 任务?——找出一条能够最好地描述 Y 与 X

(代表所有点)之间的直线。• 4.什么是最好?—找出判断“最好”的原则。• 最好指的是找一条直线使得这些点到该直线的纵向距离的和(平方和)最小。

Page 20: 第三章 回归分析概要

20

三种距离y

x

纵向距离

横向距离

距离

yx iiA ,

yx iiB ˆ,

A 为实际点, B 为拟合直线上与之对应的点

xyyyu iiiiiba ˆ纵向距离

Page 21: 第三章 回归分析概要

21

距离是度量实际值与拟合值 是否相符的有效手段

• 点到直线的距离——点到直线的垂直线的长度。

• 横向距离——点沿(平行) X轴方向到直线的距离。

• 纵向距离——点沿(平行) Y轴方向到直线的距离。也就是实际观察点的 Y坐标减去根据直线方程计算出来的 Y 的拟合值。

• 这个差数以后称为误差——残差(剩余)。

Page 22: 第三章 回归分析概要

22

最小二乘法的数学原理• 纵向距离是 Y 的实际值与拟合值之差,

差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。

• 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。

• 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。

Page 23: 第三章 回归分析概要

23

数学推证过程

)6(ˆ)5(ˆˆ

)4(

)3(

)2(02

)1(02

minmin

22

22

2

2

22

222

ˆ

ˆ

ˆ

ˆˆ

ˆˆ

xx

yx

yxy

xxx

yxxxyx

xxyuxyu

xbayu

xbayyyu

xyyyu

n

yxnbxbya

b

an

ba

bna

bab

baa

ii

iiii

ba

i

ii

ii

i

ii

i

iiii

ii

iii

i

ii

i

i

i

iiiii

Page 24: 第三章 回归分析概要

24

关于所得直线方程的结论• 结论之一:

• 由( 5 )式,得• 即拟合直线过 y 和 x 的平均数点。

• 结论之二:• 由( 2 )式,得

• 残差与自变量 x 的乘积和等于 0 ,即两者不相关。

两者不相关。

)式,由(

0

ˆ0,cov

002

,ˆˆ

ˆˆ

xu

ba

ba

iixu

xuxxyxyyyu

ii

iiiii

iiiii

xbayxbya ˆˆˆˆ5 )式:由(

Page 25: 第三章 回归分析概要

25

拟合直线的性质• 1.估计残差和为零• 2. Y 的真实值和拟合值有共同的均值• 3.估计残差与自变量不相关• 4.估计残差与拟合值不相关

Page 26: 第三章 回归分析概要

26

1.估计残差和为零( Residuals Sum to zero )

• 由( 1 )式直接得此结论无须再证明。并推出残差的平均数也等于零。

0

00

)1(02

ˆˆ

ˆ

ˆ

ˆˆ2

uu

uxy

xyu

xyyyu

i

i

iii

ii

i

iiiii

n

ba

baa

ba

Page 27: 第三章 回归分析概要

27

2. Y 的真实值和拟合值有共同的均值( The actual and fitted values of yi have t

he same mean )

yy

baba

yyu

uyyuyyxyuxy

ii

i

iiiiii

iiiii

ˆ

01

ˆˆ

ˆˆ

ˆˆˆˆˆ

:性质

Page 28: 第三章 回归分析概要

28

3.估计残差与自变量不相关( Residuals are unrelated with independent varia

ble )

0

0,20

00ˆ1

ˆ,cov

0ˆ,cov011

ˆ,cov

ˆˆˆˆˆ

ˆˆˆ

ˆˆ

ˆˆ22ˆ,

uxuxuxuux

uuxux

uxux

uuxx

ii

iiiiiii

iiiii

iiii

ux

x

xx

xx

xuxn

ux

ux

inin

ux

)式由(

Page 29: 第三章 回归分析概要

29

4.估计残差与拟合值不相关( Residuals are unrelated with fitted value of y

i )

00ˆ0ˆˆˆˆˆ

ˆˆˆˆˆˆˆˆˆ

ˆˆˆˆˆˆˆˆˆˆ

0ˆˆˆ0ˆˆˆ1

ˆ,ˆcov

baubua

ubuaubauy

uyuyuyuyuy

uyyuyyn

uy

xxx

i

ii

Page 30: 第三章 回归分析概要

30

关于回归直线性质的总结关于回归直线性质的总结

uxuyy iiiiiba ˆˆˆ ˆˆ

残差和 =0平均数相等

拟合值与残差不相关 自变量与残差不相关

注意:这里的残差与随机扰动项不是一个概念。随机扰动项是总体的残差。

Page 31: 第三章 回归分析概要

31

二、极大似然估计法二 、 极 大 似 然 估 计 ( M L 估 计 )

普 通 最 小 二 乘 法 是 根 据 期 望 的 性 质 而 建 立 的 一 种 参 数 估 计 方 法 ,

估 计 过 程 中 并 不 需 要 了 解 模 型 随 机 干 扰 项 的 概 率 分 布 。

如 果 考 虑 随 机 干 扰 项 的 概 率 分 布 , 则 模 型 参 数 也 可 以 根 据 极 大 似

然 原 理 进 行 估 计 , 由 此 而 得 出 的 极 大 似 然 法 ( M a x i m u m l i k e l i h o o d e s t i m a t i o m )

对 于 线 性 回 归 模 型 ( 2 . 1 . 1 4 ) XY , 在 经 典 假 设 之 下 ,

其 随 机 干 扰 向 量 服 从 正 态 分 布 , 即 2,0 N , 这 意 味 着 被 解 释 变 量

向 量 Y 也 服 从 正 态 分 布 , 期 望 为 XYE ,协 方 差 矩 阵 为 2yVar ,

即 Y ∽ 2, X ( 2 . 2 . 1 5 )

Page 32: 第三章 回归分析概要

32

若 记 第 i 各 样 本 观 测 点 的 解 释 变 量 观 测 值 向 量 为

ikiii XXXX ,...,, 21 , 则 该 样 本 观 测 点 上 被 解 释 变 量

的 观 测 值 Y i 的 概 率 密 度 函 数 为 :

2

22/122

2exp2,,

iiii

XYXYf ( 2 . 2 . 1 6 )

因 为 各 样 本 观 测 值 假 定 是 相 互 独 立 抽 取 的 , 所 以 样 本 的 联 合 密 度

函 数 为 :

2

2/2

22121

2exp2

,,/...,...,,

XYXY

XYfYfYfYfYYYf

n

nn

( 2 . 2 . 1 7 )

Page 33: 第三章 回归分析概要

33

此样本联合密度函数是在模型参数 2, 以及解释变量值 X

给定的条件下被解释变量的 n次观测向量 Y 的概率分布, 而一旦

样本被抽出, 则解释变量的观测向量 Y 就成为已知的确定值, 该

样本的联合密度函数就可看作是未知参数 2, 的函数, 即可将

其表示成 2, 的似然函数:

2

2/22

2exp2,/,

XYXY

YXLn

(2.2.18)

由于似然函数(2.2.18) 的值越大, 我们所观测到的样本所出现的

概率密度(2.2.17) 就越大, 所以极大似然准则就是要寻找出使得似然

函数取最大值的未知参数 2, 的估计量. 为此,将似然函数(2.2.18)

的两边取对数, 得到对数似然函数为:

Page 34: 第三章 回归分析概要

34

2

22

2ln

22ln

2,ln

XYXYnn

L

( 2 . 2 . 1 9 )

由 于 对 数 函 数 是 单 调 赠 函 数 , 所 以 使 似 然 函 数 达 到 最 大 的 未 知 参 数

和 2 的 值 也 就 是 使 其 对 数 似 然 函 数 达 到 最 大 的 值 , 而 极 大 化 对 数 似

然 函 数 在 代 数 上 处 理 更 方 便 。 因 此 , 我 们 可 直 接 求 使 得 对 数 似 然 函 数 取

最 大 值 的 未 知 参 数 和 2 的 估 计 量 。

类 似 于 普 通 最 小 二 乘 法 , 先 计 算 对 数 似 然 函 数 2,ln L 对 和 2

的 一 阶 偏 导 数 :

XXYX

L

2

2 1,ln ( 2 . 2 . 2 0 )

422

2

22

,ln

XYXYnL

( 2 . 2 . 2 1 )

Page 35: 第三章 回归分析概要

35

记使对数似然函数 2,ln L 取最小值的和 2 的值为

2~,~ ,则由极值原理可知,值 2~,

~ 就是使得上述导数(2.2.20)

式等于0向量和(2.2.21)等于0的值,即

0~1

2

XXYX (2.2.22)7

0

2

~~

~2 42

XYXYn

(2.2.23)

由此可得,参数和 2 的极大似然估计量分别为:

YXXX 1ˆ~ (2.2.24)

ˆˆ1~2 XYXYn

(2.2.25)

可见,在模型随机干扰项服从正态分布的假定下,回归模型的系数

向量的极大似然估计~也就是其普通最小二乘估计。

而 2~ 并不是 2 的无偏估计。(见教材P30)

Page 36: 第三章 回归分析概要

36

最佳线性无偏估计

最 佳 线 性 无 偏 :

( 一 ) 线 性 无 偏 性

XXXEE 1ˆ

( 二 ) 有 效 性

( 三 ) 一 致 性

Page 37: 第三章 回归分析概要

37

高斯—马尔柯夫定理

在假定 nYDXYE 2, 时,的任一线性函数c 的最小方差线性无偏估计(Best Liner Unbiased Estimator, BLUE)为

c,其中c是任一p+1维常数向量,是的最小二乘估计。

Page 38: 第三章 回归分析概要

38

第三节 拟合优度的评价

Page 39: 第三章 回归分析概要

39

问题的提出• 由最小二乘法所得直线究竟能够对这些点之间

的关系加以反映吗?• 对这些点之间的关系或趋势反映到了何种程度?• 于是必须经过某种检验或者找出一个指标,在

一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。

• 分四个问题进行讨论:平方和分解、方差分析、拟合优度、拟合优度与简单相关系数的关系。

Page 40: 第三章 回归分析概要

40

一、平方和与自由度的分解• 1 、总平方和、回归平方和、残差平方和

的定义• 2 、平方和的分解• 3 、自由度的分解

Page 41: 第三章 回归分析概要

41

1 、总平方和、回归平方和、残差平方和的定义

• TSS 度量 Y自身的差异程度, RSS 度量因变量 Y 的拟合值自身的差异程度, ESS 度量实际值与拟合值之间的差异程度。

uyy

yy

yy

iiiERS

iRSS

iTSS

ˆˆ

ˆ22

2

2

Page 42: 第三章 回归分析概要

42

2 、平方和的分解

ESSRSSTSS

yy

yyy

yRSSESS

yiii

iyii

iii

iTSS

uyuuyuyuyyy

yyyyyyyyyy

yyyyyyy

yyyy

yy

iii

iiiiiiii

iii

iii

iii

000

2

2

2

ˆˆˆˆˆˆˆˆˆˆ

ˆˆˆˆˆˆ

ˆˆˆˆ

ˆˆ

22

22

2

2

Page 43: 第三章 回归分析概要

43

平方和分解的意义• TSS=RSS+ESS

• 被解释变量 Y总的变动(差异) =

• 解释变量 X引起的变动(差异)• +除 X 以外的因素引起的变动(差异)• 如果 X引起的变动在 Y 的总变动中占很大比

例,那么 X很好地解释了 Y ;否则, X 不能很好地解释 Y 。

Page 44: 第三章 回归分析概要

44

3 、自由度的分解• 总自由度

• dfT=n-1

• 回归自由度• dfR=1 (自变量的个数, k元为 k )

• 残差自由度• dfE=n-2

• 自由度分解• dfT=dfR+dfE

Page 45: 第三章 回归分析概要

45

平方和分解图

yy

yy ˆ

160

165

170

175

180

185

140 150 160 170 180 190 200

Y

X

yy ˆ

y

正交分解

yy

yy ˆ

yy ˆ

yy

yy ˆ

Page 46: 第三章 回归分析概要

46

为什么回归平方和是由 X引起的变动

xxtgxxbxbxb

xbaxbayy

xyuyy

iii

i

iiiii

RSS

iRSS

xbayba

222

22

ˆˆˆ

ˆˆˆˆˆ

ˆˆˆ ˆˆˆˆ

yx,

xxi

yyiˆ

yi

xi

A B

C

Page 47: 第三章 回归分析概要

47

二、方差分析

• 模型: y=a+bx+u ==>LS 估计: y^=a^+b^

x

• H0:b=0 HA:b<>0

变异来源 平方和 自由度 均方 F统计量回 归 的 RSS 1 回归方差=RSS/1 F=回归方差/误差方差

剩 余 的 ESS n-2 误差方差=ESS/(n-1)

总 的 TSS n-1

方 差 分 析 表

Page 48: 第三章 回归分析概要

48

关于 F 检验• 零假设 H0 : b=0 备择HA : b<>0

• H0 : b=0 <==>RSS 中的 X 不起作用, RSS 变动无异于随机变动 ==>

• 分子方差与分母方差是一回事 ==>F=1• 如果 F 显著地大于 1 ,甚至 F>F==> 小概率事件发生了,根据小

概率原理,小概率事件在一次试验中是不可能发生的,于是 H0 不成立。就不能认为 X 没有作用。则直线是有意义的。可靠性 =1-

成立成立, HFHss

A

e

r FF

nESS

RSS

F ,1

2

102

2

Page 49: 第三章 回归分析概要

49

三、拟合优度(或称判定系数、决定系数)

• 目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣。

• 拟合优度的定义:

• 意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。

• 取值范围: 0-1

TSS

ESS

TSS

RSSTSS

ESS

TSS

RSSESSRSSTSS

R

1

1

2

Page 50: 第三章 回归分析概要

50

拟合优度与 F 统计量之间的联系

• F 显著 ==>拟合优度必然显著

R

R

ss

k

knF

TSSRSSTSS

k

TSSRSS

kn

RSSTSSk

RSSkn

kESS

RSSknF

knESSk

RSS

Fe

r

2

2

2

2

1

1

1

)(

11

1

Page 51: 第三章 回归分析概要

51

四、拟合优度等于实际值与拟合值之间简单相关系数的平方

拟合得约好。说明

的相关程度的,与实际的一样,也是说明拟合的和

分母分子

分子

分子中的

分母

y

yyR

R

RSSnRSS

n

yuyyyuyy

yuyyuyyy

yyyy

yyyyn

i

iiyy

yy

iiiiii

iiiiiiii

yy

TSS

RSS

RSSn

TSSn

RSSyiyyy

yyyyyy

RSSn

TSSn

inin

ii

ˆ

ˆ

11

ˆˆˆˆˆˆˆ

ˆˆˆˆˆˆˆ

ˆ

ˆ1

22

ˆ,

2

2

2

ˆ,

2

2

22

2

2

ˆ,

11

0

1111

Page 52: 第三章 回归分析概要

52

第四节各回归系数的显著性检验

• 上述由回归方差分析给出的 F 检验是对整个线性回归模型的检验,即使我们 在上述检验中否定了原假设 H0 : Bi=0 ,也并不意味着每个解释变量都对被解释变量有显著的影响。因此,还必须对模型中每个解释变量的重要性,即解释变量对被解释变量是否有显著性的影响进行检验。

Page 53: 第三章 回归分析概要

53

• 对于一般线性回归模型,要检验某个解释变量 Xi 是否对被解释变量 Y 有显著的影响,可建立原假设和备择假设为:

• H0 : Bi = 0 ; H1:Bi 不等于 0

• (见教材 P40-41 )

Page 54: 第三章 回归分析概要

54

复习与提高

y=a+bx+u

xn+1 yn+1

xn yn

x2 y2

x1 y1

根据已知样本采用 LS得一拟合直线

拟合直线性质 :

残差和 =0

残差与自变量无关

拟合值与残差值无关

两个平均数均值相等

R20

TSS RSS ESS

R2

R21用直线反映总体

Good ?no

Yes

Page 55: 第三章 回归分析概要

55

案例分析一:教学指导书 P20

• 教学目的:1.掌握普通最小二乘法2.掌握回归方程的拟合优度的判断3.掌握回归方程的显著性检验。

Page 56: 第三章 回归分析概要

56

• 例 1 下表是某地区 10户家庭人均收入( X )和人均食物消费支出( Y )的数据。

• 试根据表中数据• ( 1 )用普通最小二乘法估计该地居民家庭食物消费支出的回归直线 .

• ( 2 )计算判定系数 R2 ,说明回归方程的拟合优度。

• ( 3 )在 5% 的显著性水平下,对回归方程进行显著性检验。

Page 57: 第三章 回归分析概要

57

Y X

70 80

65 100

90 120

95 140

110 160

115 180

120 200

140 220

155 240

150 260

Page 58: 第三章 回归分析概要

58

Y X XY x2 Y ei y2

1 70 80 5600 6400 65.18 4.8181 4900

2 65 100 6500 10000 75.36 -10.36 4225

3 90 120 10800 14400 85.54 4.4545 8100

4 95 140 13300 19600 95.72 -0.727 9025

5 110 160 17600 25600 105.9 4.09 12100

6 115 180 20700 32400 116.1 -1.091 13225

7 120 200 24000 40000 126.3 -6.273 14400

8 140 220 30800 48400 136.5 3.545 19600

9 155 240 37200 57600 146.6 8.364 24025

150 260 39000 67600 156.8 -6.812 22500

∑ 1110

1700

205500

322000

1110 0 132100