第二章 一元线性回归模型

155
第第第 第第第第第第第 第 第第第第第第第第第 . 第第第第第第第第第第第 : 第第第第第第第第第 第第 第第第第第第 第 第第第第第第第 ,体,一; 第第第 第第第第第 一统 第第第第第第第第第第第第第第第第第第第第第第第 第第第 第第第第第第第 。,, 第第第 X 第第第第 Y 第第第第第 第第第第第第第第第第第第第第第第第第第第第第第第第第第 第第 第第第第第第第 X 第第第第 Y 第第第第第

Upload: chelsi

Post on 14-Jan-2016

162 views

Category:

Documents


2 download

DESCRIPTION

第二章 一元线性回归模型. 第一节 相关分析和回归分析 一 . 经济变量之间的相互关系 : 经济变量之间的关系,大体可分为两类,一类是函数关系;另一类是统计相关关系 函数关系是指变量之间存在着完全确定性的依存关系 。例如,当价格不变时,销售量 X 与销售额 Y 之间的关系。 相关关系是指现象之间客观存在的非确定 性数量对应依存关系 。 例如,每亩耕地的施肥量 X 与亩产量 Y 之间的关系 。. 函数关系与相关关系联系. 两者虽有明显区别,但两者之间并无严格的界限,由于存在测量误差等原因,函数关系在实际中往往通过相关关系 表现 出来 ; - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第二章 一元线性回归模型

第二章 一元线性回归模型第一节 相关分析和回归分析一 . 经济变量之间的相互关系 : 经济变量之间的关系,大体可分为两类,一

类是函数关系;另一类是统计相关关系 函数关系是指变量之间存在着完全确定性的依存

关系 。例如,当价格不变时,销售量 X 与销售额Y 之间的关系。

相关关系是指现象之间客观存在的非确定性数量对应依存关系 。例如,每亩耕地的施肥量 X 与亩产量 Y 之间的关系 。

Page 2: 第二章 一元线性回归模型

函数关系与相关关系联系

两者虽有明显区别,但两者之间并无严格的界限,由于存在测量误差等原因,函数关系在实际中往往通过相关关系表现出来 ;

在研究相关关系时,若要找出现象间数量的内在联系和表现形式,往往又需要借助函数关系的形式来加以描述 ;

因此,可以说,相关关系是相关分析的研究对象,函数关系是相关分析的工具。

Page 3: 第二章 一元线性回归模型

二、相关分析

研究一个变量与另一个(组)变量之间相关方向和相关密切程度的一种统计分析方法。相关分析目的:明确变量之间有无关系,确定相关关系的表现形式(曲线与直线),判定相关关系的方向,测定相关关系的密切程度等。

Page 4: 第二章 一元线性回归模型

( 一 ) 、相关关系的分类

1. 从变量之间相互关系的方向来看,可以成为正相关与负相关;

2. 按相关关系涉及的变量(或因素)的多少,可分为单相关与复相关、偏相关;

3. 按变量之间相关关系的表现形式来看,可以分成为直线相关和曲线相关;

4. 按相关的程度来分,可以分为不相关,不完全相关和完全相关三类;

函数关系是相关关系的一种特殊情况。

Page 5: 第二章 一元线性回归模型

(二)相关关系的度量 在相关分析中,通过绘制相关表和相关图,可以对

现象之间存在的相关关系的方向、形式和密切程度作直观的、大致的判断。

1. 相关表:将现象之间的相关关系,用表格来反映,这种表称为相关表,分为简单相关表和分组相关表。例如,某农场试验田在七次试验中,获得的小麦产量与施肥量的观察资料

表 2-1 施肥量与小麦产量的观察数据

试验顺序 1 2 3 4 5 67

X 施肥量(斤 / 亩) 15 25 30 36 44 50 55

Y 小麦产量(斤 /亩) 380

420

410430

450470

490

Page 6: 第二章 一元线性回归模型

2. 相关图:

将变量之的关系,通过图形来表示,这种图形为相关图。又称为散点图,通过相关图,可以大致看出两个变量之间有无相关关系、相关的形态、方向及密切程度。

图 2-1 相关散点图

350

400

450

500

10 20 30 40 50 60

X

Y

Page 7: 第二章 一元线性回归模型

3.相关系数通过线性相关图、表可以通过线性相关图、表可以粗略地粗略地观察两个变量之间观察两个变量之间

相互关系的类型、方向以及相关的密切程度,但无相互关系的类型、方向以及相关的密切程度,但无法法确切地确切地表明两个变量之间线性相关的程度。表明两个变量之间线性相关的程度。

英国著名统计学家卡尔英国著名统计学家卡尔 ··皮尔逊(皮尔逊( Karl PearsoKarl Pearsonn )) 18901890 年设计了一个用于测定两个变量之间线年设计了一个用于测定两个变量之间线性相关程度和相关方向的性相关程度和相关方向的指标指标——简单相关系数简单相关系数 ,, 也也称为称为 PearsonPearson 相关系数相关系数。。

(( 11 )相关系数的定义)相关系数的定义 (( 22 )相关系数的计算)相关系数的计算 (( 33 )根据相关系数初步判定变量之间的关系)根据相关系数初步判定变量之间的关系 (( 44 )简单相关系数的缺陷)简单相关系数的缺陷

Page 8: 第二章 一元线性回归模型

( 1 )相关系数的定义

X

Y

离差 XXx

YYy

在Ⅰ、Ⅲ象限:

0))(( xyYYXX

0))(( xyYYXX

在Ⅱ、Ⅳ象限:

( x, y 符号相同)

( x, y 符号相反)

Page 9: 第二章 一元线性回归模型

判断如果所有的观测值落在Ⅰ、Ⅲ象限,离差之积 为正,则 X、 Y 为正相关,如果所有观测值在Ⅱ、Ⅳ象限,离差之积 为负,则 X, Y 为负相关,如果所有的观测值散落在四个象限内,则正的和负的乘积 趋于互相抵消,其乘积之和将趋于 0 。

如果所有变量值 X和 Y 与其平均数的离差乘积之和为正,则 X和 Y 之间就是正相关。用符号表示为:

如果所有变量值 X和 Y 与其平均数的离差乘积之和为负,则和之间是负相关。用符号表示为:

0))(( xyYYXX

0))(( xyYYXX

xy

xy

xy

Page 10: 第二章 一元线性回归模型

缺点: 离差乘积之和 提供了 X和 Y

之间的一个相关度量。但是,这样来度量相关关系,只能表示相关方向,要表示具体相关程度还有缺点:

① 受观测值数目 n影响,观测值数目 n越多, 越大,相关程度越强;

② 受 X, Y 计量单位的影响,如果将X和 Y 的单位改为吨,则 X, Y 数值就更小,同样观测值,相关度量结果不同。

xy

xy

xyYYXX ))((

xy

Page 11: 第二章 一元线性回归模型

为了克服第①个缺点 用观测值数目 n除∑ xy ,即 叫做 X和 Y 的协方差,协方差不仅能直接显示 X与 Y 是正相关还

是负相关;而且能反映 X与 Y 两个变量的“共变性”。

Sxy 消除了样本单位数多少的影响,但仍然受观测值计量单位的影响;

xySn

xy

Page 12: 第二章 一元线性回归模型

为了克服第②缺点 给协方差除以 X, Y各自的标准差:

Sx , Sy

这样便可消除变量计量量单位的影响。标准差 Sx和 Sy 的作用,在于对 X, Y 与各自平均数的离差,分别用各自的标准差为尺度,加以标准化,然后再求标准差的协方差,用符号 表示,即:

n

x

n

XX 22)(

n

y

n

YY 22)(

r

n

Sy

YY

Sx

XX

r

相关系数定义式

Page 13: 第二章 一元线性回归模型

皮尔逊相关系数的最简式

YYs

XXs

ssr

i

i

n

n

n

YYXXS

S

Y

X

XY

YX

XYyx

2

2

,

1

1

))((其中:

Page 14: 第二章 一元线性回归模型

2.相关系数的计算

2 2

2 2

( )( ) /

1 12 2

( )( )

( ) ( )

XY

X Y

Sr

S S

X X Y Y n

Y Y X Xn n

X X Y Y

X X Y Y

xy

x y

积差式

Page 15: 第二章 一元线性回归模型

n

YXXYn

YXnXY

YXnYXnYXnXY

YXXYYXXY

YXXYYXXY

YYXXxy

)(

))((

Page 16: 第二章 一元线性回归模型

n

XXn

XnX

XnXnX

Xnn

XXnX

XnXXX

XXXX

XXx

22

22

222

22

22

22

22

2

2

2

2

n

YYnYnYYYy

222222 )(

同理:

Page 17: 第二章 一元线性回归模型

相关系数简捷式

2222

2222

22

)()(

)(

YYnXXn

YXXYn

n

YYn

n

XXn

nYXXYn

yx

xy

SS

Sr

YX

XY

2222 YYXX

YXXYr

相关系数平均式

Page 18: 第二章 一元线性回归模型

4.等级相关系数也称为斯皮尔曼 (Spearman) 相关系数,用来

度量定序变量之间的线性相关关系,就是把有联系的定量变量或定性变量的具体表现按等级次序排列,形成两个定序数列,再测定标志等级与标志等级间的相关程度的一种方法,等级相关法又称顺位相关法 .

用 rs表示。

式中, n 为样本容量, D 为序列等级之差 ,即

d=X 等级 -Y 等级 。 Spearman 相关系数的适用范围较 Pearson 相关系数要广得多。

)1(

61

2

2

nn

Drs

sr

Page 19: 第二章 一元线性回归模型

(三)相关系数的范围1. 相关系数的绝对值不超过 1 ,即 |r|≤1 2. 根据相关系数的符号,判定正相关(正比例) r

>0 、负相关(反比例) r<0.3. 根据相关系数的大小,判定:①当 r= 0 时,称为不相关。或者不存在直线相关,

但可能存在其他类型的关系。②当 0 < |r| ≤ 0.3 时, 称为微弱相关。③当 0.3 < |r| ≤ 0.5 时,称为低度相关。④当 0.5 < |r| ≤ 0.8 时,称为中度相关。⑤当 0.8 < |r| < 1 时,称为高度相关。⑥当 |r| =1 ,完全相关,即所有散点完全在一条

直线上,也就是函数关系。

Page 20: 第二章 一元线性回归模型

正相关(我国人均消费函数)

X 为我国人均国民收入, Y 为我国人均消费,

相关系数: 0.98200

400

600

800

1000

1200

0 500 1000 1500 2000 2500

Y

X

Page 21: 第二章 一元线性回归模型

负相关

Y与 X 的相关系数: -0.92

20

30

40

50

60

70

80

0 10 20 30 40

Y

X

Page 22: 第二章 一元线性回归模型

不相关(不排除存在曲线相关)

相关系数为:4.24E-18

-60

-40

-20

0

20

40

60

-60 -40 -20 0 20 40 60

Y

X

Page 23: 第二章 一元线性回归模型

( 四 ) 相关分析的特征 ⑴. 两个变量是对等关系,不分彼此,不反

映任何自变量和因变量的关系,互换顺序是一样的,是双向的关系。

⑵. 相关系数的范围是 -1≤r≤1 ,其值大小反映两变量间相关的密切程度,正负号表示正相关或负相关,其值的大小与尺度无关。

⑶. 两个变量都是随机变量,这也反映对等关系。而且相关关系要以定性分析为前提,不然就会出现“虚假相关”。

Page 24: 第二章 一元线性回归模型

( 五 ) .简单相关系数的缺陷

(( 11 )只能度量两个变量之间呈)只能度量两个变量之间呈线性线性相关相关————比比例变化的关系,当例变化的关系,当 |r||r|很小甚至等于很小甚至等于 00 时,不一时,不一定表明定表明 XX与与 YY 之间就不存在其他之间就不存在其他非线性非线性类型的类型的关系关系

(( 22 )只能算出一个相关系数;)只能算出一个相关系数; rr 表明两变量之表明两变量之间的线性关系,只表明间的线性关系,只表明协变协变的存在,不揭示变异的存在,不揭示变异的原因,不能确定变量之间的的原因,不能确定变量之间的因果因果关系。关系。

(( 33 )简单相关系数只适用于)简单相关系数只适用于两个两个变量之间的变量之间的相关关系,所以称为简单相关系数若变量为三个相关关系,所以称为简单相关系数若变量为三个或三个以上时,就要用或三个以上时,就要用复复相关系数计算。相关系数计算。

Page 25: 第二章 一元线性回归模型

( 4 )偏相关系数大千世界中复杂的、多种因素存在相互关联。为

了描述其间的关联,这里定义的相关系数虽然比协方差指标优越,但是仍然存在不足之处:它裹胁了其它变量的影响或者它们之间的关系乃是其它变量的变化所致 .

要剔除其它变量的影响,只研究指定两个变量的影响,必须再定义偏相关系数——令其它变量保持不变,此时这两个变量的相关系数,称为偏相关系数。

Page 26: 第二章 一元线性回归模型

总体相关系数两个变量 X和 Y 之间真实的线性相关程度是

用总体相关系数表示的。总体相关系数为:

式中, 分别是总体 X和 Y 的协方差, X 的总体标准差和 Y 的总体标准差。

由于总体未知,无法计算,我们可以利用样本观测值的相关系数 r给出 的一个估计 ,即样本相关系数 r 是总体相关系数的估计值。

22

),cov(

yx

YX

yxyx ,),,cov(

Page 27: 第二章 一元线性回归模型

三、回归分析

回归分析的主要内容: ( 一 ).回归的含义及特点 ( 二 ).回归分析与相关分析的联系 ( 三 ).回归分析的基本概念 1.总体回归函数 2.总体回归模型 3. 样本回归函数 4. 样本回归模型

Page 28: 第二章 一元线性回归模型

( 一 ).回归的含义

回归分析的产生的历史回归分析法最早由著名的英国生物学家、统计学

家高尔登( F.Gallton)——达尔文的表弟所创。早年,加尔顿致力于化学和遗传学领域的研究。

1889 年高尔登和他的朋友 K.Pearson收集了上千个家庭的身高、臂长和腿长的记录,企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式,在研究父亲们的身高与儿子们的身高之间的关系时,主要是想由此来探讨人口的平均身高具有稳定性的原因,建立了回归分析法。

Page 29: 第二章 一元线性回归模型

1.“ 回归”一词的由来“回归” ——见 1889年 F.Gallton 的论文《普用回归定律》。

他在研究中发现;一群高个子的父亲的子女的平均高度要低于其父辈的平均身高,一群矮个子父亲的子女的平均身高要高于其父辈的平均身高。

或者说,高个子父亲的子女的平均高度与矮个子父亲的子女的平均高度都有“回归”到全体父辈的平均高度的倾向(趋势),

用高尔登的话说,这是“回归到中等”。

Page 30: 第二章 一元线性回归模型

2. 回归分析的现代含义:

现在回归分析法已远非高尔登的本意,而是研究子女的平均身高如何随着其父亲身高的变化而变化,即研究子女的平均身高对父亲身高的依赖性。并探讨如何根据父亲的身高,来预测和估计子女的平均身高。

对于“父亲身高”的每一水平,相应得到的是“子女身高”的一个分布(这可以通过重复抽样得到) 。而且,随着“父亲身高”的增加,子女的平均身高也在增加,可用一条直线近似地似合这些平均值点。如下图:

Page 31: 第二章 一元线性回归模型

Y

X160

165

170

175

180

185

140 150 160 170 180 190 200

Y

X

儿子们身高向着平均身高“回归”以保持种族的稳定

这条直线近似地反映了子女身高对父亲身高的依赖程度,而回归分析所要研究的就是这种依赖性。

Page 32: 第二章 一元线性回归模型

再例如

家庭的消费支出与家庭收入有着密切的关系,而回归分析所要研究的就是家庭的平均消费支出如何随着家庭收入水平的变化而变化,以及对应于每一个特定的家庭收入水平,其相应的平均消费支出水平是多少。

回归分析用以找出变量之间关系的具体表现形式,成为探索变量之间关系的最重要方法。

Page 33: 第二章 一元线性回归模型

3. 回归分析的定义 研究一个变量(被解释变量或因变量)对

一 个 或 多 个 其他变 量 (解释变 量 或自变量)的依赖关系,其目的在于根据已知的或固定解释变量的数值,来估计或预测被解释变量的总体平均值。

这个定义归纳起来为两点:一是研究被解释变量对解释变量的依赖关系,采用的方法是配合直线或曲线。二是研究目的是用解释变量的值来预测或估计总体的平均值。

Page 34: 第二章 一元线性回归模型

4. 回归分析的分类回归分析是指对具有相关关系的变量,依据其关

系的形态,选择一个合适的数学模型(回归方程),用来近似地表示变量间数量平均变化关系的一种统计方法。

按分析变量的多少,可以分为一元回归分析与多元回归分析;

按分析变量间表现形态不同,可以分为线性回归分析与非线性回归分析等。

本章仅讨论只有一个自变量的一元线性回归分析的有关理论与方法。

Page 35: 第二章 一元线性回归模型

5. 回归分析的特点

①两个变量之间不是对等关系。即必须根据研究目的,确定其中一个是自变量,另一个是因变量;是单向关系。②回归方程反映的是变量间的具体的变动关系,不

是抽象系数,在 X, Y 两个变量中,从方程式看,存在着两个回归式,是两条斜率不同的回归直线,其意义是不同的。其回归系数有正负号,表示两个变量变动的方向,大小表示在单位一定的情况下意义是明确的。③回归分析对资料的要求是,因变量是随机变量,而自变量是可控制的变量,是给定的数值。

Page 36: 第二章 一元线性回归模型

( 二 ).相关分析与回归分析关系相关分析是回归分析的基础和前提。如果缺少相关

分析,没有从定性上说明现象之间是否具有相关关系,没有对相关关系的密切程度作出判断,就不能进行回归分析,即使勉强进行了回归分析,也是没有意义的。

回归分析是相关分析的深入和继续。仅仅说明现象间具有密切的相关关系是不够的,只有进行了回归分析,拟合了回归方程,才可能进行有关的分析和预测,相关分析才有实际的意义

Page 37: 第二章 一元线性回归模型

回归分析和相关分析与因果关系

回归分析是在相关分析和因果关系分析的基础上,去研究解释变量对应变量 (被解释变量 ) 的影响。

因果关系是指两个或两个以上变量在行为机制上的依赖性,即指一个(或一组)变量直接影响、决定另一个变量的水平,因果关系确立的前提是必须对经济行为进行定性分析和理论上的思考。

具有因果关系的变量之间一定具有数学上的相关关系,有相关关系的变量之间并不一定具有因果关系,因此,回归分析正是研究具有因果关系的相关关系。

Page 38: 第二章 一元线性回归模型

( 三 ).回归分析的基本概念

回归分析是研究一个变量(被解释变量)对一个或多个其它变量(解释变量)的依存关系;

由于统计相关的随机性,回归分析关心的是当一个或多个其它变量(解释变量)取某个确定值(条件)时,与之相关的另一个变量(被解释变量)所有可能出现的对应值的平均值。

例如研究家庭消费支出对家庭可支配收入的依存关系:

Page 39: 第二章 一元线性回归模型

例 : 60户家庭可支配收入和消费支出情况

每月家庭消费支出

Y

Y 的条件均值

)|( iXYE

家庭每月可支配收入 X (元)

800 1000 1200 1400 1600 1800 2000 2200 2400 2600

每月家庭消费支出 Y

(元 )

550 650 790 800 1020 1100 1200 1350 1370 1500

600 700 840 930 1070 1150 1360 1370 1450 1520

650 740 900 950 1100 1200 1400 1400 1550 1750

700 800 940 1030 1160 1300 1440 1520 1650 1780

750 850 980 1080 1180 1350 1450 1570 1750 1800

— 880 — 1130 1250 1400 — 1600 1890 1850

— — 1150 — — — 1620 — 1910

650 770 890 1010 1130 1250 1370 1490 1610 1730)|( XYE

Page 40: 第二章 一元线性回归模型

不同收入水平的家庭消费支出散点图

Page 41: 第二章 一元线性回归模型

1. 总体回归函数由散点图可以看出,均值点恰好都落在一条直线上,

称这条描述条件均值变化情况的直线为总体回归直线(函数)。

一般地,对应每一个收入水平 X ,都可以得到一个Y 的条件均值,说明 E(Y/x)是 x 的一个函数,用公式表示即为:

E( Y/Xi) =f( Xi ) ( 2-10 ) 称( 2-10 )式所代表的函数为总体回归函数,常记为 PRF( Population Regression Function )

PRF 描述了总体的平均变化情况。总体回归函数具体取什么函数形式,需要根据实实践经验和经济理论来确定,最简单的是线性总体回归函数。

ii X)X|Y(E 10

Page 42: 第二章 一元线性回归模型

2.随机扰动项 总体回归函数只是描述了总体变化情况,也就是说,回归直线只是在其它条件保证不变的情况下,代表平均消费和收入之间的精确关系(函数关系)

但就个别家庭来说,其消费支出就不全在这条直线上,而是围绕着这条直线上下波动,与该点的均值产生一个偏差。为了更完善地描述个别家庭消费者支出的变化情况,特引进一个变量 。

( 2-11 ) 偏差 ui 是一个不可观测的、可正可负的随机变量,

在计量经济学中称作随机扰动项( stochastic disturbance )或随机误差项( stochastic error )

iu

iE Y / Xi iu Y ( )

Page 43: 第二章 一元线性回归模型

3. 总体回归模型 引入随机扰动项 ui 之后,对应每一个可支配收入

Xi 值就有多个家庭的消费支出 Yi 值,亦即 Yi 的值有一个概率分布,而不是一个确定的单一值,所以,其关系表示为:

( 2-11 ) 称 ( 2-11 ) 式 为 总 体 回 归 模 型

( PRM , Population Regression Model )( 2-11 )式表明,给定可支配收入水平 Xi ,个别

家庭的消费支出 Yi 由两部分组成:一部分是 ,即由 X 的变化所引起的 Yi (平均)变化部分,另一部分来自未包括在模型中的诸多随机性因素的综合影响部分。

0 1 i( / ) Xi i i i iY Y X u u

0 1 i( / ) XiE Y X

Page 44: 第二章 一元线性回归模型

在计量经济学中,可以这样来解释变量间联系的真实关系,如果其他条件都保持不变,则 Y 的变化完全可以由 X 的变化来解释。但是,在实际经济现象中,其他因素不能不保持不变,因此,在函数中引进随机扰动项,用来说明未明显包括在函数中的其他变量的变化。

误差的随机性使得 Y与 X 之间呈现出一种随机的因果关系,由于经济变量之间大多数量是不确定的相关关系,因此,用这种形式描述经济关系更加准确。

随机扰动项 ui 具有非常丰富的内容,起着重要的作用,随机扰动项的性质决定着计量经济方法的选择和使用,因此,将要专门讨论随机误差项的特性。

随机扰动项意义:

Page 45: 第二章 一元线性回归模型

4.样本回归函数( SRF) 随机样本(一)消费支出 Y(元 )

700 650 900 950 1100 1150 1200 1400 1550 1500

可支配收入 X(元 )

800 1000 1200 1400 1600 1800 2000 2200 2400 2600

随机样本(二)消费支出 Y(元 )

550 880 900 800 1180 1200 1450 1350 1450 1750

可支配收入 X(元 )

800 1000 1200 1400 1600 1800 2000 2200 2400 2600

Page 46: 第二章 一元线性回归模型

例图

Page 47: 第二章 一元线性回归模型

4. 样本回归函数为了反映总体的变化情况,我们只能由样本“信息”来估计总体,根据样本资料所做出的,用以估计总体回归函数的函数,就称为样本回归函数,记为 SRF( Sample Regression Function )。

显然,样本回归线的函数形式应与总体回归线的函数形式一致。若是总体回归线为 ,

则样本回归线可表示为: ( 2-12 )其中 是样本回归线上与 X 相对应的值,可视为总

体条件均值的估计; 是样本回归函数的截距系数, 是样本回归函数的斜率系数。

iY

0

1

ii XˆˆY 10

Page 48: 第二章 一元线性回归模型

5. 样本回归模型 由于随机性,实际观测到的被解释变量值,并不

完全等于其样本条件均值,也即散点图中,样本点与其样本回归直线之间的距离,叫做剩余项或残差( residual ),记作 ei ,那么:

从概念上讲, ei与 ui 类似,代表了其他影响 Yi随机因素的集合,因此可以看出 ui 的估计量,从而有

即 ( 2-13 ) ( 2-13 ) 式 称 为 样 本 回 归 模 型 Sample

Regression Model, 简记为 SRM 。

iii YYe ˆ

iii eYY iii eXˆˆY 10

Page 49: 第二章 一元线性回归模型

样本回归函数与总体回归函数的关系

进行回归分析的主要目的,就是要根据样本回归模型作出对总体回归模型的估计,在所举家庭收入的例子中,也就是要用

来估计 更确切地,就是根据有可能获得的样本回归函数对总体回归函数做出合理的估计

可是,样本终究不等于总体,样本回归函数 SRF几乎总是和总体回归函数 PRF 存在着差异,这从图 2.6 可以清楚看出,

iii eXˆˆY 10 iii uXY 10

Page 50: 第二章 一元线性回归模型
Page 51: 第二章 一元线性回归模型

样本回归函数与总体回归函数的区别

首先,总体回归模型描述总体中变量 Y与 X 之间的关系,总体回归函数虽然未知,但它是确定的( 一条 ); 样本回归模型描述所观测的样本中变量 Y与 X 之间的关系,而由于从总体中每次抽样都能获得一个样本,就都可以拟合一条样本回归线;

对于不同的样本 , 由于样本波动,所得的拟合直线也不同,因此,样本回归线是随抽样波动而变化的,是不确定的,可以有许多条,所以,样本回归线还不是总体回归线,至多只是未知的总体回归线的近似反映。

Page 52: 第二章 一元线性回归模型

样本回归函数与总体回归函数的区别

其次,总体回归函数是依据总体全体观测资料建立的,其参数 是确定的常数 ;而样本回归函数依据样本观测资料建立的,参数 是随抽样而变化的随机变量。

再次,总体回归函数中的 是不可直观测的 ;而样本回归函数中的 ei 是只要估计出样本回归的参数就可以计算的值。

总之,由于样本对总体存在代表性误差,样本回归函数几乎总是与总体回归函数存在差异 。

iu

Page 53: 第二章 一元线性回归模型

图中 : A 点左边部分 SRF 过低估计了 PRF , A 点右边部分义过高估计了 PRF 。

Page 54: 第二章 一元线性回归模型

第二节 回归模型的参数估计

一、普通最小二乘估计二、拟合直线的性质三、回归模型的基本假定四、 OLS估计式的特性五、参数的估计误差与置信区间

Page 55: 第二章 一元线性回归模型

一 . 普通最小二乘估计( Ordinary Least

Square) 简称 OLS )

Page 56: 第二章 一元线性回归模型

问题的提出——必要性通过相关系数或协方差证实变量之间存在

关系,仅仅只是知道变量之间线性相关的性质——正(负)相关和相关程度的大小。

既然它们之间存在线性关系,接下来必须探求它们之间关系的具体表现形式是什么?

最好用数学表达式将这种关系尽可能准确、严谨的表示出来—— Y=β0+β1X+u——把它们之间的内在联系挖掘出来。也就是直线中的截距 β0=?;直线的斜率 β1=?

Page 57: 第二章 一元线性回归模型

解决问题的思路——可能性由于 Y=β0+β1X+u 中的截距 β 0和斜率 β 1不可能

得到,只能获得来自于总体的样本,假设从总体中 获取了 一 组 ( Xi , Yi ) 的 样本观 察 值( X1, Y1 ),( X2, Y2 ),…,( Xn , Y

n );于是,可采用不同的方法确定样本回归直线以拟合样本观察值 , 寻找变量之间直线关系的方法很多,比如直观画线法,几何划线法(两点连线),半数平均法等;

那么如何从这些曲线中选择一条最佳拟合直线?

Page 58: 第二章 一元线性回归模型

最小二乘法的思路

1.为了精确地描述 Y与 X 之间的关系,必须使用这两个变量的每一对观察值,才不至于以点概面。

2.在 Y与 X 的散点图上画出直线的方法很多。任务?——找出一条能够最好地描述 Y与 X (代表所有点)之间的直线。

3.什么是最好?—找出判断“最好”的原则。

直观地 , 从几何意义上讲,应该使样本回归曲线尽量靠近这些数据点。

Page 59: 第二章 一元线性回归模型

三种距离Y

X

纵向距离

横向距离

距离

YX iiA ,

YX iiB ˆ,

A 为实际点, B 为拟合直线上与之对应的点

XYYYe iiiii纵向距离 10

ˆˆˆ

Page 60: 第二章 一元线性回归模型

距离是度量实际值与拟合值是否相符的有效手段

点到直线的距离——点到直线的垂直线的长度。横向距离——点沿(平行) X轴方向到直线的距离。

纵向距离——点沿(平行) Y轴方向到直线的距离。也就是实际观察点的 Y坐标减去根据直线方程计算出来的 Y 的拟合值。即是 Y 的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。

Page 61: 第二章 一元线性回归模型

最小二乘法的数学原理

最好也就是使剩余 ei (或残差)都很小,可是,因为 ei 有正有负,简单代数和 相互抵消

将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线“拟合总误差达到最小”;公式:

于是可以运用微分学中求极小值的原理,将求最好拟合直线问题转换为求误差平方和最小。

最小 210

2 )ˆˆ( XYe

ie

Page 62: 第二章 一元线性回归模型

数学推证过程最小二乘法原理:要求各个散点到回归直线的离差

的平方和最小。即               ( 2-19 ) 是 的二次函数并且是非负的,连续可微的,所以存在极小值;

根据微分学分别对 求一阶偏导数,并令其等于零,就可以得到求 的正规方程

210

210

2 )ˆˆ(min)ˆˆ(minmin iiiii XYXYe

02

012

101

2

100

2

)X()XˆˆY(ˆe

)()XˆˆY(ˆe

iiii

iii

210

ˆˆiiii XXYX

ii XnY 10ˆˆ

10 ˆ,ˆ

10 ˆ,ˆ

210

2 )ˆˆ( XYe 10 ˆ,ˆ

Page 63: 第二章 一元线性回归模型

解方程根据正规方程,可解得 , 如下:

称为回归参数的最小二乘估计式( Ordinary Least squares Estimator )简称为 OLSE

其中: n 为样本容量,

10

XYXYn ii 110

ˆ)(1ˆ

2222

2

1)(

ˆXnX

YXnYX

XXn

YXYXn

X

X

X

n

YXX

Yn

i

ii

ii

iiii

i

i

i

iii

i

n

YY

n

XX

,

Page 64: 第二章 一元线性回归模型

回归系数 与相关系数 r 关系如果用变量值 X和 Y 与其平均数的离差形式表示 ,

则:

1

Sx

Syr

nXX

nYY

r

x

yr

yxx

yxy

xx

xy

x

yx

XX

YYXX

i

ii

i

ii

2

2

2

2

222

2

22221

)(

)(

)(

))((

22 yx

xy

sns

)YY)(XX(r

yx

Page 65: 第二章 一元线性回归模型

二、拟合直线的性质

1.样本回归直线经过样本均值点2.估计残差的均值为零3. Y 的真实值和拟合值有共同的均

值4.估计残差与自变量不相关5.估计残差与拟合值不相关

Page 66: 第二章 一元线性回归模型

1.样本回归直线经过样本均值点

根据正规方程 :

两边同除以 n 得:

因此有:所以样本回归线 必然通过均值点( 

  )

ii XnY 10ˆˆ

ii Xn

Yn

1ˆˆ1

10

XY 10ˆˆ

YX ,ii XˆˆY 10

02

02

10

10

0

iiii

iiii

X)XˆˆY(ˆe

)XˆˆY(ˆe

Page 67: 第二章 一元线性回归模型

2.估计残差和为零( )

因为

所以即:

0)ˆˆ(2ˆ

)(10

0

2

ii

i XYe

0)ˆˆ( 10

n

e

n

XY iii

0

n

ee i

i

)XeX)XˆˆY(

e)XˆˆY(

iiiii

iii

0等价于 (0

) 0 等价于 (0

10

10

02

02

10

10

0

iiii

iiii

X)XˆˆY(ˆe

)XˆˆY(ˆe

0e

Page 68: 第二章 一元线性回归模型

3 . Y 的真实值和拟合值有共同的均值( )

因为 而

所以

这说明,对 的每一个预测值都可估计出 ,由各个样本观测值所估计的 的均值与实际样本观测值 的均值 相等。

0ie iii eYY ˆ

n

e

n

Y

n

Y iii

ˆ

ii YY ˆ

ii YY ˆ

iXiY

iY

iY Y

Page 69: 第二章 一元线性回归模型

4 .估计残差与自变量不相关( )

n

eX

n

eXeX

n

eXeX

n

eXX

n

eeXXeX

iiiii

iiiii

iiii

i

i

)(

))((),cov(因为

由最小二乘法( 2-21)式知: 0 ii Xe

所以: 从而 ,说明 不相关0),cov( ii eX ii eX 与

0),cov( ii eX

Page 70: 第二章 一元线性回归模型

5.估计残差与拟合值不相关( )0),ˆcov( ii eY

00011

11

11

11

11

)(ˆn

)eXeX(ˆn

e)XX(ˆn

e)]XX(ˆ[n

e)YY(n

)ee)(YY(n

)e,Ycov(

iii

iiii

iiiiii

由此可见, 不相关 ii eY与ˆ

Page 71: 第二章 一元线性回归模型

关于回归直线性质的总结关于回归直线性质的总结

eXeYY iiiiiba ˆˆˆ

残差和 =0平均数相等

拟合值与残差不相关 自变量与残差不相关

注意:这里的残差与随机扰动项不是一个概念。随机扰动项是总体的残差。

Page 72: 第二章 一元线性回归模型

三、回归模型的基本假定

(一)关于随机项的假定 1. 零均值假定2. 同方差假定3. 非自相关假定4. 解释变量与随机误差项不相关假定5. 正态性假定

Page 73: 第二章 一元线性回归模型

1. u是一个随机变量,其均值为零

  此假定表示对于每一个 Xi , 的值可在其条件均值的上下波动, 与其均值的偏差有正有负,但在大量观测下,平均来说其总和为零

0)|( ii XuE

iu

( 2.2.1 )

iu

Page 74: 第二章 一元线性回归模型

同时假定:

此假定表示对于每一个 Xi ,由于随机扰动因素的存在,Yi 的值在其条件均值 E( Y/Xi )附近上下波动,如果模型设定正确, Yi 相对于 E(Yi/Xi) 的正偏差和负偏差都会有,故此随机扰动项可正可负,发生的概率大致相同,平均地看,这些随机扰动项有互相抵消的趋势。在此假定下,才有:

E(Yi/Xi)=E[E(Yi/Xi)]+E(ui/Xi)=E(Yi/Xi)+ E(ui/ Xi)=E(Yi/ Xi)=

显然,这里暗含着的假定条件,也就是假定总体回归直线通过 X与 Y 的条件均值组成的点。

iX10

Page 75: 第二章 一元线性回归模型

2 . u 的方差为常数(同方差假定)2)]|([)|( iiiii XuEuEXuVar

此假定表示对于所 有 的 Xi , ui

对其均值的分散程度都是相同的。且方差都等于某个常数 ,如图2.8 所示。

22 )( iuE

2

2

Page 76: 第二章 一元线性回归模型

同时假定:可以推证:因变量 Yi与 ui 具有相同的方差,这是

因为

)(

)]([

)]([)(

2

21010

2

i

iii

iii

uE

XuX

YEYYVar

22 )()]([ iii uVaruEuE

因此,该假定同时表明,被解释变量 Yi 可能取值的分散程度也是相同的。

Page 77: 第二章 一元线性回归模型

3 . u 的协方差等于零 ( COV(ui,uj)=0 ( i≠j ))即随机误差项之间是互不相关,互不影响的。由于

即有: 此假定表示不同观测值的随机项是互不相关的,即

不会出现图 2.9 中( a )( b )情形,而呈现的是( c )的情况。

0)]()][([),( jjiiji uEuuEuEuuCov

)( )()()( jiuEuEuuE jiji 0)()()(

))()()()((

)]()][([),(

jiji

jiijjiji

jjiiji

uEuEuuE

uEuEuEuuEuuuE

uEuuEuEuuCov

Page 78: 第二章 一元线性回归模型

该假定同时表明,被解释变量 Yi 的序列值Y1, Y2,…, Yn 之间也是互不相关的。这是因为:

COV( Yi, Yj) =E[Yi -E(Yi/Xi)][ Yj -E(Yj/ Xi)]

= E(uiuj)=0 。

Page 79: 第二章 一元线性回归模型

4 . u 与解释变量无关

此假定表示扰动项与解释变量不相关,即Xi项与 ui项不趋向于共同变化,各自分别独立对 Yi 产生影响。

事实上,在回归分析中, X 在重复抽样中固定取值,是确定性变量,因此, Xi与 ui

不相关的假定一般都能够满足。

0)]()][([),( jjiiii XEXuEuEuXCov

Page 80: 第二章 一元线性回归模型

5.正态性假定: ui~ N(0 , )

即假定 ui服从均值为零、方差为 的正态分布,假设 5 也表明被解释变量 Yi服从均值为 、方差为 的正态分布,即 : Yi~ N( , ) .

如果只利用最小二乘法进行参数估计 , 不需要误差项 ui服从正态分布这个假定条件 , 如果要进行假设检验和预测,就必须知道总体Yi 的分布情况,如果 Xi 为非随机变量 ,总体Yi 与误差项 ui 之间仅有均值 E(Yi) 的差别。

由于被解释变量分布的性质决定于 u ,对于 u 的各项假定也适用于 Yi 的假定

2

2

2iX10

iX10

2

Page 81: 第二章 一元线性回归模型

中心极限定理定理:独立同分布随机变量,当随着变量个数的无

限增加,其和的分布趋向于服从正态分布。 扰动项代表大量未明确引入回归模型的独立变量

(对于被解释变量)的联合影响,但这些被略去的变量所产生的影响都较小,有的可以度量,有的不可度量,可看作随机因素 。

即使变量数目不是非常大或者这些变量不是严格独立的,它们的和仍然可以服从正态分布。正是这个中心极限定理为的正态性假定提供了理论依据,故正态性假定通常也不作检验。

Page 82: 第二章 一元线性回归模型

高斯假定或古典假定

线性回归模型如果满足以上假定条件,就称为古典的(或普通的)线性回归模型,它是德国数学家 Gauss于 1921 年首先提出的,所以也称为高斯假定或古典假定。

直观地看,这些假定的作用是便于分离回归模型中每个因素的单独影响,在回归分析的参数估计和统计检验理论中,许多结论都以这些假定作为基础,换句话说,这些假定的成立与否将直接影响回归分析中统计推断的结论。

计量经济学正是对包括这些假定在内的传统回归分析理论做了进一步的研究而有所发展,因此,也有人将计量经济方法称为现代回归分析。

Page 83: 第二章 一元线性回归模型

(二)对变量和模型的假定1.解释变量是非随机的,即在重复抽样时,解释变量是一组固定的值,也就是说解释变量无测量误差。

2.被解释变量(对应于某一固定的解释变量)可以是随机的, Y 的值可能包含或者不包含测量误差。

3

1.解释变量是非随机的,即在重复抽样时,解释变量是一组固定的值,也就是说解释变量无测量误差。

2.被解释变量(对应于某一固定的解释变量)可以是随机的, Y 的值可能包含或者不包含测量误差。

. 正确地设定了回归模型,即在经验分析中所用的模型没有设定偏误。

Page 84: 第二章 一元线性回归模型

当估计出模型参数后,接下来就要研究参估计值的精度,即样本的估计值能否代表总体参数的真值。利用最小二乘法求得模型总体参数 和 的估计量 和 是样本数据 Xi和 Yi 的函数,由于 Yi 的随机性以及抽样时样本的随机波动,使参数的估计量和也是随样本而发生变化的随机变量。

每次抽样后,用最小二乘法估计的 和 与其总体参数值 和 总会有差异,但是在古典假定成立的情况下,最小二乘法估计的 和 是总体参数值 和 最佳线性无偏估计量( Best linear Unbiased Estimator 简称 BLUE ),这就是著名的高斯—马尔可夫定理 .

四、最小二乘估计的特征

0 1

0 1

0 10 1

10 1

0

Page 85: 第二章 一元线性回归模型

1 .无偏性(无偏估计式)

(一)一个“优良”的估计式应具备的统计性质

Page 86: 第二章 一元线性回归模型

2 .最小方差性(最佳估计式)

设 是参数 的估计式,若对参数 的任意一个估计式都有 成立,则称 是 的最小方差估计式。

)

~()ˆ( VarVar

Page 87: 第二章 一元线性回归模型

3 .线性估计式

一个估计式如果是样本观测值的线性函数,也就是说它决定于样本数据的线性组合,它就是线性估计式,若样本观测为 ,则线性估计式将如以下形式:

)3,2,1( )( ˆ2211 niKYKYKYK ii 为常数

nYYY ,,, 21

Page 88: 第二章 一元线性回归模型

4 .有效性(有效估计式)

一个估计式与其它任何无偏估计式比较时,当它具有无偏性且方差最小,它就是有效估计式,也就是说在所有无偏估计式中方差最小的估计式就是有效估计式。此性质说明,“无偏性”和“最小方差性”,虽然都是一个“优良”的估计式应具有的重要特性,但对它们每一个孤立地来说,其本身并不重要,只有两个结合起来使用才有意义。

一个估计式与真实参数的所有其他线性无偏估计式相比,如果它是线性的,无偏的,并且具有最小方差,它就是最佳线性无偏估计式 BLUE ( Best Linear Unbiased Estimator )

Page 89: 第二章 一元线性回归模型

马尔科夫定理为例说明高斯以 1

22

1

11

1

ˆ

ˆˆ

ˆ

x

xX

E

MinVar

XXXk

Yk

i

ii

ii

所谓线性的是指

所谓无偏的是指

所谓最好的是指

(二) OLS估计式的特性

Page 90: 第二章 一元线性回归模型

1 、线性性:

ii

iii

iii

ii

ii

Yk

kYYk

YkYk

YYk

ykyx

x

x

xy

)(

221

0)(

2222

x

n

XnX

x

XnX

x

XX

x

xk

iii

i

Page 91: 第二章 一元线性回归模型

同理可得:

Xkn

a ii 1

ii

ii

iii

Ya

YXkn

XYkn

Y

XY

)1

(

10

Page 92: 第二章 一元线性回归模型

2 、无偏性

iiiiiiiiii ukXkk)uX(kYkˆ 10101 iii uXY 10 代人

11222

2

22

x

xX

x

xX

x

x

x

)Xx(x

x

XxXk iiiiii

ii

iiukˆ 11

)()()ˆ( 111 iiii uEkukEE

所以

11 )ˆ(E

Page 93: 第二章 一元线性回归模型

同理可得:

Xkn

a ii 1

ii

ii

iii

ii

ua

ukXn

ukXn

u

XukuXXY

0

0

0

11010

)1

(

)()(ˆˆ

)u(a)ˆ( ii 00

00 )ˆ(

Page 94: 第二章 一元线性回归模型

3 、估计量方差最小的证明(思路)

因为最小二乘估计量是线性的,设有一个任意的不等于最小二乘估计量的线性的无偏的估计量 。

如果证明这个任意的线性无偏估计量的方差大于最小二乘估计量的方差

那么,最小二乘估计量的方差就是一切线性无偏估计量中方差最小的,因而也是最好的。

~

)~

()ˆ( VarVar

Page 95: 第二章 一元线性回归模型

( 1 )先求 和 的方差:0 1

2

2

22

222

22

2222

222

22

2222

22

21

21

22211

2211

2111

)()(

)()]([

)()(

)(

)(

)()ˆ()]ˆ(ˆ[)ˆ(

x

x

x

x

x

kk

=)Var(uuVarkuEuk

0)u,COV(uuuEkkukE

uukkukukuk

ukukuk

ukEEVar

ii

2iiiiii

jijijiii

jijinn

nn

ii

)(

)(

2

2222

1 )()()ˆ(i

iiiiix

kYVarkYkVarVar或:

Page 96: 第二章 一元线性回归模型

2

22

2

2222

2

2222

2

222

2

222

2

22222

22

22

22

20

2

)2(

)(

121

211

)()1

(])1

([)(

i

i

i

ii

i

ii

i

i

i

i

i

ii

iii

iiii

xn

X

xn

XnXnXXX

xn

XnXXXX

xn

XnXX

xn

Xnx

x

X

nkXk

n

X

n

kXkn

X

nkX

n

YVarkXn

YkXn

VarVar

Page 97: 第二章 一元线性回归模型

( 2 )证最小方差性: 假设 是其它方法估计出的总体参数值 的线性无

偏估计量,即 ,且 ,其中, 为不等于 的权数。

1

~

iiYc~ 1 11)

~( ic

ik

1

10

10

101

)(

)()()()~

(

iii

iiiii

iiiiiii

Xcc

ucXcc

uXcYEcYc

要使无偏性成立,必须满足:

1

0

ii

i

Xc

c

1

Page 98: 第二章 一元线性回归模型

22222

22

2221

)(2)(

)(

)(][)~

(

iiiiii

iii

iiiii

kkckkc

kkc

cYVarcYcVarVar

0111

1)(1

1)(

22

22

222

i

i

i

iii

iiii

ii

iiiiiiii

x

cX

x

XcXc

x

XXc

x

xc

xx

xckkckkc

0)( 2 ii kc又因 

因为

)ˆ()~

( 11 VarVar 所以 221 )

~( ikVar 即

而且等号只有当 ci=ki 时才能成立 同理 )ˆ()~

( 00 VarVar

Page 99: 第二章 一元线性回归模型

五、参数的估计误差与置信区间

1 .估计误差最小二乘估计得到的 和 ,只是总体回归参数 和

的点估计值,这种点估计是由样本得出的,由于存在抽样波动,不同的样本可能得出不同的点估计值,虽然其期望都为 和 ,即 和 是 和 的无偏估计量,但每个点估计值未必都等于 和 ,也就是说存在估计误差,即估计值 与真值 有偏差

- 当然,我们希望知道估计误差究竟有多大,或者说

与 接近程度如何?

0 1 01

10

0 10 1 0

111

11

1 1

Page 100: 第二章 一元线性回归模型

随着抽样的不同,误差大小( - )是一个随机变量,因此,需要考虑概率意义下的平均误差,由于

所以不能直接对估计误差取均值,而应对误差的平方取平均,即:

可以看出,这是估计量 的方差;这一点也容易理解,因为 OLS估计是无偏估计,均值即为参数真值,所以估计量关于均值的平均偏差—方差也就反映了估计量与参数真值的平均偏差。

1 1

,01111 )ˆ()ˆ(

2

2

12

112

11

ix)ˆ(Var)]ˆ(ˆ[)ˆ(

1

Page 101: 第二章 一元线性回归模型

标准误差 SE(Standard Error)

由于方差的计量单位与原变量的不一致,因此,在计量经济分析中常用标准误差去度量估计量的精确 性 , 标准误 差 是 方 差 的 平 方 根 , 用SE(Standard Error) 表示,这样,参数估计量的平均误差为:

这说明:由于是的无偏估计量,均值即为参数 真值, 的分布中心是 。标准差 SE( ) 可用来衡量估计量 接近真值 的程度,判定估计量 的可靠性。所以估计量关于均值的平均偏差─标准差也就反映了参数估计量与参数真值的平均偏差 .

)ˆx

)ˆ(Var)ˆ(i

12

2

12

11 SE(

1

11

1 11

Page 102: 第二章 一元线性回归模型

总体方差 估计 由于总体方差 未知,和 的方差和标准差实际上无

法计算。由于随机扰动项 ui 不可观测,我们只能从ui 的估计量—残差 ei 出发,对总体方差 进行估计。

可以证明(证明见本章附录 C ):总体方差 的无偏估计量为:

即:因此 , 可以用 代替 ,参数估计量的估计标准误差

就成为:

2

2

2

2

22

n

ei

22 )ˆ(E2 2

21

ix

ˆ)ˆ(ES

0 1

Page 103: 第二章 一元线性回归模型

估计误差同理参数估计量 的估计标准误差为: 把 简称为 和 的估计误差。 参数的估计误差只是反映了估计量与真值的平均

相对偏离程度; 越小,则 与 的近似误差越小,但不能认

为 与 之间的绝对误差就是 。这可以从参数的置信区间得到进一步的说明。

0

2

2

0 ˆ)ˆ(ˆi

i

xn

XES

),ˆ(ES 1 )ˆ(ES 0 1 0

1ˆ ( )SE

1 1

11 )ˆ(ˆ1ES

Page 104: 第二章 一元线性回归模型

2 .区间估计

利用普通最小二乘法得到的只是参数的点估计,只是待估参数的一个近似值,而点估计本身既没有反映这种近似值的精确度,又不知道它的误差范围。

为了对参数的取值情况有更多的了解,可以按一定的可靠性确定参数真值的取值范围,用统计术语来说,就是在一定置信度下,求参数的置信区间,这就是参数的区间估计。为了说明这些问题,需要先确定最小二乘估计量的概率分布。

Page 105: 第二章 一元线性回归模型

的概率分布 总体回归模型 根据基本假定 5可得: Yi~ N( , ) .

由于 和 分别是 Yi 的线性组合函数,根据数理统计中正态分布变量的性质,即正态变量的线性函数仍服从正态分布,其分布函数由其均值和方差唯一决定 。

因为 E ( ) = 所以:

1

iii uXY 10

iX10 2

0 1

2

2

1

ix)ˆ(Var

1 1

)x

(N~ˆ

i2

2

11 ,

Page 106: 第二章 一元线性回归模型

t 分布 由数理统计的定理知:若 是 的无偏估

计 ,则统计量 :

将 作标准化变换得:根据 t检验的定义得:

22

n

ei 2

2

221 2

)n(z )2(~ 2 n

1),(N~

x

ˆz

i

10

2

2

112

)2(~)ˆ(ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆˆ

2

ˆ)2(

ˆ

2

1

11

2

2

1121

2

2

2

2

1

2

2

2

2

11

21

2

ntES

x

x

xn

n

xn

z

zt

i

i

ii

Page 107: 第二章 一元线性回归模型

置信度 对于给定的显著性水平 ,即置信度为 时,

当自由度一定时,统计量 t 的置信区间即已确定。由于 t 分布曲线对称于纵轴,故随机变量 t 落入区

间 范围内的概率为 ,等于 t 分布曲线下由直线 及横轴所围的面积 , 如图 :

1

)1( 21, tttt

21,tt

Page 108: 第二章 一元线性回归模型

置信区间 即就是

代换 即

于是,对于给定显著性水平 ,参数的置信度为 1- 的置信区间为:

同理:解释

1)(22

tttP

1))ˆ(ˆ

ˆ(

21

11

2

tES

tP

1))ˆ(ˆˆ)ˆ(ˆˆ( 1

2

111

2

1 EStEStP

)ˆ(ˆˆ),ˆ(ˆˆ

1

2

11

2

1 EStESt

)ˆ(ˆˆ),ˆ(ˆˆ

0

2

00

2

0 EStESt

Page 109: 第二章 一元线性回归模型

第三节 一元回归模型的统计检验

一、回归系数的显著性二、模型的拟合优度检验 R2 检验三、模型的显著性检验 F 检验

Page 110: 第二章 一元线性回归模型

一、回归系数的显著性

1. 假设检验的基本思想 为什么要作假设检验? 所估计的回归系数 、 和方差 都是通过

样本计算的,都是随抽样而变动的随机变量,它们真值 和 之间的差异是否显著还需要加以检验。

所谓假设检验,就是对于未知参数,先假设一个确定值,然后根据随机选取的样本数据,采用适当的方法,检验参数的假设值与真实值是否一致,从而决定接受或拒绝假设值。

21 2

0 1

Page 111: 第二章 一元线性回归模型

对回归系数假设检验的基本思想 在所估计样本回归系数概率分布性质已确定的基础上,在对总体回归系数某种原假设成立的条件下,利用适当的有明确概率分布的统计量和给定的显著性水平 ,构造一个小概率事件,判断原假设结果合理与否。

因为一个小概率事件在一次观察中可以认为基本不发生,如果该事件发生,就认为原假设不真,从而拒绝原假设接受备择假设。

Page 112: 第二章 一元线性回归模型

对回归系数假设检验的方式

由于总体参数 和 是未知的,因此,需要对这两个总体参数进行假设检验;

计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。

目的:对简单线性回归,判断解释变量 X 是否对被解释变量 的显著影响因素。

在一元线性模型中,就是要判断 X 是否对 Y 具有显著的线性影响。这就需要进行变量的显著性检验。

Y

10

Page 113: 第二章 一元线性回归模型

回归系数的检验方法

已知 的概率分布 ,就可以对进行显著性检验,

在实际应用时,由于 未知,只能用其无偏估计量 代替,这时 的标准化变量就服从自由度为n-2的 t 分布,而不是正态分布:

即:

)x

(N~ˆ2

2

11 ,

2

1

2 1

)2(~)ˆ(ˆ

ˆ

1

11

ntES

t

Page 114: 第二章 一元线性回归模型

总体参数显著性进检验的步骤:

1.对总体参数提出假设:原假设 H0: =0 备择假设H1: , 因此 ,备择假设是双边检验。

2.构造统计量,3. 在原假设 H0 的条件下 , 由样本观测值计算统计量 t

的值。4.给定显著性水平 ,查自由度为 n-2的 t 分布表,得临界值 。

5.作出推断:若 则拒绝 H0: =0 ;接受 0 ,即 与 0 有显著区别,所对应的变量 X对 Y的影响不容忽视。

1

1 0

)ˆ(ˆ

ˆ

)ˆ(ˆ

ˆ

1

1

1

11

ESESt

)2(

2

nt

2

( 2)t t n 1

1 1

Page 115: 第二章 一元线性回归模型

二、模型的拟合优度检验 R2 检验

问题的提出 因为 OLS估计式具有最小方差性和无偏性,只

是反映了这样一个事实,即相对于一切样本回归函数来说,由 OLS估计式所确定的样本回归函数具有某些特性,但它并不能说明单个样本回归函数具有较高的拟合程度;

虽然最小二乘法已经使所估计的样本回归函数具有最小残差平方和即达到最小,但残差平方和即的值本身可能会很大;因此,就需要有一个度量拟合优度的相对指标。

下图可以帮助我们理解这个问题

Page 116: 第二章 一元线性回归模型

点与直线拟合很差

Page 117: 第二章 一元线性回归模型

iY

1.总离差平方和的分解

                                                                   

                 

                    

总变差^

i( Y - Y )

SRF

^

i(Y - Y ) 来自回归

ie来自残差

iX

Y

Y

X

设对于样本观察值 ,由 OLS 得到的样本回归直线为 SRF ,

)n,,,i(),Y,X( ii 21

iii YYe ˆ

YYy ii ˆˆ

YYy ii

Page 118: 第二章 一元线性回归模型

总变差的分解由图可看出, Y 的第 i 个观察值与样本均值的离

差称为总离差, 记 ,总离差可以分作两部分 :

一部分: 是通过样本回归直线计算的拟合值与观察值的平均值之差。它是由样本回归直线(解释变量)所解释的部分 , 是由于 X 的变化而引起的 Y 的变化。

另一部分: ,是实际观察值与回归直线的拟合值之差,称为残差,是样本回归直线所不能解释的部分,是由随机因素,观测误差等综合影响而产生的。

,ˆˆ YYy i

iii YYe ˆ

YYy ii

)ˆ()ˆ( YYYYYY iiii

Page 119: 第二章 一元线性回归模型

总变差平方和的分解因为 , ,因此,我们利用加总全部离差平方和来反映总离差。

又因为,

所以,

0)( YnYnYYYY ii

)ˆ)(ˆ(2)ˆ()ˆ(

)]ˆ()ˆ[()(22

22

YYYYYYYY

YYYYYY

iiiiii

iiii

1ˆ ˆ ˆ( )( ) ( ) ( ) 0i i i i i i i iY Y Y Y Y Y e X X e

222 )YY()YY()YY( iiii

( TSS )( RSS )( ESS )

222 ˆiii yey )(ˆˆ)(ˆˆˆˆˆˆ

1110 XXYYXXYXXYXY iiiiiii 即

Page 120: 第二章 一元线性回归模型

总变差平方和 ( TSS )被解释变量 Y 的观测值与其平均值的离差平方和(总平方和)

残差平方和 ( RSS )被解释变量观测值与估计值之差的平方和(未解释的平方和)

回归平方和 ( ESS )被解释变量 Y的估计值与其平均值的离差平方和(回归平方和)

22 )( YYy ii

22 ˆ)( iii YYe

22 )ˆ(ˆ YYy i

总变差平方和的分解后的定义:

Page 121: 第二章 一元线性回归模型

平方和分解图

yy

yy ˆ

160

165

170

175

180

185

140 150 160 170 180 190 200

Y

X

yy ˆ

y

正交分解

yy

yy ˆ

yy ˆ

yy

yy ˆ

Page 122: 第二章 一元线性回归模型

为什么回归平方和是由 X 引起的变动

XXtg

XX

XX

XXYY

XYXYeYY

i

i

iiiii

i

ii

RSS

RSS

2

2

2

22

1010

1

11

1010

ˆ

ˆˆ

ˆˆˆˆˆ

ˆˆ ˆˆˆˆ

YX ,

XX i

YY iˆ

Y i

X i

A B

C

Page 123: 第二章 一元线性回归模型

2. 可决系数对于一组确定的样本数据,总离差平方和是

一个确定的数值,因此,在总离差平方和中,如果回归平方和所占比例越大,残差平方和所占比例越小 , 表 明回归直 线 与 样本点( )拟合得越好。

定义:回归平方和 (解释了的变差 ESS ) 在总变差 ( TSS )中所占的比重称为可决系数,用 R2 表示 :

ii YX ,

2y2iy

i

i

i

i

i

i

y

e

YY

YY

y

y

TSS

ESSR

2

2

2

2

2

22 1

)(

)ˆ(ˆ

Page 124: 第二章 一元线性回归模型

作用:可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,样本回归模型对样本观测值拟合优度越好。反之可决系数小,说明模型对样本观测值的拟合程度越差。

特点:①可决系数取值范围:

②随抽样波动,样本可决系数 是随抽样而变动的随机变量

③可决系数是非负的统计量

可决系数的作用和特点

10 2 R

2R

Page 125: 第二章 一元线性回归模型

3. 可决系数与相关系数的关系( 1 )联系 数值上,可决系数等于应变量与解释变量之间简

单相关系数的平方 :

2

2

2

22

22

22

22

1

2

221

2

2

2

22

1)(ˆ

ˆˆ

)(

)ˆ(

r

yx

yx

y

x

x

yx

y

x

y

x

y

y

YY

YY

TSS

ESSR

ii

ii

i

i

i

ii

i

i

i

i

i

i

i

i

)(

2222 yx

xy

nynxn

xyr

Page 126: 第二章 一元线性回归模型

可决系数与相关系数的关系

可决系数 相关系数

就模型而言 就两个变量而言

说明解释变量对被解释变量的解释程度

度量两个变量线性依存程度。

度量不对称的因果关系 度量不含因果关系的对称相关关系

取值: [0,1] 取值: [- 1,1]

( 2 )区别

Page 127: 第二章 一元线性回归模型

运用可决系数时应注意

回归的主要目的如果是经济结构分析,不能只追求高的可决系数,而是要得到总体回归系数可信的估计量,可决系数高并不表示每个回归系数都可信任如果建模的目的只是为了预测因变量值,不是 为了正确估计回归系数,一般可考虑有较高的可决系数可决系数只是说明列入模型的所有解释变量对被解释变量的联合的影响程度,不说明模型中每个解释变量的影响程度(在多元中)

Page 128: 第二章 一元线性回归模型

三、模型的显著性检验 F 检验

对回归模型的显著性检验,就是检验总体回归模型对总体的近似程度,也就是对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断,能满足这一要求的检验便是 F检验。

对于 由 和 两部分组成 ,因此,解释变量 Xi对被解释

变量 Yi的线性作用,可用总离差平方和的分解的结果进行分析。

iii uXY 10

iX10 iu

Page 129: 第二章 一元线性回归模型

回归模型的显著性检验的意义 由 或 TSS=ESS+RSS知,回归平方和 ESS= 是解释变量 X对被解释变量 Y的线性作用的结果。

考虑比值 ESS/RSS= 。如果这个比值大,则解释变量 X 对被解释变量 Y 的解释程度高,可以推测总体存在线性关系。反之,总体可能不存在线性关系。故利用这个比值对总体线性关系进行推断。

对给定的样本,利用这个比值 ESS/RSS 对总体线性情况进行推断,必须建立在统计假设检验基础上。

222 ˆiii yey 2ˆiy

22 /ˆ ii ey

Page 130: 第二章 一元线性回归模型

自由度的分解

总离差平方和 总自由度为 dfT=n-1 ,由于这 n 个观测值受 的约束,当 n-1 个观测值确定以后,最后一个观测值就不能自由取值了 ,因此,总离差 的自由度为 n-1 。

因为 ,计算 和 的两个式子实际是对 n 个观测值附加了两个约束条件,失去两个自由度,因此, 自由度为 n-2 。

在一元线性回归模型中,只有一个解释变量,所以回归平方和 的自由度为 1 ;

自由度分解 dfT=dfR+dfE

22 )( YYy ii

0)( YYi

210

22 )ˆˆ()ˆ( iiiii XYYYe 0 1

2ie

2ˆ iy

2iy

Page 131: 第二章 一元线性回归模型

方差分析模型:1. 原假设: 备择假设:

变异来源 平方和 自由度 均方 F统计量回 归 的 ESS 1 回归方差=ESS/1 F=回归方差/误差方差

剩 余 的 RSS n-2 误差方差=RSS/(n-2)

总 的 TSS n-1

方 差 分 析 表

iii uXY 10 0, 10 H 0, 11 H

Page 132: 第二章 一元线性回归模型

2.构造检验统计量— F 统计量

由于 ,则其标准化变量根据统计理论可知:一个标准正态变量的平方服

从自由度为 1 的 分布 ,则又有:根据数理统计中 F检验的定义有 即:

),(~ˆ2

2

11ix

N

)1,0(~ˆ

2

2

112 N

x

Z

i

2 )1(~22 Z

)2(~ˆ

)2( 22

221 nnz

)2,1(~)2/(

1/2

1

22

nFnZ

ZF

)2,1(~)2/(

)ˆ(ˆ

)ˆ(

)2/(ˆ

)2(

/)ˆ(

)2/(

1/

2

2211

2211

2

2

22211

21

22

2

nFne

xx

nn

x

nZ

ZF

i

ii

i

Page 133: 第二章 一元线性回归模型

F 检验

3. 在原假设成立的条件下 ,求4. 对于给定的显著性水平 ,可查 F 分布表取得临界值

,5. 值 则拒绝原假设 H0 ,即认为所建立的模型较好的反

映了总体的特征,表明总体回归模型的线性关系是显著的。 若 ,则接受原假设 H0 ,即认为所建立的模型不能反

映总体的真实特征,表明总体回归模型中 X与 Y 之间线性依存关系不显著。

说明:如果 F 显著地大于 1 ,即 F>F ,小概率事件发生了,根据小概率原理,小概率事件在一次试验中是不可能发生的,于是 H0 不成立。就不能认为 X没有作用。则直线是有意义的。可靠性 =1-

)2,1(~)2/(

ˆ2

221

nF

ne

xF

i

i

),2,1( nF

FF

FF 若

Page 134: 第二章 一元线性回归模型

F 检验的意义

对这种假设进行 F检验,实质上就是对一元线性回归模型进行显著性检验。因为:

这说明, F 统计量是在考虑自由度的条件下,已解释变差的平方和相对于残差平方和的倍数,就回归模型整体来说, F 统计量越大,表明回归模型中的所有解释变量对被解释变量的解释程度越高。

2/

1/

)2/(ˆ

ˆ

)2/(

ˆ2

2

2

221

nRSS

ESS

ne

y

ne

xF

i

i

i

i

Page 135: 第二章 一元线性回归模型

拟合优度与 F 统计量之间的联系F 显著→拟合优度必然显著

可以直观地看出,如果模型对样本有较高的拟合优度,则 F检验一般都能通过,即越容易拒绝原假设 ,换句话说,样本回归函数对样本数据的拟合程度好,则模型越能准确地反映总体特征。因此,用来判断估计的回归方程显著性的 F检验, 实际上也是判定系数的显著性检验 . 实际应用中不必过分苛求 R2 值的大小。

2

2

2

2

1)2(

/1

/)2(

)2()2()2/(

1/ˆ

R

Rn

TSSESS

TSSESSn

ESSTSS

ESSn

RSS

ESSn

neyF

i

i

0: 10 H

Page 136: 第二章 一元线性回归模型

F 检验与 t 检验的关系 在一元线性回归中, F检验和 t检验是一致的,这是因为它们有相同的原假设 ,并且 t 统计量和 F 统计量之间存在如下关系:

此时,对参数的显著性检验( t检验)与对回归总体线性的显著性检验( F检验)是等价的。

0, 10 H

2

2

2

2

1

2

22

1

22

21

2

221

2

2

ˆˆ])2/[(

ˆ

])2/[(

ˆ

)2/(

ˆ

)2/(

ˆ

txxne

xnene

x

ne

yF

iii

iii

i

i

i

Page 137: 第二章 一元线性回归模型

第四节 预测

一、预测的定义与种类二、点预测三、区间预测四、预测的精度

Page 138: 第二章 一元线性回归模型

一、预测的定义与分类预测是对于未来或未知的预计(估计)与推测;预测不是臆测,这里的预测是科学的预测,它是建立在对预测对象认识、分析和科学的推理基础之上的。

预测是计量经济研究的目的之一,也是回归分析应用的主要方面。

一元线性回归模型预测,就是指由已知的或预先测定的解释变量的数值,去估计被解释变量在所观测的样本数据以外的数值。

Page 139: 第二章 一元线性回归模型

预测的分类内插预测和外推预测。在解释变量值属于已知的样本区间的情况下预测相应的被解释变量值,这种预测称为内插预测,也可以看成是对被解释变量在同一时间不同空间状态的静态预测;通常用内插预测来检验样本回归方程的预测能力。

当解释变量在样本区间以外但可以用其他方法先估计预测期的解释变量的情况下预测某个被解释变量值,这样的预测称为外推预测。这种预测可以看成是对被解释变量未来时期的动态预测,建立计量经济模型的目的就是解释经济现象并预测经济变量的未来走势,因此在实际预测里,常常作外推预测。

Page 140: 第二章 一元线性回归模型

二、点预测1.基本思想运用计量经济模型作预测:指利用所估计的样本回归函数,用解释变量的已知值或预测值,对预测期或样本以外的被解释变量数值可能取值或可能取值范围作出定量的估计。

按照预测方法来分,预测可以分为点预测和区间预测两种;按照预测对象来分,点预测和区间预测又都可以进一步分为个别值预测和平均值预测两种。

Page 141: 第二章 一元线性回归模型

预测值、平均值、个别值的相互关系

是真实平均值的点估计 , 也是对个别值的点估计

个别值

真实平均值

点预测值

SRF

F FE(Y X )

Fu

FY

FY

Fe

FX X

FY

PRF

Y 0100ˆˆˆ XY

Page 142: 第二章 一元线性回归模型

2.被解释变量 Y 的点预测

将解释变量特定值 X0 直接代入估计的方程

这样计算的 是一个点估计值,既是对被解释变量平均值 E( Y/X0) 的点预测,也是对个别值Y0 的点预测 ;

由于存在随机扰动 u0 的影响 ,Y的平均值并不等于 Y 的个别值。

0100ˆˆˆ XY

0Y

Page 143: 第二章 一元线性回归模型

3.被解释变量均值的点预测

由于总体回归函数是 ,当 Xi=X0时 ,

相应的总体均值 ,因为 和 是随样本变化的随机变量,又因为 和 分别是 和 的最佳线性无偏估计( BLUE ),所以,由样本回归函数 计算的 也是均值 E(Y/ X0) 的最佳线性无偏估计。

1) 线性性 :

ii XXYE 10)/(

0100 )/( XXYE

0100ˆˆˆ XY 0Y

0

0

1

1 0 1

ii

iiiii

i

Yb

YkXXn

YkXXn

Y

XXn

YXXYXY

])(1

[)(

)(ˆˆˆˆˆˆ

00

010110100

Page 144: 第二章 一元线性回归模型

2)无偏性 : 即 可表示成的无偏预测值。

3) 有效性:与证明参数估计量最小方差性同样的方法,也可以证明 是均值 E(Y/X0) 的所有线性无偏预测中方差最小的。

即:

0

010

1000100

/

ˆˆ)ˆˆ()ˆ(

XYE

X

EXEXEYE

0Y

0Y

)ˆ()~

( 00 YVarYVar

Page 145: 第二章 一元线性回归模型

4.个别值 Y0 的点预测 由样本回归函数 计算的 作为当 Xi=X0

时 , 对个别值 的预测值也是合理的;但是,

可见 不是 的无偏估计式。可是在这个意义上,用 来估计 ,并用 作为 的预

测值也是合理的。

0100ˆˆˆ XY 0Y

00100 uXY

0000100100 )ˆˆ(ˆ YYXXEYE

0Y 0Y )()ˆ( 00 YEYE

0Y 0Y0Y 0Y

Page 146: 第二章 一元线性回归模型

三、区间预测当我们用样本回归函数所决定的被解释变量的值

来估计总体均值和个别值时,一方面,由于存在抽样波动,估计的参数与总体真实参数有误差,那么由样本回归函数求出的被解释变量预测值 与总体真实平均值 E(Y/X0) 也会有误差,两者之差称为预测误差。

另一方面,由于随机扰动 ui 的存在,当用被解释变量预测值 在预测个别值 Y0 和平均值 E(Y/X0) 时,其相对个别值的预测误差必定大于其相对均值的预测误差,所以还有必要对均值和个别值的置信区间作出区间预测。

0Y

0Y

Page 147: 第二章 一元线性回归模型

1. Y 平均值的区间预测

基本思想:由于存在抽样波动,预测的平均值 不一定等于真实平均值 E(Y/X0) ,还需要对 E(Y/X0) 作区间估计。

为对 E(Y/X0) 作区间预测,必须确定预测值 的抽 样分布, 必须找出与 和 E(Y/X0) 都有关的统计量 .

0Y

0Y

0Y

Page 148: 第二章 一元线性回归模型

的抽样分布 由前面分析知, 是 和 的最佳线性无偏估计,

所以, 也是 E(Y/X0) 的最佳线性无偏估计,而且由于 均服从正态分布,作为其线性函数的 也必然服从正态分布。

由于,以及

0Y

10ˆ,ˆ

0 1

10ˆ,ˆ

0010000 /)ˆˆ(ˆ XYEXXEYE

))((2ˆˆ

ˆˆ2ˆˆ

ˆˆ2ˆˆ

ˆˆ

ˆˆ/ˆˆ

012

00

110002

112

02

00

110002

02

112

00

201100

2010010

2000

iiii ukuaEXVarXVar

EXEXE

XXE

XE

XXXYEYEYVar

0100ˆˆˆ XY

0Y

Page 149: 第二章 一元线性回归模型

)(

2

2

022

2

02

2

20

20

222

2

20

20

22

22

02

202

2

2222

02

202

2

22

2202

202

2

22

202

202

2

22

202

202

2

222

012

00

201

200

201

200

1

22

122

)1

(2

)1

(2

22ˆˆ

)()(2ˆˆ

)(2ˆˆ

ii

i

i

i

i

i

iii

ii

ii

i

iiii

i

iiii

i

iiii

iii

jijiiii

jijiiii

x

XX

nxn

XXnx

xn

XnXnXXnx

xn

XnXnXX

xXX

x

X

xn

XkXX

x

X

xn

X

kXkn

Xx

X

xn

X

kkXn

Xx

X

xn

X

kaXx

X

xn

XkaXVarXVar

uuEkauEkaXVarXVar

uukaukaEXVarXVar

Page 150: 第二章 一元线性回归模型

均值 E(Y/X0)的预测区间 所以:

则有:给定显著性水平 ,可查 t 分布表确立临界值 ,于是 从而在 1- 的置信度下,均值 E(Y/X0) 的预测区间为 :

))ˆ(,(~ˆ00100 YVarXNY

估计标准误差为:则代替可用其无偏估计量未知其中, 022 Y,ˆ,

2

2

00

1ˆ)ˆ(ˆ

ix

XX

nYES

)2(~ˆˆ/Y

0

00

ntYES

XYEt

2/t

1)( 2/2/ tttP

0

2

00

2

0ˆˆˆ;ˆˆˆ YEStYYEStY

Page 151: 第二章 一元线性回归模型

2.个别值的预测区间: 已知剩余项 e0= Y0- 是与预测值 及个别值 Y0 都有关的变量 , 由于 Y0 和 都服从正态分布 , 显然 e0 也服从正态分布,且可证明

E(e0)=E( ) =E[( + )- ] =0

因此, e0 的标准误差为 : 而且 e0~ N(0,Var(e0)) ,标准化后:

0Y0Y

0Y

00 YY 0 001 uX 010ˆˆ X

])(1

1[))(1

()ˆ()()ˆ(2

202

2

2022

000

X

XX

nX

XX

nYVarYVarYYVar

])(1

1[)SE(e2

20

0

x

XX

n

)1,0(~

)(

ˆ

)Var(e 0

00

0

00 NeSE

YYeEe

Page 152: 第二章 一元线性回归模型

当用 代替 时,对 e0 标准化的统计量 t 为 :

给定显著性水平 ,可查 t 分布表确立临界值 ,于是 从而在 1- 的置信度下,个别值 的预测区间为 :

构建个别值的预测区间

2/t

1)( 2/2/ tttP

)2(ˆ

2

nei

0Y

)](ˆˆ),(ˆˆ[ 02/02/0 eEStYeEStY

)2(~

ˆ

ˆ

0

00

nteES

YYt

Page 153: 第二章 一元线性回归模型

被解释变量 Y 区间预测的特点

1、 平均值的预测值与真实平均值有误差,主要是 受抽样波动影响

个别值的预测值与真实个别值的差异 ,不仅受抽 样波动影响,而且还受随机扰动项的影响

Y

Y

2

2^

2

^ )(1

i

FFF x

XX

ntYY

2

2 2

( )1ˆ ˆ 1 FF F

i

X XY Y t

n x

Page 154: 第二章 一元线性回归模型

2 、平均值和个别值预测区间都不是常数,是随

的变化而变化的,,特别当 时,此时 预测区间最窄, 离 越远, 越大,预测区间越宽,预测精度会下降。

3 、预测区间上下限与样本容量有关,当样本容 量 时个别值的预测误差只决定于随机 扰动的方差

FX

n

XX F

FX X 2( )FX X

被解释变量 Y 区间预测的特点

2

2 2

( )1ˆ ˆ 1 FF F

i

X XY Y t

n x

Page 155: 第二章 一元线性回归模型

SRF

各种预测值的关系

Y 的个别值的置信区间

FX

Y 均值的置信区间

X

时,置信区间最小当 XX F

X

Y