第一节 相关与回归概述

93

Click here to load reader

Upload: kynthia-rose

Post on 01-Jan-2016

178 views

Category:

Documents


4 download

DESCRIPTION

第八章 相关与回归. 第一节 相关与回归概述. 第二节 相关关系的测度. 第三节 一元线性回归分析. 第四节 多元线性回归分析. 第五节 非线性回归分析. 受教育的水平. 预防疾病支出. 工作后的收入. 疾病的发病率. 联系与相互影响是普遍的现象. 事物相互间关系的质的解释:自然的、社会的、经济的、心理的 …. 事物相互间关系的量的分析:两变量或多变量间的数量关系。在 可以解释的质的关系基础上 进行相关分析和回归分析. 第一节 相关与回归概述. 一、相关关系的概念. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第一节  相关与回归概述

第一节 相关与回归概述

第三节 一元线性回归分析

第二节 相关关系的测度

第四节 多元线性回归分析

第八章 相关与回归第八章 相关与回归

第五节 非线性回归分析

Page 2: 第一节  相关与回归概述

联系与相互影响是普遍的现象

受教育的水平

工作后的收入

预防疾病支出

疾病的发病率

事物相互间关系的质的解释:自然的、社会的、经济的、心理的…

事物相互间关系的量的分析:两变量或多变量间的数量关系。在可以解释的质的关系基础上进行相关分析和回归分析

Page 3: 第一节  相关与回归概述

一、相关关系的概念一、相关关系的概念

第一节 相关与回归概述

社会经济现象中,一些现象与另一些现象之间社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存些现象的的特征时,便表现为变量之间的依存关系。关系。

在分析变量的依存关系时,我们把变量分为两种:

自变量

因变量

引起其他变量发生变化的量。

受自变量的影响发生对应变化的量

Page 4: 第一节  相关与回归概述

现象之间的相互关系,可以概括为两现象之间的相互关系,可以概括为两种不同的类型:种不同的类型:

(一)函数关系(一)函数关系

(二)相关关系(二)相关关系

例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。

Page 5: 第一节  相关与回归概述

(一)(一)函数关系函数关系(一)(一)函数关系函数关系

指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应 。

函数关系可以用一个确定的公式,即函数式

21 rS 、圆面积例

来表示。

),,,( 21 nxxxfy 或: Y=F( X )

Page 6: 第一节  相关与回归概述

(二)(二)相关关系相关关系(二)(二)相关关系相关关系

指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应 。

例 2 、根据消费理论,商品需求量 Q 与商品价格 P 、居民收入 I 之间具有相关关系:

相关关系可用统计模型:相关关系可用统计模型:

21 bb IaPQ

),,,( 21 nxxxfy 或: Y=F ( X )+ε

式中,为影响 Y 的除 X 外的其他随机因素。

Page 7: 第一节  相关与回归概述

单相关单相关单相关单相关 是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一一元相关。元相关。

复相关复相关 复相关复相关 也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。多元相关。

二、相关关系的种类二、相关关系的种类二、相关关系的种类二、相关关系的种类

(一)按相关关系涉及变量的多少可分为:

Page 8: 第一节  相关与回归概述

正相关 正相关 正相关 正相关 当自变量当自变量 XX 值增加(或减少)值增加(或减少)时,因变量时,因变量 YY 值也随之增加值也随之增加(或减少),这样的相关关系就(或减少),这样的相关关系就是是正相关正相关,也叫,也叫同向相关同向相关。 。

负相关 负相关 负相关 负相关 当自变量当自变量 XX 的值增加的值增加(或减(或减少)少)时,因变量时,因变量 YY 的值随之而的值随之而减少(或增加),这样的相关关减少(或增加),这样的相关关系就是系就是负相关负相关,也叫,也叫异向相关异向相关。。

(二)、按相关的方向可分为:

Page 9: 第一节  相关与回归概述

ÌåÖØ

90807060504030

Éí¸ß

180

170

160

150

线性正相关

Page 10: 第一节  相关与回归概述

Ö§³ö

700600500400300200

³É¼

¨

100

80

60

40

20

0

线性负相关

非线性相关

Page 11: 第一节  相关与回归概述

线性相关 线性相关 线性相关 线性相关 当自变量当自变量 XX 值每变动一个单位,值每变动一个单位,因变量因变量 YY 值则随着发生大致均值则随着发生大致均等的变动,这就是直线相关。亦等的变动,这就是直线相关。亦称为简单相关或一元线性相关。 称为简单相关或一元线性相关。

非线性相关 非线性相关 非线性相关 非线性相关 当自变量当自变量 XX 值每变动一个单位,因值每变动一个单位,因变量变量 YY 值则随之发生不均等的变化,值则随之发生不均等的变化,称为一元非线性相关 。又称为曲称为一元非线性相关 。又称为曲线相关。线相关。

(三)按相关关系形式可分为:

Page 12: 第一节  相关与回归概述

(四)按相关关系的密切程度分为:

完全相关 完全相关 完全相关 完全相关 因变量完全随自变量变动而变动,存在着因变量完全随自变量变动而变动,存在着严严格的依存关系格的依存关系。即变量间的关系为。即变量间的关系为函数关系函数关系。。

不完全相关 不完全相关 不完全相关 不完全相关 变量之间存在着变量之间存在着不严格的依存关系不严格的依存关系,即因变,即因变量的变动除了受自变量变动的影响外,还受量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的其他因素的影响。它是相关关系的主要表现主要表现形式。形式。

完全不相关 完全不相关 完全不相关 完全不相关 自变量与因变量彼此自变量与因变量彼此独立独立,互不影响,其数,互不影响,其数量变化量变化毫无联系毫无联系。。。。

Page 13: 第一节  相关与回归概述

ÌåÖØ

90807060504030

³É¼

¨

100

80

60

40

20

0

无(不)相关

Page 14: 第一节  相关与回归概述

三、相关分析与回归分析三、相关分析与回归分析

(一)相关分析(一)相关分析

对现象之间相关关系密切程度的研究,称为相关分析。

相关分析的主要内容包括:相关分析的主要内容包括:

( 1)确定现象之间有无相互依存关系,并确定是否是相关关系。

( 2)确定相关关系的表现形式。

Page 15: 第一节  相关与回归概述

( 3)判定相关关系的密切程度和方向。

(二)回归分析(二)回归分析

1 、回归与回归分析1 、回归与回归分析

回归分析是对具有相关关系的变量之间的数量关系形式进行测定,将它们之间的关系用数学表达式描述出来,并据此对因变量进行估计和预测的分析方法。

Page 16: 第一节  相关与回归概述

回归:退回 regression

1877 年 弗朗西斯•高尔顿爵士 遗传学研究 回归线

平均身高

Page 17: 第一节  相关与回归概述

回归分析法产生的历史回归分析法产生的历史

回归分析法。由著名的英国生物学家、统计学家高尔顿( F.Gallton )——达尔文的表弟所创。

早年,高尔顿致力于化学和遗传学领域的研究。他研究父亲们的身高与儿子们的身高之间的关系

时,建立了回归分析法。

Page 18: 第一节  相关与回归概述

父亲们的身高与儿子们的身高之间关系的研究

• 1889 年 F.Gallton 和他的朋友 K.Pearson 收集了上千个家庭的身高、臂长和腿长的记录

• 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式

• 下图是根据 1078 个家庭的调查所作的散点图(略图)

Page 19: 第一节  相关与回归概述

y

x160

165

170

175

180

185

140 150 160 170 180 190 200

Y

X

儿子们身高向着平均身高“回归”,以保持种族的稳定

Page 20: 第一节  相关与回归概述

• 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:

xy

ubxay

516.033.84ˆ

• 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见 1889 年 F.Gallton 的论文《普用回归定律》。

• 后人将此种方法普遍用于寻找变量之间的规律

Page 21: 第一节  相关与回归概述

2 、回归分析的类型2 、回归分析的类型( 1 )根据变量的多少分为:一元回归一元回归

多元回归多元回归

只有一个自变量和一个因变量的回归

自变量数目在两个或两个以上

( 2 )按变量变化的表现形式分为:

线性回归线性回归

非线性回归非线性回归

从所拟合的回归模型来看,一变量从所拟合的回归模型来看,一变量表现为其它变量的线性组合。表现为其它变量的线性组合。

从所拟合的回归模型来看,一变量从所拟合的回归模型来看,一变量表现为其它变量的非线性组合表现为其它变量的非线性组合

Page 22: 第一节  相关与回归概述

3 、回归分析的主要内容3 、回归分析的主要内容

( 1)利用样本数确定变量之间的数学表达式。

( 2)对回归方程、参数估计值进行显著性检验。

( 3)根据回归方程对因变量进行估计和预测。

Page 23: 第一节  相关与回归概述

(三)相关分析与回归分析的关系(三)相关分析与回归分析的关系(三)相关分析与回归分析的关系(三)相关分析与回归分析的关系

理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好; 相关系数和回归系数方向一致,可以互相推算。

11 、二者之间的联系:、二者之间的联系:

Page 24: 第一节  相关与回归概述

两者的任务和目的不同。 相关分析只测定相关程度和方向,回归分析则建立回归模型反映变量间相互关系的具体形式,并根据模型进行预测和控制;两者所涉及的变量在性质上的不同。 相关分析中 x 与 y 对等,均为随机变量,回归分析中 x 与 y 要确定自变量和因变量,只有 y 为随机变量。

22 、二者之间的区别:、二者之间的区别:

Page 25: 第一节  相关与回归概述

第二节 相关关系的测度第二节 相关关系的测度

相关关系的测定相关关系的测定相关关系的测定相关关系的测定

定性分析定性分析是依据研究者的是依据研究者的理论知识和实践经理论知识和实践经验验,对客观现象之间是否存在相关,对客观现象之间是否存在相关关系,以及何种关系作出判断关系,以及何种关系作出判断

定量分析定量分析在定性分析的基础上,通过编制在定性分析的基础上,通过编制相相关表关表、绘制、绘制相关图相关图、计算、计算相关系数相关系数与与判定系数判定系数等方法,来判断现象之等方法,来判断现象之间相关的方向、形态及密切程度间相关的方向、形态及密切程度

Page 26: 第一节  相关与回归概述

(一)相关表(一)相关表(一)相关表(一)相关表

一、相关表和相关图一、相关表和相关图一、相关表和相关图一、相关表和相关图

将两个变量伴随变动结果编成一张统计表,即相关表。

11 、简单相关表、简单相关表11 、简单相关表、简单相关表 两个变量均不分组而形成的相关表。

22 、分组相关表、分组相关表22 、分组相关表、分组相关表对变量进行分组而形成的相关表。依两个变量是否同时分组,又分为:

单变量分组相关表单变量分组相关表单变量分组相关表单变量分组相关表

单变量分组相关表单变量分组相关表单变量分组相关表单变量分组相关表

只对其中一个变量分组。

对两个变量同时分组。

Page 27: 第一节  相关与回归概述

简单简单相关表相关表

适用于所观察的样本适用于所观察的样本单位数单位数较少较少,,不需要分组不需要分组的情况的情况

分组分组相关表相关表

适用于所观察的适用于所观察的样本单位数样本单位数较多,标志变异又较复杂较多,标志变异又较复杂,,需要分组的情况需要分组的情况

两种相关表的适用范围两种相关表的适用范围两种相关表的适用范围两种相关表的适用范围

Page 28: 第一节  相关与回归概述

企业编号 月产量(千吨) X 生产费用(万元) Y

1

2

3

4

5

6

7

8

1.2

2.0

3.1

3.8

5.0

6.1

7.2

8.0

62

86

80

110

115

132

135

160

八个同类工业企业的月产量与生产费用11 、简单相关表、简单相关表11 、简单相关表、简单相关表

Page 29: 第一节  相关与回归概述

平均每昼夜产量

固定资产原值35~

4040~

4545~

5050~

5555~

6060~

6565~

70

600~ 650 1 1550~ 600 1 2 3500~ 550 2 1 3450~ 500 1 5 1 7400~ 450 2 2 4350~ 400 0300~ 350 2 2

2 2 3 5 4 3 1 20

(百万元)

(吨) Yf

Xf

20 个同类工业企业固定资产原值与平均每昼夜产量22 、分组相关表、分组相关表22 、分组相关表、分组相关表

Page 30: 第一节  相关与回归概述

相关图相关图相关图相关图

(二)相关图(二)相关图(二)相关图(二)相关图

将变量之间的伴随变动绘于坐标图上所形成的统计图。又称散点图,散布图。

简单相关图简单相关图简单相关图简单相关图 根据未分组资料的原始数据直接绘制的相关图。

分组相关图分组相关图分组相关图分组相关图 根据分组资料绘制的相关图。

Page 31: 第一节  相关与回归概述

正 相 关 负 相 关 曲线相关 不 相 关 x

y

x

y

x

y

x

y

用直角坐标系的 x轴代表自变量, y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。

相关图的绘制相关图的绘制相关图的绘制相关图的绘制

Page 32: 第一节  相关与回归概述

ÌåÖØ

90807060504030

Éí¸ß

180

170

160

150

X

Y

Page 33: 第一节  相关与回归概述

在直线相关直线相关的条件下,用以反映两变量 间线性线性相关 相关 密切程度的相关系数称为简单相关系数。

二、相关系数二、相关系数二、相关系数二、相关系数

(一)相关系数的含义(一)相关系数的含义(一)相关系数的含义(一)相关系数的含义

相关系数是测度变量之间相关关系程度的指标。

Page 34: 第一节  相关与回归概述

2222

22

2

)(

yynxxn

yxxyn

nyynxx

nyyxx

SS

Sr

yx

xy

其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。

(二)简单线性相关系数(二)简单线性相关系数(二)简单线性相关系数(二)简单线性相关系数若相关系数是依据总体全部数据计算的,称为总体相关系数。记为 ρ ;若是依据样本数据计算的,则称为样本相关系数,即为 r 。

Page 35: 第一节  相关与回归概述

(三)相关系数的取值范围和意义(三)相关系数的取值范围和意义(三)相关系数的取值范围和意义(三)相关系数的取值范围和意义

相关系数 r的取值范围: -1≤r≤1-1≤r≤1

r>0 为正相关, r < 0 为负相关;

|r|=0 表示不存在线性关系;

|r|= 1 表示完全线性相关;

Page 36: 第一节  相关与回归概述

0<|r|<10<|r|<1 表示存在不同程度线性相关:表示存在不同程度线性相关:

|r| < 0.4 为低度线性相关;

0.4≤ |r| < 0.7 为显著性线性相关;

0.7≤|r| < 1.0 为高度显著性线性相关。

(四)相关系数的计算(四)相关系数的计算(四)相关系数的计算(四)相关系数的计算

1 、按极差法相关系数公式计算

2 、相关系数的简捷计算法【例】【例】计算工业总产值与能源消耗量之间的相计算工业总产值与能源消耗量之间的相关系数 关系数 资料资料

Page 37: 第一节  相关与回归概述

序号 能源消耗量(十万吨) x

工业总产值(亿元) y x2 y2 xy

123456789

10111213141516

35384042495254596264656869717276

24252428323137404140475049514858

1225144416001764240127042916348138444096422546244761504151845776

576625576784

1024961

1369160016811600220925002401260123043364

840950960

1176156816121998236025422560305534003381362134564408

合计 916 625 55086 26175 37887

Page 38: 第一节  相关与回归概述

9520.09757.0

9757.062526175169165508616

6259163788716

)(

26175,55086,37887

,625,916,16

22

22

2222

22

r

yynxxn

yxxynr

yxxy

yxn解:已知

结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量 x 的变化能够解释工业总产值 y 变化的 95.2﹪。

Page 39: 第一节  相关与回归概述

•相关关系不等于因果关系;•相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;•极端值可能影响相关系数。•注意相关关系成立的数据范围。•警惕虚假相关

使用相关系数时应注意的问题:使用相关系数时应注意的问题:使用相关系数时应注意的问题:使用相关系数时应注意的问题:

Page 40: 第一节  相关与回归概述

第三节 一元线性回归分析第三节 一元线性回归分析

回归分析回归分析 通过一个变量 x或一些变量 (x1,x2,x3…)的变化解释另一变量 y的变化 .即根据相关关系的数量表达式(回归方程式)与给定的自变量 x,揭示因变量 y在数量上的平均变化和求得因变量的预测值的统计分析方法

回归:退回 regression

回归方程回归方程

回归模型回归模型

反映自变量和因变量之间数学联系的表达式。

某一类回归方程的总称。

Page 41: 第一节  相关与回归概述

自变量 (independent variable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。

因变量 (dependent variable):响应变量,由自变量来解释其变化的变量。

X

Y

X

Y

••

••

••

• •

Page 42: 第一节  相关与回归概述

回归分析的内容和步骤回归分析的内容和步骤

1 、根据理论和对问题的分析判断, 区分自变量和因变量; 2 、设法找出适合的数学方程式( 即 回归模型 )描述变量间的关系 3 、对回归模型进行统计检验;

4 、统计检验通过后,利用回归模型,根据解释变量去估计,预测 因变量。

Page 43: 第一节  相关与回归概述

一、一元线性回归模型一、一元线性回归模型一、一元线性回归模型一、一元线性回归模型

指根据成对的两个变量的数值,配合直线方程式,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为:

iii uXy 总体回归模型

(一)总体回归模型(一)总体回归模型(一)总体回归模型(一)总体回归模型

( i=1,2, … , N)

Page 44: 第一节  相关与回归概述

其中: Yi 表示因变量 Y在总体中某一个具体的观察值;Xi 表示在研究总体中自变量 X的具体观察数值;N为总体单位数;α、 β是参数,称为回归系数;ui 为随机误差项,表示除 X以外的其他各种因素对 Y的影响,其平均数为 0,方差为 σ2 。 总体一元回归模型可改写成:

uXY 10

模型参数

误差项

假定:E(u)=0

Page 45: 第一节  相关与回归概述

总体一元线性回归方程:

ii XYE 10)(

对于一个给定的 Xi ,将可能有多个不同的 Yi 与之对应。但是所有可能出现的 Yi 值服从一定的总体分布,其波动中心是它的期望值 E(Yi) 。散布点到该直线的垂直坐标距离即为随机误差项 ui :

ui=Yi -E(Yi )

Page 46: 第一节  相关与回归概述

在实际应用中,我们对 X 和 Y 所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为 :

(二)样本回归模型(二)样本回归模型(二)样本回归模型(二)样本回归模型

ii bxay ˆ

其中: a, b分别为 α、 β的估计量。

样本回归方程

(i=1 , 2 ,… , n)

Page 47: 第一节  相关与回归概述

由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值 a 、 b尽量接近总体真实参数α、 β。

iy

样本的实际观测值 yi 与样本回归方程估计值 并不完全相等,而是存在着一定偏差,这一偏差称为残差,用 ei 表示。

iy

iii yye ˆ

ei 可作为随机误差项 ui 的估计,因此样本回归模型 :

iii ebxay ˆ

Page 48: 第一节  相关与回归概述

一元线性回归方程的几何意义一元线性回归方程的几何意义一元线性回归方程的几何意义一元线性回归方程的几何意义)(YE

X

XY ˆ

截距 斜率

一元线性回归方程的可能形态

为正 为负 为 0

Page 49: 第一节  相关与回归概述

XYEY ˆ总体一元线性总体一元线性回归方程回归方程 ::

样本一元线性回归方程:样本一元线性回归方程: bxay ˆ以样本统计量估计总体参数

斜率(回归系数)截距

截距 a 表示在没有自变量 x 的影响时,其它各种因素对因变量 y 的平均影响;回归系数 b 表明自变量 x 每变动一个单位,因变量 y 平均变动 b 个单位。

截距 a 表示在没有自变量 x 的影响时,其它各种因素对因变量 y 的平均影响;回归系数 b 表明自变量 x 每变动一个单位,因变量 y 平均变动 b 个单位。

(( 估计的回归方程估计的回归方程 ))

Page 50: 第一节  相关与回归概述

iiii eyebxay

y

yxbxay

ˆ)(

ˆ

值应为的实际而变量之间的平均变动关系,变量与是理论模型,表明

随机干扰:随机干扰:各种偶然各种偶然因素、观察误差和其因素、观察误差和其他被忽视因素的影响他被忽视因素的影响

XX 对对 yy 的线性影响而形的线性影响而形成的系统部分,反映两成的系统部分,反映两变量的平均变动关系,变量的平均变动关系,即本质特征。即本质特征。

Page 51: 第一节  相关与回归概述

10名学生的身高与体重散点图

40

45

50

55

60

65

70

75

158 163 168 173 178身高(X)

Y体重()

bxay ˆ

bxay

残差 (Residual):e

Page 52: 第一节  相关与回归概述

二、回归模型的假设二、回归模型的假设二、回归模型的假设二、回归模型的假设

3 、独立性假定

2、同方差假定

不同的误差项 ui 和 uj 之间相互独立,即 COV(ui , uj)=E(ui , uj) =0( i≠j ; i=1,2,…, n; j=1,2,…,n )

1 、零均值假定 每个随机误差项 ui 的期望值(均值)为 0 ,即: E(ui) = 0 (i=1,2, … , n)

每个随机误差项 ui 的方差均为同一个常数 ,即: Var(ui) = σ2

u (i=1,2, … , n)

Page 53: 第一节  相关与回归概述

5、正态性假定 ui 是服从正态分布的随机变量,即 ui ~ N(0,σ2u)

4、不相关假定 解释变量与误差项不相关,即 COV(Xi , uj)=E[(Xi-E(Xi))uj]=0

由于 yi 是 ui 的线性函数,而 ui 是服从正态分布的随机变量,所以 yi 也服从正态分布,即

yi ~ N(α+βXi ,σ2u)

Page 54: 第一节  相关与回归概述

一元线性回归模型的一元线性回归模型的假定假定

x

y

0x1xx

2xx 3xx xyE )(

)(yf

uxy

0)( uE

0),( ji uuCov

2)()( ii yVaruVar

0),( ii xuCov)( iyE

)( iyf

Page 55: 第一节  相关与回归概述

一元线性回归方程一元线性回归方程中参数中参数 aa 、、 bb 的确定的确定::

bxay ˆ

最小二乘法,即最小平方法最小二乘法,即最小平方法

基本数学要求

min)ˆ(

0ˆ2yy

yy

三、一元线性回归方程的拟合三、一元线性回归方程的拟合

Page 56: 第一节  相关与回归概述

02

012

min,min)ˆ( 22

xbxay

bxay

ba

bxayyy

,有求偏导数,并令其为零、分别对函数中

,有由

整理得到由两个关于整理得到由两个关于 aa 、、 bb的二元一次方程组成的方程组:的二元一次方程组成的方程组:

2xbxaxy

xbnay

Page 57: 第一节  相关与回归概述

xbyn

xb

n

ya

xxn

yxxynb

22 )(

进一步整理,有:进一步整理,有:

Page 58: 第一节  相关与回归概述

10名学生的身高与体重散点图

40

45

50

55

60

65

70

75

158 160 162 164 166 168 170 172 174 176 178身高(X)

Y体重()

学生

身高x

体重y x2 y2 xy 估计值

ŷ残差y-ŷ

ABCDEFGHIJ

158160162164166168170172174176

47504855626052617065

24964

25600

26244

26896

27556

28224

28900

29584

30276

30976

2209250023043025384436002704372149004225

742680007776902010292

10080

884010492

12180

11440

47.29149.44851.60653.76455.92158.07960.23662.39464.55266.709

-0.291

0.552-

3.606

1.236

6.079

1.921-

8.236-

1.394

5.448-

1.709

1670

570

279220

33032

95546

- 0

1596.1231670788.157

0788.1167027922010

570167095546102

a

b

xy 0788.11596.123ˆ

571670788.11596.123ˆ

167

y

x

Page 59: 第一节  相关与回归概述

【分析】因为工业总产值与能源消耗量之间存【分析】因为工业总产值与能源消耗量之间存在高度正相关关系( ),所以可以拟在高度正相关关系( ),所以可以拟合工业总产值对能源消耗量的线性回归方程。合工业总产值对能源消耗量的线性回归方程。

9520.0,9757.0 2 rr

【例】【例】建立工业总产值对能源消耗量的线建立工业总产值对能源消耗量的线性回归方程 性回归方程 资料资料

,55086,37887

,625,916,162xxy

yxn由计算表知

解:设解:设线性回归方程为线性回归方程为 bxay ˆ

Page 60: 第一节  相关与回归概述

5142.6

16

9167961.0

16

625

7961.09165508616

6259163788716222

xbya

xxn

yxxynb

即即线性回归方程为:线性回归方程为:xy 7961.05142.6ˆ

计算结果表明,在其他条件不变时,能源消耗计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将量每增加一个单位(十万吨),工业总产值将增加增加 0.79610.7961个单位(亿元)。个单位(亿元)。

Page 61: 第一节  相关与回归概述

最小二乘法估计的优良性质最小二乘法估计的优良性质最小二乘法估计的优良性质最小二乘法估计的优良性质残差之和为零所拟合直线通过样本散点图的重心误差项与解释变量不相关a与 b分别是总体回归系数的无偏估计量

a与 b均为服从正态分布的随机变量

))(

,(~))(

,(~2

2

2

22

xxNb

xx

xNa

0 e

),( yx

0))(( xxee

)()( bEaE

Page 62: 第一节  相关与回归概述

bb 与与 rr 的关系:的关系:

r> 0 r< 0 r=0

b> 0 b< 0 b=0

x

y

y

x

S

Srb

S

Sbr ;

Page 63: 第一节  相关与回归概述

四、一元线性回归方程的统计检验四、一元线性回归方程的统计检验四、一元线性回归方程的统计检验四、一元线性回归方程的统计检验

(一)拟合优度检验(一)拟合优度检验

11 、总离差平方和的分解、总离差平方和的分解11 、总离差平方和的分解、总离差平方和的分解

总离差平方和 = 回归离差平方和 + 残差平方和

对于一个拟合效果较好的回归方程,总离差平方和与回归离差平方和应该比较接近。

Page 64: 第一节  相关与回归概述

22 )( yynTSS

22

2

)(

)(

xxn

yxxynRSS

2)( bxayESS

TSS=RSS+ESS

总离差平方和总离差平方和

回归平方和回归平方和

误差平方和误差平方和

Page 65: 第一节  相关与回归概述

10名学生的身高与体重散点图

40

45

50

55

60

65

70

75

158 160 162 164 166 168 170 172 174 176 178身高(X)

Y体重()

y

y

yy yy ˆ

yy ˆ

2)( yyTSS

2)ˆ( yyESS

2)ˆ( yyRSS

误差平方和

回归平方和

总离差平方和

Page 66: 第一节  相关与回归概述

确定回归直线后,需要评价这一直线方程是否有效地反映了这两变量之间的关系。评价回归方程配合好坏的一个主要指标是判定系数 ( 或称确定系数 )

是相关系数的平方,用 表示;用来衡量回归方程对 y的解释程度。

2r

10 2 r判定系数取值范围:

越接近于 1,表明 x与 y之间的相关性越强; 越接近于 0,表明两个变量之间几乎没有直线相关关系 .

2r2r

22 、判定系数、判定系数22 、判定系数、判定系数 2r

判定系数判定系数判定系数判定系数

Page 67: 第一节  相关与回归概述

r2 表示全部偏差中有百分之几的偏差可由 x 与 y的回归关系来解释

r 的符号同 b

判定系数的计算公式判定系数的计算公式

Page 68: 第一节  相关与回归概述

2222 )()(

yynxxn

yxxynr

判定系数与相关系数的关系判定系数与相关系数的关系

2)( rbr 的符号

))(())((

)(2222

22

yynxxn

yxxynr

Page 69: 第一节  相关与回归概述

学生

身高 体重 估计值

A

B

C

D

E

F

G

H

I

J

158

160

162

164

166

168

170

172

174

176

47

50

48

55

62

60

52

61

70

65

24964

25600

26244

26896

27556

28224

28900

29584

30276

30976

2209

2500

2304

3025

3844

3600

2704

3721

4900

4225

7426

8000

7776

9020

10292

10080

8840

10492

12180

11440

47.29

49.45

51.61

53.76

55.92

58.08

60.24

62.39

64.55

66.71

-9.71

-7.55

-5.39

-3.24

-1.08

1.08

3.24

5.39

7.55

9.71

-10

-7

-9

-2

5

3

-5

4

13

8

1670570

279220 33032 95546 - 0 0

x y2x 2y xy

yyy ˆ yy

7085.0542

384

)(

)ˆ(2

22

yy

yy

SST

SSRr

7086.054203300

3560

)5703303210()167027922010(

)57016709554610(

))(())((

)(

2

22

2

2222

22

yynxxn

yxxynr

7086.0542

05.3845710330320

5710955460788.15701596.1232

2

22

22

yny

ynxybyar

Page 70: 第一节  相关与回归概述

判定系数与相关系数的区别:判定系数与相关系数的区别:判定系数判定系数无方向性,相关系数相关系数则有方向,其方向与样本回归系数 b 相同;判定系数判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数相关系数只说明两变量间关联程度及方向;相关系数相关系数有夸大变量间相关程度的倾向,因而判定系数判定系数是更好的度量值。

Page 71: 第一节  相关与回归概述

判定系数仅能说明回归方程对样本观察值拟合程度的高低,却不能表明回归直线估计值与各实际观察值的绝对离差的数额。估计标准误差正是反映回归直线代表性高低的指标。用 syx 表示估计标准误差,其计算公式如下:

33 、估计标准误差、估计标准误差33 、估计标准误差、估计标准误差

2

)ˆ( 2

n

yyS ii

yx

n-2 表示残差平方和的自由度,对于回归直线而言, Syx 值越小,所有样本观察点越靠近回归直线,即回归直线拟合程度好,代表性高; Syx 值越大,则说明回归直线拟合不好,代表性差。

Page 72: 第一节  相关与回归概述

回归分析中我们最关心的是:

X 与 Y 是否有真正的相关关系。即: ?0?0 11

01

01

01

(二)线性回归方程的显著性检验(二)线性回归方程的显著性检验(二)线性回归方程的显著性检验(二)线性回归方程的显著性检验

Page 73: 第一节  相关与回归概述

1 、回归系数 b 的显著性检验

( 1 )提出假设;

( 2 )构造检验统计量;

( 3 )根据给定的显著性水平和自由度( n-2 ),确定临界值;

( 4 )确定原假设的拒绝规则;

( 5 )计算检验统计量并做出决策。

0:0: 1110 HH

bbt )( 1

)2(, 2 nt

22 ttt

Page 74: 第一节  相关与回归概述

统计理论已经证明

1)( bE

222

22

)(1)(

xn

xxx

eb

eb

)2(~)(

10

22

ntx

nxb

bt

eb

2

n

ESSS yxe

Page 75: 第一节  相关与回归概述

学生

身高 体重 估计值

A

B

C

D

E

F

G

H

I

J

158

160

162

164

166

168

170

172

174

176

47

50

48

55

62

60

52

61

70

65

24964

25600

26244

26896

27556

28224

28900

29584

30276

30976

2209

2500

2304

3025

3844

3600

2704

3721

4900

4225

7426

8000

7776

9020

10292

10080

8840

10492

12180

11440

47.29

49.45

51.61

53.76

55.92

58.08

60.24

62.39

64.55

66.71

-9.71

-7.55

-5.39

-3.24

-1.08

1.08

3.24

5.39

7.55

9.71

-10

-7

-9

-2

5

3

-5

4

13

8

1670570

279220 33032 95546 - 0 0

2x 2y xy y yy ˆ yy x y

0788.1b 542TSS 384RSS 158ESS

444.4Syx 41.4t

Page 76: 第一节  相关与回归概述

5421057033032

)(1

2

22

yn

yTSS

384101670279220

)10570167095546(

)(1

)1

(

2

2

22

2

x

nx

yxn

xyRSS

Page 77: 第一节  相关与回归概述

158384542 RSSTSSESS

444.4210

158

2

n

ESSS yx

Page 78: 第一节  相关与回归概述

41.4444.4

1016702792200788.1

)(1

2

22

eS

xn

xbt

Page 79: 第一节  相关与回归概述

31.2)8(41.4 025.0 tt检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为 b 明显地不等于零, X 与 Y 是显著的。

31.2)210()2( 025.02 tnt

Page 80: 第一节  相关与回归概述

F 检验是基于 F 分布进行的,是方差分析内容之一。

方差来源 平方和 自由度 均方 F 值回归误差总计

RSS

ESS

TSS

1

n-2

n-1 2

1

n

ESSMSE

RSSMSR

MSE

MSRF

均方回归 均方误差

2 、回归方程的显著性检验( F 检验)

Page 81: 第一节  相关与回归概述

•当 1 = 0 时, SSR= 0 ,则 F 值 =0 。

•当 1 0 时, SSR> 0 ,则 F 值>0 。

•当我们设 1 = 0 时,则较大的 F 值将推翻这一假设。

)2,1(~ nFMSE

MSRF

384RSS 158ESS

32.5)8,1(),( 05.021 FnnF

44.198158

384

)2

1

nESS

RSS

MSE

MSRF

0:0: 1110 HH

FF 故拒绝原假设,接受备择假设,即认为回归方程是显著的。

Page 82: 第一节  相关与回归概述

五、利用回归方程进行预测五、利用回归方程进行预测五、利用回归方程进行预测五、利用回归方程进行预测

估计的前提:回归方程经过检验,证明 X 和 Y 的关系在统计上是显著相关的。

对于给定的 X 值,求出 Y 的一个预测值。

11 、点预测、点预测11 、点预测、点预测

Page 83: 第一节  相关与回归概述

点预测点预测点预测点预测

0x

bxay ˆ

y

x

xy 7961.05142.6ˆ 对于

若 x = 80 (十万吨),则:

亿元1738.57807961.05142.6ˆ y

Page 84: 第一节  相关与回归概述

1. 点预测不能提供预测的精确度。

2. 在样本自变量取值范围之外进行预测要特别谨慎。

使用点预测应注意的问题:

Page 85: 第一节  相关与回归概述

ybxay ˆ

x0x

22 、区间估计、区间估计22 、区间估计、区间估计

对于给定的 x = x0 , Y 的 1-置信区间为

对于给定的 X 值,求出 Y 的平均值的置信区间或 Y 的一个个别值的预测区间。

Page 86: 第一节  相关与回归概述

yty ˆ20ˆ 自由度为 n-2 的 t 分布的 水平双侧分位数

nxx

xx

nSty yx 22

20

20 )(

)(11ˆ

即:即: 2

2

n

xybyayS yx

Page 87: 第一节  相关与回归概述

Y 的预测值的区间估计 对于给定的 X= X0 ,如果要预测 Y 的一个个别值 Y0 的置信区间,则其相应的残差为:

Y 的个别值相对于其平均值的方差当 X=X0 时,

所估计的 Y0

的方差组成 与用 Ŷ 估计 Y平均值相联系的方差

2

2y

000 YY

Page 88: 第一节  相关与回归概述

即: Y0 的方差为:

nxx

xx

ny 22

20222

)(

)(10

2y

nxx

xx

ny 22

2022

)(

)(11

0 即:

则: Y 的一个个别值 Y0 的标准差的估计值为:

nxx

xx

nS yxy 22

20

)(

)(11

0

Page 89: 第一节  相关与回归概述

对于给定的 X0 , Y 的一个个别值 Y0 的预测区间估计值为:

020 yty

也就是:

nxx

xx

nSty yx 22

20

20 )(

)(11

Page 90: 第一节  相关与回归概述

学生

身高 体重 估计值

A

B

C

D

E

F

G

H

I

J

158

160

162

164

166

168

170

172

174

176

47

50

48

55

62

60

52

61

70

65

24964

25600

26244

26896

27556

28224

28900

29584

30276

30976

2209

2500

2304

3025

3844

3600

2704

3721

4900

4225

7426

8000

7776

9020

10292

10080

8840

10492

12180

11440

47.29

49.45

51.61

53.76

55.92

58.08

60.24

62.39

64.55

66.71

-9.71

-7.55

-5.39

-3.24

-1.08

1.08

3.24

5.39

7.55

9.71

-10

-7

-9

-2

5

3

-5

4

13

8

1670570

279220 33032 95546 - 0 0

2xx y2y xy y yy ˆ yy xy 0788.11596.123ˆ 444.4yxS

若令 =0.05 ,则有 t/2 ( n-2 ) = 2.31

767.67,233.46

661.431.257

571670788.11596.123

661.410

11444.4

101670279220

)167167(

10

11444.4:167

0

0

20

0

2

2

y

y

ty

y

x

当 时, 得到最小值。当 时, 的值随 的减少或增加而逐步增大。

xx 0y

xx 0

yx

Page 91: 第一节  相关与回归概述

10名学生的身高与体重散点图

35

40

45

50

55

60

65

70

75

80

158 160 162 164 166 168 170 172 174 176 178身高(X)

Y体重()

x

Page 92: 第一节  相关与回归概述

第四节 多元线性回归分析第四节 多元线性回归分析

回归分析回归分析 通过一个变量 x或一些变量 (x1,x2,x3…)的变化解释另一变量 y的变化 .即根据相关关系的数量表达式(回归方程式)与给定的自变量 x,揭示因变量 y在数量上的平均变化和求得因变量的预测值的统计分析方法

回归:退回 regression

回归方程回归方程

回归模型回归模型

反映自变量和因变量之间数学联系的表达式。

某一类回归方程的总称。

Page 93: 第一节  相关与回归概述