第 7 章 相关与 回归分析
DESCRIPTION
第 7 章 相关与 回归分析. 会计学 2011 级 主讲:王红娜. 本章内容. 7.1 相关分析 7.2 一元线性回归分析 7.3 线性回归的显著性检验与回归预测. 本章小结. 实例 : 全球吃死的人比饿死的人 多?. 据世界卫生组织统计,全球肥胖症患者达 3 亿人,其中儿童占 2200 万人, 11 亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 ( 引自 《 光明日报 》 刘军 / 文) 问题 : 肥胖症和体重超常与死亡人数真有显著的数量关系吗 ? - PowerPoint PPT PresentationTRANSCRIPT
第 7 章 相关与回归分析
会计学 2011 级主讲:王红娜
本章内容7.1 相关分析7.2 一元线性回归分析7.3 线性回归的显著性检验与回归预测
本章小结
实例 : 全球吃死的人比饿死的人多?– 据世界卫生组织统计,全球肥胖症患者达 3 亿人,其
中儿童占 2200 万人, 11 亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。
(引自《光明日报》刘军 / 文)
问题 : 肥胖症和体重超常与死亡人数真有显著的数量关系吗 ?
这些类型的问题可以运用相关分析与回归分析的方法去解决。
7.1 教学要求 了解变量间的相互关系:函数关系,相关关系 理解相关关系的种类– 单相关、复相关;线性相关、非线性相关;正相关、
负相关 掌握相关关系的描述方法:相关表,相关图 理解总体相关系数与样本相关系数,掌握样本相关
系数的计算及其特点 掌握相关系数的检验方法 掌握 Spearman 等级相关系数的计算方法
7.1 相关分析
相关关系的概念
相关系数
Spearman 等级相关系数
TO :7.2
一、相关关系的概念
变量间的相互关系1
相关关系的种类2
相关关系的描述3
变量间的相互关系
1. 确定性的函数关系:
2. 不确定性的统计关系——相关关系
3. 没有关系 变量间关系的图形描述:– 坐标图(散点图)
相关关系的例子 商品的消费量 () 与居民收入 () 之间的关系 商品销售额 () 与广告费支出 () 之间的关系 粮食亩产量 () 与施肥量 () 、降雨量 () 、温
度 () 之间的关系 收入水平 () 与受教育程度 () 之间的关系 子女身高 () 与父亲身高 () 之间的关系
相关关系的种类
相关关系
自变量的数量 表现形式 方向 密切程度
一元相关
多元相关
线性相关
非线性相
关正相关
负相关
完全相关
一般相关
零相关
一元相关与多元相关 一元相关– 又称简单相关,指两个变量之间的相关关系。
如:商品需求量与其价格之间 多元相关– 又称复相关,指三个或三个以上变量之间的相关关
系。商品需求量与其价格水平、职工收入水平之间的关系。
线性相关与非线性相关 线性相关– 又称直线相关,指随着一个变量的值的变动,另一
个变量的值发生大致相等的变动,因而表现在坐标图上,其散点的分布近似表现为一条直线。如:某种商品的销售量与销售额之间
非线性相关– 又称曲线相关,指随着一个变量的值的变动,另一
个变量的值发生不均等的变动,因而表现在坐标图上,其散点的分布近似表现为各种不同形式的曲线。如:商品销售额与流通费用之间
正相关与负相关 正相关– 指两个相关变量变化方向一致。即随着一个变量的
值增加,另一个变量的值也随之增加;或随着一个变量的值的减少,另一个变量的值也随之减少。如:产品原材料价格与产品成本之间
负相关– 指两个变量变化方向相反。即随着一个变量的值的
增加或减少,另一个变量的值反而随之减少或增加。劳动生产率与产品的成本之间。
从变量相关关系变化的方向看– 正相关——变量同方向变化 同增同减 (A)– 负相关——变量反方向变化 一增一减 (B)
从变量相关的程度看– 完全相关 (B)
– 不完全相关 (A)
– 不相关 (C)
A
B
C
完全相关、零相关、不完全相关 完全相关– 指一个变量的值可由另一个或另一组变量的值所唯
一确定。因而完全相关 实际上是函数关系。 零相关– 又称不相关,指两个变量间相互独立,互不影响,二者的数量变化毫无联系。如:在销售价格不变的情况下,某种商品的销售额与
销售量之间呈完全相关;而 电脑的销售量与烟酒的销售量之间一般是不相关的。
不完全相关– 指介于完全相关与不相关间的变量关系。表现为某
一变量的变化,其数值不仅取决于另一个或另一组变量所取的值,而且还受到其他随机因素的影响。
– 变量间的关系,大量表现为不完全相关。
相关关系的图示
相关关系的描述 相关表– 是直接根据现象之间的原始数据,将一个变量的若干变量值按从小到大的顺序排列,并将另一个变量的值与之对应排列形成统计表。
相关图– 又称散点图,将两个变量建相对应的变脸用坐标点
的形式描绘出来,用以表示相关点分布状况的图形。
例子 有 10 个同类企业的生产性固定资产年平均价值和
工业总产值的资料如下表所示。
相关表为:
返回 7.1 目录
二、相关系数
总体相关系数
样本相关系数
相关系数的特点
相关系数的测度
相关系数的检验
1
2
3
4
5
相关系数——总体相关系数对于所研究的总体,表示两个相互联系变量相关程
度的总体相关系数为:
总体相关系数反映总体两个变量和的线性相关程度。 特点:– 对于特定的总体来说,和的数值是既定的– 总体相关系数是客观存在的特定数值。
相关系数——样本相关系数 通过和的样本观测值去估计样本相关系数变量 和的样本相关系数通常用表示,或简记为。
特点:– 样本相关系数是根据从总体中抽取的随机样本的观
测值计算出来的,是对总体相关系数的估计,它是个随机变量。
相关系数的特点
1. 相关系数的取值在 -1 与 1 之间。2. 当时,表明与没有线性相关关系。3. 当时,表明与存在一定的线性相关关系:– 若,表明与为正相关;– 若,表明与为负相关。
4. 当时,表明与完全线性相关:– 若,称与完全正相关;– 若,称与完全负相关。
相关关系的测度(相关系数取值及其意义)
-1.0 +1.00-0.5 +0.5
完全负相关 无线性相关 完全正相关
负相关程度增加r
正相关程度增加
相关关系的测度(相关系数计算) 在研究我国人均消费水平的问题中,把全国人均消
费额记为,把人均国民收入记为。我们收集到1981~ 1993年的样本数据 ( , ) ,,数据见下表,计算相关系数。
相关关系的测度(计算结果) 解:根据样本相关系数的计算公式有
所以,人均国民收入与人均消费金额之间的相关系数为 0.9987 。
使用相关系数的注意事项 和都是相互对称的随机变量,所以
相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。
相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。
相关系数的检验 为什么要检验?– 样本相关系数是随抽样而变动的随机变量,相关系
数的统计显著性还有待检验。 检验的依据:– 如果与都服从正态分布,在总体相关系数的假设下,
与样本相关系数有关的统计量服从自由度为的分布:
相关系数的检验方法给定显著性水平,查自由度为的临界值– 若,表明相关系数在统计上是显著的,应否定而接
受的假设;– 反之,若,则不否定的假设。
返回 7.1 目录
三、 Spearman 等级相关系数
Spearman 等级相关系数的定义
Spearman 等级相关系数的特性
Spearman 等级相关系数的定义当变量不满足正态分布要求或不是数量型变量时,
简单线性相关系数不宜使用,可以用 Spearman
等级相关系数作相关性分析。对于样本容量为的变量和,如果和的取值都可以分
为个等级,而且样本的个单位分别不重复地属于和的不同等级,即没有两个单位取相同等级,用表示样本单位属于的等级与的等级的级差。 Spearman 等级相关系数为:
例题分析某次全国武术表演赛,女子前 10名运动员长拳和长兵器两项得分如右表,试求两项目的等级相关系数。
编号 长拳 长兵器
1 9. 00 9.25
2 8.90 9.15
3 8.90 9.10
4 8.90 8.95
5 8.85 9.10
6 8.85 9.10
7 8.80 8.85
8 8.80 8.70
9 8.80 9.10
10 8.80 9.10
1. 定等级– 将长拳的成绩从高到低进行排序,长兵器的成绩对应排列
– 成绩相同的,等级相等,等于其排序和的平均值
2. 计算等级差3. 计算等级相关系数
编号
长拳 长兵器 等级 等级 等级差
1 9. 00 9.25 1 1 0 0
2 8.90 9.15 3 2 1 1
3 8.90 9.10 3 5 -2 4
4 8.90 8.95 3 8 -5 25
5 8.85 9.10 5.5 5 0.5 0.25
6 8.85 9.10 5.5 5 0.5 0.25
7 8.80 8.85 8.5 9 -0.5 0.25
8 8.80 8.70 8.5 10 -1.5 2.25
9 8.80 9.10 8.5 5 3.5 12.25
10 8.80 9.10 8.5 5 3.5 12.25
Spearman 等级相关系数的特性Spearman 样本等级相关系数的取值范围是:
– 时,说明样本等级完全正相关;– 时,样本等级完全负相关;– 时,说明样本等级不相关;– 时,越接近 1 ,正相关程度越高;时,越接近 -1 ,负相关程度越高。
可以证明: Spearman 等级相关系数是简单线性相关系数的特例。
相关分析小结 相关分析要研究的是变量间的相关方向和程度。对
变量作相关分析,将首先采用定性的方法对变量间是否存在依存关系进行判断,如果判明它们之间没有依存关系,就无需作相关分析,否则只能得出错误的结论。
在对变量间的相关关系作出定性分析之后,再以图表的形式直观地反映它们之间的相关方向和相关程度,并以相关系数来度量具有线性相关关系的变量间线性相关的密切程度。
返回 7.1 目录
7.2 教学要求 理解相关分析与回归分析的区别与联系; 了解总体回归函数与样本回归函数,掌握二者的表
达方式; 理解利用最小二乘法进行一元线性回归时的 5 个基本假定;会用最小二乘法进行一元线性回归;掌握总体随机误差项的方差的估计方法;
理解可决系数的作用,掌握可决系数的计算方法;理解可决系数与相关系数之间的联系与区别。
7.2 一元线性回归分析
相关分析与回归分析的联系
总体回归函数与样本回归函数
回归系数的普通最小二乘估计
拟合优度的度量
TO :7.3
一、相关分析与回归分析的联系 回归的古典意义– 高尔顿遗传学的回归概念
父母身高与子女身高的关系:无论高个子或低个子的父母,其子女都有向人的平均
身高移动或回归的趋势
回归的现代意义:– 一个因变量对若干解释变量(自变量)依存关系的研究
回归的目的(实质):– 由已知的或固定的自变量去估计因变量的总体均值
样本
总体
自变量固定值自变量固定值
估计因变
量平均值
相关与回归分析
回归分析
研究变量之间关系形式的理论与方法
相关分析
研究变量之间相关关系密切程度的理论与方法
相关与回归分析的联系
1. 二者具有互为补充关系– 在研究现象之间的相关时,特别是在研究数量标志
之间的相关关系时,回归分析和相关分析是密切联系在一起的,是同时并用的。
2. 二者存在计算上的联系– 回归分析和相关分析是非常相近的两种分析技术,所计算的指标不但在符号上存在联系,而且可以互相推算。
相关分析与回归分析的区别
1. 二者在关心变量性质上不同– 回归分析中,必须将变量分为自变量和因变量:因
变量是随机变量,自变量可以是随机变量,也可以是非随机的确定变量。相关分析中,变量和都是随机变量,且处于平等的地位。
2. 二者的任务和目的不同– 回归分析要建立适合于变量之间关系的回归方程,
可对因变量进行估算和预测。相关分析只反映回归方程所表明变量之间依存关系的密切程度,是不能进行估算和预测的。
3. 二者的使用范围不同– 回归分析只限于研究数量标志之间或指标之间的数
量关系,对于品质标志之间和等级之间的关系是无法研究的。相关分析研究范围比回归分析研究的范围要广泛的多。
– 从研究的范围看,凡是能够进行回归分析的,都能够也必须进行相关分析,而能够进行相关分析的,却不一定能够和不都需要进行回归分析。
返回 7.2 目录
二、总体回归函数与样本回归函数 的条件分布:在取某固定值条件下的分布。– 当自变量取某一固定值时,的取值并不确定,的不
同取值会形成一定的分布,即的条件分布。 回归线– 对于的每一个取值,都有的条件期望与之对应,在
坐标图上,的条件期望随而变化的轨迹所形成的直线或曲线即回归线。
回归函数– 把的条件期望表示为的某种函数:,此函数即回归
函数。 一元线性回归函数– 回归函数是线性函数,且只有一个自变量,
总体回归函数( PRF )概念– 将总体因变量的条件期望表现为自变量的某种函数,
这个函数称为总体回归函数(简记为 PRF )。
表现形式:1. 条件期望表现形式
2. 个别值表现形式(随机设定形式)
—— 随机误差项。对其的理解如下:① 各个值与条件期望的偏差;② 可正可负;③ 随机变量;④ 代表排除在自变量以外的所有因素对的影响。
样本回归函数( SRF )概念– 的样本观测值的条件均值随自变量而变动的轨迹,
称为样本回归线。– 如果把因变量的样本条件均值表示为自变量的某种
函数,这个函数称为样本回归函数(简记为 SRF )。
表现形式
或者
——残差项或剩余项– 在概念上类似于总体回归函数中的随机误差
回归方程中的斜率是回归系数,表示每变动一单位,亦变动单位。
样本回归函数与总体回归函数的联系 样本回归函数的函数形式应与设定的总体回归函数
的函数形式一致。– 和是对总体回归函数参数的估计– 是对总体条件期望的估计– 残差在概念上类似于总体回归函数中的随机误差。
回归分析的目的:– 用样本回归函数去估计总体回归函数。
样本回归函数与总体回归函数的区别1. 总体回归函数虽然未知,但它是确定的;
2. 总体回归函数的参数虽未知,但是确定的常数;
3. 总体回归函数中的是不可直接观测的;
1. 样本回归线随抽样的变化而变化,可以有许多条。
2. 样本回归函数的参数可估计,是随抽样而变化的随机变量。
3. 样本回归函数中的是只要估计出样本回归的参数就可以计算的数值。
样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。
返回 7.2 目录
三、回归系数的普通最小二乘估计 为什么只能对未知参数作估计 ?
– 能够得到的只是变量的样本观测值– 参数是未知的、不可直接观测的、不能精确计算的– 只能通过变量样本观测值选择适当方法去近似地估
计回归系数。 前提– 是随机变量,其分布性质不确定,必须作某些假定,
其估计才有良好性质,其检验才可进行。 原则– 使参数估计值“尽可能地接近”总体参数真实值
一元线性回归的基本假定假定 1 :零均值 假定
假定 2 :同方差假定– 在给定的条件下,的条件方差为某个常数
假定 3 :无自相关假定– 随机扰动项的逐次值互不相关,即
假定 4 :随机扰动与自变量不相关
假定 5 :正态性假定
最小二乘估计的基本思想希望所估计的偏离实际观测值的残差越小越好。 可以取残差平方和作为衡量与偏离程度的标准——最小二乘准则
最小二乘法(图示)
x
y(xn , yn)
(x1 , y1)
(x2 , y2)
(xi , yi)
}ei = yi-yi^
ˆˆy x
最小二乘法(和的计算公式)根据最小二乘法的要求,可得求解和的标准方程如下:
或:
例:一元线性回归计算表调查某生活小区 15户居民家庭,得每个家庭的人
均月食品支出与人均月收入的有关资料:家庭编号
月食品支出( y )
月收入( x )
x y x 2 y 2
123456789
101112131415
470460450480470560390460510510540580470480400
910880885910855
1190670815
1015930
10451090
805860720
427700404800398250436800401850666400261300374900517650474300564300632200378350412800288000
828100774400783225828100731025
1416100448900664225
1030225864900
10920251188100648025739600518400
220900211600202500230400220900313600152100211600260100260100291600336400220900230400160000
合 计 7230 13580 6639600 12555350 3523100
计算结果根据计算结果可知: – ,,,,
代入计算公式得:
样本回归方程为:
计算结果分析 155.7067 表示即使收入为 0 ,也需要元的食品
支出,是基本的生活保障。 回归系数表示人均月收入每增加 1 元,人均月食
品支出会增加 0.3604 元。
最小二乘估计的概率分布性质 和都是服从正态分布的随机变量,其期望为:
方差和标准误差为
结论:
最小二乘估计的性质——高斯 - 马尔可夫定理
前提:在基本假定满足时① 最小二乘估计和是因变量的线性函数
② 最小二乘估计是无偏估计,即
③ 在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。
结论——高斯 -马尔可夫定理:– 在基本假定满足的条件下,回归系数的最小二乘估
计是最佳线性无偏估计。
的无偏估计 为什么要估计?– 由于总体随机误差项不能直接观测,其方差也是未知的,的数值只能通过样本信息去估计。
怎样估计?– 可以证明的无偏估计为:
其中:可决系数
估计标准误差 统计上,估计标准误差定义如下:
在回归分析中,越小,表明观测值越紧靠估计值,回归模型拟合优度越好;反之,越大,说明观测值对估计值越分散,回归模型拟合越差。
返回 7.2 目录