数据挖掘原理及实践 - xmu mirelmirel.xmu.edu.cn/course/dm/xmu_dataminingslides_chapter...•...

数据挖掘原理及实践

教育部-IBM产学合作专业综合改革项目精品课程

主讲教师: 吴云峰, 吴梅红, 刘恺之助教: 罗鑫

厦门大学信息科学与技术学院 Email: [email protected]

http://mirel.xmu.edu.cn/course/DM

第5章数据的相关和回归分析

1 相关分析

2 简单线性回归分析

3 多元线性回归分析

4 Logistic回归分析

2

• 现实中, 事物之间的联系是错综复杂的, 任何事物的变化都与其他事物是

相互联系和相互影响的, 事物之间的关系可以分为两类:

– 函数关系。指的是变量之间一一对应的确定关系。

– 相关关系。指的是两个变量之间存在的一种不确定的数量关系, 一个变量的取值不能

由另外一个变量唯一确定。

• 简单相关分析。简单相关分析研究的是两个变量之间的相关关系。

• 偏相关分析。偏相关分析研究一个变量与其他两个变量之间的相关关系。

3

5.1 相关分析

• 简单相关分析。分析两两变量之间的相关分析。

• 简单相关分析主要包含三种典型的相关分析方法:

– Pearson 相关: 适用于数值变量。

– Spearman 相关: 适用于顺序变量

– Kendall’s tau-b 相关: 适用于顺序变量

• 不同类型的变量数据, 采用不同的相关分析方法。

4

5.1 相关分析: 简单相关分析

• Pearson相关系数: Pearson相关系数适用于测度两个数值变量的相关

性。数值变换包括定距和定比变量两类, 其特点是变量的取值用数字

表示, 可以用加减运算从而计算出差异的大小。

• 设两随机变量为X和Y, 则两总体的相关系数为：

• 式中, cov(X, Y) 是两变量的协方差; var(X), var(Y) 是变量X 和Y 的方差。

总体相关系数是反映两变量之间线性关系的一种度量。

• 独立是不相关的充分不必要条件, 即独立可以推出不相关, 反之不行。

• 两个随机变量相互独立, 等价于 f(X, Y)=g(X)h(Y) , 即联合密度函数等

于两个边缘密度的乘积。 5


cov( , )var( ) var( )

X YX Y

ρ =

• 事实上, 总体相关系数一般都是未知的, 需要用样本相关系数来估计。设 , 分别来自于X 和Y 的两个样本, 则样本的相关系数为:

• 统计上可以证明, 样本相关系数是总体相关系数的一致估计量。

• r 取值在-1与1之间, 它描述了两变量线性相关的方向和程度。 – r > 0: 两变量之间为正相关 (一个变量增加, 另一个变量呈增加趋势)。

– r < 0: 两变量之间为负相关 (一个变量增加, 另一个变量呈减少趋势)。

– r = 1或者r = -1: 两变量之间完全相关。

– r = 0: 两变量之间不存在线性相关关系。 6


( )1 2, , , nX x x x= ( )1 2, , , nY y y y=

1

2 2

1 1

( )( )

( ) ( )

n

i ii

n n

i ii i

x x y yr

x x y y

=

= =

− −=

− −

∑

∑ ∑

• 在实际问题中, 相关系数一般都是用样本数据计算得到, 因而带有一定

的随机性, 当样本容量比较少时, 随机性大。因此需要对其进行统计推

断, 通过检验的方法确定变量之间是否存在相关性。

• 在X, Y 都服从正态分布, 及原假设为真时, 统计量：

• 服从自由度为 n-2 的 T 分布。当时, 拒绝原假设, 表明样本相关

系数 r 是显著。若不能拒绝原假设, 表明 r 在统计上不显著, 两

总体不存在显著的相关关系。

7


0ρ =

2

21

r ntr−

=−

2at t>

2at t≤

• Spearman等级相关系数: Spearman等级相关系数适应与测度两顺序

变量的相关性。顺序变量的取值能够表示某种顺序关系。

– 如顾客对某服务的满意程度分为: 1) 非常不满意; 2) 不满意; 3) 一般满意; 4) 满意；

5) 非常满意。

• Spearman等级相关也用于数值变量, 但其效果不如Pearson相关系数

效果好。

• Spearman相关系数计算公式为：

• 式中, , Ui , Vi 分别为两变量按大小或优劣排序后的秩。

8


2

12

61

( 1)

n

ii

s

Dr

n n== −−

∑

2 2

1 1( )

n n

i i ii i

D U V= =

= −∑ ∑

• Spearman等级相关系数也是通过样本计算得到的, 两个总体是否存在

显著的等级相关也需要进行检验。

• 当 n>20 时, 可采用 t 检验统计量：

• 在原假设即总体等级相关系数为真时, t 服从自由度为n-2的 T

分布。当时, 拒绝原假设, 表明两总体存在显著的等级相关。

• 当 n>30 时, 检验统计量也可用近似服从正态分布的统计量：

• 然后依据正态分布给出相应的伴随概率值。

9


2

21

s

s

r ntr−

=−

0sρ =

2at t>

1sZ r n= −

• Kendall’s tau-b相关系数: 它也是测度两顺序变量的相关性。它利用

变量值的秩数据, 计算同序对数目U和异序对数目V。

– 所谓同序对, 指的是变量大小顺序相同的两样本观察值, 即 X 的等级高低顺序与 Y

的等级高低顺序相同。否则, 称为异序对。

• Kendall’s tau-b相关系数的计算公式为:

• 当 n>30 时, 检验统计量也可用近似服从正态分布的统计量:

• 然后计算 z 统计量, 根据正态分布给出相应的伴随概率值。

10


41( 1)

VTn n

= −−

3 ( 1)2(2 5)

T n nZ

n−

=+

• 偏相关 (Partial correlation) 分析: 偏相关分析就是在控制对两变量之

间的相关性可能产生影响的其他变量的前提下, 即剔除其他变量的干

扰后, 研究两个变量之间的相关性。偏相关分析可以有效揭示变量之

间的真实关系, 认识干扰变量并寻找隐含相关性。

• 偏相关分析假定变量之间的关系均为线性关系, 因此, 在进行偏相关分

析前, 可以先通过计算Pearson相关系数来考察两两变量之间的线性关

系。

• 偏相关分析中, 根据固定变量个数的多少, 分为零阶偏相关, 一阶偏相

关, 到 p-1 阶偏相关, 零阶偏相关就是简单相关。

11

5.1 相关分析: 偏相关分析

• 假设有3个变量 , 则剔除变量 x3 的影响后, x1与 x2 之间的偏相关

系数为:

• 式中表示变量 xi 与变量 xj 之间的简单相关系数。偏相关系数是由简

单相关系数决定的, 但是在偏相关系数中, 其他变量当常数处理。

• 设增加一个变量 x4 , 则 x1 与 x2 之间的二阶偏相关系数为:

• 一般的, 假设p个变量, 则 x1 与 x2 之间的 p-2 阶偏相关系数为：

12

5.1 相关分析: 偏相关分析

1 2 3, ,x x x

12 13 2312,3 2 2

13 23(1 )(1 )r r rr

r r−

=− −

ijr

12,3 14,3 24,312,34 2 2

14,3 24,3(1 )(1 )

r r rr

r r

−=

− −

12,34 ( 1) 1 ,34 ( 1) 2 ,34 ( 1)12,34 2 2

1 ,34 ( 1) 2 ,34 ( 1)[1 ][1 ]p p p p p

p

p p p p

r r rr

r r− − −

− −

−=

− −

• 具有相关关系的变量间有时存在因果关系, 这时可以通过回归分析研

究其间的具体依存关系。

• 回归分析 (regression analysis) 是研究一个变量关于另一个（些）变

量的具体依赖关系的计算方法和理论。

– 前一个变量（结果变量）称为被解释变量 (Explained Variable)或因变量

(Dependent Variable), 记为Y。

– 后一个 (些)变量 (原因变量)称为解释变量 (Explanatory Variable)或自变

量 (Independent Variable), 记为X。

• 具体依赖关系体现为Y和X的一个关系式: Y＝f (X)。

• 其目的在于: 通过解释变量Xi的已知或设定值, 去估计和 (或) 预测被解

释变量Y的 (总体) 均值。

13

5.2 简单线性回归分析: 回归分析简介

• 回归分析是经典计量经济学的主要分析方法。

• 主要内容包括：

– 根据样本观察值对计量模型参数进行估计, 求得回归方程。

– 对回归方程、参数估计值进行显著性检验。

– 利用回归方程进行分析、评价及预测。

• 虽然回归分析通常用于研究具有因果关系的变量之间的具体依赖关系,

但是回归关系式本身并不一定意味着因果关系, 不是确定因果的逻辑

基础或理论。

14


• 总体回归线 (population regression line)。在几何意义上, 给定解释变量Xi

条件下, 被解释变量Yi 的条件均值或期望的轨迹称为总体回归线

(population regression line), 或更一般地称为总体回归曲线 (population

regression curve)。

• 在代数意义上, 与总体回归线相应的函数：

• 称为 (双变量) 总体回归函数 (population regression function, PRF) 或总

体回归方程。

• 总体回归函数 (PRF) 表明了被解释变量Y的平均状态 (总体条件期望) 随

解释变量X变化的规律

15


( | ) ( )i iE Y X f X=

• 随机干扰项。记:

• 称为观察值 Yi 围绕它的期望值 E(Y|Xi) 的离差 (deviation), 是一个不

可观测的随机变量, 又称为随机干扰项 (stochastic disturbance) 或随

机误差项 (stochastic error)。

• 借助于随机干扰项, 回归模型可表达为：

• 称为总体回归函数的随机设定形式, 也称为总体回归模型 (PRM)。

• 总体回归模型表明: 从总体中的个体层次看, 被解释变量 Yi 除了受解释

变量的系统性影响 E(Y|X) 外, 还受其它因素的随机性影响。

16


( | )i i iY E Y Xµ = −

iµ

0 1( | )i i i i iY E Y X Xµ β β µ= + = + +

• 样本回归函数 (sample regression function, SRF)。现实中, 总体的信息

往往无法掌握, 因此PRF实际上未知。现实的情况只能是在一次观测中得

到总体的一个样本, 通过样本的信息来估计总体回归函数。

• 样本回归函数 (SRF) 是总体回归函数 (PRF) 的近似替代 (估计)。

• 基于样本回归函数所得到的 Ŷi 与实际观测的 Yi 之间同样存在着误差:

• ei 称为残差项或剩余项 (residual), 代表了其它影响 Yi 的随机因素的集合。

• 同样地, 引入 ei 后, 样本回归函数也有如下的随机形式:

• 称为样本回归模型 (sample regression model), 描述了样本中, 从个体层

次看, 解释变量 X 与被解释变量 Y 之间的联系。 17


ˆi i ie Y Y= −

0 1ˆ ˆˆ ˆi i i iY Y X eµ β β= + = + +

• 回归分析的目的: 获得一个优良的样本回归函数SRF, 作为

总体回归函数PRF的估计, 描述X和Y之间的变化规律。

• 这就要求:

– 寻求好的方法, 构造尽可能好的SRF, 换言之, 构造PRF

中未知参数的优良估计量。

18


• 一元线性回归模型的基本形式:

• 其中 Y 为被解释变量, X 为解释变量, i 代表样本点。

• 与为回归系数, 是未知常数, 待估计。

• 为随机干扰项。

19

5.2 简单线性回归分析

0 1 , 1, 2, ,i i iY X i Nβ β µ= + + =

0β 1β

iµ

• 回归分析的主要目的是要通过样本回归函数 (模型) SRF尽

可能准确地估计总体回归函数 (模型) PRF。

• 寻求恰当的方法, 使得是的优良估计量——参数估计。

• 估计的方法有多种, 其中最常用的是普通最小二乘法

(ordinary least squares, OLS)。

• 为保证参数估计量具有良好的性质, 通常对模型提出若干

基本假设。

20

5.2 简单线性回归分析: 基本假设

iβ iβ

• 基本假设内容:

– 假设1: 解释变量 X 是确定性变量, 不是随机变量。

– 假设2: 随机误差项 μ 具有零均值、同方差和不同序列不相关的特性:

– 假设3: 随机误差项 μ 与解释变量 X 之间不相关:

– 假设4: μ 服从零均值、同方差、零协方差的正态分布:

21


2

( ) 0 1,2, ,

var( ) 1,2, ,cov( , ) 0 1,2, ,

i

i

i j

E i Ni Ni N

µ

µ

µ σ

µ µ

= =

= =

= =

cov( , ) 0 1, 2, ,i jX i Nµ = =

2~ (0, ) 1,2, ,i N i Nµµ σ =

– 假设5: 随着样本容量的无限增加, 解释变量X的样本方差趋于一有

限常数, 即:

– 假设5旨在排除时间序列数据出现持续上升或下降的变量作为解释

变量, 因为这类数据不仅使大样本统计推断变得无效, 而且往往产

生所谓的伪回归问题 (spurious regression problem)。

– 假设6: 回归模型是正确设定的。也被称为模型没有设定偏误

(specification error)。

22


2( ),iX X

Q nn−

→ →∞∑

• 给定一组样本观测值要求样本回归函数尽可能好地拟合这组值。

• 样本回归线上的点与真实观测值 Yi 的“总体误差”尽可能小, 即被解释变量的估计值与真实观测值总体上最为接近。

• 普通最小二乘法 (Ordinary least squares, OLS) 给出的判断标准是: 二者之差的平方和最小:

• 即在给定样本观测值之下, 选择出与能使与差的平方和最小。 • 根据微分计算, 推得以下方程组：

23

5.2 简单线性回归分析: 最小二乘原理

( , ) , 1, 2, ,i iX Y i n=

iY

2 20 1

1 1

ˆ ˆˆ( ) ( ( ))n n

i i i ii i

Q Y Y Y Xβ β= =

= − = − +∑ ∑

0β 0β iY iY

0 1

0 1

ˆ ˆ( ) 0ˆ ˆ( ) 0

t t

t t t

X Y

X Y X

β β

β β

+ − =

+ − =

∑∑

• 解之得：

– 其中

• 称为OLS估计量的离差形式 (deviation form)。

24

5.2 简单线性回归分析: 最小二乘原理

1 2

0 1

( )( )ˆ( )

ˆ ˆ

i i

i

X X Y YX X

Y X

β

β β

− −= −

= −

∑∑

1

1

1

1

n

ii

n

ii

X Xn

Y Yn

=

=

= =

∑

∑

• 参数估计量的概率分布。普通最小二乘估计量与分别是 Y 的线

性组合。因此与的概率分布取决于 Y 的概率分布。

• 在 μ 是正态分布的假设下, Y 是正态分布, 则与也服从正态分布,

因此:

25

5.2 简单线性回归分析: 参数估计量的概率分布

0β 1β

0β 1β

0β 1β

1

0

2 2

ˆ1 1 2 2

2 2 2 2

ˆ0 0 2 2

ˆ ~ ( , )

ˆ ~ ( , )

i i

i i

i i

Nx x

X XN

n x n x

β

β

σ σβ β σ

σ σβ β σ

=

=

∑ ∑∑ ∑∑ ∑

• 在估计的参数与的方差表达式中, 都含有随机扰动项 μ 的方差

σ2 , 又称为总体方差。

• 由于实际上是未知的, 因此与的方差实际上无法计算, 这便需

要对其进行估计。由于随机项不可观测, 只能从 μ 的估计——残差 ei

出发, 对总体方差进行估计。

• 可以证明, σ2 的最小二乘估计量为：

• 它是关于 σ2 的无偏估计量, 即: 。

26

5.2 简单线性回归分析: 随机干扰项方差的估计

0β 1β

2σ 0β 1β

22ˆ

2ie

nσ =

−∑

2 2( )E σ σ=

• 回归估计的标准误差 (Standard Error of Regression)。随机误差项方

差的估计量的平方根, 称为估计标准误差或者回归标准误差, 记为S.E：

• S.E 反映了被解释变量的实际值与估计值的平均误差程度, S.E 越大,

则回归直线的精度越低。

• 实际计算中, 误差方差的估计可以采用如下公式计算：

27

5.2 简单线性回归分析: 回归估计的标准误差

2

ˆS.E2ie

nσ= =

−∑

212

20 1

ˆ( ) ( )( )ˆ

2ˆ ˆ

2

i i i

i i i i

Y Y X X Y Yn

Y Y X Yn

βσ

β β

− − − −=

−− −

=−

∑ ∑

∑ ∑ ∑

• 模型检验的必要性。回归分析是通过样本所估计的参数来代替总体的

真实参数, 或者说是用样本回归线代替总体回归线。不可避免地, 这种

估计存在着误差。

• 因此, 尽管从统计性质上看, 参数估计量具有良好的性质, 即: 如果有

足够多的重复抽样, 参数的估计值的期望（均值）就等于其总体的参

数真值。但是在一次抽样中, 估计值不一定就等于该真值。

• 那么在一次抽样中, 参数的估计值与真值的差异有多大, 是否显著, 这

就需要进一步进行统计检验。

• 主要包括拟合优度检验、变量的显著性检验、方程的显著性检验、参

数的区间估计。

28

5.2 简单线性回归分析: 模型检验

• 拟合优度: SRF对样本观测值的拟合程度，即样本回归直线与观测散

点之间的紧密程度。

• 测度指标: 判定系数（可决系数）R2。这是一个基于总离差分解基础

之上的指标。

• 对于一个实际观测值 Yi , 定义总离差: 。可以理解为: 采用均

值“估计”实际值时的“总误差”。

• 引入回归直线后, 总离差可以分解为:

29

5.2 简单线性回归分析: 拟合优度检验

i iy Y Y= −

ˆ ˆ ˆ( ) ( )i i i i i i iy Y Y Y Y Y Y e y= − = − + − = +

• 对于所有样本点, 定义如下离差平方和(Sum Square)：

• 可以证明:

30


∑ ∑ −== 22 )( YYyTSS ii

∑ ∑ −== 22 )ˆ(ˆ YYyESS ii

∑ ∑ −== 22 )ˆ( iii YYeRSS

总离差平方和 (样本观测值总离差大小)

回归离差平方和 (SRF所能解释的离差大小)

残差平方和 (SRF无法解释的离差大小)

TSS ESS RSS= +

• 可决系数 R2 (coefficient of determination)。记：

• 可决系数的取值范围为: [0, 1]。可决系数越大, 拟合程度越好。

• 可决系数是一个样本统计量。它也是随着抽样的不同而不同。为此,

对可决系数的统计可靠性也应进行检验。

• 对模型好坏的判断不能仅仅依据这一指标。

• 实际中计算可决系数时, 在已经估计出后：

31


2 1ESS RSSRTSS TSS

= = −

1β

2 22 2 2

1 12 2

( )ˆ ˆ( )

i i

i i

x X XR

y Y Yβ β

−= = −

∑ ∑∑ ∑

• 方程的显著性检验的含义。拟合优度检验对于模型总体线性关系的成

立给出了一个模糊的推测, 但还需要统计上严格的结论。方程的显著

性检验, 旨在对模型中被解释变量与全部解释变量之间的线性关系在

总体上是否显著成立作出推断。

• 所用的方法是数理统计中的假设检验。即模型中参数是否至少有一个

显著不为0。

32

5.2 简单线性回归分析: 方程的显著性检验

建立原假设和

备择假设

计算检验统计量的

值

比较临界值

比较P值

拒绝或者接受原假设

• 对于一元线性回归模型:

• 方程显著性检验的原假设和备择假设为:

• 可以证明, 在原假设成立的条件下, 统计量:

• 服从自由度为(k, n-k-1)的 F分布。特别的, 对于一元线性回归模型, 方

程显著性检验的F检验统计量为:

33


0 1i iY Xβ β µ= + +

0 1

1 1

: 0: 0

HH

ββ

=

≠

// ( 1)ESS kF

RSS n k=

− −

/1 (1, 2)/ ( 2)

ESSF F nRSS n

= ∝ −−

• 方程显著性检验步骤:

– 提出原假设和备择假设:

– 在H0成立的条件下, 计算检验统计量的值:

– 给定显著性水平, 检验临界值：

– 如果 , 拒绝原假设, 即总体线性关系成立

– 如果 , 接受原假设, 即总体线性关系不成立

34


0 1

1 1

: 0: 0

HH

ββ

=≠

/1/ ( 2)

ESSFRSS n

=−

(1, 2)F nα −

(1, 2)F F nα> −

(1, 2)F F nα< −

• 方程的显著性检验是对 Y 和全部 X 之间的线性关系在总体上是否显著

成立作出的判断。Y 与全部 X 之间存在显著线性关系, 并不代表Y与每

一个X之间均存在显著的线性关系。

• 变量显著性检验所应用的方法同样是假设检验。

• 变量的显著性检验主要是检验变量所对应的回归系数的真实值是否为

零来进行的。

• 一元线性回归模型中, 对变量X的显著性检验主要是检验回归系数 β1

的真实值是否为零。

35

5.2 简单线性回归分析: 变量的显著性检验

0 1

1 1

: 0: 0

HH

ββ

=≠

• 正态变换成:

• 由于真实的未知, 用它的无偏估计量代替, 构造如

下统计量:

• 然后, 给定显著性水平 α , 查 t 分布表, 得到临界值:

• 若 , 拒绝原假设, 即X对Y 具有显著影响。

• 若 , 接受原假设, 即X对Y 不具有显著影响。

36

5.2 简单线性回归分析: 变量的显著性检验

),(~ˆ2

2

11 ∑ ixN σββ )1,0(~

ˆ

2

211 N

x

Z

i∑

−=

σ

ββ

2σ 2 2ˆ / ( 2)ie nσ = −∑

1

1 1 1 12 2

ˆ

ˆ ˆ~ ( 2)

ˆ i

t t nSx β

β β β β

σ

− −= = −

∑

2( 2)at n −

2( 2)at t n> −

2( 2)at t n< −

• 多元线性回归分析 (multiple regression model)。在现实中, 一种社

会现象总是同时受到多个因素的影响。所以一元回归分析无法确定某

一自变量对结果变量的净效益或者偏效益。

• 多元线性回归模型适用于分析一个因变量和多个自变量之间的关系。

假设一个回归模型有 p-1个自变量, 即则该回归模型可以

表示为:

– 其中, 表示个体在因变量y中的取值, 为截距的总体参数，

且为斜率的总体参数。

37

5.3 多元线性回归分析: 多元线性回归分析

1 2 1, , , px x x −

0 1 1 2 2 ( 1) ( 1)i i i p i p iy x x xβ β β β ε− −= + + + + +

iy , 1, 2, ,i i n= 0β

1 2 1, , , pβ β β −

• 定义以下矩阵:

• 则一般线性回归模型可以简单表达为:

• 简记为:

– 其中, 表示因变量的向量。表示总体参数的向量。表示由所有自变量和一列

常数1所组成的矩阵。表示随机误差变量的向量。 38

5.3 多元线性回归分析

11 1( 1)1

21 2( 1)21

1 ( 1)

0 1

1 21 1

1

11

1

p

pn n p

n n pn

p n

p n

x xyx xy

x xy

β εβ ε

β ε

−

−× ×

−

× ×

−

= =

= =

y X

β ε

1 1 1n n p p n× × × ×= +y X β ε

= +y Xβ ε

y β Xε

• 基本假设内容: – 假设1: 模型设定假设 (线性假设)。该假设要求Y的条件均值是所有自变量X的线性

函数:

• 即 y 在 X 下的条件期望可以表示为 X 的线性组合。

– 假设2: 正交假设。假设误差项矩阵 ɛ 与 X 中的每一个 X 向量不相关, 即:

等价于:

该假设保证了回归模型参数的OLS估计是无偏的。

39

5.3 多元线性回归分析: 基本假设

( | )E =y X Xβ

cov( , ) 0=X ε

( ) 0( ) 0

EE

=′ =

εX ε

– 假设3: 独立同分布假设 (i.i.d.假设)。该假设针对总体回归模型的误差项,

要求它们满足彼此之间相互独立, 并服从统一分布的条件。

• 独立分布: 每一个误差项为独立分布, 即

• 同方差性: , 其中 I 为 n 阶单位矩阵。

• 高斯-马尔可夫定理 (Gauss-Markov Theorem)。该定理表

明, 若满足假设2和假设3, 则采用最小二乘法得出的回归参

数估计将是所有估计中的最佳线性无偏估计 (best linear

unbiased estimator)。

– 假设4: 正态分布假设。假定 , 使得OLS估计可以被理解为

最大似然估计——最佳无偏估计。 40

5.3 多元线性回归分析: 基本假设

iε cov( , ) 0,i j i jε ε = ≠

2var( | ) σ=ε X I

2~ (0, )i Nε σ

• 对于回归模型 , 其残差平方和表示为:

• 对 β 的一阶导数并令其等于零:

• 得到回归参数的OLS估计量为: 。b 为中总

体参数 β 的无偏估计, 即 , 得:

• 这意味着, 从样本估计中得到的最小二乘估计 b 是总体回归模型中 β

的无偏估计。 41

5.3 多元线性回归分析: 多元参数估计

= +y Xβ ε

( ) ( )2

SSR ′=′= − −

′ ′ ′ ′= − +

ε εy Xβ y Xβ

y y y Xβ β X Xβ

( ) 2 2 0( )SSR∂ ′ ′= − + =∂

X y X Xββ

′ ′= -1b (X X) X y 1 1 1n n p p n× × × ×= +y X β ε

( )E =b β

1( ) ( ) ( )E E−′ ′= =b X X X X β β

• 残差项 (residual) 与误差项 (error) 的区别在于:

– 误差项或者干扰项 ( ɛ ) 是针对总体真实的回归模型而言, 它是由一些不可预测的因

素或者测量误差引起的。

– 残差项 ( e ) 是针对具体模型而言, 它被定义为样本回归模型中观测值与预测值之差。

• 将基于样本数据拟合得到的回归方程改为:

– 其中, 为幂等矩阵 (idempotent matrix), 始终满足:

• 那么, 样本估计模型的残差为:

– 其中为幂等矩阵。

42

5.3 多元线性回归分析: 多元回归模型误差方差估计

1

ˆ

( )−=

′ ′=

y XbX X X X y

1( )−′ ′=Η X X X X =hh h

ˆ

( )

= −= −= −

e y yy HyI H y

−I H

• 样本中计算残差的公式为:

• 模型拟合时, 估计了 p 个参数 (即 p-1个斜率系数和1个截距系数), 这导

致用于估计总体误差项的自由度仅有 n - p个。则样本对总体误差项方

差的无偏估计为:

• 这被称作残差平方 (mean square error), 是无偏的。

43

5.3 多元线性回归分析: 多元回归模型误差方差估计

2 2

1

2

1

20 1 1 2 2 1 ( 1)

1

1

1 ˆ( )

1 [ ( )]

n

e iin

i iin

i i i p i pi

S en

y yn

y b b x b x b xn

=

=

− −=

=

= −

= − + + + +

∑

∑

∑

2

1

1 1MSEn

ii

en p n p=

′= =− −∑ e e

• 为衡量估计量的好坏, 需要知道方差的大小。所谓回归参数估计量的

方差实际上就是抽样方差。虽然无法从某个样本数据中直接计算得到

抽样方差, 但可以根据样本信息对其进行估计。

• 回归参数的最小二乘估计量为: , 其方差为:

• 其中, 为常数, 则:

• 根据假设3, 即:

44

5.3 多元线性回归分析: 多元回归参数估计量方差估计

′ ′= -1b (X X) X y1

1

1 1

var( ) var[( ) ]var[( ) ( )]var[( ) ( ) ]

−

−

− −

′ ′=

′ ′= +

′ ′ ′ ′= +

b X X X yX X X Xβ εX X X Xβ X X X ε

1( )−′ ′X X X Xβ

1

1 1

var( ) var[( ) ]( ) [var( )] ( )

−

− −

′ ′=

′ ′ ′=

b X X X εX X X ε X X X

2var( ) n nσ ×=ε I

1 2 1 2 1var( ) ( ) [ ] ( ) ( )n nb σ σ− − −×′ ′ ′ ′= =X X X I X X X X X

• 综上所述, var(b) 是个矩阵, 含有如下元素:

• 称为回归系数 b 的方差-协方差矩阵。

45

5.3 多元线性回归分析: 多元回归参数估计量方差估计

0 0 1 0 1

1 0 1 1 1

1 0 1 1 1

var( ) cov( , ) cov( , )cov( , ) var( ) cov( , )

var( )

cov( , ) cov( , ) var( )

p

p

p p p

b b b b bb b b b b

b b b b b

−

−

− − −

=

b

• 与一元回归中对回归系数的检验一样, 对多元回归中单个回归系数的

检验, 是否显著区别于0, 如下零假设和备择假设:

• 采用Z检验对其进行检验:

• 其中

• 给定显著性水平, 检验临界值, 然后根据 Z 值与临界值大小确定是否接

受假设。

46

5.3 多元线性回归分析: 单个回归系数检验

0

1

: 0: 0

k

k

HH

ββ

=

≠

( 0) / ( )k kz b SE b= −2

ˆS.E2ie

nσ= =

−∑

• 多元回归中, 需要对多个回归系数是否同时统计显著进行检验。假设,

考虑教育 (edu)、工作经历 (exp) 和工作经历的平方 (exp2) 对收入对数

(logearn) 的回归模型:

• 该模型称为非限制性模型 (unrestricted model), 记为U。假设仅对工

作经历和工作经历的平方的回归系数是否限定为0进行检验, 则简化为:

• 该模型称为限制性模型 (restricted model), 记为R。

47

5.3 多元线性回归分析: 多个回归系数检验

20 1 2 3logearn exp expeduβ β β β ε= + + + +

0 1logearn= eduβ β ε+ +

• 则总体的零假设为:

• 由于去掉了两个自变量, 因此限制模型的残差平方和 (SSE)肯定不小

于非限制性模型的残差平方和 (SSE)。

• 构造以下检验统计量来对零假设进行检验:

– 其中 q 是零假设所限制的自由度, 即限制性模型和非限制性模型之间相差的回归

系数的数量。K是非限制性模型所包含的回归系数数量。

• 如果零假设成立, 则上式统计量服从于自由度 (q, N-K) 的F统计。

48


0 2 3

1 2 3

: 0: 0, 0

HH

β ββ β

= =≠ ≠

( ) // ( )

R U

U

SSE SSE qSSE N K

−−

• 对零假设进行检验的 F统计量为:

• 若结果在显著水平上统计显著, 则拒绝零假设。反之亦然。

49


( ) // ( )

R U

U

SSE SSE qFSSE N K

−=

−

• 现实中, 会对多个回归系数之间的某一线性组合形式提出理论假设, 例

如: 称作相等假设; 称作比例假设; 称作盈余

假设。更一般的假设: 。将看作一个新的综合参数,

落在 (下限, 上限) 区间内。在样本足够大时, 通过以下步骤进行假设检

验:

– 根据回归系数估计值, 计算作为的点估计值。

– 计算的标准差。

• 首先根据: 求得的方差。

• 计算的正平方根。

– 计算 t 值, 公式为:

– 选定显著性水平, 将统计量数值与 t 分布的临界值进行比较。如果大于临界值, 则

拒绝零假设, 认为该线性组合在选定的显著性水平上显著的不等于c, 反之亦然。 50

5.3 多元线性回归分析: 回归系数线性组合的检验

1 2 0β β− = 1 210 0β β− = 1 2 2β β− =

1 1 2 2c c cβ β+ =1 1 2 2c cβ β+

1 1 2 2c b c b+ 1 1 2 2c cβ β+

1 1 2 2c b c b+

2 21 1 2 2 1 1 2 2 1 2 1 2var( ) var( ) var( ) 2 cov( , )c b c b c b c b c c b b+ = + + 1 1 2 2c b c b+

1 1 2 2var( )c b c b+

1 1 2 2 1 1 2 2( ) / var( )t c b c b c c b c b= + − +

• 现实中, 经常会遇到因变量是定性变量的情况。如企业生存或倒闭, 投

资成功与失败等。Logistic回归便是解决这种问题。 Logistic回归分为:

– Binary Logistic回归: 因变量仅有两个取值, 一般记为0, 1。

– Multinomial Logistic回归: 因变量可取多个值。

• 本节主要介绍Binary Logistic回归。

• 假设某事件发生的概率为 p, p 介于 0～1之间。寻找关于 p 的函数。

根据导数的含义, 以反映在 p 附近的变化, 即取函数:

即

• 称上式为Logit变换, 记作:

51

5.4 多元线性回归分析: Logistic回归分析

( )f p′

1 1 1( )(1 ) 1

f pp p p p

′ = = +− −

( ) ln1

pf pp

=−

logit p=ln[p/(1-p)]

• 可知: f (p) 为 p 的增函数, 当 p 从0到1变化时, f (p) 的取值在上

变化。另 , 易得到:

• 如果是某些自变量的线性函数 , 则p是的

下述函数形式:

• 设因变量y为0-1型变量, 且 P(y=1)=p, 自变量为 , 则 E(y)=p。

Logistic回归函数为:

• 称为回归模型的协变量。 52


( , )−∞ ∞

( )f pθ =

1ep

e

θ

θ=+

θ 1 2, , , kx x x

1

k

i ii

a x=∑ 1 2, , , kx x x

1

11

k

ii

k

ii

x

x

ep

e

=

=

∑=

∑+

1 2, , , kx x x

1 2logit p =ln ( , , , )1 k

p g x x xp=

−

1 2, , , kx x x

• 最常用的Logistic线性回归函数:

• 得到:

• 上式中p/(1-p)又称为相对风险 (或优势比率)。它是所关注事件发生的

概率与不发生的概率的比, β 称为Logistic回归系数。如果 p > 0.5, 可

以预测该事件发生, 否则预测不发生。

53


0 1 1 2 2logit p=ln1 k k

p x x xp

β β β β= + + + +−

0 1 1 2 2

0 1 1 2 2

exp( )1 exp( )

k k

k k

x x xpx x x

β β β ββ β β β+ + + +

=+ + + + +

• 设y是0-1型因变量, 与y相关的自变量为 , 样本数据为

( ) ( ), 且。与之间满足

Logistic回归方程:

• 由于y是均值为的0-1型变量, 则概率函数为:

• 似然函数为:

• 将似然函数去对数, 得

• 解得

• 极大似然估计就是使得上式达到最大的。 54

5.4 多元线性回归分析: Logistic回归分析 1 2, , , kx x x

1 2, , , ,i i ik ix x x y 1, 2, ,i n=

( )i iE y p= iy 1 2, , ,i i ikx x x

0 1 1 2 2

0 1 1 2 2

exp( )( )1 exp( )

i i k iki i

i i k ik

x x xE y px x x

β β β ββ β β β+ + + +

= =+ + + + +

ip( 1) , ( 0) 1i i i ip y p p y p= = = = −

1

1 1

( ) (1 )i i

n ny y

i i ii i

L P y p p −

= =

= = −∏ ∏

1 1ln [ ln (1 ) ln(1 )] [ ln ln(1 )]

1

n ni

i i i i i ii i i

pL y p y p y pp= =

= + − − = + −−∑ ∑

0 1 1 2 20 1 1 2 2

1ln [ ( ) ln(1 )]i i k ik

nx x x

i i i k iki

L y x x x eβ β β ββ β β β + + + +

=

= + + + + − +∑

0 1 2ˆ ˆ ˆ ˆ, , , , kβ β β β

• 类似于普通的多元回归模型, 在模型参数估计后, 需要对模型的整体及

各回归系数进行检验。下面介绍一些常用的检验统计量:

– Logistic回归方程显著性检验: -2对数似然值 (-2 log likelihood,-2LL)。似然

(likelihood)即概率, 似然的取值为 [0,1]。对数似然值是它的自然对数形式。因为-

2LL为正数且近似服从分布, 所以-2LL用于检验Logistic回归方程的显著性。当-

2LL的实际显著性水平大于给定的显著性水平时, 因变量的变动中无法解释的部分

是不显著的, 意味着回归方程的拟合程度较好, 计算公式为：

– 拟合优度 (Goodness of Fit)统计量。Logistic回归的拟合优度统计量计算公式为:

55

5.4 多元线性回归分析: Logistic回归显著性检验

2χ

1

ˆ ˆ2 2 [ ln (1 ) ln(1 )]n

i i i ii

LL y p y p=

− = − + − −∑

2

1

ˆ( )ˆ ˆ(1 )

ni i

i i i

y pp p=

−−∑

– Cox和Snell的 R2 (Cox Snell R-Square)。Cox和Snell的 R2 是在似然值基础上模

仿线性回归模型的 R2 解释Logistic回归模型, 其公式为:

• 其中L (0)表示初始模型的似然值, 表示当前模型的似然值。

– Nagelkerke 的 R2 (Nagelkerke R-Square)。对 Cox和Snell进一步调整, 使得取值

范围在0和1之间, 即

• 其中:

• 以上介绍的检测统计量, 给定置信区间, 确定好临界值, 若结果在显著

水平上统计显著, 则拒绝零假设, 反之亦然。

56

5.4 多元线性回归分析: Logistic回归显著性检验

2

2 (0)1 ˆ( )CSLRL β

= −

ˆ( )L β

2 2 2/ max( )N CS CSR R R=

2 2max( ) 1 [ (0)]CSR L= −

• 本章节介绍了相关分析和回归分析, 两者的区别和联系为: – 二者都是研究相关关系的方法, 并能测度线性依赖程度的大小。相关分析是回归分

析的基础。

– 相关分析中变量的地位是对称的, 而回归分析中变量是不对称的, 具有被解释变量

和解释变量之分。

– 相关分析中变量都可以是随机的; 而回归分析中, 被解释变量是随机的, 而解释变量

往往被看成是非随机的。

– 相关分析只关注变量之间的相关程度, 不关注具体依赖关系; 而回归分析更加关注

这一具体依赖关系, 因而可以通过解释变量的变化来估计和预测被解释变量的变化。

• 然后介绍了简单的一元线性回归, 多元线性回归和Logistic回归分析。

其中, 一元线性回归是分析一个因变量和一个自变量之间的关系。而

多元线性回归是分析分析一个因变量和多个自变量之间的关系。

Logistic回归分析的因变量是定性变量。 57

小结

• P. C. B. Phillips, P. Perron, Testing for a unit root in time series regression, Biometrika, vol. 75, no. 2, pp. 335-346, 1988.

• D. Kleinbaum, L. Kupper, A. Nizam E. Rosenberg, Applied Regression Analysis and Other Multivariable Methods, Stamford, CA: Cengage Learning 2013.

• D. W. Hosmer, S. Lemeshow, Applied Logistic Regression, 2nd ed., New York, NY: Wiley, 2000.

• C. M. Hurvich, C.-L. Tsai, Regression and time series model selection in small samples, Biometrika, vol. 76, no. 2, pp. 297-307, 1989.

• P. J. Rousseeuw, A. M. Leroy, Robust Regression and Outlier Detection, New York, NY: Wiley, 1987.

• S. Chatterjee, A. S. Hadi, Regression Analysis by Example, 5th ed., New York, NY: Wiely, 2013.

参考文献

58

数据挖掘原理及实践 - xmu mirelmirel.xmu.edu.cn/course/dm/xmu_dataminingslides_chapter...•...

Documents