第 9 章 含定性变量的回归模型

76
第9第 第第第第第第第第第第 9.1 自自自自自自自自自自自自自自自 9.2 自自自自自自自自自自自自自自 9.3 自自自自自自自自自自自自自 9.4 Logistic( 自自自自 ) 自自 9.5 自自自 Logistic 自自 9.6 自自自自自自自自自自自 9.7 自自自自自自自

Upload: hernando-norales

Post on 03-Jan-2016

85 views

Category:

Documents


4 download

DESCRIPTION

第 9 章 含定性变量的回归模型. 9.1 自变量中含有定性变量的回归模型 9.2 自变量定性变量回归模型的应用 9.3 因变量是定性变量的回归模型 9.4 Logistic( 逻辑斯蒂 ) 回归 9.5 多类别 Logistic 回归 9.6 因变量是顺序变量的回归 9.7 本章小结与评注. 一、简单情况. §9.1 自变量中含有定性变量的回归模型. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第 9 章  含定性变量的回归模型

第 9 章 含定性变量的回归模型 9.1 自变量中含有定性变量的回归模

型9.2 自变量定性变量回归模型的应用9.3 因变量是定性变量的回归模型9.4 Logistic( 逻辑斯蒂 ) 回归9.5 多类别 Logistic 回归9.6 因变量是顺序变量的回归9.7 本章小结与评注

Page 2: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型一、简单情况

首先讨论定性变量只取两类可能值的情况,例如研究粮食产量问题, y 为粮食产量, x 为施肥量,另外再考虑气候问题,分为正常年份和干旱年份两种情况,对这个问题的数量化方法是引入一个 0-1 型变量 D ,令:

Di=1 表示正常年份

Di=0 表示干旱年份

Page 3: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型

粮食产量的回归模型为:

yi=β0+β1xi+β2Di+εi

其中干旱年份的粮食平均产量为:

E(yi|Di=0)=β0+β1xi

正常年份的粮食平均产量为:

E(yi|Di=1)=(β0+β2)+β1xi

Page 4: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型

例 9.1 某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了 13 户高学历家庭与 14 户中低学历的家庭,

因变量 y 为上一年家庭储蓄增加额,

自变量 x1 为上一年家庭总收入,

自变量 x2 表示家庭学历,

高学历家庭 x2=1, 低学历家庭 x2=0 ,

调查数据见表 9.1 :

Page 5: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型

序号 y(元) x1(万元) x2

1 235 2.3 02 346 3.2 13 365 2.8 04 468 3.5 15 658 2.6 06 867 3.2 17 1085 2.6 0

23 8950 3.9 024 9865 4.8 025 9866 4.6 026 10235 4.8 027 10140 4.2 0

表 9.1

Page 6: 第 9 章  含定性变量的回归模型

ANOVA

290372875.924 2 145186437.962 87.425 .00039856639.705 24 1660693.321

330229515.630 26

RegressionResidualTotal

Model1

Sum of Squares df Mean Square F Sig.

§9.1 自变量中含有定性变量的回归模型建立 y 对 x1 、 x2 的线性回归

Model Summary

.938a .879 .869 1288.68Model1

R R SquareAdjusted R

Square

Std. Errorof the

Estimate

Predictors: (Constant), X2, X1a.

Page 7: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型Coefficients

-7976.809 1093.445 -7.295 .0003826.129 304.591 .921 12.562 .000

-3700.330 513.445 -.529 -7.207 .000

(Constant)X1X2

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

两个自变量 x1 与 x2 的系数都是显著的,判定系数R2=0.879 ,回归方程为:

=-7976+3826x1-3700x2y

Page 8: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型 这个结果表明,中等收入的家庭每增加 1 万元收入,平均拿出 3826 元作为储蓄。高学历家庭每年的平均储蓄额少于低学历的家庭,平均少 3700 元。

如果不引入家庭学历定性变量 x2 ,仅用 y 对家庭年收入 x1 做一元线性回归,得判定系数 R2=0.618 ,拟合效果不好。

Page 9: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型

家庭年收入 x1 是连续型变量,它对回归的贡献也是不可缺少的。如果不考虑家庭年收入这个自变量, 13 户高学历家庭的平均年储蓄增加额为 3009.31 元, 14 户低学历家庭的平均年储蓄增加额为 5059.36 元,这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少 5059.36-3009.31=2050.05 元,而用回归法算出的数值是3824 元,两者并不相等。

Page 10: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型

用回归法算出的高学历家庭每年的平均储蓄额比低学历的家庭平均少 3824 元,这是在假设两者的家庭年收入相等的基础上的储蓄差值,或者说是消除了家庭年收入的影响后的差值,因而反映了两者储蓄额的真实差异。而直接由样本计算的差值 2050.05 元是包含有家庭年收入影响在内的差值,是虚假的差值。所调查的 13 户高学历家庭的平均年收入额为 3.8385 万元, 14 户低学历家庭的平均年收入额为 3.4071 万元,两者并不相等。

Page 11: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型二、复杂情况

某些场合定性自变量可能取多类值,例如某商厦策划营销方案,需要考虑销售额的季节性影响,季节因素分为春、夏、秋、冬 4 种情况。为了用定性自变量反应春、夏、秋、冬四季,我们初步设想引入如下 4 个 0-1 自变量:

其它春季

,0

,1

1

1

x

x

其它季

,0

夏 ,1

2

2

x

x

其它季

,0

秋 ,1

3

3

x

x

其它季

,0

冬 ,1

4

4

x

x

Page 12: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型

可是这样做却产生了一个新的问题,即 x1+x2+x3+x4=1 ,构成完全多重共线性。

解决这个问题的方法很简单,我们只需去掉一个0-1 型变量,只保留 3 个 0-1 型自变量即可。例如去掉 x4 ,只保留 x1 、 x2 、 x3 。

对一般情况,一个定性变量有 k 类可能的取值时,需要引入 k-1 个 0-1 型自变量。当 k=2时,只需要引入一个 0-1 型自变量即可。

Page 13: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型三、单因素方差分析

设 yij 是正态总体N(μj , σ2) ,的样本

j=1,…,c,i=1,2,…,nj原假设为: H0: μ1=μ2=…=μc记 εij= yij-μj, 则有 εij~N(0 , σ2) ,进而有

yij=μj+εij , i=1,2,…,nj , j=1,…,c, ( 9.39)

记, aj=μj-μ,则( 9.39)式改写为:

yij=μ+ai+εij , i=1,2,…,ni , j=1,…,c , ( 9.39)

Page 14: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型

引入 0-1 型自变量 xij, 将( 9.40)式表示为

yij=μ+a1xi1+a2xi2+…+acxic +εij

其中

1j 当 0,x

1j 当 ,1

i1

1ix

2j 当 0,x

2j 当 ,1

i2

2ix

c

xic

j 当 0,x

cj 当 ,1

ic

Page 15: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型 其中还存在一个问题,就是 c个自变量 x1,x2, …, xc之和恒等于 1 ,存在完全的复共线性。为此,剔除 xc ,建立回归模型

yij=μ+a1xi1+a2xi2+…+ac-1xic-1 +εij

i=1,2,…,nj , j=1,…,c,

回归方程显著性检验的原假设为:

H0: a1=a2=…=ac-1=0

Page 16: 第 9 章  含定性变量的回归模型

§9.1 自变量中含有定性变量的回归模型

由 aj=μj-μ=μj- 可知

c

jjc 1

1 H0: a1=a2=…=ac-1=0 与

H0: μ1=μ2=…=μc 是等价的

线性回归的 F检验与单因素方差分析的 F检验是等价的。

Page 17: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用一、分段回归

例 9.2 表 9.3给出某工厂生产批量 xi 与单位成本 yi(美元 ) 的数据。试用分段回归建立回归模型。

序号 y X(= x1) x2

1 2.57 650 150

2 4.4 340 0

3 4.52 400 0

4 1.39 800 300

5 4.75 300 0

6 3.55 570 70

7 2.49 720 220

8 3.77 480 0

Page 18: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用

x£¨ÅúÁ¿£©

900800700600500400300200

y£¨µ¥Î»³É±¾

£©

5.0

4.5

4.0

3.5

3.0

2.5

2.0

1.5

1.0

图 9.1 单位成本对批量散点图

Page 19: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用 由图 9.1 可看出数据在生产批量 xp=500时发生较大变化,即批量大于 500时成本明显下降。我们考虑由两段构成的分段线性回归 ,这可以通过引入一个 0-1 型虚拟自变量实现。假定回归直线的斜率在 xp=500处改变,建立回归模型

yi=β0+β1xi+β2(xi-5)Di+εi来拟合,其中

500x 当 0,D

500x 当 ,1D

ii

ii

Page 20: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用

引入两个新的自变量

xi1=xi xi2=(xi-5)Di

这样回归模型转化为标准形式的二元线性回归模型:yi=β0+β1xi1+β2xi2+εi (9.3)

( 9.3)式可以分解为两个线性回归方程:当 x1≤500时, E(y)=β0+β1x1

当 x1> 500时, E(y)=(β0-500β2)+(β1+β2)x1

Page 21: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用

Page 22: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用

用普通最小二乘法拟合模型 (9.3)式得回归方程为:

=5.895-0.00395x1-0.00389x2

利用此模型可说明生产批量小于 500时,每增加 1 个单位批量,单位成本降低 0.00395美元;当生产批量大于 500时,每增加 1 个单位批量,估计单位成本降低 0.00395+0.00389=0.00784(美元 ) 。

y

Page 23: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用 以上只是根据散点图从直观上判断本例数据应该用折线回归拟合,这一点还需要做统计的显著性检验,这只需对( 9.2)式的回归系数 β2 做显著性检验。

Page 24: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用

对 β2 的显著性检验的显著性概率 Sig=0.153 , β2没有通过显著性检验,不能认为 β2非零。用 y 对 x 做一元线性回归,计算结果为:

Coefficients

6.795 .324 20.963 .000-6.318E-03 .001 -.976 -10.90 .000

(Constant)X

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Page 25: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用二、回归系数相等的检验

例 9.3 回到例 9.1 的问题,例 9.1 引入 0-1 型自变量的方法是假定储蓄增加额 y 对家庭收入的回归斜率 β1 与家庭年收入无关,家庭年收入只影响回归常数项 β0 ,这个假设是否合理,还需要做统计检验。检验方法是引入如下含有交互效应的回归模型:

yi=β0+β1xi1+β2xi2+β3xi1xi2+εi (9.8)

其中 y 为上一年家庭储蓄增加额, x1 为上一年家庭总收入, x2 表示家庭学历,

高学历家庭 x2=1,低学历家庭 x2=0 。

Page 26: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用

回归模型( 9.8)式可以分解为对高学历和对低学历家庭的两个线性回归模型,分别为:

高学历家庭 x2=1,

yi=β0+β1xi1+β2+β3xi1+εi

=( β0+β2) +( β1+β3) xi1+εi

低学历家庭 x2=0 ,

yi=β0+β1xi1+εi

Page 27: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用

要检验两个回归方程的回归系数 (斜率 ) 相等,等价于检验

H0 : β3=0 ,

当拒绝H0时,认为 β3≠0 ,这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型。

当接受H0时,认为 β3=0 ,这时高学历与低学历家庭的储蓄回归模型是如下形式的联合回归模型:

yi=β0+β1xi1+β2xi2+εi

Page 28: 第 9 章  含定性变量的回归模型

§9.2 自变量定性变量回归模型的应用

Coefficients

-8763.936 1270.878 -6.896 .0004057.151 359.284 .977 11.292 .000-776.939 2514.459 -.111 -.309 .760-787.564 663.367 -.443 -1.187 .247

(Constant)X1X2X3

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Page 29: 第 9 章  含定性变量的回归模型

§9.3 因变量是定性变量的回归模型

在许多社会经济问题中,所研究的因变量往往只有两个可能结果,这样的因变量也可用虚拟变量来表示,虚拟变量的取值可取 0 或 1 。

一、定性因变量的回归方程的意义

设因变量 y 是只取 0 , 1 两个值的定性变量,考虑简单线性回归模型

yi=β0+β1xi+εi (9.12)

在这种 y 只取 0 , 1 两个值的情况下,因变量均值 E(yi)=β0+β1xi 有着特殊的意义。

Page 30: 第 9 章  含定性变量的回归模型

§9.3 因变量是定性变量的回归模型由于 yi 是 0-1 型贝努利随机变量,则得如下概率分布:

P(yi=1)=πi P(yi=0)=1-πi

根据离散型随机变量期望值的定义,可得

E(yi)=1(πi)+0(1-πi)=πi ( 9.13)

得到 E(yi)=πi=β0+β1xi

Page 31: 第 9 章  含定性变量的回归模型

§9.3 因变量是定性变量的回归模型二、定性因变量回归的特殊问题 1. 离散非正态误差项。

对一个取值为 0 和 1 的因变量,

误差项 εi=yi-(β0+β1xi) 只能取两个值:

当 yi=1时, εi=1-β0-β1xi=πi

当 yi=0时, εi=-β0-β1xi=1-πi

显然,误差项 εi 是两点型离散分布,当然正态误差回归模型的假定就不适用了。

Page 32: 第 9 章  含定性变量的回归模型

§9.3 因变量是定性变量的回归模型2. 零均值异方差性。

当因变量是定性变量时,误差项 εi仍然保持零均值,这时出现的另一个问题是误差项 εi 的方差不相等。 0-1型随机变量 εi 的方差为

D(εi)=D(yi) =πi(1-πi)

=(β0+β1xi)(1-β0-β1xi) ( 9.14)

εi 的方差依赖于 xi ,是异方差,不满足线性回归方程的基本假定。

Page 33: 第 9 章  含定性变量的回归模型

§9.3 因变量是定性变量的回归模型3. 回归方程的限制

当因变量为 0 、 1 虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下限制:

θ≤E(yi)=πi≤1

对一般的回归方程本身并不具有这种限制,线性回归方程 yi=β0+β1xi将会超出这个限制范围。

Page 34: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 一、分组数据的 Logistic 回归模型

针对 0-1 型因变量产生的问题,我们对回归模型应该做两个方面的改进。

第一,回归函数应该改用限制在 [0 , 1]区间内的连续曲线,而不能再沿用直线回归方程。

Page 35: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 限制在 [0 , 1]区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是 Logistic函数与正态分布函数。 Logistic函数的形式为

xx

x

ee

exf

1

1

1)(

Logistic函数的中文名称是逻辑斯谛函数,或简称逻辑函数。

Page 36: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 第二,因变量 yi 本身只取 0 、 1 两个离散值,不适于直接作为回归模型中的因变量。

由于回归函数 E(yi)=πi=β0+β1xi 表示在自变量为 xi 的条件下 yi 的平均值,而 yi 是 0-1 型随机变量,因而 E(yi)=πi

就是在自变量为 xi 的条件下 yi 等于 1 的比例。这提示我们可以用 yi 等于 1 的比例代替 yi 本身作为因变量。

下面通过一个例子来说明 Logistic回归模型的应用。

Page 37: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型

例 9.4 在一次住房展销会上,与房地产商签定初步购房意向书的共有 n=325名顾客中,在随后的 3 个月的时间内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为 1 ,没有购买房屋的顾客记为 0 。以顾客的年家庭收入(万元)为自变量 x ,对如下的数据,建立 Logistic 回归模型

Page 38: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 序号 年家庭收

入(万元)

x

签定意向

书人数

ni

实际购房

人数

mi

实际购房

比例

pi=mi/ ni

逻辑变换

)p1

pln(p

i

ii

权重

wi=nipi(1-pi)

1 1.5 25 8 0.320000 -0.75377 5.440

2 2.5 32 13 0.406250 -0.37949 7.719

3 3.5 58 26 0.448276 -0.20764 14.345

4 4.5 52 22 0.423077 -0.31015 12.692

5 5.5 43 20 0.465116 -0.13976 10.698

6 6.5 39 22 0.564103 0.257829 9.590

7 7.5 28 16 0.571429 0.287682 6.857

8 8.5 21 12 0.571429 0.287682 5.143

9 9.5 15 10 0.666667 0.693147 3.333

Page 39: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 Logistic 回归方程为

cix

xp

i

ii ,,2,1,

)exp(1

)exp(

10

10

其中 c 为分组数据的组数,本例 c=9 。做线性化变换,令

)1

ln(i

ii p

pp

上式的变换称为逻辑( Logit)变换,得

pi′=β0+β1xi+εi

( 9.16)

( 9.18)

( 9.17)

Page 40: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 计算出经验回归方程为

-0.886+0.156x ( 9.19)

判定系数 r2=0.9243 ,显著性检验P值≈ 0 ,高度显著。还原为( 9.16)式的 Logistic回归方程为

)156.0886.0exp(1

)156.0886.0exp(ˆ

x

xpi

p

利用( 9.20)式可以对购房比例做预测,例如对 x0=8 ,

590.0436.11

436.1

)8156.0886.0exp(1

)8156.0886.0exp(ˆ

ip

Page 41: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 我们用 Logistic 回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,就是异方差性并没有解决,( 9.18)式的回归模型不是等方差的,应该对( 9.18)式用加权最小二乘估计。当 ni

较大时, pi′ 的近似方差为:

)1(

1)(

iiii n

pD

其中 πi=E(yi) ,因而选取权数为:

wi=nipi(1-pi)

Page 42: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 用加权最小二乘法得到的 Logistic 回归方程为

)149.0849.0exp(1

)149.0849.0exp(ˆ

x

xpi

对 x0=8时的购房比例做预测

585.0409.11

409.1

)8149.0849.0exp(1

)8149.0849.0exp(ˆ

ip

Page 43: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 二、未分组数据的 Logistic 回归模型

设 y 是 0-1 型变量, x1,x2,…,xp 是与 y 相关的确定性变量,

n组观测数据为 (xi1 ,xi2 ,…,xip ;yi) , i=1,2,…,n,

yi 与 xi1 ,xi2 ,…,xip 的关系为:

E(yi)=πi=f(β0+β1xi1+β2xi2+…+βpxip)

其中函数 f ( x)是值域在 [0 , 1] 区间内的单调增函数。对于 Logistic回归

x

x

e

exf

1)(

Page 44: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 于是 yi 是均值为 πi=f(β0+β1xi1+β2xi2+…+βpxip) 的 0-1型分布,概率函数为:

P(yi=1)=πi P(yi=0)=1-πi

可以把 yi 的概率函数合写为:iyy

ii

iiyP 1

)1()( i=1,2,…,n

于是 y1, y2 , …, yn 的似然函数为:

n

i

n

ii

iii

iyyyPL

1 1

1)1()(

Page 45: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型

n

ii

i

ii

ii

n

iii

y

yyL

1

1

)]1ln()1(

ln[

)]1ln()1(ln[ln

)exp(1

)exp(

110

110

ippi

ippii xx

xx

代入得

))]exp(1ln(

)([ln

110

1110

ippi

n

iippii

xx

xxyL

对数似然函数

Logistic回归

极大似然估计就是选取 β0 ,β1 ,β2 ,…,βp 的估计值使上式达极大。

Page 46: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 例 9.5 在一次关于公共交通的社会调查中,一个调查项目是“是乘坐公共汽车上下班,还是骑自行车上下班。”

因变量 y=1 表示主要乘坐公共汽车上下班,y=0 表示主要骑自行车上下班。自变量 x1 是年龄,作为连续型变量;x2 是月收入(元);x3 是性别, x3=1 表示男性, x3=0 表示女性。

调查对象为工薪族群体,数据见表 9.9 ,试建立 y 与自变量间的 Logistic回归。

Page 47: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 序号 性别 年龄 月收入 y 序号 性别 年龄 月收入 y

1 0 18 850 0 15 1 20 1000 0

2 0 21 1200 0 16 1 25 1200 0

3 0 23 850 1 17 1 27 1300 0

4 0 23 950 1 18 1 28 1500 0

5 0 28 1200 1 19 1 30 950 1

6 0 31 850 0 20 1 32 1000 0

7 0 36 1500 1 21 1 33 1800 0

8 0 42 1000 1 22 1 33 1000 0

9 0 46 950 1 23 1 38 1200 0

10 0 48 1200 0 24 1 41 1500 0

11 0 55 1800 1 25 1 45 1800 1

12 0 56 2100 1 26 1 48 1000 0

13 0 58 1800 1 27 1 52 1500 1

14 1 18 850 0 28 1 56 1800 1

Page 48: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 以下是 SPSS软件部分运行结果:

22

)(..

j

j

DES

BWald

Page 49: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 X2(月收入)不显著,将其剔除。

最终的回归方程为:

)1023.02239.26285.2exp(1

)1023.02239.26285.2exp(ˆ

AGESEX

AGESEXpi

Page 50: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 三、 Probit 回归模型

Probit 回归称为单位概率回归,与 Logistic 回归相似,也是拟合 0-1 型因变量回归的方法,其回归函数是

10 1 1( )i i p ipx x

10 1 1( )i i p ip ip x x

【例 9.6】 仍然使用例 9.4购房数据

Page 51: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 序号 年家庭收入

x (万元)

签定意向

书人数 ni

实际购房

人数 mi

实际购房比例

pi=mi / ni

Probit变换 1( )i ip p

1 1.5 25 8 0.320 000 -0.467 70

2 2.5 32 13 0.406 250 -0.237 20

3 3.5 58 26 0.448 276 -0.130 02

4 4.5 52 22 0.423 077 -0.194 03

5 5.5 43 20 0.465 116 -0.087 55

6 6.5 39 22 0.564 103 0.161 38

7 7.5 28 16 0.571 429 0.180 01

8 8.5 21 12 0.571 429 0.180 01

9 9.5 15 10 0.666 667 0.430 73

Page 52: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 得回归方程:

1ˆ ( ) 0.552 0.0970ip x

或等价地表示为:

ˆ ( 0.552 0.0970 )ip x 对 x0=8

0ˆ ( 0.552 0.0970 8) (0.224) 0.589p

Page 53: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 SPSS软件提供了对分组数据拟合 Probit 回归。

1ˆ ( ) 0.53177 0.093 54ip x 得

Page 54: 第 9 章  含定性变量的回归模型

§9.4 Logistic 回归模型 在 SPSS软件的 Probit 回归对话框,可以看到一个 L

ogit选项,用这个选项可以对分组数据做 Logistic 回归。对此例计算出的 Logistic 回归方程是

ˆ 0.85178 0.149 82p x

这也是使用数值计算的最大似然估计,与用最小二乘法所得到的 Logistic 回归方程

)156.0886.0exp(1

)156.0886.0exp(ˆ

x

xp

很接近。

)14982.085178.0exp(1

)14982.085178.0exp(ˆ

x

xp

Page 55: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

当定性因变量 y 取 k 个类别时,记为 1 , 2 ,…, k 。因变量 y 取值于每个类别的概率与一组自变量 x1,x2,…,xp 有关,对于样本数据 (xi1,xi2,…,xip ;yi) , i=1,2,…,n ,多类别 L

ogistic 回归模型第 i组样本的因变量 yi 取第 j 个类别的概率为: 0 1 1

01 11 1 1 0 1 1

exp( )

exp( ) exp( )j j i pj ip

iji p ip k k i pk ip

x x

x x x x

1,2, , ; 1, 2, ,i n j k ( 9.34)

Page 56: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

上式中各回归系数不是惟一确定的,每个回归系数同时加减一个常数后的数值保持不变。为此,把分母的第一项中的系数都设为 0 ,得到回归函数的表达式

0 1 1

02 12 1 2 0 1 1

exp( )

1 exp( ) exp( )j j i pj ip

iji p ip k k i pk ip

x x

x x x x

1,2, , ; 1, 2, ,i n j k ( 9.35)

Page 57: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归【例 9.7】 本例数据选自 SPSS软件自带的数据文件 telco.sav. 该文件在 \SPSS\ tutorial\sample_files 文件夹内。

一个电信商要分析顾客选择服务类别的影响因素,因变量是顾客类别( Customer category),变量名为 custcat ,共取 4 个类别:

1=“Basic service”; 2=“E-service”;

3=“Plus service”; 4=“Total service”

数据的样本量 n=1 000 。

可以用 Edit菜单中的 Options选项的 General选项卡选择显示变量标签 , 可以在显示变量完整的名称。

Page 58: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归进入多类别 Logistic 回归对话框。

把因变量 Customer category[custcat]选入 Dependent 框条中 ,这里 Customer category 是变量标签, custcat 是变量名称。

把定性自变量 Marital status [marital], Level of education [ed], Retired [retire]和 Gender [gender] 选入 factors 框条中。

把数值型自变量 Age in Years [age], Years at current address [address], Household income in thousands [income], Years with current employer [employ], 和 Number of people in household [reside] 选入 covariates 框条中。

在因变量框条的下面有一个 Reference category按钮,点击进入,选择以 First category 为参照类别,这也就是选择( 9.35)式的回归方程。

Page 59: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

Page 60: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

Page 61: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

输出结果9.11 Step Summary

Model Action Effect(s)

Model Fitting

Criteria Effect Selection Tests

-2 Log

Likelihood Chi-Square df Sig.

0 Entered Intercept 2762.531 .

1 Entered ed 2588.305 174.226 12 .000

2 Entered employ 2544.787 43.518 3 .000

3 Entered reside 2531.282 13.505 3 .004

4 Entered address 2519.615 11.667 3 .009

使用逐步回归

Page 62: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

Page 63: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

Page 64: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归输出结果 9.14 Parameter Estimates

Customer

category(a)

B

Std.

Error Wald df Sig. Exp(B)

E-service Intercept .049 .444 .012 1 .912

[ed=1] -2.170 .464 21.862 1 .000 .114

[ed=2] -1.508 .439 11.783 1 .001 .221

[ed=3] -.971 .446 4.738 1 .030 .379

[ed=4] -.676 .446 2.301 1 .129 .508

[ed=5] 0(b) . . 0 . .

address .037 .011 11.236 1 .001 1.038

employ .026 .012 5.111 1 .024 1.027

reside .148 .069 4.599 1 .032 1.159

Page 65: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

Plus service Intercept -1.551 .631 6.043 1 .014

[ed=1] .556 .629 .781 1 .377 1.743

[ed=2] .718 .624 1.325 1 .250 2.051

[ed=3] .673 .636 1.121 1 .290 1.960

[ed=4] .465 .646 .518 1 .472 1.592

[ed=5] 0(b) . . 0 . .

address .022 .010 4.480 1 .034 1.022

employ .051 .010 24.404 1 .000 1.053

reside .084 .065 1.670 1 .196 1.088

Page 66: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

Total service Intercept .181 .431 .176 1 .675

[ed=1] -3.762 .532 50.070 1 .000 .023

[ed=2] -1.959 .427 21.042 1 .000 .141

[ed=3] -1.453 .435 11.171 1 .001 .234

[ed=4] -.584 .425 1.893 1 .169 .557

[ed=5] 0(b) . . 0 . .

address .022 .012 3.498 1 .061 1.022

employ .042 .012 12.437 1 .000 1.043

reside .258 .068 14.418 1 .000 1.294

Page 67: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

输出结果9. 15 Classification

Predicted

Observed Basic

service

E-

service

Plus

service

Total

service

Percent

Correct

Basic service 122 8 75 61 45.9%

E-service 58 10 68 81 4.6%

Plus service 89 8 133 51 47.3%

Total service 47 12 43 134 56.8%

Overall Percentage 31.6% 3.8% 31.9% 32.7% 39.9%

对每个样品计算出因变量 y 取第 j 个类别的 概率,因变量的预测值就是

最大的类别。

jj

Page 68: 第 9 章  含定性变量的回归模型

§9.5 多类别 Logistic 回归

可以用 Save按钮保存预测概率和预测值,表 9.6 是前 20 个样品的预测数值。

表9. 6 前20个样品的预测数值

预测概率序号 因变量

观测值

因变量

预测值 1 2 3 4

1 1 4 .22 .26 .14 .38

2 4 4 .07 .28 .04 .60

3 3 3 .19 .16 .61 .05

4 1 1 .43 .18 .26 .12

5 3 1 .47 .15 .33 .05

6 3 3 .25 .19 .39 .16

Page 69: 第 9 章  含定性变量的回归模型

§9.6 因变量是顺序变量的回归

当定性因变量 y 取 k 个顺序类别时,记为 1 , 2 ,…,k ,这里的数字 1 , 2 ,…, k 仅表示顺序的大小。 因变量 y 取值于每个类别的概率仍与一组自变量 x1,x2,…,xp 有关,对于样本数据 (xi1,xi2,…,xip ;yi) , i=1,2,…,n ,顺序类别回归模型有两种主要类型, 一种是位置结构( Location component)模型, 另一种是规模结构( Scale component)模型。

Page 70: 第 9 章  含定性变量的回归模型

§9.6 因变量是顺序变量的回归

位置结构模型:

1 1 2 2link( ) ( )ij j i i p ipx x x ( 9.36)

Page 71: 第 9 章  含定性变量的回归模型

§9.6 因变量是顺序变量的回归

规模结构模型:

1 1 2 2

1 1

( )link( )

exp( )j i i p ip

iji m im

x x x

z z

其中是 x1,x2,…,xp 的一个子集,作为规模结构解释变量,

( 9.37)

Page 72: 第 9 章  含定性变量的回归模型

§9.6 因变量是顺序变量的回归

Page 73: 第 9 章  含定性变量的回归模型

§9.6 因变量是顺序变量的回归 还是使用 SPSS软件自带的一个数据文件 german_cr

edit.sav 说明此方法。 【例 9.8】 一个信贷员想评估信贷业务的风险,选

取客户的帐户状态( account status)作为因变量,有 5

个有序类别值,分别是 1——无债务历史, 2——目前无债务, 3——目前有正在偿还的债务, 4——曾拖欠债款, 5——危机的帐户。

解释变量由多个财务和个人资料变量构成。

Page 74: 第 9 章  含定性变量的回归模型

§9.6 因变量是顺序变量的回归

进入有序数据回归对话框。

把因变量 account status[chist]选入 Dependent 框条中。

把定性自变量 # of existing credits [numcred], Other installment debts [othnstal] 和 Housing [housng] 选入 factors 框条中。

把数值型自变量 Age in Years [age] 和 Duration in months [duration] 选入 covariates 框条中。

点击 Options按钮选择 Complementary Log-Log 类型的联系函数,这是因为通过对因变量的频数分析发现类别 3 和 5 出现的频率很大,属于高层类别出现几率大的分布。

Page 75: 第 9 章  含定性变量的回归模型

§9.6 因变量是顺序变量的回归

Page 76: 第 9 章  含定性变量的回归模型

应用回归分析

The end