lect07 dataanalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法...

60
§7 数据分析方法基础 (Part I) Zhu Huaiqiu @Peking University Zhu Huaiqiu @Peking University 统计与数据分析Statistics & Data Analysis 统计与数据分析Statistics & Data Analysis 数据,尤其是大量的数据,通常不能提供信息。而统计学家的 目的是揭示这些数据所包含的信息。 ——John Tabak (Probability & Statistics—The Science of Uncertaintyin 2004) 人们一直宣称,世界会由数字来统治。但我所知道的是,数字 会告诉我们,它被利用得是好还是坏。 《歌德对话录》

Upload: lamquynh

Post on 09-Sep-2018

239 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

§7 数据分析方法基础(Part I)

Zhu Huaiqiu@Peking University

Zhu Huaiqiu@Peking University

《统计与数据分析》Statistics & Data Analysis《统计与数据分析》Statistics & Data Analysis

数据,尤其是大量的数据,通常不能提供信息。而统计学家的目的是揭示这些数据所包含的信息。

——John Tabak (《Probability & Statistics—The Science of Uncertainty》in 2004)

人们一直宣称,世界会由数字来统治。但我所知道的是,数字会告诉我们,它被利用得是好还是坏。

《歌德对话录》

Page 2: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

随机现象的多变量、多因素

医学病症诊断复杂化学反应工程质量控制……

运用数理统计方法研究多变量、多因素问题多元统计分析理论和方法

多元统计分析(Multivariate Statistics)研究多元变量的统计规律性,是一元统计学的推广,同时又有多元随机变量特有的问题。

复杂数据的多元统计分析

Page 3: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

1、降维问题(简化数据结构)

(1)将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成更少的互不相关的变量(2)把高维空间的数据投影到低维空间,使问题得到简化

同时损失的信息不太多。

主成分分析因子分析对应分析

多元统计分析的主要研究内容和方法

1928年,Wishart 《多元正态总体样本协方差阵的精确分布》

2、归类问题

对所考察的观测样本(或变量)按照相似程度进行分类、归类

聚类分析判别分析

Page 4: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

3、变量间的相互联系

(1)相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化。建立变量间的定量关系,并用于预测或控制

回归分析

(2)变量间的相互关系:分析两组变量间的相互关系

典型相关性分析、独立性分析

4、多元数据的统计学基础

统计描述方法参数估计假设检验

5、多元统计分析的概率理论基础

多维随机向量多维正态随机向量多元统计量

Page 5: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

§7.1 经验模型与回归分析

机械模型(Mechanical model):

实验建立在对现象已有的物理、化学或工程科学原理、机制和规律的基础之上,由此建立的数学模型。欧姆定律:I = U / R理想气体定律:P V = C

实际观察的数学模型:I = U / R + :影响系统的所有不包括在机械模型中的变异性来源的效应,表示观察值不完全遵循机械模型。

§7.1.1 机械模型和经验模型

经验模型(Empirical model):

不分析实际过程的机理,而是根据从实际得到的与过程有关的数据进行数理统计分析、按误差最小原则,归纳出该过程各参数和变量之间的数学关系式,由此建立的数学模型。

回归分析是建立经验模型的最常用手段。

Page 6: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

【Example 7.1】半导体生产车间对生产的某一系列型号的结合体金属

部件进行拉拔强度(打破结合体需要的力量的测度)测试(见下表)。由于没有可以简单运用的物理机理,需据此建立拉拔强度与金属丝长度、模子高度的经验模型。

拉拔强度数据的三位散点图(样本观察值)

Page 7: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

运用回归分析方法得出拉拔强度估计值图(经验模型)

1 2Y a b x cx

Regression: the relation between selected values of x and observed values of y (from which the most probable value of y can be predicted for any value of x)补充:Regression来源于F. Galton对亲子间的身高做的研究,发现父母的身高虽然会遗传给子女,但子女的身高却有逐渐“回归到中等即人的平均值”的现象

寻求表达量Y与x1, x2, …, xn的相关关系的经验回归方程,简称回归方程

因果关系

§7.1.2 回归分析概述

Page 8: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

利用回归方程,在一定可靠度的要求下,预估当自变量x1, x2, …, xn取确定值时,随机变量Y的取值,称为预测问题;

为使Y在给定的范围内取值,利用回归方程,控制自变量x1, x2, …, xn的取值范围,称为控制问题。

——一元回归问题、多元回归问题——多因变量回归问题——线性回归问题、非线性回归问题

X:可控制或可精确观测得到的数据的变量;Y:与X具有相关关系的随机变量。环境湿度——xi (i=1, 2, …, n)细菌生长数量——yi (i=1, 2, …, n)数据对(样本值):(xi, yi) i=1, 2, …, n 散点图(Scatter plot)

不妨假定Y与X具有线性相关关系:(xi, yi)

Y a b X 其中,是期望值为0的随机变量,假设服从正态分布,于是:

E Y a b X

§7.1.3 一元线性回归问题

Page 9: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

根据数据对(样本观察值)(Xi, Yi), i=1, 2, …, n对系数a、b作出估计,并求得E(Y)的估计值:

xbay ˆˆˆ

称为一元线性回归方程。

回归直线回归值回归系数

求回归方程的两个基本步骤:

1. 求a、b的估计值,从而求出线性回归方程;

2. 作线性相关性检验。

回归直线

回归值 回归系数

一. 回归系数的最小二乘法估计

平面直线L:y=a+bx样本(观察值)点(Xi, Yi), i=1, 2, …, n

定义离差平方和为:

22

1 1

,n n

i i ii i

Q a b Y a bX

Q(a, b)表示点(xi, yi), i=1, 2, …, n与直线L的偏离程度。

满足:

,

ˆ, m in ,a b

Q a b Q a b

的 称为a, b的最小二乘估计值。ba ˆ,ˆ

Page 10: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

根据多元函数达到极值的条件,令:

1

1

2 0

2 0

n

i ii

n

i i ii

QY a bX

a

QY a b X X

b

化为二元线性方程组:

2

1 1

n n

i i ii i

na nXb nY

nXa X b X Y

其中:

1 1

1 1n n

i ii i

X X Y Yn n

可以证明(略),当Xi不全相同时,上述方程组有且存在唯一解。

解得:

ˆˆ

ˆx y x x

a Y b X

b S S

1

2

1

n

x y i ii

n

x x ii

S X X Y Y

S X X

其中,

1 1

1 1n n

i ii i

X X Y Yn n

Page 11: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

——回归系数 是a, b的最小方差无偏估计(证明略)。ba ˆ,ˆ

——回归系数 是由样本观察值决定的随机变量,是由变量的随机涨落导致的;

ba ˆ,ˆ

讨论:

二、线性相关性(显著性)检验

Page 12: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

考虑样本总离差平方和(总和):

22

1 1

22

1 1 1

ˆ ˆ

ˆ ˆ ˆ ˆ2

n n

yy i i i ii i

n n n

i i i i i ii i i

S Y Y Y y y Y

Y y y Y Y y y Y

222

1

2

1

ˆˆ

ˆ

y y

nx y

i x xi x x

n

i ii

S U Q

SU y Y b S

S

Q Y y

ˆˆ ( )y Y b x X

U:回归值的离差平方和,由n个xi的离散性通过x对Y的相关关系导致。称为回归和

Q:x对Y的非线性影响以及试验的随机误差(数据的随机涨落)导致。称为余和

r 检验法

考虑回归和U相对于总和Syy的比:

12

yyxx

xy

yy SS

S

S

U

相关系数r:|r|1|r|越大,线性相关关系越显著;r=0,Y与x不存在线性相关关系;

|r|=1,Y与x完全线性相关(完全正/负相关)

定义:

yyxx

xy

SS

Sr

称为相关系数。

Page 13: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

采用相关系数r为检验统计量,当:

2 nrr

时,认为在显著性水平下,线性回归显著(接受原假设H0)。数据点数目

n-2 0.10 0.05 0.02 0.01 0.001

1 0.98769 0.99692 0.999507 0.999877 0.9999988

7 0.5822 0.6664 0.7498 0.7977 0.8982

8 0.5494 0.6319 0.7155 0.7646 0.8721

100 0.1638 0.1946 0.2301 0.2540 0.3211

相关系数临界值r (n-2)表

F 检验法

构造检验统计量F:

2

nQ

UF

显然,F值越大,U在总和中所占比例越大,回归性也越显著。

当: 2,11 nFF

时,认为在显著性水平下,线性回归显著(接受原假设H0)。

数据点数目

查表:F分布表(略)

Page 14: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

【Example 7.2】

xi0 4 10 15 21 29 36 51 68

yi66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1

根据散点图,确定回归方程形式

xbay ˆˆˆ

计算得到:26.0 90.1

3534.8 4060

3084

ˆ ˆ0.87 67.51

xy xx

yy

x y

S S

S

b a

ˆ 67.51 0.87y x

线性相关性检验:

99896.0yyxx

xy

SS

Sr

查表得:8982.0)7(7977.0)7( 001.001.0 rr

Page 15: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

1. 双曲线型

buayx

u

x

bay

得得令 ,1

buav

yv

xu

x

ba

y

得到1

,1

1

方法:变量替换

可线性化的曲线回归

bxaey 若a>0,则令v=lny,得到:

bxav ln若a<0,则令v=ln(-y),得到:

bxav )ln(

0 xaxy b

若a>0,则令v=lny,u=lnx,得到(a<0情况类推):

buav ln

2. 指数曲线型

3. 幂函数型

Page 16: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

xbay log令u=logx,得到:

buay

令v=logy,得到:

bxay log

bxav

xbay loglog 令u=logx, v=logy,得到:

buav

4. 对数曲线型

xbeay

1

令:

yveu x 1

得到:

buav

5. S曲线型

Page 17: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

x1, x2, …, xr:r个可控制或可精确观测得到的数据的变量;Y:与x1, x2, …, xr具有相关关系的随机变量。

不妨假定Y与x1, x2, …, xr具有线性相关关系:

rr xbxbxbbY ...22110

其中,是期望值为0的多维随机误差,且满足多维正态分布。对于n组样本观察值(n>r):xi1, xi2, …, xir (i=1, 2, …, n)yi (i=1, 2, …, n)

§7.1.4 多元线性回归问题

多元线性回归的数学模型

niE

xbxbxbby

i

iirriii

,...,2,10

...22110

其中,i互不相关。

Page 18: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

nrn

r

r

nnn

xx

xx

xx

b

b

b

y

y

y

...1

.........

..1

...1

.........

1

221

111

1

0

2

1

2

1

X

bεY

多元线性回归模型可写成:

εXbY

)(E

1. 回归系数b的最小二乘估计定义离差平方和:

n

iirriii xbxbxbbyQ

1

222110 ...b

定义:在多元线性回归模型中,若存在b的估计值 ,则对于任意一组实数b0, b1, …, br构成的向量,都成立不等式

bb QQ )ˆ(

称 是b的最小二乘估计。b̂

定理:在多元线性回归模型中,设矩阵X列线性无关,则唯一存在b的最小二乘估计

YXXXb 1)(ˆb̂

Page 19: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

2. 计算回归系数

令 ,得到方程组:rjb

Q

j

,...,2,1,0,0

rj

yxxxbxxbxb

yxbxbnb

n

iiij

n

i

n

iirijriij

n

iij

n

ii

n

i

n

iirri

,...,2,1

...

...

11 111

10

11 1110

问题:求解上述方程组。

rjxn

xyn

yn

iijj

n

ii ,...,2,1

11

11

ry

y

y

rrrr

r

r

r

r

jjj

l

l

l

lll

lll

lll

b

b

b

bxyb

...

...

.........

...

...

ˆ...

ˆ

ˆ

ˆˆ

2

11

21

22221

11211

2

1

10

其中:

n

kkikiiy

n

kjkjikiij

yyxxl

xxxxl

1

1

))((

))((

Page 20: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

3. 显著性检验

USQ

yyU

QUyyS

yy

n

ii

n

iiyy

1

2

1

2

ˆ

)(

Syy:样本离差平方和U:回归和Q:余和

yyS

Ur

)1/(

/

rnQ

rUF

理想的多元回归效果

选取对Y有显著关联的自变量x1, x2, …, xk进行回归,剔除关联较小的自变量;

对于相互关联很强的自变量xi, xj, …, xk,只要从中选取一个对Y有显著关联的自变量进行回归;

逐步回归

逐步回归问题

Page 21: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

基于逐步筛选法的逐步回归

逐个引入自变量,每次引入对Y影响最显著的自变量,并对原有变量逐个进行检验(如F检验),把变为影响不显著的自变量逐个剔除。最终得到的回归方程既不漏掉对Y影响显著的自变量,又不包含对Y影响不显著的变量。

逐步回归的基本步骤

引入自变量的显著性水平1

剔除自变量的显著性水平2

对不在方程中的自变量能否引入?

引入自变量

对已在方程中的自变量能否剔除?

剔除自变量

筛选结束

Page 22: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

§7.2 方差分析(ANOVA)简介

化学反应

催化剂

温度

压力反应时间

溶剂浓度

方差分析(ANalysis Of VAriance)根据试验结果进行分析,鉴别各因素对试验结果的影响程度

高浓度

低浓度

中浓度

§7.2.1 ANOVA的基本原理

【Example 7.3】某公司为了研究3种广告内容对某一医疗器械的销售量的

影响,进行调查统计。经广告以不同的内容广泛宣传后,按寄回的广告回执的订购数量计算全年4季度的销售情况。试判断广告内容对该器械的销售量是否有影响?若有,哪种广告内容更好?

广告内容销售量(单位:台)

1季度 2季度 3季度 4季度

A1(强调疗效) 163 176 170 185

A2(强调运行成本) 184 198 179 190

A3(强调安装条件) 206 191 218 224

Page 23: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

因素/因子(factor):试验中需要考察的、可以控制的条件广告设计、售后服务、外型设计等对销售量的影响(A, B, C, …)

水平(level):因素所处的不同状态不同内容的广告设计(A1, A2, A3)

方差分析(analysis of variance ):根据试验结果(包括随机抽样)进行分析,鉴别不同的因素,或者相同因素的不同水平对试验结果的影响程度,也称为变异数分析。

单因素方差分析双因素方差分析多因素方差分析

单因素方差分析(一元方差分析)

考察一个因素所处的不同状态(水平)对试验结果的影响

——多个水平:多组数据

——每一组数据:来自同一总体的抽样样本(独立同分布),多组数据对应多个总体

——任务:检验在一定假设条件下,各组样本的均值是否相等,由此判断各组(不同水平)总体对试验结果的影响是否显著

——一般性问题:具有相同方差的正态总体,其均值是否相等

Page 24: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

§7.2.2 单因素(一元)方差分析一、数学模型

1 2, ,..., ( 1, 2,..., )ii i inX X X i r

Xi:水平Ai下的总体,i=1, 2, …, r,且有Xi~N(μi, σ2)( Xi为r个相互独立、方差相同的总体),从中抽取样本

1 2, ,..., ( 1, 2,..., )ii i inX X X i r

考虑单因素A对试验结果的影响。取因素A的r个水平A1, A2, …, Ar,在水平Ai下重复进行ni次试

验(抽样),得到ni个数据:

水平 试验结果(样本值) 样本均值 样本方差

1 X11 X12 … X1n1X1· s1

2

2 X21 X22 … X2n2X2· s2

2

… … … … … … …

r Xr1 Xr2 … XrnrXr· sr

2

数据结构表

广告内容销售量

1季度 2季度 3季度 4季度

A1(强调疗效) 163 176 170 185

A2(强调运行成本) 184 198 179 190

A3(强调安装条件) 206 191 218 224

样本均值 样本方差

173.50 87.08

187.75 66.92

209.75 212.25

Page 25: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

基本假定:

(1)r个总体X1, X2, …, Xr相互独立且有Xi~N(μi, σ2),其中μi, σ2

未知

(2)各总体Xi下的容量为ni的样本Xij,j=1, 2, …, ni独立同分布,且有

Xij~N(μi, σ2), i=1, 2, …, r, j=1, 2, …, ni

eij:随机误差,相互独立且服从正态分布N(0, σ2)

, 1, 2,..., ; 1, 2,..,ij ij i ie X i r j n

1

r

ii

n n

1

1 r

i ii

nn

i i

(样本数据总数)

αi:第i个水平Ai对试验结果的作用大小,称为效应值。1

0r

i ii

n

Page 26: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

单因素方差分析的数学模型(线性模型):

2

1

~ 0, , 1, 2,..., ; 1, 2, ...,

0

ij i ij

ij i

r

i ii

X e

e N i r j n

n

且eij相互独立

二、方差分析

不同水平对试验结果影响的差异问题归结为如下假设检验问题:

0 1 2 1 2: ... ... 0r rH or

1 : , , , 1, 2,...,i jH i j i j r

Page 27: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

接受域(acceptance region)

拒绝域(rejection region)

拒绝域(rejection region)

0 ~ ( 1)/

XT t n

S n

2

( 1)t n 2

( 1)t n

当r=2时,构造t检验统计量,进行t检验(参见第6讲)

由英国统计学家R. A. Fisher提出,为纪念Fisher,以F命名,故方差分析又称 F 检验(F test)。

《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》(1918)

《Statistical Methods for Research Workers》(1925)

当r>2时,Fisher方法方差分析法

Page 28: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

1

1, 1, 2,...,

in

i ijji

X X i rn

1 1 1

1 1, 1, 2,..., ,

inr r

iij ii j i

X X n X i rn n

第i组样本的样本均值:

全体样本的样本均值:

1

r

ii

n n

1

1

i i

r

i ii

E X

E X nn

——总离差平方和

22

1 1

22

1

22

1 1

i

i

nr

T iji j

r

iA ii

nr

iE iji j

S X X

S n X X

S X X

——组间离差平方和(即系统误差)

——组内离差平方和(即随机误差)

2 2 2T A ES S S

定理(离差平方和分解公式)上述离差平方和存在下列关系表达式:

Page 29: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

基本思想:

通过组间离差平方和SA2的大小来反映原假设H0是否成立。若

说明各总体(组)间的差异显著,则H0可以被拒绝。

由此构造检验统计量的形式为:

2 2 2T A ES S S

2 2A ES S

2

2A

E

SF F

S

22

2~ ( 1)TS

n

定理 当原假设H0成立时,有:

2 22 2 2 2

2 21

~ ( 1), ~ ( ),i

i

rE E

i E Ei

S Sn and n r w here S S

22

2~ ( 1),AS

r

Page 30: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

方差分析的检验统计量F及其分布:22

22

( 1)~ ( 1, )

( )AA

E E

S r SF F r n r

S n r S

在给定显著性水平α的情况下,H0的拒绝域形式为:2

12

( 1)( 1, )

( )A

E

S rF F r n r

S n r

单因素(一元)方差分析表

方差来源 DF(自由度)

S2

(离差平方和)F值

因素A r-1

随机误差 n-r

总和 n-1

2AS

2ES2TS

2

2

( 1)

( )A

E

S r

S n r

Page 31: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

【Example 7.3】某公司为了研究3种广告内容对某一医疗器械的销售量的

影响,进行调查统计。经广告以不同的内容广泛宣传后,按寄回的广告回执的订购数量计算全年4季度的销售情况。试判断广告内容对该器械的销售量是否有影响?若有,哪种广告内容更好?

广告内容销售量

1季度 2季度 3季度 4季度A1(强调疗效) 163 176 170 185

A2(强调运行成本) 184 198 179 190A3(强调安装条件) 206 191 218 224

方差来源DF

(自由度)S2

(离差平方和)F值

因素A r-1=2 2668.17

10.93随机误差 n-r=9 1098.5

总和 n-1=11 3766.67

显著性水平α=0.05,H0被拒绝:

2

0 .9 52

( 1)1 0 .9 3 ( 2 , 9 ) 4 .2 6

( )A

E

S rF

S n r

4.26

0.05

p值

Page 32: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

三、效应值分析

i i

αi:第i个水平Ai对试验结果的作用大小,称为效应值。

任务:

效应值参数估计,即求出αi的估计值及μi的置信区间,i=1, 2, …,r。

当因素A的各水平Ai对试验结果具有显著影响时,应该进一步进行效应的统计分析。

αi 的估计值:

1

1, 1, 2,...,

in

i ijji

X X i rn

1

1

i i

r

i ii

E X

E X nn

i i i iE X X E

Page 33: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

μi 的置信区间:

构造统计量

2

2

( )( )

i i

Ei

X n rT t n r

Sn

正态总体均值μi的置信度为(1-α)置信区间为:2 2

1 12 2

( ) , ( )( ) ( )

1, 2, ...,

E Ei i

i i

S SX t n r X t n r

n n r n n r

i r

【Example 7.3】某公司为了研究3种广告内容对某一医疗器械的销售量的

影响,进行调查统计。经广告以不同的内容广泛宣传后,按寄回的广告回执的订购数量计算全年4季度的销售情况。试判断广告内容对该器械的销售量是否有影响?若有,哪种广告内容更好?

广告内容销售量

1季度 2季度 3季度 4季度A1(强调疗效) 163 176 170 185

A2(强调运行成本) 184 198 179 190A3(强调安装条件) 206 191 218 224

1 2 316.83, 2.58, 19.42

A3导致的销售量最多,为最优水平。

参数μ3的100(1-0.05)%置信度的置信区间为(197.3, 222.2)。因此,采用水平A3的广告,将有95%的把握使销售量在197~222台。

Page 34: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

§7.2.3 双因素或多因素方差分析——同时考虑两个或两个以上因素对试验结果的影响

需考虑各因素不同水平组合情况的试验结果,即交互效应(interaction effect)。

§7.2.4 方差分析的讨论方差分析的应用条件(基本假设):(1)各样本须是相互独立的随机样本;(2)各样本来自正态分布总体;(3)各总体方差相等,即方差齐。

方差分析的用途:(1)两个或多个样本均值间的比较;(2)分析两个或多个因素间的交互作用;(3)回归方程的线性假设检验;(4)多元线性回归分析中偏回归系数的假设检验;(5)两样本的方差齐性检验;(6)正交试验设计、质量稳健性分析等。

Page 35: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

判别分析(Discriminant analysis)

用于判别样品所属类型的统计分析方法

基因识别:根据某一DNA序列的核苷酸组分、功能信号特征等指标,判别是否编码蛋白序列? 医学诊断:某一病人肺部存在阴影,判别: 肺结核?良性肿瘤?肺癌?……

§7.3 判别分析方法

判别分析问题的数学描述

设有k个m维的总体G1, G2, …, Gk,(1). 它们的分布特征已知,可以表示为F1(x), F2(x), …, Fk(x)(2). 或者知道来自各个总体的样本(训练样本)。

对于给定的一个未知样品X(检测样本),判别X属于哪个总体。

• 多元的、复杂的、高度综合的统计分析问题

Page 36: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

Fisher判别法距离判别法

Bayesian判别法逐步判别法

……

判别准则

学习(Learning) 检测(Test)

判别效率

评价(Evaluation)

训练样本训练集

Learning set检测样本检测集

Test set

判别分析的原理

基本思想:将 m组n维的数据在n维空间投影到某一个方向,使得投影后的组(总体)与组(总体)之间尽可能地分开。

§7.3.1 Fisher线性判别法

Page 37: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

平面上两类数据训练样本的散点图(两组数据样本在平面上存在一个合理的分界线L)

x1

x2

G1

G2

平面上两类数据训练样本的散点图(两组数据样本在平面上存在一个合理的分界线L)

x1

x2

G1

G2

L: c1x1+c2x2-c=0

令:F(x1,x2)=c1x1+c2x2

F(x1,x2): 判别函数c:判别值

Page 38: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

已知:数据属性有n个,每个数据点为n维向量X:

),...,,( 21 nxxxX

已知数据分为两类总体: G1和G2 ,总体G1有p个样本点,总体G2有q个样本点。

属 性 (分量)

1 2 … n

总体G1

(i=1, …, p)

1 X1(1) x11

(1) x12(1) … x1n

(1)

… … … … …

i Xi(1) xi1

(1) xi2(1) … xin

(1)

… … … … …

p Xp(1) xp1

(1) xp2(1) … xpn

(1)

总体G2

(i=1, …, q)

1 X1(2) x11

(2) x12(2) … x1n

(2)

… … … … …

i Xi(2) xi1

(2) xi2(2) … xin

(2)

… … … … …

q Xq(2) xq1

(2) xq2(2) … xqn

(2)

目标:求解在n维空间中总体G1和总体G2的最优分界平面。

定义线性判别函数为:

nnn xCxCxCxxxF ...),...,,( 221121

其中{Ci } (i = 1, 2, …, n)为常数(待定系数)。

若判别值为 C ,对于任何未知数据点X(x1, x2, …, xn),代入判别函数,依据F (x1, x2, …, xn)与C值的比较,可以判别点X属于哪一类。

1、确定待定系数Ci (i = 1, 2, …, n)

2、确定判别值C

Page 39: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

将总体G1的p个点、总体G2的q个点分别代入判别函数:

pixCxCxCy inniii ,...,1... )1()1(22

)1(11

)1(

qixCxCxCy inniii ,...,1... )2()2(22

)2(11

)2(

)1()1(22

)1(11

)1( ... nn xCxCxCy

)2()2(22

)2(11

)2( ... nn xCxCxCy

nixp

xp

kkii ,...,2,1

1

1

)1()1(

nixq

xq

kkii ,...,2,1

1

1

)2()2(

p

iiy

py

1

)1()1( 1

q

iiy

qy

1

)2()2( 1

一、确定待定系数Ci

令:

2)2()1( )( yyA A是关于待定系数{Ci }的函数,与G1和G2两类总体的几何中心的距离相关。显然,判别函数F (x1, x2, …, xn)应该使A值越大越好。

令:

q

ii

p

iiB yyyy

1

2)2()2(

1

2)1()1(

B也是关于待定系数{Ci }的函数,与G1和G2两类总体的相对于各自几何中心的离差相关。显然,判别函数F (x1, x2, …, xn)应该使B值越小越好。

Page 40: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

构造函数I:

q

ii

p

ii

B

An

yyyy

yyCCCII

1

2)2()2(

1

2)1()1(

2)2()1(

21 ),...,,(

选择合适的待定系数Ci (i = 1, 2, …, n),使得函数I(C1, C2, …, Cn)达到极大值。

niC

I

i

,...,2,10

BAB

AI

lnlnlnln

niCC

IC i

B

Bi

A

Ai

,...,2,1011

)(ln

niCCI i

B

i

A ,...,2,101

2

1

)2()1(2)2()1( )()(

n

kkkkA xxCyy

q

j

n

kkjkk

p

j

n

kkjkk

q

jj

p

jjB

xxCxxC

yyyy

1

2

1

)2()2(

1

2

1

)1()1(

1

2)2()2(

1

2)1()1(

)()(

Page 41: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

))((21 )2()1()2()1(

iii

A xxyyICI

n

jjij

q

k

n

jikijkjj

p

k

n

jikijkjj

q

kikik

p

kikik

i

B

CS

xxxxC

xxxxC

xxyyxxyyC

1

1 1

)2()2()2()2(

1 1

)1()1()1()1(

1

)2()2()2()2(

1

)1()1()1()1(

2

))((2

))((2

))((2))((2

q

kjkjiki

p

kjkjikiij xxxxxxxxS

1

)2()2()2()2(

1

)1()1()1()1( ))(())((

)(...

......

)(...

)(...

)2()1(2211

)2(2

)1(22222121

)2(1

)1(11212111

nnnnnnn

nn

nn

xxCSCSCS

xxCSCSCS

xxCSCSCS

)(1 )2()1( yyI

)2()1(2211

)2(2

)1(22222121

)2(1

)1(11212111

...

......

...

...

nnnnnnn

nn

nn

xxCSCSCS

xxCSCSCS

xxCSCSCS

消去非零的因子,得到求解待定系数(C1, C2, …, Cn)的线性方程组:

Page 42: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

二、确定判别值C

判别函数已知,不妨写成:

pixCxCxCy inniii ,...,1... )1()1(22

)1(11

)1(

qixCxCxCy inniii ,...,1... )2()2(22

)2(11

)2(

nn xCxCxCy ...2211

将G1的p个点、 G2的q个点分别代入判别函数:

p

iiy

py

1

)1()1( 1

q

iiy

qy

1

)2()2( 1

qp

yqypC

)2()1(

对G1、G2的(p+q)个点的判别函数值取总体的平均值:

)2()1(

1

)2(

1

)1(

1

1

yqypqp

yyqp

q

ii

p

ii

显然,值是两类点的判别函数值的加权平均,处于两类判别函数平均值之间,也等价于两类点的总体几何中心的判别函数值。因此,将判别值C取为值:

Page 43: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

三、Fisher线性判别的基本步骤

属 性 (分量)

1 2 … n

G1

(i=1, …, p)

1 X1(1) x11

(1) x12(1) … x1n

(1)

… … … … …

i Xi(1) xi1

(1) xi2(1) … xin

(1)

… … … … …

p Xp(1) xp1

(1) xp2(1) … xpn

(1)

G2

(i=1, …, q)

1 X1(2) x11

(2) x12(2) … x1n

(2)

… … … … …

i Xi(2) xi1

(2) xi2(2) … xin

(2)

… … … … …

q Xq(2) xq1

(2) xq2(2) … xqn

(2)

问 题已知数据样本点分为两类总体: G1和G2 , G1有p个点, G2有q个点。求出判别函数F (x1, x2, …, xn)和判别值C 。对于任何未知数据点X(x1, x2, …, xn),依据F (x1, x2, …, xn)与C值的比较,判别点X属于哪一类总体。

STEP 1

先对样本点数据Xi(1)(xi1

(1), xi2 (1), …, xin

(1))( i=1, …, p)、Xi

(2)(xi1 (2), xi2

(2), …, xin (2))( i=1, …, q)分别计算以下求和以及

平均值:

),...,2,1(1

)2(

1

)1( nixxq

kki

p

kki

),...,2,1(11

1

)2()2(

1

)1()1( nixq

xxp

xq

kkii

p

kkii

),...,2,1,(1

)2()2(

1

)1()1( njixxxxq

kkjki

p

kkjki

Page 44: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

STEP 2

计算di和Sij,注意对称性Sij = Sji :

),...,2,1()2()1( nixxd iii

),...,2,1,(

1

1

))(())((

1

)2(

1

)2(

1

)2()2(

1

)1(

1

)1(

1

)1()1(

1

)2()2()2()2(

1

)1()1()1()1(

nji

xxq

xx

xxp

xx

xxxxxxxxS

q

kkj

q

kki

q

kkjki

p

kkj

p

kki

p

kkjki

q

kjkjiki

p

kjkjikiij

STEP 3

解线性代数方程组:

nnnnnn

nn

nn

dCSCSCS

dCSCSCS

dCSCSCS

...

......

...

...

2211

22222121

11212111

若方程有解,得到判别函数F:

nnn xCxCxCxxxF ...),...,,( 221121

Page 45: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

STEP 4

将平均值代入判别函数,然后计算判别值C:

)1()1(22

)1(11

)1( ... nn xCxCxCy

)2()2(22

)2(11

)2( ... nn xCxCxCy

qp

yqypC

)2()1(

STEP 5

对未知数据X(x1, x2, …, xn)进行判别:将数据X(x1, x2, …, xn)代入判别函数F,与判别值进行比较,判别其属于哪一类。

nn xCxCxCy ...2211

2

1

)2()1(

GXCy

GXCy

yy

属于,

属于,

,若

1属于

属于

GXCy

GXCy

yy

2

)2()1(

Page 46: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

四、Fisher线性判别的应用举例

x1

x2ORF序号 x1 x2 类别

1 5 7 1(编码)

2 4 3 2 (非编码)

3 7 8 2 (非编码)

4 8 6 2 (非编码)

5 3 6 1 (编码)

6 2 5 1 (编码)

7 6 6 1 (编码)

8 9 6 2 (非编码)

9 5 4 2 (非编码)

例7.4 DNA序列上ORF是否编码的判别:依据某两个属性进行打分,得到x1, x2,在x1 - x2 平面上进行Fisher判别分析。

4.5

6.6

0.6

0.4 )2()1( xx

6.06.2 21 dd

4571.21143.2

1143.28857.3S

6.04571.21143.2

6.21143.28857.3

21

21

CC

CC

5418.15080.1 21 CC

Page 47: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

)1(2

)1(1

)1( 5418.15080.1 xxy

5264.0C

4.5

6.6

0.6

0.4 )2()1( xx

)2(2

)2(1

)2( 5418.15080.1 xxy

21 5418.15080.1 xxy

5264.05418.15080.1 21 xx

Page 48: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

五、逐级Fisher判别法

x1

x2

G1

G2

G3

六、Fisher判别法小结

基本思想:投影。使得投影后各组总体尽可能分开。

本质上是基于微分寻优的方法

局限1、可能陷入局部最优的判别结果;2、对数据属性各变量的要求较为苛刻,如正态性、

相互独立性等;3、对于类别数目太多的判别问题,采用逐级判别

比较麻烦、累赘。

Page 49: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

距离判别的基本思想

样品与哪一类总体的距离最近,就判别它属于哪一类总体。

距离的定义

绝对距离相对距离

§7.3.2 距离判别法

一、Mahalanobis距离

)()(),( 12 XXSXXGXd

则对于任一点X(x1, x2, …, xn) ,定义点X与总体G的Mahalanobis距离为:

定义:

设总体G为n维变量,即含有n个属性指标(x1, x2, …, xn)。已知总体G中的 t个样品Xk (xk1, xk2, …, xkn),k=1, 2, …, t。总体均值可用样本均值估计:

nixt

xt

kkii ,...,2,1

1

1

Page 50: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

njixxxxt

st

kjkjikiij ,...,2,1,))((

1

1

1

其中,矩阵S=(sij)n×n为:

矩阵S为协方差矩阵(covariance matrix),反映总体G的属性指标中第i个分量与第j个分量的相关性。

2

2

22 )()()(

),(

xxx

GXd

特别地,当n=1时,且总体G服从正态分布, Mahalanobis距离为:

x

p(x)

x

p(x)

|x-|

G1:N(,1)

G2:N(,2)

21

2

12 )(

),(

x

GXd

22

2

22 )(

),(

x

GXd

绝对距离与Mahalanobis距离的比较

Page 51: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

Prasanta Chandra Mahalanobis(1893-1972 )

Indian applied statistician

二、两类总体的Mahalanobis距离判别方法

已知:考虑具有n个属性的两类总体G1、G2,已知G1的p个训练样本, G2的q个训练样本:

)2()2(2

)2(1

)2(2

)2(22

)2(21

)2(1

)2(12

)2(11

)1()1(2

)1(1

)1(2

)1(22

)1(21

)1(1

)1(12

)1(11

...

............

...

...

...

............

...

...

qnqq

n

n

pnpp

n

n

xxx

xxx

xxx

xxx

xxx

xxx

问题:对于未知样本点X(x1, x2, …, xn),判别其类型?

Page 52: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

G1、G2的总体均值根据样本均值估计得到:

nixq

xxp

xq

kkii

p

kkii ,...,2,1

11

1

)2()2(

1

)1()1(

分别求出总体G1、G2的协方差矩阵S(1)、S(2):

njixxxxp

sp

kjkjikiij ,...,2,1,))((

1

1

1

)1()1()1()1()1(

njixxxxq

sq

kjkjikiij ,...,2,1,))((

1

1

1

)2()2()2()2()2(

对于任一新样本X(x1, x2, …, xn),分别计算它到总体G1、G2的Mahalanobis距离:

)1(

)1(22

)1(11

1

)1()1(2

)1(1

)1(2

)1(22

)1(21

)1(1

)1(12

)1(11

)1()1(22

)1(111

2

...

...

............

...

...

),...,,(),(

nnnnnn

n

n

nn

xx

xx

xx

sss

sss

sss

xxxxxxGXd

)2(

)2(22

)2(11

1

)2()2(2

)2(1

)2(2

)2(22

)2(21

)2(1

)2(12

)2(11

)2()2(22

)2(112

2

...

...

............

...

...

),...,,(),(

nnnnnn

n

n

nn

xx

xx

xx

sss

sss

sss

xxxxxxGXd

Page 53: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

构造判别函数W(X):

),(),()( 12

22 GXdGXdXW

判别准则为:

2

1

时,0)(

0)(

GXXW

GXXW

时,

特例:考虑n=1的两类正态总体:G1:N(1, 1)G2:N(2, 2)

p(x)

x

G1:N(1,1)

G2:N(2,2)

1 2

Page 54: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

2

22

1

11 ),(),(

x

GXdx

GXd

不妨设2 > 1 , 2 > 1 ,且检测值满足2 >x> 1 ,则:

)()(21

21

1

1

2

2 xxx

xW

其中

21

2112

于是,判别准则为:

2

1

时,0)(

时,0)(

GxxW

GxxW

p(x)

x

G1:N(1,1)

G2:N(2,2)

1 2*(阈值点)

2

22

1

11 ),(),(

x

GXdx

GXd

Page 55: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

已知:考虑具有n个属性的m类总体Gl ( l = 1, 2, …, m) ,每类总体已知tl (l=1, 2, …, m)个训练样本:

)()(2

)(1

)(2

)(22

)(21

)(1

)(12

)(11

)2()2(2

)2(1

)2(2

)2(22

)2(21

)2(1

)2(12

)2(11

)1()1(2

)1(1

)1(2

)1(22

)1(21

)1(1

)1(12

)1(11

...

............

...

...

...

...

............

...

...

...

............

...

...

222111

mnt

mt

mt

mn

mm

mn

mm

nttt

n

n

nttt

n

n

mmmxxx

xxx

xxx

xxx

xxx

xxx

xxx

xxx

xxx

问题:对于未知样本点X(x1, x2, …, xn),判别其类型?

三、多类总体的Mahalanobis距离判别方法

类似地,分别计算点X(x1, x2, …, xn)到每一类Gl的Mahalanobis距离d2(X, Gl )。

)(

)(22

)(11

1

)()(2

)(1

)(2

)(22

)(21

)(1

)(12

)(11

)()(22

)(11

2

...

...

............

....

...

...),(

lnn

l

l

lnn

ln

ln

ln

ll

ln

ll

lnn

lll

xx

xx

xx

sss

sss

sss

xxxxxxGXd

其中

nixt

xlt

k

lki

l

li ,...,2,1

1

1

)()(

njixxxxt

slt

k

lj

lkj

li

lki

l

lij ,...,2,1,))((

1

1

1

)()()()()(

Page 56: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

比较找到其中的最小距离:

),(min),( 2

,...,2,1

2l

mli GXdGXd

点X(x1, x2, …, xn)到类Gi的距离d2(X, Gi )最小,最后判别点X(x1, x2, …, xn)属于第 i 类。

错判损失(假设检验的两类错误)

N(G1|G2)

N(G2|G1)

§7.3.3 判别效果的评价

Page 57: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

P(G1|G2) P(G2|G1)

p(x)

x

G1:N(1,1)

G2:N(2,2)

1 2

*

错判率

一、检验判别效果的方法

训练集(Learning set):训练样本集检测集(Test set):检测样本集

1. 训练集的回判

利用训练集作为检测集:用判别方法对已知类型的样本进行回判,统计判错的个数以及占样本总数的比例,作为错判率的估计。

特点:容易低估错判率。

Page 58: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

2. 从训练集中构造检测集

已知数据集

判别效率

训练集

50%

检测集

50%

判别准则

学习 检测 评价

3. 刀切法(Jack-knife Method)

“舍一法(Leaveone-out)”“Lachenbruch删除法”“交叉确认法(Cross-validation)”

基本思想:(1). 每次从训练样本集中剔除1个样本X' ;(2). 利用其余的样本(数量为p+q-1)作为训练集来训练得到判别准则;(3). 根据判别准则对样本X' 进行判别;(4). 对训练样本中的每个样本依次重复进行,记录判别对错的个数;(5). 计算错判率。

Page 59: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

检测结果

实际归类 Predicted G1 Predicted G2 合计

Real G1 N(G1|G1) N(G2|G1) Nreal1

Real G2 N(G1|G2) N(G2|G2) Nreal2

合计 Npred1 Npred

2

错判率(貌似错判率):

realreal NN

GGNGGN

21

1221 )()(

二、检验判别效果的几个指标

敏感性(sensitivity,Sn):

realreal N

GGNSn

N

GGNSn

2

22)2(

1

11)1( )()(

特异性(specificity,Sp):

predpred N

GGNSp

N

GGNSp

2

22)2(

1

11)1( )()(

Page 60: Lect07 DataAnalysis 1 · 回归值 回归系数 一. 回归系数的最小 ... r 检验法 考虑回归 ... 时,认为在显著性水平 下,线性回归

检验判别效果举例:真核基因内含子剪接位点信号的识别

R = A or GY = C or UN = A, G, C or U

供体位点 受体位点

检测结果

实际归类Predicted G1 Predicted G2 合计

Real G1 N(G1|G1)=2,738 N(G2|G1)=94 Nreal1 =2,832

Real G2 N(G1|G2)=12,668 N(G2|G2)=123,754 Nreal2 =136,422

合计 Npred1=15,406 Npred

2 =123,848

供体信号GU识别结果:被识别为真信号 被识别为假信号

2832个真信号 2738 94136422个假信号 12668 123754

貌似错判率:9.2%敏感性Sn :96.7% 特异性Sp :17.8%

受体信号AG识别结果:被识别为真信号 被识别为假信号

2832个真信号 2692 140194409个假信号 22212 172197

貌似错判率:11.3% Sn = 95.1% Sp = 10.8%