今天内容: 模型选择

82
今今今今今今今今 Occam's razor 今今今今 / 今今今今 今今今今今今今今今今 Mallows C p 今今 AIC BIC/MDL SRM 今今今今今今今今 今今今今 Bootstrap

Upload: hoyt-solomon

Post on 03-Jan-2016

100 views

Category:

Documents


10 download

DESCRIPTION

今天内容: 模型选择. Occam's razor 测试误差 / 训练误差 训练误差的乐观性估计 Mallows C p 统计量 AIC BIC/MDL SRM 直接估计测试误差 交叉验证 Bootstrap. “模型”. 我们说的“模型”有时指的是模型类别 ,例如所有 2 个高斯的混合模型和所有 3 个高斯的混合模型。 有时也指在一个类别的模型中的一员,如参数 的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。 在实际应用中,我们通常同时考虑上述两种情况,也就是说: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 今天内容: 模型选择

今天内容:模型选择 Occam's razor 测试误差 / 训练误差 训练误差的乐观性估计

Mallows Cp 统计量 AIC BIC/MDL SRM

直接估计测试误差 交叉验证 Bootstrap

Page 2: 今天内容: 模型选择

“ 模型” 我们说的“模型”有时指的是模型类别 ,例如所有 2 个

高斯的混合模型和所有 3 个高斯的混合模型。

有时也指在一个类别的模型中的一员,如参数 的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。

在实际应用中,我们通常同时考虑上述两种情况,也就是说: 参数 的选择统计决策理论部分已经讨论 ,在此主要讨论不同

函数族的选择

F

,M F

Page 3: 今天内容: 模型选择

Occam's razor

William of Occham (1285–1348)

from wikipedia

Occam's razor: Entia non sunt multiplicanda praeter necessitatem Or : Entities should not be multiplied unnecessarily

—— the explanation of any phenomenon should make as few assumptions as possible, eliminating, or "shaving off", those that make no difference in the observable predictions of the explanatory hypothesis or theory.

Page 4: 今天内容: 模型选择

Occam's razor

例:树后面有多少个盒子?

Page 5: 今天内容: 模型选择

模型选择 训练数据

既包含输入—输出之间的规律 也包含噪声

模型匹配时会匹配上述两种情况 如果模型太复杂,会将噪声也包含在模型中 所以,好的模型

足够对输入—输出之间的规律建模 不够对噪声建模(假设噪声较弱)

Page 6: 今天内容: 模型选择

一个回归的例子 2Y X

2~ [0,1], ~ 0,0.3X Uniform N

样本数 n = 10用M 阶多项式拟合:

1

ˆM

jj

j

y w x

Page 7: 今天内容: 模型选择

一个回归的例子( 2 )

0 阶多项式拟合

Page 8: 今天内容: 模型选择

一个回归的例子( 3 )

1 阶多项式拟合

Page 9: 今天内容: 模型选择

一个回归的例子( 4 )

3 阶多项式拟合

Page 10: 今天内容: 模型选择

一个回归的例子( 5 )

9 阶多项式拟合

Page 11: 今天内容: 模型选择

一个回归的例子( 6 ) 过拟合:

2

1

i

n

RMS ii

E y yn

Page 12: 今天内容: 模型选择

一个回归的例子( 7 ) 回归系数:

Page 13: 今天内容: 模型选择

一个回归的例子( 8 )

9 阶多项式拟合,训练样本数 n=15

Page 14: 今天内容: 模型选择

一个回归的例子( 9 )

9 阶多项式拟合,训练样本数 n=100

Page 15: 今天内容: 模型选择

一个回归的例子( 10 )

岭回归:最小化 2

2

1 0 1

p pn

ridge i ij j ji j j

RSS y X w w

Page 16: 今天内容: 模型选择

一个回归的例子( 11 )

岭回归

Page 17: 今天内容: 模型选择

一个回归的例子( 12 )

岭回归

Page 18: 今天内容: 模型选择

一个回归的例子( 13 ) 岭回归系数

Page 19: 今天内容: 模型选择

目标 模型选择:估计不同模型的性能,选出最好的模

模型评估:已经选定最终的模型,估计它在新数据上的预测误差(泛化误差)

提升模型的性能:模型平均 Bagging Boost …

教材第 8 章

Page 20: 今天内容: 模型选择

模型选择和模型评估 当样本足够多时,可以将数据分成三份

训练集:估计模型的参数 校验集:估计模型的预测误差 测试集:计算最终选定的模型的泛化误差

但通常没有足够多样本,而且也很难说明多少足够数据是足够的 依赖于基础数据的信噪比和模型的复杂程度

训练集训练集 校验集校验集 测试集测试集

Page 21: 今天内容: 模型选择

模型选择

目标:选择使测试误差最小的模型 M ,称为模型选择。

Page 22: 今天内容: 模型选择

训练误差与测试误差 测试误差,亦称泛化误差 (generalization error ) ,是在

与训练数据同分布的独立测试样本上的风险(平均损失):

亦称期望风险

训练误差是在训练样本上的平均损失:

亦称经验风险

1

1ˆ ˆ,n

tr i ii

R M L Y Y Mn

ˆ,R M L Y Y ME

Page 23: 今天内容: 模型选择

训练误差与测试误差 目标是选择测试误差最小的

模型

但测试误差很难计算 / 估计 用训练误差估计 但训练误差是测试误差的欠估

在选择合适复杂性的模型时,存在偏差 - 方差的平衡

ˆtrR M R M op M

训练误差的乐观性

Page 24: 今天内容: 模型选择

训练误差与测试误差 经验风险 / 训练误差是否是期望风险 / 测试误差的

一个好的估计? 随样本集容量 n→∞ 渐进成立 在小样本条件下,并不是一个好的估计

训练误差是测试误差的欠估计(有偏估计) ˆ

trR M R M op M 训练误差的乐观性

Page 25: 今天内容: 模型选择

训练误差的乐观性 通常我们有

因此,为了选择模型,我们可以 对 进行估计,或 以某种方式估计 R(M)

欠拟合程度 + 复杂性惩罚 ˆ

trR M R M op M

op M

Page 26: 今天内容: 模型选择

训练误差的乐观性 估计预测误差的方法

估计乐观性,然后与训练误差 相加 AIC/BIC/MDL 等(模型与参数为线性关系时) SRM

直接估计测试误差 交叉验证 /bootstrap 对任意损失函数、非线性自适应拟合技术都适用

ˆtrR M

R M

Page 27: 今天内容: 模型选择

估计乐观性 通过各种技巧(通常是渐近性)估计乐观性

Page 28: 今天内容: 模型选择

Mallows Cp 统计量 统计量:

22ˆ ˆp tr

pC M R M

n

2ˆ MSE ——噪声方差的估计,通过一个低偏差模型的 估计

p——基的数目n——训练样本数目

使用所有特征的模型

pC M

Page 29: 今天内容: 模型选择

AIC: Akaike Information Criterion

当采用 log 似然作为损失函数,测试误差为

其中 为 MLE ,模型为 ,似然函数为

则训练误差为

其中 为在训练集上的 log 似然。

ˆ ˆ2R M l M

E

ˆ ˆ ˆ1

log log | ,n

i ii

l M L M f Y M X

ˆ ˆ ˆ1

ˆˆ 2 2 log | ,n

tr tr i ii

R M l M f Y M X

ˆ1

log | ,n

i ii

f Y M X

ˆˆ,M

F

ˆtrl M

i 为测试集上数据索引

Page 30: 今天内容: 模型选择

AIC: Akaike Information Criterion

当 时,

其中

这导出 R(M) 的一个估计: AIC

其中 为从一个低偏差(复杂的)估计的 MSE获得。

n ˆˆ2 2trR M l M p

2ˆ ˆ2

ˆ ˆ ˆ2 2 2ˆtr tr

n pAIC M l M p R M

n

2

2

21

1ˆ ˆ2n

tr i ii

l M y f x

(高斯模型时,对数似然与平方误差损失一致)

2

1

1 ˆˆn

tr i ii

R M y f xn

ˆ2

ˆtr

nR M

Page 31: 今天内容: 模型选择

BIC : Bayesian Information Criterion

类似 AIC ,可用于极大化对数似然实现的拟合中

其中

所以

ˆ( ) 2 logtrBIC M l M n p

2

21

1ˆ ˆ2n

tr i ii

l M y f x

tr

nR M

同 AIC

22

ˆ ˆ( ) logˆ tr

n pBIC M R M n

n

Page 32: 今天内容: 模型选择

BIC: Motivation

用贝叶斯方法选择模型

Page 33: 今天内容: 模型选择

回顾贝叶斯方法 为书写简单,记训练数据为 假设已知模型 的 的形式,参数 的贝叶斯估计为(见

参数估计部分)

定义模型参数的先验分布: 和模型似然: 当有数据 Z到达后,参数的分布(后验分布)变得更确定

F

( )( ) ( )

( )( | , ) | ( | , ) |

| ,( | ) ( | , ) |

f f f ff

f f f d

q q q qq

q q q= =

¢ ¢ ¢òZ Z

ZZ Z

M M M MM

M M M

v

1 1, ,..., ,n nX Y X YZ

( )|f q M( | , )f qZ M

( | )f M|Z

( | , )f Z M

M

Page 34: 今天内容: 模型选择

贝叶斯方法与模型选择 给定一些列侯选模型 ,并且模型参数为 某个给定的模型的后验概率为:

表示模型的先验 表示证据(参数估计中的归一化因子)

为了比较两个模型,可以比较后验比:

如果比值 > 1 ,则选择第 1 个模型。

1 1 1

2 2 2

( | ) ( ) ( | )

( | ) ( ) ( | )

f f f

f f f

Z Z

Z Z

M M MM M M

( )mf M( | )mf Z M

, 1m m M M

( | ) ( ) ( | )m m mf f fZ ZM M M

m

Page 35: 今天内容: 模型选择

贝叶斯方法与模型选择

其中先验比 可以根据美学原理或经验确定:如简单的模型先验更高

但先验比不是必须的,即使假设模型的先验是均匀的,即先验比为常数,贝叶斯规则也倾向于选择能解释数据的最简单模型: Occam剃刀原理。

Bayes 因子 表示数据 Z对后验比值的贡献(证据) 根据证据对模型排序

1 2( ) ( )f fM M

1

2

( | )

( | )

fBF

f

ZZ

Z

MM

1 1 1

2 2 2

( | ) ( ) ( | )

( | ) ( ) ( | )

f f f

f f f

Z Z

Z Z

M M MM M M

Page 36: 今天内容: 模型选择

例: Occam剃刀原理

简单模型 只对有限范围内做预测 复杂模型 (如有更多自由参数)能对更宽范围做预

测 但对区域 中的数据, 的预测不如 强

Z

2( | )f Z M

1( | )f Z M

2M1M

2MC1 1M

Page 37: 今天内容: 模型选择

证据 证据( evidence )

通常会在最可能的参数 附近有一个很强的峰。

以一维参数为例:利用 Laplace 方法近似,即用被积函数 乘以其宽度

( | ) ( | , ) ( | )m m m m m mf f f dZ ZM M M

m

|

ˆ ˆ( | ) ( | , ) ( | )m m m m m Z

best fit likelihood Occam factor

f f fZ ZM M M

ˆ ˆ( | , ) ( | )m m m mf fZ M M |Z

Page 38: 今天内容: 模型选择

Occam 因子(参数为多维情况)

其中

1 2

ˆ ˆ( | ) ( | , ) ( | )det 2m m m m m

best fit likelihood Occam factor

f f fZ Z AM M M

log ( | , )m mfA Z M

Page 39: 今天内容: 模型选择

BIC : Bayesian Information Criterion

当模型为线性模型时用 Laplace 近似

其中 为极大似然估计, 为模型中自由参数的数目

当损失函数取 ,导出贝叶斯信息准则:

ˆlog ( | ) log ( | , ) log 12m

m m m

df f n OZ ZM M

ˆ2 log ( | , )m mf Z M f

( | )mf Z M

m md

22

ˆ ˆ( ) logˆ tr

n pBIC M R M n

n

Page 40: 今天内容: 模型选择

BIC

AIC 不是一致的,而 BIC 是一致的。也就是说,选择最小BIC 的模型等价于选择最大后验概率的模型(在渐近意义下)。事实上,模型的后验概率为

不仅可以估计最好的模型,而且可以评估所考虑模型的相关指标。

但:假设候选模型包含正确的模型 “Essentially, all models are wrong, but some are useful ” G.Box (1987)

1

2

1

21

|m

l

BIC

mBICM

l

ef

e

ZM

Page 41: 今天内容: 模型选择

最小描述长度 MDL

最小描述长度 MDL( minimum description length )采用与 BIC完全相同的选择准则,但它源自数据压缩 / 最优编码

BIC与MDL 都只适用于似然损失。

Rissanen, J. 1978. Modeling by shortest data description. Automatica, 14, 465-471.

Page 42: 今天内容: 模型选择

MDL

可译变长编码:越频繁的信息码长越短 平均信息长度越短

消息的长度 与事件 zi 的概率 之间的关系为: 为了传递具有概率密度为 的随机变量 zi ,需要大约 位

平均信息长度

( )22 , ( ) logil z

i i iz l z z P P

2log ( )iz P

2l( g) oi ii

l z zz P PE

il z

熵:消息长度的下界

izP

izP

Page 43: 今天内容: 模型选择

MDL

假设我们有以 θ 为参数的模型 M ,和包含输入输出数据 Z=(X,y) ,则传递输出的消息长度为:

选择最小长度的模型等价于选择最大后验概率的模型,同 BIC

log ( , , ) log ( )y M MX 长度 P P

传递模型参数所需的平均消息长度

用于传递模型与目标差别所需要的平均消息长度

Page 44: 今天内容: 模型选择

AIC vs. BIC

AIC :

选择使 最小的模型,也是使 最大的模型,其中 为 log 似然函数, 表示模型中有效参数的数目

极大似然,同时模型复杂度极小

BIC:

用贝叶斯方法选择模型 选择最大后验概率的模型

2ˆ 2

ˆ ˆ ˆ2 2 2ˆtr tr

n pAIC M l M p R M

n

l M d M l M

2 2l M d M d M p n

2ˆ 2

ˆ ˆ ˆ( ) 2 log logˆtr tr

n pBIC M l M n p R M n

n

Page 45: 今天内容: 模型选择

AIC vs. BIC

均使用模型参数数目来度量复杂度 对复杂度的惩罚参数的选择不同

BIC :渐近相容 样本容量 n→∞ 时,选择正确模型的概率→ 1

有限样本情况下,当取高斯噪声时,

, BIC 中因子 2被 logn代替,对复杂性施加更严厉的惩罚,倾向于选择简单模型, AIC倾向于选择复杂模型

22

ˆ ˆ( ) loˆ

gtr

n pBIC M R M

nn

22

ˆ ˆˆ

2tr

n pAIC M R M

n

BIC M AIC M

Page 46: 今天内容: 模型选择

有效参数数目 AIC/BIC 中参数的数目可以扩展到使用正则化拟合的模型 对线性拟合

其中 为 的矩阵,只依赖于输入向量 ,与 无关 则有效参数的数目为

如对岭回归

则有效参数数目为

y SyS n n ix iy

d traceS S

2

1

21

pjT T

j j

ddf trace

dX X X I X

1ˆˆ ridge T Ty X X X X I X y

Page 47: 今天内容: 模型选择

VC维(Vapnik-Chernovenkis Dimension)

之前的乐观性估计都适用于简单模型和基于似然函数的。 VC 理论给出了模型复杂性更一般的度量

函数类 的 VC维 可被函数集成员打散( shatter )的点的最大数目

打散 不管怎样改变每个点的位置和标记,某个类别的函数中

的一员都能完全分开这些点,则称为这些点能被该类别的函数打散。

: 0,1DF R

Page 48: 今天内容: 模型选择

VC维

2D 线性函数的 VC维为 3 ,等于参数的个数

正弦函数的 VC维:无穷,但参数只有一个:频率

sin( )x

Page 49: 今天内容: 模型选择

VC维 如线性函数能打散 2D 平面上任意 3点,因此线性函数的 VC维是 3 。通常 D维线性函数的 VC维是 D + 1 ,也就是自由参数的数目。

一个非线性的函数族的 VC维可能无穷大,因为通过选择合适的参数 θ ,任何点的集合都能被该类的函数打散。

实值函数类 的 VC维定义指示函数类

的 VC维,其中 β 在 f 的值域上取值。: DF R R

: 0I f xF

Page 50: 今天内容: 模型选择

VC维 函数集的 VC维不一定等于自由参数的个数

可为等于、大于或小于

尚无一般方法对任意函数集计算 VC维,只有一些函数集合的 VC维可计算 线性函数 多项式 三角函数等

Page 51: 今天内容: 模型选择

VC维与风险的界 对两类分类问题,假设函数类的 VC维为 h ,则对该函

数类中的每个模型,至少有 的概率满足

其中

对回归问题

对回归问题,建议 对分类问题,没有建议,但 对应最坏的情况

trtr

ˆ4ˆ 1 12

R MR M R M

21

log 1 log( 4)h c n hc

n

tr

3

ˆ

1

R MR M

c

1 2 3 1c c c 1 24, 2c c

1

Page 52: 今天内容: 模型选择

VC维与风险的界

如果 h 有限的话,模型族的复杂性可以随 n增加而增加 当 h 较小时, R(M) 和 Rtr 之间的差异小

所以正则化回归(如岭回归)比一般最小二乘的推广型更好

trtr

ˆ4ˆ 1 12

R MR M R M

21

log 1 log( 4)h c n hc

n

Page 53: 今天内容: 模型选择

VC维与风险的界

Φ 称为置信范围,随 n增大而减小,随 h增加而增加,与AIC 中的项 d/n 一致

训练误差有时亦称经验风险,测试误差亦称期望风险

对于特定的问题,样本数目 n 一般是固定的, VC维越大,测试误差与训练误差之间的差就越大。因此我们在选择模型时,不但要使训练误差最小化,还要使模型的复杂性也即 VC维尽量小,从而使测试误差最小。

trˆR M R M h n

Page 54: 今天内容: 模型选择

结构风险最小化原则(Structural Risk Minimization, SRM) 这个上界是对函数类中的全部成员(参数不同)给出可能的上界,而 AIC描述的是类中某个特定成员 (MLE) 的乐观性估计。

结构风险最小化原则选择具有最小上界的函数类别。

注意: VC 理论并没有给出测试误差的真正估计,只是测试误差的上界,所给出的界往往是松的

Page 55: 今天内容: 模型选择

结构风险最小化 设计模型的目标:

同时最小化经验风险和置信范围

如何同时最小化-结构风险最小化原则 把函数集 S 分解为一个函数子集序列(子集结构) :

S1≤ S2…… ≤ Sk…… ≤S ,使得各子集能够按照 VC维的大小排列: h1 ≤ h2 ≤……hk ≤… ,

同一个子集中的置信范围就相同

Page 56: 今天内容: 模型选择

结构风险最小化 根据函数类的性质,将

它划分为一系列嵌套的子集 如多项式的阶数增加;岭

回归的 λ减小;神经元网络的隐含节点数据增加…

学习问题: 选择一个适当的函数子集

(根据推广性) 并在该子集中选择最好的

函数(根据经验风险)

Page 57: 今天内容: 模型选择

两种构造性方法 一种方法:找到合适的模型类别,然后再这个类

别的模型中找到使训练误差最小的函数,即保持置信范围固定(通过选择合适的模型类别)并最小化经验风险 如人工神经网络

先确定网络的结构,然后再学习网络的系数

另一种方法:保持经验风险固定(如为 0 ),最小化置信范围 如 SVM

Page 58: 今天内容: 模型选择

直接估计测试误差 重采样技术:直接估计测试误差 R(M)

交叉验证 bootstrap

Page 59: 今天内容: 模型选择

交叉验证 最简单、最常用的估计预测误差的方法

思想:直接估计样本外误差 应用到来自 X与 Y 的联合分布的独立的

测试集

在 -折交叉验证中,数据被分成大致相等的 份。对第 份,用其余 份数据用于拟合模型 ,并在第 份数据上计算拟合好的模型的预测误差

ˆ[ ( , ( ))]R M E L Y f X

)(ˆ Xf

K

k1Kk

K

Page 60: 今天内容: 模型选择

K-折交叉验证 数据被分成大致相等的 K 份 第 k=1,…,K 份数据作为校验集,其余 K-1 份数据用于训练

模型 ,并在第 k 份数据上计算训练好的模型的预测误差 例 5-折交叉验证

训练训练 训练训练 训练训练 训练训练 校验校验

第 1折: 校验校验 训练训练 训练训练 训练训练 训练训练

第 2折: 训练训练 校验校验 训练训练 训练训练 训练训练

第 3折: 训练训练 训练训练 校验校验 训练训练 训练训练

第 4折: 训练训练 训练训练 训练训练 校验校验 训练训练

第 5折:

Page 61: 今天内容: 模型选择

交叉验证 交叉验证对预测误差的估计为

其中 为去掉第 k 份数据后训练的模型。

对测试误差提供了一个估计, 通过最小化 确定调整参数:

最后被选中的模型为用所有数据拟合的模型

( )

1

1 ˆ( ) ( , ( , )).n

k ii i

i

CV L y f xn

)ˆ,( xf

)(CV )(CV

ˆ arg min ( )CV

( )ˆ ( , )k iif x

Page 62: 今天内容: 模型选择

学习曲线

由于训练集减小,会引起偏差

Page 63: 今天内容: 模型选择

交叉验证: K 的值 ?

如果 称为留一交叉验证 (leave-one-out cross-validation, LOOCV) 。这是近似无偏的,但由于 n 个训练集彼此之间很相似,可能会有较高的方差。并且计算代价也很高(计算 n次)。

另一方面,当 CV 为低方差但偏差较大。

在给定训练集合大小时,如果学习曲线比较陡,则 5-折、 10-折 CV 会对真正的预测误差过估计。 通常取 K=10

,K n

,5K

Page 64: 今天内容: 模型选择

Bootstrap

Bootstrap 是一个很通用的工具,用来估计测试误差和置信区间 参见第二部分:统计推断

用来估计预测误差:从训练集

中进行 bootstrap 采样,得到 bootstrap 样本 , , 1,...,i iZ x y i n

* * *, , 1,..., , 1,...,b i iZ x y i n b B

Page 65: 今天内容: 模型选择

Bootstrap 测试误差估计 bootstrap来估计检测误差:

但同时从训练集和校验集中采样,当二者有重叠时,就引入了偏差。一种方法是 leave-one-out bootstrap:

其中 为不包含观测 i 的样本 b 的索引的集合。这解决了过拟合问题,但样本的减少带来了类似 CV 中的偏差问题。

为了处理样本偏少的问题,采用“ .632” 估计子:

*

1

1 1 ˆˆ , .| | i

n

looboot i b iii b C

R L y f xn C

*

1 1

1 1 ˆˆ , .B n

boot i b ib i

R L y f xB n

iC

.632ˆ ˆ ˆ0.368 0.632 .tr loobootR R R

Page 66: 今天内容: 模型选择

Bootstrap 测试误差估计 “.632” 估计子在“轻拟合”时表现很好,但在过拟

合时会有问题,因此又引入 “ .632+” 估计子: 无信息误差率 :如果输入和类别标号是独立的,则

为预测规则的误差率

过拟合率:

“.632+” 估计子:

.632

0.632ˆ ˆ ˆ1 , ˆ1 0.368tr loobootR w R wR wR

21 1

1 ˆ,n n

i ii i

L y f xn

ˆ ˆˆ

ˆlooboot tr

tr

R RR

R

Page 67: 今天内容: 模型选择

Case study :前列腺癌数据 考虑模型族:岭回归

模型复杂度参数: 有效参数数目:

采用下述技术做模型选择 AIC BIC CV Bootstrap

1ˆ T Ty Sy X X X I X y

2

1

21

pjT T

j j

ddf trace

dX X X I X

Page 68: 今天内容: 模型选择

AIC

ˆ ˆ2tr

pAIC M R M

n

Page 69: 今天内容: 模型选择

BIC

ˆ ˆlogtr

pBIC M R M n

n

Page 70: 今天内容: 模型选择

SRM

trˆ log 1 log( 4)

,1

h n hR MR M

n

Page 71: 今天内容: 模型选择

10-折交叉验证 最佳模型为 : * *41.7532, 4.0366df

Page 72: 今天内容: 模型选择

Bootstrap

0.632 :

Page 73: 今天内容: 模型选择

Bootstrap

0.632+ :

最小测试误差

Page 74: 今天内容: 模型选择

到底应该选择哪个模型? 模型越简单,越不用做工作。更复杂的模型需要更正确的模型选择,采用重采样技术 线性回归: AIC/BIC 非参数:采用交叉验证和 bootstrap

通常更准确需要更多计算

Page 75: 今天内容: 模型选择

总结:模型选择 模型:

模型的类别 每个类别的模型的参数

模型选择 选择测试误差最小的模型 假设测试数据与训练数据的某种一致性(如 IID )

模型必须与数据有一定的拟合精度 但模型过复杂时,数据拟合程度很好,但会出现过拟合,

测试误差也会很大 模型选择是在数据拟合精度与模型复杂性之间的折中

,M F

Page 76: 今天内容: 模型选择

下节课内容 模型组合 更高的性能?

Bagging Boosting …

Page 77: 今天内容: 模型选择

附: AIC推导 数据数据 YY 是根据某个未知参数的分布 产生的是根据某个未知参数的分布 产生的 令令 表示表示 kk维参数维参数

族分布,我们的目标是在这一类分布族族分布,我们的目标是在这一类分布族

中搜索与 最佳匹配的模型中搜索与 最佳匹配的模型

为了确定哪个模型与 最相近,我们需要一个度量为了确定哪个模型与 最相近,我们需要一个度量测量真正模型 与近似模型 之间的差异测量真正模型 与近似模型 之间的差异

0Yf

kYfkF kk

( ) ( ) ( ){ }1 2, , , pF F k F k F k= K

( ) { }1 2ˆ , , , ,k pf Y k k k kq Î K

0Yf

0Yf 0Yf ( )*f Y q

Page 78: 今天内容: 模型选择

附: AIC推导 KL 损失 /log 似然损失:表示函数 f与 g 之间的距离,其中 g 为真正的分布, 为当前模型

, log

|

g yL g f g y dy

f y

f

log log |g y g y dx f y g y dy log log |Y Yg y f y E E

对 而言是常数 C |f x

2 log |Y f y E

熵定义为: logH Y g y g y dy KL散度也表示用 f去近似 g ,信息的损失量

Page 79: 今天内容: 模型选择

模型选择:给定 f ,和数据 ,选择损失最小的模型参数作为参数估计,即参数 的估计为其 MLE

所以损失函数为:

模型选择的目标是选择风险(损失的期望)最小的模型 风险为期望 KL 损失:

等价于最大化期望 log 似然

ˆ, 2 log | nYL g f f x Y

E

ˆ nY

极大似然等价于最小 KL散度,参见MLE 的性质部分

ˆ, 2 log |n n

nYY Y

L g f f y Y E E E

ˆlog |n

nYY

f y Y

E E

log 似然

1, ,nnY Y Y

Page 80: 今天内容: 模型选择

其中 为当样本数 时的 MLE (最小化 KL 损失的参数的值)

ˆlog |n

nYY

f y Y

E E

1* *ˆlog |Y f y Y tr J I

E

2 *

*log |

, 1 ,Yi j

f yI i j p

E

* *

*log | log |

T

Y

f y f yJ

E

* n

,为 Fisher 信息

Page 81: 今天内容: 模型选择

当 时,

其中 p 为参数的维数(特征的维数)

如果 f 为一个较好的模型(在 g附近),则

f g

1 1* * * * * * J I J I tr J I p

I

1* *tr J I p

Page 82: 今天内容: 模型选择

所以最小风险的模型

等价于

其中第一项的估计为

所以 AIC 为:

ˆmin 2 log |n

nYY

f y Y

E E

ˆmin 2 log | 2y f y y p

E

ˆ ˆlog | 2 log | 2n

nY YY

f y Y f y Y p

E E E

1

ˆ ˆˆ log | log |n

Y ii

f y Y f y Y

E

2ˆ2

1

ˆ ˆ2 log | 2 2n

i tri

n pAIC M f y Y p R M

n

1,... nY Y Y