Download - Chp9 :参数推断
1
Chp9 :参数推断 本节课内容:计算似然的极大值
牛顿法 EM 算法
2
极大似然估计 似然函数:令 为 IID ,其 pdf 为 ,
似然函数定义为
log 似然函数:
极大似然估计( MLE ):使得 最大的 ,即
( );f x q1,..., nX X
( ) ( )1
;n
n ii
f Xq q=
=ÕL
( ) ( )logn nl q q= L
( ) ( )ˆ arg max arg maxn n nlq q
q q q= =L
q( )n qL
3
极大似然估计 计算 MLE ,需要求似然函数的极值
解析法(如本章已讲过的例子) 数值计算:通过迭代
牛顿法:简单 EM 算法
迭代需要初始值,矩方法得到的结果是一个较好的初始值的选择
4
牛顿法 亦称牛顿 - 拉夫逊( Newton-Raphson )方法
牛顿在 17 世纪提出的一种近似求解方程的方法 使用函数 的泰勒级数的前面几项来寻找方程 的
根
在 MLE 计算中,求 的根 对应处似然函数 取极值
( ) 0nl q¢ =
( )f x ( ) 0f x =
( )nl q
5
牛顿法 将 log 似然函数的导数 在 处进行 Taylor 展开:
从而得到
因此迭代机制为:
( ) ( ) ( ) ( ) ( )ˆ ˆ ˆ0 t t t tl l l Opq q q q q q q¢ ¢ ¢¢= = + - + -
( )l q¢ tq
( )( )
ˆt
t
t
l
l
qq q
q
¢» +
¢¢
( )( )
1ˆt
t t
t
l
l
qq q
q+
¢» +
¢¢
6
牛顿法 当参数 包含多个参数为向量时,迭代机
制为:
其中 为 log 似然函数 一阶偏导数(向量), 为二阶偏导数矩阵,
( )1 1ˆt t tnlq q q+ - ¢» +H
( )( )
1ˆt
nt t
tn
l
l
qq q
q+
¢» +
¢¢
( )1,..., Kq q q=
( )tnl q¢
H( )nl q
( )2n
jkj k
l q
q q
¶=
¶ ¶H
7
EM 算法(Expectation Maximization)
EM : Expectation Maximization 特别适合:“缺失数据”( missing data )问题中
对参数用 MLE 求解 由于观测过程的限制或问题引起的数据缺失(如聚类
问题) 直接对观测数据,似然函数极值解析不可求;但若假
设缺失数据(隐含变量)的值已知,则似然函数形式很简单
8
EM 算法(Expectation Maximization)
EM : Expectation Maximization E— 步:求期望( Expectation )
在给定观测数据的条件下,计算完整似然的期望(随机变量为隐含变量) 涉及计算缺失数据的条件期望,需要利用参数的当前估计值
M — 步:求极大值( Maximization ) 求使得完整似然的期望最大的参数
又是一个极大值求解问题。通常可以解析求解,这时 EM 是一个很方便的工具;否则,需借助一个可靠的最大化方法求解
9
混合模型( Mixed Model ) 混合模型: 其中 ,满足 即混合模型由 K 个成分组成,每个成分 的
权重为 如一个班级每个学生的身高为 ,
假设男生身高和女生分别服从高斯分布 、 则 其中 p 为男生的比例
混合模型的参数估计是 EM 算法最典型的应用
( ) ( )1
| |K
k k kk
f x f xq a q=
=å( )1 1,..., , ,...,K Kq a a q q=
ka1
1K
kk
a=
=å( )|k kf x q
X( )2
1 1,N m s ( )22 2,N m s
( ) ( ) ( )2 21 1 2 2~ , 1 ,X pN p Nm s m s+ -
10
混合高斯模型(Mixture of Gaussians Model , GMM)
若混合模型中每个成分为高斯分布, 则称为混合高斯模型
假设每个数据点根据如下规则产生: 随机选择一个成分,选择第 k 个成分的概率为 从第 k 个成分产生数据:
即
( )Y kP =( )~ ,k kX N m S
( ), 1k kk
Y kPa a= = =å
( ) ( ) ( ) ( ) | ~ , ; ,k k k k kf x f x Y k N xm f m= = S = S
( ) ( ) ( )1 1
; , ; ,K K
k k k k kk k
f x f x xm a a f m= =
S = = Så å
11
混合高斯模型 问题:给定 IID 数据 ,求参数
MLE 不能解析求得,因此我们通过数值计算(如EM 算法)求解。
将非完整数据 转换为完整数据 ,其中 为 所属的类别。
, ,k k ka m S
( ) ( )1 1, ,..., ,n nX Y X YiY iX
1,..., nX X
1,..., nX X
12
观测数据和缺失数据 观测数据:观测到随机变量 X 的 IID 样本:
缺失数据:未观测到的隐含变量 Y 的值:
在 GMM 中,若 来自第 k 个分成,则
完整数据:包含观测到的随机变量 X 和未观测到的随机变量 Y 的数据,
( )1,..., nX X X=
iX iY k=
( )1,..., nY Y Y=
( ),Z X Y=
13
似然函数 给定观测数据 ,非完整数据的似然
函数为:
涉及求和的 log 运算,计算困难
( )1,..., nX X X=
( )( ) ( )1
log | log |n
ii
X f Xq q=
= ÕL
( )1 1
log |n K
k k i ki k
f Xa q= =
æ ö÷ç= ÷ç ÷ç ÷è øå å
14
完整似然函数 若隐含变量的值 也已知,得到完整数
据的似然函数为:
明显简化
( )1,..., nY Y Y=
( )( ) ( ) ( )( )1 1
log | , log , | log , |nn
i i i ii i
X Y f X Y f X Yq q q= =
= =åÕL
( ) ( )( )1
log | , |n
i i ii
f X Y f Yq q=
=å
( )( )1
log |i i i
n
Y Y i Yi
f Xa q=
=å
( )( ) ( )1 1
log | log |n K
k k i ki k
X f Xq a q= =
æ ö÷ç= ÷ç ÷ç ÷è øå åL
( )( ) ( )
, |
| , |
f x y
f x y f y
q
q q=
iY iY
15
EM—Expectation
由于 Y 是未知的,计算完整似然函数对 Y 求期望 去掉完整似然函数中的变量 Y
定义
根据贝叶斯公式: Y 的分布为
, log | , | ,t tQ X Y X LE
log | , | , t
yX y f y X dy
L
1
|| , || ,
| |
i i i
t ty y i yi i it
i i Kti
k k i kk
f Xf X y f yf y X
f X f X
1
| , | ,n
t ti i
i
f y X f y X
16
EM—Maximization
对 E 步计算得到的完整似然函数的期望 求极大值( Maximization ),得到参数新的估计值,即
每次参数更新会增大似然(非完整似然)值 反复迭代后,会收敛到似然的局部极大值
, tQ
1 arg max ,t tQ
17
EM 的收敛性( 1 ) , log | , | ,t tQ X Y X LE
log | , | , t
yX y f y X dy
L
log | , | | , t
yf y X f X f y X dy
log | , | , t
yf y X f y X dy
log | , | , log |t
yf y X f y X dy f X
log | | , t
yf X f y X dy
( ) ( ) ( ) ( )| , , | | , |X Y f X Y f Y X f Xq q q q= =L
18
EM 的收敛性( 2 )
所以相邻两次似然之差为
, log | , | , log |t t t t t
yQ f y X f y X dy f X
t
| log |nl X f X
1 1| | , ,t t t t t tn nl X l X Q Q
, log | , | , log |t t
yQ f y X f y X dy f X
当 时
1| ,log | ,
| ,
t
t
ty
f y Xf y X dy
f y X
19
EM 的收敛性( 3 ) 所以
其中
为 KL 散度。
所以: 如果 Q 增大,则观测数据的似然增大
在 M 步, Q肯定增大 当 Q 取极大值时,观测数据的似然也在相同点取极大值 EM 算法会收敛到似然的局部极大值
1 1 1| | , , ,t t t t t t t tn nl X l X Q Q D
1
1
| ,, log | , 0
| ,
t
t t t
ty
f y XD f y X dy
f y X
1
1 1| ,
| | , , log | ,| ,
t
t t t t t t tn n ty
f y Xl X l X Q Q f y X dy
f y X
( ) ( )( )( )
, logf x
D f g f x dxg x
æ ö÷ç ÷= ç ÷ç ÷÷çè øò
20
混合模型中的 EM 算法 完整似然函数:
Y 的条件分布:
1
|, || ,
| |
i i i
ty y i yi it
i i Kti
k k i kk
f Xf y Xf y X
f X f X
1
| , | ,n
t ti i
i
f y X f y X
( )( ) ( )( )1
log | , log |i i i
n
Y Y i Yi
X Y f Xq a q=
=åL
21
( )( )1
log |i i i
n
Y Y i Yi
f Xa q=å
,1
log |i
K
y l l l i ll
f X
log | , | , t
y Y
X Y f y X
L
1
| ,n
tj j
j
f y X
Expectation
, log | , | ,t tQ X Y X LE t: 第 t 次猜测值
y Y
1
n
i
y Y
1
| ,n
tj j
j
f y X θ
( )( ) ( )( )1
log | , log |i i i
n
Y Y i Yi
X Y f Xq a q=
=åL
22
Expectation , tQ
,1 1 1
, log | | ,i
K n nt t
l l i l y l j jl i y Y j
Q f X f y X
1
,1 1 1 1 1 1
log | | ,i
i n
K n K K K nt
l l i l y l j jl i y y y j
f X f y X
当 y i l 等 于 0
1
n
i
y Y
,1
log |i
K
y l l l i ll
f X
1
| ,n
ti i
i
f y X θ
1 1 11 1 1 1 1
| , | ,i i n
K K K K nt t
j j iy y y y j
j i
f y X f l X
1 1
log |K n
l l i ll i
f X
23
1 1 11 1 1 1 1
| , | ,i i n
K K K K nt t
i i iy y y y j
j i
f y X f l X
1 1 1 1
log | | , | ,j
K n n Kt t
l l i l i i il i j y
j i
f X f y X f l X
Expectation
,1 1 1
, log | | ,i
K n nt t
l l i l y l j jl i y Y j
Q f X f y X
1
,1 1 1 1 1 1
log | | ,i
i n
K n K K K nt
l l i l y l j jl i y y y j
f X f y X
, tQ
1 1
log |K n
l l i ll i
f X
24
Expectation
1 1 1 1
log | | , | ,j
K n n Kt t
l l i l i i il i j y
j i
f X f y X f l X
, tQ
1
1 1
, log | | ,K n
t tl l i l i
l i
Q f X f l X
1 1 1 1
, log | , log | | ,K n K n
t t tl i l i l i
l i l i
Q f l X f X f l X
1 1 1 1
, log | , log | | ,K n K n
t t tl i l i l i
l i l i
Q f l X f X f l X
25
Maximization
给定第 t 次的猜测 t,
我们计算,使得上述期望最大。
反复迭代,直到收敛。
1 1( , , , , , , )K K
1 1 1 1
, log | , log | | ,K n K n
t t tl i l i l i
l i l i
Q f l X f X f l X
26
混合高斯模型 GMM )中的 EM 算法
高斯分布:
最大化:
目标:
1 1 1 1
, log | , log | | ,K n K n
t t tl i l i l i
l i l i
Q f l X f X f l X
1/ 2 1/ 2
1 1| , exp
22 | |
T
l l l l l ld
l
f x x xΣΣ
27
混合高斯模型 GMM )中的 EM 算法
高斯分布:
最大化:
目标:
1 1 1 1
, log | , log | | ,K n K n
t t tl i l i l i
l i l i
Q f l X f X f l X
1/ 2 1/ 2
1 1| , exp
22 | |
T
l l l l l ld
l
f x x xΣΣ
只与 l 相关
只与 l 相关
只与 l 相关
只与 l 相关
28
计算 l
由于 l有限制,我们引入 Lagrange乘子 , 并解下述方程。
1 1 1
log | , 1 0, 1, ,K n K
tl i l
l i ll
f l X l K
θ
1
1| , 0, 1, ,
nt
ii l
f l X l K
1
| , 0, 1, ,n
ti l
i
f l X l K
1 1 1 1
, log | , log | | ,K n K n
t t tl i l i l i
l i l i
Q f l X f X f l X
29
计算 l
1
| , 0, 1, ,n
ti l
i
f l X l K
1 1 1
| , 0K n K
ti l
l i l
f l X
1 1 1
| , 0n K K
ti l
i l l
f l X
1
n
1
1 1 1 1
, log | , log | | ,K n K n
t t tl i l i l i
l i l i
Q f l X f X f l X
n
30
计算 l
1
| , 0, 1, ,n
ti l
i
f l X l K
1
1| ,
nt
l ii
f l Xn
1
1| ,
nt
l ii
f l Xn
1
( | )| ,
( | )
t tt l l i l
i Kt tj j i j
j
f Xf l X
f X
1 1 1 1
, log | , log | | ,K n K n
t t tl i l i l i
l i l i
Q f l X f X f l X
n
31
计算 l
只 需 最 大 化 该 项
对 GMM
1/ 2 1/ 2
1 1| , exp
22 | |
T
l l l l l ld
l
f x x x
Σ
Σ
( , )l l l
112 2
1log ( | , ) log 2 log | |
2Td
l l l l l l lf x x x
unrelated
1 1 1 1
, log | , log | | ,K n K n
t t tl i l i l i
l i l i
Q f l X f X f l X
32
计算 l
因此,我们需要最大化:
112 2
1log ( | , ) log 2 log | |
2Td
l l l l l l lf x x x
unrelated
1 1 1 1
, log | , log | | ,K n K n
t t tl i l i l i
l i l i
Q f l X f X f l X
1
1 1
1 1, log | | | ,
2 2
K nTt t
l l l l il i
Q x x f l X
33
计算 l
因此,我们需要最大化:
1
1
,| , 0
t nt
i l iil
QX f l X
( )
( )1
1
| ,
| ,
nt
i ii
l nt
ii
f l X X
f l X
qm
q
=
=
=å
å
1
( | )| ,
( | )
t tt l l i l
i Kt tj j i j
j
f Xf l X
f X
1
1 1
1 1, log | | | ,
2 2
K nTt t
l l l l il i
Q x x f l X
34
计算 l
因此,我们需要最大化:
1
,0 | , 0
t nT t
l i l i l iil
QX X f l X
( )( )( )
( )1
1
| ,,
| ,
nTt
i i l i li
l nt
ii
f l X X X
f l X
q m m
q
=
=
- -S =
å
å
1
( | )| ,
( | )
t tt l l i l
i Kt tj j i j
j
f Xf l X
f X
θ
1
1 1
1 1, log | | | ,
2 2
K nTt t
l l l l il i
Q x x f l X
35
总结 第 t 次的估计为 则第 t+1 次的估计为
( )1 1 1,.., , ,.., , ,..,
K K K
t t t t t t tq m m a a= S S
( )1
1
1| ,
nt tl i
i
f l Xn
a q+
=
= å
( )
( )1 1
1
| ,
| ,
nt
i it il n
ti
i
f l X X
f l X
qm
q
+ =
=
=å
å
( )( )( )
( )
1 1
1 1
1
| ,
| ,
n Tt t ti i l i l
t il n
ti
i
f l X X X
f l X
q m m
q
+ +
+ =
=
- -S =
å
å
1
( | )| ,
( | )
t tt l l i l
i Kt tj j i j
j
f Xf l X
f X
36
GMM实验结果举例 来自 Gaussian 分布 N(0,1) 的 5, 50 个点
ˆ ˆ0.5678, =0.4403m s= ˆ ˆ0.2053, =0.8570m s=
37
GMM实验结果举例 来自 Gaussian 分布 N(0,1) 的 500, 5000 个点
ˆ ˆ0.0362, =0.9561m s= ˆ ˆ0.0103, =1.0119m s=
38
来自均分分布 Uniform[-1,1] 的 500 个点
ˆ ˆ0.0462, =0.3403m s=
39
来自分布 的 50, 500 个点( ) ( ) ( )20.5 0,1 0.5 5,2f x N N= +
ˆ (0.4526 0.5474)
ˆ (0.5880 5.4627)
ˆ (1.1873 1.2566 )
a
m
s
=
=
=
ˆ (0.4923 0.5077)
ˆ (0.0859 5.2136)
ˆ (1.0684 1.8707)
a
m
s
=
=
=
40
来自分布 的 5000, 50000个点
( ) ( ) ( )20.5 0,1 0.5 5,2f x N N= +
ˆ (0.5067 0.4933)
ˆ (0.0017 5.0338)
ˆ (1.0053 1.9812)
a
m
s
=
=
=
ˆ (0.5132 0.4868)
ˆ (0.0245 5.0674)
ˆ (1.0122 1.9680)
a
m
s
=
=
=
41
来自分布 的个点( k=3, 4 )
( ) ( ) ( ) ( )2 20.4 0,1 0.3 6,2 0.3 14,3f x N N N= + +
ˆ (0.2670 0.2585 0.3314 0.1431)
ˆ (-0.1049 3.6444 6.7161 17.1680)
ˆ (1.0103 1.5997 2.2155 2.1200)
a
m
s
=
=
=
ˆ (0.2652 0.3032 0.4316)
ˆ ( -0.1186 6.4107 14.5237)
ˆ (0.9985 2.1104 2.7735)
a
m
s
=
=
=
42
来自分布 的个点( k=3, 2 )
( ) ( ) ( ) ( )2 20.4 0,1 0.3 6,2 0.3 14,3f x N N N= + +
ˆ (0.5126 0.4874)
ˆ (2.8369 13.8007)
ˆ (3.4490 3.3246)
a
m
s
=
=
=
ˆ (0.2652 0.3032 0.4316)
ˆ ( -0.1186 6.4107 14.5237)
ˆ (0.9985 2.1104 2.7735)
a
m
s
=
=
=
43
EM总结 总结
EM 会收敛到局部极值,但不保证收敛到全局最优 对初值很敏感:通常需要一个好的、快速的初始化过程
如矩方法得到的结果 在 GMM 中,用 K-means 聚类
适合的情况 缺失数据不太多时 数据维数不太高时(数据维数太高的话, E 步的计算很费时)
参考文献 Jeff A. Bilmes, A Gentle Tutorial of the Algorithm and its Application
to Parameter Estimation for Gaussian Mixture and Hidden Markov Models
44
下节课内容 下节课内容
Bootstrap实验 再下节课内容
假设检验: Chp10