Download - Chp9 ：参数推断

1

Chp9 ：参数推断本节课内容：计算似然的极大值

牛顿法 EM 算法

2

极大似然估计似然函数：令为 IID ，其 pdf 为，

似然函数定义为

log 似然函数：

极大似然估计（ MLE ）：使得最大的，即

( );f x q1,..., nX X

( ) ( )1

;n

n ii

f Xq q=

=ÕL

( ) ( )logn nl q q= L

( ) ( )ˆ arg max arg maxn n nlq q

q q q= =L

q( )n qL

3

极大似然估计计算 MLE ，需要求似然函数的极值

解析法（如本章已讲过的例子）数值计算：通过迭代

牛顿法：简单 EM 算法

迭代需要初始值，矩方法得到的结果是一个较好的初始值的选择

4

牛顿法亦称牛顿 - 拉夫逊（ Newton-Raphson ）方法

牛顿在 17 世纪提出的一种近似求解方程的方法使用函数的泰勒级数的前面几项来寻找方程的

根

在 MLE 计算中，求的根对应处似然函数取极值

( ) 0nl q¢ =

( )f x ( ) 0f x =

( )nl q

5

牛顿法将 log 似然函数的导数在处进行 Taylor 展开：

从而得到

因此迭代机制为：

( ) ( ) ( ) ( ) ( )ˆ ˆ ˆ0 t t t tl l l Opq q q q q q q¢ ¢ ¢¢= = + - + -

( )l q¢ tq

( )( )

ˆt

t

t

l

l

qq q

q

¢» +

¢¢

( )( )

1ˆt

t t

t

l

l

qq q

q+

¢» +

¢¢

6

牛顿法当参数包含多个参数为向量时，迭代机

制为：

其中为 log 似然函数一阶偏导数（向量），为二阶偏导数矩阵，

( )1 1ˆt t tnlq q q+ - ¢» +H

( )( )

1ˆt

nt t

tn

l

l

qq q

q+

¢» +

¢¢

( )1,..., Kq q q=

( )tnl q¢

H( )nl q

( )2n

jkj k

l q

q q

¶=

¶ ¶H

7

EM 算法(Expectation Maximization)

EM ： Expectation Maximization 特别适合：“缺失数据”（ missing data ）问题中

对参数用 MLE 求解由于观测过程的限制或问题引起的数据缺失（如聚类

问题）直接对观测数据，似然函数极值解析不可求；但若假

设缺失数据（隐含变量）的值已知，则似然函数形式很简单

8

EM 算法(Expectation Maximization)

EM ： Expectation Maximization E— 步：求期望（ Expectation ）

在给定观测数据的条件下，计算完整似然的期望（随机变量为隐含变量）涉及计算缺失数据的条件期望，需要利用参数的当前估计值

M — 步：求极大值（ Maximization ）求使得完整似然的期望最大的参数

又是一个极大值求解问题。通常可以解析求解，这时 EM 是一个很方便的工具；否则，需借助一个可靠的最大化方法求解

9

混合模型（ Mixed Model ）混合模型：其中，满足即混合模型由 K 个成分组成，每个成分的

权重为如一个班级每个学生的身高为，

假设男生身高和女生分别服从高斯分布、则其中 p 为男生的比例

混合模型的参数估计是 EM 算法最典型的应用

( ) ( )1

| |K

k k kk

f x f xq a q=

=å( )1 1,..., , ,...,K Kq a a q q=

ka1

1K

kk

a=

=å( )|k kf x q

X( )2

1 1,N m s ( )22 2,N m s

( ) ( ) ( )2 21 1 2 2~ , 1 ,X pN p Nm s m s+ -

10

混合高斯模型(Mixture of Gaussians Model ， GMM)

若混合模型中每个成分为高斯分布，则称为混合高斯模型

假设每个数据点根据如下规则产生：随机选择一个成分，选择第 k 个成分的概率为从第 k 个成分产生数据：

即

( )Y kP =( )~ ,k kX N m S

( ), 1k kk

Y kPa a= = =å

( ) ( ) ( ) ( ) | ~ , ; ,k k k k kf x f x Y k N xm f m= = S = S

( ) ( ) ( )1 1

; , ; ,K K

k k k k kk k

f x f x xm a a f m= =

S = = Så å

11

混合高斯模型问题：给定 IID 数据，求参数

MLE 不能解析求得，因此我们通过数值计算（如EM 算法）求解。

将非完整数据转换为完整数据，其中为所属的类别。

, ,k k ka m S

( ) ( )1 1, ,..., ,n nX Y X YiY iX

1,..., nX X

1,..., nX X

12

观测数据和缺失数据观测数据：观测到随机变量 X 的 IID 样本：

缺失数据：未观测到的隐含变量 Y 的值：

在 GMM 中，若来自第 k 个分成，则

完整数据：包含观测到的随机变量 X 和未观测到的随机变量 Y 的数据，

( )1,..., nX X X=

iX iY k=

( )1,..., nY Y Y=

( ),Z X Y=

13

似然函数给定观测数据，非完整数据的似然

函数为：

涉及求和的 log 运算，计算困难

( )1,..., nX X X=

( )( ) ( )1

log | log |n

ii

X f Xq q=

= ÕL

( )1 1

log |n K

k k i ki k

f Xa q= =

æ ö÷ç= ÷ç ÷ç ÷è øå å

14

完整似然函数若隐含变量的值也已知，得到完整数

据的似然函数为：

明显简化

( )1,..., nY Y Y=

( )( ) ( ) ( )( )1 1

log | , log , | log , |nn

i i i ii i

X Y f X Y f X Yq q q= =

= =åÕL

( ) ( )( )1

log | , |n

i i ii

f X Y f Yq q=

=å

( )( )1

log |i i i

n

Y Y i Yi

f Xa q=

=å

( )( ) ( )1 1

log | log |n K

k k i ki k

X f Xq a q= =

æ ö÷ç= ÷ç ÷ç ÷è øå åL

( )( ) ( )

, |

| , |

f x y

f x y f y

q

q q=

iY iY

15

EM—Expectation

由于 Y 是未知的，计算完整似然函数对 Y 求期望去掉完整似然函数中的变量 Y

定义

根据贝叶斯公式： Y 的分布为

, log | , | ,t tQ X Y X LE

log | , | , t

yX y f y X dy

L

1

|| , || ,

| |

i i i

t ty y i yi i it

i i Kti

k k i kk

f Xf X y f yf y X

f X f X

1

| , | ,n

t ti i

i

f y X f y X

16

EM—Maximization

对 E 步计算得到的完整似然函数的期望求极大值（ Maximization ），得到参数新的估计值，即

每次参数更新会增大似然（非完整似然）值反复迭代后，会收敛到似然的局部极大值

, tQ

1 arg max ,t tQ

17

EM 的收敛性（ 1 ） , log | , | ,t tQ X Y X LE

log | , | , t

yX y f y X dy

L

log | , | | , t

yf y X f X f y X dy

log | , | , t

yf y X f y X dy

log | , | , log |t

yf y X f y X dy f X

log | | , t

yf X f y X dy

( ) ( ) ( ) ( )| , , | | , |X Y f X Y f Y X f Xq q q q= =L

18

EM 的收敛性（ 2 ）

所以相邻两次似然之差为

, log | , | , log |t t t t t

yQ f y X f y X dy f X

t

| log |nl X f X

1 1| | , ,t t t t t tn nl X l X Q Q

, log | , | , log |t t

yQ f y X f y X dy f X

当时

1| ,log | ,

| ,

t

t

ty

f y Xf y X dy

f y X

19

EM 的收敛性（ 3 ）所以

其中

为 KL 散度。

所以：如果 Q 增大，则观测数据的似然增大

在 M 步， Q肯定增大当 Q 取极大值时，观测数据的似然也在相同点取极大值 EM 算法会收敛到似然的局部极大值

1 1 1| | , , ,t t t t t t t tn nl X l X Q Q D

1

1

| ,, log | , 0

| ,

t

t t t

ty

f y XD f y X dy

f y X

1

1 1| ,

| | , , log | ,| ,

t

t t t t t t tn n ty

f y Xl X l X Q Q f y X dy

f y X

( ) ( )( )( )

, logf x

D f g f x dxg x

æ ö÷ç ÷= ç ÷ç ÷÷çè øò

20

混合模型中的 EM 算法完整似然函数：

Y 的条件分布：

1

|, || ,

| |

i i i

ty y i yi it

i i Kti

k k i kk

f Xf y Xf y X

f X f X

1

| , | ,n

t ti i

i

f y X f y X

( )( ) ( )( )1

log | , log |i i i

n

Y Y i Yi

X Y f Xq a q=

=åL

22

Expectation , tQ

,1 1 1

, log | | ,i

K n nt t

l l i l y l j jl i y Y j

Q f X f y X

1

,1 1 1 1 1 1

log | | ,i

i n

K n K K K nt

l l i l y l j jl i y y y j

f X f y X

当 y i l 等于 0

1

n

i

y Y

,1

log |i

K

y l l l i ll

f X

1

| ,n

ti i

i

f y X θ

1 1 11 1 1 1 1

| , | ,i i n

K K K K nt t

j j iy y y y j

j i

f y X f l X

1 1

log |K n

l l i ll i

f X

23

1 1 11 1 1 1 1

| , | ,i i n

K K K K nt t

i i iy y y y j

j i

f y X f l X

1 1 1 1

log | | , | ,j

K n n Kt t

l l i l i i il i j y

j i

f X f y X f l X

Expectation

,1 1 1

, log | | ,i

K n nt t

l l i l y l j jl i y Y j

Q f X f y X

1

,1 1 1 1 1 1

log | | ,i

i n

K n K K K nt

l l i l y l j jl i y y y j

f X f y X

, tQ

1 1

log |K n

l l i ll i

f X

25

Maximization

给定第 t 次的猜测 t,

我们计算，使得上述期望最大。

反复迭代，直到收敛。

1 1( , , , , , , )K K

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

27

混合高斯模型 GMM ）中的 EM 算法

高斯分布：

最大化：

目标：

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

1/ 2 1/ 2

1 1| , exp

22 | |

T

l l l l l ld

l

f x x xΣΣ

只与 l 相关

只与 l 相关

只与 l 相关

只与 l 相关

30

计算 l

1

| , 0, 1, ,n

ti l

i

f l X l K

1

1| ,

nt

l ii

f l Xn

1

1| ,

nt

l ii

f l Xn

1

( | )| ,

( | )

t tt l l i l

i Kt tj j i j

j

f Xf l X

f X

1 1 1 1

, log | , log | | ,K n K n

t t tl i l i l i

l i l i

Q f l X f X f l X

n

33

计算 l


1

1

,| , 0

t nt

i l iil

QX f l X

( )

( )1

1

| ,

| ,

nt

i ii

l nt

ii

f l X X

f l X

qm

q

=

=

=å

å

1

( | )| ,

( | )

t tt l l i l

i Kt tj j i j

j

f Xf l X

f X

1

1 1

1 1, log | | | ,

2 2

K nTt t

l l l l il i

Q x x f l X

34

计算 l


1

,0 | , 0

t nT t

l i l i l iil

QX X f l X

( )( )( )

( )1

1

| ,,

| ,

nTt

i i l i li

l nt

ii

f l X X X

f l X

q m m

q

=

=

- -S =

å

å

1

( | )| ,

( | )

t tt l l i l

i Kt tj j i j

j

f Xf l X

f X

θ

1

1 1

1 1, log | | | ,

2 2

K nTt t

l l l l il i

Q x x f l X

35

总结第 t 次的估计为则第 t+1 次的估计为

( )1 1 1,.., , ,.., , ,..,

K K K

t t t t t t tq m m a a= S S

( )1

1

1| ,

nt tl i

i

f l Xn

a q+

=

= å

( )

( )1 1

1

| ,

| ,

nt

i it il n

ti

i

f l X X

f l X

qm

q

+ =

=

=å

å

( )( )( )

( )

1 1

1 1

1

| ,

| ,

n Tt t ti i l i l

t il n

ti

i

f l X X X

f l X

q m m

q

+ +

+ =

=

- -S =

å

å

1

( | )| ,

( | )

t tt l l i l

i Kt tj j i j

j

f Xf l X

f X

36

GMM实验结果举例来自 Gaussian 分布 N(0,1) 的 5, 50 个点

ˆ ˆ0.5678, =0.4403m s= ˆ ˆ0.2053, =0.8570m s=

37

GMM实验结果举例来自 Gaussian 分布 N(0,1) 的 500, 5000 个点

ˆ ˆ0.0362, =0.9561m s= ˆ ˆ0.0103, =1.0119m s=

38

来自均分分布 Uniform[-1,1] 的 500 个点

ˆ ˆ0.0462, =0.3403m s=

39

来自分布的 50, 500 个点( ) ( ) ( )20.5 0,1 0.5 5,2f x N N= +

ˆ (0.4526 0.5474)

ˆ (0.5880 5.4627)

ˆ (1.1873 1.2566 )

a

m

s

=

=

=

ˆ (0.4923 0.5077)

ˆ (0.0859 5.2136)

ˆ (1.0684 1.8707)

a

m

s

=

=

=

40

来自分布的 5000, 50000个点

( ) ( ) ( )20.5 0,1 0.5 5,2f x N N= +

ˆ (0.5067 0.4933)

ˆ (0.0017 5.0338)

ˆ (1.0053 1.9812)

a

m

s

=

=

=

ˆ (0.5132 0.4868)

ˆ (0.0245 5.0674)

ˆ (1.0122 1.9680)

a

m

s

=

=

=

41

来自分布的个点（ k=3, 4 ）

( ) ( ) ( ) ( )2 20.4 0,1 0.3 6,2 0.3 14,3f x N N N= + +

ˆ (0.2670 0.2585 0.3314 0.1431)

ˆ (-0.1049 3.6444 6.7161 17.1680)

ˆ (1.0103 1.5997 2.2155 2.1200)

a

m

s

=

=

=

ˆ (0.2652 0.3032 0.4316)

ˆ ( -0.1186 6.4107 14.5237)

ˆ (0.9985 2.1104 2.7735)

a

m

s

=

=

=

42

来自分布的个点（ k=3, 2 ）

( ) ( ) ( ) ( )2 20.4 0,1 0.3 6,2 0.3 14,3f x N N N= + +

ˆ (0.5126 0.4874)

ˆ (2.8369 13.8007)

ˆ (3.4490 3.3246)

a

m

s

=

=

=

ˆ (0.2652 0.3032 0.4316)

ˆ ( -0.1186 6.4107 14.5237)

ˆ (0.9985 2.1104 2.7735)

a

m

s

=

=

=

43

EM总结总结

EM 会收敛到局部极值，但不保证收敛到全局最优对初值很敏感：通常需要一个好的、快速的初始化过程

如矩方法得到的结果在 GMM 中，用 K-means 聚类

适合的情况缺失数据不太多时数据维数不太高时（数据维数太高的话， E 步的计算很费时）

参考文献 Jeff A. Bilmes, A Gentle Tutorial of the Algorithm and its Application

to Parameter Estimation for Gaussian Mixture and Hidden Markov Models

44

下节课内容下节课内容

Bootstrap实验再下节课内容

假设检验： Chp10

Download - Chp9 ：参数推断

Top Related