unified expectation maximization

23
Unified Expecta.on Maximiza.on R. Samdani, M. Chang ,Dan Roth (NAACL’12) すずかけ論文読み会 2013 / 03 / 23 紹介者:matsuda 1

Upload: koji-matsuda

Post on 26-Dec-2014

1.831 views

Category:

Documents


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Unified Expectation Maximization

Unified  Expecta.on  Maximiza.on  R.  Samdani,  M.  Chang  ,Dan  Roth  

(NAACL’12)

すずかけ論文読み会 2013  /  03  /  23  紹介者:matsuda

1

Page 2: Unified Expectation Maximization

Unified  EM  Algorithm

•  [Samdani+  NAACL’12]  – EMによる(Semi-­‐supervised)学習の統一的な解釈  •  この論文のアイデアは非常にシンプル  

– 構造に「制約」が無い場合は簡単(アニーリングEMの拡張)  

– 構造に「制約」が入る場合はややこしい  •  Prior  Work  – Posterior  Reguraliza.on  [Ganchev+  JMLR’10]  – Constraint  Driven  Learning  [Chang+  ACL’07]

2

主にこっちのお話をします

Page 3: Unified Expectation Maximization

構造に制約が無いEM

•  ふつうの  EM  アルゴリズム  – 色々な定式化があるが,ここでは発表者スライドに合わせて

•  E-­‐step:   argminq KL(qt(y),P

(y|x;wt))  •  M-­‐step:  

argmaxw Eq log P (x, y; w)

現在のパラメータのもとで,尤もらしい  ラベルyの分布qを求める

求めた分布qの期待値が最大  になるようにパラメータwを更新

3

Page 4: Unified Expectation Maximization

自然言語処理における  具体的な事前知識の例

•  文書分類  –  ある割合の文書はあるクラスであるということが分かっている  

•  POS-­‐tagging  –  各文に最低一つは動詞,名詞が含まれている  –  ある語が多数のPOSに割り当てられることは少ない  

•  Rela.on  Informa.on  Extrac.on  –  ある種類のEn.tyと他の種類のEn.tyの間には,特定のRela.onしか成り立たない  •  LOCATION  –  PERSON間 なら LIVE-­‐IN  とか.  

•  (SMTにおける)アラインメント  –  L1  -­‐>  L2の対応は,  L2  -­‐>  L1の対応と等しい  –  L1のある語がL2の多数の語と対応することは少ない  

多数のラベルつきデータがあれば,そこから自然に学習が可能そう  しかし,ラベルつきデータが利用できない場合でも,事前知識をモデルに取り込みたい

4

Page 5: Unified Expectation Maximization

EM学習において,  どのように事前知識を入れるか

•  制約をどのように表現するか  •  制約を用いた学習はどうすれば良いか

Posterior  Regulariza.on  [Ganchev  et  al,  2010]

COnstraint  Driven  Learning  [Chang  et  al,  2007]

制約を「ソフト」に入れる  「制約を満たす分布」とのKLダイバージェンス最小化  

制約を「ハード」に入れる  ビームサーチ  +  hard  EM  (今回は紹介しません)  

Unified  EM  一つパラメータを導入することで,一般的な解釈  ラグランジュ緩和に基づく効率的なE-­‐stepの計算  

5

Page 6: Unified Expectation Maximization

Posterior  Regulariza.on

•  ふつう  “Regulariza.on”  というと  – パラメータw(とかθ)に対する事前知識の導入  

•  しかし,出力(の構造)に事前知識を入れたい  – Posterior  Regulariza.on  – Constraint  Driven  Learing  – Generalized  Expecta.on  Criteria

w! = argminw

L(x, y,w)+!R(w)"正則化項(L2ノルムなど)  

6

・・・どうやって??

正則化と言われてすぐ思いつく例

Page 7: Unified Expectation Maximization

PRにおける制約の表現(1/2)

•  制約の「素性表現」を導入  – 文書分類の例) ある文書が”poli.cs”      

•  素性の「期待値」を取る  – 文書分類の例) 25%の文書が”poli.cs”  

!(x, y) = 1 if y is "politics"0 otherwise

!"#

$#

Ep!["(x, y)]= b

b = 0.25

期待値を取るのは「モデル全体として」のソフトな制約を入れるため  (期待値をとらないハードな手法もある)  bは一般にはベクトル表現になる(多数の制約を入れるため)

7

Page 8: Unified Expectation Maximization

PRにおける制約の表現(2/2)

•  制約を満たす確率分布の集合を定義  – 先ほどの例なら,”poli.cs”が25%であるような分布の集合(一般には,不等式制約で書く)  

•  分布の集合とのKLダイバージェンスを定義    •  最大化する目的関数  

制約を満たす分布qの中で,最もモデルの分布と近いものとのKLダイバージェンス

モデルの尤度を  最大に

制約分布とのKLダイバージェンスを最小に 8

Page 9: Unified Expectation Maximization

PRにおけるEM学習(1/2)

•  Jensenの不等式で尤度の下限をおさえる

9

q,  θを交互に最大化

Page 10: Unified Expectation Maximization

PRにおけるEM学習(2/2)

•  先ほどの制約を導入した目的関数

10

つまり, q∈Qの範囲でE-­‐stepの探索を行えばよい

Page 11: Unified Expectation Maximization

PRにおけるEM学習(図解)

11

PRにおいては,制約を満たすqの中で,もっとも尤もらしい事後分布にprojec.on

ここに問答無用で近づけるのが  ふつうのEM

Page 12: Unified Expectation Maximization

実装例

12

constraint.project()  は問題(制約)依存だが既存のgradientベースのソルバで解ける

Page 13: Unified Expectation Maximization

Unified  EM(ここからが本論文)

•  PRのE-­‐StepはKLダイバージェンスを最小化   KL(q , p)  =  ∑y  q(y)  log  q(y)  –  q(y)  log  p(y)  

 •  modified  KL  Divergenceを導入    KL(q , p;  °)  =  ∑y  °  q(y)  log  q(y)  –  q(y)  log  p(y)  

 •  ここで°がどういう役割を果たしているか考える

13

Page 14: Unified Expectation Maximization

γの効果

Original  Distribu.on  p  

q  with  °  =  1

q  with  °  =  0

q  with  °  =  1

q  with  °  =  -­‐1

KL(q , p;  °)  =  ∑y  °  q(y)  log  q(y)  –  q(y)  log  p(y)  

14 γは事後分布のエントロピーを制御するパラメータとみなすことができる

qのエントロピー q,pのクロスエントロピー

Page 15: Unified Expectation Maximization

γの効果

15

制約なし  

制約あり  °    

1      0    -1     1    

Hard  EM  

CODL  

EM  

PR  

Determinis.c  Annealing  (Smith  and  Eisner,  04;  Hofmann,  99)  

γを導入することで,過去に提案されてきたさまざまなEMベースの  学習アルゴリズムを統一的に解釈できる  

LP  approx  to  CODL  

Page 16: Unified Expectation Maximization

制約つきE-­‐Stepの計算

16

modified  KL  divergence

制約の期待値

q(y)のsimplex制約

γ  ≧  0  であればconvexなので,(劣)勾配法で最小化が可能

Page 17: Unified Expectation Maximization

制約つきE-­‐Stepの計算

•  ラグランジュ変数λを各制約に対して導入  – あとは劣勾配法でλとqを更新していくだけ

17

G(・)は論文参照  いわゆるヘルパ

Page 18: Unified Expectation Maximization

制約付きE-­‐Stepの計算

•  制約および分布が分解できる場合は双対分解を用いることができる

18

たとえば,等式制約を  二つの不等式制約  (上下から抑える)に  分けたり,  アラインメントのように  双方向で一致するような  制約を入れたりできる

Page 19: Unified Expectation Maximization

実験(POS  tagging) •  Un(semi-­‐)supervised  POS  Tagging  

–  モデル  :  HMM(First  Order,  制約なし)  –  初期値  :  Uniform  or  few  Labeled  Example

19

γ  =  1(EM),  γ  =  0(Hard  EM)  より,γを調整した方が  高いAccuracy  (初期値に依存する)

傾向としては,初期値  が良ければEMよりHard  EM  のほうが優れている

Page 20: Unified Expectation Maximization

実験(Rela.on  Extrac.on)

•  Semi  Supervised  En.ty-­‐Rela.on  Extrac.on  – モデル:  log  linear(en.ty  extrac.on,  rela.on  classifica.on)  – 制約:  

•  Type  Constraint      :    (  (Loc,Per)  -­‐>  LIVE  IN  )  etc..  •  Count  Constraint  :  データ内のRela.on数から±20%  

20

γの調整は  2-­‐fold  CV.  0.5-­‐0.6くらいに  最適値があるらしい  

Page 21: Unified Expectation Maximization

実験(Word  Alignment)

•  モデル:  HMM,MBRデコード  •  制約:bi-­‐direc.onal  agreement  •  E-­‐Stepは双対分解(ループ数5,けっこう重い?)

21

γはdevelopment  setで決定,  0.5-­‐0.7くらいに最適値があるらしい

Page 22: Unified Expectation Maximization

まとめ

•  EMに基づくun(semi)  supervisedな学習において,事前知識を導入する手法のひとつPosterior  Regulariza.on  を紹介  

•  PRを含んだ様々な(制約付き)EMアルゴリズムを内包するアルゴリズムとして,UEMを紹介  

•  この論文のContribu.on  –  KLダイバージェンスにパラメータを一個足すことで,CoDL,  PRを一般化できることを示した  

–  ラグランジュ緩和による効率的なE-­‐Stepの計算法を示した  –  実験において,PR(γ=1)とCoDL(γ=-­‐inf)の間に最適なγがあることを明らかにした  –  (EM,  PRのコードがあれば)実装が非常に簡単なのもポイントらしい  

•  感想  –  思っていたのとはちょっと違った,Posterior  Regulariza.onは面白そう,双対分解する必要性がどれくらいあるものなの?ICML  Workshopにまったく同じ内容の論文出てますね(今気づいた)  

22

Page 23: Unified Expectation Maximization

Further  Reading •  Posterior  Regulariza.on  for  Structured  Latent  Variable  

Models  [Ganchev+  JMLR  2010]  –  PRについて恐らくもっとも詳しく書いてある文献  

•  Rich  Prior  Knowledge  in  Learning  for  NLP  [Druck+  ACL  2011  Tutorial]  –  PR,  CODL,  その他の類似フレームワークについて整理されたチュートリアル.スライドがわかりやすい.  

–  hup://sideinfo.wikkii.com/  

•  MALLET  –  PR,GE  (for  Maxent,  linear-­‐chain  CRF)のコードが含まれている  –  hup://mallet.cs.umass.edu/ge-­‐classifica.on.php

23