unified expectation maximization

Unified Expecta.on Maximiza.on R. Samdani, M. Chang ,Dan Roth

(NAACL’12)

すずかけ論文読み会 2013 / 03 / 23 紹介者:matsuda

1

Unified EM Algorithm

•  [Samdani+ NAACL’12] – EMによる(Semi-‐supervised)学習の統一的な解釈 •  この論文のアイデアは非常にシンプル

– 構造に「制約」が無い場合は簡単（アニーリングEMの拡張)

– 構造に「制約」が入る場合はややこしい •  Prior Work – Posterior Reguraliza.on [Ganchev+ JMLR’10] – Constraint Driven Learning [Chang+ ACL’07]

2

主にこっちのお話をします

構造に制約が無いEM

•  ふつうの EM アルゴリズム – 色々な定式化があるが，ここでは発表者スライドに合わせて

•  E-‐step: argminq KL(qt(y),P

(y|x;wt)) •  M-‐step:

argmaxw Eq log P (x, y; w)

現在のパラメータのもとで，尤もらしいラベルyの分布qを求める

求めた分布qの期待値が最大になるようにパラメータｗを更新

3

自然言語処理における具体的な事前知識の例

•  文書分類 –  ある割合の文書はあるクラスであるということが分かっている

•  POS-‐tagging –  各文に最低一つは動詞,名詞が含まれている –  ある語が多数のPOSに割り当てられることは少ない

•  Rela.on Informa.on Extrac.on –  ある種類のEn.tyと他の種類のEn.tyの間には，特定のRela.onしか成り立たない •  LOCATION – PERSON間なら LIVE-‐IN とか．

•  (SMTにおける)アラインメント –  L1 -‐> L2の対応は， L2 -‐> L1の対応と等しい –  L1のある語がL2の多数の語と対応することは少ない

多数のラベルつきデータがあれば，そこから自然に学習が可能そうしかし，ラベルつきデータが利用できない場合でも，事前知識をモデルに取り込みたい

4

EM学習において，どのように事前知識を入れるか

•  制約をどのように表現するか •  制約を用いた学習はどうすれば良いか

Posterior Regulariza.on [Ganchev et al, 2010]

COnstraint Driven Learning [Chang et al, 2007]

制約を「ソフト」に入れる「制約を満たす分布」とのKLダイバージェンス最小化

制約を「ハード」に入れるビームサーチ + hard EM (今回は紹介しません)

Unified EM 一つパラメータを導入することで，一般的な解釈ラグランジュ緩和に基づく効率的なE-‐stepの計算

5

Posterior Regulariza.on

•  ふつう “Regulariza.on” というと – パラメータw(とかθ)に対する事前知識の導入

•  しかし，出力（の構造）に事前知識を入れたい – Posterior Regulariza.on – Constraint Driven Learing – Generalized Expecta.on Criteria

w! = argminw

L(x, y,w)+!R(w)"正則化項（L2ノルムなど)

6

・・・どうやって？？

正則化と言われてすぐ思いつく例

PRにおける制約の表現(1/2)

•  制約の「素性表現」を導入 – 文書分類の例）　ある文書が”poli.cs”

•  素性の「期待値」を取る – 文書分類の例）　25%の文書が”poli.cs”

!(x, y) = 1 if y is "politics"0 otherwise

!"#

$#

Ep!["(x, y)]= b

b = 0.25

期待値を取るのは「モデル全体として」のソフトな制約を入れるため（期待値をとらないハードな手法もある） bは一般にはベクトル表現になる（多数の制約を入れるため)

7

PRにおける制約の表現(2/2)

•  制約を満たす確率分布の集合を定義 – 先ほどの例なら，”poli.cs”が25%であるような分布の集合(一般には，不等式制約で書く)

•  分布の集合とのKLダイバージェンスを定義 •  最大化する目的関数

制約を満たす分布qの中で，最もモデルの分布と近いものとのKLダイバージェンス

モデルの尤度を最大に

制約分布とのKLダイバージェンスを最小に 8

PRにおけるEM学習(1/2)

•  Jensenの不等式で尤度の下限をおさえる

9

q, θを交互に最大化

PRにおけるEM学習(2/2)

•  先ほどの制約を導入した目的関数

10

つまり， q∈Qの範囲でE-‐stepの探索を行えばよい

PRにおけるEM学習（図解）

11

PRにおいては，制約を満たすqの中で，もっとも尤もらしい事後分布にprojec.on

ここに問答無用で近づけるのがふつうのEM

実装例

12

constraint.project() は問題(制約)依存だが既存のgradientベースのソルバで解ける

Unified EM(ここからが本論文)

•  PRのE-‐StepはKLダイバージェンスを最小化 KL(q , p) = ∑y q(y) log q(y) – q(y) log p(y)

•  modified KL Divergenceを導入 KL(q , p; °) = ∑y ° q(y) log q(y) – q(y) log p(y)

•  ここで°がどういう役割を果たしているか考える

13

γの効果

Original Distribu.on p

q with ° = 1

q with ° = 0

q with ° = 1

q with ° = -‐1

KL(q , p; °) = ∑y ° q(y) log q(y) – q(y) log p(y)

14 γは事後分布のエントロピーを制御するパラメータとみなすことができる

qのエントロピー q,pのクロスエントロピー

γの効果

15

制約なし

制約あり °

1 0 -1 1

Hard EM

CODL

EM

PR

Determinis.c Annealing (Smith and Eisner, 04; Hofmann, 99)

γを導入することで，過去に提案されてきたさまざまなEMベースの学習アルゴリズムを統一的に解釈できる

LP approx to CODL

制約つきE-‐Stepの計算

16

modified KL divergence

制約の期待値

q(y)のsimplex制約

γ ≧ 0 であればconvexなので，(劣)勾配法で最小化が可能

制約つきE-‐Stepの計算

•  ラグランジュ変数λを各制約に対して導入 – あとは劣勾配法でλとqを更新していくだけ

17

G(・）は論文参照いわゆるヘルパ

制約付きE-‐Stepの計算

•  制約および分布が分解できる場合は双対分解を用いることができる

18

たとえば，等式制約を二つの不等式制約（上下から抑える）に分けたり，アラインメントのように双方向で一致するような制約を入れたりできる

実験(POS tagging) •  Un(semi-‐)supervised POS Tagging

–  モデル : HMM（First Order, 制約なし) –  初期値 : Uniform or few Labeled Example

19

γ = 1(EM), γ = 0(Hard EM) より，γを調整した方が高いAccuracy (初期値に依存する)

傾向としては，初期値が良ければEMよりHard EM のほうが優れている

実験(Rela.on Extrac.on)

•  Semi Supervised En.ty-‐Rela.on Extrac.on – モデル: log linear(en.ty extrac.on, rela.on classifica.on) – 制約：

•  Type Constraint : ( (Loc,Per) -‐> LIVE IN ) etc.. •  Count Constraint : データ内のRela.on数から±20%

20

γの調整は 2-‐fold CV. 0.5-‐0.6くらいに最適値があるらしい

実験(Word Alignment)

•  モデル: HMM，MBRデコード •  制約：bi-‐direc.onal agreement •  E-‐Stepは双対分解（ループ数5，けっこう重い？）

21

γはdevelopment setで決定, 0.5-‐0.7くらいに最適値があるらしい

まとめ

•  EMに基づくun(semi) supervisedな学習において，事前知識を導入する手法のひとつPosterior Regulariza.on を紹介

•  PRを含んだ様々な（制約付き）EMアルゴリズムを内包するアルゴリズムとして，UEMを紹介

•  この論文のContribu.on –  KLダイバージェンスにパラメータを一個足すことで，CoDL, PRを一般化できることを示した

–  ラグランジュ緩和による効率的なE-‐Stepの計算法を示した –  実験において,PR(γ=1)とCoDL(γ=-‐inf)の間に最適なγがあることを明らかにした –  （EM, PRのコードがあれば）実装が非常に簡単なのもポイントらしい

•  感想 –  思っていたのとはちょっと違った，Posterior Regulariza.onは面白そう，双対分解する必要性がどれくらいあるものなの？ICML Workshopにまったく同じ内容の論文出てますね（今気づいた)

22

Further Reading •  Posterior Regulariza.on for Structured Latent Variable

Models [Ganchev+ JMLR 2010] –  PRについて恐らくもっとも詳しく書いてある文献

•  Rich Prior Knowledge in Learning for NLP [Druck+ ACL 2011 Tutorial] –  PR, CODL, その他の類似フレームワークについて整理されたチュートリアル．スライドがわかりやすい．

–  hup://sideinfo.wikkii.com/

•  MALLET –  PR,GE (for Maxent, linear-‐chain CRF)のコードが含まれている –  hup://mallet.cs.umass.edu/ge-‐classifica.on.php

23

unified expectation maximization

Documents