prml 1.6 情報理論

61
PRML書会第1回 1.6 2010-05-01 SUHARA YOSHIHIKO id:sleepy_yoshi

Upload: sleepyyoshi

Post on 25-Jun-2015

5.059 views

Category:

Technology


4 download

DESCRIPTION

PRML復習レーン#01の発表資料

TRANSCRIPT

Page 1: PRML 1.6 情報理論

PRML読書会第1回1.6

2010-05-01SUHARA YOSHIHIKO

id:sleepy_yoshi

Page 2: PRML 1.6 情報理論

1

目次• 1.6 情報

– 1.6.1 相対エントロピーと情報

Page 3: PRML 1.6 情報理論

2

1.6

Page 4: PRML 1.6 情報理論

3

情報 の定義• p(x) の情報 h(x)

– (1) h(x) は p(x) の単調減少関数• しい出 事の方が「 きの 合い」が大きい

– (2) h(x,y) = h(x) + h(y)• 情報の加法性

上記を満たす関数 ⇒ 対数のみ (演習1.28)

)(log)( 2 xpxh −=

ここでいう情報 はあくまで情報 (information theory) における約束事

(1.92)

Page 5: PRML 1.6 情報理論

4

に対数を

Page 6: PRML 1.6 情報理論

5

ンの を んで た

Page 7: PRML 1.6 情報理論

6

[Shannon 1948]より

Page 8: PRML 1.6 情報理論

7

___/ \

/ノ \ u. \ !?/ (●) (●) \| (__人__) u. |

\ u.` ⌒´ /

ノ \/´ ヽ

____

/ \!??/ u ノ \/ u (●) \| (__人__)|\ u .` ⌒/

ノ \/´ ヽ

Page 9: PRML 1.6 情報理論

8

naoya_tさんに答えを教えてもらった

Page 10: PRML 1.6 情報理論

9

演習1.28• h(p2) = h(p p) = h(p) + h(p) = 2h(p)

• h(pk+1) = h(pk p) = h(pk) + h(p)= k h(p) + h(p) = (k + 1) h(p)

• h(pn/m) = n h(p1/m) = m・n/m h(p1/m)= n/m h(pm/m) = n/m h(p)

)ln(

)(

)ln(

)(

)ln(

)(

)ln(

)(

q

qh

qx

qxh

q

qh

p

phx

x

===

ここでp=qx

)ln()( pph ∝∴)ln(:)ln()(:)( qpqhph =

Page 11: PRML 1.6 情報理論

10

よって対数で表現される!

____

/\ /\ キリッ. / (ー) (ー)\

/ ⌒(__人__)⌒ \| |r┬-| |

\ `ー’´ /ノ \

/´ ヽ| l \ヽ -一””””~~``’ー?、 -一”””’ー-、.ヽ ____(⌒)(⌒)⌒) ) (⌒_(⌒)⌒)⌒))

Page 12: PRML 1.6 情報理論

11

ポイント:における

Page 13: PRML 1.6 情報理論

12

エントロピー

Page 14: PRML 1.6 情報理論

13

エントロピーの定義• エントロピー: 情報の平均

– 情報 (1.92)の期待値

∑−=x

xpxpx )(log)(][H 2(1.93)

ただし,

0)( =xp 0)(ln)( =xpxpのとき

0lnlim 0 =→ pppより

Page 15: PRML 1.6 情報理論

14

エントロピーの• 1)

– 8個の状態を等 で取る 変数xの場合

• 2)– 8個の状態 {a,b,c,d,e,f,g,h}– は (1/2, 1/4, 1/8, 1/16, 1/64, 1/64, 1/64, 1/64)

bit38

1log

8

18][H 2 =×−=x

bit264

4log

64

4

16

1log

16

1

8

1log

8

1

4

1log

4

1

2

1log

2

1][H 22222 =−−−−−=x

非一様な分布のエントロピーは,一様な分布のエントロピーより小さい

Page 16: PRML 1.6 情報理論

15

符号化におけるエントロピーの解釈• 変数がどの状態にあるかを受信者に伝えたい

– (非一様の分布の場合) よく起きる事象に短い符号を,ま 起きない事象に い符号を使うことで,符号

の平均を短くできる

bit2664

144

16

13

8

12

4

11

2

1=××+×+×+×+×=平均符号長

変数のエントロピーと同じ⇒ イ なし符号化 (noiseless coding theorem)

• 2)の場合– {a,b,c,d,e,f,g,h}に対し,符号偱 (0, 10, 110, 1110,

111100, 11101, 111110, 11111) を割り当てる

Page 17: PRML 1.6 情報理論

16

ポイント:エントロピー 最短符号

Page 18: PRML 1.6 情報理論

17

エントロピーの別の解釈 (1/2)• 同じ物体を箱に分けて入れる問題

– N個の物体をたくさんの箱に分けて入れる– i番目の箱にはni個の物体が存在– N個の物体を箱に入れる方法: N!通り– i番目の箱に物体を入れた順番: ni!通り ←区別しない

⇒ N個の物体の箱への入れ方の総数 ( ) は,

∏=

i in

�W

!

!(1.94)

Page 19: PRML 1.6 情報理論

18

エントロピーの別の解釈 (2/2)• エントロピーを多 の対数を適当に定数 し

たものと定義∑−==i

in�

��

W�

H !ln1

!ln1

ln1

∑ =i i �n

(1.95)

���� −≅ ln!lnスターリングの近似式 と より

∑ ∑−=

=∞→

i i

iiii

�pp

n

nH lnlnlim (1.97)

箱は 偶 変数Xの状態xiと解釈でき,p(X=xi) = piとすると

∑−=i

ii xpxppH )(ln)(][ (1.98)

Page 20: PRML 1.6 情報理論

19

分布とエントロピーの関係• 鋭いピークを持つ分布 ⇒ エントロピー小• 多くの値に広がる分布 ⇒ エントロピー大

Page 21: PRML 1.6 情報理論

20

エントロピーの最大化

Page 22: PRML 1.6 情報理論

21

エントロピーの最大化 (1/2)• ラグランジュ乗数法を使って最大値を求める

– の総和は1という制約を入れる

−+−= ∑∑

i

i

i

ii xpxpxpH 1)()(ln)(~

λ (1.99)

01)()(ln)()(

=

−+−

∂∂

∑∑i

i

i

ii

k

xpxpxpxp

λ

( ) 01)(ln =++− λkxp

p(xi) が全て等しいとき (p(xi) = 1/M) 最大化最大値はln M

Page 23: PRML 1.6 情報理論

22

エントロピーの最大化 (2/2)• エントロピーの2階微分を計算

• 負定値のため,凹関数であることがわかり,停点が最大値であることが示された

( ) λ++− 1)(ln ixp

i

ij

ji pI

xpxp

H 1

)()(

~

−=∂∂

参考 (1階微分):

(1.100)

Page 24: PRML 1.6 情報理論

23

補足: ラグランジュ乗数法• 制約付き非線形最適化の常套手段 (詳しくは付録E)

• g(x) = 0 の制約において f(x) を最適化⇒ 以下で定義されるラグランジュ関数の停 点を求める

)()(),( xxx gfL λλ +≡

0)()( =∇+∇ xx gf λすなわち

Page 25: PRML 1.6 情報理論

24

演習1.29• エントロピー最大化をJensenの 等式から く• 解)

– あ・と・で

Page 26: PRML 1.6 情報理論

25

エントロピーの連続値への拡張

Page 27: PRML 1.6 情報理論

26

連続値への拡張• 基本的にΣが∫に変わるだけ

Page 28: PRML 1.6 情報理論

27

連続値への拡張(終)

Page 29: PRML 1.6 情報理論

28

もとい

Page 30: PRML 1.6 情報理論

29

連続値への拡張 (1/2)• xを等間隔の区間Δに分ける• p(x)が連続であると仮定すれば 値の よ

り,各区間に対して以下を満たすxiが存在する

∫∆+

∆∆=

)1(

)(d)(i

iixpxxp (1.101)

p(xi)

x

p(x)

(i+1)Δ

Page 31: PRML 1.6 情報理論

30

連続値への拡張 (2/2)• Σp(xi)Δ=1 が り つので

∑ ∆∆−=∆i

ii xpxpH ))(ln()(

∑∑ ∆∆−∆−=i

i

i

ii xpxpxp ln)()(ln)(

∆−∆−= ∑ ln)(ln)(i

ii xpxp (1.102)

• 第2項のlnΔを無視してΔ→0の極限を考える– 第1項はp(x)ln p(x) に収束

∫∑ −=

∆−→∆

xxpxpxpxpi

ii d)(ln)()(ln)(lim0

(1.103)

微分エントロピー

Page 32: PRML 1.6 情報理論

31

連続値への拡張 (2/2)• Σp(xi)Δ=1 が り つので

∑ ∆∆−=∆i

ii xpxpH ))(ln()(

∑∑ ∆∆−∆−=i

i

i

ii xpxpxp ln)()(ln)(

∆−∆−= ∑ ln)(ln)(i

ii xpxp (1.102)

• 第2項のlnΔを無視してΔ→0の極限を考える– 第1項はp(x)ln p(x) に収束

∫∑ −=

∆−→∆

xxpxpxpxpi

ii d)(ln)()(ln)(lim0

(1.103)

微分エントロピー

連続変数を厳密に規定するために無限

ビット数が必要であることを反映

Page 33: PRML 1.6 情報理論

32

微分エントロピーの最大化 (1/2)∫−= xxxx d)(ln)(][H pp

1d)( =∫∞

∞−xxp

µ=∫∞

∞−xxxp d)(

22 d)()( σµ =−∫∞

∞−xxpx

連続変数の場合のエントロピー最大化を考える.以下の3つの制約のもとで最大化

(1.104)

規格化

分布の平均

分布の広がり

−+− ∫∫

∞−

∞−1)(d)(ln)( 1 dxxpxxpxp λ

−−+

−+ ∫∫

∞−

∞−

22

32 d)()(d)( σµλµλ xxpxxxxp

ラグランジュ関数=

(1.105)

(1.106)

(1.107)

Page 34: PRML 1.6 情報理論

33

微分して0とおきます

Page 35: PRML 1.6 情報理論

34

微分エントロピーの最大化 (2/2)• 以下の結果が得られる (演習1.34)⇒ 微分エントロピーを最大化する分布はガウス分布

−−=

2

2

2/12 2

)(exp

)2(

1)(

σµ

πσx

xp

非負制約を設けなかったけれど,結果オーライガウス分布の微分エントロピーは以下になる (演習1.35)

{ })2ln(12

1][ 2πσ+=xH

(1.109)

(1.110)

σ2が増えて分布が幅広くなるにつれて大きくなるのとき,H[x] < 0 となる22

1πσ>

e

Page 36: PRML 1.6 情報理論

35

条件付きエントロピー• 同時分布 p(x,y) を考える• xの値が既知とすれば,対応するyの値を特定す

るために必要な情報は- ln p(y|x)• したがって,yを特定するために必要な情報の平

均は,

∫∫−= xyxyxyxy dd)|(ln),(]|[H pp (1.111)

これをxに対するyの条件付きエントロピーと呼ぶ

Page 37: PRML 1.6 情報理論

36

演習1.37• H[x,y] = H[y|x] + H[x] を証明せよ⇒ ホワイトボード

Page 38: PRML 1.6 情報理論

37

1.6.1相対エントロピーと相

Page 39: PRML 1.6 情報理論

38

相対エントロピー• 未知の分布 p(x) を近似的に q(x) でモデル化

– q(x) を用いて– xの値を特定するために必要な 加情報 の平均は

xx

xx d

)(

)(ln)(∫

−=p

qp

( )∫ ∫−−−= xxxxxx d)(ln)(d)(ln)()||(KL ppqpqp

この値は,カルバック-ライブラーダイバージェンス (KLd)

または 相対エントロピーと呼ばれる

)||()||( pqKLqpKL ≠注意:

(1.113)

Page 40: PRML 1.6 情報理論

39

やや唐突ですが凸関数の話をします

Page 41: PRML 1.6 情報理論

40

凸関数)()1()())1(( bfafbaf λλλλ −+≤−+ (1.114)

Page 42: PRML 1.6 情報理論

41

演習1.36• 関数が真に凸であることと,2階微分が正である

ことと等価であることを示せ

• 直感的な解– 2階微分が正 ⇒ 微分 (接線の傾き) が常に増加

Page 43: PRML 1.6 情報理論

42

イ ンセンの 等式• (1.114)を任意の点集合へ拡張した(1.115)は,

イェン ンの と呼ばれる (演習1.38)

(1.115)∑∑==

M

i

ii

M

i

ii xfxf11

)(λλ

0≥iλ 1=∑i iλここで

( ) )]([][ xfExEf ≤

( ) ∫∫ ≤ xpfpf d)()(d)( xxxxx

(1.116)

(1.117)

λiを 変数x上の 分布と なすと

連続変数に対しては,

Page 44: PRML 1.6 情報理論

43

KLdの解釈• イ ンセンの 等式をKLdへ適用

– ln(x) が凸関数であることを 用

∫∫ =−≥

−= 0d)(lnd)(

)(ln)()||(KL xxx

x

xx q

p

qpqp

(1.118)

等号は全てのxについてq(x) = p(x) のとき り つのでKLdは2つの分布 p(x)とq(x) の隔たりを表していることがわかる

Page 45: PRML 1.6 情報理論

44

KLdの最小化 ⇒ ?!• 未知の 分布のモデル化の問題

– データが未知の分布 p(x) からサンプルされる– 可変なパラメータθを持つ分布 q(x|θ) を用いて近似– θを決める方法⇒ p(x) と p(x|θ) のKLdをθについて最小化

• p(x) はわからないので,xnの有限和で近似 ((1.35)式)

{ }∑=

+−≈�

n

nn pq�

qp1

)(ln)|(ln1

)||(KL xx θ

KLdの最小化 ⇒ の最大化

Page 46: PRML 1.6 情報理論

45

再掲: 演習1.29• エントロピー最大化をJensenの 等式から く• 解)

∑=M

i i

ixp

xpxH)(

1ln)(][

ln(x)は凹関数なので,Jensenの 等式より

Mxp

xpxHM

i i

i ln)(

1)(ln][ =

≤ ∑

Page 47: PRML 1.6 情報理論

46

Page 48: PRML 1.6 情報理論

47

相僆情報• 同時分布 p(x, y) を考える• たつの 変数が の場合 p(x,y)=p(x)p(y)• 変数同士の「近さ」を測るために,同時分布と周

辺分布の積のKLdを考える

))()(||),((KL],[I yxyxyx ppp≡

yxyx

yxyx dd

),(

)()(ln),(∫∫

−=

p

ppp

これを変数x,yの間の相 と呼ぶ

Page 49: PRML 1.6 情報理論

48

相僆情報 とエントロピーの関係• の加法・乗法定 を用いて以下のとおりに

表すことができる (演習1.41)]|[H][H]|[H][H],[I xyyyxxyx −=−=

• ベイズの観点からp(x) をxの事前分布,p(x|y) を新たなデータyを観測した後の事後分布と考えられる

⇒ 相僆情報 は,新たなyを観測した結果として,xに関する 実性が減少した 合いを表す

Page 50: PRML 1.6 情報理論

49

演習1.41• I[x,y] = H[x] – H[x|y] を証明

yxyx

yxyx dd

),(

)()(ln),(∫∫

p

ppp

yxyyx

yxyx dd

)()|(

)()(ln),(∫∫

−=

pp

ppp

yxyxyxyxxyx dd)|(ln),(dd)(ln),( ∫∫∫∫ +−= pppp

yxyxyxxxx dd)|(ln),(d)(ln)( ∫∫∫ +−= pppp

]|[H][H yxx −=

Page 51: PRML 1.6 情報理論

50

xxエントロピー/xxでおなかいっぱいのアナタに

Page 52: PRML 1.6 情報理論

51

補足: 各種エントロピーの関係• ベン で るとわかり すい

H[X]

H[Y]

I[X,Y]H[X|Y] H[Y|X]

H[X,Y]

Page 53: PRML 1.6 情報理論

52

まとめ

Page 54: PRML 1.6 情報理論

53

まとめ情報 の基 を しました• 情報

– 情報 における定義• エントロピー

– 条件付きエントロピー– 相対エントロピー

• カルバック・ライブラーダイバージェンス• 相僆情報

おまけあり・・・

Page 55: PRML 1.6 情報理論

54

おまけ

Page 56: PRML 1.6 情報理論

55

相僆情報 の応用• pointwise mutual information (PMI)

– a.k.a. self mutual information (SMI)– 関連語抽出などに用いられる

• expected mutual information– PMIは, 語に っ張られる問題があるので,期

待値を取ってあげる

−===

),(

)()(ln),(PMI

yxp

ypxpyx yx

−===

),(

)()(ln),(),(EMI

yxp

ypxpyxpyx yx

Page 57: PRML 1.6 情報理論

56

実験

Page 58: PRML 1.6 情報理論

57

実験: 相僆情報 による関連語の抽出

• データセット– 20newsgroups

• 公開データセット• http://people.csail.mit.edu/jrennie/20Newsgroups/

– ニュースグループの20カテゴリに投稿された記事1000文書ずつ• 実験

– PMI(カテゴリ,単語),EMI(カテゴリ,単語) を高い順に並べる

alt.atheism

comp.graphics

comp.os.ms-windows.misc

comp.sys.ibm.pc.hardware

comp.sys.mac.hardware

comp.windows.x

misc.forsale

rec.autos

rec.motorcycles

rec.sport.baseball

rec.sport.hockey

sci.crypt

sci.electronics

sci.med

sci.space

soc.religion.christian

talk.politics.guns

talk.politics.mideast

talk.politics.misc

talk.religion.misc

Page 59: PRML 1.6 情報理論

58

結果

Page 60: PRML 1.6 情報理論

59

実験結果• 別紙参照

Page 61: PRML 1.6 情報理論

60

おしまい