2 info theory

28
1 前前前前前前前 前前前前前前前前前前前前前 前前前前前 前前前前前前前前 前前前前前前 前前前前前前前前 (,) 前前前前前前前前前前前前前 前前前前前 前前 t t 前前前前前前前前前前前 前前前前前前 前前前前前前前前前前前前前前前前前前前前前前前前前前前 前前 A, B 前前前前前前前前前 0 1 2 A/0.4 A/0.5 B/0.6 A/0.8 B/0.5 B/0.2 (w 0 , w 1 , w 2 ) = (0.1, 0.7, 0.2) P(A) = 0.7 P(B) = 0.3

Upload: melvincabatuan

Post on 11-Jun-2015

1.587 views

Category:

Business


0 download

TRANSCRIPT

Page 1: 2 Info Theory

1

前回の練習問題非定常で記憶のある情報源を一つ例示せよ

遊園地の入場者数(週末は多い,平日は前日並み)非定常で記憶のない情報源を一つ例示せよ

時刻 t に t 枚のコインを投げるとき,表が出る枚数以下のマルコフ情報源について,

状態の定常確率分布を求めよ通報 A, B の定常確率を求めよ

0

1 2

A/0.4 A/0.5 B/0.6

A/0.8B/0.5

B/0.2

(w0, w1, w2) = (0.1, 0.7, 0.2)

P(A) = 0.7P(B) = 0.3

Page 2: 2 Info Theory

2

本日の講義について「情報量」を定義する

情報源に対し,エントロピーの概念を導入エントロピー:「通報予想の難しさ」の定量的指標

奈良の天気,サイコロの目 ... エントロピーは大きい砂漠の天気,宝くじの当否 ... エントロピーは小さい

情報量:「ある通報がもたらすエントロピーの減少量」と定義奈良の天気のエントロピー A

天気予報 ... 天気の予想が楽に⇒エントロピーが B に減少⇒ 天気予報の情報量を A – B と定義

Page 3: 2 Info Theory

3

記憶のない情報源のエントロピー以下の通報発生確率を持つ記憶のない情報源 S を考える

a1

p1

a2

p2

aM

pM

...

...通報確率

情報源 S の一次エントロピー (first-order entropy):

M

iii ppSH

121 log)( ( ビット , bit )

例1:コイン投げのエントロピー:表,裏とも確率 1/2...M = 2, p1=p2=0.5

1)2/1log(5.0log5.05.0log5.0)(1 SH ビット

この項は非負⇒ エントロピーは 0 以上の値

Page 4: 2 Info Theory

4

エントロピーの計算例例2:サイコロの目 ... コイン投げより,結果予想は難しいはず

11/6

通報確率

21/6

31/6

41/6

51/6

61/6

6log61

log)61

log61

(6)(1 SH

ビット585.2585.113log2log

例3:奈良の天気 ... 晴 40%, 曇 50%, 雨 10% とすると ...361.11.0log1.05.0log5.04.0log4.0)(1 SH ビット

例4:サハラ砂漠の天気 ... 晴 90%, 曇 9%, 雨 1% とすると ...

516.001.0log01.009.0log09.09.0log9.0)(1 SH ビット

Page 5: 2 Info Theory

5

予想の難しさとエントロピー: 2 元情報源の場合

通報が 0 または 1 の,記憶のない2元情報源 S を考える0, 1 の発生確率が p, 1 – p のとき,

)1log()1(log)(1 ppppSH ビット

この値を H(p) と表記する

p

H(p)

1.00.5

1.0p=0.5 のとき,H(p) は最大値 1 を取るp が 0, 1 に近づくとき, H(p) は 0 に近づく

予想のしやすさとエントロピーの間には,相関関係がある

Page 6: 2 Info Theory

6

M 元情報源の場合天気 ... 3元情報源

奈良の天気 ... 晴 40%, 曇 50%, 雨 10% とすると, H1(S)=1.361

砂漠の天気 ... 晴 90%, 曇 9%, 雨 1% とすると, H1(S)=0.516

もし,晴,曇,雨の確率が全部 1/3 の場合,

3log31

log31

31

log31

31

log31

)(1 SH

M 元情報源では, M 個の通報が等確率で発生するとき,エントロピーは最大値 log M ビットとなるエントロピーが最小値を取るのは,ある一つの通報について,その発生確率が 1 となる場合

... この場合,通報は,あいまいさなく予測可能

Page 7: 2 Info Theory

7

拡大情報源についてブロック化( block ):情報源からの通報を複数個まとめて,一個の通報とみなす

こと

M 元情報源 S の出力を n 個まとめて一つのブロックを構成 ⇒ S の n 次拡大( n-th order extended )情報源 ... 通報は Mn 種類: Mn 元情報源になる

拡大情報源のエントロピーは?

Page 8: 2 Info Theory

8

拡大情報源のエントロピー計算コイン投げ2回分の通報を,1ブロックにまとめる場合 ...

通報は { 表表 , 表裏,裏表,裏裏 } の4通り ...22 元情報源

表表1/4

通報確率

表裏1/4

裏表1/4

裏裏1/4

H1(S2)=log 4 = 2 ビットH1(S2) は, S の通報2個分のエントロピー

⇒ S の通報1個分に換算すると, H1(S2)/2 = 1 ビット

nSH n

n/)(lim 1

nSH n /)(1 S の n 次 ( n-th order )エントロピー. Hn(S) と表記

S の極限エントロピー. H(S) と表記

Page 9: 2 Info Theory

9

記憶のない情報源の拡大とエントロピーS: 0, 1 をそれぞれ確率 0.8, 0.2 で発生する記憶のない情報源

01

0.80.2

SH1(S)= –0.8log0.8 – 0.2log0.2 = 0.72

00011011

0.640.160.160.04

S2

H1(S2)= –0.64log0.64 – 0.16log0.16 –0.16log0.16 – 0.04log0.04 = 1.44

H2(S) = H1(S2)/2 = 1.44/2 = 0.72

この情報源では,任意の n に対して H1(Sn) = 0.72n となる ⇒ Hn(S) = H(S) = 0.72... 極限エントロピー=一次エントロピー

Page 10: 2 Info Theory

10

記憶のない情報源の拡大とエントロピー定理:任意の無記憶な定常情報源 S に対し, H1(Sn) = nH1(S) .証明:( n = 2 の場合を考える)

)(2)()(

)(log)()(log)(

)()(log)()()(log)(

)(log)()()(log)()(

)()(log)()(

),(log),()(

111

111

000

1 0011

0 1100

0 1110

0 1010

0 11010

0 11010

21

SHSHSH

xPxPxPxP

xPxPxPxPxPxP

xPxPxPxPxPxP

xPxPxPxP

xxPxxPSH

xx

x xx x

x xx x

x x

Mx Mx

系:任意の無記憶な定常情報源 S に対し, H (S) = H1(S) .

無記憶だからP(x0, x1) = P(x0)P(x1)

確率 P(x0) の総和は 1

Page 11: 2 Info Theory

11

記憶のある情報源:マルコフ情報源の場合

極限分布下での,各通報の発生確率:

0 1

0/0.9 1/0.1

0/0.4 1/0.6

極限分布は w0 = 0.8, w1 = 0.2

0 0.8·0.9 + 0.2·0.4 = 0.801 0.8·0.1 + 0.2·0.6 = 0.20

00 0.8·0.9·0.9 + 0.2·0.4·0.9 = 0.7201 0.8·0.9·0.1 + 0.2·0.4·0.1 = 0.0810 0.8·0.1·0.4 + 0.2·0.6·0.4 = 0.0811 0.8·0.1·0.6 + 0.2·0.6·0.6 = 0.12

H1(S) = 0.722

H1(S2) = 1.2914H2(S) = H1(S2)/2 = 0.6457

不一致

前スライドの定理は,記憶のある情報源では成立しない

1文字を2個より,2文字まとめてのほうが予測しやすい

Page 12: 2 Info Theory

12

マルコフ情報源の極限エントロピー極限エントロピーの計算:

情報源に記憶がなければ ... 一次エントロピーと一致情報源に記憶のある場合は ... 一般には計算困難⇒ マルコフ情報源であれば,別の手がある

1. 極限分布を求めておく2. 各状態について,その状態を記憶のない情報源と考え,

極限エントロピー(一次エントロピー)を計算する3. 極限分布の確率でエントロピーに重みを付け,平均を取

Page 13: 2 Info Theory

13

極限エントロピーの計算例

状態 0 : P(0)=0.9, P(1)=0.1 の情報源 ⇒ H(S) = H(0.9) = 0.469

状態 1 : P(0)=0.4, P(1)=0.6 の情報源 ⇒ H(S) = H(0.4) = 0.971

状態 0 に居る確率 80% , 1 に居る確率 20% なので,加重平均は0.8·0.469 + 0.2·0.971 = 0.5694... これが極限エントロピー

ちなみに, H1(S) = 0.722 , H2(S) = 0.6457 , ... 単調減少?

0 1

0/0.9 1/0.1

0/0.4 1/0.6

極限分布は w0 = 0.8, w1 = 0.2

Page 14: 2 Info Theory

14

拡大マルコフ情報源と極限エントロピー一般に,マルコフ情報源においてブロック長 n を大きくすると ...

n 次エントロピーは単調に減少していく極限エントロピーに収束する

n

Hn(S)

H(S)

記憶のある情報源:ある程度,通報の出現パターンが「読める」

自然語だと,“ qu” は高頻出,” qz” はまず出現しない無記憶の場合より,振舞いが予想しやすい ⇒ エントロピー小

Page 15: 2 Info Theory

15

情報源の記憶とエントロピー定常確率 0.8 で 0 を, 0.2 で 1 を出力する情報源を考える

0/0.8

1/0.2

0/0.9 1/0.1

1/0.60/0.4

記憶無し 記憶あり

一次エントロピー0.72 0.72

極限エントロピー0.72 0.5694

記憶のある情報源では,「ブロック化したほうが都合良い」場合も⇒ プロセッサの条件分岐予測など

Page 16: 2 Info Theory

16

情報量:情報の伝達について阪神対中日の野球の試合があったが,結果をまだ知らない阪神が勝つ確率,負ける確率,引き分ける確率は,全部 1/3

友人Aが電話で「阪神は負けなかった」と知らせてくれた友人Aの電話がもたらした通報に含まれる情報の「量」は?

電話を受ける前:結果に関する不確かさが大きいP( 勝 ) = 1/3. P( 引 ) = 1/3, P( 負 ) = 1/3

電話を受けた後:結果に関する不確かさが小さくなったP( 勝 ) = 1/2. P( 引 ) = 1/2, P( 負 ) = 0

「不確かさの減少量 = 情報量」と定義したい

Page 17: 2 Info Theory

17

野球の試合の例では電話を受ける前: P( 勝 ) = 1/3. P( 引 ) = 1/3, P( 負 ) = 1/3

エントロピーは585.13log

31

log31

31

log31

31

log31

電話を受けた後: P( 勝 ) = 1/2. P( 引 ) = 1/2, P( 負 ) = 0

エントロピーは12log0

21

log21

21

log21

「阪神は負けなかった」という通報に含まれる情報量を1.585 – 1 = 0.585 ビットと定義する

Page 18: 2 Info Theory

18

情報量とエントロピー離れたところにある情報源 S の出力(通報)を知りたい通報の確率分布はわかるが,何が実際出力されたか知りたいS の出力に関し,なんらかの「ヒント」を入手したとするヒントにより,通報の確率分布が,別の情報源 S’ の確率分布と一致することがわかったとする

このとき,ヒントがもたらした情報量 ( information) はH(S) – H(S’) ビット

Page 19: 2 Info Theory

19

情報量の比較確率 1/2 で嘘をつく友人Bからの電話:「阪神は勝った」

P( 勝 ) = 1/2. P( 引 ) = 1/4, P( 負 ) = 1/4

この場合のエントロピーは5.1

42

42

21

41

log41

41

log41

21

log21

友人Bの電話がもたらした情報量は, 1.585 – 1.5 = 0.085

友人Aの電話のほうが友人Bの電話より,情報量が大きい

Page 20: 2 Info Theory

20

情報量の計算例(1)トランプのカードを一枚選び,言い当てるゲームを考える

選ばれたカードについて何も知らないとき,全カードは等確率

70.552log521

log521

)( 全カード

SH ビット

ヒント1:カードは赤い札(ハート,ダイヤ)であるヒント1を教えてもらったときのエントロピー

70.426log261

log261

)( 赤カード

SH ビット

ヒント1の持つ情報量: 5.70 – 4.70 = 1.00 ビット

Page 21: 2 Info Theory

21

情報量の計算例(2)ヒント2:カードは絵札(J,Q,K)である

ヒント1の後にヒント2を教えてもらったときのエントロピー

58.26log61

log61

)(

,,

KQJ

SH赤カード

ビット

ヒント1の後のヒント2が持つ情報量: 4.70 – 2.58 = 2.12 ビット

5.70

4.70

3.58

2.58hint 1

hint 1

hint 2

hint 2

ヒント1なしで,いきなりヒント2が与えられた場合,

58.312log121

log121

)(,,

KQJ

SH ビット

Page 22: 2 Info Theory

22

情報量の計算例(3)ヒント2’:カードは8以上の札である

ヒント1⇒ ヒント2’ ⇒ ヒント2の順でヒントが与えられたとき:

5.70 4.70 ⇒ ⇒ 3.58 2.58⇒

ヒント2’の情報量は, 4.70 – 3.58 = 1.12 ビットヒント2の情報量は, 3.58 – 2.58 = 1.00 ビット

ヒント1⇒ ヒント2⇒ ヒント2’の順でヒントが与えられたとき:5.70 4.70 ⇒ ⇒ 2.58 2.58⇒

ヒント2の情報量は, 4.70 – 2.58 = 2.12 ビットヒント2の情報量は, 2.58 – 2.58 = 0.00 ビット

同じヒントでも,受け取り側の状態により,情報量は変わってくる

Page 23: 2 Info Theory

23

不確実な情報の情報量通報の内容が,必ずしも正確でない場合の情報量を考える⇒ 天気予報:天気について多少の情報を与えるが,やや不正確

例: 100 日間の実際の天気 (X) と天気予報 (Y) の統計:

X

晴451560

雨122840

晴雨

P(Y)×100

Y

P(X) ×1005743

実際の天気が晴だったのは 57 日, PX( 晴 )=0.57

予報が晴といったのは 60 日, PY (雨) =0.60

天気 X, 予報 Y とも晴だったのは 45 日, PX,Y( 晴,晴) =0.45

Page 24: 2 Info Theory

24

天気予報の情報量

天気予報が当たる確率= PX,Y (晴,晴)+ PX,Y (雨,雨) =0.73

この予報の情報量は,阪神ファンの友人Aの電話より多いか?天気のエントロピー:

X

晴451560

雨122840

晴雨

P(Y)×100

Y

P(X) ×1005743

986.043.0log43.057.0log57.0)( XH ビット

Page 25: 2 Info Theory

25

条件付エントロピー天気予報 Y が晴のとき:

本当に晴れる確率は 0.45/0.60 = 0.75 ,雨の確率は 0.25

「晴」という予報を聞いた後の条件付エントロピーはH(X | 晴 ) = – 0.75log0.75 – 0.25log0.25 = 0.811 ビット「晴」という天気予報の持つ情報量は 0.986 – 0.811 = 0.175

天気予報 Y が雨のとき:本当に雨の確率は 0.28/0.40 = 0.70 ,雨の確率は 0.30

「雨」という予報を聞いた後の条件付エントロピーはH(X | 雨 ) = – 0.30log0.30 – 0.70log0.70 = 0.881 ビット「雨」という天気予報の持つ情報量は 0.986 – 0.881 = 0.105

加重平均をとると 0.60·0.175 + 0.40·0.105 = 0.147 ビット

Page 26: 2 Info Theory

26

情報量と当たる確率

情報の「量」は,B社予報のほうが大きい

X

晴451560

雨122840

晴雨

P(Y)×100

Y

P(X) ×1005743

A社:まぁまぁ当たる予報

X

晴0

4343

雨57

057

晴雨

P(Y)×100

Y

P(X) ×1005743

B社:絶対はずれる予報

73%0.147 ビット

0%0.986 ビット

Page 27: 2 Info Theory

27

本日のまとめエントロピーの概念を導入

予測の難しさを定量化したもの1次, n 次,極限エントロピー無記憶情報源では,上の三者は同一記憶のある情報源では, n → 大のときエントロピー→小

情報量を定義エントロピーの減少量として定式化同じ通報でも,受信者により,受け取る情報量は異なる情報の不確実性も,通報量には反映されている

Page 28: 2 Info Theory

28

練習問題普段の勝率 60% の野球チームがある.ただしエースピッチャーが先発すると,勝率は 80% になる.「エースピッチャーが先発した」という通報は,チームの勝敗に関してどれだけの情報量を持つか.ただし,引き分けはないものとする.

右のマルコフ情報源(前回の練習問題と同じもの)について,一次エントロピーと極限エントロピーを求めよ.

0

1 2

A/0.4 A/0.5 B/0.6

A/0.8 B/0.5

B/0.2