2 info theory

1

前回の練習問題非定常で記憶のある情報源を一つ例示せよ

遊園地の入場者数（週末は多い，平日は前日並み）非定常で記憶のない情報源を一つ例示せよ

時刻 t に t 枚のコインを投げるとき，表が出る枚数以下のマルコフ情報源について，

状態の定常確率分布を求めよ通報 A, B の定常確率を求めよ

0

1 2

A/0.4 A/0.5 B/0.6

A/0.8B/0.5

B/0.2

(w0, w1, w2) = (0.1, 0.7, 0.2)

P(A) = 0.7P(B) = 0.3

2

本日の講義について「情報量」を定義する

情報源に対し，エントロピーの概念を導入エントロピー：「通報予想の難しさ」の定量的指標

奈良の天気，サイコロの目 ... エントロピーは大きい砂漠の天気，宝くじの当否 ... エントロピーは小さい

情報量：「ある通報がもたらすエントロピーの減少量」と定義奈良の天気のエントロピー A

天気予報 ... 天気の予想が楽に⇒エントロピーが B に減少⇒ 天気予報の情報量を A – B と定義

3

記憶のない情報源のエントロピー以下の通報発生確率を持つ記憶のない情報源 S を考える

a1

p1

a2

p2

aM

pM

...

...通報確率

情報源 S の一次エントロピー (first-order entropy):

M

iii ppSH

121 log)( ( ビット , bit ）

例１：コイン投げのエントロピー：表，裏とも確率 1/2...M = 2, p1=p2=0.5

1)2/1log(5.0log5.05.0log5.0)(1 SH ビット

この項は非負⇒ エントロピーは 0 以上の値

4

エントロピーの計算例例２：サイコロの目 ... コイン投げより，結果予想は難しいはず

11/6

通報確率

21/6

31/6

41/6

51/6

61/6

6log61

log)61

log61

(6)(1 SH

ビット585.2585.113log2log

例３：奈良の天気 ... 晴 40%, 曇 50%, 雨 10% とすると ...361.11.0log1.05.0log5.04.0log4.0)(1 SH ビット

例４：サハラ砂漠の天気 ... 晴 90%, 曇 9%, 雨 1% とすると ...

516.001.0log01.009.0log09.09.0log9.0)(1 SH ビット

5

予想の難しさとエントロピー： 2 元情報源の場合

通報が 0 または 1 の，記憶のない２元情報源 S を考える0, 1 の発生確率が p, 1 – p のとき，

)1log()1(log)(1 ppppSH ビット

この値を H(p) と表記する

p

H(p)

1.00.5

1.0p=0.5 のとき，H(p) は最大値 1 を取るp が 0, 1 に近づくとき， H(p) は 0 に近づく

予想のしやすさとエントロピーの間には，相関関係がある

6

M 元情報源の場合天気 ... ３元情報源

奈良の天気 ... 晴 40%, 曇 50%, 雨 10% とすると， H1(S)=1.361

砂漠の天気 ... 晴 90%, 曇 9%, 雨 1% とすると， H1(S)=0.516

もし，晴，曇，雨の確率が全部 1/3 の場合，

3log31

log31

31

log31

31

log31

)(1 SH

M 元情報源では， M 個の通報が等確率で発生するとき，エントロピーは最大値 log M ビットとなるエントロピーが最小値を取るのは，ある一つの通報について，その発生確率が 1 となる場合

... この場合，通報は，あいまいさなく予測可能

7

拡大情報源についてブロック化（ block ）：情報源からの通報を複数個まとめて，一個の通報とみなす

こと

M 元情報源 S の出力を n 個まとめて一つのブロックを構成 ⇒ S の n 次拡大（ n-th order extended ）情報源 ... 通報は Mn 種類： Mn 元情報源になる

拡大情報源のエントロピーは？

8

拡大情報源のエントロピー計算コイン投げ２回分の通報を，１ブロックにまとめる場合 ...

通報は { 表表 , 表裏，裏表，裏裏 } の４通り ...22 元情報源

表表1/4

通報確率

表裏1/4

裏表1/4

裏裏1/4

H1(S2)=log 4 = 2 ビットH1(S2) は， S の通報２個分のエントロピー

⇒ S の通報１個分に換算すると， H1(S2)/2 = 1 ビット

nSH n

n/)(lim 1

nSH n /)(1 S の n 次（ n-th order ）エントロピー． Hn(S) と表記

S の極限エントロピー． H(S) と表記

9

記憶のない情報源の拡大とエントロピーS: 0, 1 をそれぞれ確率 0.8, 0.2 で発生する記憶のない情報源

01

0.80.2

SH1(S)= –0.8log0.8 – 0.2log0.2 = 0.72

00011011

0.640.160.160.04

S2

H1(S2)= –0.64log0.64 – 0.16log0.16 –0.16log0.16 – 0.04log0.04 = 1.44

H2(S) = H1(S2)/2 = 1.44/2 = 0.72

この情報源では，任意の n に対して H1(Sn) = 0.72n となる ⇒ Hn(S) = H(S) = 0.72... 極限エントロピー＝一次エントロピー

10

記憶のない情報源の拡大とエントロピー定理：任意の無記憶な定常情報源 S に対し， H1(Sn) = nH1(S) ．証明：（ n = 2 の場合を考える）

)(2)()(

)(log)()(log)(

)()(log)()()(log)(

)(log)()()(log)()(

)()(log)()(

),(log),()(

111

111

000

1 0011

0 1100

0 1110

0 1010

0 11010

0 11010

21

SHSHSH

xPxPxPxP

xPxPxPxPxPxP

xPxPxPxPxPxP

xPxPxPxP

xxPxxPSH

xx

x xx x

x xx x

x x

Mx Mx

系：任意の無記憶な定常情報源 S に対し， H (S) = H1(S) ．

無記憶だからP(x0, x1) = P(x0)P(x1)

確率 P(x0) の総和は 1

11

記憶のある情報源：マルコフ情報源の場合

極限分布下での，各通報の発生確率：

0 1

0/0.9 1/0.1

0/0.4 1/0.6

極限分布は w0 = 0.8, w1 = 0.2

0 0.8·0.9 + 0.2·0.4 = 0.801 0.8·0.1 + 0.2·0.6 = 0.20

00 0.8·0.9·0.9 + 0.2·0.4·0.9 = 0.7201 0.8·0.9·0.1 + 0.2·0.4·0.1 = 0.0810 0.8·0.1·0.4 + 0.2·0.6·0.4 = 0.0811 0.8·0.1·0.6 + 0.2·0.6·0.6 = 0.12

H1(S) = 0.722

H1(S2) = 1.2914H2(S) = H1(S2)/2 = 0.6457

不一致

前スライドの定理は，記憶のある情報源では成立しない

１文字を２個より，２文字まとめてのほうが予測しやすい

12

マルコフ情報源の極限エントロピー極限エントロピーの計算：

情報源に記憶がなければ ... 一次エントロピーと一致情報源に記憶のある場合は ... 一般には計算困難⇒ マルコフ情報源であれば，別の手がある

1. 極限分布を求めておく2. 各状態について，その状態を記憶のない情報源と考え，

極限エントロピー（一次エントロピー）を計算する3. 極限分布の確率でエントロピーに重みを付け，平均を取

る

13

極限エントロピーの計算例

状態 0 ： P(0)=0.9, P(1)=0.1 の情報源 ⇒ H(S) = H(0.9) = 0.469

状態 1 ： P(0)=0.4, P(1)=0.6 の情報源 ⇒ H(S) = H(0.4) = 0.971

状態 0 に居る確率 80% ， 1 に居る確率 20% なので，加重平均は0.8·0.469 + 0.2·0.971 = 0.5694... これが極限エントロピー

ちなみに， H1(S) = 0.722 ， H2(S) = 0.6457 ， ... 単調減少？

0 1

0/0.9 1/0.1

0/0.4 1/0.6

極限分布は w0 = 0.8, w1 = 0.2

14

拡大マルコフ情報源と極限エントロピー一般に，マルコフ情報源においてブロック長 n を大きくすると ...

n 次エントロピーは単調に減少していく極限エントロピーに収束する

n

Hn(S)

H(S)

記憶のある情報源：ある程度，通報の出現パターンが「読める」

自然語だと，“ qu” は高頻出，” qz” はまず出現しない無記憶の場合より，振舞いが予想しやすい ⇒ エントロピー小

15

情報源の記憶とエントロピー定常確率 0.8 で 0 を， 0.2 で 1 を出力する情報源を考える

0/0.8

1/0.2

0/0.9 1/0.1

1/0.60/0.4

記憶無し記憶あり

一次エントロピー0.72 0.72

極限エントロピー0.72 0.5694

記憶のある情報源では，「ブロック化したほうが都合良い」場合も⇒ プロセッサの条件分岐予測など

16

情報量：情報の伝達について阪神対中日の野球の試合があったが，結果をまだ知らない阪神が勝つ確率，負ける確率，引き分ける確率は，全部 1/3

友人Ａが電話で「阪神は負けなかった」と知らせてくれた友人Ａの電話がもたらした通報に含まれる情報の「量」は？

電話を受ける前：結果に関する不確かさが大きいP( 勝 ) = 1/3. P( 引 ) = 1/3, P( 負 ) = 1/3

電話を受けた後：結果に関する不確かさが小さくなったP( 勝 ) = 1/2. P( 引 ) = 1/2, P( 負 ) = 0

「不確かさの減少量＝情報量」と定義したい

17

野球の試合の例では電話を受ける前： P( 勝 ) = 1/3. P( 引 ) = 1/3, P( 負 ) = 1/3

エントロピーは585.13log

31

log31

31

log31

31

log31

電話を受けた後： P( 勝 ) = 1/2. P( 引 ) = 1/2, P( 負 ) = 0

エントロピーは12log0

21

log21

21

log21

「阪神は負けなかった」という通報に含まれる情報量を1.585 – 1 = 0.585 ビットと定義する

18

情報量とエントロピー離れたところにある情報源 S の出力（通報）を知りたい通報の確率分布はわかるが，何が実際出力されたか知りたいS の出力に関し，なんらかの「ヒント」を入手したとするヒントにより，通報の確率分布が，別の情報源 S’ の確率分布と一致することがわかったとする

このとき，ヒントがもたらした情報量（ information) はH(S) – H(S’) ビット

19

情報量の比較確率 1/2 で嘘をつく友人Ｂからの電話：「阪神は勝った」

P( 勝 ) = 1/2. P( 引 ) = 1/4, P( 負 ) = 1/4

この場合のエントロピーは5.1

42

42

21

41

log41

41

log41

21

log21

友人Ｂの電話がもたらした情報量は， 1.585 – 1.5 = 0.085

友人Ａの電話のほうが友人Ｂの電話より，情報量が大きい

20

情報量の計算例（１）トランプのカードを一枚選び，言い当てるゲームを考える

選ばれたカードについて何も知らないとき，全カードは等確率

70.552log521

log521

)( 全カード

SH ビット

ヒント１：カードは赤い札（ハート，ダイヤ）であるヒント１を教えてもらったときのエントロピー

70.426log261

log261

)( 赤カード

SH ビット

ヒント１の持つ情報量： 5.70 – 4.70 = 1.00 ビット

21

情報量の計算例（２）ヒント２：カードは絵札（Ｊ，Ｑ，Ｋ）である

ヒント１の後にヒント２を教えてもらったときのエントロピー

58.26log61

log61

)(

,,

KQJ

SH赤カード

ビット

ヒント１の後のヒント２が持つ情報量： 4.70 – 2.58 = 2.12 ビット

5.70

4.70

3.58

2.58hint 1

hint 1

hint 2

hint 2

ヒント１なしで，いきなりヒント２が与えられた場合，

58.312log121

log121

)(,,

KQJ

SH ビット

22

情報量の計算例（３）ヒント２’：カードは８以上の札である

ヒント１⇒ ヒント２’ ⇒ ヒント２の順でヒントが与えられたとき：

5.70 4.70 ⇒ ⇒ 3.58 2.58⇒

ヒント２’の情報量は， 4.70 – 3.58 = 1.12 ビットヒント２の情報量は， 3.58 – 2.58 = 1.00 ビット

ヒント１⇒ ヒント２⇒ ヒント２’の順でヒントが与えられたとき：5.70 4.70 ⇒ ⇒ 2.58 2.58⇒

ヒント２の情報量は， 4.70 – 2.58 = 2.12 ビットヒント２の情報量は， 2.58 – 2.58 = 0.00 ビット

同じヒントでも，受け取り側の状態により，情報量は変わってくる

23

不確実な情報の情報量通報の内容が，必ずしも正確でない場合の情報量を考える⇒ 天気予報：天気について多少の情報を与えるが，やや不正確

例： 100 日間の実際の天気 (X) と天気予報 (Y) の統計：

X

晴451560

雨122840

晴雨

P(Y)×100

Y

P(X) ×1005743

実際の天気が晴だったのは 57 日， PX( 晴 )=0.57

予報が晴といったのは 60 日， PY （雨） =0.60

天気 X, 予報 Y とも晴だったのは 45 日， PX,Y( 晴，晴） =0.45

24

天気予報の情報量

天気予報が当たる確率＝ PX,Y （晴，晴）＋ PX,Y （雨，雨） =0.73

この予報の情報量は，阪神ファンの友人Ａの電話より多いか？天気のエントロピー：

X

晴451560

雨122840

晴雨

P(Y)×100

Y

P(X) ×1005743

986.043.0log43.057.0log57.0)( XH ビット

25

条件付エントロピー天気予報 Y が晴のとき：

本当に晴れる確率は 0.45/0.60 = 0.75 ，雨の確率は 0.25

「晴」という予報を聞いた後の条件付エントロピーはH(X | 晴 ) = – 0.75log0.75 – 0.25log0.25 = 0.811 ビット「晴」という天気予報の持つ情報量は 0.986 – 0.811 = 0.175

天気予報 Y が雨のとき：本当に雨の確率は 0.28/0.40 = 0.70 ，雨の確率は 0.30

「雨」という予報を聞いた後の条件付エントロピーはH(X | 雨 ) = – 0.30log0.30 – 0.70log0.70 = 0.881 ビット「雨」という天気予報の持つ情報量は 0.986 – 0.881 = 0.105

加重平均をとると 0.60·0.175 + 0.40·0.105 = 0.147 ビット

26

情報量と当たる確率

情報の「量」は，Ｂ社予報のほうが大きい

X

晴451560

雨122840

晴雨

P(Y)×100

Y

P(X) ×1005743

A社：まぁまぁ当たる予報

X

晴0

4343

雨57

057

晴雨

P(Y)×100

Y

P(X) ×1005743

B社：絶対はずれる予報

73%0.147 ビット

0%0.986 ビット

27

本日のまとめエントロピーの概念を導入

予測の難しさを定量化したもの１次， n 次，極限エントロピー無記憶情報源では，上の三者は同一記憶のある情報源では， n → 大のときエントロピー→小

情報量を定義エントロピーの減少量として定式化同じ通報でも，受信者により，受け取る情報量は異なる情報の不確実性も，通報量には反映されている

28

練習問題普段の勝率 60% の野球チームがある．ただしエースピッチャーが先発すると，勝率は 80% になる．「エースピッチャーが先発した」という通報は，チームの勝敗に関してどれだけの情報量を持つか．ただし，引き分けはないものとする．

右のマルコフ情報源（前回の練習問題と同じもの）について，一次エントロピーと極限エントロピーを求めよ．

0

1 2

A/0.4 A/0.5 B/0.6

A/0.8 B/0.5

B/0.2

2 info theory

Business