2 info theory
TRANSCRIPT
1
前回の練習問題非定常で記憶のある情報源を一つ例示せよ
遊園地の入場者数(週末は多い,平日は前日並み)非定常で記憶のない情報源を一つ例示せよ
時刻 t に t 枚のコインを投げるとき,表が出る枚数以下のマルコフ情報源について,
状態の定常確率分布を求めよ通報 A, B の定常確率を求めよ
0
1 2
A/0.4 A/0.5 B/0.6
A/0.8B/0.5
B/0.2
(w0, w1, w2) = (0.1, 0.7, 0.2)
P(A) = 0.7P(B) = 0.3
2
本日の講義について「情報量」を定義する
情報源に対し,エントロピーの概念を導入エントロピー:「通報予想の難しさ」の定量的指標
奈良の天気,サイコロの目 ... エントロピーは大きい砂漠の天気,宝くじの当否 ... エントロピーは小さい
情報量:「ある通報がもたらすエントロピーの減少量」と定義奈良の天気のエントロピー A
天気予報 ... 天気の予想が楽に⇒エントロピーが B に減少⇒ 天気予報の情報量を A – B と定義
3
記憶のない情報源のエントロピー以下の通報発生確率を持つ記憶のない情報源 S を考える
a1
p1
a2
p2
aM
pM
...
...通報確率
情報源 S の一次エントロピー (first-order entropy):
M
iii ppSH
121 log)( ( ビット , bit )
例1:コイン投げのエントロピー:表,裏とも確率 1/2...M = 2, p1=p2=0.5
1)2/1log(5.0log5.05.0log5.0)(1 SH ビット
この項は非負⇒ エントロピーは 0 以上の値
4
エントロピーの計算例例2:サイコロの目 ... コイン投げより,結果予想は難しいはず
11/6
通報確率
21/6
31/6
41/6
51/6
61/6
6log61
log)61
log61
(6)(1 SH
ビット585.2585.113log2log
例3:奈良の天気 ... 晴 40%, 曇 50%, 雨 10% とすると ...361.11.0log1.05.0log5.04.0log4.0)(1 SH ビット
例4:サハラ砂漠の天気 ... 晴 90%, 曇 9%, 雨 1% とすると ...
516.001.0log01.009.0log09.09.0log9.0)(1 SH ビット
5
予想の難しさとエントロピー: 2 元情報源の場合
通報が 0 または 1 の,記憶のない2元情報源 S を考える0, 1 の発生確率が p, 1 – p のとき,
)1log()1(log)(1 ppppSH ビット
この値を H(p) と表記する
p
H(p)
1.00.5
1.0p=0.5 のとき,H(p) は最大値 1 を取るp が 0, 1 に近づくとき, H(p) は 0 に近づく
予想のしやすさとエントロピーの間には,相関関係がある
6
M 元情報源の場合天気 ... 3元情報源
奈良の天気 ... 晴 40%, 曇 50%, 雨 10% とすると, H1(S)=1.361
砂漠の天気 ... 晴 90%, 曇 9%, 雨 1% とすると, H1(S)=0.516
もし,晴,曇,雨の確率が全部 1/3 の場合,
3log31
log31
31
log31
31
log31
)(1 SH
M 元情報源では, M 個の通報が等確率で発生するとき,エントロピーは最大値 log M ビットとなるエントロピーが最小値を取るのは,ある一つの通報について,その発生確率が 1 となる場合
... この場合,通報は,あいまいさなく予測可能
7
拡大情報源についてブロック化( block ):情報源からの通報を複数個まとめて,一個の通報とみなす
こと
M 元情報源 S の出力を n 個まとめて一つのブロックを構成 ⇒ S の n 次拡大( n-th order extended )情報源 ... 通報は Mn 種類: Mn 元情報源になる
拡大情報源のエントロピーは?
8
拡大情報源のエントロピー計算コイン投げ2回分の通報を,1ブロックにまとめる場合 ...
通報は { 表表 , 表裏,裏表,裏裏 } の4通り ...22 元情報源
表表1/4
通報確率
表裏1/4
裏表1/4
裏裏1/4
H1(S2)=log 4 = 2 ビットH1(S2) は, S の通報2個分のエントロピー
⇒ S の通報1個分に換算すると, H1(S2)/2 = 1 ビット
nSH n
n/)(lim 1
nSH n /)(1 S の n 次 ( n-th order )エントロピー. Hn(S) と表記
S の極限エントロピー. H(S) と表記
9
記憶のない情報源の拡大とエントロピーS: 0, 1 をそれぞれ確率 0.8, 0.2 で発生する記憶のない情報源
01
0.80.2
SH1(S)= –0.8log0.8 – 0.2log0.2 = 0.72
00011011
0.640.160.160.04
S2
H1(S2)= –0.64log0.64 – 0.16log0.16 –0.16log0.16 – 0.04log0.04 = 1.44
H2(S) = H1(S2)/2 = 1.44/2 = 0.72
この情報源では,任意の n に対して H1(Sn) = 0.72n となる ⇒ Hn(S) = H(S) = 0.72... 極限エントロピー=一次エントロピー
10
記憶のない情報源の拡大とエントロピー定理:任意の無記憶な定常情報源 S に対し, H1(Sn) = nH1(S) .証明:( n = 2 の場合を考える)
)(2)()(
)(log)()(log)(
)()(log)()()(log)(
)(log)()()(log)()(
)()(log)()(
),(log),()(
111
111
000
1 0011
0 1100
0 1110
0 1010
0 11010
0 11010
21
SHSHSH
xPxPxPxP
xPxPxPxPxPxP
xPxPxPxPxPxP
xPxPxPxP
xxPxxPSH
xx
x xx x
x xx x
x x
Mx Mx
系:任意の無記憶な定常情報源 S に対し, H (S) = H1(S) .
無記憶だからP(x0, x1) = P(x0)P(x1)
確率 P(x0) の総和は 1
11
記憶のある情報源:マルコフ情報源の場合
極限分布下での,各通報の発生確率:
0 1
0/0.9 1/0.1
0/0.4 1/0.6
極限分布は w0 = 0.8, w1 = 0.2
0 0.8·0.9 + 0.2·0.4 = 0.801 0.8·0.1 + 0.2·0.6 = 0.20
00 0.8·0.9·0.9 + 0.2·0.4·0.9 = 0.7201 0.8·0.9·0.1 + 0.2·0.4·0.1 = 0.0810 0.8·0.1·0.4 + 0.2·0.6·0.4 = 0.0811 0.8·0.1·0.6 + 0.2·0.6·0.6 = 0.12
H1(S) = 0.722
H1(S2) = 1.2914H2(S) = H1(S2)/2 = 0.6457
不一致
前スライドの定理は,記憶のある情報源では成立しない
1文字を2個より,2文字まとめてのほうが予測しやすい
12
マルコフ情報源の極限エントロピー極限エントロピーの計算:
情報源に記憶がなければ ... 一次エントロピーと一致情報源に記憶のある場合は ... 一般には計算困難⇒ マルコフ情報源であれば,別の手がある
1. 極限分布を求めておく2. 各状態について,その状態を記憶のない情報源と考え,
極限エントロピー(一次エントロピー)を計算する3. 極限分布の確率でエントロピーに重みを付け,平均を取
る
13
極限エントロピーの計算例
状態 0 : P(0)=0.9, P(1)=0.1 の情報源 ⇒ H(S) = H(0.9) = 0.469
状態 1 : P(0)=0.4, P(1)=0.6 の情報源 ⇒ H(S) = H(0.4) = 0.971
状態 0 に居る確率 80% , 1 に居る確率 20% なので,加重平均は0.8·0.469 + 0.2·0.971 = 0.5694... これが極限エントロピー
ちなみに, H1(S) = 0.722 , H2(S) = 0.6457 , ... 単調減少?
0 1
0/0.9 1/0.1
0/0.4 1/0.6
極限分布は w0 = 0.8, w1 = 0.2
14
拡大マルコフ情報源と極限エントロピー一般に,マルコフ情報源においてブロック長 n を大きくすると ...
n 次エントロピーは単調に減少していく極限エントロピーに収束する
n
Hn(S)
H(S)
記憶のある情報源:ある程度,通報の出現パターンが「読める」
自然語だと,“ qu” は高頻出,” qz” はまず出現しない無記憶の場合より,振舞いが予想しやすい ⇒ エントロピー小
15
情報源の記憶とエントロピー定常確率 0.8 で 0 を, 0.2 で 1 を出力する情報源を考える
0/0.8
1/0.2
0/0.9 1/0.1
1/0.60/0.4
記憶無し 記憶あり
一次エントロピー0.72 0.72
極限エントロピー0.72 0.5694
記憶のある情報源では,「ブロック化したほうが都合良い」場合も⇒ プロセッサの条件分岐予測など
16
情報量:情報の伝達について阪神対中日の野球の試合があったが,結果をまだ知らない阪神が勝つ確率,負ける確率,引き分ける確率は,全部 1/3
友人Aが電話で「阪神は負けなかった」と知らせてくれた友人Aの電話がもたらした通報に含まれる情報の「量」は?
電話を受ける前:結果に関する不確かさが大きいP( 勝 ) = 1/3. P( 引 ) = 1/3, P( 負 ) = 1/3
電話を受けた後:結果に関する不確かさが小さくなったP( 勝 ) = 1/2. P( 引 ) = 1/2, P( 負 ) = 0
「不確かさの減少量 = 情報量」と定義したい
17
野球の試合の例では電話を受ける前: P( 勝 ) = 1/3. P( 引 ) = 1/3, P( 負 ) = 1/3
エントロピーは585.13log
31
log31
31
log31
31
log31
電話を受けた後: P( 勝 ) = 1/2. P( 引 ) = 1/2, P( 負 ) = 0
エントロピーは12log0
21
log21
21
log21
「阪神は負けなかった」という通報に含まれる情報量を1.585 – 1 = 0.585 ビットと定義する
18
情報量とエントロピー離れたところにある情報源 S の出力(通報)を知りたい通報の確率分布はわかるが,何が実際出力されたか知りたいS の出力に関し,なんらかの「ヒント」を入手したとするヒントにより,通報の確率分布が,別の情報源 S’ の確率分布と一致することがわかったとする
このとき,ヒントがもたらした情報量 ( information) はH(S) – H(S’) ビット
19
情報量の比較確率 1/2 で嘘をつく友人Bからの電話:「阪神は勝った」
P( 勝 ) = 1/2. P( 引 ) = 1/4, P( 負 ) = 1/4
この場合のエントロピーは5.1
42
42
21
41
log41
41
log41
21
log21
友人Bの電話がもたらした情報量は, 1.585 – 1.5 = 0.085
友人Aの電話のほうが友人Bの電話より,情報量が大きい
20
情報量の計算例(1)トランプのカードを一枚選び,言い当てるゲームを考える
選ばれたカードについて何も知らないとき,全カードは等確率
70.552log521
log521
)( 全カード
SH ビット
ヒント1:カードは赤い札(ハート,ダイヤ)であるヒント1を教えてもらったときのエントロピー
70.426log261
log261
)( 赤カード
SH ビット
ヒント1の持つ情報量: 5.70 – 4.70 = 1.00 ビット
21
情報量の計算例(2)ヒント2:カードは絵札(J,Q,K)である
ヒント1の後にヒント2を教えてもらったときのエントロピー
58.26log61
log61
)(
,,
KQJ
SH赤カード
ビット
ヒント1の後のヒント2が持つ情報量: 4.70 – 2.58 = 2.12 ビット
5.70
4.70
3.58
2.58hint 1
hint 1
hint 2
hint 2
ヒント1なしで,いきなりヒント2が与えられた場合,
58.312log121
log121
)(,,
KQJ
SH ビット
22
情報量の計算例(3)ヒント2’:カードは8以上の札である
ヒント1⇒ ヒント2’ ⇒ ヒント2の順でヒントが与えられたとき:
5.70 4.70 ⇒ ⇒ 3.58 2.58⇒
ヒント2’の情報量は, 4.70 – 3.58 = 1.12 ビットヒント2の情報量は, 3.58 – 2.58 = 1.00 ビット
ヒント1⇒ ヒント2⇒ ヒント2’の順でヒントが与えられたとき:5.70 4.70 ⇒ ⇒ 2.58 2.58⇒
ヒント2の情報量は, 4.70 – 2.58 = 2.12 ビットヒント2の情報量は, 2.58 – 2.58 = 0.00 ビット
同じヒントでも,受け取り側の状態により,情報量は変わってくる
23
不確実な情報の情報量通報の内容が,必ずしも正確でない場合の情報量を考える⇒ 天気予報:天気について多少の情報を与えるが,やや不正確
例: 100 日間の実際の天気 (X) と天気予報 (Y) の統計:
X
晴451560
雨122840
晴雨
P(Y)×100
Y
P(X) ×1005743
実際の天気が晴だったのは 57 日, PX( 晴 )=0.57
予報が晴といったのは 60 日, PY (雨) =0.60
天気 X, 予報 Y とも晴だったのは 45 日, PX,Y( 晴,晴) =0.45
24
天気予報の情報量
天気予報が当たる確率= PX,Y (晴,晴)+ PX,Y (雨,雨) =0.73
この予報の情報量は,阪神ファンの友人Aの電話より多いか?天気のエントロピー:
X
晴451560
雨122840
晴雨
P(Y)×100
Y
P(X) ×1005743
986.043.0log43.057.0log57.0)( XH ビット
25
条件付エントロピー天気予報 Y が晴のとき:
本当に晴れる確率は 0.45/0.60 = 0.75 ,雨の確率は 0.25
「晴」という予報を聞いた後の条件付エントロピーはH(X | 晴 ) = – 0.75log0.75 – 0.25log0.25 = 0.811 ビット「晴」という天気予報の持つ情報量は 0.986 – 0.811 = 0.175
天気予報 Y が雨のとき:本当に雨の確率は 0.28/0.40 = 0.70 ,雨の確率は 0.30
「雨」という予報を聞いた後の条件付エントロピーはH(X | 雨 ) = – 0.30log0.30 – 0.70log0.70 = 0.881 ビット「雨」という天気予報の持つ情報量は 0.986 – 0.881 = 0.105
加重平均をとると 0.60·0.175 + 0.40·0.105 = 0.147 ビット
26
情報量と当たる確率
情報の「量」は,B社予報のほうが大きい
X
晴451560
雨122840
晴雨
P(Y)×100
Y
P(X) ×1005743
A社:まぁまぁ当たる予報
X
晴0
4343
雨57
057
晴雨
P(Y)×100
Y
P(X) ×1005743
B社:絶対はずれる予報
73%0.147 ビット
0%0.986 ビット
27
本日のまとめエントロピーの概念を導入
予測の難しさを定量化したもの1次, n 次,極限エントロピー無記憶情報源では,上の三者は同一記憶のある情報源では, n → 大のときエントロピー→小
情報量を定義エントロピーの減少量として定式化同じ通報でも,受信者により,受け取る情報量は異なる情報の不確実性も,通報量には反映されている
28
練習問題普段の勝率 60% の野球チームがある.ただしエースピッチャーが先発すると,勝率は 80% になる.「エースピッチャーが先発した」という通報は,チームの勝敗に関してどれだけの情報量を持つか.ただし,引き分けはないものとする.
右のマルコフ情報源(前回の練習問題と同じもの)について,一次エントロピーと極限エントロピーを求めよ.
0
1 2
A/0.4 A/0.5 B/0.6
A/0.8 B/0.5
B/0.2