講義「情報理論」 - 北海道大学kida/lecture/it_3.pdf講義「情報理論」...

講義「情報理論」

第３回情報量とエントロピー

情報理工学部門情報知識ネットワーク研究室喜田拓也

2019/6/21講義資料

今日の内容

2.1 情報量

2.2 エントロピー

2.3 エントロピーの性質

2.4 結合エントロピー

2.5 条件付きエントロピー

2.6 相互情報量

2

情報には量がある！

確率が高いことを知らされても，

そのニュースは価値が低い

3

私には一人，妹がいます

妹は女性です

フーン (´<_｀ )

で？

確率１の結果が知らされる → 得られる情報量は 0

情報には量がある！

確率が低いことを知らされたら，

そのニュースは価値が高い

4

私には12人，妹がいます (;ﾟДﾟ)(ﾟДﾟ;(ﾟ，ﾟ;)ﾅ､ﾅﾝﾀﾞｯﾃｰ!!

確率が 0 に近い事柄を知らされる → 情報量は大！

一つの結果を知ったときの情報量

確率𝑝𝑝の事象の生起を知ったときに得られる情報量を

𝐼𝐼(𝑝𝑝) とすると 𝐼𝐼(𝑝𝑝)は次のような性質を満たすべき

① 𝐼𝐼(𝑝𝑝) は 0 < 𝑝𝑝 ≤ 1 で単調減少な関数である

② 確率𝑝𝑝1,𝑝𝑝2で起こる二つの互いに独立な事象が同時

に起こる確率𝑝𝑝1𝑝𝑝2について 𝐼𝐼 𝑝𝑝1𝑝𝑝2 ＝𝐼𝐼 𝑝𝑝1 ＋𝐼𝐼 𝑝𝑝2

③ 𝐼𝐼(𝑝𝑝) は 0 < 𝑝𝑝 ≤ 1 で連続な関数である

これらを満たす関数 𝐼𝐼(𝑝𝑝) は

𝐼𝐼 𝑝𝑝 ＝－ log𝑎𝑎 𝑝𝑝

という形しかありえない（ただし 𝑎𝑎 > 1）5

情報量の

加法性

証明は省略

情報量の定義

確率 𝑝𝑝で生起する事象が起きたことを知ったときに

得られる情報量 𝐼𝐼 𝑝𝑝 を自己情報量と呼び，

𝐼𝐼 𝑝𝑝 = − log𝑎𝑎 𝑝𝑝

と定義する．ただし，𝑎𝑎 は 𝑎𝑎 > 1 の定数とする．

6

𝑎𝑎 = 2 の場合，単位はビット（bit）という自然対数で計るときはナット（nat） 1 nat≒1.443 bit10を底とする対数で計るときはハートレー（Hartley）もしくはディット（dit）またはデシット（decit） 1 Hartley≒3.322 bit

簡単な例題：サイコロを1回振ったときの出目を知ったときに得られる情報量は何ビットか答えよ．ただし，サイコロの各出目が得られる確率はすべて等しく1/6とする．

定義2.1

確率1/2で生じる

結果を知ったときの

情報量＝1 [bit]

平均情報量

𝑀𝑀個の互いに排反な事象𝑎𝑎1,𝑎𝑎2, ・・・,𝑎𝑎𝑀𝑀 が起こる確率を

𝑝𝑝1,𝑝𝑝2, ・・・,𝑝𝑝𝑀𝑀 とする（ただし，𝑝𝑝1 + 𝑝𝑝2 + ⋯+ 𝑝𝑝𝑀𝑀 = 1）．

このうち１つの事象が起こったことを知ったときに得る情報量は

－ log2 𝑝𝑝𝑖𝑖 であるから，これを平均した期待値 𝐼𝐼 は，

𝐼𝐼 = 𝑝𝑝1 − log2 𝑝𝑝1 + 𝑝𝑝2 − log2 𝑝𝑝2 + ⋯+ 𝑝𝑝𝑀𝑀 − log2 𝑝𝑝𝑀𝑀

= −�𝑖𝑖=1

𝑀𝑀

𝑝𝑝𝑖𝑖 log2 𝑝𝑝𝑖𝑖

となる．これを平均情報量（単位はビット）という．

7

定義2.2

エントロピー

確率変数𝑋𝑋 がとりうる値が𝑥𝑥1, 𝑥𝑥2, ・・・, 𝑥𝑥𝑀𝑀 とし，𝑋𝑋 がそれぞれの

値をとる確率が𝑝𝑝1,𝑝𝑝2, … ,𝑝𝑝𝑀𝑀（ただし，𝑝𝑝1 + 𝑝𝑝2 + ⋯+ 𝑝𝑝𝑀𝑀 = 1）

であるとき，確率変数 𝑋𝑋 のエントロピーを

𝐻𝐻 𝑋𝑋 = −∑𝑖𝑖=1𝑀𝑀 𝑝𝑝𝑖𝑖 log2 𝑝𝑝𝑖𝑖ビットと定義する．

8

定義2.3

例題2.1：偏りのないコインを2回投げて表の出た枚数を確率変数

𝑋𝑋 とする．このとき，𝑋𝑋 のエントロピー𝐻𝐻 𝑋𝑋 は何ビットか？

𝐻𝐻 𝑋𝑋 = −14

log214−

12

× log212−

14

log214

= 2 ×24

+12

= 1.5 (ビット)

𝑋𝑋 0 1 2確率

14

12

14

Try 練習問題2.1

エントロピーの性質

9

𝑀𝑀個の値をとる確率変数𝑋𝑋のエントロピー𝐻𝐻(𝑋𝑋)は次の性質を満たす．

(1) 0 ≤ 𝐻𝐻 𝑋𝑋 ≤ log2 𝑀𝑀(2) 𝐻𝐻(𝑋𝑋)が最小値0となるのは，ある値をとる確率

が1で，他の𝑀𝑀 − 1個の値をとる確率がすべて

0のときに限る．すなわち，𝑋𝑋のとる値が初めから

確定している場合のみである．

(3) 𝐻𝐻(𝑋𝑋)が最大値log2 𝑀𝑀となるのは，𝑀𝑀個の値が

すべて1/𝑀𝑀で等しい場合に限る．

定理2.1

エントロピー関数

二つの値1, 0 をそれぞれ 0.2, 0.8 の確率

でとる確率変数Xのエントロピー𝐻𝐻(𝑋𝑋)は，

𝐻𝐻 𝑋𝑋 = −∑𝑖𝑖=12 𝑝𝑝𝑖𝑖 log 𝑝𝑝𝑖𝑖= －0.2 log 0.2 − 0.8 log 0.8= ℋ 0.2≅ 0.7219

となる．10

エントロピー関数とは，0 ≤ 𝑥𝑥 ≤ 1 で定義される関数

ℋ 𝑥𝑥 = −𝑥𝑥 log2 𝑥𝑥 − 1 − 𝑥𝑥 log2 1 − 𝑥𝑥のことをいう．

定義2.4

0.2 0.4 0.6 0.8 1x

0.2

0.4

0.6

0.8

1y

エントロピー関数

0.7219

二つの情報を一度に聞いたときの情報量は？

11

はたして，𝐻𝐻( (𝑋𝑋,𝑌𝑌) ) = 𝐻𝐻(𝑋𝑋) + 𝐻𝐻(𝑌𝑌) だろうか？

解説好きのI君 K君

𝑋𝑋: 日経平均株価が下がって1万6000円を割ったそうだよ

𝑌𝑌: また円高で，1ドル105円ほどになったよ

へ，へぇ～～～

例 2.2

二つの確率変数𝑋𝑋, 𝑌𝑌を考える．𝑋𝑋は𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝑀𝑀𝑋𝑋の値をとり，

𝑌𝑌は𝑦𝑦1,𝑦𝑦2, … ,𝑦𝑦𝑀𝑀𝑌𝑌の値をとるものとする．確率変数の組(𝑋𝑋,𝑌𝑌)の値が(𝑥𝑥,𝑦𝑦) となる結合確率分布を𝑃𝑃(𝑥𝑥,𝑦𝑦) と書く

12

𝑃𝑃(𝑥𝑥,𝑦𝑦)𝑌𝑌

𝑃𝑃(𝑥𝑥)1万円以上 1万円未満

𝑋𝑋晴 0.5 0.1 0.6雨 0.2 0.2 0.4

𝑃𝑃(𝑦𝑦) 0.7 0.3

表2.1 ある日の天気𝑋𝑋とコンビニのアイスクリームの売上高𝑌𝑌の結合確率分布𝑃𝑃(𝑥𝑥, 𝑦𝑦)

組(𝑋𝑋,𝑌𝑌)をまとめて考えると，４つの値をとる確率変数 𝑍𝑍 の

エントロピー 𝐻𝐻 𝑍𝑍 として考えることができる

結合エントロピー

確率変数𝑋𝑋と𝑌𝑌の結合エントロピー𝐻𝐻(𝑋𝑋,𝑌𝑌)は，

𝐻𝐻 𝑋𝑋,𝑌𝑌 = −�𝑖𝑖=1

𝑀𝑀𝑋𝑋

�𝑗𝑗=1

𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log2 𝑃𝑃(𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗)

により定義される．これを結合エントロピーと呼ぶ．ただし，

{𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝑀𝑀𝑋𝑋}および{𝑦𝑦1,𝑦𝑦2, … ,𝑦𝑦𝑀𝑀𝑌𝑌} は，それぞれ𝑋𝑋と𝑌𝑌が

取りうる値の集合とする．

13

表2.1から，(𝑋𝑋,𝑌𝑌) の結合エントロピーは，𝐻𝐻 𝑋𝑋,𝑌𝑌 = −0.5 × log 0.5 − 0.1 × log 0.1

−0.2 × log 0.2 − 0.2 × log 0.2≒ 1.76 ビット .

定義2.5

Try 練習問題2.2

結合エントロピーの性質

14

確率変数𝑋𝑋と𝑌𝑌の結合エントロピー𝐻𝐻(𝑋𝑋,𝑌𝑌)に対し，

0 ≤ 𝐻𝐻 𝑋𝑋,𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋 + 𝐻𝐻(𝑌𝑌)

が成り立つ．また 𝐻𝐻 𝑋𝑋,𝑌𝑌 = 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 となるのは，

𝑋𝑋 と 𝑌𝑌 が独立のときのみである．

定理2.2

ちょっと休憩

15

関連情報を事前に知っていた時の情報量は？

16

へぇ！さすが王族！

関連する情報が既知だと，驚きは少なくなる

→ エントロピーは小さくなっているはず！

俺には12人の妹がいる！

あ，一夫多妻の国の王子様！こんにちは！

R様

例2.2 (p.17)

アイスクリームの売上高が「１万円以上」だったとき，実際の天気についての曖昧

さ（エントロピー）は，晴と雨の確率がそれぞれ5/7と2/7であるから，

𝐻𝐻 𝑋𝑋 １万円以上 = ℋ 5/7 ≒ 0. 8631 (bit).

同様に，売上高が「１万円未満」のときは，

𝐻𝐻 𝑋𝑋 １万円未満 = ℋ 1/3 ≒ 0.9183 (bit).

売上高が「１万円以上」「１万円未満」となる確率は，それぞれ0.7と0.3なので，

この割合でエントロピーを平均すると，

𝐻𝐻 𝑋𝑋 𝑌𝑌 ≒ 0.7 × 0.8631 + 0.3 × 0.9183

≒ 0.8797 (bit)となる．これは，𝑋𝑋のエントロピー

𝐻𝐻 𝑋𝑋 = ℋ 0.6 = 0.9710 (bit)

と比べて確かに小さい．

17

𝑃𝑃(𝑋𝑋 | 𝑌𝑌)𝑌𝑌

1万円以上 1万円未満

𝑋𝑋晴 5/7 1/3雨 2/7 2/3

表2.2 𝑌𝑌で条件付けた 𝑋𝑋の確率分布

条件付きエントロピー

18

確率変数𝑌𝑌で条件を付けた𝑋𝑋の条件付きエントロピー𝐻𝐻(𝑋𝑋|𝑌𝑌)は，

𝐻𝐻 𝑋𝑋|𝑌𝑌 = −�𝑗𝑗=1

𝑀𝑀𝑌𝑌

𝑃𝑃(𝑦𝑦𝑗𝑗)�𝑖𝑖=1

𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥𝑖𝑖| 𝑦𝑦𝑗𝑗 log2 𝑃𝑃(𝑥𝑥𝑖𝑖|𝑦𝑦𝑗𝑗)

により定義される．ただし，{𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝑀𝑀𝑋𝑋}および

{𝑦𝑦1,𝑦𝑦2, … ,𝑦𝑦𝑀𝑀𝑌𝑌} は，それぞれ𝑋𝑋と𝑌𝑌が取りうる値の集合とす

る．

定義2.6

Try 練習問題2.3

{𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝑀𝑀𝑋𝑋}および{𝑦𝑦1,𝑦𝑦2, … ,𝑦𝑦𝑀𝑀𝑌𝑌} をとりうる値の集合

とする確率変数𝑋𝑋および𝑌𝑌に関し，以下が成り立つ．

(1) 𝐻𝐻 𝑋𝑋 𝑌𝑌 = −∑𝑖𝑖=1𝑀𝑀𝑋𝑋 ∑𝑗𝑗=1

𝑀𝑀𝑌𝑌 𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log2 𝑃𝑃 𝑥𝑥𝑖𝑖 𝑦𝑦𝑗𝑗

(2) 𝐻𝐻(𝑋𝑋,𝑌𝑌) = 𝐻𝐻(𝑋𝑋) + 𝐻𝐻(𝑌𝑌|𝑋𝑋) = 𝐻𝐻(𝑌𝑌) + 𝐻𝐻(𝑋𝑋|𝑌𝑌)

(3) 0 ≤ 𝐻𝐻 𝑋𝑋 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋（𝐻𝐻 𝑋𝑋 𝑌𝑌 = 𝐻𝐻(𝑋𝑋)は𝑋𝑋と𝑌𝑌が独立の時のみ成立）

(4) 0 ≤ 𝐻𝐻 𝑌𝑌 𝑋𝑋 ≤ 𝐻𝐻 𝑌𝑌（𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐻𝐻(𝑌𝑌)は𝑋𝑋と𝑌𝑌が独立の時のみ成立）

定理2.3

別の情報を得ると，エントロピーは変化しないか減少する

結合エントロピーと条件付きエントロピーの関係

19

定理2.3(2)の証明

[証明] 結合エントロピーと条件付き確率の定義から，

𝐻𝐻 𝑋𝑋,𝑌𝑌 = −�𝑖𝑖=1

𝑀𝑀𝑋𝑋

�𝑗𝑗=1

𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log2 𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗

= −�𝑖𝑖=1

𝑀𝑀𝑋𝑋

�𝑗𝑗=1

𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log2𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 𝑃𝑃 𝑥𝑥𝑖𝑖

𝑃𝑃 𝑥𝑥𝑖𝑖

= −�𝑖𝑖=1

𝑀𝑀𝑋𝑋

�𝑗𝑗=1

𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log2 𝑃𝑃 𝑥𝑥𝑖𝑖 + log2 𝑃𝑃 𝑦𝑦𝑗𝑗 𝑥𝑥𝑖𝑖

= 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 𝑋𝑋

が成立する．

𝐻𝐻 𝑋𝑋,𝑌𝑌 = 𝐻𝐻 𝑌𝑌 + 𝐻𝐻 𝑋𝑋 𝑌𝑌 も同様にして証明できる． □20

ベイズの定理

相互情報量の定義 [定義2.7]

例2.2において，天気𝑋𝑋についての曖昧さは，

𝐻𝐻 𝑋𝑋 = −∑𝑖𝑖=1𝑛𝑛 𝑝𝑝 𝑥𝑥𝑖𝑖 log 𝑝𝑝 𝑥𝑥𝑖𝑖 ≒ 0.9710 (bit).

アイスクリームの売上高𝑌𝑌を聞いたとき，残っている曖昧さは，

𝐻𝐻 𝑋𝑋 𝑌𝑌 ≒ 0.8797 (bit).

したがって，売上高𝑌𝑌を聞くことで，天気𝑋𝑋について

𝐼𝐼 𝑋𝑋;𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌≒ 0.9710 − 0.8797 = 0.0913 (bit)

だけ，曖昧さが減少する．

言い換えると，売上高𝑌𝑌を聞くことで天気𝑋𝑋に関する情報量が，

（平均として）𝐼𝐼(𝑋𝑋;𝑌𝑌) ≒ 0.0913 (bit) 得られることを意味する．

この𝐼𝐼(𝑋𝑋;𝑌𝑌)を𝑋𝑋と𝑌𝑌の相互情報量（mutual information）と呼ぶ．21Try 練習問題2.4

相互情報量の性質(1) [定理2.4(1)]

相互情報量の定義

𝐼𝐼 𝑋𝑋;𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌と，先ほどの結合エントロピーと条件付きエントロピーの関係

𝐻𝐻 𝑋𝑋,𝑌𝑌 = 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐻𝐻 𝑌𝑌 + 𝐻𝐻 𝑋𝑋 𝑌𝑌から，

𝐼𝐼 𝑋𝑋;𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌= 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑋𝑋,𝑌𝑌= 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑌𝑌 𝑋𝑋= 𝐼𝐼 𝑌𝑌;𝑋𝑋

= ∑𝑖𝑖 ∑𝑗𝑗 𝑝𝑝 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log 𝑝𝑝 𝑥𝑥𝑖𝑖,𝑦𝑦𝑗𝑗𝑝𝑝 𝑥𝑥𝑖𝑖 𝑝𝑝 𝑦𝑦𝑗𝑗

が成り立つ．

22

𝑋𝑋と𝑌𝑌に関して対称

※ 𝐻𝐻 𝑋𝑋 𝑌𝑌 = −∑𝑗𝑗=1𝑚𝑚 𝑝𝑝 𝑦𝑦𝑖𝑖 ∑𝑖𝑖=1𝑛𝑛 𝑝𝑝 𝑥𝑥𝑖𝑖 𝑦𝑦𝑗𝑗 log𝑝𝑝 𝑥𝑥𝑖𝑖 𝑦𝑦𝑗𝑗 = −∑𝑖𝑖=1𝑛𝑛 ∑𝑗𝑗=1𝑚𝑚 𝑝𝑝 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log𝑝𝑝 𝑥𝑥𝑖𝑖 𝑦𝑦𝑗𝑗

相互情報量の性質(2) [定理2.4(2)]

相互情報量𝐼𝐼(𝑋𝑋;𝑌𝑌)は，𝑋𝑋 と 𝑌𝑌 に共通して含まれる情報の量を表すと解釈できる．𝐼𝐼(𝑋𝑋;𝑌𝑌)の範囲は，次式のとおりである．

0 ≤ 𝐼𝐼 𝑋𝑋;𝑌𝑌 ≤ min 𝐻𝐻 𝑋𝑋 ,𝐻𝐻 𝑌𝑌[証明]𝐼𝐼 𝑋𝑋;𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌 と，𝐻𝐻 𝑋𝑋 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋 の関係から，左側は明らか．右側の不等式についても，𝐼𝐼 𝑋𝑋;𝑌𝑌 =𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌 = 𝐻𝐻 𝑌𝑌 − 𝐻𝐻(𝑌𝑌|𝑋𝑋)の関係と，𝐻𝐻 𝑋𝑋 𝑌𝑌 ≥ 0,𝐻𝐻 𝑌𝑌 𝑋𝑋 ≥ 0 であることから導ける． 23

𝐻𝐻(𝑋𝑋) 𝐻𝐻(𝑌𝑌)

𝐻𝐻(𝑋𝑋,𝑌𝑌)

𝐼𝐼(𝑋𝑋;𝑌𝑌) 𝐻𝐻(𝑌𝑌|𝑋𝑋)𝐻𝐻(𝑋𝑋|𝑌𝑌)

相互情報量の計算例

前回のガンの検査の例について，ガンである確率変数を𝑋𝑋，検査の結果の

確率変数を𝑌𝑌として相互情報量を計算してみよう．

𝑃𝑃𝑌𝑌|𝑋𝑋 𝐴𝐴 𝐶𝐶 = 𝑃𝑃𝑌𝑌|𝑋𝑋 𝐴𝐴𝑐𝑐 𝐶𝐶𝑐𝑐 = 0.95,𝑃𝑃𝑋𝑋(𝐶𝐶) = 0.01 なので，

𝑃𝑃𝑌𝑌 𝐴𝐴 = 𝑃𝑃𝑌𝑌|𝑋𝑋 𝐴𝐴 𝐶𝐶 𝑃𝑃𝑋𝑋 𝐶𝐶 + 𝑃𝑃𝑌𝑌|𝑋𝑋 𝐴𝐴 𝐶𝐶𝑐𝑐 𝑃𝑃𝑋𝑋 𝐶𝐶𝑐𝑐

= 0.95 × 0.01 + 0.05 × 0.99= 0.0095 + 0.0495 = 0.059 .

∴ 𝐻𝐻 𝑌𝑌 = ℋ 0.059 ≒ 0.323 .

次に，𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐶𝐶 = ℋ 0.95 ≒ 0.286 ，

𝐻𝐻(𝑌𝑌|𝑋𝑋 = 𝐶𝐶𝑐𝑐) = ℋ(0.05) ≒ 0.286 なので，

𝐻𝐻 𝑌𝑌 𝑋𝑋 ≒ 0.01 × 0.286 + 0.99 × 0.286= 0.286 .

したがって，相互情報量𝐼𝐼(𝑋𝑋;𝑌𝑌)は，

𝐼𝐼 𝑋𝑋;𝑌𝑌 = 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑌𝑌 𝑋𝑋≒ 0.323 − 0.286= 0.037 bit . 24

𝑃𝑃(𝑋𝑋,𝑌𝑌)𝑋𝑋

𝐶𝐶 𝐶𝐶𝑐𝑐

𝑌𝑌𝐴𝐴 0.0095 0.0495𝐴𝐴𝑐𝑐 0.0005 0.9405

𝑃𝑃(𝑌𝑌|𝑋𝑋)𝑋𝑋

𝐶𝐶 𝐶𝐶𝑐𝑐

𝑌𝑌𝐴𝐴 0.95 0.05𝐴𝐴𝑐𝑐 0.05 0.95

ちなみに

𝐻𝐻(𝑋𝑋) ≒ 0.0808

今日のまとめ

2.1 情報量確率𝑝𝑝で起こる事象の自己情報量 𝐼𝐼 𝑝𝑝 ＝－ log𝑎𝑎 𝑝𝑝

2.2 エントロピー

確率変数𝑋𝑋の平均情報量𝐻𝐻 𝑋𝑋 = −∑𝑖𝑖=1𝑀𝑀 𝑝𝑝𝑖𝑖 log2 𝑝𝑝𝑖𝑖2.3 エントロピーの性質

0 ≤ 𝐻𝐻 𝑋𝑋 ≤ log2 𝑀𝑀

二つの確率変数に対するエントロピー

2.4 結合エントロピー 𝐻𝐻(𝑋𝑋,𝑌𝑌)2.5 条件付きエントロピー

𝐻𝐻 𝑋𝑋 𝑌𝑌 ,𝐻𝐻(𝑌𝑌|𝑋𝑋)2.6 相互情報量 𝐼𝐼(𝑋𝑋;𝑌𝑌)

次回情報源のモデルについて

25

𝐻𝐻(𝑋𝑋) 𝐻𝐻(𝑌𝑌)

𝐻𝐻(𝑋𝑋,𝑌𝑌)

𝐼𝐼(𝑋𝑋;𝑌𝑌) 𝐻𝐻(𝑌𝑌|𝑋𝑋)𝐻𝐻(𝑋𝑋|𝑌𝑌)

補助定理A.1[シャノンの補助定理]

26

補助定理A.1𝑝𝑝1,𝑝𝑝2, ・・・,𝑝𝑝𝑀𝑀 および 𝑞𝑞1,𝑞𝑞2, ・・・, 𝑞𝑞𝑀𝑀 を

𝑝𝑝1 + 𝑝𝑝2 + ・・・ + 𝑝𝑝𝑀𝑀 = 1,𝑞𝑞1 + 𝑞𝑞2 + ・・・ + 𝑞𝑞𝑀𝑀 ≤ 1

を満たす任意の非負の数とする（ただし，𝑝𝑝𝑖𝑖 ≠ 0 のときは 𝑞𝑞𝑖𝑖 ≠ 0とする）．このとき，

−∑𝑖𝑖=1𝑀𝑀 𝑝𝑝𝑖𝑖 log2 𝑞𝑞𝑖𝑖 ≥ −∑𝑖𝑖=1𝑀𝑀 𝑝𝑝𝑖𝑖 log2 𝑝𝑝𝑖𝑖 (A.3)が成立する．等号は 𝑞𝑞𝑖𝑖 = 𝑝𝑝𝑖𝑖 ( 𝑖𝑖 = 1, 2, ・・・,𝑀𝑀)のとき，またその

ときに限って成立する．

つまり，確率分布𝑃𝑃 = 𝑝𝑝𝑖𝑖 𝑖𝑖=1𝑀𝑀 とちょっと違う分布 𝑞𝑞𝑖𝑖 （ただし総和が

1以下）を持ってきて，log2 の内側の 𝑝𝑝𝑖𝑖 と置き換えると，元よりも少し大きくなる．

証明は教科書を参照

定理2.1の証明

𝑋𝑋のエントロピー𝐻𝐻(𝑋𝑋)は𝐻𝐻 𝑋𝑋 ＝－∑𝑖𝑖=1𝑀𝑀 𝑝𝑝𝑖𝑖 log2 𝑝𝑝𝑖𝑖 .

0 ≤ 𝑝𝑝𝑖𝑖 ≤ 1 なので，明らかに 0 ≤ 𝐻𝐻 𝑆𝑆 であり，𝐻𝐻 𝑆𝑆 = 0 が成立

するのは，𝑝𝑝1,𝑝𝑝2, ・・・,𝑝𝑝𝑘𝑘 のうち

一つが 1 で他が 0 の場合である．

補助定理A.1（シャノンの補助定理）を𝑞𝑞𝑖𝑖 = 1/𝑀𝑀として適用すると，

𝐻𝐻 𝑋𝑋 ＝－∑𝑖𝑖=1𝑀𝑀 𝑝𝑝𝑖𝑖 log2 𝑝𝑝𝑖𝑖≤ －∑𝑖𝑖=1𝑀𝑀 𝑝𝑝𝑖𝑖 log2

1𝑀𝑀

＝ log2 𝑀𝑀 .

等号が成立するのは 𝑝𝑝𝑖𝑖＝𝑞𝑞𝑖𝑖 = 1/𝑀𝑀 のときのみである． □

27

補助定理A.1より

∑𝑖𝑖=1𝑀𝑀 𝑝𝑝𝑖𝑖 = 1 だから

−log2 𝑝𝑝𝑖𝑖 ≥ 0 だから

定理2.2の証明

[証明] 結合エントロピーの定義より0 ≤ 𝐻𝐻 𝑋𝑋,𝑌𝑌 は明らかである．

よって，𝐻𝐻 𝑋𝑋,𝑌𝑌 ≤ 𝐻𝐻(𝑋𝑋) + 𝐻𝐻(𝑌𝑌)を証明する．

𝐻𝐻 𝑋𝑋 = −�𝑖𝑖=1

𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥𝑖𝑖 log2 𝑃𝑃 𝑥𝑥𝑖𝑖 = −�𝑖𝑖=1

𝑀𝑀𝑋𝑋

�𝑗𝑗=1

𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log2 𝑃𝑃 𝑥𝑥𝑖𝑖 ,

𝐻𝐻 𝑌𝑌 = −�𝑗𝑗=1

𝑀𝑀𝑌𝑌

𝑃𝑃 𝑦𝑦𝑗𝑗 log2 𝑃𝑃 𝑦𝑦𝑗𝑗 = −�𝑗𝑗=1

𝑀𝑀𝑌𝑌

�𝑖𝑖=1

𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log2 𝑃𝑃 𝑦𝑦𝑗𝑗 .

したがって，

𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 = −�𝑗𝑗=1

𝑀𝑀𝑌𝑌

�𝑖𝑖=1

𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log2 𝑃𝑃 𝑥𝑥𝑖𝑖 𝑃𝑃 𝑦𝑦𝑗𝑗

28

定理2.2の証明(つづき）

A.1節の補助定理A.1（シャノンの補助定理）を適用すると，

−�𝑗𝑗=1

𝑀𝑀𝑌𝑌

�𝑖𝑖=1

𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log2 𝑃𝑃 𝑥𝑥𝑖𝑖 𝑃𝑃 𝑦𝑦𝑗𝑗

≥ −�𝑗𝑗=1

𝑀𝑀𝑌𝑌

�𝑖𝑖=1

𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 log2 𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗

が成り立つ．すなわち， 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 ≥ 𝐻𝐻 𝑋𝑋,𝑌𝑌 となる．

等号が成り立つのは，シャノンの補助定理の統合条件より，すべ

ての𝑖𝑖, 𝑗𝑗に対して𝑃𝑃 𝑥𝑥𝑖𝑖 ,𝑦𝑦𝑗𝑗 = 𝑃𝑃 𝑥𝑥𝑖𝑖 𝑃𝑃(𝑦𝑦𝑗𝑗)が成立する場合である．

これは，𝑋𝑋 と 𝑌𝑌 が独立であるときに他ならない． □

29

自己情報量が対数関数である理由(1/3)

まず，コーシー（Cauchy）の関数方程式

𝑓𝑓 𝑥𝑥 + 𝑦𝑦 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓(𝑦𝑦)を満たす連続関数が 𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥 （𝑎𝑎は定数）であることを示す．

𝑥𝑥 = 𝑦𝑦 = 0 を代入すると，𝑓𝑓 0 = 𝑓𝑓 0 + 𝑓𝑓 0 より，𝑓𝑓 0 = 0．

次に，𝑦𝑦 = −𝑥𝑥 を代入すると，

𝑓𝑓 𝑥𝑥 − 𝑥𝑥 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓 −𝑥𝑥 ,0 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓 −𝑥𝑥 .

より，𝑓𝑓 −𝑥𝑥 = −𝑓𝑓(𝑥𝑥) が成り立つ（つまり，𝑓𝑓 𝑥𝑥 は奇関数）．

𝑛𝑛が自然数のとき，

𝑓𝑓 𝑛𝑛 = 𝑓𝑓 1 + 𝑛𝑛 − 1 = 𝑓𝑓 1 + 𝑓𝑓 𝑛𝑛 − 1= 𝑓𝑓 1 + 𝑓𝑓 1 + 𝑓𝑓 𝑛𝑛 − 2 = ⋯ = 𝑛𝑛𝑓𝑓 1 .

𝑓𝑓 𝑥𝑥 が奇関数であることから，𝑓𝑓 −𝑛𝑛 = −𝑛𝑛𝑓𝑓(1)も成り立つ．すな

わち，任意の整数について𝑓𝑓 𝑛𝑛 = 𝑛𝑛𝑓𝑓(1)が成り立つ．30


同様の考えにより，任意の実数 𝑥𝑥 と自然数𝑚𝑚に対して，

𝑓𝑓 𝑚𝑚𝑥𝑥 = 𝑚𝑚𝑓𝑓 𝑥𝑥 が成り立つ．𝑚𝑚が自然数，𝑛𝑛が整数のとき，

𝑓𝑓 𝑛𝑛 = 𝑓𝑓𝑛𝑛𝑚𝑚

× 𝑚𝑚 = 𝑚𝑚𝑓𝑓𝑛𝑛𝑚𝑚

より，

𝑓𝑓𝑛𝑛𝑚𝑚

=𝑓𝑓 𝑛𝑛𝑚𝑚

=𝑛𝑛𝑚𝑚𝑓𝑓 1 .

したがって，任意の有理数 𝑥𝑥 に対して，次が成り立つ．

𝑓𝑓 𝑥𝑥 = 𝑥𝑥𝑓𝑓 1 .𝑓𝑓 1 は定数なので，これを 𝑎𝑎 と置くと，𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥 と書ける．

有理数の稠密性から，連続関数に限定するとコーシーの関数方

程式を満たす解は 𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥 のみであることが言える．

31どんなに微小な区間をとっても，その間に有理数が存在する


コーシーの関数方程式の解を応用して，自己情報量の三つの性質

を満たす関数 𝐼𝐼(𝑝𝑝) が対数関数で表されることを示す．

ある実数 𝑎𝑎 > 1 をとり，𝑔𝑔 𝑥𝑥 = 𝐼𝐼(𝑎𝑎𝑥𝑥) とおく．このとき，

𝑔𝑔 𝑥𝑥 + 𝑦𝑦 = 𝐼𝐼 𝑎𝑎𝑥𝑥+𝑦𝑦 = 𝐼𝐼 𝑎𝑎𝑥𝑥 ⋅ 𝑎𝑎𝑦𝑦 = 𝐼𝐼 𝑎𝑎𝑥𝑥 + 𝐼𝐼 𝑎𝑎𝑦𝑦

= 𝑔𝑔 𝑥𝑥 + 𝑔𝑔(𝑦𝑦)が成り立つ．コーシーの関数方程式の解から，

𝑔𝑔 𝑥𝑥 = 𝑏𝑏𝑥𝑥と書ける（𝑏𝑏は定数）．すなわち，𝑝𝑝 = 𝑎𝑎𝑥𝑥 とおくと，

𝐼𝐼 𝑝𝑝 = 𝑔𝑔 log𝑎𝑎 𝑝𝑝 = 𝑏𝑏 log𝑎𝑎 𝑝𝑝．

𝐼𝐼 𝑝𝑝 は 0 ≤ 𝑝𝑝 < 1 で単調減少関数なので，𝑎𝑎 > 1 のとき 𝑏𝑏 < 0 で

なければならない．𝑏𝑏 = −1 とおけば，𝐼𝐼 𝑝𝑝 = − log𝑎𝑎 𝑝𝑝となる．

32

𝐼𝐼(𝑝𝑝)の加法性から

講義「情報理論」 - 北海道大学kida/lecture/it_3.pdf講義「情報理論」...

Documents