この講義について
DESCRIPTION
この講義について. 担当: 楫 勇一(かじ ゆういち) , ソフトウェア 基礎 学 研究室 2年前まで は,全15回の専門科目として実施 ベーシック な部分を抜き出し,全8回の基礎科目として再構成 基本的に,情報系以外の学部を卒業した学生向け. 情報を正確に,効率よく伝えるための理論と技術を学ぶ. 本講義スライド http ://isw3.naist.jp /~kaji/lecture/. about this class. T his class is given in Japanese. English slides are available at - PowerPoint PPT PresentationTRANSCRIPT
この講義について
担当: 楫 勇一(かじ ゆういち),ソフトウェア基礎学研究室
3年前まで,全15回の専門科目として実施ベーシックな部分を抜き出し,全8回の基礎科目として再構成基本的に,情報系以外の学部を卒業した学生向け少し専門的な内容は, III 期の「符号理論」にて
1
情報を正確に,効率よく伝えるための理論と技術を学ぶ本講義スライドhttp://isw3.naist.jp/~kaji/lecture/
about this class
This class is given in Japanese.
English slides are available athttp://isw3.naist.jp/~kaji/lecture/12/
but the slides are based on an previous version of this course;
15-classesmore extensive
Use them with your own risk.Feel free to visit me @ A615.
2
情報理論
1948 年の C. E. Shannon の論文からスタート情報通信の数学的側面に着目今日のデジタル技術に多大な影響
有線・無線の通信・放送技術CD/DVD/HDD 等のデータ記録技術データ圧縮暗号,言語学,バイオ情報学,ゲーム理論, ...
本講義では,情報理論の基礎的な知見について学ぶ
Claude E. Shannon1916-2001
3
講義の構成
最初の能書き + 3つの章 :能書き:講義内容全体の予告編
chapter 1: 情報を測るchapter 2: 情報をコンパクトに表現するchapter 3: エラーから情報を守る
4
シャノン当時の時代背景を知る
1940 年代の通信技術 ...電信が広い用途で一般的に使われていたモールス符号: 「トン ( )∙ 」と「ツー ( − ) 」の記号の組み合わせ
5
ある意味で,「デジタル通信」が既に用いられていた
1010100011100010111000101110100011100000001110100011101110111000101110111
トン = 1 単位時間 , ツー = 3 単位時間記号と記号の間は, 1 単位時間の空白英文字間は 3 単位,英単語間は 8 単位時間の空白
情報処理の自動化・機械化
通信の一部を自動化する「装置」が出現
6
機械 ... 人間より高速で,ミスを犯さない(と思われていた)
当時の興味の方向性:限られた資源(時間,通信路)の中で ...
【効率の問題】 どれだけ多くの情報を伝えることができるか【信頼性の問題】 どれだけ正確に情報を伝えることができるか
Teletype model 14-KTR, 1940http://www.baudot.net/teletype/M14.htm
Enigma machinehttp://enigma.wikispaces.com/
通信のモデル
通信は,下記のようにモデル化できる
7
C.E. Shannon, A Mathematical Theory of Communication,The Bell System Technical Journal, 27, pp. 379–423, 623–656, 1948.
情報源
通報
送信機(符号化器) 受信機
(復号器)受領者
伝送路
雑音源
通信 = 広い意味での情報の伝達
効率的であるとは
通信を効率化する = B のサイズを小さくするただし A = D (または A ≈ D ) の必要あり通信路に雑音あり (B ≠ C ), 雑音なし (B = C) の2つのケース
8
A B C D
問題その1:効率性
例:天気を毎日記録したい(情報源 =天気)通報 = { 晴 , 曇 , 雨 }記録には “ 0” と “ 1” だけが使用可能(空白等の使用は NG )
9
天気晴曇雨
符号語000110
1 日当たり 2 ビットの記号を送信することになる送信すべきビット数を減らすことができれば,より効率的
0100011000
良い符号はあるか?
符号 B のほうが,よりコンパクトに情報を表現できる符号語の長さが違っているが,正しく復号できるか ?
先頭から処理すれば問題ナシ
符号 B よりも良い符号はあるか ?Yes でもあり, No でもある (→ 次ページ )
10
天気晴曇雨
符号 A000110
符号 B00011 符号 A...0100011000
符号 B...010001100
「平均」で考える
天気の発生確率は,一般には均等でない ...
11
一日あたりの記録に必要なビット数は符号 A : 2.0 bit符号 B : 20.5 + 20.3 + 10.2 = 1.8 bit符号 C : 10.5 + 20.3 + 20.2 = 1.5 bit
... 「工夫次第で,効率的な符号を作ることができる」
天気晴曇雨
確率0.50.30.2
符号 A000110
符号 B00011
符号 C1
0100
最良の符号
たとえば,一日あたり,平均 0.0000000001 bit で表現できる?... 無理っぽい
「どこかに限界がある」ことは,直感的にわかるシャノン:「どこに限界があるのかを数学的に解明したい」
→ この確率分布では,一日あたり 1.485 ビットが絶対に必要
12
天気晴曇雨
確率0.50.30.2
天気の情報そのものの「量」
「情報を格納する容器(符号語)のサイズは, 格納される情報の量よりも小さくできない」
本講義の前半部分について
能書き:講義内容全体の予告編
chapter 1: 情報を測る情報を定量的に測るための技術に
ついて学ぶchapter 2: 情報をコンパクトに表現する
情報をコンパクトに表現するための技術と限界について学ぶ
chapter 3: エラーから情報を守る
13
信頼性の高さとは
通信の信頼性を上げる = 「 A = D (または A ≈ D )」を保証する
雑音の影響により, B ≠ C となるおそれがあるB のサイズをあまり大きくせず, A = D となる確率を上げたい
14
A B C D
問題その2:信頼性
伝送路は,必ずしも信頼できるものではない送信情報 ≠ 受信情報
15
伝送路上での誤りを根絶することは難しい
日常会話では ... 「符丁」の利用により問題回避
ABCABC ABCADC
ABC Alpha, Bravo, Charlie
ABCAlpha, Bravo, Charlieあさひの「あ」いろはの「い」
符丁とは
符丁では,冗長な記号を故意に付加する冗長記号により,誤りを訂正可能とする
→これと同種の機構を, 0-1 データ上で実現したい
16
Alpha送りたい通報 誤り対策のため,やむを得ず
付加する冗長な記号必要のない余分な冗長=
冗長性について
Q. どうやって 0-1 データに冗長性を付加するか?A. パリティビットを使えばよい
パリティビットとは ...データ中の 1 の個数を偶数にするための「追加ビット」
00101 → 001010 ( 2個の 1 → 2個の 1)11010 → 110101 ( 3個の 1 → 4個の 1)
パリティビットを一個使うと,奇数個のビット誤りを検出可能
17
誤りを訂正するには?
パリティビットを複数使うと,誤りを訂正できる(場合もある)
例 : 4ビットデータ (a0, a1, a2, a3) に対し,パリティビットを5個付加
18
a0
a2
a1
a3
p0
p1
q0 q1 r符号語 =(a0, a1, a2, a3, p0, p1, q0, q1, r)
誤り訂正の例
1011 を送信する ...
19
1ビット誤りを訂正可能(だが,あまりにも安直)
符号語 = 1 0 1 1 1 0 0 1 1
100110011 が受信された ...
1
1
0
1
1
0
0 1 1
○
×
○× ○ ○
1
0
0
1
1
0
0 1 1
3 ビット目が怪しい ...「送信されたのは 101110011 だろう」
本講義の後半部分について
能書き:講義内容全体の予告編chapter 1: 情報を測るchapter 2: 情報をコンパクトに表現する
chapter 3: エラーから情報を守る誤りを発見し,訂正するための技術に
ついて学ぶ
20
授業日程
火曜1限( 9:20~ 10:50 )4/7, 14, 21, 28, 5/12, 19, 26, 6/25/26 は休講(補講日程調整中)
中間レポート ... 4月末前後試験 ... 6月 2 日(最終回の講義)
講義資料(本スライド)http://isw3.naist.jp/~kaji/lecture/http://isw3.naist.jp/~kaji/lecture/12/ (old version in English)
21
×
chapter 1:情報を測る
22
測るべき「情報」
情報とは,何かを伝えるもの.ただし ...まったく興味のないことを教わっても,「情報」とは思わないわかりきったことを教わっても,「情報」とは思わない
情報とは ...不確実性を持つ興味対象について,その不確実さを減らすもの
23
不確実さが大きい
Before After
不確実さが小さい
興味対象を,どのように表現するか
興味対象は様々明日の天気,野球の試合結果,テストに出る問題,
友人の予定,夕食のおかず ...
現実の細部はバッサリと切り落とし,確率・統計の世界で考える
興味対象は,確率変数の値どれくらいの確率で,どの値を取るかはわかっている実際に発生する(発生した)値は,いまのところ不明
「サイコロの目」が典型例 24
復習:確率変数とは
確率変数 : 中身を覗けない「箱」のようなもの箱の中には, のどれか一個が入っている何が入っているかは,箱を開けてみないとわからない
... 確率変数の実現値と呼ぶ実現値の集合 ... と書く
である確率が のとき と書く
25
復習:確率変数の例
「サイコロの目を,確率変数で表す」の値は のどれか,全部同じ確率
「今夜のメニューを確率変数で表す」
, , ...
26
情報の伝達と確率変数
確率変数 の値を知りたいの実現値の集合や,確率分布は既知実際に が取った値は不明
の値について,なんらかの情報を得る
の確率分布が変化する正確で完全な情報
⇒ の値が一意に定まる不正確,不完全な情報
⇒ 多少の不確実さが残る
27
X
X
情報伝達の例
はサイコロの目を表す確率変数,
28
1 2 3 4 5 6
1/6
1 2 3 4 5 6
1/4
1 2 3 4 5 6
1
① 「は 4だ」
② 「は 3 の倍数ではない」
不確実さ:大
不確実さ:小不確実さ: 0
情報の「量」と不確実さ
① 「は 4 だ」② 「は 3 の倍数ではない」
直感的には ... ①のほうが②よりも大きな「情報量」を持つ,よう
に思われる① ... 不確実さを大きく削減② ... 不確実さを少しだけ削減
「情報量 = 不確実さの削減量」として定義するのが自然
29
1 2 3 4 5 6
1
1 2 3 4 5 6
1/4① ②
befo
re
after 情報量
この後のシナリオ
最終目標:「情報」の量を測る定量的指標を導入するstep 1: 確率変数の「エントロピー」を定義
エントロピー大 不確実さ大
step 2: 一つのニュースが持つ情報量を定義情報量 = (BEFORE エントロピー ) – (AFTER エントロピー )
step 3: 確率変数の間の相互情報量を定義ある確率変数の値が,他の確率変数について何を語るか
30
𝑋 𝑌
今日次回
𝐻1(𝑋 )=∑𝑖=1
𝑀
−𝑝𝑖 log2𝑝𝑖= ∑𝑣∈𝐷 (𝑋 )
−𝑃 𝑋 (𝑣 ) log2 𝑃 𝑋(𝑣)(bit )
エントロピーの定義
確率変数 ... 以下の値と確率分布を持つ
31
の(一次)エントロピー
...
...値確率
(値は,あまり重要でない)(確率値が重要)
の平均(期待値)と考えることもできる を,値の自己エントロピーと呼ぶ場合も
(ただし,とする)
自己エントロピーの直感的意味付け
自己エントロピー ... 確率の出来事が起こったと 知ったときの「驚き」の量
に対して単調減少... 滅多にないことが起こる(が小さい)と,驚きが大きい
で連続... 同程度の確率であれば,驚きも同程度ならば,... 驚きの「加法性」に対応している(次ページ)
32
驚きの加法性
トランプのカードを一枚引く= 「ダイヤの5だった」 ... 1/52 の確率
= 「ダイヤだった」 ... 1/4 の確率= 「5だった」 ... 1/13 の確率
33
を知ったときの驚き を知り,その後にを知ったときの驚き=
− log2152
− log214
−log 2113=
自己エントロピーは,我々の直感的な理解と良く対応している
エントロピーの定義(再)
の(一次)エントロピー
確率で重み付けした,自己エントロピーの平均値確率変数の値が与える「驚き」の平均値 = 不確実さ
34
− log2𝑝 −𝑝 log 2𝑝
エントロピー計算の例(1)
コインを投げて出た面を確率変数で表すの取りうる値は「表」か「裏」の2種類
== bit
35
1bit の情報は,2進数1桁で表現できる ⇒ Chapter 2
エントロピー計算の例(2)
2枚の異なるコインを投げる
4
== bit
36
コイン1枚のときの2倍のエントロピー ... 不確実さが「2倍」
エントロピー計算の例(3)
サイコロ投げの取りうる値は 1, 2, 3, 4, 5, 6
== bit
37
コイン投げのときと同じ尺度で比較ができる
エントロピー計算の例(4)
公正でないサイコロの取りうる値は 1, 2, 3, 4, 5, 6
== bit
38
コインを1枚投げるときより,不確実さが小さい
唯一尺度としてのエントロピー
39
𝐻1 (𝑋 )=1 𝐻1 (𝑋 )=2 𝐻1 (𝑋 )=2.585 𝐻1 (𝑋 )=0.701
様々な現象に対し,エントロピーを計算できる違ったタイプの現象の「比較」ができる
エントロピーが何を意味するのか ... これから議論
本日のまとめ
講義概要エントロピーの定義
復習問題(レポートではありません)講義 webページにあるデータを使い,エントロピーを計算せよ
http://isw3.naist.jp/~kaji/lecture/ 英語の文字出現頻度株価の騰落データ
40