情報科学 d1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 =...

29
情報科学 D1 7 浜口清治 島根大学 総合理工学研究科 情報システム学領域 7-1

Upload: others

Post on 26-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

情報科学 D1

第 7 回

浜口清治島根大学 総合理工学研究科情報システム学領域

7-1

Page 2: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

今回の内容

• 文字コード• 画像と音の表現• 誤り検出• 情報の表現

7-2

Page 3: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

1.3.3 文字と画像の表現(1) 文字の表現コンピュータの内部では,文字や記号は「2進数」で表現さ

れる.表現の仕方にいくつかある.ASCII コード (アスキーと読む)

• 英文字,数字,いくつかの記号を表す.• 全部で7ビットで表現している.コンピュータ内では 8

ビットが基本単位のため一番上の桁には 0 を詰める.• 扱う文字は1バイト文字と呼ばれる.

例: A は 4116 なので,8ビット表記では 010000012

7-3

Page 4: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

7-4

Page 5: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

JIS コード

• 国際的には,ISO-2022-JP と呼ばれる.• JIS(Japan Industrial Standard, 日本工業規格)で定められたコード.16ビットで漢字を含めて表現.

• ASCIIコードと JISコードの切り換え点には「制御文字(またはエスケープシークエンス)」を入れて区別する.

• メールなどでの事実上の標準コード.• 扱う文字は2バイト文字と呼ばれる.

7-5

Page 6: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

Shift-JIS コード

• JISコードでの漢字に対するコード割当を変えて,1バイト目をみれば 1バイトの文字か,2バイトの文字か分かるように改変したコード.

• パソコン内で広く用いられているが,特殊文字などについては,マイクロソフト版 Shift-JIS とアップル版 Shift-

JIS でコードの割当が異なり,変換すると文字化けが起こる.

7-6

Page 7: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

EUC-コードOS の一種 UNIX で使われているコード.1バイト文字も

2バイト文字も混在して使える.日本語は,EUC-JP と呼ばれる.

Unicode

• 全ての文字を包含するために作られた国際標準コード.• 中国語,日本語の漢字などで対応するものは1つにまとめられている.

• Unix, Windows, Mac OS X などで利用されるようになってきている.

7-7

Page 8: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

(2) 音の表現

• 標本化,量子化を経て,ディジタルデータで表現する.

• CD の場合,44.1kHz の標本化周波数でディジタルデータに変換.各点 2バイトで表現.1秒間で 88.2kバイト.

• 実際にはデータ圧縮を行って,データ量を小さくする必要がある.

7-8

Page 9: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

(3) 画像の表現画像は多数の 画素 (ピクセル) の集まりとして表現される.

1つの画素は,座標 (例:(0,0)や (10,25)など) と1つの色データで表現される.

7-9

Page 10: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

色の表現赤,緑,青 (光の3原色)を強さを変えて混ぜて作る.

7-10

Page 11: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

色の表現

7-11

Page 12: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

画素位置のデータ

• 座標 で表現する.

色のデータ

• 通常,濃淡を 1バイト (256階調分)で区別.赤,緑,青にそれぞれ 1バイトずつ割り当てて,全部で3バイトで,1677万色を表現する.(RGB方式)

• 1バイトで,0~255 を表現できる.

他に 32ビットカラー,48ビットカラーなどもある.

7-12

Page 13: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

画像表現のデータ量

• 1024ドット× 768ドットの画面1枚は,2.3Mバイト.1秒 30画面で動画を作ると,1秒分で 70.8Mバイト.

• 実際には データ圧縮 を行って,データ量を小さくする必要がある.

7-13

Page 14: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

データ圧縮とは

• より少ないデータ量で,同じ内容を保持すること.• 例:200,201,208,198,194 を 200, +1, +7,-10,-4 として記憶する.

• 可逆圧縮 (完全に元に戻せる)と 非可逆圧縮 (完全には元に戻せない)がある.

7-14

Page 15: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

(4)(5) 画像/動画の圧縮いくつかの方式

MPEG (エムペグと読む)

Moving Picture coding Experts Group の略.

• MPEG1:VHS ビデオなみの画質の圧縮.CD 用のMP3の規格を含む

• MPEG2:HDTV や DVDビデオなみの画質の圧縮に用いられる.

• MPEG4:より圧縮率の高い規格.低速データ回線用.

7-15

Page 16: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

JPEG (ジェーペグと読む)

• 静止画像の圧縮規格.1/10 ~ 1/100 に圧縮する.• 圧縮して元に戻すとデータが落ちる (非可逆である,という)

GIF (ジフ)

• 256色までで画像を作成する規格.データ量が少ない.• ウェブページで良く用いられる.• 圧縮した画像を元の状態に戻せる (可逆である,という).• ユニシス社がライセンスを持っていたが,2004年期限切れとなり,再び使われるようになってきた.

7-16

Page 17: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

PNG(ピングと読む)

GIF の代わりに,ウェブページに用いられた.今も使われている.可逆性を持つ.TIFF

スキャナ用に定められた.解像度,色数,符号化方式が異なる各種画像もまとめられる.ビットマップBMP と省略される.圧縮をほとんど用いない形式.Win-

dows での標準画像形式.

7-17

Page 18: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

1.3.4 誤り検出

• ノイズのため,データの読み取り,伝送などに誤りが発生することがある.

• アイデア:データを冗長化する (付加情報をつける)ことで,誤りを検出 (または訂正) できるようにする

7-18

Page 19: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

パリティチェック方式データに 「パリティビット」 を付加する誤り検出.

• 偶数パリティと奇数パリティがある.以下,偶数パリティを説明.

• 単位 (7ビットまたは 8ビット)あたりで,データに含まれている 1 の数が奇数のときは,パリティビットとして1を加えて,偶数のときは 0を加える.

• 1 の個数を偶数にする.• 受け取ったり読み出したりしたデータの1の個数が奇数なら誤りがあったことになる (一般にはもう一度やり直す)

7-19

Page 20: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

!! "! !! !! "! !! !! !! "!

!! !! "! "! !! !! !! "! !!

"#$%&'(!

)*"#$%+,-!

7-20

Page 21: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

※ さらに 2 次元パリティ方式では 垂直ビットパリティ と水平ビットパリティ がある.

!! "! !! !! "! !! !! !! "!

!! !! "! "! !! !! !! "! !!

"! !! !! !! "! !! "! !! !!

!! !! "! "! !! "! !! "! "!

!! !! "! "! "! !! !! "! "!

!!"!

#$%&'()#

%&'(*+,!

-.%&'()#

%&'(*+,!

7-21

Page 22: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

CRC チェック方式巡回冗長検査方式.

• データを多項式と見なして,生成多項式とよばれる多項式で割り,その余りをデータに付加して送る方式.付加するデータを CRCチェックビットという.

• データ受信時には,同じ多項式で割り算して,割り切れれば誤りがなかったことになる.

• 誤り検出精度は高い

7-22

Page 23: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

1.3.5 情報の表現情報の量的側面を考える

• ある事象が起こったときに,知ることのできる情報の量を定義したい.

!!

"#$%&'())*+! "#$(,-.+!

• 確率が小さい事象ほど,その情報量は大きくしよう.7-23

Page 24: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

情報の量的側面

「双子の男の子が生まれた」という事象の情報量=

「双子が生まれた」という事象の情報量+

「男の子が生まれた」という事象の情報量

• 2つの事象の積事象の情報量は足し算で表したい.

7-24

Page 25: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

シャノンの情報理論での「情報量」の定義

• P:確率情報量 I = − log2 P (ビット)

例 1:コインを投げた場合,表がでる確率は 1/2.表がでたことがわかった場合の情報量は,− log2 1/2 = 1 ビット.例 2:さいころの場合.1の目がでる確率は 1/6.1の目がでたことがわかった場合の情報量は,− log2 1/6 = 2.58 ビット.

※ 確率が小さいほど,情報量は大きくなる.

7-25

Page 26: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

情報量の計算:積事象

• トランプでハートであることが分かった場合の情報量は− log2 1/4 = 2 ビット.

• 数字が 5 であることが分かった場合の情報量は− log2 1/13 = 3.70 ビット.

• ハートの 5 であることが分かった場合の情報量は− log2 1/13× 1/4 = − log2 1/52 = 5.70 ビット.

積事象「ハートである」×「5である」の情報量は− log2 1/13× 1/4 = − log2 1/13− log2 1/4 = 2 + 3.70

なので,2つの情報量  2ビットと 3.70ビットを足し合わせれば,計算できることがわかる.

7-26

Page 27: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

(2) 平均情報量 と エントロピーn個の事象が起こる確率が,それぞれ P1, P2, . . . , Pn (となっ

ている確率分布がある)とする.平均情報量 (= 得られる情報量の期待値) H

H = −∑n

i=1 Pi log2 Pi

※ H は エントロピー とも呼ばれる.※ 熱力学のエントロピー (無秩序さの度合いを表す量)とは概念的に反対とみなせるので,情報科学で扱う平均情報量は,「ネゲントロピー」と呼ばれることもある.

7-27

Page 28: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

平均情報量 の計算例 1. コインを投げたとき,表がでる確率 1/2, 裏がでる確率を1/2 とすると,平均情報量は,−0.5 log2 0.5− 0.5 log2 0.5 = 1.例 2. コインを投げたとき,表がでる確率 1/10, 裏がでる確率を 9/10 とすると,平均情報量は,−0.1 log2 0.1−0.9 log2 0.9 =

0.469.

※ どちらが起こるか半々の状況の方が,平均情報量は大きい.

7-28

Page 29: 情報科学 D1 - shimane-u.ac.jphama/info_sci_local/kougi7.pdf · 2016. 8. 1. · log2 1=13 1=4 = log2 1=52 = 5:70 ビット. 積事象「ハートである」×「5である」の情報量は

演習問題次の文章の空欄を適当な言葉で埋めよ.同じ言葉を 2 回以上用いてもよい.

メモリや DVD に貯えられているデータを読み出す際,ノイズや媒体の物理的破損などによってデータの一部が失われることがある.これを検出することを 1 と言い,対応策の基本はデータを 2 することである.最も簡単な方式は 3 方式と呼ばれ,まとまったデータに 1 ビット情報を付加することによって行われる.全部で 1 の数を偶数にする 4 方式では,元のデータが 1101 であれば,1 ビット(最後に) 付加すると 5 となる.このデータを読み出したり,受け取ったとき,1の数が 6 (⇐ 偶数か奇数) であれば,誤りが検出されたことになる.情報理論での情報量は,確率的な事象に対して定義される.確率 p の事象に対する情報量は 7 (⇐ 数式) と定義される.単位は 8 である.また,n 個の事象があって,起こる確率が p1, p2, . . . , pn (であるような確率分布)のとき,平均情報量は 9 (⇐ 数式) と定義される.これによれば,p1 = p2 = p3 = p4 = 0.25 であるような確率分布に対する平均情報量は, 10 となる (ヒント log2 0.25 = −2).

7-29