第 2 章信息的表示与数字化

第 2章

信息的表示与数字化

本章要点

二进制及其运算

数值在计算机中的表示

文本信息在计算机中的表示

多媒体信息的数字化

目录第一节二进制及其运算

第二节数值在计算机中的表示

第三节文本信息在计算机中的表示

第四节多媒体信息的数字化技术

第一节二进制及其运算计算机采用二进制数据的原因

容易实现仅有两种稳定状态的物理元件在技术上很容易实现， 0 1

运算简单逢二进一，借一当二

便于表示逻辑量二进制的 0 和 1 与逻辑量“假”和“真”相对应，便于计算机进行逻辑判别和逻辑运算。

第一节二进制及其运算计数制的基本概念

数码：某种进位计数制中用来计数的符号。

如十进制数码 :0 、 1 、 2 、 3 、 4 、 5 、 6 、 7 、 8 、 9

二进制数码有 :0 、 1

基：某种进位计数制的数码个数。如十进制基为 10 ，二进制基为 2 。

权：在进位计数制中，数码在不同的位置上有不同的值，确定数位上实际值所乘因子称为权。

第一节二进制及其运算十进制

数码： 0 、 1 、 2 、 3 、 4 、 5 、 6 、 7 、 8 、 9 。运算规则：“逢十进一，借一当十”。基： 10 ，各相邻位权的比值为 10 ，权的一般形式 10n

（整数部分 n 取值 0 ， 1 ， 2 ，……；小数部分 n 取值 -1 ， -2 ，……）。

任何十进制数都可以按权展开表达。例如： 12345.678=1×104+2×103+3×102+4×101+5×1

00+6×10-1+7×10-2+8×10-3

十进制数表示，可以在数后加 D ，或将数用小括号括起，在右下角标上基 10 ，

例如： 12345.678D 或 (12345.678)10。

二进制数码数码有 0 、 1 。运算规则“逢二进一，借一当二”。基基是 2 ，各相邻位权的比值为 2 ，权的一般形式 2n（整数部分 n

取值 0 ， 1 ， 2 ，……；小数部分 n 取值 -1 ， -2 ，……）。任何二进制数都可以按权展开表达。

例如： (11001.011)2 =1×24+1×23+1×20+1×2-2+1×2-3

二进制数表示二进制数表示时，可在数后加 B ，或将数用小括号括起，在右下角标上基 2 ，

例如： 11001.011B 或 (11001.011)2。

第一节二进制及其运算

八进制数码： 0 、 1 、 2 、 3 、 4 、 5 、 6 、 7 。运算规则：“逢八进一，借一当八”。基： 8 ，各相邻位权的比值为 8 ，权的一般形式 8n （整数部分 n 取值 0 ， 1 ， 2 ，……；小数部分 n 取值 -1 ， -2 ，……）。

例如： (12345.671)8 = 1×84 + 2×83+3×82+4×81+5×80+ 6×8-1+7×8-2+1

×8-3

八进制数表示时，可在数后加字母 O ，或将数用小括号括起，在右下角标上基 8 ，

例如： 12345.671O 或 (12345.671)8。


十六进制数码： 0 、 1 、 2 、 3 、 4 、 5 、 6 、 7 、 8 、 9 、 A 、

B 、 C 、 D 、 E 、 F ，其中 A ， B ， C ， D ， E ， F（也可以是小写字母）分别表示十进制值 10 ， 11 ， 12 ，13 ， 14 ， 15 。

运算规则：“逢十六进一，借一当十六”。基： 16 ，各相邻位权的比值为 16 ，权的一般形式 16n。例如： (FE12A.6BD)16=15×164+14×163+1×162+2

×161+10×160+6×16-1+11×16-2+13×16-3

十六进制数表示时，可在数后加 H ，或将数用小括号括起，在右下角标上基 16

例如： FE12A.6BDH 或 (FE12A.6BD)16


数制之间的转换

二进制数、八进制数、十六进制数转换为十进制数将一个二、八、十六进制数转换成十进制数，只要将它写成按权展开表达式，然后求出该表达式的值

例 2.1 将二进制数 (11001.011)2转换成等值的十进制数。

(11001.011)2=1×24+1×23+1×20+1×2-2+1×2-3

=16+8+1+0.25+0.125

=25.375


数制之间的转换例 2.2 将八进制数 (123.4)8转换成等值的十进制数。(123.4)8=1×82+2×81+3×80+4×8-1

=64+16+3+0.5

=83.5

例 2.3 将十六进制数 (12A.6)16转换成等值的十进制数。

(12A.6)16=1×162+2×161+10×160+6×16-1

=256+32+10+0.375

=298.375


十进制数转换为二进制数、八进制数、十六进制数整数部分和小数部分转换方法不同，将这两部分分别转换，用小数点连接起来。

整数部分的转换方法：除以基数（ 2 、 8 、 16 ）取余法，将此十进制数整数部分除以基数取余数，最先取得的余数为转换后的最低位，商再除以基数取余数一直到商为 0 止，最后得到的余数是转换后的最高位，即余数从右到左排列就是转换后的结果。

小数部分的转换方法：采用乘以基数取整法，将此十进制数小数部分乘以基数取结果的整数部分，依次写在小数部分右边，再将结果小数部分乘以基数取结果的整数部分，一直到小数部分为 0

或者达到所要求的精度为止。


例 2.4 将十进制数 (37.375)10 转换成等值的二进制数。

18

2

4

2

9

2

22

2 1

0

1

0

1

0

0

1

……

……

……

……

……

…… 高位

低位37 余数 0.375

× 20.75

取整数 0

× 2

1.0

1× 2

1

高位

低位

1.5

2

得到： (37)10= (100101)2 (0.375)10=(0.011)2

则： (37.375)10=(100101.011)2 。


例 2.5 将十进制数 (75.375)10 转换成等值的

十六进制数。

得到： (75)10= (4B)16 (0.375)10=(0.6)16 则： (75.375)10=(4

B.6)16

4

16

0

11

4

……

…… 高位

低位75 余数 0.375

× 16取整数

66.0

16 2.250 3.75


例 2.6 将十进制数 (123.345)10 转换成等值的

八进制数。

得到： (123)10= (173)8 (0.345)10≈(0.2605)8 则： (123.345)10≈(173.2605)8


高位

15

8

8

1

0

3

7

1

……

……

…… 高位

低位123

余数

0.345×8

2.760

取整数

2×8

0.64

6×8

0

低位

6.088

×85.12 5

二进制数、八进制数、十六进制数间的相互转换 3 位二进制数可以用 1 位八进制数表示， 4 位二进制数可以用 1 位十六进制数表示。


表 2.1 二进制数和八进制数的转换表

二进制八进制二进制八进制二进制八进制二进制八进制

000 0 001 1 010 2 011 3

100 4 101 5 110 6 111 7

二进制数、八进制数、十六进制数间的相互转换


表 2.2 二进制数和十六进制数的转换表

二进制十六进制二进制十六进制二进制十六进制二进制十六进制

0000 0 0001 1 0010 2 0011 3

0100 4 0101 5 0110 6 0111 7

1000 8 1001 9 1010 A 1011 B

1100 C 1101 D 1110 E 1111 F


例 2.7 将二进制数 (11101101111.100111)2转换成等值的十六进制数。


0 1 1 1 0 1 1 0 1 1 1 1 . 1 0 0 1 1 1 0 0

补 0

二进制数

十六进制数 7 6 F . C9

补 0

得到： (11101101111.100111)2= (76F.9C)16


例 2.8 将八进制数 (1346.752) 8转换成等值的二进制数。


得到： (1346.752) 8 =(1011100110.11110101)2

八进制数 1 3 4 6 . 7 5 2

二进制数 0 0 1 0 1 1 1 0 0 1 1 0 . 1 1 1 1 0 1 0 1 0

在计算机中，可对二进制数作两种基本运算：算术运算和逻辑运算，其中算术运算包括加、减、乘、除，逻辑运算包括与、或、非。

二进制数据的算术运算加法运算

二进制数的加法运算规则如下：0+0=0 0+1=1 1+0=1 1+1=0 （向高位进位 1 ）


例 2.9 计算 (11010)2+(1011) 2的值。

得到： (11010)2+(1011) 2 =(100101)2

两个二进制数相加，每位上有本位的被加数、加数和来自低位的进位（有进位为 1 ，无则为 0 ） 3 个数相加。

+ 1 0 1 11 0 0 1 0 1

1 1 0 1 0


减法运算二进制数的减法运算规则如下： 0-0=0 1-1=0 1-0=1 0-1=1 （向高位借位 1 ）

例 2.10 计算 (11010)2 - (1011) 2的值。

得到： (11010)2-(1011) 2 =(1111)2

两个二进制数相减，每位上有本位的被减数、来自高位的借位（借 1 当 2 ，无借位则为 0 ）和减数参与减法运算。

- 1 0 1 1

1 1 1 1

1 1 0 1 0


乘法运算二进制数的乘法运算规则如下： 0×0=0 0×1=0 1×0=0 1×1=1

例 2.11 计算 (11010)2×(1011) 2的值。

× 1 0 1 1

1 1 0 1 0 1 1 0 1 0 0 0 0 0 0 1 1 0 1 0

1 1 0 1 0

1 0 0 0 1 1 1 1 0

得到： (11010)2×(1011) 2

=(100011110)2

二进制乘法可以转换为加法和移位运算，每左移一位相当于乘以 2 ，左移 n 位相当于乘以 2n ，计算机实际的乘法运算就是采用这种方法实现的。


第一节二进制及其运算除法运算

二进制数的除法运算规则如下：除法： 0÷1=0 1÷1=1

例 2.12 计算 (1100101)2÷(1011) 2的值。

得到： (1100101)2÷(1011) 2

≈(1001)2

除法运算是乘法运算的逆运算，二进制除法可以转换为减法和移位运算，每右移一位相当于除以 2 ，右移 n 位相当于除以 2n。

1 0 1 1 1 0 1 1 1 1 0 0 1 0 1

1 1 0 1

1 0 0 1

1 0 1 1

1 0 余数 …………

二进制信息的逻辑运算

逻辑信息的表示方法

可以表示“真”与“假”、“对”与“错”、“是”与“非”等具有逻辑性质的信息称为逻辑量，二进制的 1和 0在逻辑上可以表示这种信息。

一般来说，在计算机中，逻辑量用于判断某一事件是否成立，成立为 1

（真），事件发生；不成立为 0（假），事件不发生。

基本逻辑运算

逻辑量间的运算称为逻辑运算，结果仍为逻辑量。

基本逻辑运算包括与（常用符号 ×、 ·、∧表示）、或（常用符号 +、∨表示）、非（常用符号 ¯表示）。


二进制信息的逻辑运算逻辑与运算

逻辑与运算表示这样的逻辑关系，当一个事件的条件同时具备（为真）时，这一事件才会发生（为真），只要有一个条件不具备（为假），这一事件不会发生（为假）。

逻辑与运算规则： 0 0=0 0 1=0 1 0=0 1 1=∧ ∧ ∧ ∧1


表 2.3 逻辑与真值表

A BY=A∧

B

0 0 0

1 0 0

0 1 0

1 1 1

例如：某机关单位招考公务员，例如：某机关单位招考公务员，必要条件是本科毕业，党员，必要条件是本科毕业，党员，年龄年龄 3030 岁以下，三个条件分岁以下，三个条件分别用别用 AA 、、 BB 、、 CC 表示，则符合表示，则符合报考条件的逻辑表达式为报考条件的逻辑表达式为 A∧BA∧B∧C∧C 。。

二进制信息的逻辑运算逻辑或运算

逻辑或运算表示这样的逻辑关系，决定一个事件的条件中，有一个或一个以上条件具备（为真）时，这一事件就会发生（为真），只有当所有条件都不具备（为假），这一事件才不会发生（为假）。

逻辑或运算规则： 0 0=0 0 1=1 1 0=1 1 1=∨ ∨ ∨ ∨1


表 2.4 逻辑或真值表

A B Y=A∨B

0 0 0

1 0 1

0 1 1

1 1 1

例如：要得到“中央处理例如：要得到“中央处理器”方面的有关信息，可器”方面的有关信息，可以用“中央处理器”和以用“中央处理器”和““ CPU”CPU” 两个同义词来表两个同义词来表达，这两个同义词分别用达，这两个同义词分别用AA 、、 BB 表示，则符合条件表示，则符合条件的逻辑表达式为的逻辑表达式为 A∨BA∨B 。。

二进制信息的逻辑运算逻辑非运算

逻辑非运算表示逻辑的否定，决定一个事件的条件具备（为真）时，这一事件就不会发生（为假），当决定一个事件的条件不具备（为假）时，这一事件会发生（为真）。

逻辑运非算规则： 0=1 1=0


表 2.5 逻辑非真值表

A Y=A

0 1

1 0

例如：要选拔少数民族干例如：要选拔少数民族干部，这一事件只要表示为部，这一事件只要表示为不是汉族即可，不需将众不是汉族即可，不需将众多的少数民族一一罗列出多的少数民族一一罗列出来。假定用来。假定用 AA 表示汉族，表示汉族，则表示少数民族的逻辑表则表示少数民族的逻辑表达式为达式为 AA 。。

二进制信息的逻辑运算逻辑运算是计算机中最基本的运算，三种基本逻辑运算可以混合使用。

逻辑运算的优先级依次为“非”、“与”和“或”；改变优先级的方法是使用括号“（）”，括号内的逻辑式优先执行。

若 A 、 B 、 C 、 D 分别表示本科、硕士、博士学历和女性，则符合“学历为本科以上女性”条件的逻辑表达式为（ A B C∨ ∨ ）∧ D 。


二进制信息的逻辑运算逻辑异或运算

逻辑异或运算表示这样的逻辑关系，决定一个事件的两个条件相同（都为真或都为假）时，这一事件就不会发生（为假），当决定一个事件的两个条件不相同（一个为真，一个为假）时，这一事件会发生（为真）。逻辑异或常用符号⊕表示。

逻辑异或运算规则： 0 0=0 0 1=1 1 0=1 1 1=0 ⊕ ⊕ ⊕ ⊕


表 2.6 逻辑异或真值表

A B Y=A⊕B

0 0 0

1 0 1

0 1 1

1 1 0

例 2.5 逻辑运算举例。

11011101=00100010

1101110110110100

1101110110110100∧

10010100∨

11111101

110111011011010001101001

⊕


信息的计量单位各种信息在计算机内部都以二进制形式存储。基本存储单位

位 (bit) ：比特，计算机存储信息的最小单位，能够存储二进制数据中的一位数据 0 或 1 。

字节 (Byte) ：计算机信息处理和存储分配的基本单位，由 8 位二进制位组成，简记为 B ， 1B=8bit 。

扩展存储单位 KB ：千字节。 1KB=210B=1024B MB ：兆字节。 1MB=210KB=1024KB GB ：吉字节。 1GB=210MB=1024MB TB ：太字节。 1TB=210GB=1024GB


数值在计算机中是以二进制形式表示的，除了要表示一个数的值外，还要考虑符号、小数点的表示。正、负号只能用 0 、1 表示，小数点的表示总是隐含在某一位置上（称为定点数）或可以任意浮动（称为浮点数），小数点不占用数位。另外，要考虑如何表示更有利于计算机实现，使得表示数范围更大、精度更高。

整数的表示用存放整数的最高数位表示数的符号，正数为 0 ，负数为

1 ，整数表示有：原码、反码、补码


正整数的原码、反码、补码相同，最高位为符号位，值为 0 ，其它位是数值位，存放整数的二进制形式。负整数三种编码表示方式不相同，以上以一个字节（ 8 位）表示一个整数为例，介绍上述各种编码如何表示负整数。

原码最高位为符号位，值为 1 ，其它位是数值位，存放负整数绝对值的二进制形式。

如 [-39] 原=10100111 ， [-1] 原=10000001 在原码表示中， 0 有两种表示形式，即： [+0] 原=000000

00 ， [-0] 原=10000000 由于 0占用 2 个编码， 8 位二进制数只能表示 28-1=255个原码，所以 8 位带符号数原码表示的范围为 -127~+127 。

在参加运算时必须确定运算数的符号位及数值才能确定结果符号及结果值，所以处理麻烦，不便于运算。


反码最高位为符号位，值为 1 ，数值位是原码的数值位按位求反。如 [-39] 反=11011000 ， [-1] 反=11111110

在反码表示中， 0 也有两种表示形式，即： [+0] 反=00000000 ， [-0] 反=11111111

8 位带符号数反码表示的范围为 -127～ +127 。反码运算也不方便，不实用。

补码最高位为符号位，值为 1 ，数值位是原码的数值位按位求反再加 1 ，即反码加 1 。如 [-39] 补=11011001 ， [-1] 补=11111111

在补码表示中， 0 只有一种表示形式，即 [+0] 补=[-0] 补=00000000

8 位带符号数补码表示的范围为 -128～ +127 。补码符号位与数值位同样处理，运算方便，实用。


例 2.14 计算 5-2的值。


00000101 …… 5 的补码11111110 …… -2 的补码+00000011

5-2=5+(-2)

1

丢失高位 1 ，运算结果是 00000011 ，即 3 。可见，用补码表示，在数的有效表示范围内，符号位如同数值一样参加运算，允许丢失所产生的最高位进位，所以被广泛采用。

例 2.15 计算 2-5的值。


00000010 …… 2 的补码11111011 …… -5 的补码+11111101

2-5=2+(-5)

结果为 11111101 ，因为符号位为 1 ，所以这是一个负数的补码。符号位不变，其余各位按位求反，得到 10000010 ，数值部分转换为十进制数为 2 ，添上符号再减1 就是该补码所表示的数值， -2-1=-3 ，即 11111101 为 -3 的补码形式。

定点数和浮点数定点数

小数点位置固定的数，在计算机中没有设专门表示小数点的数位，小数点的位置是约定默认的。

• 固定在机器数（数在计算机中的表示）的最低位之后（称为定点纯整数），用于表示整数；

• 固定在符号位之后，数值位之前（称为定点纯小数），用于表示小于 1 的纯小数。

定点数表示法简单直观，但是表示的数值范围受表示数据的字长限制，运算时容易产生溢出。


符号位·

隐含小数点位置置定点整数表示符号位

· 隐含小数点位置

定点小数表示

定点数和浮点数浮点数

小数点的位置可以变动的数，类似于十进制中的科学计数法。

在计算机中通常把浮点数分成阶码和尾数两部分来表示。

例如： 1100101.011=0.1100101011×2111

-0.0000101101=-0.101101×2-100

一般浮点数在机器中的格式为：


阶符阶码尾数数符

定点数和浮点数浮点数

阶符表示指数的符号位、阶码表示幂次、数符表示尾数的符号位、尾数表示规格化后的小数值。

　　　　　　　 N = 尾数 × 基数阶码阶码只能是一个带符号的整数，本身的小数点约定在最右边；尾数是用纯小数表示数的有效部分，本身的小数点约定在数符和尾数之间。

阶码的位数决定数的范围，尾数的位数决定数的精度。例如，二进制数 -1001110110.101011 可以写成： -0. 1001110110101011×21010 以 32 位表示一个浮点数为例，若规定阶码 8 位，尾数 2

4 位表示，则这个数在机器中的格式为


0 0001010 1 10011101101010110000000

ASCII 码 ASCII 码 (American Standard Code for Information I

nterchange ，美国标准信息交换码 ) ，是由美国国家标准局提出的一种信息交换标准代码，是目前计算机中使用最广泛的西文字符编码。

采用 7 位二进制编码，有 0～ 127 即 128 个编码，可表示 128 个字符。

计算机存储分配的基本单位为字节（ 8 位二进制），计算机中实际上用一个字节（ 8 位）表示一个字符，最高位用“ 0”填充。

在大型机中，西文字符常采用另一种 EBCDIC 码（ Extended Binary Coded Decimal Interchange Code ，扩展的二—十进制交换码）。


表 2. ７ ASCII 字符编码表

ASCII 码十进制编码值为 0～ 31 、 127 的是控制字符，不可打印， 32 是空格，其余 94 个是普通字符，有具体字形，可打印；

0～ 9 、 A～ Z 、 a～ z 的编码是顺序排列的，数字字符“ 0” 的编码为十进制 48 ，则“ 1” 的编码为 49 ；英文字符“ A” 的编码为十进制 65 ，则“ B” 的编码为 66 ；英文字符“ a” 的编码为十进制 97 ，则“ b” 的编码为 98 ；

小写字母比相同大写字母的编码大 32 ，转换非常方便。


汉字编码方案在输入、内部的存储与处理、输出时，为了确切的表示汉字及方便处理，要采用不同的编码，计算机汉字处理系统在处理汉字时，不同环节采用不同的编码，这些不同编码根据使用要求要相互转换。汉字信息处理过程如下图所示。


汉字国标码 GB2312-80

《信息交换用汉字编码字符集——基本集》该字符集收录了 6763 个常用汉字，其中一级汉字 3755 个，二级汉字 3008 个。另外还收录了各种符号 682 个，合计 7445 个。

编码原则为：以 94 个可显示的 ASCII 码字符为基集，采用双字节对汉字和符号进行编码，即用连续的两个字节表示一个汉字的编码，每一字节取 ASCII 码中可打印字符的编码 33～ 126 （即21H～ 7EH ）。

国标码的取值范围： 2121H～ 7E7EH



为了便于编码， GB2312-80 将所有的国标汉字与符号组成一个 94×94 的矩阵。矩阵中的每一行称为一个“区”，每一列称为一个“位”。因此共有 94 个区（区号： 01 ～ 94 ），每区 94 个位（位号： 01 ～ 94 ），将区号和位号连在一起就构成了区位码，区号和位号各加 32 （ 20H ）就是国标码。

区位码的编码范围是： 0101 ～ 9494 。区位码的十六进制表示 +2020H= 国标码。例如：“中”的区位码为 5448 （ 3630

H ），所以，“中”的国标码为 8680 （ 5650H ）。



机内码• 中文或西文信息在计算机系统中的代码表示称为机内码。

ASCII 码是一种西文机内码，用一个字节表示。汉字机内码用连续两个字节表示，每个字节的最高位是 1 。

• 机内码 = 国标码 +8080H

= （区位码的十六进制表示） +A0A0H 。• GB2312-80 的机内码编码范围为： A1A1H ～ FEFEH 。


汉字国标码

GB2312-80


汉字区位码 16 进制数国标码汉字机内码

中 5448 3630H 5650H D6D0H

大 2083 1453H 3473H B4F3H

汉字国标码 GBK

国家信息技术标准化技术委员会 1995 年发布的扩充后的汉字编码方案，双字节编码，向下与 GB2312 编码兼容，收录了 20902 个汉字，只是一种规范，不是一个国家标准。

GB18030 2000年颁布，是取代 GBK 的正式国家标准。收录了 27484 个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。编码采用单字节、双字节和 4 字节方案。其中单字节、双字节和 GBK完全兼容。


汉字输入码输入码就是用键盘输入汉字的编码，是用户向计算机输入汉字的手段。

大体可分为顺序码、音码、形码、音形码四类，各种输入法对同一汉字的编码不相同，输入码也称为“外码”。

在有的输入法中，一个“外码”与多个汉字对应，称为“重码”，

为了提高汉字录入速度，目前提供了很多智能化的输入方法，如语音输入、笔输入、扫描输入。


汉字字库字模

字的模型，汉字的字形表示，储存计算机内，字模的集合就构成了字模库，简称字库。

汉字输出时，需要先根据内码找到字库中对应的字模，再根据字模输出汉字。

汉字字形码通常有两种表示方式：点阵和矢量表示方式。


点阵法点阵法每一个汉字以点阵形式存储在每一个汉字以点阵形式存储在记录介质上，有点的地方为记录介质上，有点的地方为““ 1”1” ，空白的地方为“，空白的地方为“ 0”0” 。。

16*1616*16 点阵：点阵： 16*16/8=3216*16/8=32 字字节节

24*2424*24 点阵：点阵： 24*24/8=7224*24/8=72 字字节节

汉字字库字模

向量（矢量）法• 存储的是描述汉字字形的轮廓特征。将汉字分解成笔画，每种笔画使用一段段的直线（向量）近似地表示，这样每个字形都可以变成一连串的向量。

点阵法编码、存储方式简单、无需转换直接输出，但字形放大后产生的效果差，而且同一种字体不同的点阵需要不同的字库。

矢量表示法输出汉字时要经过计算机的计算，还原复杂，但可以方便地进行缩放、旋转等变换，与大小、分辨率无关，能得到美观、清晰、高质量的输出效果。

Windows操作系统中使用的 TrueType 技术就是汉字的矢量表示方式。


汉字字库软字库

把汉字字库存放在磁盘上，使用时全部或部分调入内存储器。

硬字库固化在 EPROM （ Erasable Programmable R

ead-Only Memory ，可擦除可编程只读存器）或 MASK-ROM （掩模型只读存储器）的芯片中。如打印机等设备中安装有带有固化汉字库的集成电路芯片。


Unicode Unicode （ Universal Multiple-Octet Coded Ch

aracter Set ）是一种由国际组织设计编码方法，可以容纳全世界所有语言文字的字符编码方案。

将世界上使用的所有字符都列出来，并给每一个字符一个唯一特定数值，统一地表示世界上的主要文字。

Unicode 中采用两个字节的编码方案，可以表示 21

6-1=65535 个字符，前 128 个字符是标准 ASCII 字符，接下来是 128 个扩展 ASCII 字符，其余字符供不同语言的文字和符号使用。


信息的数字化过程采样

也称取样，是模拟信号数字化的第一步。对音频信号的采样过程如下：将连续变化的模拟音频信号在时间轴上进行分割，以转换成计算机能处理的离散化数字信号。

对图像的采样过程如下：将一个连续画面划分为离散的小区域，每个小区域是一个采样点（称为像素），将连续画面转换为像素点特征信息的离散化数字信息组合。


信息的数字化过程量化

量化是将每个采样点得到的信息用数值来度量，即用若干二进制位来表示这些离散值。

量化位数（即采样精度）表示存放采样点幅度值的二进制位数，它决定了模拟信号数字化后的动态范围。

若量化位数为 16 位，则表示有 216=65535 个等级不同的量化值。

编码编码就是将经过采样、量化得到的离散数据记录下来，按一定的规则进行组织，形成计算机内部运行的数据，以利于计算机处理。


声音信息的采集与数字化声音是空气中分子震动产生的声波传到我们耳膜产生的结果，声波具有周期性和一定的幅度。周期性表现为频率，控制音调的高低。频率越高，声音越尖，反之就越沉。幅度控制声音的音量，幅度越大，声音越响，反之就越弱。下图为声音的波形示意图。


频率

振幅

声音信息的采集与数字化电脑的声音根据产生机制的不同分为两种：合成音乐和数字声音。

合成音乐使用专门用于记录乐器演奏声音的乐谱而组合形成的音乐， MIDI （ Musical Instrument Digital Interface 乐器数字接口）是合成音乐的标准。

数字声音采集各种声音的机械振动（模拟声音）进行数字化转换（量化）后得到的数据。包括乐器的数字音乐、数字语音及数字化的自然界的效果音等。


声音信息的数字化


模拟信号采样量化编码数字信号采样：每隔一定时间间隔对模拟波形上取一个幅度值。采样：每隔一定时间间隔对模拟波形上取一个幅度值。量化：将每个采样点得到的幅度值以数字存储量化：将每个采样点得到的幅度值以数字存储编码：将采样和量化后的数字数据以一定的格式记录编码：将采样和量化后的数字数据以一定的格式记录下来。下来。

采样点幅度

时间

01010100001100010000000100100011

声音信息的数字化采样频率 f ： 1/T ，每秒钟的采样次数；采样点精度：存放采样点振幅值 A 的二进制位数；声道数：声音通道的个数，立体声为双声道。每秒钟存储声音容量的公式为：采样频率 × 采样精度（位数） ×声道数 /8= 字节数例：标准采样频率为 44.1kHZ ，量化位数为 16 位，双声道立体声，其每秒音乐所需要的存储量：

44.1 ×1000 ×16 ×2/8 = 1764000 B


声音信息的编码编码就是将采样、量化后的数字声音信息按一定的格式记录下来，使之可以在计算机中运行。

码方式有很多种，常见的有 PCM (Pulse Code Modulation ，脉冲编码调制 ) 。

PCM编码在时间轴上对模拟信号按一定的速率采样，然后将幅度样本分层量化，将其变换为数字代码形式传输和存储。

PCM编码的主要特点：抗干扰能力强，失真小，传输特性稳定。


数字音频的文件格式 WAVE 文件—— .WAV

记录了真实声音的二进制采样数据，通常文件较大。 MPEG 文件—— .mp1/.mp2/.mp3

采用 MPEG音频压缩标准进行压缩的文件。 MPEG 是运动图像专家组（ Moving Picture Experts Group ）的英文缩写， MPEG音频层（ MPEG Audio Layer ）代表 MPEG 标准中的音频部分。压缩比高，音质优美，制作简单，交换方便。

MIDI 文件—— .mid/.rmi 数字音乐的国际标准 . 记录的是音符数字，文件小。


数字音频的文件格式 RA 文件—— .ra

音乐压缩文件格式，压缩比可达 96:1 ，主要用于在低速广域网中实现网上实时播放，即边下载边播放。

WMA 文件—— .wma WMA 是 Windows Media Audio 的速写， WMA文件是 Windows media 的一个子集，表示 Windows media音频格式。 WMA 文件只有 MP3 的一半大小，音质基本保持相同，目前，大部分的 MP3播放器都支持WMA 文件。


图像信息的采集和数字化采样

将画面划分成 M×N 个网格，每个网格成为一个取样点，称为像素（ pixel ）点。一幅模拟图像就转换为 M×N 个取样点组成的一个阵列。

量化量化就是将采样后每一像素点的色彩浓淡（亮度）用数值量来表示。为表示量化的色彩值所需的二进制位数称为量化位数，一般用 8 位、 16 位、 24 位或更高的位数来表示图像的颜色。


图像信息的采集和数字化量化

量化位数也称图像的颜色深度。彩色图像是由红、蓝、绿（ R 、 G 、 B 三基色）不同亮度混合而成的，当三基色每个颜色的强度级别分为 256级，则每个颜色分量要用 8 位来量化，每个像素点的颜色深度就要用 24 位表示，它们共可表示 224=16777216 种颜色，称为真彩色。

一幅不经压缩的图像数据量计算公式为：字节数 =图像水平分辨率 ×图像垂直分辨率 ×颜色深度（位数） /8


图像信息的采集和数字化量化

例：一幅分辨率为 1024×768 （即有 1024×768 个采样点）的 24 位真彩色图像所需要的存储量：

存储量 =1024×768×24 / 8 =2359296B = 2.25MB

编码数字化后的图像数据量非常大，在图像的传输、存储时开销过大，必须经过编码技术来大大压缩信息量，才有实用价值。


图像文件格式 BMP格式—— .bmp

与设备无关的位图格式文件， Windows软件中常用的一种位图形式的图像格式。

GIF格式—— .gif Internet 上 WWW 中的重要文件格式之一 , 最大不超过 64 KB ，只能是 256色，压缩比较高，与设备无关。

JPEG格式—— .jpg 利用 JPEG 方法压缩的图形文件，适用于处理 256色以上、大幅面图像，适用于在 Internet 上进行图像传输。


图像文件格式 TIFF格式—— .tif

用于扫描仪和桌面出版系统的文件格式，支持单色到 32 位真彩色的所有图像，不依赖操作平台及机型，有多种数据压缩存储方式。

PNG格式—— .png

一种网络图像格式，它汲取了 JPEG 及 GIF 的优点，存储形式丰富。 PNG格式的特点是：采用无损压缩使图像不失真，显示速度快，但不支持动画应用效果。


计算机图形计算机图形学（ Computer Graphics ）主要研究如何将景物

（真实或假想的）的结构、形状或外观用计算机进行描述，包括利用计算机进行图形的处理、计算及显示的具体原理及算法。

计算机图形学一个主要的目的就是要利用计算机产生令人赏心悦目的真实感图形。

图形与图像的区别图像纯指计算机内以位图形式存在的灰度信息。图形含有几何属性，或者说更强调场景的几何表示，是由场景的几何模型和景物的物理属性共同组成的。

图形处理技术主要应用在计算机辅助设计和制造、计算机艺术、可视化、计算机动画、自然景物仿真、虚拟现实、游戏等领域。


第四节多媒体信息的数字化技术视频信息的采集与数字化

视频信息的采集视频是图像的动态形式

• 动态的图像是由一系列的静态画面按一定的顺序排列组成。每一幅称为“帧（ Frame ）”。这些帧以一定的速度连续地投射到屏幕上，由于视觉的暂留现象产生动态效果

视频分为模拟视频和数字视频。视频信号在生成、传递及显示过程中所遵循的标准即制式，常用的电视制式有 NTSC 制、 PAL 制、 SECAM 制。美国、日本等国家采用 NTSC 制式，中国、德国等国家采用 PAL 制式，法国、俄罗斯等国家采用 SECAM 制式。

第四节多媒体信息的数字化技术视频信息的数字化

采样在 PAL彩色电视制式中采用 YUV彩色空间， Y 表示亮度信号， U 、 V 表示压缩幅度的色差信号。

计算机的 CRT显示器显示时采用 RGB彩色空间，这就要求在显示每个像素前要把 YUV彩色分量转换成 RGB 值。具体的转换公式如下：

Y=0.299R＋ 0.587G＋ 0.114B

U=－ 0.169R－ 0.331G＋ 0.5B

V=0.5R－ 0.419G－ 0.081B


采样由于人眼对颜色远没有对亮度敏感，所以为了减少数字视频的数据量，色差信号的采样频率可以比亮度信号的采样频率低一些。如果用 Y:U:V 来表示 YUV 三分量的采样比例，数字视频的采样格式有： 4:1:1格式、 4:2:2格式、 4:4:4格式。

ITU-R建议使用 4:2:2格式，即色差信号取亮度信号采样频率的一半。

4:2:2 采样格式亮度信号色度信号


量化将采样后的连续像素值转化为有限的离散值。量化位数率决定系统的动态范围，更高的比特率可以获得更好的性能，但需要的存储空间也更多。

编码视频信号数字化后若不经过压缩，数据量非常庞大。例如：连续显示分辨率为 1280× 1024 的“真彩色”电视图像，帧速为 30帧 /秒，显示 1 分钟，需要的存储量：

1280 × 1024 × 3 × 30 × 60≈6.6GB 数字视频编码技术主要有 JPEG 、 MPEG 及 H.264标准。

第四节多媒体信息的数字化技术视频文件格式

影像视频文件AVI格式文件—— .avi

• 将视频与音频信息交错地保存在一个文件中，较好地解决了音频与视频的同步问题，已成为 Windows视频标准格式文件，数据量较大，要压缩。

MOV格式文件—— .mov

• 可以合成视频、音频、动画、静止图像等多种素材。数据量较大，要压缩。

MPEG格式文件—— .mpeg /.mpg/.dat

• MPEG 文件格式是运动图像压缩算法的国际标准，它采用有损压缩方法减少运动图像中的冗余信息，压缩效率高，图像和音响的质量非常好。 DAT格式文件是 VCD专用的格式文件，与 MPEG 文件格式的文件结构基本相同。

第四节多媒体信息的数字化技术视频文件格式

流媒体文件流媒体是一种可以使音频、视频等多媒体文件在 Internet上以实时的、无需下载等待的流式传输方式进行播放的技术。

RealMedia• 可以根据网络数据传输速率的不同而采用不同的压缩比率，在数据传输过程中边下载边播放视频影像。

ASF 及 WMV• 是 Microsoft 为了和 Real player 竞争而发展出来的一种在 Internet 上实时传播多媒体的技术标准。

• WMV 是一种动态图像压缩技术，也是一种在 Internet上实时传播多媒体的技术标准。

QuickTime• Apple 计算机公司开发的一种视音频文件格式，用于保存视频和音频信息，具有先进的视频和音频功能，被几乎所有主流的个人计算机平台支持。

【本章小结】通过本章学习，应理解和掌握：

1. 各数制之间的转换方法。

2. 二进制数的算术运算和逻辑运算。

3. 整数的补码表示形式。

4. ASCII 码及各种汉字编码方案。

5. 多媒体信息的采集与数字化过程。

第 2 章 信息的表示与数字化

Documents

第 2 章信息的表示与数字化