第 3 章 音频

113
第3第 第第 音音 (audio) 音音音音音音音音 音音音音音 音 ,、 音音音音音音 ( 音音 音音音音 音音音音 音音音 、、、 ) •3.1 音音 •3.2 音音音音音音音音 •3.3 音音音音音音音音音 •3.4 MIDI •3.5 音音音音 •3.6 音音音音音音

Upload: carson-glass

Post on 01-Jan-2016

47 views

Category:

Documents


14 download

DESCRIPTION

第 3 章 音频. 音频 (audio) 指人能听到的声音,包括语音、音乐和其它声音 ( 声响、环境声、音效声、自然声 ) 。 3.1 声音 3.2 音频信号的数字化 3.3 数字音频技术与格式 3.4 MIDI 3.5 音频编码 3.6 语音处理简介. 3.1 声音. 3.1.1 声波 声音 (sound) 是一种由机械振动引起可在物理介质(气体、液体或固体)中传播的纵向压力波(纵波或疏密波)。称振动发声的物体为声源。声音在真空中不能传播,我们主要讨论声音在空气中的传播 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第 3 章  音频

第 3章 音频音频 (audio) 指人能听到的声音,包

括语音、音乐和其它声音 ( 声响、环境声、音效声、自然声 ) 。•3.1 声音•3.2 音频信号的数字化•3.3 数字音频技术与格式•3.4 MIDI

•3.5 音频编码•3.6 语音处理简介

Page 2: 第 3 章  音频

3.1 声音3.1.1 声波

• 声音 (sound) 是一种由机械振动引起可在物理介质(气体、液体或固体)中传播的纵向压力波(纵波或疏密波)。称振动发声的物体为声源。声音在真空中不能传播,我们主要讨论声音在空气中的传播

• 声波 (sound wave) 指在物理介质中传播的声音。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。因此,声波可用振幅和频率这两个基本物理量来描述:– 振幅:声波的振幅 (amplitude) A 定义为振动过程中振动的物

质偏离平衡位置的最大绝对值– 频率:声波的频率 (frequency) f 定义为单位时间内振动的次

数,单位为赫兹 Hz (每秒钟振动的次数)

Page 3: 第 3 章  音频

声音是一种连续的波

Page 4: 第 3 章  音频

声速• 声音在空气中传播的速度几乎不受气压大

小的影响,但是受气温的影响很大。在气温为 t℃ 时的声速:

c = 331.5 * (1 + t / 273)1/2

≈ 331.5 + 0.6 t (m/s)

例如在室温( 15℃ )下,声速 c ≈ 340 m/s 。

Page 5: 第 3 章  音频

波长与频率• 声音的波长 (wave length)λ 定义为声音每

振动一次所走过的距离,单位为米 (m) 。声波的波长与频率的关系为 ( 其中 c 为声速 ) :

λ= c / f (m)

Page 6: 第 3 章  音频

纯音与复音、基频与谐频 • 纯音 (pure tone)—— 具有单一频率的声音• 复音 (complex tone)—— 具有多种频率成分的声

音。普通的声音 ( 如人讲话和乐器演奏 ) 一般都是复音

• 和谐的复音由基音 (fundamental tone) 和谐音 (harmonic tone) 所组成

• 基音的频率是和谐复音中的最低频(通常具有最大振幅),称为基频 (fundamental frequency)

• 谐音 ( 也叫泛音 [overtone] )的频率是基频的整数倍,称为谐频 (harmonic frequency)

• 基音决定声音的高低 ( 音调 ) ,谐音则决定声音的音品 ( 音色 )

Page 7: 第 3 章  音频

和谐复音的基频与谐频

Page 8: 第 3 章  音频

声音三要素• 声音的感知特性主要有音调、响度和音色,称之为

声音的三要素:– 音调——人耳对声音高低的感觉称为音调( tone )。音调

主要与声音的频率有关,但不是简单的线性关系,而是成对数关系。除了频率外,影响音调的因素还有声音的声压级和声音的持续时间。音调的单位为美( mel )

– 响度——声音的响度( loudness )就是对声音强弱的主观感知。声音的大小在客观上一般用声级( soundlevel )表示,其单位为分贝( dB ),无量纲,人能感知的声音大小的范围一般为 0~120dB 。主观感觉的声音强弱则使用响度“宋 (sone)” 或响度级“方 (phon)” 来度量

– 音色——音色( timbre )是人们区别具有相同的响度和音调的两个(不同发声体所发出)声音的主观感觉,也称为音品。例如,每个人讲话都有自己的音色;每种乐器都有各自的音色。音色主要是由复音中不同谐音的分布和组成所决定的,影响音色的因素还有声音的时间过程

Page 9: 第 3 章  音频

3.1.2 频率范围• 声音

• 人类听觉: 20Hz~20kHz

• 人声: 80Hz ~ 3400Hz

• 语音: 300Hz ~ 3000 Hz

• 传统乐器: 16Hz ~ 7kHz

• 钢琴: 27.5Hz ~ 4186Hz

• 声乐: 87Hz( 男低音 )~1318Hz( 花腔女高音 )

<20Hz 20Hz~20kHz >20kHz

次声 可听声 ( 音频 ) 超声

Page 10: 第 3 章  音频

器乐的频率• 传统乐器的发声范围为 16Hz (C2) ~ 7kHz(a5) ,

如钢琴的为 27.5Hz (A2) ~ 4186Hz(c5)• 乐理的音高采用 12 平均律,将 8 度(倍频)音,

按 2 的指数分为 12 份( 2^1200 ),每份相当于一个半音( 100 音分)

• 可把音高分为若干组,低音用大写字母,高音用小写字母,更低 / 高的音在大 / 小写字母后用数字下 / 上标表示其级别,如标准音: a1 = 440Hz ,中央 C : c1 = 261.6255653Hz

• 8 度音的频率差一倍,如 a2 = 2×a1 = 2×440Hz = 880Hz , C1 = 2*C2 = 2×16.35Hz = 32.70Hz

Page 11: 第 3 章  音频
Page 12: 第 3 章  音频

声乐• 声乐指人唱歌,可以按照男、女、童和高、

中、低等来进行分类• 声乐的频率范围为 87Hz( 男低音 ) ~ 1318H

z ( 花腔女高音 )

• 一般歌手的音域都有两个 8 度左右的宽度,但是有少数通俗唱法歌手的音域只有 8 度宽

Page 13: 第 3 章  音频
Page 14: 第 3 章  音频

3.1.3 音量• 音量( [sound] volume )即声音的强弱,可以用声压(级)、

声强(级)和声功率(级)来度量• 声压 (sound pressure) P = 空气压强 - 大气压• 一个标准大气压 =1.03*10^5Pa 。人耳对 1kHz 频率声音之听阈的声压约为 2*10^-5Pa ,痛阈的声压约为 20Pa ,正常说话时的声压约为 0.02~0.03Pa ,是标准大气压的千万分之二、三。

• 由于人耳对声压的感知范围大 ( 相差约一百万倍 ) ,而且人的听觉与声压不是线性关系,而是近似于对数关系。所以常按对数式分级( level )办法来表示声音的大小

• 声压级 (sound pressure level) :

其中,参考声压 Pref取为 1kHz 的听阈声压( 2*10^-5Pa ),声压级的值无量纲,单位为 dB(decibel 分贝 ) 。如 1kHz 频率声音的听阈之声压级 =20*lg1=0dB ,痛阈之声压级 =20*lg10^6 =120dB 。声压变化 10 倍,声压级才变化 20dB 。

Page 15: 第 3 章  音频
Page 16: 第 3 章  音频

3.1.4 听觉系统的感知特性 • 人耳分为外耳、中耳和内耳三个部分:

– 外耳由耳廓和耳道构成– 鼓膜处在外耳和中耳之间– 中耳包含三根听骨及通向咽腔的耳咽管– 内耳则包括耳蜗、前庭、三半规管和听神经等部分。

内耳中的前庭器和半规管内,主要含平衡觉感受器,与听觉无关

Page 17: 第 3 章  音频

耳蜗与柯蒂器• 耳蜗 (cochlea) 是一种充满液体的卷曲结构,

大小如一颗豆子。管长 35mm ,卷绕两圈半,成蜗壳状

• 耳蜗内部被两个膜 (前庭膜和基膜 ) 分隔,中间形成的一个楔形剖面部分,称为蜗管

• 蜗管内部的复杂结构称为柯蒂器 (organ of Corti) 是外周听觉系统的核心部分。

Page 18: 第 3 章  音频
Page 19: 第 3 章  音频

对音强的感知• 在物理上,声音的大小使用客观测量单位来度量,即声压用 Pa(帕 ) 或 N/m2(牛顿 / 平方米 ) 、声强用 W/m2(瓦特 / 平方米 ) 、声功率用 W(瓦 ) 、声级用 dB( 分贝 )

• 在心理上,主观感觉的声音强弱使用响度 (loudness) 或响度级 (loudness level) 来度量

• 响度的单位为“宋 (sone)” ,为了对响度进行计算,定义声级为 40dB 的 1kHz 标准音的响度等于 1 宋

• 定义响度级的值为 1kHz 标准音的声级的 dB 值,单位为“方 (phon)”

Page 20: 第 3 章  音频

响度 S 与响度级 P 之间的关系

可见, 40 方为 1 宋, 2 宋比 1 宋响 1 倍, 3 宋比 1宋响 2 倍,其余可依次类推

• 听阈 (hearing/audibility threshold)—— 人耳朵刚刚可以听见时的声音强度。此时的主观响度级定为 0 方

• 痛阈 (pain threshold)—— 使人的耳朵刚刚感到疼痛时的声音强度。此时的主观响度级定为 120 方

• 实验表明,听阈和痛阈都是随频率变化的

Page 21: 第 3 章  音频

等响曲线

Page 22: 第 3 章  音频

对音高的感知• 客观上用频率来表示声音的音高,其单位是 Hz 。

而主观感觉的音高 ( 音调 ) 单位则是“美 [尔 ](Mel)” 和“巴克 (Bark)”

• 主观音高与客观音高的关系是:

其中 f 的单位为 Hz ,这也是两个既不相同又有联系的单位

Page 23: 第 3 章  音频

音高—频率 曲线

Page 24: 第 3 章  音频

掩蔽效应• 掩蔽效应——一种频率的声音阻碍听觉系统感受另

一种频率的声音的现象• 掩蔽可分成频域掩蔽和时域掩蔽等• 频域的纯音掩蔽——一个强纯音会掩蔽在其附近同

时发声的弱纯音。也称为同时掩蔽 (simultaneous masking)

• 一般来说,弱纯音离强纯音越近就越容易被掩蔽• 由于声音频率与掩蔽曲线不是线性关系,为从感知

上来统一度量声音频率,引入了“临界频带 (critical band)” 的概念

• 临界频带表示的是人耳对两个纯音叠加时的分辨能力。通常将从 20 Hz 到 20 kHz 范围分成 24 个临界频带,临界频带的中心频率越高,其带宽也越大

• 临界频带的单位也叫 Bark(巴克 ) ,即 1 Bark = 一个临界频带的宽度

Page 25: 第 3 章  音频
Page 26: 第 3 章  音频
Page 27: 第 3 章  音频

复音掩蔽与时域掩蔽• 复音掩蔽——复音由多种频率的声音组成,人耳能分辨出

复音所包含的各种分音,从而感受到它的音色。由于纯音的掩蔽效应可能使得复音中的部分分音人耳听不到,使得原来的音色发生改变,称之为复音掩蔽效应

• 时域掩蔽——除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,称为时域掩蔽

• 时域掩蔽又分为超前掩蔽 (pre-masking) 和滞后掩蔽 (post-masking)

• 产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约 5 ~ 20 ms ,而滞后掩蔽可以持续 50 ~ 200 ms

Page 28: 第 3 章  音频

时域掩蔽

Page 29: 第 3 章  音频

3.1.5 声道• 声道 (sound channel/track) 是分开录音然后结合起来以便同

时听到的一段声音• 单声道——早期的声音重放 (playback/reproduction) 技术落

后,只有单一声道 (mono/monophony) ,只能简单地发出声音 ( 如留声机、调幅 AM广播 )

• 双声道——后来有了双声道的立体声( stereo )技术 ( 如立体声唱机、调频 FM立体声广播、立体声盒式录音带、激光唱盘 CD-DA) ,利用人耳的双耳效应,感受到声音的纵深和宽度,具有立体感

• 环绕声——现在又有了各种多声道的环绕声 (surround sound)重放方式 ( 如 4.1 、 5.1 、 6.1 、 7.1 声道 ) ,将多只喇叭(扬声器 speaker )分布在听者的四周,建立起环绕聆听者周围的声学空间,使听者感受到自己被声音包围起来,具有强烈的现场感 ( 如电影院、家庭影院、 HDTV 、 DVD/BD 、dts-CD )

Page 30: 第 3 章  音频

• C = Center中

• L = Left左• R = Right右• S = Surround

环绕• B = Back 后• LFE = Low Fr

equence Enhancement 低频增强 ( 也叫woofer ,低音喇叭 / 低音炮 ) ,因低音通道 LFE的方向性不强,且频率 < 200Hz [ 一般为 15~120Hz] ,故称为 0.1 声道 )

Page 31: 第 3 章  音频

3.2 音频信号的数字化• 声音用电表示时,声音信号在时间和幅度上都

是连续的模拟信号。为了便于计算机处理,同时也为了信号在复制、存储和传输过程中少受损害,需要将模拟信号数字化

• 模拟信号 (analog signal) :在时间和幅度上都是连续的信号

• 数字信号 (digital signal) :时间和幅度都用离散的数字表示的信号

• 模数转换 (A/D=Analog-to-Digital) :从模拟信号到数字信号的转换

• 数模转换 (D/A=Digital-to-Analog) :从数字信号到模拟信号的转换

Page 32: 第 3 章  音频

音频信号的数字化• 将音频信号数字化,实际上就是对其进行采样

和量化。即:数字化 = 采样 + 量化• 采样 (sampling) :连续时间的离散化通过采样来实现,就是每隔相等的一小段时间取一次声波振幅的样值,这种采样称为均匀采样

• 量化 (quantization) :连续幅度的离散化通过量化来实现,就是把信号的强度划分成一小段一小段,在每一段中只取一个强度的等级值(一般用二进制整数表示),如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化

Page 33: 第 3 章  音频

连续音频信号的采样和量化

Page 34: 第 3 章  音频

从声音到计算机数据再到声音之全过程的设备 / 技术示意图

话筒 采样— A/D( 声卡 ) — 量化 D/A( 声卡 ) 喇叭 / 耳机

声波→电平信号→离散时间信号→数字信号→电平信号→声波 时间幅度连续 时间离散 时间幅度离散 时间幅度连续

幅度连续• 声音数字化需要确定采样频率和量化精度

– 采样频率 (sampling frequency) :每秒钟采集的声音样本数 ( 常用的采样频率有: 8kHz 、 11.025kHz 、 22.05kHz 、 44.1kHz 、 48 kHz )

– 量化精度 (quantizing precision) :每个声音样本的二进制位数 (bps = bit per sample) ( 常用的采样精度为 8bps 、 12 bps 、 16bps 、 20bps 、 24bps )

Page 35: 第 3 章  音频

奈奎斯特 (Nyquist) 采样定理•当采样频率不低于声音信号最高频率的两倍时,可把以数字声音信号无损地还原成原来的模拟声音信号,这叫做无损数字化 (lossless digitization)

•采样定理可用公式表示为fs ≥ 2 f 或 Ts ≤ T/2

其中 fs 为采样频率、 f 为被采样信号的最高频率、 Ts

为采样周期、 T 为最小采样间隔

Page 36: 第 3 章  音频

声音质量和数据率

质量采样

频率 (kHz)

样本精度(bps)

声道数数据率 (kb/s)

频率范围 (Hz)

频宽(kHz)

电话 8 8 单声道 64 200 ~ 3,400

3.2

AM 11.025 8 单声道 88.2 20 ~ 15,000

7

FM 22.050 16 立体声 705.6 50 ~ 7,000 15

CD 44.1 16 立体声 1411.2 20 ~ 20,000

20

DAT 48 16 立体声 1536.0 20 ~ 20,000

20AM (amplitude modulation) :调幅广播FM (frequency modulation) :调频广播DAT (digital audio tape) :数字音带

Page 37: 第 3 章  音频

3.3 数字音频技术与格式• 数字音频数据的种类

– 波形数据:声波通过声 /电和 A/D 而得到的量化后的采样数据。数字化的波形数据又有两类存储方式:

• 文件存储:有多种文件格式,如 wav 、 au 、 aiff 和 snd• 非文件存储:激光唱盘 (CD-Audio) 和数字录音带 (DAT)

– MIDI 数据: MIDI 是乐器和计算机之间交换音乐信息所使用的标准语言。 MIDI 数据只是一些指令。所以,与波形文件相比, MIDI文件非常小。常见的 MIDI文件格式为 PC 机上扩展名为 .mid文件

Page 38: 第 3 章  音频

3.3.1 文件格式 常见音频文件的扩展名:• aiff(Audio Interchangeable File Format) : Ap

ple计算机上的声音文件存储格式• ape(猿 ) : Monkey Audio公司的无损音频文件存储格式

• au(audio) : Sun 和 NeXT公司的声音文件存储格式,主要用在 Unix工作站上

• flac(Free Lossless Audio Codec) : Xiph.Org 基金会的无损音频文件存储格式

• mid(MIDI) : PC 上的 MIDI文件存储格式

Page 39: 第 3 章  音频

• mp3(MPEG-1 Audio Layer III) :压缩波形音频文件存储格式

• mp4/m4a : MPEG-4 Audio/Video 或 AAC 编码

• ra(RealAudio) / .rm(RealMedia) : RealNetworks公司的流式音频 /媒体文件格式

• wav (waveform) : Windows 采用的(无损)波形声音文件存储格式

• seq(sequence) : MIDI文件存储格式• snd(sound) : Apple计算机上的声音文件存储格式

• wma (Windows Media Audio) : Microsoft公司的流式音频文件格式

Page 40: 第 3 章  音频

WAV文件格式• 波形音频文件 (The Waveform Audio File Format) ( *.

WAV )是 Microsoft 为 Windows设计的多媒体文件格式 RIFF(The Resource Interchange File Format,资源交换文件格式 ) 中的一种 (另一种常用的为 AVI) 。 RIFF 由文件头、数据类型标识及若干块 (chunk) 组成

• 注意:– 多字节整数的低位在前,同 Intel CPU– 单字节样本值 v 为无符号整数 (0~255) ,实际样本值应为 v-

128 ;多字节样本值本身就是有符号的,可直接使用• 各种文件格式可参见网站: http://www.wotsit.org

Page 41: 第 3 章  音频

WAV文件的基本格式类型 内容 变量名 大小 取值

文件标识符串 fileId 4B “RIFF” RIFF头

头后文件长度 fileLen 4B 非负整数(=文件长度-8)

数据类型标识符 波形文件标识符 waveId 4B “WAVE”

格式块标识符串 chkId 4B “fmt ” 块头

头后块长度 chkLen 4B 非负整数(= 16或 18)

格式标记 formatTag 2B 非负短整数(PCM=1)

声道数 channels 2B 非负短整数(= 1或 2)

采样率 sampleRate 4B 非负整数(单声道采样数/秒)

平均字节率 avgBytesRate 4B 非负整数(字节数/秒)

数据块对齐 blockAlign 2B 非负短整数(不足补零)

采样位数 bitsPerSample 2B 非负短整数(PCM时)

扩展域大小 extSize 2B 非负短整数

格式块

块数据

扩展域 extraInfo extSize B 扩展信息 可选扩展块

数据块标识符串 chkId 4B “data” 块头

头后块长度 chkLen 4B 非负整数

数据块

块数据 波形采样数据 x或 xl、xr chkLen B

左右声道样本交叉排列

样本值为整数(整字节存储,不足位补零),

整个数据块按 blockAlign对齐

Page 42: 第 3 章  音频

3.3.2 音频技术• 杜比实验室 (Dolby Lab)—— 是由 Ray Dolby 于 1965年创建于英国的一家专攻音频的压缩和复制的美国公司

• Dolby Surround / Dolby Prologic (杜比环绕声 / 杜比逻辑[ 定向 ] )—— 1976年 /1986年推出、模拟(无压缩)、 4声道(左中右后 [ 后左右相同 ] )、用于电影院

• Dolby Digital (杜比数字) = AC-3 (Audio Code Number 3 ,音频编码 3 号 ) ——1992年推出、数字编码(压缩 12 倍)、5.1 声道、 48KHz 采样、用于电影院、 DVD 和 HDTV– 2003年推出的 Dolby Digital EX (杜比数字扩展)支持 6.1 声道– 2004年推出的 Dolby Digital Plus (杜比数字 + )支持多达 13.1 声道

• Dolby TrueHD (杜比真高清)—— 2005年推出的一种为蓝光盘开发的无损音频编码格式,码率可达 18Mbps 、 8个以上全频带的 24-bit/96 kHz 声道、被 HDMI ( High-Definition Media Interface ,高清介质接口)所支持、被 Blu-ray Disc选为可选音频格式

Page 43: 第 3 章  音频

• DTS ( Digital Theater System ,数字影院系统)——由美国的 DTS公司于 1993年推出、数字编码(压缩 4 倍)、 5.1 声道、 48KHz 采样、用于电影院和 DVD– DTS-ES (扩展环绕): 6.1 声道、用于家庭影院 – DTS-HD (高清):支持虚拟的无限多个环绕声通道、是

BD 的一种可选环绕声格式 • AAC ( Advanced Audio Coding ,先进音频编码)

——由 AT&T 、杜比实验室、 Fraunhofer IIS 和索尼四个公司于 1997年 4月共同开发出的一种有损音频压缩技术,支持 8 kHz~96 kHz 采用频率、 1~ 48.16 个声道、 16 个配音声道和 16 个数据流,是MPEG-2/4 的重要组成部分,用于 DVD 和 MP4等

Page 44: 第 3 章  音频

3.3.3 音频光盘• CD-DA ( Compact Disc-Digital Audio ,紧凑光盘—数字音

频)—— Philips 与 Sony公司于 1981年联合推出的一种可以存储 74 分钟无损数字音频数据的直径 12厘米的光盘,一般称为数字激光唱盘,简称为 CD 。它采用 PCM 技术、 44.1kHz 采样频率、 16 位量化、双声道立体声、最大码率 1.4Mbps ,存储容量为 680MB

• HDCD ( High Definition Compatible Digital ,高清晰兼容数字)——由 Keith Johnson 和 Pflash Pflaumer 于 1991年开发出的一种专利技术、 1996年他们二人创立了 PMI (Pacific Microsonics Incorporated ,太平洋微指令公司 ) ,微软公司于 2000年 9月收购了 PMI ,并获得了其 HDCD 技术。 HDCD 采用 20 位量化、 88.2kHz 采样、记录在 CD-DA 16 位样本数据的最低一位,需专门的解码器,不然只能用作(少一位有效样本数据的)普通 CD

Page 45: 第 3 章  音频

• DTS-CD—— 由 DTS公司于 1997年推出的一种存储 74 分钟的 5.1 声道、 48KHz 采样、 20bit 量化的 DTS 音频的 CD-DA光盘,采用的是 APT-X100 数字压缩技术(压缩 4倍),播放 DTS-CD光盘需要支持 DTS 格式的 CD 或 DVD 播放机和支持 DTS 信号的功放,在只支持普通 CD-DA的光盘机 /功放上播放 DTS-CD盘时,听到的是白噪声。 DTS-ES CD支持 6.1 声道

• DVD-Audio—— 是 DVD 论坛(先锋、松下、东芝、日立等公司)于 1999年 3月提出的一种数字音频格式,采用 DVD 介质存储、 PCM 技术、 5.1 声道、 96kHz 采样、 24 位量化、 135 分钟、最大码率 9.6Mbps

• SACD ( Super Audio CD ,超级音频 CD )——飞利浦与索尼公司于 1997年 9月推出的一种数字音频格式,采用 DVD 介质存储和 DSD (Direct Stream Digital ,直接数字流 ) 技术编码, 5.1 声道、 2.82MHz 采样、 1 位量化、 74 分钟

Page 46: 第 3 章  音频
Page 47: 第 3 章  音频

3.4 MIDI

• MIDI = Musical Instrument Digital Interface (乐器数字接口)是音乐合成器 (music synthesizers) 、乐器和计算机之间交换音乐信息所使用的标准协议

• MIDI 是乐器和计算机使用的标准语言,是一套指令(即命令的约定 ) ,它指示乐器即MIDI设备要做什么及怎么做,如演奏音符、加大音量、生成音响效果等。 MIDI 不是声音信号,在 MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令

• MIDI 常用作背景音乐:因为 MIDI 音乐可以和其它的媒体(如数字电视、图形、动画、话音等)一起播放,这样可以加强演示效果

Page 48: 第 3 章  音频

MIDI 的优点

• 生成的文件比较小:因为 MIDI文件存储的是命令,而不是声音波形

• 容易编辑:因为编辑命令比编辑声音波形要容易得多

Page 49: 第 3 章  音频

简史• 1920s :出现第 1 种流行的 ( 声音单一 )电子合成器、 60年代

Robert Moog设计了首台广泛使用的模拟电子合成器、 70年代初期出现了计算机音乐合成器,但各个厂商的产品互不兼容

• 1981年 11月: Sequential Circuits公司的 Dave Smith 写出通用合成器接口 USI协议提交给音频工程协会;经过对 USI 的改进和扩展,美国和日本的主要合成器制造商在 1982年 6月的美国全国音乐商协会 NAMM展上,提出 MIDI规范

• 1983年 8月:公布 MIDI 1.0详细规范 (Detailed Specification) ,1995年 1月推出版本 v95.1 , 1995年 9月 v95.2 , 1996年 3月 v96.1 , 2001年 11月推出 v96.1 的第二版

• 1990年推出 SMF ( Standard MIDI File ,标准 MIDI文件)规范

• 1991年 9月:控制MIDI 标准的两个组织—— MIDI制造商协会MMA ( http://www.midi.org/ )与日本 MIDI 标准委员会 JMSC——提出通用 MIDI 级别 1 (GM1)规范 (General MIDI 1 Specification) , 1999年 11月推出 GM2规范, 2003年 9月推出 GM2规范的 1.1版

Page 50: 第 3 章  音频

• 1997年推出 DLS ( DownLoadable Sounds ,可下载声音)规范级别 1 的 1.0版, 1999年 1月推出 1.1 、 2004年 9月推出 1.1b , 2006年 4月推出 2.2 。

• 2001年 8月 31日: MMA推出可扩展音乐格式 XMF (eXtensible Music Format) 1.0 、 2003年 8月推出 XMF 1.0.1 、 2004年 12月推出 XMF 2.0

• 2003年 7月: MMA 和 AMEI(日本的电子音乐工业协会 )批准MIDI XML规范

• 2004年 11月: MMA推出了用于 3G移动通信的 SP-MIDI( Scalable Polyphony MIDI Specification ,可伸缩多音调 MIDI规范)

• 2007年 1月 9日推出 MMI ( Mobile Musical Instrument/ Interface ,移动乐器 / 音乐接口)规范 1.0.0 , 2009年 11月 30日推出 1.0.6版

• 新标准 MIDI 2.0 或 HD-MIDI ( High-Definition Protocol ,高清协议)目前还在制定过程中

Page 51: 第 3 章  音频

音乐生成方法• 调频 (FM = frequency modulation 频率调制 )合

成法: 80年代初由美国斯坦福大学的研究生 John Chowning 发明。将数字表示的简单乐音波形用计算机组合起来,通过数模转换器 DAC 来生成乐音。 FM合成法使合成音乐工业发生了一次革命

• 乐音样本合成法,也称为波形表 (Wavetable)合成法:把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。 比 FM合成法所产生乐音更逼真

Page 52: 第 3 章  音频

FM合成器的基本组成模块• 数字载波器:用于数字载波,使用了 3 个参数:

音调、音量和波形• 调制器:用于波形调制,使用了 6 个参数:频率、

调制深度、波形的类型、反馈量、颤音和音效• 声音包络发生器:乐器声音除了有它自己的波形参数外,还有它自己的比较典型的声音包络线,声音包络发生器用来调制声音的电平,这个过程也称为调幅 AM ,并且作为数字式音量控制旋钮,它的 4 个参数写成 ADSR(Attack 起声 /decay衰落 /sustain维持 /release释放 ) ,这条包络线也称为音量升降维持静音包络线

• 数字运算器:用于组合数字载波和调制波形的参数进行数字运算

• 数模转换器:将数字信号转换成模拟声音

Page 53: 第 3 章  音频

FM 声音合成器所用的波形

Page 54: 第 3 章  音频

FM 声音合成器的工作原理

Page 55: 第 3 章  音频

通过改变合成器的参数可以生成不同的乐音

• 改变数字载波频率可以改变乐音的音调 ( 音高 )• 改变数字载波的幅度可以改变声音的音量• 改变波形的类型,如用正弦波、半正弦波或其它

波形,会影响基本音调的完整性• 快速改变调制波形的频率 (即音调周期 ) 可以改变颤音的特性

• 改变反馈量,就会改变正常的音调,产生刺耳的声音

• 选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同

Page 56: 第 3 章  音频

乐音样本合成器的工作原理

Page 57: 第 3 章  音频

MIDI 系统• MIDI消息 (MIDI messages) :告诉音乐合成器如何演奏一小段音乐的一种指令,其数据流是单向异步的数据位流 (bit stream) ,速率为 31.25 kbps ,每个字节为 10 位 (1 位开始位、 8 位数据位和 1位停止位 )

• MIDI 数据流:通常由下面两种 MIDI设备产生• MIDI控制器 (controller) :是当作乐器使用的一种设备(如乐器键盘),在播放时把演奏转换成实时的 MIDI 数据流

• MIDI 音序器 (sequencer) :是一种允许MIDI 数据被捕获、存储、编辑、组合和重奏的装置

Page 58: 第 3 章  音频

简单的 MIDI 系统

• 一个简单的 MIDI 系统,由一个 MIDI键盘控制器 ( 把演奏转换成实时的 MIDI 数据流 ) 和一个 MIDI 声音模块 ( 在 MIDI IN端口接收MIDI 信息,然后播放声音 ) 组成

• 许多 MIDI键盘乐器 ( 如电子琴 ) 在其内部,既包含键盘控制器,又包含MIDI 声音模块功能

Page 59: 第 3 章  音频

PC 机 MIDI 系统

Page 60: 第 3 章  音频

MIDI 的通道概念 • 单个物理 MIDI 通道 (channel) 分成 16 个逻辑通道,每个逻辑通道可指定一种乐器

• 在 MIDI 信息中,用 4 个二进制位来表示这 16 个逻辑通道• 音乐键盘可设置在这 16 个通道之中的任何一个,而 MIDI

声源或者声音模块可被设置在指定的 MIDI 通道上接收

Page 61: 第 3 章  音频

复杂MIDI 系统• 在一个 MIDI设备上的 MIDI IN 连接器接收到的信息可通过 MIDI THRU 连接器输出到另一个 MIDI设备,并能以菊花链的方式连接多个 MIDI设备,这样就可组成了复杂的 MIDI 系统

Page 62: 第 3 章  音频

MPC合成器• 多媒体个人计算机 MPC 要求声卡的合成器

是多音色和多音调的合成器• 多音色 (muti-timbral) 是指合成器能够同时

播放几种不同乐器的声音• 多音调 (polyphonic) (复音)是指合成器

一次能够同时播放的音符 (note) 数• MPC规格定义了两种音乐合成器:基本合

成器和扩展合成器

Page 63: 第 3 章  音频

MPC 的基本 /扩展合成器之间的差别

旋律乐器声

(melodic instruments)

打击乐器声

(percussive instruments) 合成器名称

(synthesizer) 音色数

(timbres)

音调数

(polyphony)

音色数

(timbres)

音调数

(polyphony)

基本合成器 3 6 3 3

扩展合成器 9 16 8 16

Page 64: 第 3 章  音频

3.5 音频编码音频信号包括窄带 (3.4kHz) 的话音信号

和宽带 (20kHz) 的 其他音 频 信 号 ( 包 括 音乐)

3.5.1 简介3.5.2 波形编译码3.5.3 音源编译码3.5.4 混合编译码

Page 65: 第 3 章  音频

3.5.1 简介• 由于话音信号和非话音信号的波形数据的压缩 /

编码方法差别较大,本节主要讲话音编码,而非话音编码将放在 MPEG 音频编码中介绍

• 单声道、 8 位 /样本、采样频率为 8 kHz 的话音数据流的码率是 1*8bit/样 *8k样 /s = 64kb/s

• 而现在调制解调器的速率一般为 28.8 kb/s 或 56 kb/s 。为了提高通信效率和带宽利用率,必须对话音数据进行编码压缩。联合国下属的国际电信联盟 ITU制定了一系列的话音编码标准 G.7xx

Page 66: 第 3 章  音频

音频编码算法与标准编码 算法 名称 数据率 标准 时间 质量

PCM 均匀量化 64kb/s

μ /A μ /A律压扩 64kb/s G.711 1972

ADPCM 自适应差值量化

32kb/s

24/40kb/s

16/24/40kb/s

16/24/40kb/s

G.721

G.723

G.726

G.727

1984

1986

1988

1990

波形编码

SB-ADPCM 子带-自适应

差值量化 48/56/64kb/s G.722 1988

4.0~4.5

音源编码 LPC 线性预测编码 2.4kb/s 2.5~3.5

LD-CELP 低延时码激励 LPC 16kb/s G.728/G.729 1992 3.7~4.0 混合编码

MPEG-1 多子带感知编码 128kb/s 1992 5.0

注:音源编解码器 (source codec)又叫参数编解码器 (parameter codec)

Page 67: 第 3 章  音频

普通编译码器的音质与数据率

Page 68: 第 3 章  音频

3.5.2 波形编译码• 波形编译码的想法是,不利用生成话音信

号的任何知识而直接由波形数据产生一种重构信号,它的波形与原始话音波形尽可能地一致

• 一般来说,这种编译码器的复杂程度比较低,数据速率在 16 kb/s以上,质量相当高。低于这个数据速率时,音质急剧下降

Page 69: 第 3 章  音频

常见波形编码

1.脉冲编码调制 PCM

2.自适应差分脉冲编码调制 ADPCM

3.子带 - 自适应差分脉冲编码调制 SB-ADPCM

4.全球移动通信系统 GSM

Page 70: 第 3 章  音频

1. PCM

• 脉冲编码调制 (PCM = pulse code modulation) :最简单的波形编码,它仅仅是对输入信号进行采样和量化

• 典型的窄带话音带宽限制在 4 kHz ,采样频率是8 kHz 。如果要获得高一点的音质,样本精度要用 12 位,它的数据率就等于 96 kb/s ,这个数据率可以使用非线性量化来降低

• 这种量化器在 20世纪 80年代就已经标准化,而且直到今天还在广泛使用。在北美的压扩标准是μ 律,在欧洲的压扩标准是 A 律

• 它们的优点是编译码器简单,延迟时间短,音质高。但不足之处是数据速率比较高,对传输通道的错误比较敏感

Page 71: 第 3 章  音频

PCM 编码框图

Page 72: 第 3 章  音频

量化方法• 均匀量化:采用相等的量化间隔对采样得

到的信号作量化,也称为线性量化。对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用

• 非均匀量化:基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。这样就可以在满足精度要求的情况下用较少的位数来表示信号

Page 73: 第 3 章  音频

均匀量化与非均匀量化

均匀量化 非均匀量化

Page 74: 第 3 章  音频

μ 律与 A 律• 在非线性量化中,采样输入信号幅度和量

化输出数据之间定义了两种对应关系,一种称为 μ 律压扩算法,另一种称为 A 律压扩算法

• μ 律压扩 (μ-Law companding) (G.711) 主要用在北美和日本等地区的数字电话通信中

• A 律压扩 (A-Law companding) (G.711) 主要用在欧洲和中国大陆等地区的数字电话通信中

Page 75: 第 3 章  音频

μ 律压扩•输入和输出的量化关系:

式中: x 为输入信号幅度,规格化成 -1≤x≤1 ; sgn(x) 为 x的极性; μ 为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取 100≤μ≤500

•由于 μ 律压扩的输入和输出关系是对数关系,所以这种编码又称为对数 PCM 。具体计算时,用 μ= 255 ,把对数曲线变成 8条折线以简化计算过程

1ln

1ln)sgn()(

xxxF

Page 76: 第 3 章  音频

μ 律曲线图( μ= 255 )

Page 77: 第 3 章  音频

A 律压扩•输入和输出的量化关系(分段函数):

式中: x 为输入信号幅度,规格化成 -1≤x≤1 ; sgn(x) 为 x的极性; A 为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比 •A 律压扩的前一部分是线性的,其余部分与 μ 律压扩相似为对数的。具体计算时, A= 87.56 ,为简化计算,同样把对数曲线部分变成折线

Ax

A

xAxxFA

1 0 ,

ln1

)sgn()(

1

1 ,

ln1

ln1)sgn()(

xAA

xAxxFA

Page 78: 第 3 章  音频

A 律曲线图( A= 87.56 )

Page 79: 第 3 章  音频

μ 律曲线与 A 律曲线比较图

Page 80: 第 3 章  音频

G.711 标准• 对于采样频率为 8 kHz ,样本精度为 13 位、

14 位或者 16 位的输入信号,使用 μ 率压扩编码或者使用 A 率压扩编码,经过 PCM编码器之后每个样本的精度为 8 位,输出的数据率为 64 kb/s

• 这个数据就是 CCITT推荐的 G.711 标准——话音频率脉冲编码调制 (PCM of Voice Frequencies)

Page 81: 第 3 章  音频

PCM 在通信中的应用• PCM 编码早期主要用于话音通信中的时分多路复用 (ti

me-division multiplexing , TDM) • TDM 是数字通信的主要手段,可容纳的话路数有两种规格:– 24路制:数据传输率 R= 8000Hz×193b= 1544kb/s ( 其

中, 8kHz 为采样频率, 193b=24路 ×8b[ 量化精度 ]+1b[ 同步位 ])

– 30路制:数据传输率 R= 8000Hz×2× (15路 +1 同步 )×8b= 2048kb/s

– 每一个话路的数据传输率= 8000Hz×8b=64kb/s

• 通常用群 (group) 这个术语来表示 PCM 信号复用的复杂程度。 PCM 通信方式发展很快,传输容量已由一次群 ( 基群 ) 的 30路 ( 或 24路 ) ,增加到二次群的 120路 ( 或 96路 ) ,三次群的 480路 ( 或 384路 ) ,……

Page 82: 第 3 章  音频

二次复用示意图

Page 83: 第 3 章  音频

多次复用的数据传输率表 数字网络等级 T1/E1 T2/E2 T3/E3 T4/E4 T5/E5

64 kb/s话路数 24 96 672 4032 美国

总传输率(Mb/s) 1.544 6.312 44.736 274.176

64 kb/s话路数 30 120 480 1920 7680 欧洲

总传输率(Mb/s) 2.048 8.448 34.368 139.264 560.000

64 kb/s话路数 24 96 480 1440 日本

总传输率(Mb/s) 1.544 6.312 32.064 97.728

• 在数字通信中,具有一次复用数据率的线路在北美叫做 T1远距离数字通信线,提供这种数据率服务的级别称为 T1等级,在欧洲叫做 E1远距离数字通信线和 E1等级。对应多次复用的为 T2/E2 、T3/E3 、 T4/E4 和 T5/E5等

Page 84: 第 3 章  音频

2. ADPCM• 在话音编码中,一种普遍使用的技术叫做预测技

术,这种技术是企图从过去的样本来预测下一个样本的值。这样做的根据是认为在话音样本之间存在相关性

• 如果样本的预测值与样本的实际值比较接近,它们之间的差值幅度的变化就比原始话音样本幅度值的变化小,因此量化这种差值信号时就可以用比较少的位数来表示差值。这就是差分脉冲编码调制 (DPCM = differential PCM) 的基础——对预测的样本值与原始的样本值之差进行编码

• 这种编译码器对幅度急剧变化的输入信号会产生比较大的噪声,改进的方法之一就是使用自适应的预测器和量化器,这就产生了一种叫做自适应差分脉冲编码调制 (ADPCM =adaptive DPCM)

Page 85: 第 3 章  音频

APCM• 自适应脉冲编码调制 APCM 是根据输入信

号幅度大小来改变量化阶大小的一种波形编码技术

• 改变量化阶大小的方法有两种:–前向自适应 (forward adaptation) :根据未量化

的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息 (side information) 传送到接收端

– 后向自适应 (backward adaptation) :从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。

Page 86: 第 3 章  音频

APCM 方块图

(a) 前向自适应

(b) 后向自适应

Page 87: 第 3 章  音频

DPCM• 差分脉冲编码调制 DPCM 是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术

• 差分脉冲编码调制的思想是,根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数

• 它与脉冲编码调制不同的是, PCM 是直接对采样信号进行量化编码,而 DPCM 是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。此外,它还能适应大范围变化的输入信号

Page 88: 第 3 章  音频

DPCM 方块图

Page 89: 第 3 章  音频

ADPCM

• 自适应差分脉冲编码调制 ADPCM综合了APCM 的自适应特性和 DPCM 系统的差分特性,是一种性能比较好的波形编码

• ADPCM 的核心想法是:–①利用自适应的思想改变量化阶的大小,即使

用小的量化阶 (step-size)去编码小的差值,使用大的量化阶去编码大的差值

–②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小

Page 90: 第 3 章  音频

ADPCM 方块图

Page 91: 第 3 章  音频

G.721/G.723 标准• ADPCM 是利用样本与样本之间的高度相关

性和量化阶自适应来压缩数据的一种波形编码技术

• CCITT 为此制定了 G.721推荐标准—— 32 kb/s 自适应差分脉冲编码调制,它使用 ADPCM转换技术,实现 64 kb/s A 律或 μ 律PCM 速率和 32 kb/s 速率之间的相互转换

• 在此基础上 CCITT 还制定了 G.721 的扩充推荐标准 G.723 ,使用该标准的编码器的数据率可降低到 24 kb/s

Page 92: 第 3 章  音频

3. SB-ADPCM• 两类编译码方法:

– 时域法 (time domain approach) :在时域里开发的编译码方法,如上述的所有波形编译码器 PCM~ADPCM

– 频域法 (frequency domain approach) :在频域里开发的编译码方法,如子带编码 (sub-band coding , SBC)

• 子带编码将输入的话音信号被分成好几个频带(即子带 ) 。对听觉感知比较重要的子带信号,编码器可分配比较多的位数来表示它们,于是在这些频率范围里噪声就比较低。对于其他的子带,由于对听觉感知的重要性比较低,允许比较高的噪声,于是编码器就可以分配比较少的位数来表示这些信号

Page 93: 第 3 章  音频

• 子带编码需要用滤波器把信号分成若干个子带,这比使用简单的 ADPCM 编译码器复杂,而且还增加了更多的编码时延,但压缩比较高

• 自适应位分配的方案和差分方法也可以考虑用来进一步提高音质,从而就有了子带 -自适应差分脉冲编码调制 SB-ADPCM

Page 94: 第 3 章  音频

子带编码子带编码 SBC 的基本思想是:• 使用一组带通滤波器 (band-pass filter , BP

F) 把输入音频信号的频带分成若干个连续的频段,每个频段称为子带。对每个子带中的音频信号采用单独的编码方案去编码

• 在信道上传送时,将每个子带的代码复合起来• 在接收端译码时,将每个子带的代码单独译码,

然后把它们组合起来,还原成原来的音频信号

Page 95: 第 3 章  音频

子带编码的优点采用对每个子带分别编码的好处有二个:• 第一,对每个子带信号分别进行自适应控制,量

化阶 (quantization step) 的大小可以按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化,以减少总的量化噪声

• 第二,可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。例如,在低频子带中,为了保护音调和共振峰的结构,就要求用较小的量化阶、较多的量化级数,即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少的位数

Page 96: 第 3 章  音频

子带编码方块图

Page 97: 第 3 章  音频

SB-ADPCM 与 G.722

• 子带自适应差分脉冲编码调制 (sub-band adaptive differential pulse code modulation , SB-ADPCM) ,用正交镜象滤波器 QMF 把频带分割成两个等带宽的子带,分别是高频子带和低频子带。在每个子带中的信号都用 ADPCM进行编码

• G.722 是 CCITT推荐的音频信号编码译码标准,其编译码系统采用的是 SB-ADPCM 技术。该标准描述了音频信号带宽为 7 kHz 、数据率为 64 kb/s 的编译码原理、算法和计算细节

Page 98: 第 3 章  音频

G.722 的 SB-ADPCM 编译码方块图

Page 99: 第 3 章  音频

窄带和宽带音频信道频率特性

Page 100: 第 3 章  音频

4. GSM 编译码器简介• GSM (Global System for Mobile communications,

全球移动通信系统 )算法:是 1992年柏林技术大学根据欧洲最流行的数字蜂窝电话通信协议 GSM开发的,它是 ADPCM算法之外的另一种使用较普遍的波形声音压缩算法

• GSM 的输入是帧 (frame) 数据,一帧 (20毫秒 )由采样频率为 8 kHz 的带符号的 160 个样本组成,每个样本为 13 位或者 16 位的线性 PCM 码

• GSM 编码器可把一帧 (160×16b=2560b) 的数据压缩成 260b 的 GSM帧,压缩前后的数据率分别为 128 kb/s 和 13.2 kb/s ,压缩比近似于 10:1

Page 101: 第 3 章  音频

3.5.3 音源编译码• 音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音

• 在话音生成模型中,声道被等效成一个随时间变化的滤波器,叫做时变滤波器 (time-varying filter) ,它由白噪声(无声话音段)激励,或者由脉冲串(有声话音段)激励。因此需要传送给解码器的信息有滤波器的规格、发声或者不发声的标志和有声话音的音节周期,并且每隔 10 ~ 20 ms 更新一次

• 声码器的模型参数既可使用时域的方法也可以使用频域的方法确定,这项任务由编码器完成

• 这种声码器的数据率在 2.4 kb/s左右,产生的语音虽然可以听懂,但其质量远远低于自然话音。增加数据率对提高合成话音的质量无济于事,这是因为受到话音生成模型的限制。尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上

Page 102: 第 3 章  音频

LPC• 线性预测编码 (linear predictive coding , LPC) 是一种非

常重要的音源编码方法• 从原理上讲, LPC 是通过分析话音波形来产生声道激励

和转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,这就使声音的数据量大大减少

• 在接收端使用 LPC 分析得到的参数,通过话音合成器重构话音。合成器实际上是一个离散的随时间变化的时变线性滤波器,它代表人的话音生成系统模型

• 时变线性滤波器既当作预测器使用,又当作合成器使用。分析话音波形时,主要是当作预测器使用,合成话音时当作话音生成模型使用。随着话音波形的变化,周期性地使模型的参数和激励条件适合新的要求

• 线性预测器是使用过去的 P 个样本值来预测现时刻的采样值 x(n)

Page 103: 第 3 章  音频

预测概念

Page 104: 第 3 章  音频

预测值的计算• 预测值可以用过去 P 个样本值的线性组合来表示:

• 预测误差为一个线性差分方程 ( 其中 a0=1) :

• 在给定的时间范围里,如 [n0 ,n1] ,使 e(n) 的平方和为最小:

• 求解此偏微分方程,可得到滤波器系数 ai 的值。这些参数不再是声音波形本身的值,而是发音器官的激励参数。在接收端重构的话音,也不再具体复现真实话音的波形,而是合成的声音

p

iipre inxanx

1

)()(

p

iipre inxanxnxne

0

)()()()(

min)]([1

0

2

n

nn

ne

Page 105: 第 3 章  音频

3.5.4 混合编译码• 波形编译码器虽然可提供高话音的质量,但数据率

低于 16 kb/s 的情况下,在技术上还没有解决音质的问题;声码器的数据率虽然可降到 2.4 kb/s甚至更低,但它的音质根本不能与自然话音相提并论

• 混合编译码的想法是企图填补波形编译码和音源编译码之间的空白,以得到音质高而数据率又低的编译码器。最成功并且普遍使用的编译码器是时域合成 - 分析 (analysis-by-synthesis , AbS) 编译码器

• AbS 编译码器使用的声道线性预测滤波器模型与线性预测编码 LPC 的相同,但不使用两个状态 ( 有声 /无声 ) 的模型来寻找滤波器的输入激励信号,而是企图寻找这样一种激励信号,使用这种信号激励产生的波形尽可能接近于原始话音的波形

Page 106: 第 3 章  音频

AbS 编译码器的结构

(a) 编码器

Page 107: 第 3 章  音频

(b) 译码器

• AbS 编译码器把输入话音信号分成许多长度为 20 ms左右的帧。输出为每帧的合成滤波器的参数和激励信号

• 合成滤波器通常使用全极点 (all pole) 的短期 (short-term) 线性滤波器,它的函数如:

其中)(

1)(

zAzH

p

i

ii zazA

1

1)(

Page 108: 第 3 章  音频

3.6 语音处理简介

语音处理可分为三种类型:• 语音通信 (voice communication) ( 人→人 )• 语音合成 (speech synthesis) ( 机→人 )• 语音识别 (speech recognition) ( 人→机 )

语音通信、语音合成和语音识别中的语音输入在第 2章中已讲,下面只讲语音识别的分类

Page 109: 第 3 章  音频

语音识别的分类可根据识别对象对语音识别进行如下分类:• 语音内容识别(语音输入 / 声控, IBM/Intel/Microso

ft/ 中科院自动化所)– 单词识别( IBM ViaVoice )– 句子识别 – 内容理解:故事情节理解(情景动画,中科院数学所陆汝钤 /张松懋)

• 讲话人识别– 与内容有关的:如进入系统的安全口令。(声纹 + 内容)– 与内容无关的:如公安局从录音中确认罪犯(声纹,中大欧贵文)

Page 110: 第 3 章  音频

作业• 平时作业 3 (选做):用 VC 编写一个直接读写 WAV文件二进制数据,并在窗口中绘出波形图且播放声音的 Windows应用程序。

• 大作业参考选题 3 :数字音频的编码技术与格式、数字音频的存储介质与格式(文件、光盘和磁带)。

• 大作业参考选题 4 : MIDI/GM/XMF/MIDI XML 的标准、应用、分析、比较、编程。

Page 111: 第 3 章  音频

复习思考题• 音频的英文是什么?它与声音有什么区别?音频一般

分为哪三类?• 室温下空气中的声速是多少? • 声音是一种什么样的波?与水波有何区别?一般用哪

两个物理量来描述?• 什么叫纯音?什么叫复音?怎样确定复音的音高?• 什么叫基音和谐音?它们之间有什么关系?• 声音有哪三个要素?它们的含义是什么?• 人类听觉的频率范围是什么?语音的频率范围又是什么?

• 人耳有哪些部分构成?它们各有什么功能?• 听觉有哪些有用的感知特性?

Page 112: 第 3 章  音频

• 模拟信号与数字信号的区别在哪里?如何将音频信号数字化?

• 如何确定无损数字化的采样频率? 按 Nyquist 采样定理,语音和音乐之无损数字化的采样频率各是多少?

• 历史上出现过哪些流行的模拟频的录制 /存储 / 播放技术和设备?

• 常用的音频文件格式有哪些?它们分别采用的是无损还是有损压缩?

• 有哪些数字音频编码技术和存储介质?它们各有什么主要特点和应用范围?

• MIDI 的英文原文与中文译文各是什么?与波形数据相比MIDI 有哪些优点?

• 与 MIDI 相关的标准还有哪些?• 音乐生成方法有哪两种?它们各有什么特点?

Page 113: 第 3 章  音频

• MIDI 的控制器与音序器各起什么作用?以电子琴和计算机为例说明之。

• 多音色和复音的含义是什么?• 窄带和宽带音频信号各指什么?• 话音编码有哪三类?它们各有什么特点?• PCM 的英文原文与中文译文各是什么? PCM 编码

的含义是什么?• μ 律与 A 律有什么共同点和不同点?• 数字通信中的 T1/E1等级及其数据率是如何制定的?• 给出差分编码与自适应编码的思路。• 为什么需要子带编码?它与音感编码有什么关系? • 语音处理可分为哪三类?它们各有什么特色?• 根据识别对象不同,语音识别可分为哪两类?它们

的主要应用各是什么?