第 12 章 语音增强技术
DESCRIPTION
第 12 章 语音增强技术. §12.1 语音增强技术的概念和研究的意义 §12.2 噪声度量、特性和评价 §12.3 语音增强的原理和方法. §12.1 语音增强技术的概念和研究的意义. 一、语音增强的定义 二、语音增强研究的意义. 一、语音增强的定义 语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。. 二、语音增强的意义. - PowerPoint PPT PresentationTRANSCRIPT
第 12 章 语音增强技术
§12.1 语音增强技术的概念和研究的意义
§12.2 噪声度量、特性和评价
§12.3 语音增强的原理和方法
§12.1 语音增强技术的概念和研究的意义
一、语音增强的定义
二、语音增强研究的意义
一、语音增强的定义
语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
二、语音增强的意义
1. 日常生活中,经常会遇到在噪声干扰下
进行语音通信的问题。例如在汽车、火车上使
用移动电话,旁人的喧闹声,马路旁和市场里
的公用电话等。
2. 军事通信中,指挥员的作战命令和战斗
员的战情汇报都需要用语音来表达,由于战斗
环境中的声环境恶劣,特别是炸弹产生的冲击
性噪声,使有用信号完全淹没在噪声中。
( 3)窃听技术中需要语音增强
( 4)语音识别技术需要语音增强
在实际生活中,语音信号无时无地不受各种噪
声干扰。人们正常的生活环境就是一个声级为 60dB
左右的噪声环境。被强噪声污染的场合,噪声达
120dB以上。
§12.2 噪声度量、特性和评价
一、噪声的分类和度量
二、噪声的特性
一、噪声的分类和度量
1.噪声的定义:噪声是扣除被测信号真实值后
的各种测量值,可能来自外界环境、物理系统、
操作人员等。广义将噪声称为干扰。
按产生原因和按噪声性质分类。
( 1)产生原因:产生于物理系统外部,并
以声、光、电、机械等方式作用于物理系
统,称为外部噪声;物理系统内部产生的噪
声称为内部噪声,例如量子噪声等。
2.噪声的分类
( 2)按性质分为:脉冲噪声(爆炸、撞击和放
电)和连续噪声;周期性周期(如交流电的干扰)
和非周期性噪声;按统计特性分为:平稳噪声(如
白噪声)和非平稳噪声(如色噪声);按噪声和信
号相关的性质分为加性噪声和乘性噪声。
我们研究的噪声是声音的一种,它具有声波的
一切特性,称之为声噪声。
3.噪声的度量
声压、声强和声功率
( 1)声压级 (SPL): Lp=20lg(P/P0) P0=
20uPa
( 2 )声强级: LI=20lg(I/I0)
I0=1012W/m2
( 3 )声功率级: Lw=20lg(W/W0)
W0=1012W
噪声源和噪声环境 声压 /Pa
声压级 /dB
飞机附近 200 140
织布车间 20 100
地铁 0.63 90
繁华街道 0.063 70
普通谈话 0.02 60
安静房间 0.002 40
耳语 0.00063 30
树叶沙沙声 0.0002 20
农村静夜 0.000063
10
听阈 0.00002 0
声压和声压级表征声音在物理上的强弱,它是对噪声的客观评价,不能表征人对声音的主观感觉。响应级和响度是人耳对噪声的主观评价的基本量之一。响度的单位为宋( Sone)响度级的单位为方( phon),在数值上等于 1kHz纯音的声强级。
噪声度量的另一个参数就是信噪比。
SNR=SNRout/SNRin
二、噪声的特性
从统计特性的角度讲:平稳噪声和非平
稳噪声。白噪声是平稳噪声中的一种,其频谱
和功率谱为常数,其概率密度分布是满足正态
分布。
§12.3 语音增强的原理和方法
一、频域语音增强技术
二、时域语音增强技术
三、时频语音增强技术
四、麦克风阵列语音降噪技术
一、频域语音增强技术
是语音信号中的一种重要技术,由于其原理简单所以被广泛使用,如手机中的降噪处理就是采用的此方法,美国NCT的 Clear Speech产品中,就是应用的这技术。谱相减法是频域语音增强技术的常用方法。
1. 谱相减法的基本原理描述2. 谱相减法的数学推导3. 谱相减法的特点
1. 谱相减法( Spectral Subtraction)的基本原理描述
DFT 平方 平方 DFT
+ -
插入相位 开方
IDFT
含噪语音x(n)=s(n)+d(n)
|X(ejw)|d'(n)
|D'(ejw)|
纯噪
声
|S'(ejw)|
ejarg(X(jw))
s'(n)
原始语音谱幅度的估值
将含噪语音信号和有声 /无声判别
得到的纯噪声信号进行 DFT变化,从含
噪语音谱幅度的平方中减去纯噪声的谱幅
度的平方,然后开方,得原始语音谱幅度
的估值,再借用含噪语音的相位,进行
IDFT变化,得到增强的语音。
2. 谱相减法的数学推导 首先假设语音和噪声信号是线性叠加的,且
噪声是平稳的,噪声与语音信号不相关。
x(n)=s(n)+d(n) X(ejw)=S(ejw)+D(ejw)
简写为 : X(w)=S(w)+D(w)
X(w)• X*(w) =(S(w)+D(w)) • (S(w)+D(w))*
展开得到:
|X(w)|2=|S(w)|2+ |D(w)|2+ S(w) • D*(w) + S*(w) • D (w)
对上式两边取数学期望有:
E[ |X(w)|2 ]= E[ |S(w)|2 ] + E[ |D(w)|2 ] +
E[ S(w) • D*(w) ] + E[ S*(w) • D (w) ]
由于噪声与语音信号不相关,且傅立叶变换
不会改变信号之间的相关性,上式中,最后两项
均为 0。则上式简化为:
E[ |X(w)|2 ]= E[ |S(w)|2 ] + E[ |D(w)|2 ]
利用语音信号的短时平稳性,加之噪声信号的平稳性。由于傅立叶变换不会改变信号的统计特性,在一帧中, X(w) 、 S(w)和 D(w)都是平稳的。因此,在一帧内可用单个值来代替均值。
|X(w)|2 = |S(w)|2 + |D(w)|2
利用有声 /无声判决的纯噪声信号 d'(n)与d(n)不完全一致,因此:
|S'(w)| 2 = |X(w)|2 - |D'(w)|2
= |S(w)|2 + |D(w)|2 - |D'(w)|2
s'(n) =IDFT[ |S'(w)| ejarg(X(jw)) ]
3. 谱相减法的特点(1)原理简单,只需要一个话筒,故又称为单话筒语
音降噪。
话音
噪声
谱相减法处理
输出话筒
(2) 需要无声和有声判决,在信噪比大的情况
下,使用短时平均能量等参数可达到效果。
(3)由于该方法存在的前提条件要求噪声平
稳,因此当噪声特性变化时,消噪效果可能会
变差,这时需要重新拾取噪声特性。
(4)由于噪声的随机分布的范围广,因此相减
时,若该帧某频率点上的噪声谱幅度分量大时,
就会有很大一部分残留,在频谱上呈现随机起伏
的尖峰。在听觉上形成有节奏的类似音乐的残留
噪声,又称为背景音乐噪声。背景音乐噪声损伤
了语音的质量,降低了可懂度和清晰度,是该类
方法最大的缺点。
蓝色为原始含噪语音
黄色为谱相减处理的结果
二、时域语音增强技术
语音增强中另一常用技术,其特点是对语音的
损伤小。在消噪过程中,一般需要二个以上话筒,
采用自适应滤波算法。故常常将时域语音增强技术
称为自适应语音降噪技术( Adaptive noise
canceling ANC)。
主话筒和参考话筒获得的信号是语音和噪声在话筒处迭加后的混合信号。
话音
噪声
+
自适应滤波器
主话筒 + 输出
参考话筒-
主信号 s+n0,为有用信号 s(来自信号源)和一个与它不相关的噪声信号的混合而成。 n1为另外拾取的噪声参考信号,与 n0相关。
主输入信号 x=s+n0 + 输出s’
参考输入n1
自适应滤波器
+
n’-
1. 自适应消噪的基本原理描述
将参考信号 n1通过自适应滤波器后,得到信号n’(n),此信号与 n0(n)基本一致。
x(n)-n’(n)=s(n)+n0(n)-n’(n)=s(n)
+e(n)=s’(n)
s’(n)中仍然包含部分噪声 (e(n)),要使这部分噪声小,达到完全消除噪声的目的 (e(n)=0),则n’(n) 尽可能与 n0(n)一致。 常常引入 s’(n)调节滤波器的参数,形成自适
应地修改滤波器的参数,使 e(n)的均方误差最
小。
滤波器为 FIR滤波器,其直接结构为:
n1(n) z-1 z-1 z-1
h(0)
h(1)
h(2)
h(N-1) n’(n)
每一时刻刷新滤波器系数 h(i)
n’(n)= n1(n)h(0)+ n1(n-1)h(1)+ … +
n1(n-N+1)h(N-1)
s’(n)=x(n)-n’(n)
如何更新滤波器的系数,采用 e(n)的均方误差最小的准则,形成 LMS( Least mean
Square)算法。为了便于讲解,将第 n个时刻的所有滤波器系数 h(i),写为 hi(n),则有:
n’(n)= n1(n)h0(n)+ n1(n-1)h1(n)
+ ... +
n1(n-i)hi(n)+ ... + n1(n-
N+1)hN-1(n)
第 n个采样时刻:
( 1)拾取 x(n)和 n1(n)信号
( 2) n’(n)=n1(n)h0(n)+n1(n-
1)h1(n)+
+n1(n-i)hi(n)++n1(n-
N+1)hN-1(n)
( 3) s’(n)=x(n)- n’(n)
( 4) hi(n+1)=hi(n)
+2*u*s’(n)*n1(n-i)
{i=0~N-1}
( 5)输出 s’(n)
n1(n)n1(n-1)
n1(n-N+1)
)1(
)(
)1(
)(
)(2
)(
)(
)(
)(
)1(
)1(
)1(
)1(
1
1
1
1
1
1
0
1
1
0
Nnn
inn
nn
nn
nsu
nh
nh
nh
nh
nh
nh
nh
nh
N
i
N
i
n1(n) z-1 z-1 z-1
h0(n)
h1(n) h2(n) hN-
1(n)
n’(n)+
+
+
-s’(n)
x(n)
2. 自适应消噪的实现框图
模拟放大
两路A/D
输出抗混叠滤波 DSP
一路D/A
输入
在 DSP中实现核心 LMS算法,采样率为 8kHz,
利用 DSP串行口或定时器中断,每隔 125us中断
一次,读入两路数据,将参考数据按照先入先出的
顺序排列,进行滤波,用主通道信号减去滤波后的
数据,得到增强后的信号,将此信号输出,修改滤
波器权系数。
0 2000 4000 6000 8000 10000 12000-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
抗交叉串扰自适应滤波消噪输出结果
0 2000 4000 6000 8000 10000 12000-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
主输入信号(收音机失谐纯噪声)
3. 影响自适应消噪效果的因素
( 1)参考信号中含有语音成分,则通过滤波
后, n’(n)信号中含有有用信号成分,经过相减
后,将主通道信号减去一部分,损伤了有用信息。
话音
噪声
+
自适应滤波器
主话筒 + 输出
参考话筒-
可以证明,输出信号的信噪比和参考信号的
输入信噪比有如下关系:
参出
=
n
S
n
S
P
P
P
P1
可见,当参考通道的输入信噪比愈强,噪声抵消系统输出信噪比愈差,所以,为了获得好的噪声抵消系统性能,应使参考通道检测的信号尽可能小。
( 2)主输入信号和参考输入信号中含有非相关
的噪声成分 m0和 m1 。自适应滤波只能将两个输
入中的噪声相关部分滤掉,则当信号不相关时,则
无法消除。
话音
噪声
+
自适应滤波器
主话筒 + 输出
参考话筒-
m0
m1
原始含噪语音
基本自适应抗噪输出结果
三、时频语音增强技术
为了达到更好的消噪效果,可将自适应消噪
技术和谱相减结合起来。
自
适
应
消
噪
主输入信号
参考信号
谱
相
减
消
噪
增强语音
0 0.5 1 1.5 2 2.5 3 3.5
x 104
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
原始含噪语音
自适应抗噪与谱相减相结合后的输出结果
基本自适应抗噪输出结果
Clear Speech Speaker
List Price: $179.95Our Price: $149.95
ClearSpeech Speaker is a digital speaker that removes up to 95% of background noise from the receive side of any two-way radio communication. The most common complaint about mobile communications is background noise. ClearSpeech™-Speaker is a high-tech, low cost solution that enhances the audio quality of car and truck fleet, emergency vehicle, marine, and ham radio communications.
四、麦克风阵列语音降噪技术
由于自适应语音降噪技术消除的是两个话筒中的噪声相关部分。因此当增加一个话筒,则增加一份与主话筒噪声相关的部分,采用自适应滤波,则可将主话筒的噪声消除一部分。
话音
噪声
+主话筒 + 输出
自适应滤波器参考话筒 2
-自适应滤波器
参考话筒 1 -
蓝色为原始噪声;黄色为双话筒自适应语音降噪处理结果;紫色为三个麦克风自适应语音降噪处理结果。
有源降噪技术 (有源消声 )
一、噪声控制的引入
二、噪声控制的分类
三、有源噪声控制的原理
四、有源噪声控制的应用
随着现代工业的发展,噪声污染已经成为一个
世界性的问题。传统的噪声控制主要是消声,诸如用
吸声材料等,但是存在对低频噪声无能为力的缺点。
而日常生活密切相关的噪声却大多以低频噪声为主,
如家用电器中的空调、冰箱的噪声。因此提出新的噪
声控制方法的必要。
一、噪声控制的引入
从军事角度讲,舱室的降噪具有实际
应用意义。例如,军用飞机、战车、舰艇和
航天飞行器的舱内噪声高,对乘员的听力、
通话、健康和操作的影响非常不利且降低战
斗力,因此要从技术上解决舱室内噪声的来
源,并进行噪声控制。
通过吸声处理来达到控制噪声的目的,属于被动式或无源控制方法,称之为无源噪声控制( Passive Noise Control)。
随着电子技术的发展,采用有源器件(放大器、话筒和扬声器),利用声波干涉的原理,人为产生一列与原噪声幅度相同相位相反的声波,与原噪声抵消,以达到噪声控制的目的,这类噪声控制方法称之为有源噪声控制( Active Noise
Control)。
二、噪声控制的分类
放大电路
噪声
局部静区
简单的有源噪声控制
Microphone
Speaker
Sennheiser Active Noise Cancelling Headphones
Code: PXC250Price:$129.00Shipping Weight: 1.10 pounds
由于噪声源具有强烈的时变特性,为
了达到实时跟踪噪声的目的,采用自适应控
制器,用数字信号处理的方法来解决,形成
了自适应有源噪声消除方法( Adaptive
Active Noise Cancellation ,简称
为 AANC)。
三、有源噪声控制的原理次级声源
误差传感器
自适应控制
噪声
自适应有源噪声消除原理框图
初级声源
初级传感器
初级噪声源发出的噪声传播到误差传感器,同
时, 初级传感器检测噪声,送入自适应控制器,经
功放由扬声器播放,传播到误差传感器处,并与初
级噪声叠加,达到消除噪声的目的,由误差传感器
检测残余噪声并送入自适应控制器,经特定的自适
应算法进行控制,是残余噪声最小。
消除的噪声的关键是:初级噪声和次级噪声在误差传感器处尽可能幅度相同,相位相反。这个过程由自适应算法来实现。
为了进一步详细研究,将自适应有源噪声消除原理框图抽象化,得到等效原理图。
声通道
自适应滤波 Hs(ejw
)Hm(ejw
)
+
-
x(n)
Hs(ejw)为扬声器的系统函数
Hm(ejw)为话筒的系统函数。
H1(ejw)
自适应滤波 H2(ejw)
+
-
x(n)
H2(ejw)=Hs(ejw) • Hm(ejw) 是扬声器和话筒的合成传递函数。
H1(ejw)是声通道和麦克风的合成传递函数。
p(n)
自适应滤波h(n)
hs(n)
hm(n)
+
-
x(n)
常用的自适应算法为 FLMS算法d(n)
s(n)
e(n)
y(n)
y(n)=x(n)*h(n)
s(n)= y(n)* hs(n) h2(n)=hs(n)* hm(n)
e(n)=[d(n)-s(n)]*hm(n)=d(n)* hm(n)-y(n)*h2(n)
r(n)=x(n)*h2(n) hi(n+1)=hi(n)-2ue(n)r(n-i)
自适应控制h(n)
噪声 x(n)
e(n)
y(n)
hs(n) hm(n)
在实际的测试中往往只可测得 x(n)和 e(n)
不可知: y(n) 、 h(n)、 hs(n) 和 hm(n)
y(n)=x(n)*h(n)
r(n)=x(n)*h2(n)
hi(n+1)=hi(n)+2ue(n)r(n-i)
对于 h2(n)=hs(n)* hm(n)需要在有源自适应降噪以前将传递函数学习出来。
噪声 自适应控制 h2(n
)
y(n)
e(n)
x(n)
hs(n) hm(n)
e(n)
自适应滤波器
h2(n)y(n)为白噪声
y(n)和 e(n)已知,求 h2(n),当算法收敛时,实际上h2(n)就是自适应滤波器滤波系数h(n)。
y1(n)=y(n)*h(n)
e1(n)=e(n)-y1(n)
+
自适应滤波器
e(n) + e1(n)
y(n)-
y1(n)
hi(n+1)=hi(n)+2ue1(n)y(n-i)
发动机
噪声
噪声
控制器
轿车内自适应有源噪声控制系统
Speaker
Microphone四、有源噪声控制的应用
回声消除技术A端的信号+ B端经混合线圈的回传信号
B端的信号+ A端经混合线圈的回传信号
A B
B
A
自适应滤波器
+
-
x(n)+r(n)
r'(n)
y(n)
回声通道W(Z)
x(n)+r(n)- r'(n)
检测回声信号 y(n)的检测采用短时的能量来判断。