一种混响环境下的鲁棒高精度语者声源到达角估计方法web.pkusz.edu.cn/adsp/files/2015/10/266_full_paper.pdf ·...

5
NCMMSC2014 新加坡 2014 9 一种混响环境下的鲁棒高精度语者声源到达角估计方法 * 郭轶凡,邹月娴,王永庆 (北京大学信息工程学院 ADSPLAB/ELIP,深圳 518055) 摘:语者声源到达角(Direction of Arrival DOA)估计是服务机器人听觉系统的关键技术之一。本文基于声学 矢量传感器(Acoustic Vector SensorAVS)和空间声源稀疏表示理论,开展了鲁棒高精度语者声源定位方法研究。 在混响和加性噪声模型下,推导出 AVS 通道传感器之间的时频点数值比近似模型,获得语者声源 DOA AVS 接收 时频点数值比之间的一一对应关系。为了达到鲁棒的语者声源定位,本文采用提取语音信号帧的基频及谐波并进行函 数拟合的方法获取可信的高信噪比时频点,并依此建立 DOA 估计的空间稀疏表示模型并求解获得高精度 DOA 估计。 通过在不同混响和加性噪声条件下的实验结果表明,本文提出的语者声源 DOA 估计方法在加性信噪比 5dB~30dB 围内可获得均方根误差(RMSE)小于 0.5°的估计精度,在实际环境中也取得了较好的结果。此外,该方法具有与 声源频率无关以及对混响不敏感的优点,且 AVS 具有体积小,传感器数目少的特点,该 DOA 估计方法有可能为在家 庭自然环境条件下的服务机器人语者声源 DOA 估计提供解决方案。 关键词:声学矢量传感器;到达角估计;空间稀疏表示;传感器间数值比;时频稀疏性 中图分类号:TN912.3 *基金项目:国家自然科学基金项目(No: 61271309作者简介:郭轶凡(1989-),女(汉),河北 通讯联系人:邹月娴,教授,邮箱:[email protected] 随着信息技术、视觉技术和语音技术的快速发展,智 能服务机器人成为工业界和学术界的研究热点。其中,听 觉感知则是一项具有挑战的技术,快速、精确的进行空间 语者声源目标的方位识别是服务机器人听觉感知系统的基 本且重要的功能。然而,基于传统麦克风阵列的声源 DOA 估计技术在此应用中面临诸多问题: 1)服务机器人通常工 作在较为嘈杂和具有混响的环境(客厅、卧室、医院等); 2)空间声源目标为语者,语音信号为宽带信号;3)服务 机器人能够安装传感器的空间有限(通常为机器人头部大 小)。因此,开展新型 DOA 估计技术具有重要的意义。本 文采用一种新型传感器阵列——AVS [1] 作为音频信号传感 器,其结构示意图如图 1 所示。与传统的麦克风阵列相比, AVS 具有体积小、近似空间同位、各通道间无时间差且存 在三角函数关系等特殊优点,成为实现声源 DOA 估计以 及空间干扰噪声抑制的新研究点 [2]-[6] 基于 AVS 的独特优点,本实验室团队也开展了相关研 究工作。在空间稀疏表示(Spatial Sparsity RepresentationSSR)框架下,充分利用了 AVS 阵列接收数据模型与其子 阵列流形矩阵的关系,提出了一种采用较低复杂度获得较 DOA 估计精度的算法。但该方法采用了 8 个间隔半波 长的 AVS 阵列,体积较大,不能应用于小型移动设备上。 为了满足便携式设备的声源 DOA 估计需求,我们提出了 一种基于单个 AVS 以及语音时频(Time-Frequency TF1 AVS 结构图 稀疏特性的 DOA 估计新算法。该方法推导了时频域 AVS 的不同通道传感器之间的数值比(Inter-Sensor Data RatioISDR)与声源 DOA 之间的一一对应关系。为了获得稳定 DOA 估计,该方法利用语音正弦迹提取具有高局部信 噪比(High Local SNRHLSNR)的时频点,并对具有 HLSNR 的时频点对应的 ISDR 值进行聚类,计算其均值, 则获得 DOA 的估计。然而,实际环境下,计算出的 ISDR 值会受到噪声和混响干扰,因此,通过聚类方法估计出的 DOA 也随之会偏离真实的 DOA 值。此外,研究表明,对 于传统的基于麦克风阵列的 DOA 估计方法,混响和强噪 声同样会降低 DOA 估计精度 [7] 本文开展混响和噪声环境中的语者声源 DOA 估计研 究,在 ISDR 模型基础上,采用 SSR 理论框架建立语者声源 的稀疏模型,通过求解稀疏向量获得高精度 DOA 估计。为 了减少噪声和混响对 DOA 估计的影响,我们将只对具有语

Upload: others

Post on 27-Nov-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 一种混响环境下的鲁棒高精度语者声源到达角估计方法web.pkusz.edu.cn/adsp/files/2015/10/266_Full_Paper.pdf · ncmmsc2014 新加坡 2014 年9 月 一种混响环境下的鲁棒高精度语者声源到达角估计方法*

NCMMSC2014 新加坡 2014 年 9 月

一种混响环境下的鲁棒高精度语者声源到达角估计方法*

郭轶凡,邹月娴,王永庆

(北京大学信息工程学院 ADSPLAB/ELIP,深圳 518055)

文 摘:语者声源到达角(Direction of Arrival ,DOA)估计是服务机器人听觉系统的关键技术之一。本文基于声学

矢量传感器(Acoustic Vector Sensor,AVS)和空间声源稀疏表示理论,开展了鲁棒高精度语者声源定位方法研究。

在混响和加性噪声模型下,推导出 AVS 通道传感器之间的时频点数值比近似模型,获得语者声源 DOA 与 AVS 接收

时频点数值比之间的一一对应关系。为了达到鲁棒的语者声源定位,本文采用提取语音信号帧的基频及谐波并进行函

数拟合的方法获取可信的高信噪比时频点,并依此建立 DOA 估计的空间稀疏表示模型并求解获得高精度 DOA 估计。

通过在不同混响和加性噪声条件下的实验结果表明,本文提出的语者声源 DOA 估计方法在加性信噪比 5dB~30dB 范

围内可获得均方根误差(RMSE)小于 0.5°的估计精度,在实际环境中也取得了较好的结果。此外,该方法具有与

声源频率无关以及对混响不敏感的优点,且 AVS 具有体积小,传感器数目少的特点,该 DOA 估计方法有可能为在家

庭自然环境条件下的服务机器人语者声源 DOA 估计提供解决方案。

关键词:声学矢量传感器;到达角估计;空间稀疏表示;传感器间数值比;时频稀疏性

中图分类号:TN912.3

*基金项目:国家自然科学基金项目(No: 61271309)

作者简介:郭轶凡(1989-),女(汉),河北

通讯联系人:邹月娴,教授,邮箱:[email protected]

随着信息技术、视觉技术和语音技术的快速发展,智

能服务机器人成为工业界和学术界的研究热点。其中,听

觉感知则是一项具有挑战的技术,快速、精确的进行空间

语者声源目标的方位识别是服务机器人听觉感知系统的基

本且重要的功能。然而,基于传统麦克风阵列的声源 DOA

估计技术在此应用中面临诸多问题:1)服务机器人通常工

作在较为嘈杂和具有混响的环境(客厅、卧室、医院等);

2)空间声源目标为语者,语音信号为宽带信号;3)服务

机器人能够安装传感器的空间有限(通常为机器人头部大

小)。因此,开展新型 DOA 估计技术具有重要的意义。本

文采用一种新型传感器阵列——AVS [1]作为音频信号传感

器,其结构示意图如图 1 所示。与传统的麦克风阵列相比,

AVS 具有体积小、近似空间同位、各通道间无时间差且存

在三角函数关系等特殊优点,成为实现声源 DOA 估计以

及空间干扰噪声抑制的新研究点[2]-[6]。

基于 AVS 的独特优点,本实验室团队也开展了相关研

究工作。在空间稀疏表示(Spatial Sparsity Representation,

SSR)框架下,充分利用了 AVS 阵列接收数据模型与其子

阵列流形矩阵的关系,提出了一种采用较低复杂度获得较

高 DOA 估计精度的算法。但该方法采用了 8 个间隔半波

长的 AVS 阵列,体积较大,不能应用于小型移动设备上。

为了满足便携式设备的声源 DOA 估计需求,我们提出了

一种基于单个 AVS 以及语音时频(Time-Frequency ,TF)

图 1 AVS 结构图

稀疏特性的 DOA 估计新算法。该方法推导了时频域 AVS

的不同通道传感器之间的数值比(Inter-Sensor Data Ratio,

ISDR)与声源 DOA 之间的一一对应关系。为了获得稳定

的 DOA 估计,该方法利用语音正弦迹提取具有高局部信

噪比(High Local SNR,HLSNR)的时频点,并对具有

HLSNR 的时频点对应的 ISDR 值进行聚类,计算其均值,

则获得 DOA 的估计。然而,实际环境下,计算出的 ISDR

值会受到噪声和混响干扰,因此,通过聚类方法估计出的

DOA 也随之会偏离真实的 DOA 值。此外,研究表明,对

于传统的基于麦克风阵列的 DOA 估计方法,混响和强噪

声同样会降低 DOA 估计精度[7]。

本文开展混响和噪声环境中的语者声源 DOA 估计研

究,在 ISDR 模型基础上,采用 SSR 理论框架建立语者声源

的稀疏模型,通过求解稀疏向量获得高精度 DOA 估计。为

了减少噪声和混响对 DOA 估计的影响,我们将只对具有语

Page 2: 一种混响环境下的鲁棒高精度语者声源到达角估计方法web.pkusz.edu.cn/adsp/files/2015/10/266_Full_Paper.pdf · ncmmsc2014 新加坡 2014 年9 月 一种混响环境下的鲁棒高精度语者声源到达角估计方法*

音特征的时频点进行稀疏模型的建立,即通过提取基频来获

得 HLSNR 时频点。为了进一步降低噪声对基频时频点的影

响,我们采用了曲线拟合的思想来进一步规整用于估计

DOA 的有效 HLSNR 时频点。因此,本文提出的鲁棒高精

度的语者声源 DOA 估计方法具有以下优点:1)同时估计

俯仰角和方位角。因为采用 SSR 理论框架,获得的 DOA 精

度要高于传统的 DOA 估计算法[8];2)仅仅采用具有高信噪

比的基频时频点所对应的 ISDR 值进行 DOA 估计,因此,

极大地降低了混响对 DOA 估计精度的影响;3)因为基于

AVS 提取的 ISDR 值与声音频率无关,因此避免了 DOA 估

计的空间混叠问题。

1 AVS 数据模型

基于单个 AVS 的声源定位系统设置如图 1 所示,其

中 AVS 位于直角坐标系原点。由图 1 可见,单个 AVS 是

由 1 个全向传感器及 3 个正交指向的指向性传感器组成,

全向传感器被称为 o 分量,指向 x、y 及 z 轴的指向性传感

器分别称作 u 分量、v 分量及 w 分量[9]。本文假设空间存

在单个目标语音声源 s(t)(服务机器人应用场景),该目标

声源的 DOA 表示为(s, s)。因此,AVS 对目标声源的流

形矢量为

4 1( , ) [ , , ,1] ,Ts s s s su v w R a a (1)

其中,

sin cos , sin sin , coss s s s s s s su v w (2)

被称为声源的 x、y及 z方向余弦,且设定俯仰角s[0, 180),

方位角s[0, 360)。考虑混响和背景噪声,AVS 在时刻 t

接收到的数据可表示为:

( ) ( , ) ( ) ( ) ( )s st s t h t t x a n (3)

其中 x (t)=[xu(t) xv(t) xw(t) xo(t)]T,分别是 u、v、w、o 传感

器的输出,*为卷积操作,h(t)代表房间的冲击响应,

n(t)=[nu(t) nv(t) nw(t) no(t)]T是分别在 o、u、v、w 传感器上

的加性噪声,假设它们互不相关,且与目标语音信号不相

关。

2 DOA估计算法

2.1 ISDR 数据模型

研究表明,语音信号具有时频稀疏性,即在时频点(,

处是单一声源主导[10]。语音时频稀疏性的假设也被广泛

用于声源定位技术研究、语音增强[11][12]和语音识别技术[13]

研究中。定义 AVS 的 ISDR[5]如下:

( , ) ( , ) ( , )uo u oI X X (4)

( , ) ( , ) ( , )vo v oI X X (5)

( , ) ( , ) ( , )wo w oI X X (6)

其中,Xu(、Xv(、Xw(和 Xo(是对(3)式两边

进行短时傅里叶变换变换(Short-time Fourier Transform,

STFT)得到。

根据文献[5][6],ISDR 数据模型可以简化如下,详细过

程本文不再叙述:

( , ) ( , ) ( , ) ( , )s s I b ε (7)

其中

( , ) [ ( , ), ( , ), ( , )]Tuo vo woI I I I (8)

1

( , )1 ( , ) ( , ) ( )oN S H

(9)

( , ) [ , , ]Ts s s s su v w b (10)

( , ) [ ( , ), ( , ), ( , )]Tu v w ε (11)

从(10)式看出 b(s,s)是语音信号 s(t)对 u、v 和 w 传感器的

流形矢量。由(4)~(6)式,ISDR 可以计算获得,如果能够选

取时频点(使得(7)式中的加性噪声项可以被忽略,则式

(7)给出了 ISDR 与 DOA 参数的一一对应关系。

2.2 高信噪比时频点选取

根据语音发音原理可知,浊音的声带振动频率称为基

音频率,简称基频,它是语音信号的重要特征。语音信号

的能量并不是在整个频域均匀分布,而是大部的能量集中

在基频及其一系列谐波上[14],如图 2 纯净语音信号的语谱

图所示,在低频部分(1kHz 以下)的能量很明显高于高频

部分,另外在 100Hz 附近的蓝色点指的是当前语音帧提取

到的基频位置,可以看出基频处能量不一定最强,研究表

明与共振峰位置有关系。语音的第 1 共振峰通常在

300~1000Hz 范围内,基频的有效范围通常是 60~400Hz

[15],也就是说,10 次谐波之内的谐波成分常常会有些比基

波分量还强,它们的位置和幅度与第 1 共振峰的位置(频

率)和强度是密切相关的。从图 3 的语谱图来看,纯净语

音加了 20dB 高斯噪声后,高频部分受影响严重,而基频

及其谐波处能量仍然很强。因此,我们认为通过基频及其

谐波结构提取的数据点,具有较高的局部信噪比,并满足

时频稀疏性的条件。

本文选用语音处理工具箱 VOICEBOX 中自带的鲁棒

图 2 纯净语音信号的语谱图(含基频) 图 3 带噪语音(20dB)的语谱图(含基频)

0.5 1 1.5 2 2.50

1000

2000

3000

4000

5000

6000

7000

8000

Time

Freq

uenc

y (H

z)

0.5 1 1.5 2 2.50

1000

2000

3000

4000

5000

6000

7000

8000

Time

Freq

uenc

y (H

z)

Page 3: 一种混响环境下的鲁棒高精度语者声源到达角估计方法web.pkusz.edu.cn/adsp/files/2015/10/266_Full_Paper.pdf · ncmmsc2014 新加坡 2014 年9 月 一种混响环境下的鲁棒高精度语者声源到达角估计方法*

的基频跟踪算法[16],假设信号中共有 L 个语音帧,计算出

每一帧的基频,定义(f)表示为第帧语音的基频为 f,用

数据集合{(ifi), i=1,…, L} 表示。为了降低噪声对基频估

计的影响,我们对提取的数据集合采用三次多项式进行基

频曲线拟合。

假设选取了 N 次谐波,则通过本方法提取的 HLSNR

TF 点集合则为{(ifi’), (ifi’), …, (ifi’), i=1,…, L },将

频率 f’转为角频率,则最终选取计算 ISDR 的时频点为

{(ii’), (ii’), …, (ii’), i=1,…, L }。

2.3 DOA 稀疏表示模型

根据 2.2 节,在 HLSNR TF 点()处,我们有

S(H(No()。由(9)式可得(≈。因此重写(7)

式为

1( , ) ( , ) ( , )s s I b ε (12)

其中,误差(由附加的高斯噪声、房间混响和 SSR 模

型误差共同影响。下面将详细介绍基于 ISDR 数据模型(12)

式的 DOA 稀疏表示模型。

首先将整个空间的方位角和俯仰角等间隔划分为 N1

和 N2个候选网格,形成 M=N1N2个网格角度集(i,j),

i=1,…, N1, j=1,…, N2},且 N1>>1, N2 >>1。根据构造

u、v、w 传感器的过完备流形矩阵如下:

1 2

31 1( , ), , ( , ), , ( , ) , M

i j N N R Ψ b b b Ψ (13)

假设网格间距足够的小,用取代式中的 b(s,s),则

重写(12)式 ISDR 数据模型为

3 1

1( , ) ( , ), ,M MR R I Ψz ε Ψ z (14)

其中,z 是稀疏矢量,其非零行所在位置对应的是语者声

源 Dss。因此,称(14)式为目标声源的 DOA 空间稀

疏表示模型。为了区别于其他算法,本文称其为

Pitch-ISDR-SSR 模型。基于语者声源的空间稀疏性,对(14)

式进行稀疏求解,重构出稀疏矢量 z,获得其非零位置,

即可以估计出(s,s)。显然,N1 和 N2 的取值会影响 DOA

估计精度。N1或 N2越大,网格间距越小,语者 DOA 与

中预定义的角度就越接近,与之对应的计算复杂度会增加。

显然,对每个(点,(14)式中的 z 都有同样的稀疏

结构。利用这个特性,我们定义联合 Pitch-ISDR-SSR 模型

如下:

A ΨΖ Ε (15)

3

1 1[ ( , ), , ( , )], LL L R A I I A (16)

3

1 1 1 1[ ( , ), , ( , )], LL L R E ε ε E (17)

1[ , , ], M LL R Z z z Z (18)

对于单目标声源的情况,(15)式中的 Z只有一个非零

行,对应于目标语者的 DOA (s,s)。因此,DOA 估计问题

被转换为寻找重构矩阵 Z 的非零行位置。

2.4 DOA 估计方法

研究表明,(15)式中的稀疏矩阵 Z可以通过求解下面

的优化问题来重构

2

2 1ˆ argmin

ZA ZΨZ Z (19)

考虑到计算效率和对噪声的鲁棒性,本文选用 l1-SVD[17]

方法,利用奇异值分解技术获取信号子空间,以降低重构

问题的维度,降低后续重构的运算复杂度。对 Z的重构,

本文选用斯坦福大学推出的 CVX 工具包[18]。

为了估计 DOA,计算稀疏空间谱

2

1

ˆ( ) 10log ( , ), 1, ,L

jP i i j i M

Z Z (20)

用 ip 来表示 PZ.的峰值,即重构的稀疏矩阵 Z 的主导非零

行,用它可以计算与估计出的 DOA 所在的网格(i, j),最后,

我们得到

ˆ ˆ, , ,s i s j i j (21)

本文提出的 Pitch-ISDR-SSR DOA 估计算法流程总结

如下:

1) 对 xu(t)、 xv(t)、 xw(t) 和 xo(t)进行 STFT 变换;

2) 提取基频及谐波,并拟合曲线,确定 HLSNR TF 点;

3) 计算 HLSNR 时频点对应的 ISDR 值;

4) 构造(15)式中的数据矩阵 A;

5) 构造(13)式中的过完备流形矩阵;

6) 利用 l1-SVD 方法求解(19)式中的 Z ;

7) 计算 PZ 和 ip;

8) 从 ip中计算语者声源所在网格(i, j),并估计出 DOA。

3 实验与分析

为了评估本文提出的 Pitch-ISDR-SSR DOA 估计算法

的性能,我们开展了 3 个仿真实验和 1 个实际环境中的

DOA 测试。我们选择 GMDA-Laplace 算法[10]进行性能比

较。仿真实验的语者声源为男性,长度为 3 秒,采样率为

32KHz。语音信号分帧长度为 30ms,20ms 重叠,加窗函

数采用汉明窗,窗长为 30ms,STFT 长度为 1024 点。对本

文提出的 Pitch-ISDR-SSR 算法,相关参数设置为

s[0,180°],s[0,180°], N1=N2=180,选取 4 次谐波(即

N=4)进行 HLSNR 时频点计算,正则化参数=20。对

GMDA-Laplace 算法,参数设置为:两个麦克风沿着 z 轴

放置,间隔 8cm。因 GMDA-Laplace 算法只能估计 1 个声

源,则需对 GMDA-Laplace 计算 2 次才能获得俯仰角和方

位角。选用绝对值误差(Absolute Error,AER)和均方根

误差(Root Mean Square Error,RMSE)作为 DOA 估计性

能的标准,定义如下

ˆ ˆAER (| | | |) 2 (22)

2 2

1

ˆ ˆRMSE 0.5 ( ) ( ) )TN

i i TiN

(23)

Page 4: 一种混响环境下的鲁棒高精度语者声源到达角估计方法web.pkusz.edu.cn/adsp/files/2015/10/266_Full_Paper.pdf · ncmmsc2014 新加坡 2014 年9 月 一种混响环境下的鲁棒高精度语者声源到达角估计方法*

其中 NT是独立试验的次数。

3.1 实验 1:算法的 DOA估计精度

该实验旨在展示提出的 Pitch-ISDR-SSR 算法在不同

角度下的 DOA 估计准确率。信噪比 SNR 为 10dB,不考

虑混响,60°,在每次试验中从°到 180°随机生成,共

进行 100 次。因此,目标语者声源覆盖了整个 0°~180°,

实验结果见图,可以看出, Pitch-ISDR-SSR 算法几乎在

所有角度的估计精度优于 GMDA-Laplace 算法,尤其是当

在 0°~20°和 160°~180°的范围内。实验结果表明在当前条

件下 Pitch-ISDR-SSR 算法可以获得 0.5°的平均误差。

3.2 实验 2:算法的噪声鲁棒性

该实验的目的是评估 Pitch-ISDR-SSR 算法在无混响

条件下对加性噪声的鲁棒性。目标语音声源位于(60°,45°),

信噪比 SNR 从 0dB 变化到 30dB, 每个 SNR 下进行 100

次独立试验,RMSE 结果如图 5 所示。可以看到,本文提

出的 Pitch-ISDR-SSR 算法,其 RMSE 在所有的 SNR 下都

要远小于 GMDA-Laplace 算法。尤其是,当 SNR<5dB 时,

Pitch-ISDR-SSR 算法的 RMSE 小于 1°,当 SNR>25dB 时,

Pitch-ISDR-SSR 算法的 RMSE 接近于 0°。此结果表明,本

文提出的 Pitch-ISDR-SSR 算法对加性噪声不敏感。

3.3 实验 3:算法的混响鲁棒性

本实验将验证 Pitch-ISDR-SSR 算法在不同混响条件

下的 DOA 估计性能。实验设置为:采用[19]所述的 Image

方法产生混响信号,在 10×5×4 的房间中,AVS 位于房间

正中,语音声源在距 AVS 为 2m 的(60°,45°)方向,SNR 设

为 10dB。采用 5 个不同的混响时间(RT60)设置,如表 1

所示。每个混响条件下进行 100 次独立试验后平均获得

RMSE 性能曲线,如图 6 所示。图中我们清楚地看到

Pitch-ISDR-SSR算法的RMSE曲线基本不随混响时间而变

化,即该算法对混响具有很好的鲁棒性,这在 DOA 估计

中是极大的优势。而 GMDA-Laplace 算法的性能随着混响

时间的增加急剧下降,说明了用传统的麦克风阵列进行

DOA 估计会受到混响的严重影响。

表 1 RT60和相应的反射系数

RT60 (ms) 0 95 206 328 494

反射

系数

墙壁 0 0.3 0.6 0.8 0.9

房顶 0 0.2 0.5 0.6 0.7

地板 0 0.1 0.3 0.4 0.7

3.4 实验 4:实际环境中的 DOA 估计

在本实验中,我们测试了 Pitch-ISDR-SSR 算法在实

际场景中的定位效果,采用的是本实验室开发的 AVS 数据

采集系统录制的数据,如图 7 所示,其中用红色方框分别

标示出了实测定位界面、采集器和本实验室自制的 AVS。

在约 8.5×3×5 m3的房间里,条件不可控制,同时存在背景

噪声和混响。SNR 测量值约为 20dB,目标语音声源和 AVS

的距离为 0.5m,采样率为 32kHz,STFT 点数为 1024。在

s=90°、方位角s 分别为 0°、45°、90°、135°和 180°的方

向进行了测试,DOA 估计结果分别为(87°,4°)、(93°,37°)、

(90°,91°)、 (86°,142°) 、(83°,179°)。这些初步的实验结果

进一步验证了本文所提出算法的有效性。

4 结论

本文提出了一种混响环境下的鲁棒高精度语者声源

DOA 估计方法,称为 Pitch-ISDR-SSR 算法。该算法首先

推导出 AVS 的通道间数值比模型(ISDR)与目标语者的

DOA 之间的一一对应关系,进一步利用语音信号的基频和

谐波结构以及时频稀疏性假设,提取在基频及谐波上的高

局部信噪比时频点(HLSNR TF 点),选取 HLSNR 时频点

所对应的 ISDR 进行空间稀疏表示,最后求解稀疏矢量以

获得高精度 DOA 估计。仿真实验和实测实验初步结果表

明,本文提出的 Pitch-ISDR-SSR 算法具有高精度、噪声鲁

棒和混响鲁棒的特性,这些特性在实际应用中将具有优势。

未来的工作将进一步开展算法性能的理论分析。

20 40 60 80 100 120 140 160

1

2

3

4

5

6

Azimuth angle

AE

R o

f DO

A e

stim

atio

n (d

egre

e)

AVS-Pitch-ISDR

GMDA-Laplace

0 5 10 15 20 25 30

0

0.5

1

1.5

2

2.5

3

3.5

4

SNR (dB)

RM

SE

of D

OA

est

imat

ion

(deg

ree)

AVS-Pitch-ISDR

GMDA-Laplace

图 4:不同声源 DOA 处的绝对值误差 AER 图 5:不同信噪比 SNR 下的 DOA 估计 RMSE

0 100 200 300 400 5000

0.5

1

1.5

2

2.5

3

3.5

4

4.5

RT60(ms)

RM

SE

of D

OA

est

imat

ion

(deg

ree)

AVS-Pitch-ISDR

GMDA-Laplace

图 6:不同混响条件下的 DOA 估计 RMSE 图 7: 实际环境中实验设置

Page 5: 一种混响环境下的鲁棒高精度语者声源到达角估计方法web.pkusz.edu.cn/adsp/files/2015/10/266_Full_Paper.pdf · ncmmsc2014 新加坡 2014 年9 月 一种混响环境下的鲁棒高精度语者声源到达角估计方法*

参 考 文 献

[1] Hawkes, M. and Nehorai, A., “Acoustic vector-sensor beam-

forming and Capon direction estimation”, Signal Processing,

IEEE Transactions on, 46(9): 2291-2304, 1998.

[2] Lockwood, M.E. and Jones, D.L., “Beamformer performance

with acoustic vector sensors in air”, The Journal of the Acousti-

cal Society of America, 119(1): 608-619,2006.

[3] Shujau, M., Ritz, C.H. and Burnett, I.S., “Designing Acoustic

Vector Sensors for localization of sound sources in air”, EU-

SIPCO 2009, 2009.

[4] Li, B. and Zou, Y.X., “Improved DOA estimation with acoustic

vector sensor arrays using spatial sparsity and subarray mani-

fold”, Acoustics, Speech and Signal Processing (ICASSP), 2012

IEEE International Conference on. IEEE, 2557-2560, 2012.

[5] Zou, Y.X, Shi, W., Li, B., et al, “Multisource DOA estimation

based on time-frequency sparsity and joint inter-sensor data ra-

tio with single acoustic vector sensor”, Acoustics, Speech and

Signal Processing (ICASSP), IEEE International Conference on.

IEEE, 4011-4015, 2013.

[6] Zou, Y.X., Guo Y.F., Zheng W.Q. et al, “An Effective Doa

Estimation By Exploring The Spatial Sparse Representation Of

The Inter-Sensor Data Ratio Model”, Signal And Information

Processing (ChinaSIP), IEEE China Summit & International

Conference on. IEEE, 2014.

[7] Benesty, J., Chen, J. and Huang, Y., “Microphone Array Sig-

nal Processing”, Springer, 2008.

[8] Zheng, J. and Kaveh, M., “Direction-of-arrival estimation using

a sparse spatial spectrum model with uncertainty”, IEEE Inter-

national Conference on Acoustics, Speech and Signal Pro-

cessing, 2848-2851, 2011.

[9] Wong, K.T. and Zoltowski, M.D., “Closed-form underwater

acoustic direction-finding with arbitrarily spaced vector hydro-

phones at unknown locations”, Oceanic Engineering, IEEE

Journal of, 22(3), 566-575, 1997.

[10] Zhang, W. and Rao, B.D., “A two microphone-based approach

for source localization of multiple speech sources”, IEEE

Transactions on Audio, Speech, and Language Processing, 18(8),

1913-1928, 2010.

[11] Zou, Y.X., Wang, P., Wang, Y.Q., et al.,“Speech Enhancement

with an Acoustic Vector Sensor: An Effective Adaptive Beam-

forming and Post Filtering Approach”,EURASIP Journal on

Audio, Speech, and Music Processing, 2014.

[12] 邹月娴, 王鹏, 王文敏, “基于单 AVS 的空间目标语音增强

方法”, 清华大学学报, 53(6), 883-887, 2013.

[13] 胡旭琰, 邹月娴, 王文敏, “一种基于 MDT 特征补偿的噪

声鲁棒语音识别算法”, 清华大学学报, 53(6), 753-756, 2013.

[14] McAulay, R. and Quatieri, T. “Speech analysis/synthesis based

on a sinusoidal representation”, IEEE Transactions on Acoustics,

Speech and Signal Processing, 34, 744-754, 1986.

[15] Ahmadi, S. and Spanias, A.S., “Cepstrum-based pitch detection

using a new statistical V/UV classification algorithm”, Speech

and Audio Processing, IEEE Transactions on, 7(3): 333-338,

1999.

[16] Talkin, D., “A robust algorithm for pitch tracking (RAPT)”,

Speech coding and synthesis, 495-518, 1995.

[17] Malioutov, D., Cetin, M. and Willsky, A., “A sparse signal

reconstruction perspective for source localization with sensor

arrays”, Signal Processing, IEEE Transactions on ,

53(8):3010–3022, 2005.

[18] Grant, M. and Boyd, S., “CVX: MATLAB Software for Disci-

plined Convex Programming”, Online: http://cvxr.com/, ac-

cessed on 19 May 2014.

[19] Allen, J.B., and Berkley, D.A., “Image method for efficiently

simulating small room acoustics”, The Journal of the Acoustical

Society of America, 65(4), 943-950, 1997