research on text-dependent speaker recognition in embedded...

51
嵌入式文本相关说话人识别研究 Research on Text-Dependent Speaker Recognition in Embedded Applications (申请清华大学工学硕士学位论文 ) 计算机科学与技术系 计算机科学与技术 罗灿华 : 郑方研究员 二○一一年四月

Upload: others

Post on 06-Sep-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

嵌入式文本相关说话人识别研究

Research on Text-Dependent Speaker

Recognition in Embedded Applications

(申请清华大学工学硕士学位论文)

培 养 单 位 : 计算机科学与技术系

学 科 : 计算机科学与技术

研 究 生 : 罗灿华

指 导 教 师 : 郑 方 研 究 员

二○一一年四月

Page 2: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

关于学位论文使用授权的说明

本人完全了解清华大学有关保留、使用学位论文的规定,即:

清华大学拥有在著作权法规定范围内学位论文的使用权,其中包

括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以

采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为

教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资

料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内

容。

本人保证遵守上述规定。

(保密的论文在解密后遵守此规定)

作者签名: 导师签名:

日 期: 日 期:

Page 3: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

摘 要

I

摘 要

本论文在文本相关的说话人识别方面开展研究,包括嵌入式平台上的文本相

关的说话人确认系统(TDSV)的研发,以及对文本相关说话人识别噪音鲁棒性

的初探。

TDSV 应用于嵌入式平台的最大障碍是其运行速度太慢,这是由嵌入式设备

有限的计算存储资源所决定的。为了在嵌入式平台上实现一个实时的文本相关

的说话人确认系统,本文提出了一个快速算法。通过借鉴语音识别中的非线性

分段(NLP)方法,新的系统在段的层面上进行训练和识别,这比基线系统中逐

帧计算的处理方式更加快捷,从而达到了压缩处理信息量、提升程序运行速度

的效果。然而,基于距离累积的分段规则对语音中的微小干扰鲁棒性很差,从

而导致了系统识别性能的下降。为此,改进的 NLP 算法采用了新的基于马氏距

离的分段规则,新的规则对语音中的微小干扰更加鲁棒,也使得 NLP 的分段结

果更加稳定。实验证明,改进后的系统在训练速度上比基线系统快了 72.6%,在

识别速度上快了 48.2%;在识别性能上,改进后的系统比基线系统的 EER 值下

降了 17.3%。

语音端点检测(VAD)对含噪情况下的 TDSV 识别性能有较大影响,鉴于

此,本文首先从 VAD 相关技术展开 TDSV 噪音鲁棒性的研究。为了区分不同语

音中所含噪音的不一致性,本文提出了基于统计的自动噪音能量估计;为了将

湮没于背景噪音中的低音量辅音音节检测出来,本文提出利用过零率对帧能量

进行修正的技术。这两个方法的特点是无需任何先验知识,且对每一个具体文

件进行区分对待,使处理过程更加符合当前输入语音的实际情况。在 SONY 含

噪短语数据库上的实验证明,改进后的 VAD 方法使 TDSV 系统的等错误率从

9.2%下降到约 5.2%。

关键词: 文本相关说话人识别;嵌入式平台;噪音鲁棒;语音端点检测

Page 4: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

Abstract

II

Abstract

This dissertation focuses on the research on text-dependent speaker recognition,

including the research and development of text-dependent speaker verification

(TDSV) system on embedded platform and the preliminary study of noise robustness

for TDSV system.

The main challenge to implement TDSV on embedded platform is that the

execution time for the system is too much, which is caused by the limited available

resources on embedded devices. In order to develop a real-time TDSV system on

embedded platforms, a fast algorithm is proposed in this paper. By introducing the

Non-Linear Partition (NLP) method used in speech recognition area, the processes of

training and verifying are performed in terms of segments instead of frames, which

can compress the information and lead to a faster executing speed. However, due to

the segmentation rule of distance accumulation, NLP is not robust to cases with tiny

disturbance, resulting in a decrease of performance. To address this problem, an

improved NLP algorithm in which the segment rule is based on Mahalanobis distance

is proposed. The new segment rule is more robust to disturbance and results in a more

reasonable segment result. Experimental results show that the proposed algorithm

makes great improvements on both speed of execution and verification performance

compared with baseline system. Comparing with baseline, the improved system

executes 72.6% faster in training process and 48.2% faster in verification process,

with an EER decrease by 17.3%.

Because the verification performance of TDSV system will be influenced by

VAD in the noisy condition, this paper will take the study of VAD related techniques

as the first step of research on TDSV noise robustness. To distinguish the

inconsistencies among noises from different input speech files, the method of

automatic noise energy estimation based on statistics is proposed in the paper.

Moreover, the paper also raises the technology of justifying the frame energy using

zero crossing rate in order to detect consonant syllables with low volume annihilated

Page 5: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

Abstract

III

in background noise. Both methods mentioned above need no prior knowledge and

treat specific files separately, making the process meet the actual situation of current

voice input. Results of the experiments taken on SONY’s noisy phrase database prove

that the improved VAD brings down the EER of TDSV system from 9.2% to about

5.2%.

Keywords: Text-Dependent Speaker recognition; Embedded Platform; Noise

Robust; Voice Activity Detection

Page 6: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

目 录

IV

目 录

第 1 章 绪 论 ............................................................................................1

1.1 文本相关的说话人识别的概念 ..........................................................1

1.1.1 说话人识别的概念 ........................................................................1

1.1.2 文本相关的说话人识别的概念 .....................................................2

1.1.3 TDSV 研究现状介绍 ......................................................................4

1.2 嵌入式平台上的 TDSV ......................................................................6

1.2.1 TDSV 应用于嵌入式平台的意义 ...................................................6

1.2.2 TDSV 应用于嵌入式平台的难点 ...................................................6

1.2.3 TDSV 应用于嵌入式平台的现状 ...................................................7

1.3 研究思路和文章结构 .........................................................................7

1.3.1 研究思路 .......................................................................................7

1.3.2 本文结构 .......................................................................................8

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究 .......................9

2.1 引言 ...................................................................................................9

2.2 基于动态时间弯折的 TDSV ..............................................................9

2.2.1 DTW 基本思想 ..............................................................................9

2.2.2 基于 DTW 的 TDSV 系统(DTW-TDSV 系统) ........................ 10

2.2.3 识别性能和时间复杂度分析 ....................................................... 11

2.3 基于非线性分段思想的 TDSV ........................................................ 11

2.3.1 NLP 思想和概念 .......................................................................... 12

2.3.2 基于 DANLP 的 TDSV 系统(DANLP-TDSV 系统) ................ 12

2.3.3 识别性能和时间复杂度分析 ....................................................... 13

2.4 改进的非线性分段的 TDSV 系统 .................................................... 15

2.4.1 改进的 NLP 算法 ........................................................................ 17

2.4.2 基于 MDNLP 的 TDSV 系统(MDNLP-TDSV 系统) ............... 19

2.4.3 识别性能和时间复杂度分析 ....................................................... 19

Page 7: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

目 录

V

2.5 实验和结论 ...................................................................................... 20

2.5.1 实验数据和参数设定 .................................................................. 20

2.5.2 识别性能及分析 .......................................................................... 21

2.5.3 时间开销及分析 .......................................................................... 21

2.5.4 结论 ............................................................................................ 23

2.6 本章小结 ......................................................................................... 23

第 3 章 文本相关说话人识别噪音鲁棒性的研究 .................................... 25

3.1 引言 ................................................................................................. 25

3.2 噪音对 TDSV 的影响 ...................................................................... 25

3.2.1 数据库和实验设置 ...................................................................... 26

3.2.2 实验结果和结论 .......................................................................... 26

3.3 TDSV 系统抗噪方法的初步研究 ...................................................... 27

3.3.1 VAD 研究现状 ............................................................................. 27

3.3.2 基于统计的自动噪音能量估计 ................................................... 29

3.3.3 利用过零率修正帧能量 .............................................................. 30

3.4 实验和结论 ...................................................................................... 33

3.4.1 实验数据和参数设置 .................................................................. 33

3.4.2 实验结果 ..................................................................................... 34

3.4.3 结论 ............................................................................................ 35

3.5 本章小结 ......................................................................................... 35

第 4 章 结束语 ........................................................................................ 37

4.1 研究总结 ......................................................................................... 37

4.2 下一步工作展望 .............................................................................. 38

参考文献 .................................................................................................... 40

致 谢 ....................................................................................................... 43

个人简历、在学期间发表的学术论文与研究成果 .................................... 44

Page 8: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 1 章 绪论

1

第1章 绪 论

1.1 文本相关的说话人识别的概念

众所周知,语言是人类独有的功能;在人类众多的交流沟通方式中,语言毫

无疑问是最自然、最直接、最有效的。语言是人区别于其他动物的一大特征,

也是促进人类社会形成的基础。没有语言,信息交流就缺乏有效手段;缺乏信

息交流,人类社会的形成和发展也就无从谈起。

显然,在日常生活中,人们都习惯于用语言作为最自然和平常的手段与人交

流。因此,当人类步入信息社会, 需要不断地和各式各样的机器进行交互的时

候,人们无不梦想着有一天,机器也能听懂自己的语言,人和机器也能很自然

地使用语言进行交流。

实际上,为了实现这个夙愿,全球各地的科学家们一直都在努力。作为机器

理解和识别人类语言的一个部分,对说话人自身身份进行正确的识别和辨认,

一直都是广大研究者所关心和期望的的。

1.1.1 说话人识别的概念

近几十年来,通过提取人的生物特征来进行身份识别的技术不断涌现,并取

得了长足发展。这些生物特征能体现特定人物区别于他人的特点,且不容易被

仿冒,可靠性高,应用也逐渐广泛。比较典型的如指纹识别、掌纹识别、人脸

识别、虹膜识别等。说话人识别技术也是其中一种,该技术的特点是其特征提

取对象为人的语音信号。鉴于语音信号获取的低成本和方便性,它比起其他生

物特征更具有独特优势。

说话人识别(Speaker Recognition),也称声纹识别(Voice Print Recognition),

是指利用说话人语音中的能反映其独有的生理和行为特征的参数,来进行身份

认定的一种技术。说话人识别所依赖的基本前提是:每个说话人,其声音中包

含有区别于其他说话人的特有的语音参数;且对其自身来说,这个参数的变化

具有可以掌握的规律性。

在技术上,说话人识别的过程主要包括训练和识别两个部分。所谓训练过程,

是指说话人识别系统根据输入的语音,通过一系列的处理和计算,获得相应说

Page 9: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 1 章 绪论

2

话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

识别过程,是指说话人识别系统根据输入的语音,通过一系列的处理和计算,

判断该语音是否对应为某个特定说话人。图 1.1 显示的是一个典型的说话人识别

系统。

识别过程

训练过程

识别

结果

特征

序列

特征

序列

前端处理

语音

获取

特征

提取训练

前端处理

语音

获取

特征

提取识别

模型

图1.1 一个典型的说话人识别系统示意图

依据不同准则,说话人识别可以分为不同的种类:(1)根据识别语音的内容,

可以分为文本无关的说话人识别和文本相关的说话人识别;(2)根据实际应用

的范围,可以分为说话人确认(Speaker Verification)和说话人辨认(Speaker

Identification);(3)根据测试说话人身份的异同,可以分为开集(Open-set)的

说话人识别和闭集(Close-set)的说话人识别;等等。

1.1.2 文本相关的说话人识别的概念

根据识别语音的内容,说话人识别可以分为两类:(1)文本无关的说话人识

别(Text Independent Speaker Recognition, TISR);(2)文本相关的说话人识别(Text

Dependent Speaker Recognition, TDSR)。这里以说话人确认为例,来说明这两类

技术的异同。

Page 10: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 1 章 绪论

3

所谓说话人确认,指的是系统根据一段语音输入,进行一系列处理和计算后,

来判定该语音是否与某个特定模型相吻合,进而判定其是否属于某个特定的说

话人的发音。简单的说,确认系统是一个输出为“接受”或“拒绝”的系统。

对 TISR 来说,在训练阶段,说话人可以对任意文本进行发音并建模;识别

时,只要是其自身在发音,而无需考虑发音内容的异同,系统也会确认为“接

受”。只有不同说话人的语音输入,才会被判定为“拒绝”。

而对 TDSR 系统来说,在训练阶段,说话人需要对特定文本进行发音并建模;

在识别阶段,只有当说话人自身相同,并且发音内容也相同时,系统才会确认

为“接受”,否则就被判为“拒绝”。

图 1.2 显示了 TISR 和 TDSR 的区别。

识别过程

训练过程

说话人的模型

声纹识别

声纹识别

声纹确认

声纹识别

声纹确认

TISV

TDSV

TISV TISV

TISV

TDSV TDSV

TDSV

图1.2 以说话人确认为例,说明TISR和TDSR的区别。

(识别结果用实线表示“接受”,虚线表示“拒绝”)

对比这两类技术,TDSR 相对简单可靠,识别性能往往也更好;但 TISR 对

用户更友好更方便,灵活性比 TDSR 要好。在实际应用中,TISR 系统在真实情

Page 11: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 1 章 绪论

4

况下的识别性能往往还达不到应用要求,而 TDSR 系统在这方面表现相对要好,

故其应用也更广泛。基于这个原因,本研究主要定位为文本相关的说话人确认

(Text Dependent Speaker Verification, TDSV)的研究。

1.1.3 TDSV 研究现状介绍

文本相关的说话人识别的研究,一直是说话人识别研究中的重要组成部分,

同时也是取得相对理想的研究成果的一个部分。TDSV 的研究重点主要集中于特

征层面、建模方式等方面。

在特征层面,几乎所有应用于TISV的特征均能适用于TDSV。这些特征主要

包括:

(1) 短时频谱特征,如mel频率倒谱系数(Mel-Frequency Cepstral

Coefficients, MFCC)[1],线性预测倒谱系数(Linear Predictive

Cepstral Coefficients, LPCC) [2],线谱频率(Line Spectral

Frequencies, LSF)[3],感知线性预测系数(Perceptual Linear

Predictive, PLP)[4]。Thian和Kinnunen等的研究结果显示,尽管

存在各种各样的可选特征,然而MFCC的实际效果往往都是最出

色的[5, 6]。

(2) 声源特征,主要刻画了发音时的声门激励,如其脉冲波形以及

基准频率等。[7, 8]

(3) 高层特征:如韵律特征[9, 10]。

与上述特征不同的是,鉴于 TDSV 的文本相关性,有一些反映文本内容特

点的参数也能用作于 TDSV 的特征。如从频谱图上提取特征,直接根据频谱图

的特点来进行识别(类似于指纹识别)。[11]提出了一个包含了文本在时间上变

化规律的特征,取得了较好的识别效果。

TDSV 的有多种建模方式。比较常用的包括:

(1) 模板匹配法(Template Matching)。典型代表如动态时间弯折

(Dynamic Time Warping, DTW)[12, 13],该方法的一个特点

是,其模板由提取于语音中的一个特征序列构成。另外还有最

小近邻法(Nearest Neighbor)[14],矢量量化(Vector Quantization,

VQ)[15]等。

Page 12: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 1 章 绪论

5

(2) 人工神经网络(Artificial Neural Network, ANN)[16, 17]。具

体模型可能有多种形式,如多层感知(Multi-layer Perceptions)。

但其运算一般较为复杂,时间开销很大。

(3) 统计概率模型。典型的如隐马尔科夫模型(Hidden Markov Model,

HMM)[18],HMM 能够很好的蕴含特征在时间上的发展以及统

计上的变化,反映了说话人发音时的统计特征。HMM 一般可以

分为多个状态。在说话人识别中广泛应用的高斯混合模型

(Gaussian Mixture Model, GMM)[19, 20]是 HMM 的单状态形

式。

(4) 支持向量机(Support Vector Machine, SVM)[21]。近几年兴

起的一类应用广泛的特征,常与 GMM 系统结合使用。

在本文的研究中,使用的特征为 16 维的 MFCC 及其一阶差分,建模方式主

要是模板匹配(DTW)和 GMM。

TDSV 中用于性能评价的指标主要是等错误率(Equal Error Rate, EER),其

描述的是错误接受(False Accept, FA)和错误拒绝(False Reject, FR)均衡时的

情况。所谓错误接受,是指不同说话人或者(且)不同内容的语音在确认系统

中被判定为“接受”的情况;错误拒绝则指的是相同说话人的相同内容的语音

在确认系统中被判定为“拒绝”的情况。

EER 越低,表示系统的识别性能越高。但是在实际情况中,不仅要考察 EER

值,也需要具体考虑 FA 和 FR 的情况。这是因为在实际应用时,FA 往往是比

FR 更加难以忍受的情况。因此在确定阈值时,往往其对应的不是 EER,而是 FR

值偏高,FA 值偏低的状态。以(FA,FR)点对生成的曲线图称为 DET(Detection

Error Trade-offs)曲线图。

TDSV 相对于 TISV 要简单,现已取得的效果也较后者好。其识别性能在特

定情况下能做到很好。如在干净语音条件下,TDSV 在 10 个数字上的 EER 能达

到 5%到 1%,而在某些特定数据上甚至能达到 1%到 0.1%[22]。

在实际应用中,基于 TDSV 的一些软件工具已经商业化。如科大讯飞的产

品 InterVeri 就支持 TDSV 功能[23]。

Page 13: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 1 章 绪论

6

1.2 嵌入式平台上的 TDSV

1.2.1 TDSV 应用于嵌入式平台的意义

如前文所述,得益于其良好的识别性能和相对简单的系统结构,TDSV 是说

话人识别中最接近于实际应用的技术。随着科技和生活的不断发展,移动信息

时代、嵌入式时代来临,智能设备逐渐终端化、小型化、移动化。人类越来越

多的需要和这类机器进行交互,而交互的方式虽然多样,但使用自然语言显然

是最方便的。在这个背景下,TDSV 系统从普通 PC 平台走向智能手机、DSP 等

嵌入式平台,也是大势所趋了。

TDSV 应用于嵌入式平台有以下重要意义:

(1) 嵌入式平台是 TDSV 能广泛发挥作用的平台。如 TDSV 作

为一种加密工具,使用声音作为密码,既简单方便又安全可

靠,在很多袖珍平台上都有实用价值。

(2) 新平台又将反过来促进 TDSV 技术的发展。与普通 PC 平台

相比,嵌入式平台具有其独特的特点,对 TDSV 技术提出

了新的要求。TDSV 必须适应这些新的特点才能在嵌入式平

台上变成实用技术。

总之,TDSV 应用于嵌入式平台能更进一步促进其实用化,而嵌入式平台也

需要如 TDSV 这样方便使用、功能多样而又安全可靠的技术。

1.2.2 TDSV 应用于嵌入式平台的难点

然而在嵌入式平台上实现 TDSV 系统,并不是简单把软件从 PC 平台往嵌入

式平台上进行移植就能宣告大功告成的。移植后我们发现,原本在 PC 平台上能

够实时处理的系统,在嵌入式平台上运行很慢,用户体验很糟糕。

原因在于嵌入式平台所具有的运算资源远远比不上普通的 PC 机器。从便携

性方面考虑,嵌入式平台的尺寸往往很小,这直接决定了其无法装备大容量的

存储设备;从能耗上考虑,一个尺寸很小且往往是人们随身携带的终端(如手

机)是无法容忍过高的发热的,这也就限定了高频运算器的使用。事实上,绝

大部分嵌入式平台都不具备浮点运算器,而 TDSV 实现过程中却包含了大量的

复杂的浮点运算。

以一个典型的嵌入式设备为例,dopod P800 的主要参数[24]包括:主频为

201MHz 的 CPU,存储设备为 128M 的 ROM 和 64M 的 SDRAM,只有定点运算

Page 14: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 1 章 绪论

7

器,没有浮点运算器。从这些可以看到,嵌入式平台的存储运算资源显然是无

法和 PC 机器相提并论的。

因此,嵌入式设备有限的运算存储资源和 TDSV 巨大而复杂的运算处理之

间的矛盾,是当前 TDSV 应用于嵌入式平台的主要难点。

1.2.3 TDSV 应用于嵌入式平台的现状

将语音识别系统移植到嵌入式设备的研究已经有很长的历史了,一些典型的

方法如代码优化、浮点定点转换、运算值域估计等都得到了广泛应用[25]。此外

一些研究也集中于带有浮点运算器的 DSP 上的说话人识别系统开发[26, 27]。然

而探讨将 TDSV 应用于嵌入式设备(如 PPC、智能手机等)的研究并不多。

Y.S.Moon [25]等通过数值范围预测、定点化运算以及相关运算函数的优化等

技术,在移动嵌入式设备上有效提升了 TDSV 的运算速度。在训练语音长度为 2

到 3 秒、训练 4 遍的情况下,对一个同等长度的语音的平均识别时间约为 2.16

秒。只是其识别性能稍差,EER 值达到了约 9%。

国内浙江大学一系统[28]通过运用定点化运算以及主成分分类等技术,在

PDA 平台上开发了 TDSV 系统。在训练语音长度为 6 秒、训练 10 遍的情况下,

获得了平均识别时间为 2 秒的处理速度。识别正确率达到了约 95%。

总得说来,目前对于嵌入式平台上的 TDSV 相关研究较少,且其研究重点

也大多集中于运算的优化,如复杂运算函数的变形、定点化运算等,而鲜有算

法层面上的相关研究。

1.3 研究思路和文章结构

1.3.1 研究思路

为了使 TDSV 系统得以在嵌入式平台上应用,首先需要解决的是程序的运

行速度问题。在提升速度层面,可以从以下两个方面来考虑:一是从嵌入式运

行平台的具体情况入手,对程序中用到的复杂运算进行优化,降低单次运算的

时间开销;二是优化程序算法结构,从根本上减少运算量来达到速度提升的效

果。对于第一个方面,本人本科毕业设计时已经进行了相关工作,主要是定点

运算的实现。在之前的基础上,本文主要从 TDSV 的算法层面上进行相关探索

和改进。

Page 15: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 1 章 绪论

8

值得注意的是,单纯的对运算过程进行优化往往意味着实现的简单化和粗糙

化,必将对运算的精度带来损失,因而可能会对系统性能产生不利影响;而算

法层面的改进,则有可能在加快运算速度的同时,也达到提升性能的效果。因

此,对于性能方面,本研究的目标是:在不降低系统性能的基础上,减小 TDSV

系统的时间开销。

一个真正实用的 TDSV 系统是要在噪音环境下能够有良好性能表现的。要

获得噪音鲁棒的 TDSV 系统,首先需要去除输入语音中包含的噪音,或者识别

出输入语音中包含的有效语音。本研究主要从有效语音检测层面,初步探讨

TDSV 系统的噪音鲁棒性。

1.3.2 本文结构

本文第一章为绪论,主要介绍研究的背景、意义,相关概念以及研究现状。

第二章主要探讨了嵌入式平台上 TDSV 的快速算法实现,通过借鉴语音识别中

的非线性分段算法,从加快速度开始,针对其在分段合理性方面的缺陷,提出

了改进的分段依据,从而同时提升了识别性能。在第三章中,将对 TDSV 的噪

音鲁棒性问题进行初步研究和探讨。最后是总结和展望。

Page 16: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

9

第2章 嵌入式平台文本相关说话人识别的快速

算法研究

2.1 引言

TDSV 应用于嵌入式平台主要有两个关键性的指标:一是 TDSV 识别性能,

足够高的识别率是应用的基础;二是系统的运行速度,快速的乃至实时的反应

才能使用户获得最佳体验。TDSV 技术发展了几十年,其识别性能已经基本能满

足一定范围内的应用要求,因此,研究开发嵌入式平台上的 TDSV 首要问题就

是系统的时间开销。本章将以一个典型的 PC 平台上的 TDSV 系统为基础,从提

升运行速度的角度着手开展工作,进而提出改进的 TDSV 系统,使得其无论从

时间开销还是识别性能上,均能比基线系统更好的满足嵌入式应用的需求。

2.2 基于动态时间弯折的 TDSV

动态时间弯折(Dynamic Time Wrapping, DTW)是一种模板匹配方法,由日

本学者 Itakura 提出,最早用于解决孤立词识别中的语速不均问题。由于孤立词

识别和文本相关的说话人识别具有一定相似性,故 DTW 方法后来也被用于文本

相关的说话人识别,是 TDSV 实现中一个经典的形式。

2.2.1 DTW 基本思想

既然是文本相关的识别,语音内容完全相同,那么很自然的想法就是将识别

语音和训练语音(或者它们的提取序列,如特征矢量序列)在时间上进行匹配。

如果两者能匹配得很好,则可判定它们为同一说话人发出;否则就认定测试语

音为假冒语音。这是模板匹配思想在 TDSV 上的应用。

但这样处理面临的问题是,即便是同一个说话人的同样文本的两个语音,其

信号也无法做到完全相同。这种语音信号的随机性给模板匹配带来了挑战。

对识别信号进行线性的缩放,已经被证明无法有效提高识别性能。DTW 通

过引入动态规划的思想,同时结合时间规整和距离测度,实现了对语音信号的

非线性规整。

Page 17: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

10

DTW 的主要思想为:分别给定模板语音(M 帧)和识别语音(N 帧,M 不

等于 N),通过寻找时间规整函数 ( )m w n ,将识别语音时间轴上的第 n 帧非线

性的映射到模板语音的第 m 帧,并且使该时间规整函数满足公式(2-1):

( )1

min [ ( ), ( ( ))]N

w nn

D d V n T w n

(2-1)

这里 ( )V n 代表第 n 帧识别矢量, ( ( ))T m w n 代表 ( )V n 对应的第 m 帧模板矢

量,而 [ ( ), ( ( ))]d V n T w n 则代表这两个矢量之间的距离度量。D 是这所有距离中时

间最优的情况。DTW 通过不断计算两矢量间的距离获得最优匹配路径,这种方

式保证了模板序列和识别序列之间存在最大的声学相似特征。

2.2.2 基于 DTW 的 TDSV 系统(DTW-TDSV 系统)

DTW-TDSV 系统的实现分为训练和识别两个阶段进行。训练阶段主要包括

以下步骤:

(1) 分帧:按照一定窗长和窗移对输入语音进行分帧操作

(2) 前期处理:包括静音去除、特征提取等

(3) 建立模型:将语音特征序列(或其的一个映射)作为模型

识别阶段包括以下步骤:

(1) 分帧:按照一定窗长和窗移对输入语音进行分帧操作

(2) 前期处理:包括静音去除、特征提取等

(3) 识别匹配:将语音特征序列按照 DTW 方法与模板序列进行匹

配,并计算匹配得分。根据得分和阈值的相对大小来确定识别

结果。

图 2.1 是一个典型的基于 DTW 方法的 TDSV 系统示意图。

Page 18: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

11

T1 Tm „„

特征序列前处理

特征序列

前处理

模型

V1 Vn „„

DTW

识别结果

图2.1 一个典型的DTW-TDSV系统实现流程图

2.2.3 识别性能和时间复杂度分析

在干净语音条件下,DTW-TDSV 系统一般有比较好的识别性能,其 EER 值

一般在 5%以内[22]。良好和稳定的识别性能也是本文选取其作为基线系统的原

因之一。

在时间开销上,由于 DTW 算法本身并不十分复杂,因此在输入语音较短的

情况下(1 秒的有效语言对应大概 100 帧),其训练和识别在 PC 平台上均能做到

实时。但若是移植到普通嵌入式平台上,由于计算资源有限,训练和识别的速

度都大为降低,极易导致糟糕的用户体验。

通过分析 DTW-TDSV 系统训练和识别的过程,不难发现其处理均是以帧为

单位的:训练时逐帧建模,识别时逐帧打分。从充分利用帧的信息来看,这样

处理无疑是合理的。但这种精细化的处理带来了大量的计算量。虽然一般的 PC

平台足以应付这样的计算量,但对于不具备浮点运算器、运算存储能力有限的

嵌入式系统而言,要实时处理如此多的运算是不现实的。

2.3 基于非线性分段思想的 TDSV

正如前文所提到的,由于在训练和识别过程中需要对输入语音进行逐帧的计

算,其时间开销很大。鉴于语音识别和说话人识别之间紧密的联系,以及许多

语音识别领域中的技术也在说话人识别中得以成功应用的现实[22],我们引入了

孤立词识别领域中的非线性分段(Non-Linear Partition, NLP)[29]技术。

Page 19: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

12

2.3.1 NLP 思想和概念

非线性分段,顾名思义,是将语音依据非线性的方法划分为段的技术。在语

音识别中,NLP 作为一种快速的预挑选算法应用于孤立词识别中,主要通过压

缩信息量来加快处理速度[30]。根据语音在时间上的的变化情况,NLP 将其划分

为长度不等的 N 段,对每一段中的所有帧,我们认为它们是相似的。在训练和

识别阶段,将以段的形式进行对待,而非以帧的形式进行处理。一般情况下,

段数往往很小,典型的如 N=4,每一段都包含十几到几十帧的语音,这就有效地

压缩了计算量,从而达到提升运算速度的结果。

假设一段语音有 T 帧,每一帧所对应的特征为 xi (1 i T ),则对特征序列 X

= (x1, „„, xT),定义 xt 和 xt+1 之间的距离为:

2

1 1

1

( , ) [ ( )]K

k k

t cep t t k t t

k

d d x x W x x

(2-2)

这里, kW 指定了特征矢量第 k 维的权重,是一个实验经验数据。本文后续

实验中采用近似的下标权重 , (1 16)kW k k 。

假定语音将被分为 N 段,那么平均每段的变化值为: 1

1

1 T

t

t

D dN

(2-3)

得到 D 后,定义如下分段规则:

1

1 1

*i in n

t t

t t

d i D d

(2-4)

这里 ni (1iN, n0 = 0)表示段分界点,对应于特征序列上的某一帧序号。从

11

inx 到

inx ,所有这些帧将被归为第 i 段,特征序列 X 被分成了 N 段。这种

基于帧与帧之间距离累积(Accumulated Distance)的 NLP,记为 DANLP。

2.3.2 基于 DANLP 的 TDSV 系统(DANLP-TDSV 系统)

和基于 DTW 的 TDSV 一样,基于 DANLP 的 TDSV 系统同样分为训练和识

别两个阶段。

训练阶段主要包括以下步骤:

(1) 按照一定窗长和窗移对输入语音进行分帧操作

(2) 对训练语音进行前端处理,如去噪,VAD 等

Page 20: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

13

(3) 对每帧语音提取出 MFCC 特征,组成特征序列

(4) 根据 DANLP 的分段规则,将该特征序列划分为设定的 N 段,

(S1,S2„„SN)

(5) 分别对段 Si (1iN)进行建模,得到的 N 个模型 Mi (1iN)共同

组成了对应的说话人模型 M

识别阶段主要包括以下步骤:

(1) 按照一定窗长和窗移对输入语音进行分帧操作

(2) 识别语音的前端处理,如去噪,VAD

(3) 对每帧语音提取出 MFCC 特征,组成特征序列

(4) 根据 DANLP 的分段规则,将该特征序列划分为设定的 N 段,

(S1,S2„„SN)

(5) 分别对段 Si (1iN)在对应的 Mi (1iN)上进行打分,总的得分

即为该识别语音在模型 M 上的匹配分数 F

(6) 如果分数 F 小于一个经验阈值,即其有可能被接受,则进行一

次对称测试(Symmetrical Test)以尽量减少错误接受(False Accept,

FA)的出现:用识别语音进行训练,而将训练语音用于识别,

将匹配分数 F' 和 F 的平均值作为最终的匹配分数。

基于 DANLP 的 TDSV 系统流程如图 2.2 所示。

2.3.3 识别性能和时间复杂度分析

在基于 DANLP 的 TDSV 实现中,以段为单位进行训练和识别相对来说不如

以帧为单位进行处理来得精细,是一种粗线条的计算处理方式。在这种意义上,

我们无法期望其能取得较 DTW-TDSV 系统更好的识别效果。但有时候并非越精

细越好,以段为单位进行处理,在有少量奇异帧存在的情况下,可能比逐帧处

理更具鲁棒性。

虽然参数选择,如 N 的选取,以及各维计算权重的确定等,都将对最后的

识别结果产生影响,但我们发现,决定 DANLP-TDSV 系统识别性能高低最为关

键的因素是分段的合理性。分段的合理性包含两个方面的内容:一是分段要相

Page 21: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

14

对准确,这是基于 NLP 思想中“段内各帧相似”的前提,即段内距离相对较小,

而段间距离相对较大;二是对同样内容的不同发音文件,在分段结果上需要保

持一定的稳定性。

在时间开销上,由于信息得到了压缩,需要进行计算的对象大大减少,以段

为单位进行处理比逐帧处理要快很多。从这一点上看,分段的处理对 TDSV 系

统运算速度的提升是有效的。

M1 Mn „„

S1 Sn

„„

S1 Sn „„

识别打分 拒绝 对称测试

识别结果

训练语音

识别语音

NLP

NLP

图2.2 DANLP-TDSV系统实现流程图

Page 22: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

15

2.4 改进的非线性分段的 TDSV 系统

在基于 DANLP 的 TDSV 系统中,保证分段的合理性是极为关键的一环。然

而在实验中我们发现,DANLP 无法从原理上保证分段的准确性,极容易受到微

小干扰(如微小的辅音发音、杂音、尾音等)的影响,分段稳定性较差。

在图 2.3 中,语音(a)和语音(b)分别是同一个说话人对同一个中文词的

两次发音。从波形上观察,可以看到这两个文件基本一样,只是语音(b)在最

开始多了一小段杂音(辅音起始或微小噪音)。显然,对这两个看起来几乎一样

的语音文件,我们期望 DANLP 能给出相似的分段结果;然而实际上两者的分段

结果差距巨大。

以 N=4 为例,DANLP 对语音(a)和语音(b)的分段结果分别是:

{n1 = 33, n2 = 22, n3 = 34, n4 = 20}和{n1 = 14, n2 = 37, n3 = 15, n4 = 43}

这里,ni (1i4)分别表示第 i 段内包含的帧的数目。两个语音总帧数相同,

均为 109 帧 (n1 + n2 + n3 + n4),但在同样的第 i (1i4)段中,帧的分布差距很大。

这样的分段结果显然是不合理的。如果用语音(a)建模,语音(b)识别,识别

结果为“拒绝”,而非我们所期望的“接受”。

导致这种现象的原因在于,DANLP 的基于距离累积的分段规则,受杂音帧

的影响很大。杂音帧自身之间,以及杂音帧与其他帧之间的距离都较大,这些

距离值将在计算中累积,从而影响到段的划分;而且这个影响还会传递到接下

来的所有段的划分。在图 2.3 的例子中,由于语音(b)一开始就受到杂音的影

响,故所有段的划分都受到了影响。

Page 23: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

16

语音 (a) : {n1 = 33, n2 = 22, n3 = 34, n4 = 20}

语音 (b) : {n1 = 14, n2 = 37, n3 = 15, n4 = 43}

图2.3 两个几乎一样的语音,仅仅由于语音(b)前端多了一小段杂音,导致DANLP的分段结

果的巨大差异

可以通过一个实验来验证上述结论。在实验中,我们将语音(b)中的杂音

拷贝增加到语音(a)的前端,得到修改的语音(a'),如图 2.4 所示。再通过 DANLP

对(a')进行分段。(a')的分段结果为:

{n1 = 19, n2 = 36, n3 = 15, n4 = 44}

可以看到,这个结果与语音(b)的分段很相似。因此可以判定,决定语音

(a)和(b)分段差距大的主要原因就在于这一小段的杂音。

Page 24: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

17

语音 (a) : {n1 = 33, n2 = 22, n3 = 34, n4 = 20}

语音 (a') : {n1 = 19, n2 = 36, n3 = 15, n4 = 44}

图2.4 把图2.3中语音(b)中多出的一小段杂音拷贝增加到语音(a),得到的语音(a')的分

段结果和图2.3中语音(b)的分段结果相似。

2.4.1 改进的 NLP 算法

DANLP 分段的不稳定性,必将对 TDSV 的识别性能带来消极影响。而在实

际应用中,即使是在比较理想的情况下进行语音的录制,些许微小的杂音(或

噪音)也是允许并频繁的。在实验中我们发现,基于 DANLP 的 TDSV 系统识别

性能较 DTW-TDSV 系统下降不少,这一点将在本章 2.5 节中详细叙述。

为了提高分段的合理性,本文提出了一种改进的 NLP 方法。既然在 NLP 中,

同一段内的各帧被认为是相似的,那么我们可以认为,合理的分段必然是段内

距离小,而段间距离大的形式。如果假定某一帧为段与段的分界点,则该帧前

后帧之间的距离一定较大。

为了找出段分界点,定义某帧 i 作为分界点的分数 si 如下:

Page 25: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

18

2' '

' ', 0

0,

i

ii

s sif s ss

else

其中 '

,

1

1 M

i i k i k

k

s dM

(2-5)

这里 di,j 表示帧 i 与帧 j 之间的距离,M 为以帧 i 为中心选取的窗的宽度,'s 和

则分别代表所有 s’i 的均值和方差。

一般来说,si 越大,表明第 i 帧前后帧的差异越大,则第 i 帧越有可能是一

个段分界点。图 2.5 显示了语音(a)和语音(b)(与图 2.3 中语音相同)的各帧

得分情况。

从图 2.5 中可以看到,语音(a)和语音(b)的段分界点均在第 62 帧左右

(由于语音文件一般由静音过渡到语音开始,再由语音回归到静音结束,故最

开始和最末尾的数帧不考虑作为段分界点)。段分界点与非分界点的得分差别较

大,区分度高,且几乎不受到杂音影响。

由于公式(2-5)类似于马氏距离(Mahalanobis Distance)的计算公式,故依据

此分段规则的 NLP 被称为 MDNLP。

Page 26: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

19

0 10 20 30 40 50 60 70 80 90 100 110-1

0

1

2

3

4

5

6

7

8

9

10

得分

语音( a)

语音( b)

图2.5 图2.3中语音(a)和语音(b)各帧作为分界点的得分情况。两个语音的分界点均在第

62帧左右,分段结果几乎不受到杂音影响。

2.4.2 基于 MDNLP 的 TDSV 系统(MDNLP-TDSV 系统)

基于MDNLP的TDSV系统和基于DANLP的TDSV系统整个实现流程一样,

只是在非线性分段操作时所依据的分段规则不同。故具体细节不再详述,参见

本章第 2.3 节和图 2.2。

2.4.3 识别性能和时间复杂度分析

MDNLP 以马氏距离为依据,取代了 DANLP 中以距离累积为依据的分段规

则。在 MDNLP 中,相邻分界点之间的所有帧被归为一段,而无需考虑这一段

中具体累积了多少距离。这种分段规则对小的干扰是鲁棒的,而且也克服了距

离累积规则所具有的传递性。从图 2.5 中的例子看出,MDNLP 比 DANLP 的分

段更合理。鉴于实际语音中包含杂音的情况极为常见,且出现次数和位置都是

随机的,我们可以期望MDNLP在大规模数据上取得比DANLP更好的分段表现;

而这必将会使 TDSV 系统的识别性能得到提升。

Page 27: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

20

在时间复杂度方面,MDNLP 依然是基于段来进行处理,因而其继承了

DANLP 在时间开销上的优越性。

2.5 实验和结论

2.5.1 实验数据和参数设定

实验采用的数据库为实验室录制的一批用于 TDSV 的语音。主要参数如下:

(1) 人数: 96 人,男女均衡。

(2) 文本: 每人对 10 个中文词(约 2 到 3 个字)进行发音,每个

中文词说 5 遍。

(3) 采样: 16KHz 采样率,每个采样点用 16 位(bit)表示。

(4) 环境: 录音设备为话筒;所有语音均在干净环境下录制。

对每个说话人,每个文本对应的 5 个语音文件中的 2 个被用于模型训练,剩

下的 3 个被用来进行识别。因此,一次完整实验能产生96 10 2 3 5 760 , 次目

标测试(Target Trials),以及 5,000,000 次以上的假冒测试(Imposter Trials)。我们期

望所有目标测试的结果均为“接受”,而假冒测试的结果为“拒绝”。

一共三个系统,即 DTW-TDSV 系统、DANLP-TDSV 系统以及 MDNLP-TDSV

系统在该数据库上进行训练和识别。在各个系统进行的实验中,采用的特征均

为 16 维的 MFCC 以及其一阶差分。

由于所有语音均为短语音,因此在 DANLP-TDSV 系统以及 MDNLP-TDSV

系统中,每个语音被非线性分为 2 段,即 N=2。在训练阶段,每一段被训练为一

个单高斯模型(Single-Gauss Model, SGM),用该段内所有特征矢量的均值和方

差表示(简单起见,假定各维独立,协方差矩阵为一对角阵):

1 2 32 1 2 32

{ , }

{( , ), ( , )}, ( 1,2)

i i i

i i i i i i

SGM

diag i

…… ……

1

2

1

1,( 1,2;1 32)

1( ) , ( 1,2;1 32)

i

i

Tk k

i t

ti

Tk k k

i t i

ti

x i kT

x i kT

(2-6)

这里 Ti 表示第 i 段中包含的帧数。

Page 28: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

21

在识别阶段,每一段中所有特征参数将在相应 SGM 上计算似然分。假定帧

x 对应于模板第 i 段,则其似然分为: 2( )

( ) i

i

xf x

(2-7)

在该段上的识别得分 Fi以及总的识别得分 F 分别为:

1

1( ), ( 1,2)

iT

i k

ki

F f x iT

(2-8)

1 1 2 2

1 2

T F T FF

T T

(2-9)

为了尽量减少错误接受情况的发生,必须对识别结果为“接受”的情况严格

判定。因此,当识别得分 F 小于一个经验阈值(30.0)时,进行对称测试,得到

得分 F'。识别最后得分为:

'

2

F

F F F

, 无对称测试

, 有对称测试 (2-10)

2.5.2 识别性能及分析

实验分别在 DTW-TDSV 系统,DANLP-TDSV 系统和 MDNLP-TDSV 系统上

进行。在 2.5.1 节所述数据库上,实验结果见图 2.6 所示。

作为基线系统,DTW-TDSV 系统的 EER 值为 2.08%。DANLP-TDSV 系统识

别性能有所下降,其 EER 值为 2.57%,相对 baseline 上升了 23.6%。由此可见,

分段结果不够鲁棒的 DANLP 对识别性能产生的消极影响较大。而改进了分段规

则的 MDNLP-TDSV 系统表现最好,其 EER 值为 1.72%,相比 baseline 识别性能

提升了 17.3%,比 DANLP-TDSV 系统更是提升了 33.1%。

2.5.3 时间开销及分析

为了测试系统的时间开销,从数据库中随机挑选了 15 个语音文件进行测试。

测试对象分别选取 DTW-TDSV 系统和 MDNLP-TDSV 系统,其中前者作为基线

系统。测试平台为 PPC 机器 dopod P800。15 个文件分别在两个系统上进行训练

和识别测试,得到的时间开销结果如表 2.1 所示。

Page 29: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

22

从表 2.1 中可以看到,采用了非线性分段的 MDNLP-TDSV 系统比 baseline

系统节约了大量的计算时间,训练和识别速度分别提升了 72.6%和 48.2%。对于

一个 100 帧左右的短语音文件(一般包含 2 到 3 个中文字),识别时间由约 5 秒

下降到了约 2 秒,更加接近嵌入式平台上的 TDSV 实际应用需求。

尤其值得指出的是,为了使系统获得更好的识别性能,一般我们会选择对模

板进行多次训练。对于 DTW-TDSV 系统,多次训练的结果是导致模板大小线性

增加,进而带来了识别时间的相应增长。但对于 MDNLP-TDSV 系统,多次训练

只是对模板进行适应和修改,并不会导致模板大小的变化,因此识别时间也几

乎保持不变。这就说明,在多遍训练的情况下,改进后的系统的识别速度比基

线系统将提高得更多。显然,MDNLP-TDSV 系统的这个特点在实际应用时是很

有意义的。

0.5 1 1.5 2 2.5 3 3.50.5

1

1.5

2

2.5

3

3.5

FAR (%)

FR

R (

%)

EER:2.08

EER:2.57

EER:1.72

DTW

DANLP

MDNLP

图2.6 不同TDSV系统的识别性能

Page 30: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

23

表2.1 两个TDSV系统时间开销比较

系统 时间开销(毫秒/帧)

训练 识别

DTW-TDSV 120.92 46.77

MDNLP-TDST 33.13 24.22

相对速度提升(%) 72.6 48.2

2.5.4 结论

从实验结果可以看出,无论是在时间开销上,还是在系统识别性能上,

MDNLP-TDSV 系统的表现都是最好的。因此我们相信,只要分段足够合理和精

确,基于段的“粗糙化”处理不但更加快速,甚至比基于帧的“精细化”处理

具有更好的性能。

2.6 本章小结

作为一种成熟而经典的模板匹配方法,DTW 应用于 TDSV 在性能上取得了

的不错的效果。但是跟其他典型的运用于 TDSV 的方法一样,其基于帧级别的

精细运算在嵌入式平台上显得太过繁杂,导致系统时间开销较大,从而影响了

TDSV 在嵌入式平台上的应用。

为了提升运算速度,把精细处理粗糙化不失为一种考虑方式。借鉴于孤立词

识别中的非线性分段思想,本文在段的层面上对语音进行训练和识别,取代了

之前在帧的层面上进行的相关处理。在这个方法里,每一个段均为多个帧的集

合,通过这种方式可以压缩信息量,从而达到减少时间开销的目的。实验证明,

这个方法在减少系统运算时间上是有效的。

然而这种粗糙化的处理带来了系统性能的降低。实验证明,NLP 的分段规则

抗干扰能力很差,一段微小的杂音即能导致差异巨大的分段结果。而分段结果

的合理性和稳定性又直接决定了模型建立的精确性和识别匹配的准确性。因此,

直接照搬已有的 NLP 方法,虽然时间开销降低了,但也带来了识别性能上的不

小的损失。

为此本文提出了改进的 NLP 方法。区别于原本的基于距离累积的分段规则,

提出了新的基于马氏距离的分段规则。新的规则不但在分段合理性上有原理支

Page 31: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 2 章 嵌入式平台文本相关说话人识别的快速算法研究

24

持,而且对语音中的微小干扰具有良好的鲁棒性。实验证明,基于新的 NLP 的

TDSV 系统不但保持了时间开销上的优势,其识别性能也优于基线系统,也更能

适应嵌入式平台上的 TDSV 应用需求。

Page 32: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

25

第3章 文本相关说话人识别噪音鲁棒性的研

3.1 引言

噪音、信道差异和短语音等是说话人识别长期以来面临的几大问题。其中对

噪音鲁棒的说话人识别一直都是研究的重点方向。无论是文本无关的说话人识

别,还是文本相关的说话人识别,都对噪音有着很大的敏感性,其识别性能往

往随着噪音的增强急剧下降。

而对于说话人识别来说,其最自然最广泛的应用场景,总是包含着各种干扰

的:最基本的背景噪音(如仪器系统自身振动声音,稳定或者周期性的环境噪

声等),还有突发噪音(如刹车声),或者其他人的发音,甚至是自己发音的回

响,等等。这些干扰都会对说话人识别性能产生消极影响。

一般来说,在研究说话人识别中的噪音鲁棒性时,我们无法兼顾所有的干扰

情况,很多情况下仅集中于消除背景噪音带来的影响。本章亦将着重讨论背景

噪声对 TDSV 系统带来的影响,以及就克服噪音干扰进行一些初步探讨。

3.2 噪音对 TDSV 的影响

要直观理解噪音对 TDSV 的影响,本文设计了如下实验:准备一个干净语

音数据库 DATA-C 用于训练,再由 DATA-C 生成信噪比(Signal Noise Ratio, SNR)

分别为20,15,10,5的含噪数据库DATA-N20,DATA-N15,DATA-N10,DATA-N5,

将干净语音和含噪语音分别在 TDSV 系统上进行识别,比较不同含噪条件下的

识别性能。

在 TDSV 系统的前期处理中,有一个重要的环节称为语音端点检测(Voice

Activity Detection, VAD)。其功能是去除输入语音中的非语音部分,只保留纯净

语音作为下一步处理的数据。这样做的目的是去除了非语音数据对 TDSV 产生

的影响,同时也压缩了进一步处理的计算量,有利于处理速度的提升。

在干净条件下,现有的 VAD 一般能取得比较精确的检测结果。但在含噪语

音中,VAD 对有效语言的检测功能就要大打折扣了。由于噪音的存在,一方面

Page 33: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

26

噪音可能被保留下来当作了有效语音,另一方面语音本身又可能被当作噪音被

忽略掉。而无论发生哪种情况,都将对 TDSV 的后续处理产生影响,从而也影

响其识别性能。

为了研究噪音对TDSV识别性能产生的影响,就需要消除噪音的引入对VAD

产生的干扰。为此,在数据库 DATA-C 的基础上准备了手动消除了静音部分的

数据库 DATA-C2,并从 DATA-C2 生成相应的各种含噪数据库。

3.2.1 数据库和实验设置

DATA-C 中的语音来自于章节 2.5.1 中的数据库。从中随机挑选 10 人(男女

各半),每人挑选 5 个文本的所有发音(即每个文本 5 次发音,对应的文件分别

标记为 1、2、3、4、5),并保证所有人的 5 个文本相同。总的数据库大小为

1055=250。

在每次实验的训练阶段,均在 DATA-C 中选取标记为 1 和 2 的文件进行建模;

在识别阶段,则选取各个数据库中标记为 3、4、5 的文件用于测试。一次实验

中,训练文本一共有 1052=100 个,识别文本一共有 1053=150 个。总的

测试次数为 100150 = 15,000,其中目标测试有 1003=300 个,假冒测试有

14,700 个。

将数据库 DATA-C 中的语音进行静音的手动切除处理,就得到了数据库

DATA-C2。它们对应的各个含噪数据库借助于 Matlab 工具生成。

实验在 DTW-TDSV 系统上进行。采用的特征为 16 维的 MFCC 及其一阶差

分。

3.2.2 实验结果和结论

实验结果见表 3.1 所示。从表中可以看到,信噪比越小,TDSV 的识别性能

越差,这个规律对于语音是否切除静音都是适用的,是符合预期的。

另一个值得关注的规律为,对手动切除了静音的数据库来说,噪音对识别性

能的影响相对要小(相比于在未切除静音的数据库上取得的结果)。且噪音越大,

两者之间性能差距也越大。从另外一个层面上该规律可以理解为:在信噪比相

同的情况下,手动切除静音的数据在 TDSV 上的识别性能更好。

这种现象反映了 VAD 对含噪语音识别性能的影响。不妨把手动切除静音看

做是一个完全精确的 VAD 过程(忽略人工操作上可能的失误),那么对未切除

静音的语音,TDSV 系统自身将对其进行 VAD 操作,而这个自动处理过程是相

Page 34: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

27

对不精确的。显然,在同等噪音环境下进行的两次 TDSV 测试,识别性能的差

异来源于两个 VAD 处理的差异。因此可以认为,一个好的 VAD 算法对于 TDSV

的噪音鲁棒性是十分必要的。

表3.1 不同信噪比情况下TDSV识别性能(EER值,单位为%)及受VAD的影响情况

SNR(db) 干净语音 20 15 10 5

未切除静音 2.73 8.98 14.67 26.67 48.68

已切除静音 3.03 8.33 13.67 22.05 36.28

性能提升(%) -0.30 0.65 1.00 4.62 12.40

3.3 TDSV 系统抗噪方法的初步研究

对 TDSV 噪音鲁棒性的研究一直是 TDSV 研究领域的热点之一。从大的方

面来说,同文本无关的说话人识别一样,TDSV 抗噪可以从以下两个方面进行考

虑:一是消除法,即通过技术手段设法消除识别语音中存在的噪音,使噪音对

识别的影响最小化;二是补偿法,即通过对噪音的先验估计,将与识别语音中

相似的噪音特征补偿到训练模型中,尽量缩小训练语音和识别语音的背景环境

差距。

而根据本章 3.2 节得出的结论,对于 TDSV 系统来说,噪音对识别性能产生

影响的一个重要方面来自于其对 VAD 精确性产生的影响。因此,本章将从 VAD

的相关技术方法入手,对 TDSV 系统的抗噪方法进行初步研究。

3.3.1 VAD 研究现状

VAD 被广泛的应用于语音编码、语音增强、语音识别、说话人识别等系统

中[31]。作为对输入语音的一个前处理过程,其作用越来越得以凸显,相关研究

也很多。在说话人识别中,VAD 的主要操作步骤包括:

(1) 以一定窗长和窗移对输入语音进行分帧

(2) 对每一帧计算获得其对应的特征,得到语音的特征序列

(3) 在时间轴上对每一帧进行分析,判定其是否为语音帧

(4) 将特征序列中对应于非语音的特征抛弃,留下语音特征序列进

入下一个处理阶段

Page 35: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

28

其中的关键在于第三步,即如何判定某帧是否为语音帧。从发展上看,VAD

主要利用的技术包括能量、过零率、频谱特征[32]、基音周期性[33]等;[34]中

提出了一种利用语音中高层统计信息进行 VAD 的方法;[35]则通过低变频谱预

测和阈值自适应方法,取得了较好的效果。目前广泛应用且具有代表性的的 VAD

方法包括能量判定、过零率判定以及它们的组合或变形等。著名的 ITU-T G.729

Annex 作为实用的 VAD 工具,采用的主要方法就包括能量差异和过零率[36]。

能量检测方法是基于以下的前提:在信噪比较高的语音中,语音帧能量相对

比非语音帧(静音)能量高。因此,只要给定对非语音帧能量的一个预估,即

可根据能量对帧序列进行判定:帧能量高于阈值的,认为是语音帧;否则为非

语音帧。

帧能量的检测方法原理简单,实现方便,且其基于的前提假设在干净语音条

件下比较符合实际。但其缺陷也很明显:(1)在信噪比相对较低的含噪语音中,

某些语音帧能量和非语音(噪音)帧能量的差距可能不太明显,甚至其大小关

系会发生反转,这时候简单根据一个阈值来划分,误差较大;(2)对于不同的

含噪语音,由于发音时外在条件和环境不可能完全一样,其噪音水平一般是不

一样的,但预设的阈值无法根据语音的具体情况有所修正。

过零率(Zero Crossing Rate,ZCR)[37]描述的是时域波形穿过零线的频率。

由于在人的发音中,元音部分过零率较低,而辅音部分过零率较高,所以依据

过零率可以区分元音和辅音,这一性质最开始被应用于语音识别中进行音素切

分。在安静情况下,由于静音部分的过零率基本为零,因此能方便的检出元音

和噪音,也就等同于检出了语音部分。故在说话人识别中,过零率也能用来检

测语音的端点。

与基于帧能量的检测方法一样,噪音对过零率检测法影响也很大。由于噪音

本身具备不确定的过零率(如白噪声一般过零率较高,而有些噪音过零率又较

低,而且也可能存在噪音的过零率和语音的过零率相近的情况),因此在进行语

音端点检测时,阈值的确定将是一个很大的问题。

一般来说,将帧能量和过零率结合起来使用,往往比单独使用能取得更好的

效果。双门限法是通过两次帧能量阈值判定,再结合过零率进行端点检测的一

种方法。[38]在此基础上引入新的判决门限,修正了过零率的计算。这些方法都

是基于能量和过零率的组合和变化。

Page 36: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

29

3.3.2 基于统计的自动噪音能量估计

对于以帧能量为依据的 VAD 来说,在含噪情况下,如何合理的确定噪音能

量的阈值是极为重要的。如果阈值设定过低,则大量噪音将被当作有效语音被

保留下来;而如果阈值设定太高,则容易导致有效语言的缺失。对于第一种情

况,噪音帧进入后续打分环节不但增加了计算量,同时也会对最后得分造成无

法预计的影响。对第二种情况而言,虽然丢失语音对文本无关的说话人识别影

响不大(只要能保证一定的有效语音长度),但对 TDSV 的影响很大,因为 TDSV

对语音内容是敏感的。

因此,基于帧能量的 VAD 的效果是极其依赖于阈值设定的,只有在对非语

音帧能量有较好估计的情况下,才可能取得较理想的结果。然而如何确定一个

合理的阈值,在实际情况中面临着很大的挑战。这是因为即便背景噪音大体是

“稳定”的,但在平均能量上的抖动依然具有不确定性,在这种情况下预先设

定一个阈值,往往无法覆盖到所有情况,导致 VAD 效果不够理想。特别是对于

多个语音文件应用同一个阈值,其准确性更加无法保障。

为此,本文提出一种基于统计的自动噪音能量估计,不依据任何先验知识来

为每一个特定语音确定其噪音阈值。这个方法是基于以下前提假设的:(1)语

音中包含的背景噪音大致平稳(为方便起见,本文认为短语音的背景噪音是平

稳的);(2)总体上看语音帧能量高于噪音帧能量,即信噪比不是太低。

假定语音的长度为 M,其对应的帧能量序列为 E = (e1,e2,„„eM),通过如下

步骤来估计该语音中的噪音能量:

(1) 依据帧能量从大到小的顺序对序列 E 排序。

(2) 设定两个容器,分别为语音容器 S 和噪音容器 N。S 初始化为空,

N 初始化为排序后的 E,即假定整个语音均为噪音。计算 N 中

所有能量的均值和方差 。

(3) 若 N 为空,停止;否则从 N 中取出最大值(即第一个数值)Emax

放入 S,重新计算 N 中所有能量的均值 ' 和方差 ' 。

(4) 若 ' 和前一次计算的 差别很小(小于一个阈值),停止;否则

分别将 ' 和 ' 赋值给和 ,跳至步骤(3)。

若程序在第(4)步停止,则噪音能量估计值即为 Emax;若程序在第(3)步

停止,则噪音能量估计失败,仍然采用预先设置的阈值进行处理。一般来说,

在符合前提假设的情况下,对噪音能量的估计均能成功。

Page 37: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

30

基于统计的自动噪音能量估计实现了对每个输入语音单独设定阈值,能够有

效克服由于各个语音噪音不一致对 VAD 带来的不利影响。

3.3.3 利用过零率修正帧能量

仅仅依靠帧能量来判定某帧是语音或者噪音是不够的。这是因为在一些情况

下,噪音帧能量可能跟语音帧能量相差无几,甚至比语音帧能量更大。典型的

如一些清音的发音,音量本身往往会很小,很容易混淆在背景噪音内。如英文

单词“suppress /sə'pres/”的一种含噪发音如图 3.1 所示。

在这个单词的发音中,前后两个音节 /sə/ 和 /s/ (辅音)的音量均很小,

从波形上看已经和背景噪音相差不大了。如果此时仅依据能量来检测语音端点,

则这两个音节的发音很难能被检测到。根据 3.3.2 节中的自动能量估计,设定阈

值为 494,得到的语音端点见图 3.1。

从图 3.1 中可以看到,能量相对较大的元音部分被正确检测出来,而前后两

个音节则大部分被抛弃掉了。在 TDSV 中,如果训练语音和识别语音能尽量保

持一致,即识别时各个音节的音量能和训练时相近,则某些音素要么同时被保

留,要么同时被抛弃,这种情况下识别性能所受影响还不会太大。然而在实际

应用中,这种一致性往往很难得到保证(如前述“suppress”的两个低音量音节,

用户完全可能在发音时加重音量,从而使得其对应的两个发音部分从背景噪音

里区分开来),使得识别时容易产生文本缺失或多余的情况。这对 TDSV 的识别

性能是有很大影响的。因此,把湮没于噪音中的语音找出来就很有必要了。显

然此时是无法单纯借助于帧能量的。

考虑到容易和噪音混淆的往往是能量较低的发音,而人的发音中能量较低的

部分往往是辅音,因此我们的目标就变成了检测语音中的辅音部分。过零率可

以帮助发现语音中的辅音,再加上依据帧能量检测出来的元音部分,就可以完

成对所有语音的检测。

Page 38: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

31

0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2

x 104

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2x 10

4

图3.1 英文“suppress / sə'pres /”的一个含噪发音样例。用红色实线标注了以帧能量为依据的

VAD检测结果。

这里的一个前提条件是:假定背景噪音的过零率和辅音的过零率是有相当差

异的。因为背景噪音的过零率是不确定的(如白噪声的过零率一般很高,而本

章 3.4 节中涉及的数据的噪音过零率又比较低),如果其和辅音过零率无法区分,

也就无法将辅音检测出来了。

在保证了上述前提的条件下,本文提出了利用过零率对帧能量进行修正的方

法,其目的是利用噪音和辅音过零率的差异,将辅音帧能量放大。该方法的具

体步骤为:

(1) 利用自动噪音能量估计,首先将能量较大的部分(容器 S)取出。

该部分包括元音帧以及能量较大的辅音帧。剩下容器 N 中的帧

主要为噪音帧和能量较低的辅音帧。

(2) 将 N 中所有帧对应的过零率归为两类,保证两类的类内距离和

最小。

Page 39: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

32

(3) 根据两类中对应帧所在的位置,确定辅音类和噪音类:与元音

距离近,且连续帧较短的可判定为辅音类。计算得到噪音类中

所有过零率的均值和方差,分别记为 noise 和 noise

(4) 对 N 中第 i 个能量 0

iE ,根据公式(3-1)对其进行修正,得到修

正后的能量 iE : 0 2( )

[ 1]0

i noise

noise

E

i iE E e

(3-1)

从公式的运算效果可以判定,修正后的噪音能量被抑制,一般不会超过原值;

辅音帧能量则会被放大;元音帧能量未作处理,保持不变。

将容器 N 中的能量修正后,将修正后的能量和 S 中的能量一起重新进行自

动噪音能量估计。对图 3.1 中的语音,其过零率和修正前后的能量见图 3.2 所示;

利用修正后能量进行的 VAD 结果如图 3.3 所示。

0 10 20 30 40 50 60 70 80 900

5000

10000

能量

0 10 20 30 40 50 60 70 80 900

100

200

过零

图3.2 图3.1中语音的原始能量、修正能量以及过零率按帧分布情况。由于每帧包含的取样点

数相同,故此处过零率的取值是每帧中取样点过零的总次数

(红色虚线表示原始能量,蓝色实线表示修正后能量,绿色点线表示过零率值)

Page 40: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

33

从图 3.2 中可以看出,低能量语音部分和噪音部分的过零率差异较大,因此

用公式(3-1)对帧能量修正后,低能量语音部分的“能量”值明显提升,而噪

音部分帧能量值则有所降低。从图 3.3 中的检测结果来看,该方法的语音端点确

定更合理和准确。

0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2

x 104

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2x 10

4

图3.3 对图3.1中的语音,依据改进的VAD检测到的语音端点示意图。

3.4 实验和结论

3.4.1 实验数据和参数设置

实验数据来自于 SONY 公司数据库。总发音人数为 5 人(2 男 3 女),每人

对 243 个英文短语进行发音,每个短语说 3 遍。所有数据均在噪音环境下录制。

录音采样率为 16kHz,每一个采样点用 16 位表示。

Page 41: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

34

对每个短语,选取其中一个用作训练,每个人的训练模板有 243 个,一共有

243 5 1 215 , 次训练。所有的3 645, 个文件均用于识别。识别次数为 12153645

次,其中目标测试有1 215, 3=3 645, 次,其他均为假冒测试。

由于所有语音数据均为短语发音,长度在 1 秒到数秒之间,因此基本能保证

背景噪音的平稳性。这是自动噪音能量估计方法使用的前提。

实验采用的基线系统为DTW-TDSV系统,其依据帧能量来进行VAD的处理。

实验中每帧的宽度为 20 毫秒,帧移为 10 毫秒;提取的特征为 16 维的 MFCC 及

其一阶差分。

3.4.2 实验结果

实验分别在三个系统上对照进行,基线系统(baseline)VAD 采用的是传统

的基于帧能量判决的方法,改进系统 1 的 VAD 采用的是基于统计的自动噪音能

量估计技术,改进系统 2 的 VAD 则同时采用了过零率修正的帧能量和基于统计

的自动噪音能量估计技术。实验结果如表 3.2 所示,对应的 DET 曲线见图 3.4。

2 4 6 8 10 12 14 162

4

6

8

10

12

14

16

FAR (%)

FR

R (

%)

改进系统 2

改进系统 1

基线系统

图3.4 VAD对TDSV系统在含噪数据库上的性能影响DET曲线

Page 42: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

35

表3.2 基于不同VAD方法的TDSV系统在含噪数据库上的识别性能比较

系统 基线系统 改进系统 1 改进系统 2

EER(%) 9.20 7.80 5.23

性能提升(相对值,%) NULL 15.2 43.2

3.4.3 结论

从表 3.2 的实验结果可知,基于统计的自动噪音能量估计,比单纯的预设一

个噪音能量阈值,VAD 的检测结果更加合理,因而提升了 TDSV 系统的识别性

能,使得 EER 值相比基线系统下降了约 15%。而利用过零率对能量进行修正,

能进一步提升 VAD 效果,也使 TDSV 系统获得了最佳的识别性能,其 EER 相

对于基线系统下降了约 43%。

3.5 本章小结

VAD 效果不理想,对语音端点的检测不够准确,对 TDSV 系统的识别性能

的影响是很大的。在干净语音条件下,现有 VAD 技术往往能取得比较理想的检

测结果;但在含噪语音条件下,噪音的加入使得 VAD 的检测结果面临不确定性:

因为无论是帧能量,还是过零率,受到噪音的影响都很大。

作为探讨 TDSV 噪音鲁棒性的第一步,本章着重研究了 VAD 对 TDSV 识别

性能的影响,以及噪音条件下 VAD 的实用技术。针对不同语音的背景噪音可能

存在较大差异的情况,提出了基于统计的自动噪音能量估计,克服了预设噪音

能量阈值可能带来的不良影响,使 VAD 对噪音的估计更加灵活和准确。针对发

音中存在的低音(主要是辅音音节发音)问题,提出了引入过零率对能量进行

修正的方法,在低音和噪音过零率差异较大的情况下,该方法能有效避免低音

被噪音所湮没。这两个方法的优点在于,基本无需先验知识即能对背景噪音的

参数(如帧能量,过零率)进行比较合理的估计。实验证明,这些方法在一定

范围内是有效的,能够明显提高 TDSV 系统的识别性能。

值得注意的是,基于统计的自动噪音估计仅在背景噪音较为平稳的情形下有

较好表现,若语音较短,一般可以认为能满足此条件,但如果语音发音较长或

背景噪音抖动剧烈,则可以考虑在局部范围内(如取一个相对较窄的窗)使用,

Page 43: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 3 章 文本相关说话人识别噪音鲁棒性的研究

36

亦可能不适用。而利用过零率修正帧能量时,若噪音过零率和辅音低音过零率

差异太小,可能不会有明显效果。

Page 44: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 4 章 结束语

37

第4章 结束语

4.1 研究总结

就文本相关的说话人识别这一课题,本文主要作了两个方面的研究:一是将

TDSV 系统应用到嵌入式平台,力求在时间开销上的改进和识别性能的提高;二

是对 TDSV 的噪音鲁棒性进行了初步探讨,着重点在语音端点检测方面。

把基于 PC 平台的 TDSV 系统移植到嵌入式平台只是一个开始,由于计算存

储资源都很有限,传统的 TDSV 系统在嵌入式平台上的运行速度很慢,这种糟

糕的用户体验必将制约 TDSV 在嵌入式平台上的广泛应用。为此,从减少时间

开销、提升运行速度的角度出发,本文引入了语音识别领域的基于段的处理方

法——非线性分段。作为多个帧的集合,以段为单位的计算处理方式,较之前

逐帧的处理方式压缩了信息量,减少了运算数目,从而显著地提高了建模和识

别的速度。

然而这种相对粗糙化的处理带来了系统识别性能的较大损失。通过对非线性

分段方法的深入分析,我们发现其分段鲁棒性不高,尤其容易受到语音中小的

扰动的影响。基于距离累积的分段方法导致的这种不稳定性,对 TDSV 系统产

生了较大影响,是导致识别性能下降的主要原因。

为此,本文提出了新的基于马氏距离的分段规则。实验表明,该分段规则对

语音中的微小干扰具有良好的鲁棒性。基于这种新规则的 MDNLP-TDSV 系统在

干净语音条件下不但获得了较少的时间开销,也取得了更好的识别效果。

TDSV 的噪音鲁棒性是一个很大的课题,期望一下子能解决所有问题是不现

实的。本文首先探讨了噪音情况下 VAD 对 TDSV 识别性能的影响。实验结果证

明,VAD 的精确性越高,越有利于噪音情况下的 TDSV 性能的提升。为此,作

为对 TDSV 抗噪研究的第一步,本文将主要精力集中于对 VAD 方法的研究。

鉴于实际情况下各个语音中的背景噪音不可能完全一致,本文提出了基于统

计的自动噪音能量估计,取代了之前预设的、固定的噪音能量阈值。这种无需

任何先验估计的方法实现了对每个输入语音的区别对待,较预设阈值的方法更

加灵活,也更加合理。实验证明,这种方法在能够更好地改进 VAD 效果,进而

提升 TDSV 系统的识别性能。

Page 45: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 4 章 结束语

38

在实际情况下,音量低的辅音发音部分有可能湮没于噪音中,这时候仅仅依

靠帧能量判定是无法解决这个问题的。为此在 VAD 中引入了能区分元音和辅音

的过零率判定方法。如果确有辅音湮没于噪音中,且噪音的过零率跟辅音的过

零率有一定差异,就可以利用该差异来修正辅音部分的“能量”。修正的结果往

往是抑制噪音能量并提升辅音能量的。实验证明,经过修正后的能量再经过自

动噪音估计,VAD 的精确性有显著提高,也更进一步促进了噪音情况下 TDSV

系统的识别性能。

4.2 下一步工作展望

本文虽然在文本相关的说话人识别领域开展了一些研究,并提出了一些改进

方法,然而也还存在很多的不足。下面针对研究涉及到的两个方面,分别阐述

其不足之处,并指出未来可能深入研究的方向。

(1) 嵌入式平台下的 TDSV 研究

本文主要在 TDSV 的算法层面做了相关的研究和改进工作。而基于运算优化

方面,虽然实现了定点化运算,但可做的工作还有很多。如数值范围预估,代

码改写,复杂运算函数的简化等,这些方法应该都能对系统运行速度有提升作

用。

在算法层面,本文认为也有多种改进余地。例如,由于实验中涉及的数据均

为双字短语,语音长度均很小(1 秒左右),故在进行非线性分段时简单采取了

固定分为两段的做法。这个处理对于较长的语音不一定适用。因此如何根据语

音内容长度来自动调整分段段数,是一个可以研究的课题。等等。

(2) TDSV 的噪音鲁棒性研究

本文的研究主要集中于改进 VAD 方法,提升 VAD 的精确性。实际上,对

VAD 的研究本身是语音识别、说话人识别领域的一个重点和热点。本文中涉及

到的方法主要为能量判定和过零率判定,而例如基音周期、频谱特征等在 VAD

中广泛应用并能取得良好效果的特征,本文中并未涉及。因此,下一步可以考

虑引进其他的方法来进一步提升 VAD 的精确性。

此外,本研究中提出的基于统计的自动噪音能量估计,仅在背景噪音相对平

稳的前提下才有效,因此可能更适用于短语音的情况。而如果背景噪音抖动剧

烈,或者语音较长(这种情况下噪音的平稳性相对不容易保证),则可能需要另

Page 46: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

第 4 章 结束语

39

做处理了。在利用过零率对帧能量进行修正时,如果低音帧的过零率和噪音帧

过零率相近,也无法得到有效处理。这些限制都是未来研究中可能取得突破的

地方。

Page 47: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

参考文献

40

参考文献

[1] Davis, S., Mermelstein, P. Comparison of parametric representations for monosyllabic word

recognition in continuously spoken sentences. IEEE Trans. Acoustics, Speech, Signal

Process. 1980, 28 (4): 357-366.

[2] Atal, A. Automatic recognition of speakers from their voices. Proc. IEEE. 1976, 64:460-475.

[3] Huang, X., Acero, A., Hon, H.-W. Spoken Language Processing: a Guide to Theory,

Algorithm, and System Development. 2001, Prentice-Hall, New Jersey.

[4] Hermansky, H. Perceptual linear prediction (PLP) analysis for speech. J. Acoust. Soc. Amer

(JASA) . 1990, 87, 1738-1752.

[5] Thian, N., Sanderson, C., Bengio, S. Spectral subband centroids as complementary features

for speaker authentication. Internat. Conf. on Biometric Authentication (ICBA 2004), Hong

Kong, China, July 2004, pp. 631-639.

[6] Kinnunen, T., Zhang, B., Zhu, J., Wang, Y. Speaker verification with adaptive spectral

subband centroids. Internat. Conf. on Biometrics (ICB 2007), Seoul, Korea, August, 2007,

pp. 58-66.

[7] Kinnunen, T., Alku, P. On separating glottal source and vocal tract information in telephony

speaker verification. Internat. Conf. on Acoustics, Speech, and Signal Processing (ICASSP

2009), Taipei, Taiwan, April 2009, pp. 4545-4548.

[8] Plumpe, M., Quatieri, T., Reynolds, D. Modeling of the glottal flow derivative waveform

with application to speaker identification. IEEE Trans. Speech Audio Process. 1999, 7 (5),

569-586.

[9] Adami, A., Mihaescu, R., Reynolds, D., Godfrey, J. Modeling prosodic dynamics for speaker

recognition. Internat. Conf. on Acoustics, Speech, and Signal Processing (ICASSP 2003),

Hong Kong, China, April 2003, pp. 788-791.

[10] Chen, Z.-H., Liao, Y.-F., Juang, Y.-T. Eigen-prosody analysis for robust speaker recognition

under mismatch handset environment. Internat. Conf. on Spoken Language Processing

(ICSLP 2004), Jeju, South Korea, October 2004, pp. 1421-1424.

[11] Das, A. and Tapaswi, M. Direct modeling of spoken passwords for text-dependent speaker

recognition by compressed time-feature refresentations. Internat. Conf. on Acoustics, Speech,

and Signal Processing (ICASSP 2010). 2010, pp.4510-4513

Page 48: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

参考文献

41

[12] Furui, S. Cepstral Analysis Technique for Automatic Speaker Verification. IEEE

Transactions on Acoustics, Speech and Signal Processing. 1981,29:254-272.

[13] Yegnanarayana, B., Prasanna, S.R.M., Zachariah, J.M., and Gupta, C.S. Combining

Evidence From Source, Suprasegmental and Spectral Features for a Fixed-Text Speaker

Verification System, IEEE Transaction on Speech and Audio Processing. 2005, pp.575-582.

[14] Higgins, A., Bhaler, L. and Porter, J. Voice identification using nearest neighbor distance

measure. Internat. Conf. on Acoustics, Speech, and Signal Processing (ICASSP 1993). 1993,

pp. 375-378

[15] Soong, F., Rosenberg, A., Rabiner, L., et al. A vector quantization approach to speaker

recognition. Internat. Conf. on Acoustics, Speech, and Signal Processing (ICASSP 1985).

1985, pp. 387-390

[16] Hertz, J., Krogh, A. and Palmer, J. Introduction to the theory of neural computation. Santa

Fe Institute Studies in the Sciences of Complexity, Addison-Wesley, Reading, Mass, USA.

1991

[17] Haykin, S. Neural networks: a comprehensive foundation. Macmillan, New York, USA.

1995

[18] Naik, J., Netsch, L., and Doddington, G. Speaker verification over long distance telephone

lines. Internat. Conf. on Acoustics, Speech, and Signal Processing (ICASSP 1989). Glasgow,

May 1989, pp. 524–527.

[19] Reynolds, D., Rose, R., 1995. Robust text-independent speaker identification using Gaussian

mixture speaker models. IEEE Trans. Speech Audio Process. 1995, 3, 72–83.

[20] Reynolds, D.Speaker identification and verification using Gaussian mixture speaker models.

Speech Comm. 1995, 17, 91–108.

[21] Campbell, W., Campbell, J., Reynolds, D., Singer, E., Torres-Carrasquillo, P. Support vector

machines for speaker and language recognition. Comput. Speech Lang. 2006, 20 (2–3), 210

–229.

[22] Reynolds, D.A. An Overview of Automatic Speaker Recognition Technology Internat. Conf.

on Acoustics, Speech, and Signal Processing (ICASSP 2002), Orlando, Florida, 2002, pp.

4072-4075.

[23] www.iflytek.com/Html/cpfw/newyuyin/newyyhc/newzlcp/interveri

[24] http://www.dopod.com/product/productdetail/product.php?id=P800

[25] Moon, Y., Leung, C., Pun, K. Fixed-point GMM-based Speaker Verification over Mobile

Embedded System. Preceedings of ACM Workshop on Biometrics: Method and Applications,

2003, pp.53-57.

Page 49: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

参考文献

42

[26] Shin, K., Poon, J., Li, K. A Fixed-point DSP Based Cantonese Recognition System.

Proceedings of IEEE International Symposium on Industrial Electrons, 1995, pp.390-393.

[27] Boman, R. Fixed Point Implementation of Common Signal Processing Algorithms.

Proceedings of International Conference on Signal Processing Applications and Technology.

1997.

[28] 任舒彬等. 基于 PDA 平台的实时说话人识别系统. 电声技术. 2007, pp.47-50.

[29] Zheng, F. Studies on Speaker-Independent Continuous Digit Recognition Methods and

Chinese Speech Corpus. a master's degree thesis, Tsinghua University Department of

Computer Science. 1992, pp.28-29.

[30] Huang, X.-D., Cai, L.-H., Fang, D.-T., Ci, B.-J., et al. A Large Vocabulary Chinese Speech

Recognition System. Internat. Conf. on Acoustics, Speech, and Signal Processing (ICASSP

1987), 1987, pp.1167-1170.

[31] Chang, J., Kim, N. and Mitra, S. Voice Activity Detection Based on Multiple Statistical

Models. IEEE Trans on Signal Processing. 2006, 54 (6), pp. 1965-1976.

[32] Haigh, J. and Mason, J. Robust voice activity detection using cepstral feature. in Proc. IEEE

TELCON. China, 1993, pp. 321–324.

[33] Tucker, R. Voice activity detection using a periodicity measure. Proc Inst. Electr. Eng. Aug.

1992, vol. 139, pp. 377–380.

[34] Li, K., Swamy, M. and Omair Ahmad, M. An Improved Voice Activity Detection Using

Higher Order Statistics. IEEE Trans on Speech and Audio Proc. 2005, 13 (5), pp. 965-974.

[35] Davis, A., Nordholm, S. and Togneri, R. Statistical Voice Activity Detection Using

Low-Variance Spectrum Estimation and an Adaptive Threshold. IEEE Trans on Audio,

Speech and Language Proc. 2006, 14 (2), pp. 412-424.

[36] ITU. A silence compression scheme for G.729 optimized for terminals conforming to ITU-T

V.70. ITU-T Rec. G. 729, Annex B, 1996.

[37] Junqua, J., Reaves, B. and Mark, B.. A study of endpoint detection algorithms in adverse

conditions: Incidence on a DTW and HMM recognize. Proc. Eurospeech. 1991, pp.

1371–1374.

[38] 江官星,王建英。一种改进的检测语音端点的方法。微计算机信息。2006.

Page 50: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

致谢与声明

43

致 谢

感谢我的导师郑方老师在整个研究过程中给予我的指导和关心。从和郑老

师的交流中,无论在学识还是为人上,我都获益匪浅。他的教诲必将使我终生

受益。

感谢徐明星老师、邬晓钧老师在我面临研究上的问题时提供的悉心帮

助。感谢实验室的王刚师兄、王琳琳师姐和张陈昊师弟,和你们在一起讨

论和学习是一件快乐的事情。

感谢其他所有在研究过程中给以我关心和帮助的老师和同学。

最后,我要感谢我的父母,谢谢你们一直以来对我的默默关心和不懈支持。

你们永远是我前进道路上的动力所在。

声 明

本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究

工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本学位论文的

研究成果不包含任何他人享有著作权的内容。对本论文所涉及的研究工作做出

贡献的其他个人和集体,均已在文中以明确方式标明。

签 名: 日 期:

Page 51: Research on Text-Dependent Speaker Recognition in Embedded ...cslt.riit.tsinghua.edu.cn/~fzheng/THESES/201106-M-LCH.pdf · 话人的模型的过程。说话人模型与特定说话人一一对应,能代表相应的说话人。

个人简历、在学期间发表的学术论文与研究成果

44

个人简历、在学期间发表的学术论文与研究成果

个人简历

1985 年 11 月 12 日出生于湖南省浏阳市。

2004 年 9 月进入清华大学计算机科学与技术系学习,2008 年 7 月本

科毕业并获得工学学士学位。

2008 年 9 月保送进入清华大学语音和语言技术中心攻读硕士研究生

至今。研究方向为说话人识别。

发表的学术论文

[1] Canhua Luo, Xiaojun Wu, Thomas Fang Zheng, Linlin Wang:

Segmentation-based Method for Text-Dependent Speaker Recognition in

Embedded Applications. Asia-Pacific Signal and Information Processing

Association, Annual Summit and Conference, APSIPA ASC, Singapore.

2010, pp. 466-469. (To be EI indexed)