说话人确认中的语速鲁棒性 问题研究 -...

100
说话人确认中的语速鲁棒性 问题研究 (申请清华大学工学博士学位论文) 位:计算机科学与技术系 科:计算机科学与技术 生:艾斯卡尔·肉孜 师:郑方 研究员 二〇一八年四月

Upload: others

Post on 01-Sep-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

说话人确认中的语速鲁棒性

问题研究

(申请清华大学工学博士学位论文)

培 养 单 位:计算机科学与技术系

学 科:计算机科学与技术

研 究 生:艾斯卡尔·肉孜

指 导 教 师:郑方 研究员

二〇一八年四月

Page 2: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

说话人确认中的语速鲁棒性问题研究

艾斯卡尔·肉孜

Page 3: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

Research on Speaking rate Robustness Issue in

Speaker Verification

Dissertation Submitted to

Tsinghua University

in partial fulfillment of the requirement

for the degree of

Doctor of Philosophy

In

Computer Science and Technology

by

Aisikaer Rouzi

Dissertation Supervisor: Professor Thomas Fang Zheng

April, 2018

Page 4: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

关于学位论文使用授权的说明

本人完全了解清华大学有关保留、使用学位论文的规定,即:

清华大学拥有在著作权法规定范围内学位论文的使用权,其中包

括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以

采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为

教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资

料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容;

(3)根据《中华人民共和国学位条例暂行实施办法》,向国家图书馆

报送可以公开的学位论文。

本人保证遵守上述规定。

(保密的论文在解密后遵守此规定)

作者签名: 导师签名:

日 期: 日 期:

Page 5: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

摘要

I

摘 要

本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

1. 首先定义了适用于说话人确认的语速衡量标准,然后综合分析了现有声

纹数据库,为了精确研究语速对说话人确认的影响,基于尽最大可能保证语速是

唯一变化因素的原则,建立了适合于研究语速鲁棒性问题的数据库

CSLT-SPRateDGT,并基于该声纹库进行语速鲁棒性分析,验证了语速对说话人

确认的影响。

2. 在特征域,提出了基于最大似然线性回归的特征映射方法。基于刻画正

常语速的通用背景模型和慢速语音特征,采用最大似然准则,训练特征映射矩阵,

将慢速语音的特征映射到正常语速下的特征。实验表明语速失配条件下系统等错

误率分别相对下降 19.04%。

3. 鉴于设计语速相关特征映射的复杂性,提出了基于深度语速学习的特征

补偿方法。该方法定义较快、快、正常和慢等 4 种语速类,以区分不同语速类为

目标,采用帧级别的深度神经网络训练方法,提取抽象化的语速特征,与声纹特

征合并后进行说话人确认,实验表明等错误率分别相对下降 20.08%和 15.40%。

4. 在模型域提出了基于联合因子分析的本征语速矩阵训练方法。该方法将

语速视为参数并定义语速类,结合联合因子分析技术估计本征语速矩阵并提取语

速因子,测试时进行语速补偿后再进行说话人确认,实验表明等错误率相对下降

24.48%。

5. 在分数域提出了增强阈值有效性的决策方法。对于离线方式,在注册阶

段,为每个注册说话人估计对每类参考语音(按语速划分)的分数分布;在测试

时,根据测试语音和目标说话人计算相对语速并确定对应的分布,并归一化测试

分数,以便增强决策阈值的有效性,实验表明等错误率相对下降 33.33%;对于

在线方式,在测试阶段基于语速计算测试语音及目标说话人与参考说话人模型之

间的欧氏距离,并选择最近的 K 个参考说话人用于估计对应的分数分布,并归

一化测试分数,以便增强决策阈值的有效性,实验表明等错误率分别相对下降

20.00%(混合语速测试)和 42.83%(正常语速测试)。

关键词:说话人确认;语速鲁棒性;特征补偿;语速联合因子模型;阈值增强

Page 6: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

Abstract

II

Abstract

This dissertation studies the speaking rate issue in speaker verification, main

contribution of this dissertation are:

1. Speaking rate measurement appropriate for speaker verification was defined.

After carefully analyzing the existing speaking rate variation databases, a speech

database, named as CSLT-SPRateDGT, which is appropriate for studying the speaking

rate issue in speaker verification was created based on the rule that speaking rate is the

only factor which can be change. Based on the created database, the effect of speaking

rate on speaker verification was verified with the analysis on speaking rate robustness.

2. Feature transformation method based on maximum likelihood linear regression

was proposed. Feature transformation matrix was trained based on the maximum

likelihood criteria using universal background model representing the normal speech and

features extracted from slow speech. At testing stage, features from slow speech were

transformed using the trained transformation matrix. Speaker verification experiment

shows that the EER under speaking rate mismatch condition was reduced 19.04%.

3. Due to the complexity of the design of speaking rate dependent feature

transformation, feature compensation method based on deep speaking rate learning was

proposed. In this method, four speaking rate classes such as faster, fast, normal and slow

were first defined, and speaking rate feature was extracted based on the frame level deep

neural network training with the objective of classification of different speaking rate

classes. The extracted speaking rate feature was combined with the original MFCCs

features to conduct speaker verification. The experimental results show that relative EER

reductions of 20.08% and 15.40% were obtained, respectively.

4. In model domain, an approach of Eigen speaking rate matrix training was

proposed based on joint factor analysis. This method treats speaking rate as a variable

and defined speaking rate classes, and Eigen speaking rate matrix was trained using joint

factor analysis to extract speaking rate factor. Speaker verification was performed after

compensating the speaking rate with the estimated factor. Experimental result shows that

the proposed method provides relative EER reduction of 24.48%.

5. In score domain, decision making approaches based on threshold which was

enhanced in the way of off-line and online were proposed. In the approach of off-line

threshold enhancement, cohort set was split into different cohort sets based on speaking

Page 7: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

Abstract

III

rate, and score distributions corresponding to each cohort set were estimated for each

enrollment speaker. The test score was normalized based on the normalization parameter

which was selected based on the relative speaking rate calculated with the speaking rates

of test speech and claimed speaker. The experimental result shows that the EER was

reduced 33.33% relatively. In the approach of online threshold enhancement, based on

the Euclidian distance of relative speaking rate, K cohort speakers close to the test

speech and claimed speaker were selected to estimate score distribution and normalize

the test score. Under conditions of abnormal and normal speaking rates, relative EER

reductions of 20.00% and 42.83% were obtained, respectively.

Key words: speaker verification; speaking rate robustness; feature compensation;

speaking rate joint factor model; threshold enhancement

Page 8: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

目录

IV

目 录

第 1章 绪论 ........................................................... 1

1.1 说话人识别简介 ...................................................................................................... 1

1.1.1 说话人识别发展 ............................................................................................... 3

1.1.2 说话人识别应用 ............................................................................................... 4

1.2 说话人识别鲁棒性概述 .......................................................................................... 5

1.2.1 信道鲁棒性 ....................................................................................................... 5

1.2.2 噪音鲁棒性 ....................................................................................................... 7

1.2.3 说话人相关鲁棒性 ........................................................................................... 7

1.3 语速鲁棒性研究现状 .............................................................................................. 8

1.3.1 研究现状简述 ................................................................................................... 8

1.3.2 研究现状分析 ................................................................................................... 9

1.3.3 语速鲁棒性研究难点 ..................................................................................... 10

1.4 研究工作简述 ........................................................................................................ 12

1.4.1 研究思路 ......................................................................................................... 12

1.4.1.1 构建针对性声纹数据库 .......................................................................... 12

1.4.1.2 声纹随语速变化规律分析 ...................................................................... 13

1.4.1.3 语速鲁棒的特征设计 .............................................................................. 14

1.4.1.4 语速鲁棒的模型设计 .............................................................................. 14

1.4.1.5 语速鲁棒的决策方法设计 ...................................................................... 14

1.4.2 工作内容 ......................................................................................................... 14

1.4.2.1 设计并录制语速鲁棒性研究声纹库 ...................................................... 15

1.4.2.2 语速鲁棒的声纹特征 .............................................................................. 15

1.4.2.3 基于联合因子分析的本征语速矩阵训练方法 ...................................... 16

1.4.2.4 基于增强阈值有效性的决策方法 .......................................................... 16

1.5 论文组织结构 ........................................................................................................ 17

第 2章 语速鲁棒性研究平台构建 ........................................ 18

2.1 引论 ........................................................................................................................ 18

2.2 语速定义 ................................................................................................................ 18

2.3 语速声纹数据库 CSLT-SPRATEDGT ......................................................................... 19

2.3.1 录制原则 ......................................................................................................... 19

Page 9: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

目录

V

2.3.2 录制方案 ......................................................................................................... 19

2.3.3 录制细则 ......................................................................................................... 21

2.4 基于 GMM-UBM 的说话人确认系统 ................................................................... 21

2.5 基于 I-VECTOR 的说话人确认系统 .......................................................................... 25

2.6 实验 ........................................................................................................................ 26

2.6.1 语速鲁棒性实验 ............................................................................................. 26

2.6.1.1 实验数据 .................................................................................................. 26

2.6.1.2 实验配置 .................................................................................................. 27

2.6.1.3 实验结果 .................................................................................................. 27

2.6.2 大规模测试集测试实验 ................................................................................. 28

2.6.2.1 实验数据 .................................................................................................. 28

2.6.2.2 实验配置 .................................................................................................. 28

2.6.2.3 实验结果 .................................................................................................. 28

2.6.3 语速影响分析实验 ......................................................................................... 28

2.6.3.1 实验数据 .................................................................................................. 29

2.6.3.2 实验配置 .................................................................................................. 29

2.6.3.3 实验结果 .................................................................................................. 29

2.7 总结 ........................................................................................................................ 30

第 3章 语速鲁棒的声纹特征 ............................................ 32

3.1 引论 ........................................................................................................................ 32

3.2 基于最大似然线性回归的特征映射方法 ............................................................ 32

3.2.1 声纹特征分析 ................................................................................................. 32

3.2.2 特征映射方法 ................................................................................................. 34

3.2.3 实验 ................................................................................................................. 35

3.2.3.1 实验数据 .................................................................................................. 35

3.2.3.2 实验配置 .................................................................................................. 36

3.2.3.3 实验结果 .................................................................................................. 36

3.2.4 小结 ................................................................................................................. 37

3.3 基于深度语速学习的特征补偿方法 .................................................................... 37

3.3.1 基于深度学习的说话人确认简介 ................................................................. 38

3.3.2 深度语速学习网络 ......................................................................................... 39

3.3.3 实验 ................................................................................................................. 41

3.3.3.1 实验数据 .................................................................................................. 41

3.3.3.2 实验配置 .................................................................................................. 42

Page 10: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

目录

VI

3.3.3.3 实验结果 .................................................................................................. 42

3.3.4 小结 ................................................................................................................. 43

3.4 总结 ........................................................................................................................ 44

第 4章 语速联合因子模型 .............................................. 45

4.1 引言 ........................................................................................................................ 45

4.2 语速联合模型定义 ................................................................................................ 45

4.3 本征语速矩阵训练方法 ........................................................................................ 47

4.4 实验 ........................................................................................................................ 48

4.4.1 实验数据 ......................................................................................................... 48

4.4.2 实验配置 ......................................................................................................... 49

4.4.3 基于全真实录音数据的本征语速矩阵训练方法测试实验 ......................... 49

4.4.4 基于模拟调速的增强数据的本征语速矩阵训练方法测试实验 ................. 50

4.5 总结 ........................................................................................................................ 51

第 5章 基于增强阈值有效性的决策方法 .................................. 52

5.1 引言 ........................................................................................................................ 52

5.2 分数归一化方法简介 ............................................................................................ 52

5.3 基于离线增强阈值有效性方法的决策方法 ........................................................ 54

5.3.1 全局归一化方法 ............................................................................................. 54

5.3.2 局部归一化方法 ............................................................................................. 55

5.3.3 实验 ................................................................................................................. 55

5.3.3.1 实验数据 .................................................................................................. 55

5.3.3.2 实验配置 .................................................................................................. 56

5.3.3.3 实验结果 .................................................................................................. 56

5.3.4 小结 ................................................................................................................. 58

5.4 基于在线增强阈值有效性的决策方法 ................................................................ 58

5.4.1 欧氏距离 ......................................................................................................... 59

5.4.2 基于相对语速的参考说话人选择方法 ......................................................... 60

5.4.3 实验 ................................................................................................................. 61

5.4.3.1 实验数据 .................................................................................................. 61

5.4.3.2 实验配置 .................................................................................................. 61

5.4.3.3 实验结果 .................................................................................................. 62

5.4.4 小结 ................................................................................................................. 64

5.5 总结 ........................................................................................................................ 64

Page 11: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

目录

VII

第 6章 总结与展望 .................................................... 65

6.1 研究内容总结 ........................................................................................................ 65

6.2 未来工作展望 ........................................................................................................ 66

附录 说话人确认中的语种鲁棒性问题研究 ................................ 68

1. 引论 .......................................................................................................................... 68

2. 特征映射方法 .......................................................................................................... 70

2.1 声纹特征分析 .................................................................................................... 70

2.2 基于最大似然准则的声纹特征映射方法 ........................................................ 71

2.3 实验 .................................................................................................................... 72

2.4 小结 .................................................................................................................... 73

3. 语种察觉(LANGUAGE AWARE)的多语种模型训练方法 ........................................ 73

3.1 多语种模型训练方法 ........................................................................................ 73

3.2 语种察觉(language aware)的多语种 PLDA 训练方法 ................................ 74

3.3 实验 .................................................................................................................... 75

3.3 小结 .................................................................................................................... 77

4. 总结 .......................................................................................................................... 77

参考文献 ............................................................. 78

致 谢 ............................................................... 86

声 明 ............................................................... 87

个人简历、在学期间发表的学术论文与研究成果 ........................... 88

Page 12: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

1

第1章 绪论

本章首先简单介绍说话人识别及其分类和常用技术;然后简单讲述说话人识别

中的各种鲁棒性问题,重点阐述语速鲁棒性的研究现状和研究难点;本章后面部分

对本文的研究思路和研究工作进行了简述,最后给出了本文的组织结构。

1.1 说话人识别简介

语音是人类进行交流时的重要手段。所谓语音,就是由人通过其发音器官发出

的、包含语言信息的一种声音信号。语音中包含了丰富的信息,如内容信息、情感

信息、以及发音人的个性化信息等,其中发音人的个性化信息,主要来自于每个人

的发声器官本身的独特性。正如每个人的长相都不尽相同一样,不同人的声道长短、

厚薄程度等也会有所不同,最终导致每个人发出的声音是不同的。正是由于这个原

因,我们才能在电话里分辨我们的朋友。说话人识别(Speaker Recognition)即让

计算机仅仅通过声音来完成说话人身份识别的技术[1]。人们常常将说话人识别与语

音识别(Speech Recognition)相混淆,两者不同之处在于,语音识别关注的是“在

说什么”,而说话人识别关注的是“谁在说话”;语音识别寻找不同人语音中的共

性,而说话人识别试图寻找语音中的人的个性信息;语音识别试图消除不同说话人

的差异,而说话人识别则强调的是不同说话人之间的差异。

按照发音文本内容的不同,说话人识别被分为文本相关(Text Dependent)说

话人识别和文本无关(Text Independent)说话人识别[2]。文本相关说话人识别中发

音人需发音指定文本内容,一般以语音或文本形式提示发音内容;相反,文本无关

说话人识别中发音人不会受到发音文本内容的限制,发音人可以随意说出任何内容

的语音。由于文本相关说话人识别可以借助指定文本中的特定音节或音素信息,因

此其性能一般优于文本无关说话人识别,但是在实际应用时很难使用和预留特定文

本,特定文本内容会给用户带来不适的体验,而且一般不依赖文本内容就能够识别

说话人,与其相反,文本无关说话人识别不受发音内容的限制,灵活性较高具有更

好的普适性和体验效果。

按照应用需求的不同,说话人识别被分为说话人确认(Speaker Verification)

和说话人辨认(Speaker Identification)两种[2]。说话人确认的目标是确认当前说话

人是否为所声称的目标说话人,即回答当前说话人和目标说话人是否为同一说话人;

而说话人辨认中不会预先声称单一目标说话人,而是辨认当前说话人为一群目标说

Page 13: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

2

话人中的哪一个说话人,即回答当前说话人是目标说话人集合中的哪一个人。说话

人确认是二者选一个的问题,其结果为接收或拒绝,而说话人辨认是多者选一个的

问题,其结果是辨认出的说话人(对于开集辨认,结果可能为未知)。在性能方面,

说话人辨认的错误率随着候选说话人(参考说话人)的数目增大而增大,这是因为

随着候选说话人集合变大,在各个候选人之间很难加以区分,而说话人确认的错误

率与目标说话人数量无关。

对于说话人辨认,其又根据测试范围被分为开集辨认(Open Set Identification)

和闭集辨认(Close Set Identification)两种[2]。闭集辨认中,当前说话人必然为参考

说话人(候选说话人)集合中的某一说话人(必定是集内说话人),而开集辨认中,

当前说话人有可能不属于参考说话人(候选说话人)集合中的任何一个说话人,即

有可能是集外说话人,此时系统将会拒绝该说话人。

说话人识别属于模式识别问题,典型的说话人识别系统由训练和识别两个模块

组成,如图 1.1 所示。在训练阶段,每一个欲进入并使用系统的说话人都需预留足

够且高质量的语音,训练模块对其预留语音进行声学特征提取,并通过一定方法进

行训练得到该说话人的模型,然后将该说话人模型存入系统模型库。在识别阶段,

对待测语音进行与训练模块相同的声学特征提取,然后将该声学特征在系统模型库

中的说话人模型上测试打分,并根据打分结果进行决策。对于说话人确认,其决策

结果是接收或拒绝,而对于说话人辨认,其决策结果是模型库中的某一说话人或者

未知说话人。

测试语音

特征提取

打分

识别结果

训练语音

特征提取

模型训练

说话人模型库

训练 识别

图 1.1 典型说话人识别系统示意图

Page 14: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

3

与其他利用人脸、指纹、虹膜和指静脉等特征进行认证的技术相比,说话人识

别具有简单方便、采集成本低、不涉及敏感个人隐私、用户更易接受、易于远程应

用、无需担心遗忘和丢失等独有的特点和优势[3,4],这使得说话人识别具有广泛的

应用场景和独特的应用价值。

1.1.1 说话人识别发展

人类最早于 17 世纪 60 年代开始使用声纹进行身份认证,而直到 20 世纪人类

才真正开始关注并研究说话人识别技术,因此说话人识别技术真正发展应该从 20

世纪开始,并且其发展大致可分为三个阶段。

第一阶段为从 20 世纪 30 年代至 20 世纪 70 年代末。20 世纪 30 年代人类开始

研究说话人识别,当时研究者主要研究人耳听觉机理对说话人的辨识[5]。1945 年,

贝尔实验室研究人员借助肉眼观察,成功对语谱图进行了匹配,首次提出了“声纹”

的概念,并于 1962 年提出了利用语谱图匹配方法进行说话人识别的可行性。1963

年贝尔实验室的 SANDRA PRUZANSKY 提出了基于模板匹配的自动说话人识别方

法[6]。1966 年美国法院首次使用声纹对案件进行了取证。到 1970 年以后,说话人

识别开始迅速发展,开始受到更多关注。研究者开始在说话人识别中使用倒谱

(Cepstrum)技术并且取得了较好的效果。1971 年 B. S. ATAL 将当前语音样本表

示为先前 12 个语音样本的线性组合,线性组合的 12 个系数是通过均方误差得到[7],

这就是线性预测倒谱系数(Linear Predictive Cepstrum Coefficient, LPCC)并且 LPCC

应用到说话人了识别中,提高了识别性能。1972 年,Doddington 等人发布的专利

中利用共振峰进行说话人确认[8] ,同年,基频轮廓被用于说话人识别[7]。

第二阶段为 70 年代到 80 年代。该阶段语音领域对新声学特征和模型的研究推

进了说话人识别研究。在特征方面,随着语音识别领域中新的声学特征的研究,说

话人识别研究者将语音识别中的感知线性预测(Perceptual Linear Predictive, PLP)

系数[9]、线性预测编码(Linear Predictive Coding, LPC)系数[10]和梅尔频率倒谱系

数(Mel-Frequency Cepstrum Coefficient, MFCC)[11]等特征参数应用到了说话人识

别。在模型方面,语音识别领域中广泛被应用的隐马尔科夫模型(Hidden Markov

Model, HMM)方法[12]、动态时间规整(Dynamic Time Warping, DTW)方法[13]、矢

量量化(Vector Quantization, VQ)方法[14]和人工神经网络(Artificial Neural network,

ANN)方法‎[12]等技术逐步被应用到说话人识别中并成为了核心技术[4]。

第三阶段为 20 世纪 90 年代以后。该阶段中高斯混合模型(Gaussian Mixture

Model, GMM)方法成了说话人识别的主流[15]。由于高斯混合模型简单灵活并且鲁

棒性强,因此推动了说话人识别技术到一个新的阶段[4]。Douglas A. Reynolds 等人

提出说话人高斯混合模型从通用背景模型(Universal Background Model, UBM)通

Page 15: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

4

过贝叶斯自适应方法得到[16],这种结构被称为 GMM-UBM 框架。由于说话人模型

可以通过这种框架快速得到,该结构推动了说话人识别的实际应用,为说话人识别

做出了重要贡献。在 GMM-UBM 系统中,语音中的所有信息包括说话人和信道等

信息均统一进行建模。人们开始寻找对语音中的不同内容进行单独建模[3],基于这

种思想,Kenny 和 Dehak 等人提出了基于联合因子分析方法[17,18],将说话人、信道

和残差信息分开。后来 Dehak 等人发现 JFA 方法中分离的信道因子仍然包含一定的

说话人信息,基于此提出了基于 i-vector 的建模方法[19],在全变化空间(Total

Variability Space)中统一描述说话人和信道,并映射到低维空间中;在 i-vector 方

法后期通过概率线性判别分析(Probabilistic Linear Discriminant Analysis, PLDA)方

法提高模型的区分性能力。

随着计算机硬件技术的迅速发展,深度学习(Deep Learning)在语音领域得到

广泛应用,说话人识别技术也逐渐开始使用深度学习。2014 年 Patrick Kenny 等人

在基于 i-vector 的说话人识别系统中通过深度神经网络(Deep Neural Network, DNN)

提取 Baum-Welch 统计信息[20]。Ehsan Variani 等人通过训练好的 DNN 最后一个隐

藏层提取说话人相关特征[21]。深度神经网络应用到说话人识别显著提高了说话识别

系统性能。

1.1.2 说话人识别应用

说话人识别技术中,确认和辨认的应用有所不同,下面简单介绍这两方面说话

人识别的应用领域及应用现状。

说话人辨认技术一般应用于安全监听、军事、刑事侦查等领域中‎[2]‎[22]。在安全

监测领域中,说话人辨认系统可安装于监听系统中,通过声纹识别对恐怖分子或罪

犯进行追捕‎[4]。同样,通过说话人辨认技术对已经释放的犯人进行监听,有助于及

时阻止犯人再次犯罪或及时追捕[4]。在军事领域中,说话人辨认技术可用于对下达

命令的指挥员进行身份鉴别,即辨认若干交谈人中的关键说话人[4]。在刑事侦查领

域中,说话人辨认技术帮助公安执法人员快速并准确地锁定通话语音中的嫌疑人,

缩小侦查范围,比如 2015 年 9 月 11 月发生的电话勒索案和富豪被绑架案中,公安

司法人员就利用了说话人辨认技术,加快了案件调查进度[4]。另外在机场、银行、

码头等重要公共场所安装说话人辨认系统将有利于对犯罪嫌疑人或危险分子进行

身份辨认,以便提高公共场所安全和保护人们生命财产[4]。

说话人确认技术则可应用于金融、社保、个人授权等领域中[2,22]。在金融领域

中,说话人确认技术可验证操作人的身份,有效减少盗用别人账户交易等情况的发

生。2004 年,美国最大 ATM 制造商 NCR,开始尝试将说话人确认技术应用于 ATM

机中。同年 5 月,美国 Beep card 公司推出了具有声纹识别功能的信用卡,当使用

Page 16: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

5

信用卡进行消费时,通过说话人确认技术,验证使用者的身份信息。2006 年,荷

兰的ABN AMRO银行通过预留的个人问题进行身份识别。2008年,Voice Commerce

公司推出的 Voice Pay 服务能够让客户通过手机表明自己身份授权进行交易[23]。

2011 年,北京得意音通技术公司与中国建设银行展开合作,构建了建设银行声纹电

话银行系统[4]。社保领域中,冒领社保的情况频繁出现,金额高达数亿的社保被他

人冒领,社保服务商为了防止社保被冒领,可以借助说话人确认技术对领取社保者

进行现场或远程进行认证服务[4]。在个人授权领域中,单一的使用密码进行身份验

证的机制,存在密码被盗造成的账号丢失,盗用者通过联系客户的亲戚朋友或通过

其他手段索取钱财,而说话人确认可用于验证账户登录人的身份,减少此类事件的

发生,如腾讯公司推出的声纹登录的方式,使用声音完成微信登陆[4]。同样,这种

身份验证方式还可以应用到汽车、手机、电脑等个人设备的授权控制当中[4]。

说话人识别技术的迅速发展使其开始在日常生活各个方面得到了应用,然而实

际应用对说话人识别系统要求很高,信道和噪声场景变化、说话人因其他因素导致

的发音变异为说话人识别带来巨大挑战,实际应用需要说话人识别具有更强的鲁棒

性[4]。比如信道鲁棒性是研究者一直关注的问题。当说话人注册时预留语音的设备

和测试时所用的设备不同,将会导致信道失配。解决信道失配的主要思想是通过补

偿减少信道的影响。还有其他噪音、短语音和时变等说话人识别所面临的挑战,本

文下一节将对说话人识别中的各种鲁棒性问题逐一做出简单介绍。

1.2 说话人识别鲁棒性概述

说话人识别系统往往受其他因素影响。在诸多影响说话人识别性能的因素中,

信道和环境噪音是最普遍的因素[24,25]。除了信道失配和环境噪音问题,还有其他与

说话人相关的鲁棒性问题,比如性别、身体状况、情感、语速、语种和时变等方面

的鲁棒性,比如说话人发音时的各种高兴、愤怒、沮丧等情感,还有说话人发音的

语速快慢与预留声纹时的语速失配,人的年龄增长(时变问题),测试语音语种与

注册语音语种失配(跨语种问题),说话人带有口音等。这些均为说话人识别系统

实际应用将要面临的问题。既然本文研究说话人识别中语速鲁棒性,因此有必要对

说话人识别鲁棒性给出总体上的简述。本节首先在信道鲁棒性、噪音鲁棒性和说话

人相关鲁棒性等三个方面介绍说话人识别鲁棒性问题,而下一节对本文研究目标,

即对语速鲁棒性给出当前研究现状和研究难点。

1.2.1 信道鲁棒性

信道失配是说话人识别中极具挑战性的研究内容。美国国家标准与技术研究院

Page 17: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

6

(National Institute of Standards and Technology, NIST)[26]组织的说话人识别评估任

务中,信道鲁棒性为重点评估内容。NIST 中用于说话人识别评估的数据采集使用

不同设备和不同的传输信道,其目的在于研究者处理信道失配问题[27,28]。一般用于

采集语音数据的麦克风包括桌面式麦克风和头盔式麦克风等等,而语音在通过这些

不同设备传输时会发生变化。研究者在特征域、模型域和分数域展开了对信道失配

的研究。

在特征域,特征映射是主要的应对信道失配问题的方法。在诸多说话人识别系

统中,一般采用倒谱均值相减(Cepstral Mean Subtraction, CMS)[24],特征向量减

去均值将会减少信道效应问题。CMS 方法认为在整个句子中信道变化是稳定的。

MIT 林肯实验室的 Douglas A. Reynolds 将特征向量映射到独立于信道的空间中,而

映射参数的训练是基于信道相关模型,而这些信道相关模型是从独立于信道的模型

通过 MAP 方法自适应得出[25]。Jason Pelecanos 等人对一定时间间隔内的特征流进

行特征弯曲,使得特征服从特定的目标分布[29]。

在模型域,研究者针对不同模型的特点,分别设计了不同的改进方案。一些研

究人员基于 GMM-UBM 系统,进行说话人模型合成方法的研究。Patrick Kenny 等

人提出根据不同信道下的 UBM 偏差,将模型从一种信道映射到另一种信道下[30]。

Remco Teunen 等人提出了采用说话人无关的信道映射方法合成说话人模型,以便

适应测试信道[31]。另一种主流的方法是联合因子分析方法(JFA),该方法假设说话

人变化(Speaker Variability)和信道变化(Channel Variability)在低维空间中相互

独立,并对两者分开建模[30],然后输入语音的说话人因子和信道因子由说话人变化

Speaker Variability)和信道变化(Channel Variability)的后验概率得到。Alex

Solomonoff 等人则假设说话人因子在满秩空间中,而信道因子却在低秩空间中,并

以此展开因子分解[32]。

与 JFA 方法不同,i-vector 方法认为 JFA 中分离出的信道部分中仍然含有说话

人信息,因此不能进行分离‎[19]。于是 i-vector 方法不对说话人和信道加以区分,在

一个低秩的全变化空间(Low Rank Total Variability Space)描述说话人和信道变化。

但是由于提取的 i-vector 中仍然含有信道变化,这导致区分性能力降低。因此,类

间协方差归一化(Within-class Covariance Normalization, WCCN)‎[32]和线性判别分

析(Linear Discriminant Analysis, LDA)[33]等信道补偿方法应需而生。另外 NAP

(Nuisance Attribute Projection)方法试图通过最小化不同信道之间差异找到最优投

影[32]。为了提高 i-vector 模型的区分性能力,基于概率的 LDA(即 PLDA)方法[34,35]

被提出,这是一种产生式模型,并成为当前说话人确认领域的主流方法之一。

近期研究者开始研究基于神经网络的减少信道失配影响的方法[36]。

Page 18: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

7

1.2.2 噪音鲁棒性

说话人识别系统从实验室走向实际应用时,除了信道问题,还得考虑环境噪音

或录音噪音,因为这两者将会导致语音信号发生变化,进而影响识别率。研究者在

特征和模型两个层面上提高系统对噪音的鲁棒性。

在特征域上的方法中,谱减法可以有效去除稳定噪音,但是无法去除非稳定噪

音[37,38]。Hynek Hermansky等人通过RASTA滤波方法在对数频谱域去除信道噪音[39]。

此外,主成分分析(PCA)、线性判别分析(LDA)等方法也被用于在特征域上提

高噪声鲁棒性。

在模型域上的方法,主要是通过模型补偿算法,减少训练和测试之间的噪音不

匹配问题,在此不再敷述。

1.2.3 说话人相关鲁棒性

说话人的年龄、情感、语种、说话速度等方面的状况都将影响说话人识别系统

性能[4]。下面对这些因素做一简单介绍,其中语速鲁棒性问题为本文重点研究内容,

将会在下一节给出详细描述。

对于年龄问题,研究者怀疑一个人的声纹特征是否会随着时间发生变化。1985

年,Frank K. Soong 等人使用 100 人的相隔两个月的五次录音数据进行实验后发现,

用于训练说话人模型的注册语音和用于识别的测试语音的录制时间点间隔越长,说

话人识别性能越差[40]。1997 年,日本 Sadaoki Furui 教授在总结说话人识别技术时

指出如何处理声纹随时间变化的问题[41]。声纹随时间变化或者是短期变化(一天内

不同时段的变化)、中期变化(一年内的变化)或者是长期变化(随着年龄增长而

带来的变化)[42],而这种变化是不确定的,因此在实际中应用说话人识别系统时应

该考虑时变问题。研究者在处理时变问题时,一种可以采用的方法是用覆盖一定时

间间隔的若干训练语音对说话人建模[43],但这种方法增加了训练语音录制的难度。

另一种方法称为“数据增强”,这种方法中说话人模型一次性完成建模,并在识别

阶段,不断地用验证通过的测试语音更新说话人模型[44]。王琳琳提出了一种对说话

人敏感而对时变不敏感的特征,分别从基于能量的 F-ratio 准则和基于数据驱动两种

不同角度确定频段区分性,进而完成特征提取[42]。其余时变研究内容在此不再敷述。

对于情感问题,语音信号在各方面均受到情感的影响,比如语音谐波形式、共

振峰等属性受到情感影响而发生重大变化[45]。语音信号的变化表明情感将影响说话

人识别系统性能。对此,学者们在各方面进行了研究。Tian Wu 等人提出了加入情

感的模型训练方法,他们用一定量的情感语音数据训练说话人模型[46]。另一种方法

是特征映射,其主要思想是将情感测试语音映射到中性语音。Fanhu Bie 等研究者

Page 19: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

8

提出了一种情感自适应训练(Emotional Adaptive Training, EAT)方法,不断迭代训

练情感映射矩阵并且用转换的语音重训说话人模型[47]。另外还有分数域中的归一化

和映射方法被研究者提出[48]。

对于语种问题,Bin Ma 等人在包含多种语言的语料库上研究这些影响[49],发

现当语言失配时,系统性能相对下降 284%。Bin Ma 等学者研究了英语和汉语的跨

语言文本无关说话人识别系统[50],实验表明,在注册和识别时的语种失配会导致系

统性能的下降。为了提升系统的鲁棒性,他们使用同一说话人在多语种下的语音数

据,用于训练说话人模型,结果表明,该方法可以缓解以上语种失配的问题。R

Auckenthaler 等人研究基于 GMM 的说话人识别系统中目标说话人模型和背景模型

之间的语言失配问题[51]。实验表明,使用背景模型和说话人模型所用语料语种不同

时系统性能会下降。Murat Akbacak 等人研究移除或归一化语言因素对系统的影响,

他们提出分别基于语种识别的句子级别归一化和基于多语言音素识别的音素级别

归一化方法[52]。Abhinav Misra 等人基于 NIST-SRE 数据库和 CRSS 双语种数据库对

语种失配问题进行了研究,提出多语种语料混合训练方法[53]。Liang Lu 等人试图提

取说话人在注册和识别时的语言因子,然后通过补偿方法移除不同语言之间的差异[54]。Jianglin Wang 等人提出了两种用于说话人辨认的新型特征[55],即残余相位谱系

数(RPCC)和声门流倒谱系数(GLFCC)。

其他说话人相关的鲁棒性因素还包括说话人的生理状况等,在此不便一一叙述。

语速鲁棒性问题为本文主要研究内容,在下一节进行详细介绍,而其他方面的鲁棒

性可以参考 Thomas Fang Zheng 等学者关于说话人识别鲁棒性的综述性文章[22]。

1.3 语速鲁棒性研究现状

研究说话人确认中的语速鲁棒性具有很强的实际应用意义。在实际应用中进行

说话人确认时,用户发音比较随意,语速可能有快慢,此时若限制用户说话速度,

提示用户重新发音,可能会引起客户不满,降低了用户体验。另外,人在一天内不

可能一直处于相同的状态,在精力充沛时话多并语速快一些,累了或生病时语速会

慢一些。综上所述,在实际应用中,说话人确认中语速鲁棒性显得更加重要,有必

要对语速鲁棒性进行系统研究。下面介绍说话人确认中的语速研究的研究现状和研

究难点。

1.3.1 研究现状简述

语速是一种特殊的失配因素,当说话人以正常语速注册系统,以相对快速或慢

速进行测试,这时出现语速失配并导致性能下降。在语音识别中,研究者对语速影

Page 20: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

9

响进行了一系列研究,并提出了消除语速影响的诸多方法,比如 Xiangyu, Zeng 等

学者提出基于深度神经网络的 RoS(Rate of Speech)学习方法[56]。而说话人确认中

的语速鲁棒性研究处于起步阶段,下面对这方面研究现状做一简单介绍。

在说话人识别的实际环境中,语音包含各种各样的变化,说话人确认系统对该

变化的鲁棒性不高。Mingxing Xu 等人为说话人确认系统在语音变化的环境下的研

究建立了一个数据库,该数据库包含说话方式(包含正常、快和慢速)和情感等六

种常见的变化类型[57]。每条语音都使用这六种变化类型进行录制。在初步的实验中,

使用正常状态下的中文普通话语音训练说话人模型,结果显示,不同的语音变化在

不同程度上影响说话人确认系统的系统性能。除了说话人使用英语的变化外,其他

的影响(包括快速和慢速情形)都具有相近的性能下降。

C Van Heerden 等人提出了一种语速归一化方法[58]。该方法首先基于三音素

(Triphone)对音素时长进行建模,提取音素时长特征,然后将提取的音素时长特

征与MFCC特征合并在一起进行说话人确认,在YOHO数据库下进行的实验表明,

该方法明显提高了基线系统性能。

1.3.2 研究现状分析

说话人确认技术经过数十年的研究,系统得到了令人满意的性能。然而这种高

性能是在具有足够多和高质量训练语音的前提下才得以体现的,并且要求训练和测

试条件必须匹配。在实际应用中,说话人确认技术面临巨大挑战。近几年来,对于

说话人确认技术应用中面临的问题,学者们主要集中于消除信道失配、减少背景噪

音的影响、短语音说话人确认和跨语种测试等方面进行研究。对语速问题,少数学

者进行了一些尝试,但是这些研究尚处于起步阶段,其中存在一些问题。

首先,大部分学者研究只是确认了语速对说话人确认的影响。学者们只是收集

了不同语速语音数据库,构建了说话人确认系统,最终得出了语速的确对说话人确

认系统性能产生影响的结论,并未对消除语速影响进行进一步深入研究。

其次,除了确认语速影响外,几乎没有学者研究并提出如何减少语速变化对说

话人确认的影响。研究现状中介绍的语速归一化方法认为音素时长能够表示说话人

特征,能够对音素时长建模,提取音素时长特征,与 MFCC 特征一起用于说话人

确认。然而,影响音素时长的因素很多,语速变化只是其中一种因素,并且实验中

使用的YOHO数据库并不包含语速发生变化的语音。当语音语速明显发生变化时,

不能够确定该方法是否有效。

最终,目前提出的研究方法只是一些初探性研究,对语速发生变化时的声纹特

征变化没有进行分析研究。当语音语速发生变化时,如何从中得到正常语速条件下

的声纹特征,或者提出对于语速来说鲁棒的一种特征,或者如何保留或提取语音中

Page 21: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

10

对于语速来说相对稳定的说话人特征,再或者如何进行语速鲁棒的说话人确认决策

(即最终的分数域决策),这些才是语速鲁棒性研究中的研究重点,而对于这些重

点,目前的研究方法并未给出解决方案,甚至没有尝试对应的研究方法。

另外,目前语速鲁棒性研究少之又少,据本文所知,除了上述文献外,几乎没

有研究说话人确认中语速鲁棒性问题的相关文献,这并非说明语速鲁棒性不值得研

究(语速研究的必要性分析将在第 2 章给出介绍)。一个原因是语速的影响还没有

引起学者的重视,而另一个原因是语速影响研究难度较大。下面介绍语速鲁棒性研

究中的难点。

1.3.3 语速鲁棒性研究难点

语速鲁棒性研究中主要有以下 2 个难点:

难点一:缺少针对性的语音数据库。在研究语速鲁棒性时,首先就面临语速声

纹库的问题。若有现成的、可获取的、满足研究需求的声纹库,则可直接使用,否

则需要自行录制。因此首先需要对现有声纹库进行调研。

针对语音数据库问题,研究人员彼此合作收集语音数据并互相共享各自用于研

究的语音数据,逐渐开始形成资源联盟。在研究人员的努力下,目前的资源联盟有

中国语言资源联盟(Chinese Linguistic Data Consortium, Chinese LDC,于 2003 年由

中国中文信息学会发起,现有 102 种资源)、国际中文语言资源联盟(于 2004 年由

清华大学郑方博士与北京得意音通技术有限责任公司等国内外大学和研究机构联

合成立的,现有 30 多个主要用于说话人识别研究的语音数据库)、美国语言资源联

盟(Linguistic Data Consortium, LDC, 于 1992 年成立)、欧洲语言资源联盟、日本

语音资源联盟(Speech Resources Consortium, SRC, 于 2006 年由日本国立情报研究

所成立)。

虽然有上述资源联盟提供语音资源的收集和发布,由于受到各种影响,很多研

究结构自行录制所需的数据库。自行录制数据库的主要原因是没有或者很少有适合

自身研究需求的数据库,因此研究说话人确认语速鲁棒性时各个学者和研究机构各

自录制了自己的数据库,下面简单介绍现有语速鲁棒性声纹数据库。

1. CHAINS:该数据库是由爱尔兰都柏林大学录制的说话人识别数据库[59],

其录制目的为提供同一个说话人不同风格的语音,包含 36 个人的两种不同会话的

语音,语音录制间隔大约为 2 个月,每个说话人录制 4 个寓言故事和 33 个句子,

33 个句子中的 9 个句子选自 CSLU 数据库,其余 24 个句子选自 TIMIT 数据库。通

过该数据库能够对比研究同一个说话人不同风格语音,其中 SOLO 条件下的语音为

正常语速下的语音,而 fast 条件下的语音为快速语速下的语音,该数据库没有录制

慢速语速下的语音。

Page 22: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

11

2. NTT:该数据库于 1990 年录制[60,61],包含 35 个人(22 男,13 女)的 5 个

会话的语音,所有录音在隔音室里进行,该数据库中的语音以正常语速、慢速和快

速三种语速下进行录制,其中语音平均时长为 4 秒左右。数据库录制时间间隔大约

为 10 个月(1990 年 8 月-1991 年 6 月)

3. CSLT 语音变化鲁棒性数据库:该数据库由清华大学语音和语言技术中心录

制,用于测试说话人识别鲁棒性[57]。该数据库包括语音在 6 个因素的变化,这些因

素包括说话语速变化、说话风格变化、说话音量变化、情感状态变化、生理状态变

化和语种变化等,因此数据库中的每条语音用 6 元组表示[57]。数据库中含有 50 个

人(28 女,22 男)的语音,每个人录制 12 个会话语音,每个会话时长约为 3 分钟。

表 1.1 现有声纹库概况

数据库 说话人个数 语速变化 信道变化 时变 内容变化 变化因素数

CHAINS 36 3

NTT 35 2

CSLT 50 2

CSLT-SPRateDGT 26 1

从上述现有语速变化声纹数据库的介绍可以看出,对于本文研究需求,现有声

纹库存在以下不足之处:

1. CHAINS 数据库虽然包含慢速和正常语速语音,并且是免费共研究者使用,

但是其中存在两个问题,一个是使用了不同的录音设备,其中正常语速语音采用

Neumann U87 电容式麦克风,而快速语音采用 AKG C420 头盔式电容麦克风,录音

设备不同导致信道失配问题;另一是正常语速语音与 2005 年 12 月录制,而快速语

音与 2006 年 3 月录制,期间有约 4 个月的时间间隔,时间间隔将导致时变问题。

在语速变化的同时存在信道变化和时变两种问题,这不利于研究仅有语速变化对说

话人识别的影响。另外该数据库没有录制慢速语音,慢速语音的补录完全不可能,

因为需要录制正常和快速语速语音本人的慢速语音,显然不符合本文研究需求。

2. NTT 数据库中存在与 CHAINS 数据库同样的问题,数据库录制存在约 10

个月的时间间隔,这同样导致时变问题,识别性能的下降同时由语速和时变两种因

素导致,这不利于本文研究语速变化的影响。另外该数据库并非免费给研究者提供

使用,能否购买该数据库还不确定。

3. CSLT 语音变化鲁棒性数据库基本符合本文研究需求,然而其中不同语速语

音内容不一致,然而本文需要同一个人相同文本内容的不同语速下的语音。

综上所述,现有声纹数据库中存在除了语速以外的多个因素变化,如表 1.1 所

Page 23: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

12

示。因此目前现有的数据库不适合用于本文研究,需要自行录制数据库。然而,语

音数据的录制与其他数据的收集不同,是一件要求很高并且耗费时间和耗费人力的

一项数据采集工作,例如设计一个录音样本的文本、做噪音标注和正则化转写等采

集工作将耗费好几年,所需人力更是如此,而且对于本文的研究,需要保证只有语

速在发生变化,这对录制工作提出了较高的要求。(表 1.1 中的最后一行数据库即

为本文自行录制的语速声纹库,其介绍将在第 2 章给出)。

难点二:语速变化规律较为复杂。语速的变化规律有以 3 点性质。1)具有相

对性:语速变化因人而异。即便语速没有发生变化,人和人之间的平常语速也不尽

相同,而说话人确认中的发音人会随时发生变化,因此采用常规的绝对语速衡量说

话人确认中的语速是不合理的;2)具有发音内容相关性:不同发音内容下的语速

会有差别;3)具有动态变化特性:说话人会根据自身情感状态、自我表达需求等

会不断调整自己的语速,也就是说话人发音时根据需求可能随时改变语速和停止改

变语速,因此很难确定语音中哪些发音内容受到语速变化的影响,受影响程度也很

难确定。由此可见,不像其他信道、噪音或语种等鲁棒性问题,语速鲁棒性问题呈

现出较高难度。

1.4 研究工作简述

1.4.1 研究思路

本文重点研究语速变化对说话人确认系统性能的影响。针对上节提出的语速鲁

棒性研究中的两个难点,本文的研究思路主要分为三个过程:首先,设计并录制适

用于研究语速鲁棒性的声纹数据库。然后分析语速对声纹特征产生的变化,观察并

分析不同语速下声纹特征。最后,分别从特征、模型和决策方法三个角度入手,提

高系统的语速鲁棒性。整体研究思路如图 1.2 所示。

1.4.1.1 构建针对性声纹数据库

本文的研究目标为研究语速对说话人确认性能的影响,即需要研究语速这一变

量对系统性能的影响。现有的声纹数据库含有多个因素变化,不适合用于本文研究,

因此需要自行设计并录制。然而,语音数据在数据采集时,容易收到受到周围环境

噪音、采集设备(信道)和说话人状态等各种因素的影响,因此,在录制数据库时,

需要尽量保证除了语速以外的其他变化因素保持不变。

Page 24: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

13

语速声纹库语速声纹库

按照语速变化原则组织 不同说话人不同语速的多次发音

GMM-UBM说话人确认系统框架

特征域分析 模型域分析 分数域分析… …

t t

… …

声纹随语速变化规律分析声纹随语速变化规律分析

图 1.2 论文研究思路示意图

1.4.1.2 声纹随语速变化规律分析

语音中包含的发音人特性信息随着外界因素和说话人自身的因素而发生变化,

其中语速的变化是较为特殊的说话人自身因素。语速的变化导致语音频谱发生变化,

进而影响语音中的说话人个性信息并降低区分性能力。虽然问题的本质清楚,但是

具体发生了何种变化仍需要继续探索。在研究时,首先可以对不同语速下的语音,

进行声纹特征分析,然而说话人确认中的声纹特征一般为高维特征,而且不同语速

下的语音时长不同,其提取的特征帧数也不同,因此直接分析高维特征具有一定的

难度,因此本文采用由分析声纹特征转为分析说话人模型,通过分析说话人高斯混

合模型均值参数,并结合降维技术,通过可视化手段,间接分析语速变化时声纹特

征发生的变化。

Page 25: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

14

1.4.1.3 语速鲁棒的特征设计

说话人确认系统中必然需要对说话人进行特征提取,而语速产生的影响也反映

在被提取的特征当中。一种思路是过滤特征中的语速信息。可以设计一种变换,将

非正常语速的语音特征,映射为正常语速的语音特征,从而在特征层面削弱语速的

影响,进而提高系统的语速鲁棒性。另一种思路是在特征中显式包含语速信息。可

以对语速进行抽象化,提取语速特征,将其与常规声纹特征合并在一起,使得新得

到的特征即包含原有的说话人信息,又包含语速信息。这种特征使得后端模型能明

显感知语速,从而可更容易的根据语速信息,做出语速鲁棒的决策,进而提高系统

语速鲁棒性。

1.4.1.4 语速鲁棒的模型设计

声纹特征中包含着丰富的信息,既包含说话人个性化信息,也同时包含表征其

他周围环境和说话人自身状态等因素的信息。为了让模型具有语速鲁棒性,一种思

路是借助联合因子分析方法,分解声纹特征为说话人因子和语速因子,分解完后仅

保留说话人因子,抛开语速因子进行说话人确认。估计语速因子时,通过相对语速

对训练语音进行分类组织,定义语速类。

1.4.1.5 语速鲁棒的决策方法设计

在系统进行决策时,往往是依据模型给出的置信分,加一固定阈值完成决策。

而不同人、不同语速等多种因素,都会对说话人确认系统给出的置信分造成影响。

为了增强决策的语速鲁棒性,一种思路是使用归一化技术,规整说话人确认系统返

回的分数,其目的是增强决策阈值的有效性。对于语速造成的分数变化,可估计说

话人在不同语速下的语音的分数分布,而后依据此分布,对测试时的分数进行归一

化。估计分数分布时,可以估计注册说话人对不同语速语音的分布,或者估计测试

语音对参考说话人模型的分数分布。

1.4.2 工作内容

本文中采用传统的 GMM-UBM 框架下搭建说话人确认系统,在开始研究之前,

需要确定说话人确认中的语速衡量标准。

常规语速衡量准则为语音中的语音单元发音的速度,是一种说话人无关的语速

标准。不同于语音识别任务,说话人确认关注的是发音人身份,因此以说话人无关

的标准衡量说话人确认中的语速是不可行的,语速具有相对性,说话人确认系统中

更是如此,因此本文从说话人确认的角度出发,基于相对语速定义语速衡量标准。

Page 26: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

15

确定语速衡量标准后,本文围绕该标准展开研究,具体研究工作包含以下几方面,

如图 1.3 所示。

1.4.2.1 设计并录制语速鲁棒性研究声纹库

为了研究语速变化对说话人确认的影响,本文自行设计并录制了语速声纹库

CSLT-SPRateDGT。

语速声纹库 CSLT-SPRateDGT 由 26 人的慢速、正常语速和快速语速三种语速

语音组成。录制库之前,设计了 30 条 8 位中文数字,所有人录制这相同的 30 条数

字,每个数字,每个说话人录制每种语速下的语音,每个人总共录制 90 条语音。

为了消除信道不同导致无法精确研究单个语速变化对说话人确认的影响,所有录制

采用同一部智能手机,均在实验室较为安静环境下进行录制。每个人 90 条语音中,

正常语速下的 5 条语音用于建立说话人模型,其余 25 条正常语速、慢速和快速语

音用于测试。

语速声纹库

语速声纹库

声纹特征、语速特征声纹特征、语速特征

特征映射方法特征映射方法 特征补偿方法特征补偿方法

特征域特征域 模型域模型域 分数域分数域

联合因子分析联合因子分析

本征语速矩阵

训练方法

本征语速矩阵

训练方法增强阈值有效

性方法

增强阈值有效

性方法

决策阈值决策阈值

图 1.3 研究内容

1.4.2.2 语速鲁棒的声纹特征

由于语速变化导致语音频谱弯曲,因此从语音提取的特征分布也不同,因此一

种简单的解决方案是将非正常语速下的特征通过映射方法映射到正常语速下的特

征。本文采用基于最大似然准则的特征映射方法进行特征映射。首先使用正常语速

下的语音建立说话人模型,代表正常语速声纹特征分布,然后提取非正常语速语音

的声纹特征,最终使用模型和代表非正常语速语音的特征,基于最大似然准则训练

出映射矩阵,在测试阶段对非正常语速声纹特征进行映射后再进行测试。由于本文

分析中,快速语音导致系统性能下降不明显,而且性能下降并非由语速变化单方面

Page 27: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

16

引起的,语速变快导致语音中的说话人信息减少,进一步导致识别性能下降,而慢

速语音导致语音频谱弯曲,因此本文选择慢速语音并进行特征映射,在传统的

GMM-UBM 框架进行映射测试。由于此种映射在特征域进行的,因此该方法可应

用于采用相同特征的任何一种说话人确认系统。为了验证该假设,本文在

i-vector/PLDA 框架下测试映射方法性能。在提取 i-vector 之前,先对 MFCC 特征进

行映射,再基于映射后的 MFCC 特征提取语音的 i-vector 特征并进行说话人确认。

上述特征映射方法对 MFCC 特征进行变换。从另一个角度出发,如果从语音

提取表征语速的特征,在说话人确认时,就可以同时考虑原有的 MFCC 特征,也

考虑语速特征,即 MFCC 特征和语速特征拼接形成一种新的特征进行说话人确认。

这里的表征语速的特征,本文称之为语速向量(speaking rate vector)。本文提出基

于深度学习的语速向量提取方法。该方法中,借助深度神经网络的深层特征表征能

力和特征抽象能力,基于相对语速进行监督训练,先将 MFCC 特征映射到高维空

间,然后通过 LDA 方法将其降维到低维空间得到最终的语速向量。在识别时将语

速向量与 MFCC 特征合并在一起进行说话人确认。

1.4.2.3 基于联合因子分析的本征语速矩阵训练方法

在因子分析方法中,声纹特征被分解为若干因子,其中说话人相关因子所代表

的信息可用于进行说话人确认。本文将语音对应的超向量分解为说话人本征因子

(EigenVoice factor)、语速因子(EigenSpeed factor)和残差因子(Residual factor),

本文称此种模型为语速联合因子模型,并基于联合因子分析方法训练本征语速矩阵,

并提取语速因子。测试时,抛弃语速因子,基于说话人本征因子和残差因子进行说

话人确认,得到了语速鲁棒的模型。

1.4.2.4 基于增强阈值有效性的决策方法

本文以离线和在线两种方式对决策阈值进行增强,对应提出两种决策方法。对

于离线方式,本文选定一组闯入者语音作为参考集,按照语速划分参考集为不同参

考语音类,为每个注册说话人离线估计对每类参考语音的分数分布(均值和方差),

将分布参数与说话人模型一起保存。在测试时,基于测试语音和目标说话人计算相

对语速确定对应的分布,并归一化测试分数,以便增强决策阈值的有效性。

上述的决策方法基于参考说话人语音估计归一化参数,归一化参数估计是离线

进行的。另一种思路是参考集合由参考说话人模型组成,根据测试语音,从中在线

选择与测试语音最近的参考说话人模型并进行归一化。在参考说话人选择方法中,

针对语速问题,一种解决办法是为每一个测试语音从语速角度出发,从参考集中选

Page 28: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 1 章绪论

17

择与其最近的参考说话人模型子集,并由此子集估计测试语音的分数分布并进行归

一化,以便增强决策阈值的有效性。在选择参考说话人时,根据测试语音和目标说

话人之间相对语速选择最接近的参考说话人,即基于相对语速的参考说话人选择方

法,此时被选参考说话人,在语速上与当前目标说话人和测试语音是最近的,能够

准确刻画语速变化时的测试分数分布。

1.5 论文组织结构

本文总共有六个章节,其具体组织如下:

第一章为引言。首先对说话人识别在概念、技术、分类、发展历史和应用现状

等方面做了简单介绍,然后介绍了说话人确认在实际应用中所面临的鲁棒性挑战,

接着针对本文重点研究的语速鲁棒性问题给出了其研究现状和研究难点,最后是本

文的研究思路简述,介绍本文研究工作内容。

第二章是说话人确认中的语速鲁棒性问题介绍,首先定义研究中使用的语速衡

量标准,然后介绍语速声纹数据库 CSLT-SPRateDGT 的录制原则、录制方案和录制

细节,其次基于录制的语速声纹库,通过实验的方法给出研究语速鲁棒性的必要性。

第三章是特征域语速鲁棒性研究。首先给出语速鲁棒性分析,介绍提出的基于

最大似然线性回归的特征映射方法和基于深度语速学习的特征补偿方法,并给出实

验配置及实验结果和讨论。

第四章介绍在模型域提出的基于联合因子分析的本征语速矩阵训练方法。首先

给出本文提出的语速联合因子模型的定义,介绍本征语速矩阵训练方法,最后给出

实验配置与结果。

第五章介绍提出的基于增强阈值有效性的决策方法。分别介绍离线和在线增强

阈值有效性的语速鲁棒的决策方法,并给出实验及结果。

第六章是总结和展望。首先对本文研究内容总体进行总结,然后给出了未来的

工作展望。

Page 29: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

18

第2章 语速鲁棒性研究平台构建

2.1 引论

语速鲁棒性研究现状中提到的文献中,CSLT 数据库中的不同语速语音发音内

容不同,而 YOHO 数据库中不包含语速明显发生变化的语音,因此文献研究结果

不能精确验证单个语速发生变化对系统性能的影响。因此,在开展语速鲁棒性研究

之前,我们首先要明确,传统的说话人确认系统,究竟在多大程度上受到语速的影

响。然而,当前缺乏合适的数据库进行语速鲁棒性实验。为此,本章首先定义了说

话人确认中的语速衡量标准,然后介绍语速声纹数据库 CSLT-SPRateDGT 的设计与

录制方案。最后,本章介绍了两种经典的说话人确认系统,并在这两种系统上进行

语速鲁棒性实验,分析语速对系统性能造成的影响。介绍的两种说话人系统中,基

于 GMM-UBM 的说话人确认系统为本文采用的说话人确认系统,因此在本文后续

章节中不再给出相关技术细节。

2.2 语速定义

语速指的是语音中的语音单元发音的速度[62]。这里的语音单元可以是音素和音

节,也可以是单词。学术界中有很多语速衡量标准,众所周知的标准是每秒中的音

素或音节数[63],且一般认为音素率比音节率更适用于衡量语速[64]。直接计算音素率

或音节率需要用到语音识别技术,也有学者们研究无需通过识别语音内容就能够计

算语速的诸多算法,如基于 GMM 模型、能量包络线、循环神经网络和多层感知机

的语速计算方法[62, 63, 65, 66, 67]。

在语音识别中也有语速鲁棒性的问题,对此,有学者将语速分为低速、中速和

高速三种类别,并针对每一种类别训练模型[68]。然而我们注意到,说话人确认问题

中的语速鲁棒性,与语音识别中的语速鲁棒性问题不同。在说话人确认问题中,语

速鲁棒性是指注册语音的语速和测试时语音的语速不匹配,由此对系统性能造成的

影响,而不是指语速本身对系统性能造成的影响(即不是研究同一系统对说话快的

人和说话慢的人的性能差异)。因此,影响系统性能的是测试时相对注册时的语速

差异(简称相对语速),而非某个单一时刻的语速。

相对语速中存在着绝对语速,因此需要确定绝对语速标准。以每秒音素或音节

数衡量的语速包含了语音中的静音内容,而说话人确认时,前端对语音进行有效语

音检测,去除无声段后再进行后续处理。鉴于此,本文中语音 utt 的语速 RoS (Rate

of Speech)定义如下:

Page 30: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

19

𝑅𝑜𝑆(𝑢𝑡𝑡) =𝑠𝑦𝑙𝑙_𝑛𝑢𝑚(𝑢𝑡𝑡)

𝑓𝑟𝑎𝑚𝑒_𝑛𝑢𝑚(𝑉𝐴𝐷, 𝑢𝑡𝑡) (2-1)

其中,𝑓𝑟𝑎𝑚𝑒_𝑛𝑢𝑚(𝑉𝐴𝐷, 𝑢𝑡𝑡)表示 utt 中有效语音检测后的有效语音帧数,

𝑠𝑦𝑙𝑙_𝑛𝑢𝑚(𝑢𝑡𝑡)表示该语音包含的音节数。

有了语速定义之后,就可以按照如下公式计算相对语速:

𝑅𝑒𝑙𝑅𝑜𝑆 =𝑅𝑜𝑆(𝑢𝑡𝑡1)

𝑅𝑜𝑠(𝑢𝑡𝑡2) (2-2)

具体计算时,首先根据每一个说话人的注册语音根据公式(2-1)计算其绝对

语速 RoS(SPK),然后来一条测试语音 utt,计算其语速 RoS(utt),最终以 RoS(SPK)

作为基准,计算该测试语音 utt 的相对语速。

有了语速的定义,接下来需要准备以语速为唯一变量的声纹数据库,才能进行

进一步研究。经过对现有声纹数据库进行全面调研,本文决定自行录制语速声纹库,

录制的声纹库命名为 CSLT-SPRateDGT。

2.3 语速声纹数据库CSLT-SPRateDGT

2.3.1 录制原则

由于语速是对说话人确认性能的影响为本文研究的目标,因此在开始研究之前

需要针对研究目标设计并录制合适的声纹数据库,本文的主要设计原则是尽量保证

单一因素(语速)发生变化。

录制语音时的变化因素有很多,其中影响较显著的有周围环境、采集设备、发

音人自身状况和发音内容等四个因素。如果未对这些因素进行适当的控制,那么所

录制的语音中变化的因素就不止是语速。由于其他因素变化也可能对确认性能造成

不利影响,所以这种基于未经控制而直接录制的数据库不适合用于语速鲁棒性研究。

当然,这些不利影响能够通过各种技术,如信道补偿和去除噪音等各种技术进行处

理,但是没有任何技术能够百分百去除这些因素的负面影响,只是减少其作用。因

此本文的声纹库设计原则是只允许目标因素(语速)发生变化,其余因素尽可能保

持不变。注意到,这里强调尽可能保持,这是因为现实情况下很难做到完全不变或

完全保持一致。

2.3.2 录制方案

基于上述的单一变量(语速)控制原则,下面介绍录制过程中对各项变量的控

制方案。此处,除了语速变量外,主要考虑了发音内容、周围环境和录制信道这三

Page 31: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

20

种显著的干扰因素。

语速因素:作为本文的研究对象,对于语速的控制方案的设计是十分重要的。

经过思考,可有以下两种方案:

1. 根据语速定义,规定录制语速值,即要求发音人以规定时间读出指定数目

的音节数。

2. 由发音人根据自身发音习惯,进行自然发音,再相对于其自然发音的语速,

要求其录制较快和较慢的语音。

对于第一种方案,如果指定一个语速规定值,说话人为了达到规定语速,在录

制时,可能会出现其他问题,比如为了快速发音,发音内容可能会错发或漏发。

因此,本文选择第二种语速控制方案,即由说话人自己控制语速的变化,发音

人按照自身的发音习惯控制语速变慢或变快,先让发音人以正常语速发音,然后以

相对于正常语速而言慢或快的语速再次发音同一个内容,至于快慢多少,由发音人

自己控制。

确定录制方案后,对以下因素进行控制:

1. 发音内容因素:为了消除发音内容不同造成的影响,本文对所有人采用一

组固定文本进行录制。录制文本类型为 8 位数字串,设计的数字文本不包括数字“1”,

其原因是数字“1”有两种发音方式(yi 或 yao),存在歧义。8 位数字串以四位为

单位分两组,即发音人分开发音前后四位,中间可有稍微停顿。此处总共设计了

30 个覆盖数字各种组合的 8 位数字串。在录制阶段,每个说话人按照快、正常和

快 3 种语速录音,总共录音 90 个 8 位数字串。

2. 周围环境因素:为了控制环境噪声的影响,本文的录制工作均在实验室较

为安静的工作间完成,同时在录制期间要求实验室其余研究人员保持安静。经过后

期检查,我们认为所录制的语音中的周围环境因素基本符合本文的声纹库主要设计

原则。

3. 录制信道因素:为了控制信道变化的影响,本文所有语音统一采用同一部

智能手机进行录制。因此,所有录制的语音中不存在信道失配或变化的问题,准确

地说,在注册和测试语音之间不存在信道失配问题。对于背景模型和说话人模型之

间的信道问题,则很难做到保持一致。但这种由背景模型带来的信道差异的影响是

可以忽略的。因为说话人模型是由同一个 UBM 模型采用自适应方法得到,而且所

有说话人录制语音中的信道是一致的,因此,当在这些说话人模型上测试不同语速

语音时,信道对于所有被测语音的影响是相同(本文使用该录制方案录制了附录中

介绍的维吾尔语-汉语跨语言声纹库)。

通过上述对变化因素的控制手段,本文认为录制的语速声纹数据库保证了单一

因素(语速)在发生变化,其他因素(背景模型信道等)在所有说话人之间保持了

Page 32: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

21

一致,即录制的声纹数据库符合研究说话人确认中的语速鲁棒性问题。下面介绍具

体录音参数和录制细则。

2.3.3 录制细则

1. 正常语音:录音人以平时说话速度自然发音所提示的数字。

2. 快速语音:录音人相对于平时说话速度较快的速度清晰发音所提示的数字,

要求录音人在加快速度的同时保证发音内容的正确性。

3. 慢速语音:录音人相对于平时说话速度较慢的速度发音所提示的数字,采

集慢速语音时,应避免在一个数字各位之间刻意加入停顿,即不是录制孤立数字序

列,而是慢速地录制连续数字序列。比如 12486973 不应该发音为 yao[长静音]er[长

静音]si[长静音]ba[长静音]liu[长静音]jiu[长静音]qi[长静音]san。

4. 录音人按照提示的语速种类(慢、正常、快)录音提示数字。

5. 当本次录音不合格时,提示原有数字,以保证与前面语速录音内容保持一

致。

6. 采样频率为 16kHz。

7. 发音人均来自大学校园,以标准普通话录制提示内容,即本文录制中不存

在方言的因素,供录制 26 个说话人的 2,340 条语音,通过听辨实验,去除有问题

语音后,剩余 2175 条语音用于研究。

有了符合需求的语速声纹库,就可以开始展开研究工作。接下来,我们将介绍

两种经典的说话人确认系统,进而在这两个系统上使用录制的声纹库进行语速鲁棒

性分析。

2.4 基于GMM-UBM的说话人确认系统

基于 GMM-UBM 的说话人确认系统由两部分组成,第一部分是模型训练,第

二个部分是测试打分。模型训练时,首先收集大量语音数据(一般为几百人)通过

EM 算法训练出通用背景模型(Universal Background Model, UBM),一般认为该模

型刻画说话人声纹的共性部分。然后使用说话人的注册语音通过最大后验概率

(Maximum a Posterior)方法从通用背景模型自适应出说话人 GMM(Gaussian

Mixture Model)模型。测试打分一般采用对数似然比方法,即测试语音在说话人

GMM 模型和 UBM 模型上的对数似然比得出确认分数,判决时通过一个阈值判定

该测试语音是否为声称的目标说话人。整体系统框架如图 2.1 所示。下面逐一介绍

图 2.1 中的 GMM 模型、UBM 模型、EM 算法、MAP 自适应方法、对数似然比得

分方法和本文使用的说话人确认性能指标-等错误率。

Page 33: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

22

声纹特征声纹特征语音数据语音数据特征提取特征提取

通用背景模型UBM通用背景模型UBMEM算法EM算法

声纹特征声纹特征注册语音注册语音特征提取特征提取

说话人模型GMM说话人模型GMM

声纹特征声纹特征测试语音测试语音特征提取特征提取

对数似然比对数似然比

确认结果确认结果

图 2.1 GMM-UBM 说话人确认系统框架

1. 高斯混合模型

高斯混合模型由多个多维单高斯分布函数通过线性加权组合而成[15],其形式如

下:

𝑝(𝑥|𝜆) = ∑ 𝑤𝑖𝑔(𝑋|𝜇𝑖, 𝛴𝑖)

𝑁

𝑖=1

(2-3)

其中𝑋为 D 维语音特征矢量,𝑤𝑖为第 i 个高斯成分的权重,N 个权重满足

∑ 𝑤𝑖 = 1𝑁𝑖=1 ,𝑔(𝑋|𝜇𝑖, Σ𝑖)是均值为𝜇𝑖,协方差为Σ𝑖的如下形式的高斯密度函数:

𝑔(𝑋|𝜇𝑖, 𝛴𝑖) =1

√(2𝜋)𝐷√|𝛴𝑖|𝑒𝑥𝑝 {−

1

2(𝑋 − 𝜇𝑖)

𝑇𝛴𝑖−1(𝑋 − 𝜇𝑖)} (2-4)

由上述公式可看出,高斯混合模型由权重、均值和协方差表示,即单个高斯成

分由{𝑤𝑖, 𝜇𝑖, Σ𝑖}表示,由此描述的 M 个单高斯线性加权就会组成高斯混合模型。由

于高斯混合模型能够描述任意形状的分布,因此广泛应用于说话人确认等领域[3]。

2. UBM 模型

通用背景模型(UBM)在生物特征识别系统中用于描述常规的与人无关的特

征分布[69]。在说话人确认系统中,通用背景模型为刻画说话人语音共性的与特定说

话人无关的高斯混合模型[3],一般由大量的语音数据(来自数百个说话人)通过最

Page 34: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

23

大化期望(EM)算法训练而得,用于自适应出特定说话人 GMM 模型,因此通用

背景模型的好坏将影响由此训练出的特定说话人模型,一般用于训练 UBM 的语音

数据覆盖性越均匀越好[3]。

3. EM 算法

EM 算法即最大化期望算法是一种主流的训练 UBM 模型的算法[3]。假设用于

训练 UBM 的语音数据特征向量集合为 X={𝑥𝑗|𝑗 = 1,2,3, … . . , 𝐿},初始的 UBM 模型

参数为λ = {𝜇𝑖, Σ𝑖 , 𝑤𝑖|i = 1,2,3, … . . , N},特征向量 X 在给定模型λ的条件概率为:

𝑝(𝑋|𝜆) = ∏ 𝑝(𝑥𝑗|𝜆)

𝐿

𝑗=1

(2-5)

EM 算法利用最大似然准则迭代更新模型λ的参数使得模型产生数据的概率

p(X|λ)最大化。EM 算法包含两个步骤:

1) 计算模型λ的第 i 个高斯成分产生特征向量𝑥𝑙的后验概率

𝑝(𝑖|𝑥𝑙, 𝜆) =𝑤𝑖𝑔(𝑥𝑙|𝜇𝑖, 𝛴𝑖)

∑ 𝑤𝑐𝑔(𝑥𝑙|𝜇𝑐, 𝛴𝑐)𝑁𝑐=1

(2-6)

2) 利用公式(2-6)对模型权重、均值和协方差三个参数求导得到新的模型参

数𝜆′,最大化特征向量由模型𝜆′产生的概率[3],即:

𝑝(𝑋|𝜆) ≤ 𝑝(𝑋|𝜆′) (2-7)

这一步估计的第 i 个高斯成分的三个参数估计值如下:

𝑤𝑖′ =

1

𝐿∑ 𝑝(𝑖|𝑥𝑙, 𝜆)

𝐿

𝑙=1

(2-8)

𝜇𝑖′ =

∑ (𝑖|𝑥𝑙, 𝜆)𝑥𝑙𝐿𝑙=1

∑ (𝑖|𝑥𝑙, 𝜆)𝐿𝑙=1

(2-9)

𝛴𝑖′ =

∑ (𝑖|𝑥𝑙 , 𝜆)𝐿𝑙=1 (𝑥𝑙 − 𝜇𝑖)(𝑥𝑙 − 𝜇𝑖)𝑇

∑ (𝑖|𝑥𝑙, 𝜆)𝐿𝑙=1

(2-10)

返回到第一步,将第二步得到的新模型𝜆′的参数作为第一步中的模型参数继续

迭代下去,直至收敛。

4. MAP 自适应方法

在 GMM-UBM 说话人确认框架中建立说话人的 GMM 模型常用的方法是 MAP

自适应方法[3],其基本思想是利用说话人的语音数据更新已经训练好的 UBM 模型

的权重、均值和协方差等参数得到说话人的 GMM 模型。然而在说话人确认中,对

Page 35: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

24

权重和协方差的更新对确认影响不大,因此一般只对均值进行更新,权重和协方差

直接使用 UBM 模型中的权重和协方差。下面给出 MAP 自适应算法中更新均值的

计算方法。

记 说 话 人 注 册 语 音 特 征 向 量 为 包 含 L 帧 语 音 特 征 的 向 量

X={𝑥𝑗|𝑗 = 1,2,3, … . . , 𝐿},UBM 模型记为𝜆𝑢𝑏𝑚 = {𝜇𝑖, Σ𝑖 , 𝑤𝑖|i = 1,2,3, … . . , N},其中均

值记为𝜇𝑖𝑢𝑏𝑚。首先求出UBM模型的每个高斯成分产生说话人注册语音特征的概率,

然后求其期望:

𝐸𝑖(𝑋) =1

𝑛𝑖∑ 𝑝(𝑖|𝑥𝑙 ,

𝐿

𝑙=1𝜆𝑢𝑏𝑚)𝑥𝑙 (2-11)

其中𝑛𝑖为 L 帧语音特征在第 i 个高斯成分上后验概率的总和:

𝑛𝑖 = ∑ 𝑝(𝑖|𝑥𝑙,𝐿

𝑙=1𝜆𝑢𝑏𝑚) (2-12)

最终,按照如下公式更新说话人 GMM 模型均值𝜇𝑖′:

𝜇𝑖′ = (1 − 𝑎𝑖)𝜇𝑖

𝑢𝑏𝑚 + 𝑎𝑖𝐸𝑖(𝑋) (2-13)

其中𝑎𝑖为调整参数,按如下公式计算:

𝑎𝑖 =𝑛𝑖

𝑛𝑖 + 𝛽 (2-14)

公式(2-14)中的参数𝛽决定𝑎𝑖的值。当𝛽取较小的值时𝑎𝑖较大,于是说话人模

型的均值基本由说话人注册语音决定,相反当𝛽取较大值时𝑎𝑖较小,说话人模型的

均值基本由 UBM 的均值决定。

5. 对数似然比

当成功训练出 UBM 和自适应出当前声称说话人(记为 spk)的 GMM 模型后,

可以根据假设检验方法确认给定测试语音 X 是否来自说话人 spk。设𝐻𝑡𝑟𝑢𝑒表示测试

语音 X 来自说话人 spk,而𝐻𝑖𝑚𝑝表示测试语音 X 并非来自说话人 spk,考察以下对

数似然比:

𝛤(𝑋) = 𝑙𝑜𝑔𝑝(𝑋|𝐻𝑡𝑟𝑢𝑒)

𝑝(𝑋|𝐻𝑖𝑚𝑝) (2-15)

当Γ(X)大于给定的阈值Θ时假设𝐻𝑡𝑟𝑢𝑒成立,于是判定测试语音 X 来自说话人

spk,否则假设𝐻𝑖𝑚𝑝成立,于是判定测试语音 X 不是由说话人 spk 发出。在说话人

确认任务中,一般用说话人的 GMM 模型代表假设𝐻𝑡𝑟𝑢𝑒,用通用背景模型模型代

表假设𝐻𝑖𝑚𝑝。

6. 等错误率

Page 36: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

25

等错误率(Equal Error Rate, EER)为说话人确认中常用的性能评价指标之一。

当进行说话人确认时,一般有两种错误率,一种错误率是错误接受率(False Alarm

Rate, FAR),即错误接受来自闯入者的测试语音为当前声称说话人;另一种错误率

为错误拒绝率(False Rejection Rate),即错误的拒绝来自当前声称说话人的语音,

等错误率即为这两种错误率相等的点。

2.5 基于i-vector的说话人确认系统

在联合因子分析方法中,对说话人信息和信道信息进行分开建模[70]。然而联合

因子分析方法中的信道因子中仍然包含说话人相关信息,因此 Najim Dehak 等学者

提出了同时对说话人和信道同时建模的方法,采用同一个总体变换空间(Total

variability space)表示说话人和信道信息,用一个低维度的全变换因子(i-vector)

表示说话人因子,以这种方法进行说话人确认即为基于 i-vector 的说话人确认。

一条语音的说话人和信道相关的 GMM 超向量 M 可以分解为如下的形式:

𝑀 = 𝑚 + 𝑇𝑤 (2-16)

其中 m 为说话人和信道无关的超向量,T 为低秩矩阵,w 为服从均值为 0,方

差为𝐼的正态分布的向量,w 也被称为 i-vector 或 identity factor。公式(2-16)中的

M 服从均值为 m,协方差为𝑇𝑇𝑡的正态分布。训练 T 矩阵的方法与联合因子方法中

的 V 矩阵的训练类似,区别是在 T 矩阵训练中认为同一个说话人的语音来自不同

说话人,具体训练细节请参考相关文献[71]。下面介绍 i-vector 提取和打分(余弦距

离打分和 PLDA 打分)方法。

1. i-vector 提取

假设一条语音的 MFCC 特征包含 L 帧数据{𝑥1, 𝑥2, 𝑥3, … . . , 𝑥𝐿},UBM 模型为λ,

其混合数为 C,该语音的 i-vector 特征可以使用下面的公式得到:

𝑤 = (𝐼 − 𝑇𝑡𝛴−1𝑁(𝑢)𝑇)−1. 𝑇𝑡𝛴−1�̃�(𝑢) (2-17)

其中𝑁(𝑢)为 CFCF(C 为 UBM 模型的高斯混合数,F 为 MFCC 特征维数)的对角

矩阵,其对角元素为𝑁𝑐𝐼,其中𝑁𝑐为零阶 Baum–Welch 统计量:

𝑁𝑐 = ∑ 𝑃(𝑐|

𝐿

𝑙=1

𝑥𝑙 , 𝜆) (2-18)

其中P(c|𝑥𝑙, λ)为 UBM 模型的第 c 个高斯混合产生𝑥𝑙的后验概率。公式(2-17)中

的�̃�(𝑢)为对准的(centralized)一阶 Baum–Welch 统计量:

Page 37: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

26

�̃�𝑐 = ∑ 𝑃(𝑐|𝑥𝑙, 𝜆)(𝑥𝑙 − 𝑚𝑐)

𝐿

𝑙=1

(2-19)

其中𝑚𝑐为 UBM 的第 c 个高斯混合的均值向量。

提取了 i-vector 后可以根据两条语音的 i-vector 进行确认打分。

2. 余弦距离打分

假设测试语音的 i-vector 为𝑤𝑡𝑒𝑠𝑡,目标说话人的 i-vector 为𝑤𝑒𝑛𝑟𝑜𝑙𝑙,可以根据余

弦距离计算判决分数 S:

𝑆(𝑤𝑡𝑒𝑠𝑡, 𝑤𝑒𝑛𝑟𝑜𝑙𝑙) =⟨𝑤𝑡𝑒𝑠𝑡, 𝑤𝑒𝑛𝑟𝑜𝑙𝑙⟩

‖𝑤𝑡𝑒𝑠𝑡‖‖𝑤𝑒𝑛𝑟𝑜𝑙𝑙‖ (2-20)

其中<a,b>为向量的内积运算,‖·‖为向量的模运算。

计算 S 后与给定阈值θ比较可判定𝑤𝑡𝑒𝑠𝑡和𝑤𝑒𝑛𝑟𝑜𝑙𝑙是否来自同一个说话人。

3. PLDA 打分

基于 PLDA 的打分按如下公式计算:

𝐿𝑅 = 𝑙𝑜𝑔𝑃(𝑤𝑡𝑒𝑠𝑡, 𝑤𝑒𝑛𝑟𝑜𝑙𝑙|𝐻𝑡𝑟𝑢𝑒)

𝑃(𝑤𝑡𝑒𝑠𝑡, 𝑤𝑒𝑛𝑟𝑜𝑙𝑙|𝐻𝑖𝑚𝑝) (2-21)

其中 Htrue代表𝑤𝑡𝑒𝑠𝑡和𝑤𝑒𝑛𝑟𝑜𝑙𝑙属于同一个说话人的假设,Himp 代表𝑤𝑡𝑒𝑠𝑡和𝑤𝑒𝑛𝑟𝑜𝑙𝑙属于

不同说话人的假设。

2.6 实验

本节进行三个实验。第一个实验是基于本文录制声纹库分别采用 GMM-UBM

框架和 i-vector/PLDA 框架进行的语速鲁棒性实验。由于本文录制的声纹库规模小,

因此第二个实验是基于更大的测试集,通过人工模拟的方式生成不同语速语音,在

GMM-UBM 框架下进行语速鲁棒性实验。第三个实验是说话人确认系统性能随语

速变化关系实验。

2.6.1 语速鲁棒性实验

2.6.1.1 实验数据

语速声纹库 CSLT-SPRateDGT 中的语音分为开发集和测试集,其中 15 个说话

人的语音构成开发集,其余 11 个说话人的语音构成测试集,用于测试说话人确认

系统的性能。UBM 用不同于 CSLT-SPRateDGT 的 5126 条语音进行训练。

基于 i-vector 的说话人确认中,训练 T 矩阵的语音与 UBM 训练语音相同,采

用不同于 CSLT-SPRateDGT 和 UBM 训练数据的另一批来自 231 个说话人的 4329

Page 38: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

27

条语音数据训练 PLDA 模型。

实验中测试语音包含正常语速、慢速和快速的三种语速语音,每一种语速测试

包含 275 条语音,每种语速测试包含 3025 次说话人确认测试。

2.6.1.2 实验配置

实验中的特征为 60 维 MFFC 特征,其中包括 20 维静态特征和 40 维一阶和二

阶动态特征,使用基于能量的 VAD 算法去除语音中的静音段。在 GMM-UBM 说话

人确认实验中,UBM 混合数设为 2048,说话人 GMM 模型通过 MAP 方法使用说

话人注册语音自适应得到。

基于 i-vector 的说话人确认中 UBM 和 MFCC 的配置与基于 GMM-UBM 的说

话人确认实验配置相同,i-vector 的维数设为 100。

2.6.1.3 实验结果

基于 GMM-UBM 的说话人确认实验结果如表 2.1 所示。

表 2.1 基于 GMM-UBM 的基线系统实验结果

注册语速 测试语速 等错误率(%) 等错误率相对上升(%)

正常 正常 2.55 -

正常 快速 5.10 100.00

正常 慢速 7.64 199.61

从表 2.1 可以看出,慢速和快速测试条件下,确认系统的等错误率明显上升,

相对上升分别为 100.00%(快速语音测试)和 199.61%(慢速语音测试)。由于用于

测试的三种语速的 275 条语音除了语速以外,其他信道和内容等均相同,因此等错

误率的上升是由语速变化导致的。

基于 i-vector 的说话人确认实验中也分别对三种语速进行测试。打分方法分别

采用基于余弦距离(Cosine distance)和 PLDA 两种方法。实验结果如表 2.2 所示。

表 2.2 基于 i-vector/PLDA 的基线系统实验结果

注册语速 测试语速 等错误率(%) 等错误率相对上升(%)

Cosine PLDA Cosine PLDA

正常 正常 4.00 1.82 - -

正常 快速 6.18 2.91 54.50 59.89

正常 慢速 13.09 3.64 227.25 100.00

Page 39: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

28

从表 2.2 同样可以看出,在 i-vector/PLDA 框架下,快速语音和慢速语音由于

语速的变化,导致了等错误率的相对上升 59.89%(快速语音测试)和 100.00%(慢

速语音测试)。

2.6.2 大规模测试集测试实验

2.6.2.1 实验数据

由于 CSLT-SPRateDGT 声纹库的说话人数目较少,测试集中的测试数目仅为

3,025 次,因此为了在更大测试集中验证研究语速对说话人确认的影响必要性,本

文选择更大的测试集进行说话人确认实验。

实验中的 UBM 训练语音包含来自 1100 个人的 6000 条语音,测试集包含 200

个说话人的 2189 条测试数据。基于这 2189 条测试语音,通过 SoX 工具生成对应

的不同语速下的测试语音,作为非正常语速下的测试集。每种测试实验中的测试数

目为 437,800。

2.6.2.2 实验配置

实验采用基于 GMM-UBM 的说话人确认系统。在说话人确认系统的训练过程

和测试过程中,使用的特征为 60 维 MFFC 特征,其中包括 20 维静态特征和 40 维

一阶和二阶动态特征,使用基于能量的 VAD 算法去除语音中的静音段。在

GMM-UBM 说话人确认实验中,UBM 混合数设为 2048,说话人 GMM 模型通过

MAP 方法使用说话人注册语音自适应得到。

2.6.2.3 实验结果

表 2.3 给出了确认实验结果。从表 2.3 可以看出,大测试集下语速变化导致的

说话人确认性能下降仍然明显,说话人确认等错误率相对上升 108.82%。这表明无

论是在本文录制的 CSLT-SPRateDGT 这个小规模测试集下,还是人工生成的大规模

测试集下,语速变化对说话人确认的影响均明显。

表 2.3 基于大测试集下实验结果

注册语速 测试语速 等错误率(%) 等错误率相对上升(%)

正常 正常 0.68 -

正常 非正常 1.42 108.82

2.6.3 语速影响分析实验

为了更加直观的描述语速变化对说话人确认的影响,本文进行了语速变化与说

Page 40: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

29

话人确认系统性能关系实验。

2.6.3.1 实验数据

实验中,UBM 训练语音与基于 GMM-UBM 的语速鲁棒性实验相同。测试说话

人为 CSLT-SPRateDGT 数据库开发集中的 15 个说话人,这些说话人的注册语音均

为正常语速语音。实验最初,选择基于 370 条正常语速测试语音借助 SoX 工具生

成不同语速的语音,通过比例因子控制生成相对于原始正常语速语音的快速或慢速

语音。小于 1.0 的比例因子生成相对于原始语音慢速的语音,相反生成快速语音。

最初设定两个比例因子区间,分别为(0.2, 1.0)和(1.0, 3.0),使用这两个区间内

的比例因子分别生成慢速和快速语音。由于过小或过大的比例因子可能会导致生成

语音变质,因此对初始生成的语音进行人工听辨实验,以便决定合适的比例因子区

间。通过听辨发现,当比例因子小于 0.4 或大于 2.6 时,生成的语音质量明显下降,

因此最终的比例因子的区间设置为(0.4, 2.6)。生成语音时,将比例因子区间(0.4,

2.6)以 0.1 为区间长度等分为 22 个子区间,在每个子区间随机生成 370 个均匀分

布的比例因子,对应于 370 条原始正常语速语音,再基于生成的比例因子通过 SoX

工具产生不同语速语音。此时总共有 23 组(含原始一组语音)测试语音,每组语

音除了语速不同外,其余因素均相同。

2.6.3.2 实验配置

实验采用基于 GMM-UBM 的说话人确认系统。在说话人确认系统的训练过程

和测试过程中,使用的特征为 60 维 MFFCs 特征,其中包括 20 维静态特征和 40 维

一阶和二阶动态特征,使用基于能量的 VAD 算法去除语音中的静音段。在

GMM-UBM 说话人确认实验中,UBM 混合数设为 2048,使用 UBM 训练语音通过

EM 算法训练得到,说话人 GMM 模型通过 MAP 方法使用说话人注册语音由 UBM

自适应得到。

2.6.3.3 实验结果

实验结果如图 2.2 所示。图 2.2 中,横坐标表示语速,纵坐标为说话人确认等

错误率。由于 23 组语音除了语速以外,其余说话人、发音内容和信道等其他因素

均相同,因此可以观察这 23 组实验结果分析说话人确认系统性能随语速变化的关

系。图 2.2 中的曲线大致呈“V”形状。从 0.4 开始,当比例因子变大,对应语速由

慢速接近正常语速时,等错误率开始下降,当比例因子值超过 1.0,对应语速相对

于正常语速开始变快时,等错误率开始上升。这进一步验证了语速变化对说话人确

认的影响。

快语速和慢语速对说话人确认系统造成的影响时不同的,它们的原因也不尽相

Page 41: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

30

同。当快语速的条件下,语音信号也随之缩短。由于本文中的语音为 8 位汉语数字,

正常语速时语音长度也仅几秒,语速变快将会导致短语音现象。此时,单条语音中

的说话人信息减少,进而造成性能下降。对此,一个可行的方法是改变帧级别的速

率以此积累更多的说话人信息[72]。

然而,我们发现慢速语音导致的性能下降更为显著。在语音识别的研究中曾发

现,语速变慢会导致频谱特征的损坏[56],而此处的性能下降很可能是同样的原因造

成的。造成频谱特征破坏的原因可能来自两个方面。一方面,由于不正常的发音运

动造成的发音延长,会导致语音中的非正常行为(例如特殊的情感表达)。另一方

面,频谱特征的损坏不是直接由语速变化造成的,但是与语速变化相关联。

图 2.2 语速变化与等错误率关系图

2.7 总结

本章从语速入手,给出了相对语速的定义。由于说话人确认系统的特点,不能

以每秒音节和音素率衡量语速,因此必须以相对语速来衡量说话人确认中的语速。

确定好语速标准后,鉴于目前无可用于本文语速鲁棒性研究的声纹数据库,本文设

计并录制了语速声纹库 CSLT-SPRateDGT。而后,本章介绍了基于 GMM-UBM 和

Page 42: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 2 章说话人确认系统语速鲁棒性分析

31

基于 i-vector 两类传统说话人确认系统。最后,本章以多个实验,对传统说话人确

认系统进行语速鲁棒性分析。实验结果表明,无论是在本文录制的小规模语速声纹

库,还是模拟生成的大规模声纹库下,语速导致的说话人确认系统性能影响均为明

显,这表明语速对说话人确认系统有较大影响。

Page 43: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

32

第3章 语速鲁棒的声纹特征

3.1 引论

确定语速对说话人确认系统性能的影响并录制对应声纹库后,需要研究对应解

决方法。对于任何一种研究,首先从特征域入手研究获取鲁棒的特征,然后在模型

域和分数域进行研究。因此本章针对语速问题在特征域分析研究鲁棒的特征,主要

从两个方面进行研究。

一方面,快速语音导致语音中说话人信息减少,而慢速语音导致语音频谱弯曲,

影响说话人特性。如果能从慢速语音特征得到对应正常语速条件下的特征,此时就

能够减少语速变慢导致的性能下降。为此,可以通过学习一种映射,将慢速语音特

征变换到正常语速下的特征,即本章提出的第一种语速鲁棒的声纹特征获取方法。

该方法基于最大似然回归准则,训练映射矩阵,将慢速语音声纹特征映射到正常语

速下的声纹特征,基于映射的特征进行说话人确认。

另一方面,除了声纹特征,语速本身也可以作为一种特征。如果能从语音中提

取表征语速的特征,与声纹特征拼接后进行说话人确认,此时可以从声纹和语速两

方面进行决策,系统的语速鲁棒性能力得到提升。然而语速特征是一种深层的抽象

特征,用常规方法较难提取。

近十年来,深度学习取得了巨大成就。如今的深度学习不仅仅是多层神经网络

那么简单,它是一种具有高度自由的模型,它将知识与数据进行完美结合,用类似

于人的学习方式,从经验中积累知识,对知识进行深刻记忆和运用。深度神经网络

比浅层神经网络具有更强大的表示能力,通过其层次结构对信息进行逐层处理,从

原始输入信号提取出抽象特征。深度神经网络的这种抽象能力和层次化表示能力为

提取抽象的语速特征提供了强有力的支持。因此本章第二节提出基于深度语速学习

的特征补偿方法,该方法通过构造深度语速学习网络,以区分不同语速语音(不同

语速类)为目标,对原始的声纹特征逐层进行处理,将其映射到对应语速类中的高

维空间,以此获取抽象的表征语速的特征。下面介绍本章提出的第一种获取语速鲁

棒的声纹特征方法。

3.2 基于最大似然线性回归的特征映射方法

3.2.1 声纹特征分析

按照之前的分析,慢语速会破坏语音信号的频谱特征,进而降低说话人确认系

Page 44: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

33

统性能。为了确认该假设,本节将对不同语速下的语音特征进行观察。直接对特征

进行观察并不容易,主要有以下两个原因:1)语速变化会导致语音时长发生变化,

提取的 MFCC 特征帧数也随之变化,两个长度不一致的特征序列,难以直接比较;

2)特征 本身在维度上的高维性质,难以直接观察。因此,本文通过模型法对不同

语速语音特征展开观察。

首先,一个全局通用背景模型 UBM 将被训练,然后基于该 UBM,分别用正

常语速语音和慢速语音,通过 MAP 方法,自适应得到两个 UBM——分别称之为常

速 UBM 和慢速 UBM,用来代表各自的语音特征分布。由于这两个 UBM 由同一个

UBM 自适应得到,因此保证了两个 UBM 中相应高斯混合分量的可比性。此时,

通过比较这两个 UBM 就能够分析正常语速语音和慢速语音在声纹特征上不同。

在 MAP 的自适应过程中,我们只更新均值矢量,在这种设置下,两个 UBM

的均值矢量可以被认为是代表正常语速语音和慢速语音的分布。此时还存在一个问

题:UBM 的均值矢量为高维向量(比如 60 维),难以直接观察。因此,本文使用

t-SNE[73]算法将均值矢量降至二维空间,进行可视化表示,如图 3.1 所示,其中每

个点代表高斯混合中的一个均值矢量,圆点表示常速 UBM 高斯分量均值矢量,三

角形表示慢速 UBM 高斯分量均值矢量。

图 3.1 两种 UBM 高斯分量均值矢量对比图

从图 3.1 中可以看出,常速 UBM 和慢速 UBM 的高斯分量均值矢量之间出现

Page 45: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

34

明显的、有条理的偏移,特别是一些显著的偏移都指向相似的方向。尽管这不能证

明对应的高斯混合是以线性方式发生变化的(因为 t-SNE 是一种非线性的映射),

我们仍然可以假设,可以通过某种映射,将慢速语音的特征,映射为正常语速时的

特征。

3.2.2 特征映射方法

基于上述声纹特征分析,本文设计了基于最大似然线性回归(Feature space

Maximum Likelihood Linear Regression, fMLLR)的特征映射方法,其将慢速语音声

纹特征映射到正常语速语音声纹特征,以减轻注册和测试语音之间的语速失配现象。

定义一个变换矩阵 W=[b A],可以使用以下公式(3-1)对语音信号𝑥𝑖进行特征

映射:

𝑥𝑖′ = 𝐴𝑥𝑖 + 𝑏 = 𝑊𝜉𝑖 (3-1)

其中,𝐴是旋转矩阵,𝑏是偏置项。 𝜉𝑖 = [1 𝑥𝑖]𝑇是扩展的观察矢量。可以通过最大

化以下似然函数对𝑊的进行优化:

𝑄(𝑊; 𝑋, 𝑀) = ∑ 𝑙𝑜𝑔 (𝑝(𝑊𝜉𝑖; 𝑀))

𝑖

(3-2)

其中 𝑀 = {𝜇𝑐, 𝜎𝑐}代表用于进行特征变换的高斯混合模型, p(𝑥; 𝑀)是在给定高斯

混合模型 M 的条件下语音信号 x 的概率。具体的优化过程可以参考 M. Gales 等学

者文献[74]。

由于不同的语速会对语音的频谱特征产生不同的损坏,因此,在理想条件下,

不同的语速下的声纹特征应该采用不同的变换进行映射。然而,设计训练语速相关

的变换复杂性高并且受到数据稀疏的限制,所以本文将忽略语音的具体语速值,对

所有的慢速语音进行统一的线性变换。

对声纹特征进行变换时,需要训练映射矩阵𝑊𝑆𝑁,其中𝑆代表慢速语音的特征,

N 代表需要变换的目标特征,即正常语速下的特征。首先训练出一个全局 UBM,

然后基于开发集中的所有注册语音通过 MAP 方法由全局 UBM 自适应出另一个

UBM。由于开发集中的所有注册语音均为正常语速下的语音,因此通过自适应方

法得到 UBM 就能够代表正常语速下的语音,我们用𝑈𝐵𝑀𝑛𝑜𝑟𝑚表示该 UBM,使用

𝑋𝑠𝑙𝑜𝑤代表开发集中所有慢速语音的特征,于是映射矩阵𝑊𝑆𝑁可以通过最大化公式

(3-2)中的目标函数Q(𝑊𝑆𝑁; 𝑋𝑠𝑙𝑜𝑤, 𝑈𝐵𝑀𝑛𝑜𝑟𝑚)得到。基于特征映射进行说话人确认

的流程如图 3.2 所示。

Page 46: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

35

说话人正常语速登入语音特征

映射矩阵训练

测试

UBM 正常语速UBM 说话人慢速测试语音特征

最大似然线性回归

特征映射矩阵

提取慢速语音特征 正常语速特征

目标说话人模型

测试分数

测试语音

图 3.2 基于特征映射方法进行说话人确认的系统流程图

这种方法有以下优势:1)该方法简单并且有效,能够基于训练数据快速学习

出特征之间的映射;2)该方法易于和其他方法结合。虽然该方法训练时基于高斯

混合模型-通用背景模型(GMM-UBM)框架,但训练完成后,其得到的特征变换

关系,是与 GMM-UBM 无关的。因此该方法可以应用到任意的说话人确认系统中

(如目前性能较优的 i-vector/PLDA 系统框架):3)该方法具有推广性。文献[75]

将该方法应用于语种鲁棒性的研究,有效减少了语种变化对说话人确认系统造成的

影响(本文进行的另一种鲁棒性研究,具体请看本文附录)。

3.2.3 实验

3.2.3.1 实验数据

在本实验中,从 CSLT-SPRateDGT 数据库选择 15 个说话人作为开发集,剩下

的 11 个说话人作为测试集。其中开发集用来训练特征变换矩阵,测试集用来评价

系统性能。

由于开发集数据量有限,对于数据量要求更大的模型,本文另外使用了一些语

音数据用于训练 UBM 模型和 i-vector 模型,其训练过程使用了不同于

Page 47: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

36

CSLT-SPRateDGT 的 5126 条语音;PLDA 模型则使用了一个包含来自 231 个说话人

4329 条语音的更大的数据集进行训练。

3.2.3.2 实验配置

基线系统分别采用 GMM-UBM 和 i-vector/PLDA 框架。基于 GMM-UBM 框架

中,本文使用 60 维的梅尔频率倒谱系数 MFCC 作为声纹特征,并采用谱均值方差

归一化(CMVN)方法消除信道的影响。

UBM 使用 EM 算法训练得到,每个说话人的 GMM 模型从 UBM 中使用 MAP

算法自适应得到。

在 i-vector 系统中,UBM 的训练和 MFCC 特征的维数及其提取方法与

GMM-UBM 框架相同,i-vector 维数设置为 100。

为了展现本方法易于与其他方法结合的优势,实验中还将 GMM-UBM 系统下

训练得到的 fMLLR 变换应用于 i-vector 系统。

在 i-vector 系统中,我们先提取所有慢语速测试语音的 MFCC 特征,并使用基

于 GMM-UBM 框架下训练的特征变换对特征进行映射,然后使用映射后的 MFCC

特征提取对应的 i-vector 特征,而后分别使用余弦距离和 PLDA 进行打分,完成说

话人确认。注意到,只对慢语速的测试语音进行了特征映射。数据库中注册语音为

正常语速的语音,所以均没有进行特征映射。

我们在两种条件下进行测试,分别为语速匹配条件和语速失配条件。每种条件

包含 3025 次识别。系统使用 Kaldi 语音识别工具箱[76]搭建。

3.2.3.3 实验结果

基于 GMM-UBM 框架的实验结果如表 3.1 所示。可以看出,在语速失配条件

下,说话人确认的等错误率大幅升高,这表明在注册和测试语音之间存在语速失配

的情况时,说话人确认系统的性能会下降。而在进行特征变换后,系统性能得到提

升,等错误率相对下降 19.11%。

表 3.1 特征变换实验结果

条件 注册语速 测试语速 fMLLR 变换 等错误率(EER%) EERR(%)

语速匹配 正常 正常 无 2.55 -

语速失配 正常 慢速 无 7.64 -

语速失配 正常 慢速 有 6.18 19.11

i-vector 系统的实验结果如表 3.2 所示。可以看出,在语速失配的条件下,通过

Page 48: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

37

特征变换,无论是余弦打分还是 PLDA 打分系统性能都有提升,等错误率分别相对

下降 5.58%和 10.16%。这证明了当前方法的有效性。

表 3.2 i-vector 框架下 fMLLR 映射应用结果

条件 注册语速 测试语速 fMLLR变换 等错误率(EER%) EERR(%)

Cosine PLDA Cosine PLDA

语速匹配 正常 正常 无 4.00 1.82 - -

语速失配 正常 慢速 无 13.09 3.64 - -

语速失配 正常 慢速 有 12.36 3.27 5.58 10.16

3.2.4 小结

本节首先对慢速语音的特征进行分析,发现其与正常语速语音特征之间存在差

异。然后针对性的提出了基于最大似然线性回归的特征映射方法,用于将慢速语音

特征映射到正常语速语音特征。最后,本章设计实验,在基于 GMM-UBM 的系统

和基于 i-vector 的系统上对此特征映射方法进行验证。结果表明,在语速失配的情

况下,该特征映射方法在两套说话人确认系统上取得了一致性的性能提升。

3.3 基于深度语速学习的特征补偿方法

上一节使用特征变换的方法,减少语速所带来的影响。实际上,语速作为语音

中的一个变量,其本身也是一种特征。如果将语音中表征纯语速的特征,与原先声

纹特征合并,形成新的特征,用该特征进行说话人确认,那么系统在决策时,可以

综合考虑声纹和语速两个信息,进行具有语速鲁棒性的决策。

根据之前讨论的结果,说话人确认中的语速鲁棒性问题,是由相对语速引起的。

因此,当语速作为特征时,其也应该是相对语速。本节从深度学习思维出发,提出

了基于深度语速学习的特征补偿方法,对语音的相对语速进行表征。对于每条语音,

首先计算其相对语速向量,而后与声纹特征进行拼接,形成新的特征,进一步进行

说话人确认。

本节首先介绍基于深度学习的说话人确认的研究背景,然后给出深度语速学习

网络结构,介绍其进行特征补偿的方法。最后设计实验,检验该特征补偿方法的有

效性。在开始研究之前,首先对基于深度学习的说话人确认现状进行了调研,下面

介绍深度学习在说话人确认中的应用。

Page 49: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

38

3.3.1 基于深度学习的说话人确认简介

说话人识别中的深度特征学习思想源自于 Ehsan Variani 等学者[21]。他们提出一

种特征,称之为 d-vector。虽然 d-vector 系统性能不如最先进的 i-vector 系统,但是

这项研究引起了基于深度神经网络的说话人识别系统研究。

Y. Lei 等人提出了基于音素察觉的深度神经网络的说话人识别方法[77]。该方法

将传统 i-vector 方法中的高斯混合模型替换为深度神经网络,用于帧对齐,即采用

为语音识别训练的深度神经网络提取统计量用在 i-vector 系统中,将语音内容信息

整合到统计量中。与传统方法相比,该方法提供了 30%的等错误率相对下降。

GMM/i-vector+PLDA 是当前主流的说话人确认方法。为了优化系统性能,越

来越多的研究者尝试使用 DNN 模型在此框架的基础上对系统进行改进。

Ehsan Variani 等学者直接使用 DNN 替换 GMM/i-vector 框架,提出使用神经网

络最后一层隐藏层的输出的统计值,计算 d-vector,为说话人建模,比较两个模型

的距离完成说话人确认。

有些研究者尝试将 DNN 作为特征学习的工具,将学习到的特征代替传统特征

(如 MFCC),用于 GMM/i-vector 框架的输入[78]。

Pavel Matejka 等学者使用 DNN 抽取堆叠的 Bottleneck 特征(Stacked Bottleneck

Features),并与传统 MFCC 特征拼接,将新的特征用于 GMM/i-vector 框架中进行

说话人识别[79]。

此外,在噪声、复杂信道环境下,传统说话人确认系统会受到影响。对此,研

究者从不同角度入手提高系统鲁棒性。

Oldrich Plchot 等学者[80]从语音端入手,设计了一个深度自编码器,直接对语音

信号进行增强,减少噪声、回音、远距离麦克风导致的录音质量下降的影响,还原

出干净的语音。将增强后的语音用于说话人识别,使得系统鲁棒性得到提升。

学者们从 PLDA 输出的分数入手,使用 DNN 对分数进行校准,使之与干净语

音时的分数更为接近,提高说话人确认系统的鲁棒性。这是由于噪声会影响 i-vector

的分布,进而影响 PLDA 的分数结果,对识别性能造成影响。文中使用的 DNN 网

络,以目标 i-vector 和测试 i-vector 以及 PLDA 的分数作为输入,进行多任务学习,

网络同时学习预测清晰语音时的分数、当前分数与清晰语音时的分数偏差、当前语

音信噪比、以及是否属于同一个说话人。最终该网络输出的校准后的分数,具有更

强的鲁棒性,在原始环境和噪声环境下性能均有所提升。

Gautam Bhattacharya 等 学 者 对 传 统 Within Class Covariance

Normalization(WCCN)这种线性信道补偿方式进行改进,使用 DNN 进行非线性信

道补偿,提高系统在多信道情况下的鲁棒性[81]。

上述研究方法借助深度神经网络强大的学习能力,提取一种新的特征代替传统

Page 50: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

39

说话人识别中的特征。针对噪声、复杂信道等不同环境下的鲁棒性问题,其通过提

“纯”说话人相关特征的方式,使得该特征尽可能少的受到其他因素的影响,进而

提高说话人系统鲁棒性。然而,对于语速问题,目前没有了解到相关基于深度学习

的研究方法。本文基于深度学习方法,让网络直接学习纯语速相关特征。通过将该

特征与常规特征拼接的方式,在特征中引入语速信息,使得后端系统在决策时更具

有语速鲁棒性。

3.3.2 深度语速学习网络

深度语速学习网络借助深度神经网络的强大学习能力,直接对语速进行表征,

而后将每条语音的语速表征作为特征,进行特征补偿。

深度神经网络由多层神经元节点组成,其中由输入特征构成的一层称为输入层,

输出预测结果的一层称为输出层,其余在输入层和输出层之间的层被称为隐藏层,

如图 3.3 所示。网络以语音的 MFCC 特征作为输入,经过多层推理运算后,得到语

速表征,输出层根据语速向量表征,预测当前语音所属的语速类。

网络进行推理时,每层网络的神经元,会对上一层所有神经元的输出求加权和,

然后将所得到的结果与偏置项相加,并通过激活函数运算,得到该层的输出。神经

网络中一个神经元的激活公式如下:

𝑥𝑖𝑗 = 𝑓 (∑ 𝑤𝑖𝑗𝑘𝑥(𝑖−1)(𝑘)

𝑘

+ 𝑏𝑖𝑗) (3-3)

其中,𝑥𝑖𝑗是指第 i 层的第 j 个神经元的输出,𝑤𝑖𝑗𝑘表示第 i 层的第 j 个神经元,对上

一层的第 k 个神经的输出的接收权重大小,bij表示第 i 层第 j 个神经元的偏置大小,

𝑓(∙)表示激活函数,其可以为任意函数,如 Relu、tanh、sigmoid 等。

本文的隐藏层选择 Relu 函数作为激活函数,其公式如下:

𝑅𝑒𝑙𝑢(𝑧) = 𝑚𝑎𝑥(𝑧, 0) (3-4)

可以观察到,Relu 函数是一个分段线性函数,当前一层的加权和大于 0 时,网

络输出其本身,是线性函数,否则,网络输出 0。这使得 Relu 函数整体是一个非线

性函数。以非线性函数作为激活函数的层,可以对上一层的输出进行非线性变换。

可以证明,只要拥有足够多的神经元,进行非线性的变换的神经网络,可以拟合任

意函数。

在本网络的设计中,最后一层隐藏层的输出被认为是语速向量表征。输出层根

据语速向量表征,预测当前语音属于每个语速类的概率。输出层选择使用 softmax

Page 51: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

40

函数作为归一化函数,其公式如下:

𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑧𝑖) =𝑒𝑧𝑖

∑ 𝑒𝑧𝑗𝑗

(3-5)

其中,𝑧𝑖表示输出层第 i 个类别单元接收到的上层所有神经元的输出的加权和。

为了评价网络输出的正确程度,此处将网络输出的预测概率和真实的语速类标

签之间求交叉熵损失,其计算公式如下:

𝐿(�̂�(𝑖), 𝑦(𝑖)) = − ∑ 𝑦𝑗(𝑖)

× 𝑙𝑜𝑔(�̂�𝑗(𝑖)

)

𝐿

𝑗

(3-6)

其中�̂�(𝑖)表示网络预测当前输入为第 i 类语速类的概率;𝑦(𝑖)为真实的第 i 类语速类

的概率,当该帧属于此语速类时,其等于 1,否则都为 0;L 为语速类的个数;

此时,模型的目标函数为:

𝐽(𝜃) =1

𝑀∑ 𝐿(�̂�(𝑖), 𝑦(𝑖))

𝑀

𝑖=0

(3-7)

其中 M 为训练数据个数。

网络训练的过程,就是调整网络中的各项参数,使得目标函数减小的过程。有

多种优化算法可以选择,在这里,本文选择 mini-batch 的随机梯度下降方法对网络

进行优化。

由于网络是按帧进行输入的,因此,对于一段语音,其每帧都将得到一个语速

表征。本文对每段语音每一帧的语速表征求平均,其计算结果代表了这段语音的语

速,记为语速向量(Speaking Rate Vector)。

网络结构设计好以后,需要定义语速类。当一条语音语速相对于原始语速发生

变化时,即变快或变慢时,对应声纹特征也将发生变化,此时虽然无法直接发现具

体发生了什么样的变化,但是非正常语速语音自身构成了一个语音类,此类语音比

原始正常语速语音不同,即语速不同。此时我们可以对不同语速语音按照相对语速

进行分类,以分类语速类别作为目标进行监督学习。

首先正常语速下的语音可以作为一个类。需要强调的是此处的正常语速是说话

人以自身发音习惯发出的平常状态下的语速。这种语速下发出的语音是自然语音,

最具有表征说话人个性的能力。然后非正常语速下的语音也可以作为一种类,然而

非正常语速范围比较广,可以进一步细分,这是因为非正常语速程度不同,声纹特

Page 52: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

41

征变化程度也不同。由于语速变化不太明显时,声纹特征变化也不会很明显,因此

可以设定一个阈值,在这阈值以内,即使语速发生了变化,也可以认为属于正常语

速类,超过这一阈值的语音属于非正常语速类。对于本节提出的方法,人工模拟时,

由于慢速语音的模拟能力有限,很难模拟过于慢速的语音,因此本文中对慢速语音

仅定义一个类,相反,快速语音可以进一步细分,即分为较快和快两类。此时,本

文定义出 4 种语速类,即正常、慢速、较快和快速等 4 类。

图 3.3 特征补偿方法网络结构图

3.3.3 实验

3.3.3.1 实验数据

在本实验中,所有语音数据均为 8 位中文数字串。深度语速学习网络的训练数

据包含来自 1423 个说话人的 3741 条正常语速语音。其他语速类型的语音数据由

SoX[82]‎语音工具,通过对所有正常语速语音进行调速生成。在进行调速时,调速比

例因子被设定为某一区间内的随机值,使得单一语速类中语音的语速多样化,更加

符合实际场景。其中,在生成快速语速类时,调速比例因子的区间为[2.0, 2.6),较

快时为[1.2, 1.8),慢速时为[0.5, 0.8)。

在基于 GMM-UBM 的说话人确认系统中,UBM 的训练语音包含 1100 个说话

人,共计 6000 条正常语速语音。

在进行模拟测试实验时,测试数据包含 200 个说话人的正常语速语音数据。每

MFCCs帧序列

最后一隐藏层输出:帧级别语速向量 句子级别语速向量平均

… … … … …

输入层 输出层全连接隐藏层

P(快速类)

P(较快类)

P(正常类)

P(慢速类)

最后一层隐藏层输出:帧级别语速向量

.

句子级别语速向量

M FCCs帧序列

平均

Page 53: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

42

个人有 5 条语音用于建模,剩余语音用于测试。整个数据集的测试语音数量共计

2189 条。通过 Sox 工具对测试语音进行调速,获得其他语速类的语音。测试在不

同人之间以全交叉的方式进行,最终说话人确认测试次数共计 437,800 次。

此外,为了与前文 3.2 节中的结果进行对比,该方法也在 CSLT-SPRateDGT 数

据库上进行测试,其测试集组成与 3.2 节相同。此外,考虑到实际应用中无法获得

“慢速”标记,因此,在本实验中增加了“混合”测试方式,其将测试集中所有 11

个说话人的所有语速语音(即包括正常、快和慢 3 种语速)进行混合,同时用于测

试。

3.3.3.2 实验配置

基线说话人确认系统基于 GMM-UBM。在说话人确认系统的训练过程和测试

过程中,使用的特征为 60 维 MFFCs 特征,其中包括 20 维静态特征和 40 维一阶和

二阶动态特征,使用基于能量的 VAD 算法去除语音中的静音段。

在 GMM-UBM 说话人确认实验中,UBM 混合数设为 2048,说话人 GMM 模

型通过 MAP 方法使用说话人注册语音自适应得到。

深度语速学习网络包含 4 个隐藏层,每层包含 1024 个节点。网络输入的声纹

特征为 60 维的 MFCC 特征;在此基础上,加上当前帧的前后各两帧的特征,总输

入维度为 300。网络输出层的维度为 4,对应于本文定义的 4 种语速类。训练采用

基于 mini-batch 的梯度下降算法进行优化,共迭代 32 次。

网络训练完成后,对于所有语音,通过最后一层隐藏层,提取帧级别的语速向

量,经平均后得到 1024 位的句子级别语速向量,再通过 LDA 降维算法降维到 4 维。

降维后的语速向量与 60 维 MFCC 特征拼接,作为 GMM-UBM 系统的特征,进行

说话人确认。注意到,由于特征维度发生改变,此处的 UBM 和 GMM 也需要重新

训练。

3.3.3.3 实验结果

模拟测试集下实验结果如表 3.3 所示。

表 3.3 特征补偿方法实验结果(模拟测试集)

特征 注册语速 测试语速 EER (%) EERR (%)

基线系统 MFCC 正常 正常 0.68 -

特征补偿方法 MFCC+spVector 正常 正常 0.55 19.12

基线系统 MFCC 正常 非正常 1.42 -

特征补偿方法 MFCC+spVector 正常 非正常 1.01 28.87

Page 54: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

43

从表 3.3 可以看出,提取的语速向量与 MFCC 特征拼接在一起时,有效减少了

语速变化引起的确认系统性能下降,等错误率相对下降 28.87%。此外,在正常语

速的测试条件下,该特征补偿方法也取得了性能的提升。

录制测试集下实验结果表 3.4 所示。从表 3.4 可以看出,在本文录制的慢速语

音测试集下,本节提出的特征补偿方法提高了系统性能,等错误率相对减少 20.08%,

性能提升略好于本章第二节提出的特征变换方法(等错误率相对减少 19.11%)。该

方法在混合语速测试条件下也取得了性能提升。

表 3.4 特征补偿方法实验结果(录制测试集)

特征 注册语速 测试语速 EER (%) EERR (%)

基线系统 MFCC 正常 慢速 7.27 -

特征补偿方法 MFCC+spVector 正常 慢速 5.81 20.08

基线系统 MFCC+spVector 正常 混合 6.30 -

特征补偿方法 MFCCs+spVector 正常 混合 5.33 15.40

3.3.4 小结

本节借助深度学习的抽象特征提取和层次化表示能力,构造以区分不同语速语

音类为目标的深度神经网络,进而提取语速向量,与传统声纹特征进行拼接,进行

补偿。后端决策由于可综合考虑声纹和语速两个方面,使得决策的语速鲁棒性得到

提升。实验结果表明,当语速不匹配的情况下,该特征补偿方法能够提升说话人确

认的性能,同时,即使在语速正常的情况下,系统性能也得到了提升。

与特征变换方法相比,本节提出的方法有其优点。特征映射方法需要对不同语

速设计不同的映射方法,然而设计语速相关的特征映射比较复杂,设计难度较高,

合理划分语速区间并设计映射难度较大,对不同人设计不同的映射更难。而本节提

出的方法能够借助深度学习的抽象化能力,较为容易实现语速的抽象化,表征语速

特征。本节提出的特征补偿方法中采用的是一种新的特征,即原声纹特征加语速特

征,此时通过原声纹特征表征说话人特性,通过语速特征刻画说话人的发音习惯,

即语速特性。可见相比于特征映射方法,本章提出的方法在保证提升系统性能的同

时降低了设计上的复杂性,另外不需要测试语音的“慢速”或“快速”等标记,直

接对语音提取语速向量,拼接后进行测试,这表明本章提出的方法较容易应用到实

际应用系统中。

Page 55: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 3 章 语速鲁棒的声纹特征

44

3.4 总结

本章针对说话人确认中的语速鲁棒性问题,在特征域提出了两种语速鲁棒特征。

首先,由于声纹特征的高维性,加之语速变化导致的声纹特征帧数不同,因此无法

直接分析不同语速在特征上的分布不同。因此本文通过观察模型的方式分析正常语

速和慢速语音声纹特征。根据分析结果,针对慢速语音的特征与正常语速特征之间

的差异,本章提出了基于 fMLLR 的特征映射方法,减少语速变化造成的特征差异。

而后,鉴于设计语速相关特征映射的复杂性,本章从语速本身作为特征的角度出发,

提出了基于深度语速学习的特征补偿方法。该方法借助深度神经网络的抽象特征提

取能力和层次化表示能力,进行语速向量的表征,通过与传统声纹特征进行拼接,

进行特征补偿。后端模型利用补偿后的特征进行说话人确认,可综合考虑声纹和语

速两个方面,提高决策的语速鲁棒性。

Page 56: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 4 章 基于 JFA 的语速鲁棒模型

45

第4章 语速联合因子模型

4.1 引言

上一章从特征角度入手,通过特征映射或特征补偿的方式,提升系统的语速鲁

棒性。而一个说话人确认系统,除了需要一种包含说话人信息的特征提取方法外,

更加重要的是对说话人的特性的建模方法。本章从模型角度入手,通过在模型中引

入语速相关的先验信息,提升模型对语速的鲁棒性,进而提高整个系统的语速鲁棒

性。

在说话人确认领域,已有很多研究者从模型角度入手,尝试提升系统的鲁棒性。

其中一种著名的方法为联合因子分析(Joint Factor Analysis, JFA)方法‎[17,30]。在 JFA

中,其认为相同说话人的不同录音之间的差别,主要是由信道因素造成的。因此,

其假设语音信号中存在三种因子:说话人因子、信道因子和残差因子,每个因子通

过线性映射的方式,成为语音信号的一部分。

受到联合因子分析方法启发,对于语速变化,如果语音内容和信道等其他条件

相同,只有语速不同,此时两条语音中相同部分可以看作是说话人相关部分,无论

快慢这部分应该是稳定的,而不同之处就为语速相关部分,根据说话人发音快慢而

发生变化。如果我们能够对说话人相关部分和语速相关部分分开建模,那么说话人

确认中的语速影响能够有效得到解决。

基于上述分析,本文提出了语速联合因子模型。语速联合因子模型假设语音信

号可以由说话人相关因素和语速因素组成,其引入本征语速矩阵和语速因子的概念,

对语速进行建模。在测试时,模型通过同时削弱注册语音和测试语音的语速影响,

缓解了注册和测试时语速失配的问题,从而提高的系统的语速鲁棒性。

4.2 语速联合模型定义

为了给出语速联合因子模型定义,首先,我们介绍超向量的概念。通过拼接说

话人相关 GMM 模型的各个高斯混合均值向量所形成的向量,称之为超向量,记为

M,如图 4.1 所示。

如图 4.2 所示,超向量 M 能够被分解为说话人相关超向量和语速相关超向量,

可表示为:

𝑀 = 𝑆 + 𝑅 (4-1)

其中,𝑆为说话人相关的服从正态分布的超向量;𝑅为语速相关的服从正态分布的超

Page 57: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 4 章 基于 JFA 的语速鲁棒模型

46

向量。

说话人无关GMM模型

(UBM)

超向量

说话人相关GMM模型

MFCC提取

特定说话人语音

MAP自适应

图 4.1 超向量示意图

S

R

M

说话人空间

语速空间

图 4.2 模型定义

超向量 M 的第 1 部分𝑆进一步可表示为:

𝑆 = 𝑚 + 𝑉𝑥 + 𝐷𝑦 (4-2)

其中,m 为说话人和信道无关超向量,V 为低秩矩阵,其列表示本征声音(Eigen Voice);

对角矩阵 D 表示残差空间(residual)。x 称为说话人因子(speaker factor),y 称为残

差因子(residual factor)。x 和 y 均服从分布N(0,1)。

超向量 M 的第 2 部分 R 可表示为:

𝑅 = 𝑈𝑧 (4-3)

其中低秩矩阵U的列表示本征语速,z称为语速因子(speaking rate factor),服从N(0,1)

Page 58: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 4 章 基于 JFA 的语速鲁棒模型

47

的分布。我们关心的是如何减少第 2 部分对说话人确认的影响。

在语速联合因子模型中,本征说话人矩阵 V,残差矩阵 D 和本征语速矩阵 U 通

过训练数据训练得到。而后,对于任意一条语音,模型可估计出该条语音中的说话

人因子、残差因子和语速因子。

在注册阶段,模型根据注册语音,估计得到该说话人的说话人因子和残差因子。

在确认打分阶段,模型根据识别语音,估计当前语音的各项因子,并与注册阶

段计算得到的说话人因子和残差因子相结合,给出置信分,具体计算公式如下:

𝑆 = (𝑉𝑥𝑒𝑛𝑟𝑜𝑙𝑙 + 𝐷𝑦𝑒𝑛𝑟𝑜𝑙𝑙)∗Σ−1(FF(test) − NN(test)m − NN(test)Uz(test))

其中 NN(·)和 FF(·)为由零阶和一阶统计量通过扩展得到的统计量。计算得到

置信分后,后端可简单采用阈值判定方式,即可完成说话人确认。

注意到,在语速联合因子模型中包含本征说话人矩阵、本征语速矩阵和残差矩

阵,参数众多,如何对模型进行训练成为一大难点。接下来,我们详细介绍模型的

训练过程。

语速联合因子模型的参数为三个矩阵,即本征说话人矩阵 V、本征语速矩阵 U

和残差矩阵 D。同时优化三个矩阵较为困难。因此,模型通过交叠训练的方式,以

迭代的方式完成三个矩阵参数的估计,整体思路如下:首先,估计本征说话人矩阵 V,

此时假设本征语速矩阵 U 和残差矩阵 D 为 0,接着在估计出的本征说话人矩阵 V 基

础上,估计本征语速矩阵 U,此时假设残差矩阵 D 为 0,最终在估计出的本征说话

人矩阵 V 和本征语速矩阵 U 基础上估计残差矩阵 D。

模型参数 V 和 D 的训练与说话人相关,在训练过程中,要求训练语音按说话人

进行分类,具体的训练方法与联合因子分析方法相同[83]。而模型参数 U 为本征语速

矩阵,其训练应基于语速进行。接下来介绍本文提出的本征语速矩阵训练方法。

4.3 本征语速矩阵训练方法

本征语速矩阵 U 每一列代表本征语速,在训练时,其要求训练数据按照其语速

划分成不同的类,每个类代表一定语速范围内的语音集合。我们将这样的语音集合

定义为语速类(Speaking Rate Class, SRC)。首先,对每个语速类中的每个说话人(简

称 spk),计算对应的 0 阶和 1 阶(0th和 1

th)统计量,并基于已经训练好的本征说话

人矩阵 V 计算说话人因子 x。

𝑁𝑐(𝑆𝑅𝐶, 𝑠𝑝𝑘) = ∑ 𝛾𝑡(𝑐)

𝑡∈𝑆𝑅𝐶,𝑠𝑝𝑘

(4-4)

𝐹𝑐(𝑆𝑅𝐶, 𝑠𝑝𝑘) = ∑ 𝛾𝑡(𝑐)

𝑡∈𝑆𝑅𝐶,𝑠𝑝𝑘

𝑋𝑡 (4-5)

Page 59: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 4 章 基于 JFA 的语速鲁棒模型

48

接着基于矩阵 V 和说话人因子 x,为每个 spk,计算说话人位移:

𝑠ℎ𝑖𝑓𝑡(𝑠𝑝𝑘) = 𝑚 + 𝑉𝑥(𝑠𝑝𝑘) (4-6)

然后,对每一个语速类中的说话人 spk,从 1 阶统计量中减去加以高斯后验权重

的说话人位移,得到 1 阶中心统计量:

�̃�𝑐(𝑆𝑅𝐶, 𝑠𝑝𝑘) = 𝐹𝑐(𝑆𝑅𝐶, 𝑠𝑝𝑘) − 𝑠ℎ𝑖𝑓𝑡(𝑠𝑝𝑘)𝑁𝑐(𝑆𝑅𝐶, 𝑠𝑝𝑘) (4-7)

此时,将𝑁𝑐(𝑆𝑅𝐶, 𝑠𝑝𝑘)和�̃�𝑐(𝑆𝑅𝐶, 𝑠𝑝𝑘)展开成如下形式:

𝑁𝑁(𝑆𝑅𝐶, 𝑠𝑝𝑘) = [𝑁1(𝑆𝑅𝐶, 𝑠𝑝𝑘) ∗ 𝐼

⋱𝑁𝐶(𝑆𝑅𝐶, 𝑠𝑝𝑘) ∗ 𝐼

] (4-8)

𝐹𝐹(𝑆𝑅𝐶, 𝑠𝑝𝑘) = [�̃�1(𝑆𝑅𝐶, 𝑠𝑝𝑘)

⋮�̃�𝐶(𝑆𝑅𝐶, 𝑠𝑝𝑘)

] (4-9)

估计矩阵 U 的其余步骤与估计 V 矩阵相同,具体可以查看文献[83]中训练 V 的过

程,再次不再赘述。不同的是,估计矩阵 V 时使用NN(spk)和FF(spk),而在估计矩

阵 U 时,使用NN(SRC, spk)和FF(SRC, spk)。估计时,首先随机初始化矩阵 U 并估计

语速因子 z;接着基于 z 和公式(4-8)和(4-9)计算额外的统计量,基于这些统计

量构造矩阵 U。然后用构造的矩阵 U,替换随机初始化的矩阵 U,再重新估计语速

因子和相关统计量,用于估计新的矩阵 U。此过程大概迭代 10 次,完成本征语速矩

阵 U 的训练。

值得说明的是,在训练本征语速矩阵时,数据组织是按照录音时的语速标记或

者计算得出的相对语速进行组织,即按语速类分类组织训练语音,因此我们认为本

征语速矩阵训练方法补偿的是语速,而并非是信道,需要与联合因子分析方法(Joint

Factor Analysis, JFA)区分开。

4.4 实验

4.4.1 实验数据

UBM 训练语音包含 5126 条正常语速语音。开发集分为两个部分,第一个部分

包含来自 231 个人的 4,329 条语音,用于估计本征说话人矩阵 V 和残差矩阵 D;第

二个部分包含来自 CSLT-SPRateDGT 声纹数据库中 15 个说话人的 1,110 条语音,用

于训练本征语速矩阵 U。测试集为来自本文录制的 CSLT-SPRateDGT 声纹数据库中

剩余 11 个说话人,其中慢速、正常、快速语音各 275 条,共计 825 条。

在常规做法中,一般首先测试正常语速语音,其次分别测试对应的快速语音和

Page 60: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 4 章 基于 JFA 的语速鲁棒模型

49

慢速语音。实验中这种方式是可行的,但是在实际应用中,很难获取同一内容的三

种语速语音。因此本文将快速、慢速和正常语速下的三种语音混在一起,进行混合

语速的测试。因此,此时的测试语音共有 825 条。

4.4.2 实验配置

基线系统采用 GMM-UBM 框架构建。60 维 MFCC 作为声纹特征,60 维特征包

括 20 位静态特征及其 40 维动态特征(20 维+20 维)。提取的 MFCC 特征经过均

值、方差归一化以便消除信道效应。基于能量的语音端点检测方法用于去除静音部

分。通用背景模型(UBM)高斯混合数设为 2048,通过 EM 算法训练得到。说话人

模型采用高斯混合模型,用说话人自己的注册语音从 UBM 通过自适应算法(MAP)

得到,在自适应时,只更新 UBM 的均值。本征声音矩阵的秩设定为 400,本征语速

矩阵的秩设定为 4。说话人确认系统是通过 ALIZE[84]工具包构建。

4.4.3 基于全真实录音数据的本征语速矩阵训练方法测试实验

本测试一共分为三个实验。

第一个实验是 GMM-UBM 基线系统实验(记为 EXP-base),对语速不做任何处

理。测试集中的注册语音均为正常语速语音,测试语音包含三种不同语速语音共 825

条,共 9075 次测试。

另两个实验均使用语速联合因子模型对说话人进行建模。而在语速类的定义上,

两个实验采用了不同的方式:

基于说话人自我感知的相对语速的语速类定义:由于用户在进行录制时,其

根据发音习惯进行发音,并按照提示要求,自行发出较快和较慢的语音。此时,快

速、慢速、正常的三种语音,均是基于用户自身感知的,并且也是相对于其自身的。

因此,这种标签称为说话人自我感知的相对语速。直接采用录音时的标签进行语速

类的定义并进行实验,记为 EXP-rec。

基于说话人自身相对语速的语速类定义:通过将一条语音和该说话人正常语

速语音,通过公式(2-2)计算得到的语速,即为说话人自身相对语速。根据说话人

自身相对语速的不同,按区间将语音分成不同的语速类。在本实验中,语速类区间

设定为[0.0, 0.8)、[0.8, 1.5)、[1.5, --)。按这种方式进行的实验,记为 EXP-spk。

表 4.1 展现了实验结果。观察结果可以发现,基于说话人自我感知的相对语速

的语速类定义方式(EXP-rec)较基线实验相比,等错误率相对下降 6.06%。然而,基

于说话人自我感知的相对语速定义语速类忽略了具体语速,是一种粗略的标记。在

这种方式中,所有标记为快速(或慢速)的语音均被视为属于同一个语速类,然而

快速语音或慢速语音的快慢程度不尽相同,且用户感知有时并不一定准确。相比而

Page 61: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 4 章 基于 JFA 的语速鲁棒模型

50

言,基于说话人自身相对语速的语速类定义方式(EXP-spk)能够更加精准的描述语音

的语速,使得系统性能进一步提升,等错误率相对下降 8.25%。

表 4.1 基于全真实录音数据的本征语速矩阵训练方法测试实验结果

实验 EER (%) EERR (%)

EXP-base 5.94 -

EXP-rec 5.58 6.06

EXP-spk 5.45 8.25

4.4.4 基于模拟调速的增强数据的本征语速矩阵训练方法测试实验

在上一节的实验中,我们使用语速声纹库中的数据,对语速联合因子模型进行

训练。然而,当前的语速声纹库中的数据较少,这限制了模型的发挥。因此,本节

采用数据模拟的方法,利用 SoX[82]工具对正常语速语音进行调速,生成大量模拟语

速声纹语音数据。而后,利用生成的模拟数据进行语速联合因子模型的训练,检验

模型的性能。

本文首先选择开发集中的 370 条正常语速语音,然后通过 SoX[82]工具设定比例

因子生成相同内容但语速不同的语音,比例因子区间设置为(0.4, 2.6)。大于 1.0

的比例因子将会生成相对于原始语音快速的语音,而小于 1.0 的比例因子生成相对

于原始语音慢速的语音。为了保证语速分布的均匀性,在生成语音时,语速区间分

为子区间,子区间长度设为 0.1。在每个子区间随机生成服从均匀分布的 370 个比

例因子值,生成 370 条不同语速语音。对应于 22 个子区间,共生成 8,140 条语音,

加上原始的 370 条语音,我们得到了包含 8,510 条语音的模拟语音声纹数据库。

相比于之前的实验,此时我们有足够多的训练语音,因此,在此处,我们进一

步细分语速区间,将语速类区间定义为[0, 0.6)、[0.6, 1.7)、[1.7, 2.3)、[2.3, --) 4 个

区间。

本节第一个实验使用模拟语音声纹数据库对语速联合因子模型进行训练,其中

语速类的定义是基于说话人自身相对语速进行。这个实验记为 EXP-spk-2。与

EXP-spk 相比,EXP-spk-2 不仅使用了不同的训练数据,而且语速类的定义从 3 个

扩展为 4 个。

注意到,在生成模拟语音数据时,不同的语速数据与比例因子直接相关。这引

出了一种新的语速类定义方式:基于比例因子的语速类定义。我们直接根据生成不

同语音时采用的比例因子,根据其落入不同的区间,将语音分成不同的语速类。特

别的,原先的 370 条正常语速语音的比例因子被视为 1.0。以这种方式进行语速类

定义的实验,记为 EXP-factor。

Page 62: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 4 章 基于 JFA 的语速鲁棒模型

51

表 4.2 基于模拟调速的增强数据的本征语速矩阵训练方法测试实验结果

实验 EER (%) EERR (%)

EXP-base 5.94 -

EXP-spk-2 5.09 14.31

EXP-factor 4.49 24.41

表 4.2 展示了实验结果。可以发现,在 EXP-spk-2 中,其性能提升效果优于

EXP-spk,这说明当前模型能在更大的数据量下,取得更大的性能提升。此外,

EXP-factor 的性能更优于 EXP-spk-2,这说明基于比例因子的计算方式,能更加准

确的描述语速特征。

4.5 总结

本章从模型角度入手,提出了语速联合因子模型,对说话人相关信息和语速相

关信息分开建模,并对其中的语速相关部分,提出了一种本征语速矩阵训练方法。

模型通过同时削弱注册语音和测试语音的语速影响,缓解了注册和测试时语速失配

的问题,从而提高的系统的语速鲁棒性。实验结果表明,语速联合因子模型能够提

升系统的语速鲁棒性,且基于模拟调速生成数据方式进行数据增强后,能进一步提

高系统性能。

然而,当前方法也存在一些不足之处:语速区间的划分是根据经验进行的。若

能研究出一种语速区间的科学划分方法,则有利于获得更好的系统性能。需要说明

的是,虽然本章中的语速区间是凭经验确定的,但是实验结果和结论是具有参考价

值的。

Page 63: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

52

第5章 基于增强阈值有效性的决策方法

5.1 引言

上一章在模型域研究语速鲁棒的模型,然而语速失配影响在说话人确认系统返

回的分数上也得以体现,即语速变化导致决策时的阈值有效性降低。分数归一化方

法的目的就是通过归一化系统返回的分数,增强决策阈值的有效性。因此本章后两

节研究围绕相对语速,在分数域,通过归一化方法,增强语速变化条件下决策阈值

有效性,以便减少语速对系统性能的影响,主要研究两种决策方法。

一种思路是为每个注册说话人估计其对不同语速语音的测试分数分布,并将该

分数分布与说话人模型一并保存。在测试时,使用声称说话人的分布参数对系统返

回的测试分数进行归一化,此时分数归一化将增强决策阈值的有效性,该方法由不

同语速语音组成参考集,分别用全局归一化和局部归一化两种方法,为每一个说话

人估计分数分布,即为本章第三节提出的基于离线增强阈值有效性的决策方法。

相对于上述归一化方法为注册说话人估计分数分布,另一种思路是为测试语音

估计分数分布,即为当前测试语音估计其对参考说话人模型的分数分布。估计分数

分布时,可以从参考说话人模型中选择与声称说话人模型最近的参考说话人子集,

并基于该子集估计测试语音的分数分布,称这种方法为参考说话人选择方法。常规

参考说话人选择方法,比如基于 KL 距离的参考说话人选择方法并未考虑测试语音

的语速。因此本章第四节从语速角度出发,提出基于相对语速的参考说话人选择方

法,该方法计算当前测试语音及声称说话人与参考说话人模型之间的欧氏距离,选

择最近的 K 个参考说话人子集,基于该子集估计分数分布并进行归一化,由于该方

法在测试阶段选择参考说话人并估计分数分布,因此我们称之为在线增强阈值有效

性的决策方法。

下面首先介绍分数归一化方法,然后分别介绍提出的两种语速鲁棒的决策方法。

5.2 分数归一化方法简介

说话人确认经过数十年的研究,如今能够达到相当好的性能。然而,达到这种

性能的前提是有足够并高质量的注册语音和测试语音,并且注册语音和测试语音的

声学条件需相互匹配[43,85]。当注册语音和测试语音失配时,识别系统性能将会出现

下降。这里的失配指的是注册语音和测试语音在噪音、信道、语言和说话风格等方

面的不同。

上述失配中信道失配是常见的现象,学者们对此提出了诸多解决方法,其中在

Page 64: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

53

分数域研究者们提出的是分数归一化方法,其主要思想是利用信道信息通过归一化

方法将说话人确认系统返回的分数归一化到能够容易比较的分数,以便增强决策时

选定的阈值有效性,减少说话人相关和说话人无关因素对语音信号导致的不利影响。

这些方法被称为分数归一化方法[86]。在分数归一化(score normalization)方法中,

一般选择来自不包含在测试集中的说话人语音组成参考集合(cohort set),估计参

考集中语音对每个注册说话人打分的分布。在测试时,对测试语音的分数基于预先

估计好的分数分布进行归一化。分数归一化方法中,零归一化(常称之为 Z-norm,

zero normalization)和测试归一化(常称之为 T-norm, test normalization)是其他分

数归一化方法的基础,而 HT-norm(Handset Test normalization)方法针对不同的信

道(handset)估计分数分布。

Z-norm 方法选择一个来自参考说话人的语音数据集,一般称该数据集为 cohort

集。当一个说话人注册系统时,在建立说话人模型的同时,计算 cohort 集中所有参

考说话人语音在该说话人模型上的分数,估计分数的分布,这个分布与该说话人模

型一并存储。在测试阶段,测试语音在某一个目标说话人模型上测试时,利用声称

说话人模型对于参考说话人语音的分数分布参数对测试分数进行归一化。一般采用

均值方差归一化方法对分数进行修改:

𝑍 =𝑆 − 𝜇𝑖

𝜎𝑖

其中𝑆为系统返回的分数,该分数通常为测试语音在说话人模型和 UBM 模型上的

打分似然比;𝜇𝑖和𝜎𝑖为识别分数𝑆所对应的目标说话人对于 cohort 集合中的语音的

测试分数均值和方差。

T-norm 方法的思路基本与 Z-norm 方法相似,其区别是分数分布的估计方法不

同。在 T-norm 方法中,对每一个测试语音估计其在 cohort 集合中的参考说话人模

型上的分数分布。因此 T-norm 方法中的分数分布与每一个测试语音相关的,是在

线估计分布,而 Z-norm 方法中分布是与目标说话人相关,是离线估计分布。

H-norm 方法又称为信道归一化(Handset normalization),该方法实际为 Z-norm

方法,区别是对每一种信道估计分数分布,即对目标说话人对 cohort 集合中的每一

种信道下的语音估计其分数分布,在根据测试语音的信道选择相应的信道分布对识

别系统返回的分数进行归一化。如果所选择的参考集合中包含不同语速的语音,则

能够有效估计说话人在不同语速下的分数分布,进而对得分进行归一化,减少语速

变化对说话人确认的影响。

本文借鉴 H-norm 和 HT-norm 方法,提出针对语速变化条件下用于增强阈值有

效性的决策方法。主要思想有两种,一种是选择包含不同语速的语音作为参考集合,

基于相对语速对参考集语音进行划分。注册阶段对每个说话人估计对每类参考语音

Page 65: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

54

的分数分布(离线进行),根据该分布对测试分数进行归一化。另一种是语速相关

参考说话人选择方法,是一种在线进行归一化的方法。

5.3 基于离线增强阈值有效性方法的决策方法

说话人确认系统中的决策是基于识别器返回的分数进行的,然而当语速改变时

该分数也随之发生变化,降低了用于决策的阈值有效性。如果从语速出发,归一化

测试分数,使之能够容易被对比,即选择一个有效性较高的阈值进行决策。因此,

本文通过合理组织数据并运用分数归一化方法,提出全局语速归一化和局部语速归

一化两种方法,用于增强阈值有效性。

5.3.1 全局归一化方法

全局归一化方法中的参考集合中,每一个说话人包含慢速、正常和快速等三种

语速语音。当说话人注册并登入系统时,参考集中的三种不同语速语音对每个注册

说话人估计其测试分布,该分布与说话人模型一并保存。在测试时对测试语音的识

别分数通过目标说话人对参考说话人语音的分数分布进行分数归一化,如图 5.1 所

示。这种方法基于一个单个归一化分布进行分数归一化,因此我们称之为全局归一

化(global normalization)方法。

估计分数分布是说话人相关的,每个说话人 i 对应一组分布参数{μi, σi},表示

参考集合在该说话人模型上打分的均值与方差。在测试时,对测试语音 u 的分数用

下式进行归一化:

𝑆𝑔𝑙𝑜𝑏𝑎𝑙−𝑛𝑜𝑟𝑚(𝑢) =𝑆(𝑢) − 𝜇𝑖

𝜎𝑖 (5-1)

其中 S(u)为系统返回的分数,通常为对数似然比。

目标说话人模型 测试分数 最终分数

测试语音

闯入者语音(慢速)

闯入者语音(正常)

闯入者语音(快速)

参考说话人语音集

登入说话人模型集合(GMM、均值、方差)登入说话人模型集合(GMM)

注册

测试

图 5.1 全局归一化方法

Page 66: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

55

5.3.2 局部归一化方法

考虑到全局归一化方法中忽略参考集中语音的语速值,统一进行归一化的缺点,

我们对参考集合中的语音按照其语速进行分类,估计每一个目标说话人对每一类参

考语音分数分布。当测试一条语音时,根据其相对语速选择相应分数分布进行归一

化,如图 5.2 所示,我们称这种方法为局部归一化(local normalization)方法。

首先,以语速划分参考集,得到若干针对不同语速的参考子集。对一个注册说

话人 i,在每个参考子集上进行分数分布估计,得到一组分布参数{μik, σi

k},其中 k

代表第 k 个参考子集。基于该组参数,局部归一化的公式为:

𝑆𝑙𝑜𝑐𝑎𝑙−𝑛𝑜𝑟𝑚(𝑢) =𝑆(𝑢) − 𝜇𝑖

𝑘(𝑢)

𝜎𝑖𝑘(𝑢)

(5-2)

其中 k(u)为测试语音 u 以其相对语速所属的参考子集。实际计算中,首先以说话人

语速为基准,根据公式(2-2)计算测试语音的相对语速,然后根据语速值选择参

考子集,并基于对应归一化参数进行分数归一化。

目标说话人模型 测试分数

最终分数

参考说话人语音语速

相对语速

注册

测试

登入说话人语速

GMM模型

均值_i

方差_i

登入说话人

i=1,2...N

测试语音语速

目标说话人语速

相对语速 归一化参数(均值_k和方差_k)

测试语音

图 5.2 局部归一化方法

5.3.3 实验

5.3.3.1 实验数据

本节实验仍然基于本文自行录制的 CSLT-SPRateDGT 数据库进行。同样,数据

库分为 2 个部分,第一部分由 15 个人的语音数据组成,每个人有正常语速语音、

慢速语音和快速语音,共有 1,110 条语音,该集合作为参考集合(cohort 集),用于

Page 67: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

56

估计分数分布参数,即均值和方差。第二部分为测试集,用于测试说话人确认系统

的性能,由 11 个人的语音数据组成,3 种语速测试,每种测试有 275 条语音,语音

混合测试共有 825 条语音。

5.3.3.2 实验配置

基线系统采用 GMM-UBM 框架构建。60 维梅尔倒谱系数作为声学特征,包括

20 位静态特征及其 40 维动态特征(20 维+20 维),提取的 MFCCs 特征经过均

值和方差归一化以便消除信道效应。基于能量的语音端点检测方法用于去除静音部

分。通用背景模型(UBM)通过 EM 算法训练得到。说话人模型采用高斯混合模

型,用说话人自己的注册语音从 UBM 通过自适应算法(MAP)得到,在自适应时,

只更新 UBM 的均值。

实验中,除了对正常、快速和慢速 3 种语速语音进行分开测试外,还将 3 种语

速语音混合后进行测试。每种语速单独测试有 3,025 次测试,混合测试总共有 9,075

次测试,实验通过 Kaldi[76]工具包构建。

全局归一化方法中,对测试集中的 11 个说话人,注册时估计其对参考集合中

的语音的分数分布,计算均值和方差,与说话人高斯混合模型(GMM)一并保存。

在测试时,对确认系统返回的分数,无论是何种语速语音,根据当前测试的目标说

话人对参考集合的分数分布进行分数归一化。

局部归一化方法中,以测试语音与目标说话人的相对语速选择相应的参考子集,

以该子集对应的分数分布参数进行归一化。本文对参考集合中的语音以相对语速分

为如下 4 个子集:(0-0.6; 0.6-1.7; 1.7-2.3; >2.3)。根据该子集划分,对每个说话人估

计 4 种分数分布参数,测试时根据测试语音的相对语速,选择合适语速区间和对应

的分数分布参数进行归一化。

5.3.3.3 实验结果

表 5.1 给出实验结果。可以看出注册和测试语速均为正常语速时得到较好等错

误率,而当测试语音语速为快速或慢速时,等错误率急剧下降,尤其是慢速语音。

除了 3 种语速语音单独测试外,不同语速语音混合测试的等错误率较高。由于该混

合测试集中包含 3,025 次慢速语音测试和 3,025 次快速语音测试,这些测试导致了

EER 上升。考虑到实际应用场景中不可能有测试语音语速标记,因此本文选取不同

语速语音混合测试作为本文的基线系统,即表 5.1 中的最后一行混合语速测试结果

作为基线系统结果。

Page 68: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

57

表 5.1 基线系统识别结果

注册语速 测试语速 EER (%)

正常 正常 2.55

正常 快速 5.09

正常 慢速 7.64

正常 混合 5.46

表 5.2 语速归一化方法与基线系统对比

注册语速 测试语速 EER (%) EERR (%)

基线系统 正常 混合 5.46 -

全局归一化 正常 混合 4.49 17.77

局部归一化 正常 混合 5.21 4.58

全局归一化方法和局部归一化方法的实验结果如表 5.2 所示。从表 5.2 可以看

出,全局归一化方法明显降低了确认等错误率,等错误率相对下降 17.77 %,而局

部归一化方法效果不明显,等错误率相对下降 4.58 %。理论上,根据测试语音相对

语速进行更加细致的归一化应该更有效果,但因为我们所用的数据有限,当对这些

有限数据进行子集划分时,相应子集中的数据更少,导致数据稀疏问题,由此估计

的分数分布不能准确刻画相应参考语音的分数分布。可以想象,如果每一子集中的

语音数据足够充分,则局部归一化方法性能应该好于全局归一化方法。

解决数据稀疏问题的直接途径是采集更多的语音数据,保证不同语速语音有充

足的训练数据。然而语音采集工作耗时耗力,不是解决数据稀疏问题的有效方法。

本文通过信号处理工具,对原始语音进行速度调整,从而自动生成大量不同语速的

语音,由此扩展参考集合。实验中,我们首先选择开发集中正常语速语音(共计

370 条),然后设定比例因子,生成相对于原始正常语速语音较快或较慢的语音。

当比例因子小于 1 时,生成相对于原始语音较慢的语音,大于 1 时生成相对于原始

语音较快的语音。

在设定比例因子时,以 0.4 作为起点,以 0.1 作为区间长度,以 2.6 作为终点,

在特定区间中生成服从均匀分布的 370 个比例因子值,然后根据这些比例因子值生

成不同语速的语音,生成语音共计 8,140 条,与原始 1,110 条语音一起总共有 9,250

条参考语音。基于这一扩展的参考集合,采用全局归一化方法和局部归一化方法,

得到的识别结果如表 5.3 所示。

Page 69: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

58

表 5.3 基于扩展的参考集合的归一化结果

参考集合语音数目 EER (%) EERR (%)

基线系统 - 5.46 -

全局归一化 1,110 4.49 17.77

局部归一化 1,110 5.21 4.58

全局归一化 9,250 3.88 28.94

局部归一化 9,250 3.64 33.33

从表 5.3 可以看出,对原始参考集通过自动语音生成进行扩展后,局部归一化

方法性能优于全局归一化方法(3.64 和 3.88),全局归一化方法性能也比原先参考

集合下的归一化效果好很多。两种方法提高了基线系统性能,等错误率分别相对减

少 28.94 %和 33.33 %。

5.3.4 小结

本节通过分数域语速归一化方法降低语速变化对说话人确认的影响,提出了用

于离线增强决策阈值有效性的全局和局部两种分数归一化方法,并针对局部归一化

方法中出现的数据稀疏问题,通过人工生成语音的方式解决了划分参考集时出现的

数据稀疏问题。实验证明,经过上述归一化方法和数据扩展方法,说话人确认在复

杂语速条件下的等错误率可相对减少 33.33 %。本节研究方法存在与第 4 章相同的

问题,即需要研究如何对不同说话人科学划分不同的语速区间,以便更加准确的估

计说话人对不同语速语音的分数分布特性。

5.4 基于在线增强阈值有效性的决策方法

如前一节所述,分数归一化通过说话人模型的分数分布对说话人确认系统输出

的分数进行映射,以便增强决策时选定的阈值有效性,减少说话人相关和说话人无

关因素对语音信号导致的不利影响。无论是哪一种归一化方法,均基于一个预先设

定好的参考集合(cohort set)估计分数归一化参数,参考集合中的语音或模型决定

了归一化参数,因此参考集合的选择显得尤为重要。

学者们对参考集合选择进行了一系列研究。D. E. Sturim 等学者针对 T-norm 方

法提出了基于数据驱动的说话人自适应参考说话人选择方法,尝试找出与目标说话

人分数分布相近的 T-norm 参考说话人模型[87]。该方法中,预先设定好 N 个参考说

话人,测试语音同时在参考说话人模型和目标说话人模型上打分,根据街区距离

(city-block distance)计算向量距离,最终选择 K 个最近的模型作为用于估计归一

Page 70: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

59

化参数的模型集合。实验结果表明该方法相比于传统的 T-norm 方法提供了较低的

等错误率。

另外,Daniel Ramos-Castro 等学者从 T-norm 方法出发,从设定好的参考集合

中基于 K-L 距离选择子集,作为估计归一化参数的集合,作者称该方法为

KL-Tnorm[88]。基于 NIST 2005 说话人识别测试集上的实验表明,该方法稳定提高

了说话人识别系统的性能。

同样,Kiran Ravulakollu 等学者同时研究了 Z-norm 方法中的参考说话人语音选

择和 T-norm 方法中的参考说话人模型选择方法[89],通过说话人模型聚类来引导参

考说话人语音和模型的选择,实验表明该方法性能超过传统 Z-norm和T-norm方法。

上述参考集合选择方法均有各自的出发点和优点。然而,当我们确定了语速对

说话人确认的影响,即便测试语音语速没有明显发生改变,我们认为语速仍然对确

认具有一定影响,因此在分数归一化方法中选择参考集合时应考虑语速,在计算参

考集合和目标说话人之间的距离时需要将语速因素考虑在内。本节对现有参考集合

选择方法进行分析后,从本文研究目标-语速问题出发,提出了基于相对语速的参

考说话人(闯入说话人)选择方法。由于该方法采用语速相关欧氏距离,因此首先

介绍欧氏距离。

5.4.1 欧氏距离

相似度度量准则衡量的是两个对象之间的相似程度,在机器学习领域中,相似

度度量准则度量的是对象特征各维度之间的距离。较为常用的相似度度量方法有欧

氏距离(Euclidean distance)、余弦距离(Cosine distance)和马氏距离(Mahalanobis

Distance)等,其中欧氏距离(Euclidean distance)是最为常用的距离度量方法,平

时人们提起的距离一般指的就是欧氏距离。欧氏距离是一种简单有效的距离度量方

法,描述的是欧氏空间中的两个点之间的直线距离。

设n维欧氏空间中的两个点分别为 a=(a1,a2,…..,an)和b=(b1,b2,…..,bn),设dist(a,b)

为 a 和 b 之间的欧氏距离,则按如下公式计算 a 和 b 之间的欧氏距离:

𝑑𝑖𝑠𝑡(𝑎, 𝑏) = √(𝑏1 − 𝑎1)2 + (𝑏2 − 𝑎2)2 + ⋯ + (𝑏𝑛 − 𝑎𝑛)2

= √∑(𝑏𝑖 − 𝑖)2

𝑛

𝑖=1

(5-3)

n 维欧氏空间的一个点的位置用源自原点的一个向量描述,一般较为常用的是

在 2 维空间中度量两个点的距离:

𝑑𝑖𝑠𝑡(𝑎, 𝑏) = √(𝑏1 − 𝑎1)2 + (𝑏2 − 𝑎2)2 (5-4)

Page 71: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

60

距离越小表示 a 和 b 越相近。二维空间中的欧氏距离描述的是连接两个点的直

线距离。在机器学习领域中的很多算法中,比如聚类算法中,默认的较为常用的距

离度量准则即为欧氏距离,也是本小节中的提出的方法中采用的距离度量准则。

5.4.2 基于相对语速的参考说话人选择方法

在 T-norm 方法中, 首先每一条测试语音对参考集合中的参考说话人模型打分

并计算归一化参数,然后对目标说话人模型的测试分数通过估计的归一化参数进行

归一化,如图 5.3 所示。

目标说话人模型 测试分数 最终分数

测试语音闯入者模型

闯入者模型

闯入者模型

参考说话人模型集合

分布估计 均值和方差

图 5.3 T-norm 示意图

5.3 节中提出的方法由不同语速语音组成参考集,然而对于 T-norm,我们不可

能改变参考说话人的建模语音语速,因为改变建模语音语速将会影响参考说话人模

型,不能准确刻画参考说话人特性,同样注册说话人注册语音语速也不能改变。因

此只能从参考集合中选择与测试语音语速相近的参考说话人并进行归一化。

当测试语音的语速发生了变化时,说话人确认系统返回的分数也会发生变化,

同样测试语音对参考说话人模型的分数分布也会发生变化。虽然系统返回的分数体

现了语速的变化,但是参考集合中哪些模型能够更加准确描述测试语音语速变化时

的分数分布,因此可以从语速的角度选择与测试语音相近的子参考说话人集合并进

行分数归一化,即基于语速的参考说话人选择,如图 5.4 所示。

基于相对语速的距离计算 K个最近的参考说话人

闯入者模型

闯入者模型

闯入者模型

N个参考说话人模型

目标说话人模型 测试分数

分布估计(均值和方差)

归一化分数

测试语音

图 5.4 基于相对语速的参考说话人选择方法

记测试语音为 utt,目标说话人模型为 tgt,第 i 个参考说话人模型为 imp_i,测试

分数记为 S,相对语速记为 RS。测试语音 utt 对目标说话人 tgt 和参考说话人模型

Page 72: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

61

imp_i 的测试分数分别记为 Sutt2tgt 和 Sutt2imp_i,测试语音 utt 相对于目标说话人 tgt 和

参考说话人模型的相对语速分别记为 RSutt2tgt 和 RSutt2imp_i,那么我们得到两个二元

组,分别为(RSutt2tgt,Sutt2tgt)和(RSutt2imp_i,Sutt2imp_i)。这两个二元组描述测试语

音在相对语速和测试分数两个方面的特征,由此我们得到测试语音 utt 和目标说话

人到第 i 个参考说话人之间的基于语速的欧氏距离定义 disti(utt,tgt,imp)如下:

𝑑𝑖𝑠𝑡𝑖(𝑢𝑡𝑡, 𝑡𝑔𝑡, 𝑖𝑚𝑝) = √(𝑅𝑆𝑢𝑡𝑡2𝑡𝑔𝑡 − 𝑅𝑆𝑢𝑡𝑡2𝑖𝑚𝑝_𝑖)2 + (𝑆𝑢𝑡𝑡2𝑡𝑔𝑡 − 𝑆𝑢𝑡𝑡2𝑖𝑚𝑝_𝑖)2 (5-5)

根据公式(5-5),计算当前测试语音和目标说话人到每个参考说话人之间的距

离,并根据距离选择 K 个与当前测试语音和目标说话人最近的参考说话人并由此 K

个参考说话人估计测试语音的分数分布。

本文认为测试语音即便没有刻意改变语速,由于不同说话人的语速不同,因此

语速的影响仍然存在,因此本文首先对 CSLT-SPRateDGT 中正常语速下的测试语音

测试本文提出的基于相对语速的参考说话人选择方法性能,然后测试混合语速下的

确认性能。为了与常规的基于 KL 距离的参考说话人选择方法相对比,本文同样给

出 KL-Tnorm 方法的测试结果,其中 KL 距离按照如下公式进行计算:

𝑑𝑖𝑠𝑡𝑘𝑙 = ∑𝑤𝑖

𝑡𝑔𝑡

2

𝐶

𝑖=1

[(𝜇𝑖𝑡𝑔𝑡

− 𝜇𝑖𝑖𝑚𝑝)

𝑡(𝛴𝑖

𝑡𝑔𝑡)−1(𝜇𝑖

𝑡𝑔𝑡− 𝜇𝑖

𝑖𝑚𝑝)] (5-6)

其中,C 为 GMM 模型混合数,𝑤、𝜇和Σ分别为对应 GMM 模型的权重、均值

和方差。

5.4.3 实验

5.4.3.1 实验数据

UBM 训练数据、开发集与 5.3 节实验相同,其中开发集用于确定所选择的参

考说话人数目(即 K 的值)。参考集由不同于 CSLT-SPRateDGT 声纹库的另一批 141

个说话人组成。测试集有两种,一种是来自 CSLT-SPRateDGT 声纹库中 11 个说话

人的 275 条正常语速测试语音,第二种是来自这 11 个人的 825 条三种语速语音。

5.4.3.2 实验配置

实验配置与 5.3 节实验相同,即 60 维 MFCCs 特征,2048 混合 UBM,自适应

得到说话人 GMM 模型,本节共进行了 4 种实验。

第一个实验为基线系统,基于测试集进行确认测试,测试语音为来自 11 个人

的 275 条语音,均为正常语速语音,测试数共为 3,025。

第二个实验为基于 T-norm 的分数归一化方法。首先估计测试语音对所有参考

Page 73: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

62

说话人的分数分布,然后根据分数分布对测试语音测试分数进行归一化。

第三个实验为基于 KL-Tnorm 的分数归一化方法。与第二个实验不同的是估计

测试语音分数分布时,先为每一个注册说话人根据公式(5-6)计算其与参考说话

人之间的 KL 距离,选择 K 个最近的参考说话人用于估计测试语音的分数分布。

第四个实验为基于本文提出的基于相对语速的参考说话人选择方法(记为

SPR-Tnorm)进行说话人确认实验。首先计算当前测试语音对目标说话人和参考说

话人的测试分数,然后计算当前测试语音相对于目标说话人和参考说话人的相对语

速,根据公式(5-5)计算距离,根据距离选择 K 个最近的参考说话人对当前测试

语音测试分数进行归一化。

5.4.3.3 实验结果

在 KL-Tnorm 和 SPR-Tnorm 方法中需要确定被选择的参考说话人个数,即 K

的值。于是本文首先基于开发集采用 KL-Tnorm 和 SPR-Tnorm 两种方法进行说话人

确认实验,K 的值以 5 为步长,从 25 到 140 逐一进行测试,观察两种方法等错误

率,如图 5.5 所示。

图 5.5 不同 K 值与 EER 的关系

从图 5.5 可以看出,K 值在 50 和 100 之间,两种方法的等错误率基本稳定并相

同,因此本文选择 50、75 和 100 等三种 K 值进行测试。确定 K 值后的实验结果如

表 5.4 所示。

Page 74: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

63

表 5.4 基于相对语速的参考说话人选择方法实验结果(正常语速测试)

方法 测试语音语速 距离准则 K EER (%) EERR (%)

基线系统 正常 - - 2.55

T-norm 正常 - 141 1.82 28.63

KL-Tnorm 正常 KL-divergence

50 2.18 14.51

75 1.82 28.63

100 1.82 28.63

SPR-Tnorm 正常 Euclidean

50 1.46 42.75

75 1.82 28.63

100 1.82 28.63

从表 5.4 可以看出 T-norm 和 KL-Tnorm 方法均提高了确认性能,最好情况下等

错误率相对下降 28.63%。这两种方法忽略测试语音语速,估计分数分布并归一化。

然而 SPR-Tnorm 方法中引入了测试语音及目标说话人与参考说话人的相对语速,

此时根据当前测试语音和目标说话人的语速选择当前最佳的参考说话人并进行归

一化,实验结果表明 SPR-Tnorm 方法性能优于 T-norm 和 KL-Tnorm 方法,等错误

率相对下降 42.75%。

表 5.5 基于相对语速的参考说话人选择方法实验结果(混合语速测试)

方法 测试语音语速 距离准则 K EER (%) EERR (%)

基线系统 混合 - - 5.46

T-norm 混合 - 141 5.46

KL-Tnorm 混合 KL-divergence

50 5.58

75 5.09 6.78

100 4.85 11.17

SPR-Tnorm 混合 Euclidean

50 4.49 17.77

75 4.36 20.15

100 4.49 17.77

为了验证 SPR-Tnorm 方法在语速明显出现变化时的性能,本文基于混合语速

测试集重新实现上述表 5.4 中的实验。实验中,注册语音语速保持不变,即正常语

速,而测试语音包含 CSLT-SPRateDGT 中的快、慢和正常三种语速语音,共计 825

Page 75: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 5 章 基于增强阈值有效性的决策方法

64

条测试语音,每种语速语音为 275,测试数共为 9,075,实验结果如表 5.5 所示。

从表 5.5 可以看出,当测试语音语速发生变化时,T-norm 方法性能与基线系统

相同,KL-Tnorm 方法在 K 为 100 时性能最佳,等错误率相对下降 11.17%。而本文

提出的 SPR-Tnorm 方法在 K 为三种取值情况下,性能均优于基线方法和 KL-Tnorm

方法,在 K 为 75 时等错误率相对下降 20.15%,这表明 SPR-Tnorm 方法对语速明

显变化具有更强的鲁棒性。

5.4.4 小结

在说话人确认系统中,无论语速是否发生变化,由于语速具有说话人相关性,

语速仍然影响着系统性能。为此本节提出在线增强阈值有效性的决策方法,基于相

对语速的参考说话人选择方法归一化测试分数,提高阈值有效性。由于本节中的声

纹库规模小,因此将来需要在更大规模的测试集上验证本节提出的方法有效性。

5.5 总结

本节从分数域入手,总结现有 Z-norm、H-norm、HT-norm 和 T-norm 方法特点,

针对语速问题,提出了增强决策阈值有效性的决策方法。其基于参考语音集和参考

说话人模型,分别以离线和在线的方式,进行了分数归一化。实验结果表明,该方

法可有效提高系统的语速鲁棒性。同时,在线增强决策阈值有效性的决策方法,即

便在语速不发生变化的情况下,也对系统性能有提升作用。

Page 76: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 6 章 总结与展望

65

第6章 总结与展望

6.1 研究内容总结

经过数十年的研究,说话人确认技术取得了令人满意的识别效果,其应用范围

越来越广泛。然而,当说话人确认技术从研究走向实际应用时却面临诸多挑战。当

说话人确认系统中的注册语音和测试语音足够并且语音质量高时,确认性能就能够

令人满意。当注册与测试之间存在各种失配时,性能将会下降,比如环境噪音和说

话人自身状态及情感等因素均为在实际应用中需要考虑的因素。在这些因素当中语

速变化是一种特殊的变化因素。本文针对说话人确认中的语速鲁棒性问题进行了初

步的研究,提出了针对语速变化问题的鲁棒性方法,为说话人确认中语速鲁棒性研

究奠定了基础。

本文的主要研究内容体现在以下几个方面:

1) 根据说话人确认特点和语速变化具有内容和说话人相关性,不能简单地用

常规语速衡量方法衡量说话人确认中的语速,因此定义了相对语速。本文以目标说

话人的语速作为参考基准,决定测试语音相对语速。

2) 设计并录制了用于研究说话人确认中的语速鲁棒性问题的声纹数据库。对

于任何一种研究,数据库是前提,对说话人确认更是如此。对于语速变化问题,除

了欲要研究的因素外,其余因素应该尽量保持不变,这样才能够研究单个因素对确

认的影响。然而目前没有适合于本文研究的声纹库。现有部分声纹库除了语速外,

还有其他信道和时变等因素在发生变化。另外一部分声纹库虽然符合本文研究,但

是均为内部数据库,因此无法获取。针对此种情况,本文录制了自己的专门用于语

速鲁棒性研究的数据库 CSLT-SPRateDGT。数据库以尽量保证单一因素(语速)发

生变化为录制原则,基于该录制原则,在录制时,除了语速以外的周围环境因素、

采集设备、发音人自身状况和发音内容等其他因素基本保持不变,保证了数据库的

可用性。

3) 提出了基于最大似然线性回归的声纹特征映射方法。针对在对慢速语音和

正常语速语音特征进行可视化分析后发现的特征偏移现象,提出基于最大似然准则

的特征映射方法。其通过 GMM-UBM 模型,通过刻画正常语速和慢速语音下的语

音特征偏移,训练线性映射矩阵,完成特征映射。由于映射方法在特征域进行映射,

因此可以应用到使用相同特征的其他任何系统。

4) 提出了基于深度语速学习的特征补偿方法。利用深度学习的抽象特征提取

和层次化表示能力,定义不同语速类,以分类任务为目标,构造深度神经网络,通

Page 77: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 6 章 总结与展望

66

过训练学习出不同语速类之间的不同之处,将原始特征映射到高维空间,降维后得

到纯语速向量,并与 MFCC 特征拼接在一起进行说话人确认。

5) 提出了基于联合因子分析的本征语速矩阵训练方法。本文将语音对应的超

向量分解为说话人本征因子(EigenVoice factor)、语速因子(EigenSpeed factor)和

残差因子(Residual factor),基于联合因子分析方法训练本征语速矩阵,并提取语

速因子。测试时,抛弃语速因子,基于说话人本征因子和残差因子进行说话人确认,

得到了语速鲁棒的模型。

6) 提出了基于离线增强阈值有效性方法的决策方法。考虑到语速变化会对说

话人确认系统的置信分造成影响,本文在分数域,对分数按语速进行了归一化。首

先,对于每个注册到说话人确认系统的说话人,根据选定的闯入者集合,进行分数

分布估计,其中闯入者集合包含不同语速下的语音。在识别阶段,根据目标说话人

的分数分布,对测试语音的识别分数进行归一化。归一化方法有两种,第一种是全

局归一化,即不考虑具体语速,采用单一分布进行归一化;第二种是局部归一化,

即按照语速分别估计分数分布,再根据测试语音的语速选择相应的分布进行归一化。

实验表明,两种归一化方式均能增强阈值有效性,且采用数据增强的方式,能进一

步提升系统性能。

7) 提出了基于在线增强阈值有效性的决策方法。首先,基于相对语速和测试

分数,计算目标说话人和参考说话人之间的距离。然后,选择与目标说话人最近的

K 个参考说话人,并基于所选择参考说话人子集,进行分数分布估计。最后,利用

计算得到的分数分布估计,进行语速归一化。研究表明无论语速是否发生变化,提

出的方法性能优于传统的 T-norm 方法和基于 KL 距离的参考说话人选择方法。

6.2 未来工作展望

本文初步研究语速变化对说话人确认的影响,分别在特征域、模型域和分数域

提出了减少语速影响的方法。提出的方法性能在自行录制的 CSLT-SPRateDGT 语速

声纹库上得到了验证。然而本文的研究也存在一些不足之处,针对存在的不足之处,

对语速鲁棒性问题研究给出如下展望:

1) CSLT-SPRateDGT 语速声纹库目前包含的说话人人数较少,需要进一步扩

充人数和每个人的语音条数。收集更多的数据就能够覆盖更多人在语速变化情况下

的特征变化。

2) 本文提出的特征映射方法较简单,未考虑具体语速,对所有特征基于单个

映射矩阵进行特征映射。这是由于当前的训练数据量不足以支持更复杂的方法研究。

未来可针对不同语速下的语音特征,设计并训练不同的映射方法。

3) 基于联合因子分析的本征语速矩阵训练方法中,目前对用于训练本征语速

Page 78: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

第 6 章 总结与展望

67

矩阵的训练数据的组织方式,是根据经验划分的语速区间进行的。未来可寻找更加

科学的组织数据的方法,以便更加准确地对语速进行补偿。

4) 本文未研究语速变化对不同频带的影响。未来可对频带进行分析,寻找说

话人区分性高而对于语速较为稳定的频带,利用这些频带中的声纹特征进行说话人

确认。

5) 未来研究中,需要测试本文提出的方法在不同数据库上的性能,做进一步

分析提出的方法适用性。

6) 语速是语音韵律的重要层面,语速变化会引起发音过程其他因素如共振峰,

基频等变化,未来将进一步加强此方面的研究工作。

Page 79: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

附录 说话人确认中的语种鲁棒性问题研究

68

附录 说话人确认中的语种鲁棒性问题研究

1. 引论

本学位论文研究期间,对说话人确认中语种鲁棒性问题也进行了相应的研究。

说话人确认任务中,当注册语音和测试语音或者背景模型与注册/测试使用不同的

语言时会导致性能降低。这种性能降低很大程度上由不同的语言中不同声学特征分

布造成的。

当今社会为信息化的时代,随着经济全球化时代的到来,世界各国之间开始促

进语言文化交流,多种民族开始聚集生活在一起,日常生活中人们开始用多种语言

交流,比如英语逐渐成为国际化的语言,人们能够用自身的母语和英语相互交流。

又如我国西北新疆维吾尔自治区有几十个民族居住在一起,维吾尔族人即能够用维

吾尔语交流,也能够用国家通用语言汉语与别人沟通。

随着在日常生活、教育、文化和科技等方面的深入交流,本民族语言不断接受

来自其他语言的各种新术语。日常口语中的一整句中含有若干其他语种的若干单词,

有时甚至整个句子是其他语种的。不仅在日常口语,在书面语也逐渐出现多语种的

现象,因此学术界开始重视语种问题,研究者开始研究适合于多语种的方法和系统。

比如多语种语音识别、跨语种语音识别、多语种和跨语种语音合成系统、语种识别、

机器翻译等等,语种问题成为学术界研究重点。

说话人确认中语种不匹配通常有两种。第一种不匹配是在当说话人注册语言和

测试语言为不同种语言的时候发生的。语言不匹配这种现象通常发生在掌握多种语

言的人群。第二种是背景模型的语种与注册/测试语种不匹配,一般在说话人确认

系统从一种语言迁移到另一种语言时出现这种不匹配。例如,在中国的新疆维吾尔

族自治区,许多人群同时掌握中文普通话和维语两种语言。当这些人使用说话人确

认系统的时候,很可能出现注册使用维语而测试使用中文普通话的情况。这种不匹

配导致确认系统性能的降低。考虑到存在大量的双语使用者,跨语言的说话人确认

研究在实际应用中具有较大的现实意义,例如公共安全、司法取证、访问控制等方

面都具有广泛的应用意义。

目前,说话人确认系统大多基于统计模型,例如本文采用的概率统计模型--高

斯混合模型-通用背景模型(GMM-UBM)的方法。概率统计模型中的一个基本假设

是登入和测试的声学特征符合相同的分布。当注册语音和测试语音采用不同语种时,

即跨语言的情况下,这种假设是不成立的。

双语和跨语言的说话人确认研究尚处于初步阶段。早期关于语种失配研究主要

Page 80: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

附录 说话人确认中的语种鲁棒性问题研究

69

是观察语种对说话人确认的影响。学者们通过实验表明,当 UBM 使用一种语言训

练而说话人模型使用另一种语言训练时,确认性能降低。而当 UBM 的训练语料中

加入说话人模型中对应的语言语料时,性能降低幅度将会变小。

另外,学者们使用 RPCC,GLFCC 等语言无关的特征进行说话人确认,这些特征

受语音语言内容的影响较小,所以它们适用于语种不匹配条件的说话人确认。

再有学者们通过因子分析方法解决跨语言的问题。因子分析方法把语言作为一

种潜在的变量,并在识别阶段通过边缘化该变量减少语种失配对确认的影响。Liang

Lu 等人采用了相似的方法,但是他们在一个更加完善的贝叶斯框架下研究了语种问

题。他们使用联合因子分析的方法(JFA)把语言作为一个潜在的因子表示。这个

语言因子在说话人注册和测试的时候被估计出来并进行相应的补偿。

几乎以上提到的所有方法都假设说话人在注册时的语音数据语种覆盖测试时

的所有语种,这很难在实际中得到完全满足。在司法认证的应用中,有时罪犯会故

意隐藏他们的个人信息,他们使用某种语言去注册,并使用另一种语言去确认识别。

这在说话人确认领域里就是一个典型的跨语言问题,这个问题用现有的方法很难被

解决。

本文从特征域和模型域两个方面出发研究说话人确认中的跨语言问题。在特征

域提出一种线性变换的方法来处理跨语言问题,基本思路是训练出一种在声纹特征

上从一种语言到另一种语言的映射变换,然后在注册语音或者测试语音上通过这种

映射变换减少语种失配的影响,解决第一种语种不匹配。在模型域,提出了语种察

觉的多语种模型训练方法,在模型训练中引入语种信息,以此减少多语种语料混合

训练导致的概率分散问题,增强模型的区分性能力,解决第二种语种不匹配。

在展开语种鲁棒性研究之前,第一个遇到的问题是缺少双语说话人确认声纹库,

因此本文对现有的双语声纹库进行了调研。调研发现,目前虽然有 CUHK[50]和

Miami[100]等双语声纹库,然而这些声纹库不符合本文研究需求。CUHK 数据库虽然

符合研究语种变化对确认的影响,但是数据库没有被公开,无法获取使用,而且尚

不清楚数据库录制过程中对其他环境因素和个人因素有无进行控制,因此无法用于

本文研究。同样 Miami 数据库也存在相同的问题,而且数据库中含有西班牙语方言,

这也不利于研究语种的变化。

因此本文采用第二章中提出的声纹库录制原则和方案,在实验室环境中,采用

同一部智能手机录制维吾尔语-汉语跨语言语料库。发音人均为来自新疆维吾尔自

治区首府乌鲁木齐市的大学生,录制时发音人录制同一内容的维吾尔语语音和汉语

语音,要求发音人以自然的状态以平常的水平发音非母语语音。

所有的研究在普通话和维吾尔语的跨语言说话人确认的任务上验证本文提出

的方法可行性。语料库采用跨语言语音语料库(CSLT-CUDGT),该语料库中每个

Page 81: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

附录 说话人确认中的语种鲁棒性问题研究

70

说话人都包含标准普通话和维语的平行语音语料。

2. 特征映射方法

2.1 声纹特征分析

在开始研究之前,我们对维吾尔语和汉语两种语言在声纹特征分布上进行了分

析。我们假设语种失配导致的性能下降主要由不同语言中的不同声学特征分布导致。

为了验证该假设,我们首先使用维吾尔语和汉语语音语料训练一个全局 UBM,然

后基于该全局 UBM,分别使用维吾尔语语音和汉语语音通过 MAP 方法自适应出对

应的维吾尔语 UBM 和汉语 UBM。由于自适应时只更新 UBM 均值,两种 UBM 的

高斯分量具有可比性。因此可以通过观察两个 UBM 的均值分析维吾尔语和汉语在

声纹特征分布上的不同。

由于 UBM 均值向量的高维特性,不能直接进行观察,因此我们使用 t-SNE 工

具将均值向量降维到二维空间,如图 1 所示。

图 1 两种语言 UBM 高斯成分均值向量分布对比图

两种 UBM 高斯成分均值向量的分布就代表了两种语言 UBM 的不同。图 1 中,

星号代表汉语 UBM 高斯成分,圆圈代表维吾尔语 UBM 高斯成分。可以看出,两

Page 82: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

附录 说话人确认中的语种鲁棒性问题研究

71

种语言 UBM 高斯成分均值之间出现明显的偏移,这表示当说话人用一种语言下的

语音注册说话人确认系统时,说话人模型很难刻画另一种语言下的语音信号,将导

致性能下降。

2.2 基于最大似然准则的声纹特征映射方法

为了减轻语种失配导致的声纹特征分布差异对确认的影响,一个可行的解决方

案是将语音特征从 A 语言映射到 B 语言,这样一来,映射后的特征可以用于用语

言 B 注册或测试的说活确认任务。然而,不同的语言包含不同的音素集和不同协同

发音特性,因此这种映射是相当复杂的。作为初步的研究,我们忽略不同语言之间

语言学和音素关系之间的差异,并使用线性变换来建立这种两种语言下语音声纹特

征之间的简单映射。

我们选择最大似然准则训练这种线性变换,在特征域从一种语言到另一种语言

进行特征变换。这种线性变换的一个优点是无需增加训练参数数量就能够进行自适

应。该方法的有效性在情感变换方法中已经被得到证实[45],下面简单介绍这种映射。

定义一个变换矩阵 W=[b A],可以使用以下公式(1)对语音信号xi进行特征映

射:

𝑥𝑖′ = 𝐴𝑥𝑖 + 𝑏 = 𝑊𝜉𝑖 (1)

其中,A是旋转矩阵,b是偏置项。ξi = [1 xi]T是扩展的观察矢量。可以通过最

大化以下似然函数对W的进行优化:

𝑄(𝑊; 𝑋, 𝑀) = ∑ 𝑙𝑜𝑔 (𝑝(𝑊𝜉𝑖; 𝑀))

𝑖

(2)

其中 M = {μc, σc}代表用于进行变换的高斯混合模型, p(x; M)是在给定高斯

混合模型 M 的条件下语音信号 x 的概率。优化的过程可以参考文献 M. Gales 等学

者文献[74]。

为了使一种语言的声纹特征变换到另一种语言下的特征,我们需要学习变换矩

阵 WAB,A 代表源语言,B 代表目标语言。首先,使用 B 语言的所有语音数据训练

语言相关的通用背景模型,即 UBMB。用 XA 表示语言 A 下的语音特征,训练变换矩

阵 WAB 的过程就是最小化公式(2)的目标函数。

考虑一个来自语言 A 的测试语音,但是声称的说话人模型使用语言 B 中的语音

训练。 使用以上得到变换矩阵 WAB 使用公式(1)对测试语音进行特征变换。然后,

使用变换后的语音特征在说话人模型上测试打分。这种变换称为“测试变换”。

另一种语言变换的方法是在注册语音上进行的。例如,变换矩阵 WBA应用在语言 B

下的注册语音上,使用变换后的测试语音训练说话人模型,以便与测试语音中的语

种 A 相互匹配,这种变换称为“注册变换”,这两种变换均用于减少注册与测试之

Page 83: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

附录 说话人确认中的语种鲁棒性问题研究

72

间的语种失配。

2.3 实验

为了验证特征映射方法的有效性,本文基于自行录制的维吾尔语-汉语跨语言

语料库进行说话人确认测试,使用经典的 GMM-UBM 说话人确认系统作为基线系

统。声学特征选择梅尔倒谱系数(MFCCs),MFCC 的维数为 60 维,使用谱均值方

差归一化(CMVN)消除信道的影响,。

UBM 使用一个包含大量语料的中文普通话语音语料库训练得到(不同于

CSLT-CUDGT 语音语料库)。我们使用中文普通话语音训练 UBM 是因为中文普通

话语料的获取比维语语音的获取更加容易。

当 UBM 训练完毕后,说话人模型使用 MAP 方法自适应得到。我们使用

CSLT-CUDGT 中的 113 个女性说话人进行实验,使用其中的 64 个说话人的语音进

行注册与测试,其余 49 个说话人的语音用于训练变换矩阵。对于每个说话人,分

别注册中文普通话和维语两个说话人模型。在单语种测试中,注册和测试分别在相

同的语言上进行。然而,在跨语种测试中,注册和测试语音使用不同的语言进行。

每种测试共包含 40,960 次识别测试。测试结果如表 1 所示,测试的评价指标采用

等错误率(EER)。除了基线系统,采用特征映射方法再次进行说话人确认实验,

进行两种变换实验。在“测试变换”中,测试语音通过变换使得与说话人模型的语

种一致;“注册变换”中,对注册语音进行变换,并使其与测试语音的语种匹配,

实验结果如下表 1 所示。

表 1 基于最大似然线性回归的特征变换方法实验结果

变换类型 UBM 语种 注册语种 测试语种 EER(%)

无 汉语 汉语 汉语 2.64

无 汉语 汉语 维吾尔语 14.80

测试变换(Wum) 汉语 汉语 维吾尔语 13.20

注册变换(Wmu) 汉语 汉语 维吾尔语 16.62

无 汉语 维吾尔语 维吾尔语 4.50

无 汉语 维吾尔语 汉语 25.74

测试变换(Wmu) 汉语 维吾尔语 汉语 24.16

注册变换(Wum) 汉语 维吾尔语 汉语 23.30

表 1 中 Wum 表示从维吾尔语到汉语的特征变换。从表 1 可以看出,在跨语种的

情况下,等错误率要明显高于单语种的条件下的等错误率,这表明说话人注册和测

Page 84: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

附录 说话人确认中的语种鲁棒性问题研究

73

试之间的语种失配影响说话人确认性能。而本文提出的特征映射方法能够减少这种

由语种失配导致的性能下降。“测试变换”使得跨语言情况下的识别性能提升,这

种提升是无论是从汉语到维吾尔还是从维吾尔语到汉语均具有一致性,在维语和中

文普通话测试上的等错误相对下降 10.81%和 6.2%。相比之下,“注册变换”的结果

不太稳定,在维吾尔语到中文普通话的注册变换等错误率降低 9.48%,然而在中文

普通话到维语的注册变换等错误率升高。

2.4 小结

基于最大似然准则的特征变换方法能够处理跨语言说话人确认中遇到的语种

失配问题。在中文普通话和维语的平行语料库上进行的实验表明,基于最大似然准

则的特征映射方法在注册和测试语种不匹配时,可以减少说话人确认系统的性能下

降。然而,本文的工作还处于初级阶段,除了单一的特征变换之外,使用其他的变

换方法也许可以获得更大的性能提升,比如基于音素的特征变换。由于训练数据中

存在数据稀疏问题,因此进行更为复杂的特征变换目前无法进行。另外还需要对两

种语言的声纹特征分布进行进一步分析,以便得到更高的系统性能提升,使用更为

复杂的变换方法是必要的也是可行的。

3. 语种察觉(Language Aware)的多语种模型训练方法

3.1 多语种模型训练方法

对于背景模型与注册/测试语种之间的不匹配,一个简单有效的处理的方法是

多语种模型训练,该方法使用多语言的语音数据进行背景模型训练,以此确保全面

覆盖注册和测试语音中的语种。研究表明多语种训练可以在一定程度上能够减少语

种失配带来的性能下降,仅使用一小部分目标语言的语音数据,在多语言环境下,

系统性能也可以得到一定的提升‎[53]。

从模型训练的角度来看,可以从两个方面分析多语种训练带来的影响。一方面,

训练包含了更多的数据并以此生成了更加强大的模型;从另一方面来说,模型覆盖

了多种语言,因此其概率分布不像单语种训练的情况那么集中分布,同时多语种混

合训练会导致“概率分散”(probability dispersion)问题。这是因为通过 MAP 方法

推算的说话人因子分布,为了覆盖多种语言而产生扩充,导致“概率分散”的问题。

在常规多语言的模型训练过程,来自每个说话人的语音数据,无论来自何种语

言,都被看作属于一个单独的类别。虽然这种混合训练能够较好应对多种语言,但

是多语种混合训练必然会降低对特定语言的区分能力。本文提出一种语种察觉

(language aware)的多语种 PLDA 训练方法。该方法的基本思路是在 PLDA 训练

Page 85: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

附录 说话人确认中的语种鲁棒性问题研究

74

中引入语种信息,以便更加有效利用多语种数据。训练 PLDA 模型时把同一个说话

人的不同语种下的训练数据看作不同的类别。通过语种察觉的 PLDA 模型,说话人

的不同语种下的语音用不同的潜在因子(latent factor)表示以便增加区分性能力。

图 2 不同 PLDA 训练方法比较

3.2 语种察觉(language aware)的多语种 PLDA 训练方法

语种察觉的模型训练方法可以解决传统多语种模型训练中存在的概率分散问

题。在语种察觉 PLDA 模型训练过程中,类别是按照说话人和语种定义的。从另一

个角度来说,同一个说话人使用不同语言说出的语音被认为是属于不同的类别。通

过这一简单的变化,PLDA 模型可以在其潜在空间中同时学到说话人和语种的区分

性信息,这就得到了同一个人在不同语言中的高区分性先验知识。语种察觉的

PLDA模型训练方法与单语种 PLDA训练和多语种 PLDA模型训练的区别可以从图

2 看出。

图 2 中,圆圈表示由 MAP 方法估计的说话人因子的分布轮廓。我们使用实线

圈代表由 L1 语言中的语音推算出的说话人因子分布轮廓,虚线圈代表由 L2 语言中

的语音推算出的说话人因子的分布轮廓。在图 2 中的子图(a)中,PLDA 模型使

用 L1 语言的数据训练得到。当推算 L2 语言中的语音对应的说话人因子时,仅用

L1语言的数据训练的 PLDA模型对未知新语言 L2中的语音会导致说话人之间的较

大重叠。而在子图(b)中,PLDA 模型使用 L1 和 L2 两种语言的数据训练得到。

可以看出,在用 L1 和 L2 语言中的数据混合训练的多语言 PLDA 中,尽管注册语

音和测试语音来自不同的语言,说话人之间的重叠消失。子图(c)中 PLDA 模型

用基于语种察觉的方法训练。可以看出这种方法具有同时区分说话人和语种的能力,

同一说话人的不同语种具有高度区分性的后验概率。

需要强调的是基于语种察觉的 PLDA 训练与语言相关的训练是有区别的。在语

言相关的 PLDA 训练中对不同的语言训练不同的 PLDA 模型,然而在语种察觉的

PLDA 模型训练中仅训练单个 PLDA 模型。另外,由于基于语种察觉的 PLDA 模型

仍然是多语种混合训练,因此该方法仍然保留由于使用多语种数据而带来的丰富的

Page 86: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

附录 说话人确认中的语种鲁棒性问题研究

75

统计信息,相对于单语言 PLDA 模型训练出更强大的模型。最后需要指出的是基于

语种察觉的 PLDA训练不能解决注册语音和测试语音之间的失配。从图 2的子图(c)

中可以看出,同一个说话人的来自不同语言的语音的 i-vector 在潜在说话人空间中

的距离明显被拉大,扩大了说话人内部的变异性,因此降低说话人之间的区分性。

3.3 实验

为了验证基于语种察觉的 PLDA 模型训练方法的有效性,本文进行了说话人确

认实验。实验中的语音数据库是本文录制的 CSLT-CUDG 声纹库。

数据库中共包含 181 个说话人,每个说话人包含两条注册语音段,分别用汉语

和维吾尔语录制。181 个说话人被分为两个集合:训练集包含来自 130 个说话人的

2816 条语音。该集合被用于训练 UBM 模型,T 矩阵和 PLDA 模型。剩余的来自

51 个说话人的数据组成了测试集,被用来进行说话人确认测试。在我们之前的研

究中[75],只使用语料库中的女性说话人数据研究语种失配的问题,但是在语种察觉

的 PLDA 模型训练中同时使用男性和女性语音数据。

说话人确认系统采用基于 I-vector/PLDA 框架。语音特征为 20 维的梅尔频率倒

谱系数(MFCCs)加上一阶和二阶统计量。UBM 的高斯混合数设为 128,i-vector

的维数为 400。系统使用 Kaldi 语音识别工具箱[76]进行训练和测试。

基线系统使用传统 PLDA 的多语言说话人确认系统。UBM 和 i-vector 模型使

用所有中文普通话和维语数据训练得到。对于 PLDA 模型,我们测试了三种模型,

分别是基于中文普通话的 PLDA、基于维语的 PLDA 和多语言的 PLDA。其中前两

种模型使用单个语言的数据(中文普通话和维语)训练,第三种 PLDA 模型同时使

用中文普通话和维语进行训练。基线系统以等错误率为评价指标,实验结果如表 2

所示。

表 2 中的实验包含两种单一语言的情形和两种跨语言的情形,每个情形下总共

进行 25,551 次识别,每种条件下的最优结果用粗体标出。可以看出,多语言训练

的 PLDA 比单一语言训练的结果更优,尤其是在跨语言测试的条件下性能更优。在

中文单一语言的测试情形下,中文的 PLDA 有小幅的优势(2.40 优于 2.60),然而,

在维吾尔语-维吾尔语的单一语言测试情形下,多语言的 PLDA 性能最优(2.99 优

于 3.39)。这种不一致性证实了我们的猜想,即多语言训练有两个方面的影响,多

语种训练一方面可以增加训练数据量,另一方面,由于其他语言的引入,增加了说

话人的不确定性。

基于语种察觉的 PLDA 训练方法的识别结果如表 3 所示,其中‘LA’表示的

基于语种察觉的 PLDA 训练方法。作为对比,表 3 中给出了传统的多语言 PLDA

训练方法识别结果。可以看出,在两种单一语言的测试情形下,基于语种察觉的

Page 87: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

附录 说话人确认中的语种鲁棒性问题研究

76

PLDA 训练方法比传统的多语言 PLDA 训练方法取得了更优的识别性能。在中文单

语种和维语单语种测试条件下,等错误率分别相对降低 15.38%和 20.07%。有趣的

是基于语种察觉的 PLDA 训练方法识别结果优于相应单语种 PLDA 的识别结果,这

验证了我们的假设,即基于语种察觉的 PLDA 训练方法在充分利用来自多个语种的

语音训练数据的同时避免了概率分散的问题。最终,我们发现在跨语言测试条件下

基于语种察觉的 PLDA 训练方法的性能不如传统的多语言 PLDA 的性能,这再次表

示基于语种察觉的训练导致更差的跨语言识别性能。

表 2 基线系统实验结果

PLDA 注册语种 测试语种 EER%

汉语 汉语 汉语 2.40

汉语 汉语 维吾尔语 6.60

汉语 维吾尔语 维吾尔语 2.99

汉语 维吾尔语 汉语 8.98

维吾尔语 汉语 汉语 3.59

维吾尔语 汉语 维吾尔语 5.59

维吾尔语 维吾尔语 维吾尔语 3.39

维吾尔语 维吾尔语 汉语 9.98

多语种 汉语 汉语 2.60

多语种 汉语 维吾尔语 4.59

多语种 维吾尔语 维吾尔语 2.99

多语种 维吾尔语 汉语 6.59

表 3 基于语种察觉的 PLDA 训练方法实验结果

EER%

注册语种 测试语种 No LA LA

汉语 汉语 2.60 2.20

汉语 维吾尔语 4.59 4.99

维吾尔语 维吾尔语 2.99 2.39

维吾尔语 汉语 6.59 7.78

Page 88: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

附录 说话人确认中的语种鲁棒性问题研究

77

3.3 小结

基于语种察觉的 PLDA 模型训练方法,由于加入了语种信息,PLDA 模在很大

程度上避免概率分散的问题的同时保留了多语言训练带来的丰富的统计信息,实验

结果验证了基于语种察觉的训练方法的正确性。今后我们将在更大的数据集上证实

本方法的有效性。

4. 总结

本附录对说话人确认中语种失配问题进行了初步研究,通过特征映射方法将一

种特征下的声纹特征映射到另一种语种下的特征,以便减少语种失配的影响。特征

映射方法解决的是第一种语种失配,即注册与测试之间的语种失配。对于背景模型

与注册/测试之间的语种失配,提出了基于语种察觉(Language aware)的多语种

PLDA 模型训练方法。该方法在模型训练中引入语种信息,避免了常规多语种 PLDA

模型训练中存在的“概率分散”(Probability Dispersion),说话人的不同语种下的语

音用不同的潜在因子(latent factor)表示以便增加区分性能力。

然而研究中存在不足:1)特征映射方法简单,未考虑不同语言之间语言学和

音素关系之间的差异,研究更为复杂的变换方法;2)需要研究在跨语言测试条件

下如何提高基于语种察觉的 PLDA 训练方法的性能。

Page 89: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

参考文献

78

参考文献

[1] BISHNU S. ATAL. Automatic recognition of speakers from their voices[C]//

PROCEEDINGS of IEEE. IEEE, 1976, 64(4): 460-475.

[2] JOSEPH P. CAMPBELL. Speaker Recognition: A Tutorial[C]// PROCEEDINGS

OF THE IEEE. IEEE, 1997, 85(9): 1437-1462.

[3] 张陈昊. 短语音说话人识别研究[D]. 学位论文,北京,2014:清华大学.

[4] 郑方、李蓝天、张慧等. 声纹识别技术及其应用现状[J].信息安全研究,2016,

2(1): 44-57.

[5] 郑方、艾斯卡尔·肉孜、王仁宇等. 生物特征识别技术综述[J]. 信息安全研究,

2016,2(1):12-26.

[6] PRUZANSKY S. Pattern-matching procedure for automatic talker recognition[J].

The Journal of the Acoustical Society of America, 1963, 35(3): 354-358.

[7] Bishnu S Atal, Suzanne L Hanauer. Speech analysis and synthesis by linear

prediction of the speech wave[J]. The Journal of the Acoustical Society of America,

1971, 50(2): 637-655.

[8] George R Doddington, James L. Flanagan, et al. AUTOMATIC SPEAKER

VERIFICATION BY NON-LINEAR TIME ALIGNMENT OF ACOUSTIC

PARAMETERS: US, 3700815[P]. 1972.

[9] Hermansky H. Perceptual linear predictive (PLP) analysis of speech[J]. The

Journal of the Acoustical Society of America, 1990, 87(4): 1738-1752.

[10] Makhoul J, Cosell L. LPCW: AN LPC VOCODER WITH LINEAR PREDICTIVE

SPECTRAL WARPING[C]//Acoustics, Speech and Signal Processing (ICASSP).

IEEE, 1976: 466-469.

[11] Vergin R, O'Shaughnessy D, Farhat A. Generalized Mel Frequency Cepstral

Coefficients for Large-Vocabulary Speaker-Independent Continuous-Speech

Recognition[J]. IEEE Transactions on Speech and Audio Processing, 1999, 7(5):

525-532.

[12] Rabiner L, Juang B. An Introduction to Hidden Markov Models[J]. ASSP

Magazine, 1986, 3(1): 4-16.

[13] Sakoe H, Chiba S. Dynamic Programming Algorithm Optimization for Spoken

Word Recognition[J]. IEEE Transactions on Speech and Audio Processing, 1978,

26(1):43-49.

[14] Burton D, Shore J, Buck J. A GENERALIZATION OF ISOLATED WORD

RECOGNITION USING VECTOR QUANTIZATION[C]//Acoustics, Speech and

Signal Processing (ICASSP). IEEE, 1983: 1021-1024.

[15] Reynolds D. Gaussian Mixture Models[J]. Encyclopedia of Biometrics, 2009:

659-663.

[16] Douglas A. Reynolds, Thomas F. Quatieri, Robert B. Dunn. Speaker verification

Page 90: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

参考文献

79

using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1):

19-41.

[17] Kenny P. Joint Factor Analysis of Speaker and Session Variability: Theory and

Algorithms[R]. Technical report CRIM-06/08-14, 2006.

[18] Dehak N, Dumouchel P, Kenny P. Modeling Prosodic Features with Joint Factor

Analysis for Speaker Verification[J]. IEEE Transactions on Speech and Audio

Processing, 2007, 15(7): 2095-2103.

[19] Dehak N, Patrick J. Kenny. Front-End Factor Analysis for Speaker Verification[J].

IEEE Transactions on Speech and Audio Processing, 2011, 19(4): 788-798.

[20] Kenny P, Gupta V. Deep Neural Networks for extracting Baum-Welch statistics for

Speaker Recognition[C]//The Odyssey Speaker and Language Recognition

Workshop, 2014.

[21] Variani E, Lei X, McDermott E. DEEP NEURAL NETWORKS FOR SMALL

FOOTPRINT TEXT-DEPENDENT SPEAKER VERIFICATION[C]// Acoustics,

Speech and Signal Processing (ICASSP), 2014: 4052-4056.

[22] Thomas Fang Zheng, Qin Jin, Lantian Li et al. An Overview of Robustness

Related Issues in Speaker Recognition[C]//Signal and Information Processing

Association Annual Summit and Conference, 2014.

[23] Voice Commerce. Company profile: The Voice Commerce Group. Biometric

Technology Today, 2010(1): 7-8.

[24] FURUI S. Cepstral Analysis Technique for Automatic Speaker Verification[J].

IEEE Transactions on Acoustics, Speech, and Signal Processing, 1981, 29(2):

254-272.

[25] Douglas A. Reynolds D.A. Channel Robust Speaker Verification via Feature

Mapping[C]//Acoustics, Speech and Signal Processing (ICASSP), 2003: II53-II56.

[26] George R. Doddington, Mark A. Przybocki et al. The NIST speaker recognition

evaluation-Overview, methodology, systems, results, perspective[J]. Speech

Communication, 2000, 31(2): 225-254.

[27] The NIST, 2008. The NIST Year 2008 Speaker Recognition Evaluation Plan,

http://itl.nist.gov/iad/mig/tests/sre/2008/sre08_evalplan_release4.pdf

[28] The NIST, 2010. The NIST Year 2010 Speaker Recognition Evaluation Plan.

https://www.nist.gov/sites/default/files/documents/itl/iad/mig/NIST_SRE10_evalplan-r6.pdf

[29] Pelecanos J, Sridharan S. Feature Warping for Robust Speaker

Verification[C]//The Odyssey Speaker Recognition Workshop. ISCA, 2001:

213-218.

[30] Kenny P, Boulianne G. Joint Factor Analysis versus Eigenchannels in Speaker

Recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing,

2007, 15(4): 1435–1447.

[31] Teunen R, Shahshahani B. A MODEL-BASED TRANSFORMATIONAL

APPROACH TO ROBUST SPEAKER RECOGNITION[C]// Proceedings of the

International Conference on Spoken Language Processing (ICSLP). IEEE, 2000:

Page 91: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

参考文献

80

495–498.

[32] Solomonoff A, Quillen C, William M. Campbell. Channel Compensation for SVM

Speaker Recognition[C]//The Odyssey Speaker and Language Recognition

Workshop. ISCA, 2004: 57–62.

[33] McLaren M, David V. Leeuwen. Source-normalised-and-weighted LDA for robust

speaker recognition using i-vectors[C]//Acoustics, Speech and Signal Processing

(ICASSP). IEEE, 2011: 5456–5459.

[34] Ioffe, S. Probabilistic Linear Discriminant Analysis[C]//European Conference on

Computer Vision. Springer, 2006: 531-542.

[35] Simon J.D. Prince, James H. Elder. Probabilistic Linear Discriminant Analysis for

Inferences about Identity[C]// International Conference on Computer Vision. ,2007:

1-8.

[36] Kishore S.P, Yegnanarayana, B. SPEAKER VERIFICATION: MINIMIZING THE

CHANNEL EFFECTS USING AUTOASSOCIATIVE NEURAL NETWORK

MODELS[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2000:

1101-1104.

[37] Berouti M, Schwartz, R, Makhoul J. ENHANCEMENT OF SPEECH

CORRUPTED BY ACOUSTIC NOISE[C]//Acoustics, Speech and Signal

Processing (ICASSP). IEEE, 1979: 208-211.

[38] BOLL S. Suppression of Acoustic Noise in Speech Using Spectral Subtraction[J].

IEEE Transactions on Acoustics, Speech and Signal Processing, 1979, 27:

113-120.

[39] Hermansky H, Morgan N. RASTA Processing of Speech[J]. IEEE Transactions on

Speech and Audio Processing, 1994, 2(4): 578-589.

[40] Soong F, Rosenberg A, Rabiner L et al. A vector quantization approach to speaker

recognition[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE, 1985:

387-390.

[41] Furui S. Recent advances in speaker recognition[J]. Pattern Recognition Letters,

1997, 18(9): 859-872.

[42] 王琳琳. 说话人识别中的时变鲁棒性问题研究[D]. 学位论文,北京:清华大

学.

[43] Bimbot F, Bonastre J-F et al. A Tutorial on Text-Independent Speaker

Verification[J]. EURASIP Journal on Applied Signal Processing, 2004, 4: 430–

451.

[44] MARKEL J, Davis S. Text-Independent Speaker Recognition From a Large

Linguistically Unconstrained Time-Spaced Data Base[J]. IEEE Transactions on

Acoustics, Speech, and Signal Processing, 1979, 27(1): 74-82.

[45] Fanhu B, Dong W et al. EMOTIONAL SPEAKER VERIFICATION WITH

LINEAR ADAPTATION[C]//Signal and Information Processing (ChinaSIP). IEEE,

2013: 91-94.

[46] Tian W, Yingchun Y, Zhaohui W. Improving speaker recognition by training on

Page 92: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

参考文献

81

emotion-added models[C]// International Conference on Affective Computing and

Intelligent Interaction. Springer, 2005: 382-389.

[47] Fanhu Bie, Dong Wang et al. Emotional Adaptive Training for Speaker

Verification[C]//Signal and Information Processing Association Annual Summit

and Conference. IEEE, 2013: 1-4.

[48] Zhenyu S, Yingchun Y. Learning Polynomial Function Based Neutral-Emotion

GMM Transformation for Emotional Speaker Recognition[C]// 19th International

Conference on Pattern Recognition. IEEE, 2008: 1-4.

[49] Bin M, Meng H et al. Effects of Device Mismatch, Language Mismatch and

Environmental Mismatch on Speaker Verification[C]//Acoustics, Speech and

Signal Processing (ICASSP). IEEE, 2007: 301-304.

[50] Bin M, Meng H. English-Chinese bilingual text-independent speaker

verification[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2004:

293-296.

[51] R. Auckenthaler R, Carey M.J et al. LANGUAGE DEPENDENCY IN

TEXT-INDEPENDENT SPEAKER VERIFICATION[C]//Acoustics, Speech and

Signal Processing (ICASSP). IEEE, 2001: 441-444.

[52] Murat A, John H.L. Hansen. LANGUAGE NORMALIZATION FOR

BILINGUAL SPEAKER RECOGNITION SYSTEMS[C]//Acoustics, Speech and

Signal Processing (ICASSP). IEEE, 2007: 257-260.

[53] Misra A, John H.L. Hansen. SPOKEN LANGUAGE MISMATCH IN SPEAKER

VERIFICATION: AN INVESTIGATION WITH NIST-SRE AND CRSS BI-LING

CORPORA[C]//Spoken Language Technology Workshop (SLT). IEEE, 2014:

372-377.

[54] Liang Lu, Yuan D, Xianyu Z et al. THE EFFECT OF LANGUAGE FACTORS

FOR ROBUST SPEAKER RECOGNITION[C]//Acoustics, Speech and Signal

Processing (ICASSP). IEEE, 2009: 4217-4220.

[55] Jianglin W, Michael T. Johnson. VOCAL SOURCE FEATURES FOR

BILINGUAL SPEAKER IDENTIFICATION[C]//Signal and Information

Processing (ChinaSIP). IEEE, 2013: 170-173.

[56] Xiangyu Z, Shi Y, Dong W. Learning speech rate in speech

recognition[C]//Interspeech. ISCA, 2015: 528-532.

[57] Mingxing X, Lipeng Z, Linlin W et al. Database Collection for Study on Speech

Variation Robust Speaker Recognition[C]// O-COCOSDA, 2008:1-4.

[58] Heerden C, Barnard E. Speech rate normalization used to improve speaker

verification[J]. SAIEE Africa Research Journal, 2007, 98: 129–135.

[59] Cummins F, Grimaldi M et al. The chains corpus: Characterizing individual

speakers[C]// International Conference on Speech and Computer (SPECOM). 2006:

431-435.

[60] Nakagawa S, Wei Z, Takahashi M. Text-independent speaker recognition by

combining speaker-specific gmm with speaker adapted syllable-based hmm

Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2004: I81–I84.

Page 93: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

参考文献

82

[61] Nakagawa S, Wei Z. Text-independent speaker recognition by speaker-specific

gmm and speaker adapted syllable-based hmm[C]//EuroSpeech. ISCA,

2003:3017–3020.

[62] Verhasselt J.P, Martens J.P. A fast and reliable rate of speech detector[C]//

Proceedings of the International Conference on Spoken Language Processing

(ICSLP). IEEE, 1996: 1–4.

[63] Faltlhauser R, Pafu T, Ruske G. On-line speaking rate estimation using Gaussian

mixture models[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE,

2000: 1355–1358.

[64] Siegler M.A, Stern R.M. On the effects of speech rate in large vocabulary speech

recognition systems[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE,

2000:612-615.

[65] Pfau T, Ruske G. Estimating the speaking rate using vowel detection[C]//Acoustics,

Speech and Signal Processing (ICASSP). IEEE, 1998: 945–948.

[66] Morgan N. Speech recognition using on-line estimation of speaking

rate[C]//EuroSpeech, 1997: 2079–2082.

[67] Yishan J, Ming T, Berisha V et al. Online speaking rate estimation using recurrent

neural networks[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE,

2016: 5245–5249.

[68] F. Martinez, Tapias D, Alvarez J. Towards speech rate independence in large

vocabulary continuous speech recognition[C]//Acoustics, Speech and Signal

Processing (ICASSP). IEEE, 1998:725-728.

[69] Reynolds D. Universal Background Models[J]. Encyclopedia of Biometrics, 2009:

1349-1352.

[70] Kenny P, Ouellet P. A study of interspeaker variability in speaker verification[J].

IEEE Transactions on Audio, Speech, and Language Processing, 2008, 16(5): 980–

988.

[71] Kenny P, Boulianne G. Eigenvoice modeling with sparse training data[J]. IEEE

Transactions on Speech and Audio Processing, 2005, 13(3): 345–354.

[72] Stephen M. Chu, Povey D. SPEAKING RATE ADAPTATION USING

CONTINUOUS FRAME RATE NORMALIZATION[C]//Acoustics, Speech and

Signal Processing (ICASSP). IEEE, 2010: 4306-4309

[73] Maaten LVD, Hinton G. Visualizing data using t-SNE[J]. Journal of Machine

Learning Research, 2008, 9(85): 2579-2605

[74] Gales M, Woodland P. Mean and variance adaptation within the MLLR

framework[J]. Computer Speech and Language, 1996, 10(4): 249–264.

[75] Askar R, Dong W, Fanhu B. Cross-lingual speaker verification based on linear

transform[C]// Signal and Information Processing (ChinaSIP), 2015: 519-523.

[76] Povey D, Ghoshal A. The Kaldi speech recognition toolkit[C]// Automatic Speech

Recognition and Understanding Workshop (ASRU). IEEE, 2011: 1-4.

[77] Lei Y, Scheffer N, Ferrer L et al. A novel scheme for speaker recognition using a

Page 94: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

参考文献

83

phonetically-aware deep neural network[C]//Acoustics, Speech and Signal

Processing (ICASSP). IEEE, 2014: I714-I718.

[78] Yuan L, Yanmmin Q, Nanxin C et al. Deep feature for text-dependent speaker

verification[J]. Speech communication, 2015, 73(2015): 1-13.

[79] Matejka P, Glembek O et al. ANALYSIS OF DNN APPROACHES TO SPEAKER

IDENTIFICATION[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE,

2016: 5100-5104.

[80] Plchot O. AUDIO ENHANCING WITH DNN AUTOENCODER FOR SPEAKER

RECOGNITION[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE,

2016: 5090-5094.

[81] Bhattacharya G, Alam J, Kenny P et al. MODELLING SPEAKER AND

CHANNEL VARIABILITY USING DEEP NEURAL NETWORKS FOR

ROBUST SPEAKER VERIFICATION[C]//IEEE Spoken Language Technology

Workshop. IEEE, 2016:1-7

[82] Sourceforge. Sox - Sound eXchange, 2015.

[83] Kenny P, Ouellet P. A Study of Inter-Speaker Variability in Speaker Verification[J].

IEEE Transactions on Audio, Speech and Language Processing, 2008: 980-988

[84] Bonastre J-F. ALIZE, a free toolkit for speaker recognition[C]//Acoustics, Speech

and Signal Processing (ICASSP). IEEE, 2005:I737-I740.

[85] Campbell W.M, Campbell J.P et al. Support vector machines for speaker and

language recognition[J]. Computer Speech & Language, 2006, 20(2): 210–229.

[86] Beigi H. Fundamentals of Speaker Recognition[M]. New York: Springer, 2011.

[87] Sturim D.E, Reynolds D.A. SPEAKER ADAPTIVE COHORT SELECTION FOR

TNORM IN TEXT-INDEPENDENT SPEAKER VERIFICATION[C]//Acoustics,

Speech and Signal Processing (ICASSP). IEEE, 2005: I741-I744.

[88] Ramos-Castro D, Fierrez-Aguilar J. Speaker verification using speaker- and

test-dependent fast score normalization[J]. Pattern Recognition Letters, 2007, 28

(2007): 90–98

[89] Ravulakollu K, Apsingekar V.R et al. EFFICIENT SPEAKER VERIFICATION

SYSTEM USING SPEAKER MODEL CLUSTERING FOR T AND Z

NORMALIZATIONS[C]// IEEE International Carnahan Conference on Security

Technology. IEEE, 2008: 56-62.

[90] 艾斯卡尔·肉孜,王 东,李蓝天,郑 方. 说话人识别中的分数域语速归一化

研究,清华大学学报,网络首发

[91] 熊振宇. 大规模、开集、文本无关说话人辨认研究[D]. 学位论文,北京,2005:

清华大学.

[92] Christopher M. Pattern Recognition and Machine Learning[M]. New York:

Springer, 2007.

[93] Kinnunen T, Li H. An overview of text-independent speaker recognition: From

features to supervectors[J]. Speech communication, 2010, 52(1): 12–40.

[94] ATAL B. S. Automatic speaker recognition based on pitch contours[J]. The Journal

Page 95: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

参考文献

84

of the Acoustical Society of America, 52(6):1687-1697.

[95] Ani1 K. Jain, Jianchang M. Artificial neural networks: a tutorial[J]. Computer,

1996, 29(3): 31-44.

[96] Thomas Fang Zheng. An Overview of Robustness Related Issues in Speaker

Recognition. Proc of IEEE, APSIPA ASC 2014.

[97] Thomas Fang Zheng. Prove yourself by yourself with the use of speaker

recognition technology[R]// Proc of NCMMSC, 2015.

[98] Larcher A, Bousquet P-M et al. I-VECTORS IN THE CONTEXT OF

PHONETICALLY-CONSTRAINED SHORT UTTERANCES FOR SPEAKER

VERIFICATION[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE,

2012: 4773-4776.

[99] Larcher A, Lee K.A, Bin M et al. PHONETICALLY-CONSTRAINED PLDA

MODELING FOR TEXT-DEPENDENT SPEAKER VERIFICATION WITH

MULTIPLE SHORT UTTERANCES[C]//Acoustics, Speech and Signal

Processing (ICASSP). IEEE, 2013: 7673-7677.

[100] Zissman M.A, Gleason T.P, Rekart D.M et al. Automatic dialect identification of

extemporaneous conversational Latin American Spanish speech[C]//Acoustics,

Speech and Signal Processing (ICASSP). IEEE, 1996: 777-780

[101] Marco G, Cummins F. Speech style and speaker recognition: a case study[C]//

Interspeech. ISCA, 2009.

[102] Dehak N, Dehak R, Kenny P. Support vector machines versus fast scoring in the

low-dimensional total variability space for speaker verification[C]//Interspeech,

2009:1559-1562.

[103] Hasan T, Hansen J.H.L. Acoustic factor analysis for robust speaker verification[J].

IEEE Transactions on audio, speech, and language processing, 2013, 21(4): 842–

853.

[104] Andrew O, Kajarekar S et al. Within-class covariance normalization for svm-based

speaker recognition[C]//INTERSPEECH. ISCA, 2006: 1471–1474.

[105] Glembek O, Burget L et al. Simplification and optimization of i-vector

extraction[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2011:

4516–4519.

[106] Garcia-Romero D, Carol Y. Analysis of i-vector length normalization in speaker

recognition systems[C]//INTERSPEECH. ISCA, 2011: 249–252.

[107] Askar Rozi, Wang D et al. Language-aware PLDA for Multilingual Speaker

Recognition[C]//O-COCOSDA. IEEE, 2016:161-165.

[108] Heigold G, Moreno I et al. End-to-end text dependent speaker

verification[C]//Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016:

5115–5119.

[109] Snyder D, Ghahremani P et al. Deep neural network-based speaker embeddings for

end-to-end speaker verification[C]// Spoken Language Technology Workshop

(SLT), 2016:165-170.

Page 96: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

参考文献

85

[110] Song Y, Bing J et al. i-vector representation based on bottleneck features for

language identification[J]. Electronics Letters, 2013, 49(24): 1569–1570.

Page 97: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

致谢

86

致 谢

衷心感谢我的导师郑方研究员五年来对我的细心指导和帮助。郑老师严谨治学、

坦荡做事、平易近人,郑老师的言传身教将使我受益终生。读博 6 年期间,在研究

上经历了诸多挫折,但是郑老师始终给我以细心的指导,自始至终都给了我极大的

包容和鼓励,在此谨向恩师郑老师致以最诚挚的谢意!

感谢语音和语言技术中心的王东老师在读博 6 年期间对我无私的帮助和细心

指导,谢谢王老师一直以来的关心和帮助。

感谢师弟李蓝天读博 6 年期间给我的极大帮助,与他讨论的过程给了我很多想

法,无论何时他总是能够第一时间出现并能提供帮助,谢谢蓝天师弟!

感谢师弟程星亮给予的帮助和支持,他的认真及无私的帮助感动了我,谢谢星

亮师弟!

感谢 CSLT 工程师张之勇,无论在学术研究还是生活中,张之勇永远提供亲切

的帮助,感谢张之勇自始至终提供的帮助。

感谢王琳琳师姐、张陈昊师兄、王军师兄、别凡虎师兄、汤志远博士,他们给

予了我很多学习与工作上的支持和帮助,一起讨论工作和生活,谢谢他们给予的帮

助。

感谢 CSLT 关心和帮助过我的所有同学,感谢参与语速声纹数据库录制的北京

得意音通公司所有人。

最后感谢我母亲对我的养育之恩。感谢我的妻子、岳父、岳母及其家人在我读

博 6 年期间对我的爱、支持和理解,感谢妻子独自担起家庭 6 年,独自生活和照料

年幼女儿,有了他们的支持,我才能走到现在!

Page 98: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

声 明

87

声 明

本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进

行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,

本学位论文的研究成果不包含任何他人享有著作权的内容。对本论文所

涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标

明。

签 名: 日 期:

Page 99: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

个人简历、在学期间发表的学术论文与研究成果

88

个人简历、在学期间发表的学术论文与研究成果

个人简历

1978 年 8 月 8 日出生于新疆维吾尔自治区喀什地区伽师县。

1995 年 9 月考入新疆大学计算机科学与技术系,2001 年 7 月本科毕业

并获得工学学士学位。

2001 年 7 月到新疆大学数学与系统科学学院软件教研室工作至今。

2005 年 9 月考入新疆大学信息科学与工程学院攻读计算机科学与技术

硕士学位,2008 年 7 月硕士毕业并获得工学硕士学位。

2012 年 9 月考入清华大学计算机系攻读计算机应用博士至今。

在学期间发表的学术论文

[1] Askar rozi,‎Lantian‎Li,‎Dong‎Wang,‎Thomas‎Fang‎Zheng,‎“Feature‎Transformation‎

For‎ Speaker‎ Verification‎ Under‎ Speaking‎ Rate‎ Mismatch‎ Condition,”‎ the‎ 8th‎

APSIPA Annual Summit and Conference (APSIPA ASC 2016), December 13-16,

2016, Jeju, Korea(EI 检索号 20170903392244)

[2] 艾斯卡尔·肉孜,王 东,李蓝天,郑 方,“说话人识别中的分数域语速归一

化,” 清华大学学报(自然科学版), 2018 年第 4 期:337-341

[3] 艾斯卡尔·肉孜 , 殷实 , 张之勇 , 王东 , 艾斯卡尔·艾木都拉 , 郑方 ,

“THUYG-20:一个免费的维吾尔语语音数据库,” 清华大学学报(自然科学

版), 2017 年第 2 期:182-187(EI 检索号 20172103692860)

[4] Askar Rozi, Dong Wang, Lantian Li and Thomas Fang Zheng, “Language-aware

PLDA‎ for‎Multilingual‎ Speaker‎ Recognition,”‎ 2016‎ Conference‎ of‎ The‎ Oriental‎

Chapter of International Committee for Coordination and Standardization of

Speech Databases and Assessment Technique (O-COCOSDA), pp.161-165, 26-28

October 2016, Bali, Indonesia (最佳学生论文,EI 检索号 20172303739643)

[5] Askar Rozi, Dong Wang, Fanhu Bie, Jun Wang, Thomas Fang Zheng,

“Cross-Lingual‎ Speaker‎ Verification‎ based‎ on‎ Linear‎ Transform,”‎ IEEE‎ China‎

Summit and International Conference on Signal and Information Processing

(ChinaSIP 2015), pp.519-523, Jul. 12-15, 2015, Chengdu, China(EI 检索号

20160701912174)

Page 100: 说话人确认中的语速鲁棒性 问题研究 - Tsinghuacslt.riit.tsinghua.edu.cn/~fzheng/THESES/201806-D-AR.pdf · 本文对说话人确认中的语速鲁棒性问题进行了研究,主要工作包括:

个人简历、在学期间发表的学术论文与研究成果

89

[6] Askar Rozi,‎ Dong‎Wang,‎ Zhiyong‎ Zhang,‎ Thomas‎ Fang‎ Zheng,‎ “An‎Open/Free‎

Database‎ and‎ Benchmark‎ for‎ Uyghur‎ Speaker‎ Recognition,”‎ 2015‎ International‎

Conference Oriental COCOSDA jointly with 2015 Conference on Asian Spoken

Language Research and Evaluation (O-COCOSDA/CASLRE), pp. 81-85, Oct.

28-30, Shanghai, China(EI 检索号 20161602249598)

[7] 艾斯卡尔·肉孜 , 殷实 , 张之勇 , 王东 , 艾斯卡尔·艾木都拉 , 郑方 ,

“THUYG-20:一个免费的维吾尔语语音数据库,” 第 13 届全国人机语音通讯

会议 (NCMMSC'2015), 2015 年 10 月 25-27, 天津

[8] 艾斯卡尔,肉孜,王东,李蓝天,郑方,“说话人识别中的分数域语速归一化

研究”,第 14 届全国人机语音通讯会议 (NCMMSC'2017), 2017 年 10 月 11-13,

连云港

[9] 郑方,艾斯卡尔·肉孜,王仁宇,李蓝天,‎“生物特征识别技术综述,”‎信息安全研究,

2016 年第 1 期: 12-26

[10] Lantian Li, Dong Wang, Askar Rozi, Thomas Fang Zheng, “Cross-lingual Speaker

Verification with Deep Feature Learning,” the 9th APSIPA Annual Summit and

Conference (APSIPA ASC 2017), December 12-15, 2017, Kuala Lumpur, Malaysia

(EI 检索会议)

[11] 郑方,李蓝天,张慧,艾斯卡尔·肉孜,‎“声纹识别技术及其应用现状,”‎信息安全研

究, 2016 年第 1 期: 44-57

[12] AISIKAER ROUZI, Lantian Li, Thomas Fang Zheng, "Speaking rate variation

robustness for speaker verification," submitted to International Journal of Pattern

Recognition and Artificial Intelligence (CCF journal of rank C on Artificial

Inteligence)