短语音说话人识别研究 -...

107
短语音说话人识别研究 (申请清华大学工学博士学位论文) 培养单位 计算机科学与技术系 计算机科学与技术 张 陈 昊 指导教师 研究员 二○一四年四月

Upload: others

Post on 18-Sep-2019

25 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

短语音说话人识别研究

(申请清华大学工学博士学位论文)

培 养 单 位 : 计算机科学与技术系

学 科 : 计算机科学与技术

研 究 生 : 张 陈 昊

指 导 教 师 : 郑 方 研究员

二○一四年四月

Page 2: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

短语音说话人识别研究

Page 3: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

Research on Short Utterance

Speaker Recognition

Dissertation Submitted to

Tsinghua University

in partial fulfillment of the requirement

for the degree of

Doctor of Philosophy

in

Computer Science and Technology

by

Zhang Chenhao

Dissertation Supervisor : Professor Thomas Fang Zheng

April, 2014

Page 4: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

关于学位论文使用授权的说明

本人完全了解清华大学有关保留、使用学位论文的规定,即:

清华大学拥有在著作权法规定范围内学位论文的使用权,其中包

括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以

采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为

教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资

料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容;

(3)根据《中华人民共和国学位条例暂行实施办法》,向国家图书馆

报送可以公开的学位论文。

本人保证遵守上述规定。

(保密的论文在解密后遵守此规定)

作者签名: 导师签名:

日 期: 日 期:

Page 5: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

摘 要

I

摘 要

实际应用中,较短甚至超短的测试语音条件下的说话人识别是必须面对的难

题。本文针对短语音说话人识别进行了一定的研究,主要工作包括以下几个方面:

1. 提出了基于发音基元类的多模型说话人识别框架。考虑到语音内容对改进

说话人识别性能的作用以及语音内容的确认是说话人识别的辅助手段,本文提出

一种基于发音基元类的多模型说话人识别方法:该方法在说话人识别中综合

应用了语音识别技术,考虑到语音识别不是本文的最终目标,本文提出将语

音基元进行分类,在说话人模型训练时建立基元类相关的说话人模型,在说

话人识别时与基元类相关的说话人模型进行模型匹配。本文研究了基元类的

划分方法以及基元类相关说话人模型的训练。在训练语音充分的前提下,相

比传统的基线 GMM-UBM 方法,该方法取得了 23.64%的相对 EER 下降。

2. 提出了缺失数据基元类的说话人模型合成方法。该方法在说话人模型的训

练语音不充分和不均衡的情况下,利用一组精心设计并训练充分的参考说话人模

型之间的映射关系,合成出缺失训练数据的基元类的说话人模型。本文研究了说

话人基元类模型之间映射关系的估计方法,以及缺失基元类说话人模型的参数合

成方法。相对训练语音充分和均衡的情形,合成方法最优情况下的 EER 相对增加

仅为 6.91%;相比基线 GMM-UBM 方法 EER 相对下降为 18.30%。

3. 提出了基于 Fishervoice 的语音底层声学特征融合算法。本文借鉴人类对

语音的感知规律,挖掘语音中不同的声学特性,对多种声学特征向量拼接后

的高维特征向量进行无监督和有监督的综合学习,挑选最具区分性分量,以

解决单一特征在短语音下区分性不足的问题。相比 MFCC、LPCC 和 PLAR

特征,短语音条件下融合特征的 EER 相对下降分别为 27.56%、16.21%和 18.05%。

4. 建立了一个语音内容均衡的短语音声纹数据库 SUD12,在此数据库上进行

所提方法的验证。综合分析了本文提出短语音说话人识别方法的需要和数据

库资源现状,提出了短语音声纹数据库的录制原则:“保证训练语音中发音

基元的充分性和均衡性”。基于此,设计录音提示文本,使用低频单元加强

算法挑选声韵母基元丰富并且“di-IF”组合良好的汉语文本,达到声韵母基

元覆盖全面并且数量充分。在该数据库上将本文所提出的特征级与模型级方

法综合起来,对比 MFCC 特征和 GMM-UBM 方法 EER 相对下降为 34.20%。

关键词:短语音;说话人识别;语音识别;多模型;特征融合

Page 6: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

Abstract

II

Abstract

In practice, it is an inevitable problem to speaker recognition under short or extra

short test utterance condition. This dissertation focuses on this issue for speaker

recognition and the major efforts and contributions are as follows.

1. A speech unit classification based multi-model speaker recognition framework.

Considering the improvement on speaker recognition with the aid of speech contents, a

speech unit classification based multi-model speaker recognition framework is proposed:

it integrates the speech recognition technology, builds various speech unit class related

speaker models, and scores the test utterances against the corresponding models. The

reason to use unit classes rather than units is that the final goal is speaker recognition

instead of speech recognition. This research also studies the speech units classification

method and the test method. On the assumption that the training data is sufficient and

content-balanced, the proposed method outperformed the baseline GMM-UBM method

with a relative EER reduction of 23.64%.

2. A speaker model synthesis method when data is insufficient for speech unit

classes. For the case that the training data is not sufficient and content-balanced, we

designed a speaker model synthesis method for the missing-data speech unit classes, by

analyzing and utilizing the unit class projection relation learned from a set of

well-trained cohort reference speaker models. The relation estimation and the model

parameter synthesis method are researched in depth. Compared with the sufficient

training data case, the proposed method led to a relative EER raise of 6.91%, which is

somewhat acceptable; and it outperformed the baseline GMM-UBM method by a

relative EER reduction of 18.30%.

3. A Fishervoice based acoustic feature fusion method. Drawing on the principle

of human’s speech perceptual characteristics, and aiming to solve the insufficient

discrimination problem with single feature under short test utterance condition, we

proposed a method with the supervised and unsupervised integrated learning procedures

to perform multi-feature fusion. After the procedure, the most discriminative feature

subspace can be selected. Compared with MFCC, LPCC and PLAR features, the new

feature achieved a relative EER reduction by 27.56%, 16.21% and 18.05%,

Page 7: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

Abstract

III

respectively.

4. A speech content-balanced speaker recognition database that specially focuses

on the short utterance issue. After analyzing the demands of the proposed methods

above and the present database situation, we initiated a recording principle of the short

utterance speaker recognition database: “to guarantee the sufficiency and the content

balance among all the speech units.” Based on this principle, after processing the

encouraging low-frequency units algorithm, the standard Chinese text with abundant

Initial-Final units and good “di-IF” combinations were selected. On this database, a

system integrating the proposed feature fusion method and the modeling method was

implemented, with a relative EER reduction of 34.20% compared with the baseline

GMM-UBM.

Key words: Short Utterance; Speaker Recognition; Speech Recognition;

Multi-Model; Feature Fusion

Page 8: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

目 录

IV

目 录

第 1 章 绪论 .................................................................................................1

1.1 说话人识别技术概述 ......................................................................................... 2

1.1.1 说话人识别的分类 ....................................................................................... 2

1.1.2 技术发展 ....................................................................................................... 3

1.2 说话人识别应用和挑战 ..................................................................................... 4

1.2.1 应用情况 ....................................................................................................... 4

1.2.2 实际应用中的挑战 ....................................................................................... 5

1.3 短语音说话人识别 ............................................................................................. 6

1.3.1 短语音问题的研究意义 ............................................................................... 6

1.3.2 短语音问题的难点 ....................................................................................... 8

1.3.3 短语音问题研究现状及分析 ..................................................................... 10

1.4 研究工作概述 ................................................................................................... 13

1.4.1 研究目标和思路 ......................................................................................... 13

1.4.2 系统框架 ..................................................................................................... 18

1.5 论文的组织结构 ............................................................................................... 20

第 2 章 基于发音基元类的多模型说话人识别框架 ....................................21

2.1 基于 GMM-UBM 的说话人识别框架 ............................................................. 22

2.1.1 高斯混合模型 ............................................................................................. 23

2.1.2 GMM-UBM 模型训练 ............................................................................... 23

2.1.3 说话人识别打分 ......................................................................................... 26

2.1.4 说话人确认系统性能指标 ......................................................................... 27

2.2 基于基元类的多模型说话人识别 ................................................................... 28

2.2.1 发音基元类划分 ......................................................................................... 28

2.2.2 语音基元的判别 ......................................................................................... 35

2.2.3 基于基元类的说话人多模型训练 ............................................................. 38

2.2.4 基元类多模型打分融合 ............................................................................. 39

2.3 实验 ................................................................................................................... 40

2.3.1 实验数据和设置 ......................................................................................... 40

2.3.2 实验结果和分析 ......................................................................................... 42

Page 9: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

目 录

V

2.4 小结 ................................................................................................................... 45

第 3 章 基于投影映射的说话人基元类模型合成 .........…...........................47

3.1 引论 ................................................................................................................... 47

3.2 说话人模型合成 ............................................................................................... 48

3.2.1 最大似然线性回归算法 ............................................................................ 48

3.3 基于基元类通用背景模型关系的模型合成方法 ........................................... 49

3.3.1 通用背景模型关系的模型构建 ................................................................ 49

3.3.2 缺失数据基元类的说话人模型参数合成 ................................................ 50

3.4 基于 Cohort 参考说话人集合的基元类模型合成方法 .................................. 51

3.4.1 说话人语音相似度定义 ............................................................................ 52

3.4.2 基于 Cohort 参考说话人模型构建 ........................................................... 53

3.4.3 缺失数据基元类的说话人模型参数合成 ................................................ 54

3.5 实验 ................................................................................................................... 56

3.5.1 实验数据和设置 ........................................................................................ 56

3.5.2 实验结果和分析 ........................................................................................ 56

3.6 小结 ................................................................................................................... 59

第 4 章 基于 Fishervoice 的声学特征融合算法 ............................................61

4.1 引论 ..................................................................................................................... 61

4.2 语音底层声学特性特征介绍 ............................................................................. 62

4.2.1 梅尔频率倒谱系数 .................................................................................... 62

4.2.2 线性预测倒谱系数 .................................................................................... 66

4.2.3 感知对数面积比系数 ................................................................................ 67

4.3 基于 Fishervoice 的特征融合降维算法 ........................................................... 70

4.3.1 Fishervoice 特征融合框架 ......................................................................... 70

4.3.2 去除多种特征相关性 ................................................................................ 71

4.3.3 选取最大区分性的特征 ............................................................................ 73

4.4 实验 ................................................................................................................... 75

4.4.1 实验数据和设置 ........................................................................................ 75

4.4.2 实验结果和分析 ........................................................................................ 76

4.5 结论 ................................................................................................................... 80

第 5 章 总结与展望 .................................................................................... 82

5.1 论文工作总结 ................................................................................................... 82

Page 10: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

目 录

VI

5.2 下一步研究的展望 ........................................................................................... 84

参考文献 ......................................................................................................86

致 谢 ...................................................................................................... ....94

声 明 .......................................................................................................... 95

个人简历、在学期间发表的学术论文与研究成果 .........................................96

Page 11: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

1

第 1 章 绪论

人类在生活中每时每刻都在从外界接受和向外界传达着各种有意义的信息,

语音信息则是其中很重要的部分。在语音学领域中,人的语音常常被定义为人的

发音器官所发出的、带有一定实际含义的声音,也常常被研究者认为是语言的发

音符号。音频信号的处理在人工智能和机器学习领域研究中具有很重要的地位。

人类语音中含有各类丰富的信息,既有丰富的说话人个性信息和发音的内容信息,

也有录制环境的噪声信息,通过挖掘这些信息,研究者们可以做很多有意义的工

作。说话人识别(Speaker Recognition),或者称为声纹识别(Voiceprint Recognition)

就是基于这些信息来探索人类身份的一种生物特征识别技术。这种技术基于语音

中所包含的说话人特有的个性信息,利用计算机以及现在的信息识别技术,自动

的鉴定当前语音对应的说话人身份(Bricker and Pruzansky, 1976; Campbell Jr,

1997)。与指纹识别、面部识别、虹膜识别等其他生物特征认证技术相比,说话

人识别在实际应用中有着独有的一些优势:

1. 语音属于人类最直接使用的信息载体,所以利用语音来进行生物识别应用

对于用户来说不具有心理障碍;

2. 语音作为信息来源,其采集过程对于用户个人隐私信息涉及更少,用户更

易接受;

3. 在移动互联飞速发展的今天,语音作为非接触性载体,可以很好的依靠各

类移动终端完成采集和验证,不需要用户在特定的地点使用特定的采集设

备,并且在某些特定的场景,用户语音是最简单直接能获取到的生物特征。

在最近的十年中,说话人识别技术得到飞速发展,已经开始在现实环境中广

泛应用。短语音说话人识别作为最近几年实际应用中遇到的现实问题,其主要目

标是研究说话人识别由较短的测试语音引发的问题,并且提高相应条件下的说话

人识别性能。本论文主要针对这一领域进行了分析和研究,并提出了一些改进方

案。

本章由以下几部分组成:首先对说话人识别技术的相关知识进行了一定的概

述;然后介绍了说话人识别在现实应用中遇到的问题和挑战,从中引出短语音说

话人识别的意义和研究现状,综述了现有的一些改进方法,并针对短语音说话人

识别系统的问题给出自己的一些分析;接着主要介绍了本文的总体研究思路和相

关的科研内容;最后一部分提出了本文总体的组织结构。

Page 12: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

2

1.1 说话人识别技术概述

1.1.1 说话人识别的分类

说话人识别是一种典型的模式识别问题,包含说话人模型训练和测试语音识

别两个阶段,下图 1.1 是一个典型的说话人识别框架:

1. 训练阶段:对使用系统的说话人预留足够的语音,并对不同说话人的语音

提取声学特征,然后对每个目标说话人的语音特征训练得到对应的说话人

模型,最终将全体模型集合在一起组成当前系统的说话人模型库;

2. 测试阶段:同样,先进行特征提取,将测试语音提取出来的声学特征在说

话人模型库上进行比对,根据定义好的相似性准则,对说话人模型上进行

打分判别,最后根据判别结果得到测试语音的说话人身份。

训练

张光

李明

训练语音

特征提取 模型训练

模型

张光

李明

测试语音

测试

特征提取 打分判决该说话人是

李明

图 1.1 一个典型的说话人识别系统框架

说话人识别根据实际应用中的不同任务来分类的话可以分为说话人辨

认(Speaker Identification)和说话人确认(Speaker Verification)(Campbell

Jr, 1997),这两类任务的识别目标略有不同:对于说话人辨认,是将待测

试语音判别为目标说话人集合中最有可能的某一位,所以是一个多选一的问

题;对于说话人确认,是将待测试语音在某个目标说话人模型上进行验证,

判别该段语音是否由这个目标说话人发出,是一个判别“是”或“否”为当

前说话人的二选一问题。

其中对于说话人辨认系统来说,根据测试语音来自说话人范围的不同,

可以分为开集(Open-Set)和闭集(Close-Set)两类(Campbell Jr, 1997)。

对于开集识别,待识别语音的发音者可能不属于当前已知的目标说话人集合

Page 13: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

3

(目标说话人集合也称为集内说话人,而不属于这类的说话人称为集外说话

人或者假冒说话人);对于闭集识别,则不存在当前集合以外的假冒说话人,

所有识别语音的话者全部属于已知的目标说话人集合。

说话人识别的另一类分类是根据识别语音的文本内容进行分类,具体的

也分为两类:文本相关(Text-Dependent)和文本无关(Text-Independent)

(Campbell Jr, 1997)。文本相关的说话人识别开始会建立一个文本集合,

要求用户在训练阶段预留语音时按照指定文本录制语音,这样能够精确的建

立当前说话人关于该文本的说话人模型,在测试阶段用户也必须按照这个指

定的文本集合发音;文本无关的说话人识别相对来说在实际使用中的要求比

较宽松,用户的发音内容不会预先被限定,在训练和识别阶段用户只需要随

意的录制达到一定发音长度的语音即可。

对比这两类说话人识别,文本相关的说话人识别的语音内容匹配性优于

文本无关的说话人识别,所以一般来说其系统性能也会相对好很多,但是对

用户预留和进行识别时语音的录制要求更高;文本无关的说话人识别对于用

户相对比较友好,使用更加方便灵活,对于实际的应用场合具有更好的推广

性和适应性。

基于以上分类的讨论,本文研究的说话人识别系统主要基于文本无关的

说话人确认系统。

1.1.2 技术发展

对于说话人识别这个领域的研究最早开始于 20 世纪 30 年代,最早的研

究者们主要研究真实人类对语音的实际反映,考察人耳听辨发音来识别说话

人的可能性,探索初步进行听音识别的方法。进入 20 世纪的下半个世纪,

随着生物信息研究和计算机信息技术的飞速发展,通过计算机自动识别语音

来源成为可能。

20 世纪 70 年代以后,说话人识别进入飞速发展阶段,成为语音领域的

一个重要分支,国内外的各大科研机构和大学也针对说话人识别问题展开了

多方面的研究,取得了很多有意义的研究成果,推动了说话人识别的发展。

研究者在研究中发现语音信号中包含了很多层次的信息,这些信息既有底层

的声学信息特性,也有高层的语言韵律信息,分析和利用这些不同的信息能

对说话人识别提供理论基础和识别依据,促进了说话人识别的进步。

在说话人识别领域,目前使用的特征绝大部分是研究语音信号频率上短

时倒谱(Short-term Cepstrum)特性得到的声学特征,这些特征主要模拟语

Page 14: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

4

音信号中的底层声学特性,例如人耳的听觉特性、声道的发声机理等,主要

包括:梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)(Davis

and Mermelstein, 1980; Furui, 1981; Zheng et al., 2001)、线性预测倒谱系数

(Linear Prediction Cepstral Coefficients,LPCC)(Atal, 1976)、感知线性

预测系数(Perceptual Linear Prediction,PLP)(Hermansky, 1990; Hendriks

et al., 2004)等;此外,基于语音长时特性的特征也常被使用,并与上述的

短时声学特征进行结合,例如发音的基音周期、共振峰信息、韵律声调等

(Arcienega and Drygajlo, 2003; 段新 等 , 2003; El Ayadi et al., 2011),这

些特征相对短时谱特征,其稳定性会差一些,容易受到环境和发音的影响。

总的来说,现实中会根据实际环境和需求综合考虑特征的选择。

在模型领域,基于统计的机器学习方法占据了主流地位,其中最经典的

建 模 方 法 是 基 于 高 斯 混 合 模 型 - 通 用 背 景 模 型 ( Gaussian Mixture

Model-Universal Background Model,GMM-UBM)(Reynolds et al., 2000)

的方法。使用这种建模方式可以统一的描述语音中的整体信息,为说话人识

别提供判别依据;随着对语音中各种信息研究的深入,在模型领域开始探索

利用语音中的不同信息来进行分别建模,联合因子分析( Joint Factor

Analysis,JFA)(Kenny, 2005; Dehak et al., 2007)和 i-vector 建模方法(Dehak

et al., 2011)就是基于这种思想从 GMM-UBM 系统上发展得到的。这两种方

法希望将 GMM-UBM 模型中统一的语音信息分解为说话人信息和其他对说

话人干扰的信息,分别对其建模,从而描述了语音中会话变化(Session

Variability)的信息,建立更精细的模型,达到减少其他信息干扰的目的。

在现实应用中,这些方法在满足限定条件的情况下可以取得比较满意的性

能。

1.2 说话人识别应用和挑战

1.2.1 应用情况

随着说话人识别技术的发展,说话人识别在现实生活中的各个领域得到

了广泛的应用(Furui, 1997; Jain et al., 2004)。

在商业领域的应用中,使用人的语音来为各种商业服务进行身份验证和

访问控制,有着很好的应用前景。1995 年 AT&T 在用户的智慧卡(Smart Card)

上嵌入用户的声纹信息和其他相关信息,开始了说话人识别在实际生活中的

应用;1998 年欧洲电信联盟同时推进了 CAVE 和 PICASSO 两个计划,说话

Page 15: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

5

人识别开始在电信网通信上得到应用;2006 年荷兰的一家银行使用美国

Voice Vault 公司研发的说话人识别系统,在银行产业中率先使用了说话人识

别技术;2011 年中国建设银行与北京得意音通技术有限公司合作,基于说

话人识别技术构建了声纹电话银行系统,在 VIP 用户所需要更高安全级别的

场合提供使用了声纹识别来验证用户身份的服务,加强了银行服务的安全

性,目前已经开始提供服务并推广使用。

除了商业方面的应用,说话人识别在公共服务领域也开始发挥作用。美

国的 Wellpoint 健康保险公司于上个世纪末利用用户语音,生成了相对应的

数字签名并发挥了作用。在国内,各个省份的社保局机构也在近几年开始准

备使用用户语音来帮助社保方面各类服务的顺利开展。此外安全领域和出入

境控制也是说话人识别最直接的应用场合(Peacocke and Graf, 1990; 于哲舟

等 , 2004; 龚伟 , 汪鲁才 , 2006; Beigi, 2011),通过各种安全监控措施获取控

制对象的语音并进行自动的身份识别,从而达到目标控制,缩小嫌疑人的侦

查范围等目的。而从海量的语音数据中自动获取某个目标说话人的语音,可

以极大地减少安全监控方面的人力开销,并减少误差,为国防安全提供可靠

的相关信息。

说话人识别的推广应用与这种技术本身的成熟发展是息息相关的,随着

说话人识别研究的不断发展和说话人识别系统的性能改进,该技术在现实中

的使用会越来越方便,应用也会越来越广泛。

1.2.2 实际应用中的挑战

近年来限定条件下的说话人识别已经取得较为成熟的应用,但是实际环

境的复杂情况会对说话人识别产生严重的干扰。声纹预留和声纹测试会受到

具体环境的影响而导致训练识别匹配性下降,说话人识别性能损失明显,这

对说话人识别系统在实际使用中的鲁棒性提出了更高的要求,所以针对在各

领域应用中的实际挑战,从事说话人识别领域的研究者在以下方面开展了科

研工作:

1. 训练与识别的信道不匹配:在实际应用中,用户可能会在语音预留和测试

时使用不同的手机或者终端,这就会带来跨信道的问题。这方面主要的解

决方法是从特征域、模型域和分数上对信道进行补偿或消除,减少信道带

来的影响,上文中介绍的 JFA 和 i-vector 系统就能在一定程度上解决这类

问题(Reynolds, 2003; Kenny, 2005);

2. 背景噪音的影响:在对说话人的语音数据进行采集时,不可避免的会受到

Page 16: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

6

现实环境中噪音的影响,噪音会干扰语音中的说话人信息,减少说话人模

型的分辨特性,也会使训练识别失配。这种情况下需要使用对噪音更鲁棒

的特征,并对语音信号进行去噪处理,减少噪音的影响(Hermansky et al.,

1992; Poruba, 2002; Ming et al., 2007);

3. 多个说话人的相互干扰:目前的说话人识别系统主要针对语音来自单个说

话人的情况,但实际应用中往往会存在一段语音中录制了多人对话的现

象,这种情况下不能直接使用这段语音,需要分析语音中的不同特性,寻

找语音转换点,将其转变为不同说话人的语音,这种方法一般称为说话人

分割聚类(Tritschler and Gopinath, 1999; Jin and Schultz, 2004; Moraru et al.,

2004; Wang and Zheng, 2009);

4. 时间变化带来的失配:说话人的个性信息随着年龄的增长会产生一定的变

化,这种变化会降低声纹的稳定性,针对这个问题一般会对这种变化特性

进行描述,选取语音特征中随时间变化较小的部分来进行说话人识别,增

强系统鲁棒性(Wang et al., 2012)。

以上这些实际问题一直是说话人识别的研究热点,近年来随着说话人识别的

广泛应用,另一个实际问题也慢慢被研究者所注意:即短语音问题。说话人识别

系统应用的一个重要前提是需要充足的测试语音来分辨当前语音的目标说话人,

但现实应用中由于各种各样的原因很有可能获取不到充足的测试语音,此时说话

人识别系统性能会如何变化就是一个很值得研究的问题,本文的研究课题即从这

个实际应用的难题而来。

1.3 短语音说话人识别

1.3.1 短语音问题的研究意义

在当前的技术发展条件下,研究较短的测试语音时长下的说话人识别具有很

强的现实意义:

1. 对于实际应用中的说话人识别系统,其用户体验的好坏已成为一项重要的

评价指标,显然较短的测试语音时长会带来更好的用户体验;

2. 在很多说话人识别的应用领域中,其实际使用时无法获取到足够长度的测

试语音(如刑侦安防等领域)。

同时,说话人识别的系统性能会受到测试语音长度直接的影响。早在 1983 年,

ITT Defense Communication Division 的研究者就开始注意到进行说话人识别是需

要一定的数据长度来保证的(Li and Wrench Jr, 1983)。文章里面提到,对于文本

Page 17: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

7

无关的说话人识别,通常在训练和识别阶段都需要有充足的语音数据来保证建模

和识别算法的性能。为了验证这个观点,他们录制了 11 个说话人在三种不同时长

下的语音,研究使用语音的频率、频率的均值和方差来代表说话人的特性,他们

的实验发现:与较长的测试时长对比,在较短的测试语音情况下,说话人系统的

识别性能会从 96%下降到 79%,这充分说明了语音时长对于说话人系统的性能有

着直接的影响。

在 1997 年,说话人识别领域的先驱 J. P. Campbell 在对于从 70 年代到 90 年代

说话人领域的系统发展综述文章(Campbell Jr, 1997) 中也提到语音时长对不同系

统的影响。Campbell 在该文献中的观点是文本相关的说话人识别大幅降低了语音

内容对于识别用户本身的影响,所以文本相关的说话人识别的性能更有保证。文

章中的实验结果显示,对于文本相关说话人识别系统,时长的影响不大,即使在

很短的语音文本上也可以取得很好的效果;但是对于文本无关的说话人识别系统,

语音长度会直接并且剧烈地影响实际中的系统性能,如果语音时长明显的比当前

系统的需求短,那么系统会恶化到基本无法使用。所以说话人系统的实用需要关

注这方面的问题。

对于目前主流的几种说话人识别系统,较短测试语音条件下的系统性能变化

同样剧烈。对于 GMM-UBM 系统,R. Vogt 在 NIST SRE(National Institute of

Standards and Technology and Speaker Recognition Evaluation, 2005)2005 数据库上

截取了不同时长的语音数据,并进行了相应的实验(Vogt et al., 2010),如图 1.2

所示。实验结果显示在充足测试语音(有效时长大于 30 秒)时,说话人识别系统

的等错误率在 6.34%,而当测试语音有效时长缩短到 2 秒时,系统性能剧烈下降到

23.89%,如果短于 2 秒以下,错误率则会进一步提高到 35%左右。在由 GMM-UBM

系统发展出来的 JFA 系统和 i-vector 系统上也有同样的现象(Vogt et al., 2008;

Kanagasundaram et al., 2011),在较短的测试语音时长条件下都不能取得令人满意

的系统性能。

Page 18: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

8

图 1.2 GMM-UBM 系统性能随测试时长的变化

以上这些都说明说话人识别在短语音条件下存在很大的问题,所以如何改善

较短测试语音条件下的说话人识别系统性能是一个很值得研究的科学问题。

结合说话人识别在现实中的应用条件和实际 GMM-UBM 系统的常用时长需

求,在本文中定义短语音为包括 1 到 3 个有效发音音节,有效时长约为 2 秒的测

试语音,并针对在短测试语音条件下的说话人识别问题进行了难点分析,提出了

改进思路。

1.3.2 短语音问题的难点

短语音说话人识别的难点源自于基于 GMM-UBM 的说话人识别框架,即基于

概率统计的识别方法。在对测试语音进行打分判决时,需要计算当前测试语音X 在

目标说话人上的后验概率分布 hypp X ,为了体现测试语音中包含的说话人的特

性,需要大量的数据X 来进行分布描述。当语音数据的特征数量达到一定的数据

需求时,这个分布才会趋向于一个模型参数收敛的概率分布,使得测试语音在目

标说话人模型上的后验概率稳定,此时能够提供较好的识别结果。但是在很短的

测试语音数据条件下,很难满足统计机器学习上基于大数定理的分布体现,

hypp X 的变动剧烈,使得测试语音的空间分布极其不稳定,无法与目标说话人

空间分布达到很好的匹配,此时导致的难点具体体现在以下两个方面:

1. 训练与识别的匹配性在短语音条件下严重下降:在较短的测试语音条件

下,测试语音中的说话人信息不均衡,不能像充足语音时覆盖大部分说话

人的特性空间,只能体现说话人整体特性的一部分。可以用图 1.3 来对短

语音问题进行一定的说明,图中的左右两个部分分别描述了不同的测试语

Page 19: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

9

音数据长度在说话人特征空间上的匹配情况,其中大圈表征目标说话人的

空间覆盖情况,而中间的阴影部分则代表测试语音在空间上的分布:

长测试语音 短测试语音

说话人A

说话人A

图 1.3 不同长度测试语音在说话人空间中的匹配程度示意

在充足的测试数据的情况下,测试语音能够很好的体现说话人的分布特

性,并且能很好的与训练特征分布进行匹配,为判决提供充分的依据,即

使存在一部分数据的分布特性不明显的问题,但是总体匹配程度还是足够

的;而在测试数据不充足的条件下,测试语音只能体现正确说话人的一小

部分,那么测试语音在目标说话人上计算得到的后验概率会很不稳定,即

很难在正确说话人上进行稳定的匹配验证,造成系统性能下降,使得此时

测试语音“不像目标说话人”;

长测试语音 短测试语音

说话人A

说话人B

说话人A

说话人B

图 1.4 不同长度测试语音在说话人空间中的混淆程度示意

2. 短语音条件下区分性不充足,混淆度变大:短语音条件下测试语音的信息

量很少,不足以提供充足的区分性信息,混淆度变大,如图 1.4 所示。在

Page 20: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

10

测试语音长度足够的情况下,通常能够从特征流中获取充足的测试语音分

布信息,这样使得当前测试的区分度充足,能够将这段话正确的从非目标

说话人上区分出来,从而达到正确识别说话人的目的。但是在短测试语音

情况下,测试语音中包含的说话人分布信息往往不够充足和稳定,很有可

能与非目标说话人上有一定相似度,并且 GMM-UBM 系统使用单一特征

统一建模,没有挖掘其中哪部分特征的区分性更明显,这些都可能会导致

在多个说话人上的相似度都很高,从而产生混淆,降低系统性能,即此时

测试语音“容易像其他的说话人”。

1.3.3 短语音问题研究现状及分析

经过半个世纪的发展,说话人识别取得了长足的进步,但是在短语音方面的

研究成果一直有所欠缺。随着实际中需求的出现,最近几年语音领域的研究者开

始重视对这方面的研究,并开展了一些很有意义的科研工作,但是总体来说短语

音研究依然处于起步阶段。下面从数据准备、模型训练和打分计算这三个方面来

进行叙述说明。

1.3.3.1 选取更有区分性的数据

语音数据是进行说话人识别的基础,语音数据的好坏会直接影响到后面进行

识别的性能,而语音中的不同部分所包含的信息是有差异的,那么从中挑选出系

统所需要的部分就是一种比较直观的做法。因此就如何挑选出有效的语音,研究

者开展了一系列工作。

韩国的说话人识别研究者在 2007 年建立了一种反馈验证的机制来挑选语音

(Kwon and Narayanan, 2007),对于提取出来的语音特征序列,Kwon 认为其中可

以分为说话人混淆的部分和说话人非混淆的部分。将语音帧在训练好的说话人模

型上反馈打分,并设定一个阈值,他认为打分低于阈值的帧属于混淆部分,不利

于判决,应将其丢弃,并重新训练得到更鲁棒的说话人模型。

澳大利亚的说话人识别研究者M. Nosratighods 在 2010年提出了一种基于相似

说话人集合的语音分段选择方法(Nosratighods et al., 2010)。他认为语音中有识

别性能好的部分,也有不好的部分,语音长度缩短时系统性能下降的原因是在于

整段语音打分判决带来的平均效果削弱了系统的判决分辨程度。针对这个问题,

他将语音进行分段,只选取其中打分最显著最可靠的语音段来进行训练和识别,

从而改进识别结果。在 NIST SRE2002 数据库电话信道数据上,测试语音 15 秒左

右的情况下,该方法从 19.4%的 EER 下降到 18.44%。

Page 21: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

11

1.3.3.2 训练更精细的模型参数

同样的训练数据条件下,不同的说话人模型训练方法所能提供的模型参

数的分辨程度也是不一样的,更精确的模型能更好地体现说话人的个性信

息,增加不同说话人之间的区分性,在较短测试语音条件下相对性能也会更

好,所以模型训练也是改进的一个重要方面。

昆士兰大学的 Robbie Vogt 带领的研究小组在最近几年中发表了一系列

论文,论述了 GMM-UBM,GMM-SVM,JFA,i-vector 这几种主流说话人识

别建模方法在短语音条件下的表现情况(Vogt et al., 2008; McLaren et al.,

2010b; McLaren et al., 2010a; Vogt et al., 2010; Kanagasundaram et al., 2011)。

R. Vogt 认为 GMM-UBM 中的模型参数中绝大部分参数并没有体现当前说话

人的信息,希望使用 JFA 和 i-vector 这种去除冗余模型参数的方法,精细化

说话人的模型参数,使得在短语音条件下的说话人识别取得一定改进。实验

结果显示,在测试语音 2 秒左右的情况下,GMM-UBM 的实验结果为 23.98%,

JFA 的实验结果为 22.48%,i-vector 的实验结果为 21.98%。可以发现虽然 JFA

和 i-vector 方法针对 GMM-UBM 方法进行了一定的改进,并且在语音充足的

情况下取得进步,但是在短语音条件下的改进并不能令人满意。

除了以上主流的方法以外,也有不少研究者在这些框架外进行了一定的

研究。吉利大学林琳等提出了一种模糊核矢量量化的说话人识别算法(林琳

等 , 2007)。该算法将说话人的语音特征映射到高维特征空间,并在这个高

维特征空间中对说话人的语音特征进行聚类分析,以此来提高语音特征模式

的线性可区分概率。识别时,在高维特征空间中进行模型与识别矢量的匹配

计算。实验结果显示,该方法提高了短语音条件下的系统性能。

1.3.3.3 更合适的似然分计算方式

经典的 GMM-UBM 系统上的打分判决方法是基于对数似然分的判决方

法,即选用当前语音在说话人模型和通用背景模型上的对数似然分差值作为

评判是否是当前说话人的准则,本质上是计算在该说话人模型上的相似概

率。Malegaonka 认为,这种打分方式是一种单边(Unilateral)的打分方式

(Parris and Carey, 1998; Malegaonkar et al., 2008),即说话人 A 的语音在

说话人 B 的模型上似然分很高并不代表说话人 B 的语音也会在说话人 A 的

模型上得到很好的似然得分,无法很好的表示说话人之间的相似程度,并且

在短语音条件下这种非相互性体现更明显,所以他们提出了一种双边

(Bilateral)的打分策略,这种打分方法将测试语音也训练成为一个 GMM

Page 22: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

12

模型,在测试和训练两方面互相计算对数似然分,并用一个平衡参数来加权

这两个相互打分。作者认为这种打分方式更好的计算了测试语音和模型语音

的近似程度。用该分数计算方法替代原有的似然分计算方法的实验结果显

示,在测试语音长度为 3 秒到 5 秒左右时,系统性能相对改进在 20%左右。

上述三个小节综述了当前在短语音领域的一些尝试和改进,但是这其中

仍然存在一些问题,需要研究者继续探索和研究,下面对以上三个改进方向

的优点和缺点加以分析。

作为改进短语音说话人识别的一个直接的方法,挑选有效的语音数据取

得了一定的改进。相对于使用整个语音进行测试,这种方法希望摈除掉不利

于说话人识别,或者说混淆性较大的语音,从而达到改进系统性能的目的。

这种方法出发点很好,但是受挑选准则的影响较大,带有一定的主观性,如

果挑选的不好,往往会适得其反。

在 GMM-UBM 系统上发展改进出的一系列新模型方法在现实中都取得

很大的成功,更精细的说话人模型建模方式确实带来了说话人识别的进步,

并在充足数据上取得了很好的识别性能。但是更精细的模型训练方法往往意

味着这些方法需要满足的前提假设更多,首先这些假设是否合理有待商榷,

例如 JFA 方法认为语音中的说话人信息可以与其他信息分开建模,然而后期

实验验证这是很困难的(Dehak, 2009; Dehak et al., 2011);其次在短语音这

种数据极度不足的情况下很难完全满足这些模型的前提假设,从而带来了很

直接的负面影响,并不能像在充足的条件下一样大幅改进系统性能。

对于 1.3.3.3 小节提出的分数域的方法,将测试语音训练为 GMM 模型

这种方式,在语音很短的情况下 GMM 模型会很不稳定,而且平衡参数的变

动也会使说话人确认系统的阈值变动很大,使系统的稳定性降低。

总的来说,这些方法并没有充分考虑短语音说话人识别的难点,只是考

虑了短语音难点中的区分性不足容易混淆的问题,并未从提高训练和识别的

匹配角度上对短语音说话人识别进行改进,还需要进一步的优化改进。本文

希望保留增加区分性的优点,并从增加匹配性的角度来改进短语音说话人识

别。

Page 23: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

13

1.4 研究工作概述

1.4.1 研究目标和思路

本文的研究目标是在测试语音的有效语音长度小于 2 秒的条件下,改善

文本无关的说话人确认系统性能。由于短语音说话人识别当前研究较少,并

且以上这些改进方案基本基于主流的说话人识别框架,所以本文同样选取

GMM-UBM 说话人识别系统作为基线系统。

现有的说话人识别系统对短语音的性能并不能让人满意,但是人对很短

的语音却能比较好的识别。生物学的研究证明,人只需要 500 毫秒到 700 毫

秒的时间就能够对声音进行反应和识别,这就证明了人其实可以在一个元音

时长内通过语音完成说话人识别这个任务(Compton, 1963)。那么人是如

何做到这一点的呢?

语音中包含着不同层次的信息,从语音具体的频谱信息到人发声的特性

信息再到高层的语言信息。语音中的丰富信息既包含了说话人发音特性的部

分,也包含了发音内容部分。对于人来说,语音并不只是一个简简单单的声

音流,它其实是一个具有多种信息的综合体。T. K. Perrachione 2007 年的文

章中指出,脑造影显像显示,人的语音感知识别是一个来自“嗓音信息和语

言信息”(Vocal and Verbal)的综合响应(Perrachione and Wong, 2007)。

语音的感知特性信息结构(Belin et al., 2004; Belin et al., 2011)可以如图 1.5

所示。

人在对语音进行识别判决的时候,并不只单纯依赖其中的某一方面,而

是针对具体情况对以上信息进行不同的利用,来加强与人脑记忆中的说话人

的匹配。例如,如果某人的嗓音很有特点,那么人们很大可能利用他的发音

的特性来区分他;如果某人喜欢在说话中使用某个词,那么人们则会针对他

发音的内容信息来匹配他。最近,脑科学家的实验观察证明,人对语音的反

映是一种“选择性”的脑部供血过程(Voice-Selective Cerebral Process)(Belin

et al., 2011; Linden et al., 2011),并且针对信息的不同,被强调的信息部分

会被供给更多的血液来进行对应的信息利用。这有力的证明了人对于语音的

识别是一种立体的“加强匹配型”的学习,从底层的声学特性到高层的语义

内容,哪一部分信息的利用对人进行识别更有好处,人就会加强对应部分信

息的匹配挖掘。

Page 24: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

14

物理特性分析

声学特性分析

语言特性分析

高层特性分析

语音的感知特性

信息结构

图 1.5 语音的感知特性模型结构

对比人类丰富的语音属性和自我学习的匹配挖掘能力,传统的基于概率

统计方法的 GMM-UBM 模型的说话人识别框架不管是从底层的声学特性,

还是到高层的语言内容都没有很好地针对说话人语音特点来进行匹配,也没

有从中挖掘更多的信息提供区分性。针对这个缺陷,本文的研究思路是:从

短语音说话人识别的两个难点出发,借鉴人对语音信息处理的特性,挖掘人

发音中的丰富属性,从语音自底层到高层的各类信息中加强对说话人训练识

别的匹配,寻找更多的区分信息,从而对匹配性不足和区分性不够这两个难

点进行探索和解决。

由于在短语音条件下说话人识别的系统性能已很不乐观,所以本文研究

中将尽可能减少语音中其他干扰信息的影响,在短语音条件下寻找对说话人

识别更好的信息使用方式。在本文中统一了训练和识别语音的录制信道和发

音方式(正常朗读),在安静的环境下进行录制(一定程度上减少噪音的影

响)。固定了这些方面带来的波动后,保留下语音最本质的的高层内容信息、

说话人信息和底层的声学特性,那么对这些信息具体的利用思路如图 1.6 所

示。

Page 25: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

15

短语音说话人识别

语音信息的挖掘匹配

声学特性信息内容信息

问题定义

用户体验的

实际需求

刑侦安防的

数据获取限制

现实意义

训练识别的匹配性不足 信息量少,混淆性变大 难点

测试语音(很短)

说话人确认(文本无关)

解决思路

图 1.6 解决思路框架

1.4.1.1 利用语音内容信息增加训练识别匹配程度

由于本论文的目的是改善文本无关的说话人确认系统,所以无法限定用

户录制语音的内容,而语音的内容信息极其丰富。在文本无关的说话人识别

中,通常对语音内容不做直接识别处理,但这并不表示语音中带有的内容信

息就不会对说话人识别的结果产生影响,那么如何处理语音的内容信息就是

一个很直接的问题了。而文本相关的说话人识别因为其内容信息的高度匹配

性,其系统性能远好于文本无关的说话人识别,因此如果能利用语音中的内

容信息,将文本无关一定程度上转换为文本相关,那么就能增强训练和识别

的匹配程度。在语音研究上,自动获取语音中内容信息方式就是使用语音识

别的相关技术。

说话人识别和语音识别作为语音领域两个重要的分支,近些年都得到了

很好的发展。说话人识别主要通过利用和探索语音中包含的说话人个性信息

来达到识别人的目的,语音识别则主要研究了语音中包含的内容信息。虽然

Page 26: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

16

目的不一样,但是这两方面不管在研究中使用的特征,还是后续的建模上都

有一定的通用性。通常认为语音中的说话人信息和内容信息是在语音中整体

体现的,所以其中包含的说话人信息也会被所说的语音内容影响,在充足语

音条件下,测试语音中的内容信息与训练的内容信息的匹配性是足够的。但

是在短语音条件下,其内容信息相对训练来说远远不足,因此造成了训练和

识别时语音内容的不匹配。

语音识别能够为研究者自动的提供语音中包含的各类内容信息。如果利

用语音中的不同内容信息有针对性地建立说话人模型,测试时只在匹配语音

内容信息的说话人模型上进行打分判决,就可以提高说话人训练和识别的匹

配程度,改进短语音条件下的文本无关说话人识别性能。

基于这种思路,用语音识别的客观结果提供内容来作为训练识别匹配的

先验信息,即可以解决上文研究现状中的数据挑选具有主观性的问题,提供

客观的匹配依据。并且这种方法本质上是对说话人空间进行了划分,利用语

音识别的结果作为先验信息,在子空间上对说话人信息进行了更精细的模型

描述,所以也继承了上文研究现状中模型领域的改进思路,完善和推进了短

语音说话人识别现有的一些研究成果。

在上述思路中,面临的一个直接问题就是某些内容信息数据缺失的时候

如何使用这种思路来改善短语音说话人识别。在这种情况下可以利用额外的

开发集数据分析出说话人模型所缺失的内容信息和存在的内容信息之间的

特性差异,并使用目标说话人模型和分析出的特性关系为目标说话人合成出

其在缺失的内容信息上的特异说话人模型。如果当前的内容信息描述充足有

效,则直接训练得到该类的模型进行识别;如果不足,则使用合成的模型来

进行替代补偿,达到准确识别目的。

1.4.1.2 利用声学特征的融合挖掘提供更有区分性的信息

作为说话人识别的基础,特征提取阶段占据了举足轻重的地位,后续的

模型训练和识别都依赖于所提取特征。

目前语音领域主流的特征都是基于短时谱分析得到的,这些特征代表了

语音中不同的声学特性。作为现今最主流的语音特征,梅尔频率倒谱系数

(MFCC)特征在说话人识别、语音识别、语音合成等语音领域的各个方面

都有着成功的应用,证明了这种特征的有效性。MFCC 特征是根据人类的听

觉特性模拟得到的短时功率谱系数。很显然,人的听觉感知并不是在全频段

上都有反应的,而且在不同频段上,对于语音信号的响应灵敏度也不同,所

Page 27: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

17

以 MFCC 特征是一种反映了人类这种非线性的听觉特性的一种特征。但是

语音中并不仅仅能提取 MFCC 特征这一种,MFCC 也只代表了语音中的一部

分信息。在语音领域,除了 MFCC 特征以外常用的还有线性预测倒谱系数

(LPCC)、感知线性预测系数(PLP)等以及这些特征上的一些改进特征。

上述这些主流的语音特征都是底层的声学特性的一种具体体现,不同的

特征代表了语音中不同的声学特性。在充足语音的情况下,单一特征所提供

的信息就能满足说话人识别的需求。但是在短语音条件下,单一的特征信息

很有可能无法满足实际使用中的需要,类似于人对听觉信息的处理方式,我

们需要进一步挖掘语音中的各种不同的声学特性,将各种语音特征中最有区

分性的挑选出来进行训练识别,增加识别的信息量和区分度,这样在短语音

条件下就能获取更好的系统性能。

以上的两个思路主要是通过利用语音中的底层声学特性信息和中高层

的语音内容信息来增强说话人识别中的区分性和匹配程度,达到改进短语音

条件下说话人识别系统性能的目的。那么一个值得讨论的问题是语音中更高

层的类似于说话习惯(Speech Habits)、情感(Emotion)等信息是否能够

对说话人识别产生积极地影响呢?

对于语音中的这一类信息,目前已经有不少研究者展开了相应的工作,

在语音识别、语音合成等领域取得很多有意义的进展(Lea et al., 1972;

Waibel and Weibel, 1988; Hunt and Black, 1996; Van Santen, 1997; Montero et

al., 1998; Schröder, 2001; Ververidis et al., 2004; Ververidis and Kotropoulos,

2006),并且国内在这方面也开展了很好的研究,由天津大学的党建武教授

牵头展开的 973 项目“互联网环境中文言语信息处理与深度计算的基础理论

与方法”①中,社科院的李爱军老师、北京大学的吴玺宏老师就针对这方面

信息在语音识别和合成领域取得了很好的成果。但是这类高层信息在说话人

识别领域还处于探索阶段。语音中的高层特性一般是涉及到习惯或者说话特

性,这些信息都需要比较长的发音来体现,在短语音条件下,获取相对稳定

的韵律等信息难度很大,所以本文的工作内容中暂不涉及这一类高层信息,

而是在最后的展望中作为将来一个值得展开的研究方向。

① http://cs.tju.edu.cn/xwzx/xwdt/20130118043555400vLD.shtml

Page 28: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

18

1.4.2 系统框架

本论文主要基于经典的 GMM-UBM 说话人识别系统框架,以改进短语

音条件下的文本无关说话人确认为目的展开工作,系统框架主要包括以下三

个方面的工作内容:

解决思路:语音信息的挖掘匹配

声学特性信息内容信息

基于Fishervoice

的声学特征融合算法

基于发音基元类的多模型

说话人识别框架

基于投影映射的

基元类模型合成

方法

训练内容信息

均衡充分

训练内容信息

有缺失

图 1.7 论文的工作内容示意图

1.4.2.1 基于发音基元类的多模型说话人识别框架

这一部分的工作主要解决短语音条件下由于语音内容导致的说话人训

练和识别不匹配的问题。针对这个难点,本文提出了一种利用语音内容中的

基元信息来加强说话人识别的训练识别匹配程度的框架。语音内容信息的具

体体现方式由发音基元决定,基元具有一定的共享性,可以用基元描述任何

发音语句的内容信息,但出于对数据稀疏性和发音特性相似性的考虑,本文

使用基元类来代替基元本身。在训练语音数据充足且各类发音基元均衡的前

提下,借助语音识别技术,获取了语音中的基元序列并进行聚类,为每个说

话人训练基于基元类的多个说话人模型,划分说话人模型空间,替代经典

GMM-UBM 框架下的单个说话人模型,这样使说话人模型也含有带有说话

人针对特定基元类别的发音特点。当测试语音到来时,同样也使用语音基元

识别得到基元序列,将识别出来的基元只在对应的基元类模型上进行打分判

决,并在最后对测试语音中不同的基元得分进行打分融合,得到最终判决结

果。

语音中的基元种类多种多样,需要选取较好的基元定义来建立声学模

Page 29: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

19

型,所以通过分析汉语普通话中各种基元的特点,给出了本文在汉语普通话

上的基元定义。对于基元类的划分问题,主要尝试了基于专家知识的基元聚

类方法和数据驱动的基元聚类方法。

1.4.2.2 基于投影映射的说话人基元类模型合成

这一部分主要解决的问题是如何在训练语音不充足的情况下使用基于

基元类说话人多模型的方法。上一节中提出的基于基元类说话人多模型训练

方法的一个重要前提就是需要各类基元的数据都必须满足一定的数据量需

要,即基元均衡、覆盖完整并且数据充足。如果某一类基元的数据不足,会

导致这一类的基元类模型训练不充分,影响最后的识别性能。由于基元类的

内聚性和相对空间上投影变换的稳定性,可以利用基元类的相互关系将缺失

的这部分模型参数信息合成出来,而这种投影变换的模型合成方式最常用的

算法就是最大线性似然回归算法(Maximum Likelihood Linear Regression,

MLLR)(Leggetter and Woodland, 1995)。在这部分本文提出了使用 MLLR

算法的说话人基元类模型合成方法,首先利用开发集训练出各基元类模型之

间的投影关系,当说话人对某个基元类语音不足的时,通过训练得到的投影

关系从训练充分的基元类模型上投影合成出缺失的那一类基元类模型。本文

尝试了基于基元类通用背景模型关系的 MLLR 投影方法和基于 Cohort 参考

说话人的 MLLR 投影方法,第一种方法主要利用了语音上各类基元类之间

的平均特性来投影合成;第二种方法则利用了与当前目标说话人相似的参考

说话人的投影特性。最后对比这两类方法的合成性能及对说话人识别的影

响。

1.4.2.3 基于Fishervoice的声学特征融合算法

这一部分主要解决的问题是短语音条件下测试数据信息不足,区分性不

够的问题。主要从挖掘语音的不同声学特征的特性入手,介绍了各类特征所

包含的语音中的声学信息,针对短语音条件下单种特征提供区分性不足容易

产生混淆的弱点,探索了多种不同语音特征连接并对其进行特征降维的算法

思路,希望从多种特征中抽取出更有区分性的特征子空间来进行说话人训练

测试,从根本上加强短语音说话人识别的性能。这里使用的语音特征包括了

现在语音领域最常用的 MFCC 特征,LPCC 特征以及 PLP 特征上改进得到感

知对数面积比系数特征(Perceptual Log Area Ratio,PLAR)(Chow and

Abdulla, 2004 )。并且将经典的降维压缩算法线性判别分析( Linear

Page 30: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 1 章 绪论

20

Discriminant Analysis,LDA)(Cai et al., 2008)和主成分分析算法(Principal

Components Analysis,PCA)(Jolliffe, 2005)结合起来,提出了基于 Fishervoice

的特征融合降维算法,主要有以下两个目的:第一、解决了特征直接连接带

来的特征正交性的问题;第二、去除了融合特征中冗余的信息,寻找出最有

区分性的部分。

1.5 论文的组织结构

本论文一共包括五章内容,其具体安排如下:

第一章绪论。首先对说话人识别的背景和相关知识进行了一定的概述,然后

描述了在现实应用中语音时长对说话人识别的影响,并进行了相应的文献综述,

接着针对较短测试语音情况下说话人识别系统面临的问题给出自己的一些分析,

最后主要介绍了本文的总体研究思路和相关的研究内容。

第二章基于发音基元类的多模型说话人识别框架。首先对汉语普通话中的常

用的发音基元进行了介绍和对比,并且提出基于专家知识和数据驱动的基元类聚

类方法。接着介绍了基于 GMM-HMM 系统的语音基元识别,并将其和说话人识别

结合,提出基于基元类的多模型训练框架。最后结合实验给出本文提出的基元类

多模型方法相对于 GMM-UBM 基线系统的改进。

第三章基于投影映射的说话人基元类模型合成。首先介绍了最大线性似然回

归算法的基本内容,接着给出基于语音声学空间全局的 MLLR 投影和基于

Cohort 参考说话人的 MLLR 投影这两种方法。最后通过实验来对比这两种

方法的优劣,并得出结论。

第四章基于 Fishervoice 的声学特征融合算法。首先对现在语音领域常用的一

些声学特征进行了介绍和对比,然后提出 Fishervoice 声学融合算法的基本内容和

具体使用的系统框架,最后在实验部分对比了不同特征对于时长的鲁棒性,并给

出实验结果验证融合后特征的有效性。

第五章总结和展望。回顾了本文的主要工作和研究成果,并指出不足和

后续改进的地方,同时对相关领域的研究工作提出展望。

Page 31: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

21

第 2 章 基于发音基元类的多模型说话人识别框架

本章针对短语音说话人识别中训练识别匹配性较低的难点,主要探索了

如何合理利用语音中的内容信息来加强说话人识别中的训练识别匹配程度,

对说话人特性空间进行精细划分描述,从而改善短测试语音条件下的性能。

在很短的测试语音条件下,文本相关的说话人识别在实际应用中的识别

效果远好于文本无关的说话人识别。根据第一章的分析,这是因为测试语音

的发音内容能够很好的匹配训练语音,从而能够减少内容信息的干扰,提高

了说话人识别的性能。在语音很短的情况下,这种匹配的优势更加明显。对

于文本相关的说话人识别,其本质上是完全限定整句语音内容中的各个基元

出现顺序,使得识别只在对应的训练内容上进行打分,这样就不存在由内容

带来的干扰。在文本无关时,无法限定测试时的发音内容,很难在语音整句

上达到这种匹配性,但是由于发音基元相对比较稳定,所以可以在发音基元

级别上来匹配内容信息,这就提供了一个可行的思路:借助语音识别,合理

地匹配语音中的基元内容,将文本无关一定程度上转化为基元类文本相关的

识别,增强训练和识别的匹配程度,原理示意图如图 2.1。

基元P1模型

基元PN模型

...

...

说话人1

w ei n i h ao

测试语音

...

基元P1模型

基元PN模型

...

说话人S

图 2.1 基于基元类的多模型说话人识别方法的原理示意图

Page 32: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

22

在这个思路的基础上,本文提出了一种基于发音基元的多模型说话人识

别方法来改进短语音问题,其前提条件为当前说话人的各类语音发音能充分

的覆盖所有的发音空间,这样可以对说话人的语音数据进行内容基元信息的

分析。在对应发音基元的子空间上建立带有内容信息的说话人特性模型,主

要步骤如下:在训练阶段,利用语音识别来得到训练语音的发音基元序列,

并且对某个说话人的某个发音基元训练模型;测试阶段,当有测试语音进入

系统时,依然先得到其基元序列,而后将基元序列在对应的基元类模型上进

行打分,最后把这些得分融合起来得到最终结果。由于只在对应基元上进行

识别打分判决,这就将文本无关转化成为了基元相关。

由以上的分析和介绍,对比经典的 GMM-UBM 系统,本文提出的基于

基元类的多模型方法是将语音的建模形式进行了进一步的细化,两种方法的

差别如下面两个公式所示:

μ m μ (2-1)

PC PC PC

PC

μ m μ (2-2)

其中公式(2-1)表示了 GMM-UBM 系统中统一的建模方式,而(2-2)则是

本文提出的方法, μ是测试语音的概率分布, m 代表说话人共性即 UBM 模

型, PC 代表测试内容是否为当前的基元,是则为 1,不是则为 0。本文提出

的方法利用语音识别提供发音内容的后验概率来作为基元内容的先验信息

PC ,从而在基元内容子空间上获取了更精准的说话人特性 PCμ 信息,相比

GMM-UBM 模型提高了模型精度和匹配程度。

本文的改进思路是在经典的 GMM-UBM 说话人框架下加入内容信息,

所以先对经典的 GMM-UBM 说话人识别框架进行介绍,然后详细介绍本文

提出方法的技术细节。

2.1 基于GMM-UBM的说话人识别框架

当前在说话人识别上进行模型训练方面最经典的方法是基于高斯混合

模型-通用背景模型(Gaussian Mixture Model - Universal Background Model,

GMM-UBM)(Reynolds et al., 2000)的建模方法,该框架由 Reynold 等人

在 2000 年提出,用统一的概率分布来描述语音中的信息,并在说话人识别

领域发挥了巨大作用(Dunn et al., 2000; Reynolds, 2002; Liu et al., 2006)。

Page 33: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

23

同时本文的基线系统也选取基于 GMM-UBM 的说话人识别系统。

2.1.1 高斯混合模型

高斯混合模型 GMM(Reynolds, 2009)是由 M 个多维单高斯密度函数

进行线性加权组成的一个整体分布,首先定义单高斯密度函数 ,i ig x ,

如式(2-3):

1

1

22

1 1, exp

22

T

i i i i iD

i

g x x x

(2-3)

其中 x 是语音的特征向量,GMM 模型的基本形式为:

1

,M

i i i

i

P x w g x

(2-4)

第 i 个单高斯混合分量的均值矢量为 i ,协方差矩阵为 i ,与这个混合对应

的加权系数 iw 一起构成了 GMM 模型各个混合的参数集合,所以 GMM 模型

参数为 , , 1,2, ,i i iw i M ,M 为 GMM 模型总的高斯混合数。并且加

权系数 iw 满足公式(2-5)。

1

1M

i

i

w

(2-5)

通常情况下,在数据充足时,多个高斯概率分布的线性组合可以逼近任

意的分布,因为这个优点,GMM 模型可以对语音特征的分布进行相对比较

精确的描述,所以在说话人识别、语音识别等语音相关领域运用广泛。

2.1.2 GMM-UBM模型训练

给定测试语音 Y 和假设的说话人 S,对于说话人确认任务就是检验 Y 是

否来自 S,那么说话人确认就可以定义为如下两个假设的假设检验任务:

H0:语音 Y 是说话人 S 发出的;

H1:语音 Y 不是说话人 S 发出的;

那么就需要对上面两个假设进行似然检验,定义阈值 来进行判别,那么检

验如下:

H0 , H0

H1 , H1

p Y

p Y

接受

接受 (2-6)

Page 34: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

24

其中 H0p Y 和 H1p Y 分别是由语音 Y 计算符合两个假设的概率密度函数。

在数学上假设模型 h yp 代表 H0 假设, hyp 代表 H1 假设(备选假设)。所以

对于测试语音的计算基于对数似然比:

hyp

hyplog

p YY

p Y

(2-7)

在说话人识别中 hyp 模型一般代表由目标说话人语音训练的模型,即说话人

模型;而相对的 hyp 模型主要代表与说话人特性无关、只显示共性的模型,

即通用背景模型,这就是高斯混合模型-通用背景模型在数学上的具体含义。

(1) 通用背景模型的训练

一般需要利用数量比较充足的不同说话人的语音来建立一个稳定的并

且说话人特性无关的 GMM 模型来提供人语音中的共性信息,来为后一步的

说话人模型的自适应提供先验信息,这个 GMM 模型被称为通用背景模型

(UBM)。UBM 模型中语音的覆盖情况越均匀广泛,其适用性越好。UBM

模型的好坏会直接影响后面说话人模型的适应情况,对说话人识别的性能影

响巨大。

训练 UBM 模型的主流算法是最大期望算法(Expectation Maximization,

EM)(Bilmes, 1998)。定义训练 UBM 模型的语音数据的特征矢量集合为 X ,

其中包括 T 帧语音, 1 2, , , , ,t Tx x x xX , tx 是第 t 帧的特征矢量并假设各

帧独立,定义 UBM 模型的初始参数为 , , 1,2, ,i i iw i M ,则观测数

据上的分布如下:

1

T

t

T

p p x

X (2-8)

EM 算法依据公式(2-9)中的最大似然准则,使得模型参数产生当前数据的

概率最大,对初始的 UBM 参数 迭代更新训练出新的模型参数 ,直到模

型参数收敛。

Pr Pr X X (2-9)

EM 算法迭代的具体步骤如下:

1. Expectation 步骤:这一步的目的是计算每一帧训练数据在当前的

Page 35: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

25

UBM 各混合上的占有率 Pr ,ti x ,即训练特征矢量tx 由 UBM 模型

中第 i 个高斯混合产生的后验概率,计算公式如下所示:

1

,Pr ,

,

i t i i

t M

k t k k

k

w g xi x

w g x

(2-10)

2. Maximization 步骤:对上述公式中的目标参数计算其极值,使得在

训练数据特征矢量上的总体概率最大,对模型参数进行重新估计,

经过求导得到的更新的 UBM 模型参数 , , 1,2, ,i i iw i M ,

计算公式如下:

第 i 个高斯混合的权重 iw 估计值:

1

1Pr ,

T

i t

i

w i xT

(2-11)

第 i 个高斯混合的均值 i 估计值:

1

1

Pr ,

Pr ,

T

t t

ti T

t

t

i x x

i x

(2-12)

第 i 个高斯混合的协方差 i 估计值:

1

1

Pr ,

Pr ,

TT

t t i t i

ti T

t

t

i x x x

i x

(2-13)

在下一次迭代中,作为 Expectation 步骤中的初始 UBM 模型参数继续

迭代下去,直到参数基本收敛。进行 UBM 模型训练一般需要迭代多次,使

参数达到收敛状态得到稳定的 UBM 模型。

(2) 通过自适应方法得到说话人模型

在 UBM 模型训练完毕以后,需利用当前说话人的数据在 UBM 模型上

自适应得到当前说话人的 GMM 模型。最常用的说话人自适应方法是最大后

验估计算法(Maximum a posteriori,MAP)(Bilmes, 1998)。

值得注意的是,MAP 算法可以对 GMM 模型中的均值、协方差、权重

Page 36: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

26

等参数进行更新,根据 Reynolds 在 2000 年发表的论文所述(Reynolds et al.,

2000),对于说话人识别影响最大的是模型均值的自适应更新,而模型中的

权重和协方差影响不大,并且这两部分的计算开销也很大,所以在实际的说

话人系统中通常假设模型中的协方差矩阵为对角阵,然后保持模型的方差和

权重不变,继承 UBM 模型的方差和权重,只对 GMM 模型的均值进行更新。

对 GMM 模型均值进行自适应的 MAP 算法计算如下:定义 UBM 模型

的参数为 ubm ubm ubm ubm, , 1,2, ,i i iw i M ,语音数据的特征矢量维数为 D

维,说话人训练数据的特征矢量包括 T 帧语音特征 1 2, , , , ,t Tx x x xX ,首

先根据公式(2-10)计算得到训练数据特征由 UBM 模型上的各个高斯混合

产生的概率 ubmPr ,ti x ,1 i M ,使用 MAP 算法适应出来的说话人 GMM

模型的均值 ˆi 计算公式如下:

ubmˆ 1i i i i iE X (2-14)

ubm

1

1Pr ,

T

i t t

ti

E X i x xn

(2-15)

ubm

1

Pr ,T

i t

t

n i x

(2-16)

i

i

i

n

n

(2-17)

可以发现说话人 GMM 模型均值 ˆi 的估计值是说话人训练数据的平均特性和

UBM 模型先验信息的一个折中,即得到的说话人 GMM 模型是当前说话人

数据的期望和 UBM 先验均值的加权平均得到的结果,其调节参数为 i ,而

i 则被式(2-17)中的参数 所决定, 的取值越大,得到的说话人模型余

额趋向于先验的 UBM 模型参数,反之则模型由当前得到的说话人训练语音

决定。一般来说, 的取值为 16,本文的实验部分也采用这个取值。

2.1.3 说话人识别打分

在对测试语音进行说话人识别时,一般使用该语音在目标说话人模型上

和对应通用背景模型上的对数似然比得分(Log Likelihood Ratio,LLR)作

为系统的判决得分,其计算公式如下:

Page 37: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

27

spk spk ubm1log log

t

t t

x

S p x p xN

X

X (2-18)

其中测试语音数据的特征集合为 1 2, , , , ,t Nx x x xX ,包括 N 帧语音特征,

spklog tp x 和 ubmlog tp x 分别为第 t 帧语音数据在目标说话人模型和通用

背景模型上的对数似然打分。说话人确认系统中通过设定一定的阈值来判断

当前的说话人是否为测试语音的目标说话人。

2.1.4 说话人确认系统性能指标

在说话人确认系统中常用的性能评价指标有等错误率(Equal Error

Rate,EER)和最小检测代价(Minimum Detection Cost Function,minDCF)

(Campbell Jr, 1997)。

EER 为错误接受率(False Alarm Rate,FAR)和错误拒绝率(False

Rejection Rate,FRR)这两个值相等时的点。FAR 为错误接受假冒闯入者的

比率,一般代表系统的安全性,这个值越低系统越安全;FRR 为错误拒绝正

确说话人的比率,一般代表系统接受说话人的容易程度,这个值越低越容易

接受当前说话人。检测错误权衡曲线(Detection Error Trade-offs Curve,DET

Curve)就是以 FAR 为横轴,FRR 为纵轴的性能曲线,而这条曲线中 FAR

和 FRR 相等的点即为 EER。通常希望系统的 EER 尽量低,即 FAR 和 FRR

同时都尽可能更小。FAR 和 FRR 都是受到系统阈值的影响,一般阈值升高

的时候 FRR 升高 FAR 降低,反之降低时 FRR 变低 FAR 升高。所以用 EER

来描述了说话人确认系统的一个平均性能。

检测代价函数 DCF 值则是 FAR 和 FRR 的加权和。由于不同的应用背景

下对 FAR 和 FRR 的重视程度不同,对其加权的系数略有不同,得到的 DCF

值也会有不同。DCF 的计算公式如下:

miss miss Target FalseAlarm FlaseAlarm Target1DetC C P P C P P (2-19)

其中 m i s sC 和 FalseAlarmC 分别为对错误拒绝和错误接受的代价权重, T a r g e tP 为目标

说话人测试的先验概率,以上三个参数的通常取值如下:

miss FalseAlarm Target10, 1, 0.01C C P (2-20)

根据不同的要求上述三个参数可以进行调整。 missP 和 FlaseAlarmP 分别为当前阈值

下的错误拒绝率和错误接受率,可以看出 DCF 值是将 FAR 和 FRR 的不同重

Page 38: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

28

要性加权量化,这个值越小,系统性能越好。一般选取所有 DCF 值中最小

的那个作为系统性能的评价指标,即 minDCF 值。

本文一般使用 EER 值和 minDCF 值作为短语音说话人确认系统的评价

指标。

2.2 基于基元类的多模型说话人识别

在本章开始对基于内容信息将文本无关转化为文本相关进行了初步的

介绍。在语音领域,内容信息的具体体现形式是由发音基元决定的,由于语

音中基元的定义多种多样,并且特性不同,本节中首先对不同种类的基元进

行了对比和选择。并且进一步的,本文使用基元类来代替基元本身进行建模

识别,这样做有以下优势:首先,无论哪种语言,发音基元都是很丰富的,

基元的总数一般较大,这会对收集数据产生一定的影响,并且容易产生数据

稀疏问题,而基元类的数量会小于基元的数量,相对不容易产生数据稀疏,

并且能减少混淆产生的错误;其次,很多发音基元在体现说话人特性上具有

相近的分布,可以统一的进行建模,基于这样的原因将其分成一类是可行的。

基于基元类的多模型说话人识别的主体架构如下图所示,主要包括三大

部分:基元类划分、基于基元类的说话人多模型训练和基元类多模型打分融

合。

基元类划分

基于基元类的

说话人多模型训练基元类多模型打分融合

图 2.2 基于基元类的多模型说话人识别方法主体架构

2.2.1 发音基元类划分

2.2.1.1 发音基元介绍和选择

根据语音学(Phonetics)和音系学(Phonology)的相关知识(Ladefoged

and Johnstone, 1982; Selkirk, 1986; 吴宗济 , 1997),各种语言中包含的基元

Page 39: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

29

多种多样并且各有差异。在选择基元时,通常要考虑如下因素:

1. 基元的数目规模:基元的总体数目是否适当会直接影响建立说话人

基元类相关模型的方便程度。总体数目如果过大或者过小都会产生

不利的影响,基元数目如果过大,那么会对训练数据提出更高的数

量要求,这样不仅容易产生稀疏问题,并且会消耗更多的存储空间

和识别时间;基元数目太少,那么代表内容的特性就会比较粗糙,

则不利于识别的精确性,降低识别性能;

2. 基元的灵活性:语言的发音来自于一系列有意义的发音语句,每句

话由一系列词语组成,而不管是词语还是句子都是由一系列发音基

元组成。语言中所有的句子对于发音基元都具有共享性。同时,词

语和句子也可以由不同种类的发音基元组成。一般来说选取的基元

要有足够的灵活性,既能覆盖住所有的语言情况,也能表征出足够

的共享性;

3. 语音学知识的应用:语音学家对于不同语言中基元的研究成果有多

有少,与基元相关的语音学知识可以为后续的聚类和特性分析提供

更多依据,因此一般会选取具有较为丰富语音学知识的语音基元定

义,并根据该定义展开相关工作。

在本论文中,主要针对的语言是汉语普通话,下面对汉语普通话中的各

种发音基元进行一定的介绍和分析。

对于汉语普通话连续发音来说,常用的基元根据发音长度由长到短依次

为:词(Word)、音节(Syllable)、声韵母(Initial-Final),音素(Phone)

(郑方 等 , 1999)。在汉语中“字”和“音节”是相对应的,汉语标准普通

话中无调音节的数目约为 407 个,其协同发音现象严重并且数目过多,不太

适合直接选用作声学模型训练。汉语普通话的标准音素为 35 个,数量较为

合适,但是音素并没有直接反映出汉语普通话的发音特点,而且汉语普通话

中的音素不够稳定,发音转移现象比较明显,所以也不是很好的选择。而标

准普通话中有 59 个无调声韵母,声韵结构是汉语音节中特有的结构,它的

优点在于:

1. 普通话中的汉字都是单音节,并且音节具有独特的声韵母结构,直

接反映汉语的发音特点;

2. 对于汉语普通话的语音学研究成果绝大多数都基于声韵母结构,可

利用的研究信息丰富;

3. 声韵母的发音长度与基元总数也很合适;

Page 40: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

30

4. 声韵母的发音信息基本与国际上对发音的元辅音分类相对应,声母

基本对应了辅音部分,韵母则由元音和鼻音组成,方便对发音特性

进行分析。

通过上述分析不难发现,声韵母是汉语普通话识别基元的最佳选择之一(李

净 等 , 2001)。

表2.1 扩展的声韵母基元列表

种类 基元列表

声母基元

(27)

b,p,m,f,d,t,n,l,

g,k,h,j,q,x,

zh,ch,sh,r,z,c,s,

_a,_o,_e,_y,_w,_v

韵母基元

(38)

a,ai,an,ang,ao,e,ei,en,eng,er,

o,ong,ou,i,ii,iii,ia,ian,iang,iao,ie,

in,ing,iong,iou,

u,ua,uan,uang,uei,uen,ueng,uo,

v,van,ve,vn

在实际使用中,本文的声韵母基元列表采用由清华大学语音与语言技术

中心李净定义的扩展的声韵母基元列表(李净 等 , 2004),其包括 27 个声

母基元和 38 个韵母基元,如表 2.1 所示。其中不带声母的音节中的开头部

分被定义为单独的基元,称为零声母基元,包括{_a,_o,_e,_y,_w,_v}。

而/ii/为与{z,c,s}相接的韵母基元/i/,/iii/为与{zh,ch,sh,r}相接的韵母

基元/i/。韵母部分主要包括单韵母、复韵母和鼻韵母这三种,单韵母即为单

元音;复韵母和鼻韵母较为复杂,是汉语普通话发音的一个突出特点,由多

个元音和鼻音联合发音组成,发音较长且变化比较复杂。汉语普通话是包括

6 个基础元音部位的系统。

值得注意的一点是,语音中的基元很多,并不是所有的基元的特性都一

样,不同的基元不管对说话人识别还是语音识别的效果都是有区别的(Hyon

et al., 2012)。在发音上,最典型的发音特性分类就是元音和辅音,并且在

发音特性上,元音和辅音的区别较大,主要体现在如下方面:

1. 发元音时,发声气流通过喉头以及口腔不受阻碍;发辅音时,气流

通过喉头以及口腔要受到阻碍。这是辅音和元音最主要的区别;

Page 41: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

31

2. 发元音和辅音时的气流强度不同,元音强而辅音弱;

3. 发元音声带振动;发辅音时,声带不一定振动;

4. 元音一般比辅音响亮。

国外有关研究表明,对于说话人识别来说,由于元音承担着发音的主要

部分,更能体现发声激励和发音特性,对于说话人识别来说是发音内容中最

有区分性的部分(Beigi, 2011)。为了验证这个结论,清华大学的龚宬在电

话信道汉语数据库上进行了相关实验(龚宬 , 2013),首先直接将全部的汉

语语音进行说话人识别,然后将语音中的声韵母基元分开,然后对声母部分

和韵母部分分别进行说话人识别,结果如表 2.2 所示:

表2.2 按基元分类的说话人识别性能

数据类型 说话人识别性能 EER

全部数据 7.16%

声母数据 40.25%

韵母数据 5.86%

其中基线系统的等错误率为 7.16%,韵母部分系统性能为 5.86%,相对于基

线系统有较大提升,声母部分则非常糟糕,等错误率升高到为 40.25%,这

个结果也是符合 Beigi 提到的辅音发音短并且送气非常不明显、说话人信息

较少的结论的。通过以上分析,本文主要针对汉语普通话基元中与元音对应

的韵母部分进行语音内容信息的挖掘匹配,以提高短语音条件下的说话人识

别性能。

2.2.1.2 发音基元聚类方法

在选择出基元集合以后,接下来需要对其进行聚类。定义 1 2, , NP P P 为

整个基元集合,共有 N 个基元,且 iP 代表某一个特定基元,而基元类的定义

如下:

1 2

1

: , , , , 1, , ,j

n

j j j jK j

j

PC P P P j n K N

(2-21)

其中 jPC 为第 j 类基元类,且基元类的数目为 n。对于基元类 jPC ,其中包含

jK 个基元。聚类方法分为基于专家知识的聚类方法和数据驱动的聚类方法。

Page 42: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

32

基于专家知识的聚类方法主要来自于语音学家多年来对于各种发音的特性

分析和总结结论,并且利用这些结论来将基元组合分类;数据驱动的基元聚

类方法主要使用机器学习中的聚类算法,在数据空间上对各类基元建立模型

进行聚类。下面分别对这两方面进行叙述。

(1) 基于专家知识的基元聚类方法

目前对各类语言较为通用的语音学发音特性定义标准来自于国际语音

学学会(The International Phonetic Association,IPA)定义的基于元音和辅

音的国际音标字母表(The International Phonetic Alphabet) (International

Phonetic Association, 1999)。IPA 为世界上所有语言的发音标注定义了一个

标准,不管是汉语的声韵母、英语的音素还是其他语言的发音都可以在其中

找到对应的发音信息。在这个表中详细描述了各类元音和辅音的发音特性和

发音位置,所以基于专家知识的聚类方法首先参考来自于 IPA 的元音发音图

示,如图 2.3。根据 IPA 的元音发音表,分类的依据主要是人在发音中嘴部

的发音部位,越向左则舌头越向前伸出,越向上则张口越小。音素基元在图

上的位置分布可以对基元分类提供依据。

前 次前 中央 次后 后

次闭

半闭

半开

次开

成对的符号中,左右两侧为圆唇和非圆唇之分

右为圆唇唇元音,左者非圆唇元音

图 2.3 IPA 元音位置分布示意

根据 IPA 中的设定,汉语是一个 6 个元音部位的系统,这 6 个基础元音

为:a 为发音部位中央,张口程度开口的元音;e 为发音部位中央,张口程

Page 43: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

33

度中等的元音;o 为发音部位后部,张口程度半开的元音;u 为发音部位后

部,张口程度闭口的元音;i 为发音部位前部,张口程度闭口的非圆唇元音;

v(ü)为发音部位前部,张口程度闭口的圆唇元音。汉语中的各个韵母基元

都是由上面的元音和鼻音(/n/、/ng/)联合组成。

表2.3 本文基于专家知识的韵母基元分类

分类 韵母列表

开 a,ao,e,er, ia,iao, ie, iou,o,ve, ii,iii

齐 ai,ei, i,uai,uei

合 iou,ou,u

撮 v,vn,ve

鼻音 1 an,en, ian, in,uan,uen,van

鼻音 2 ang,eng, iang, ing, iong,ong,uang,ueng

根据清华大学康世胤毕业论文中对汉语韵母的分类(康氏胤 , 2010),

按照发音方式可分为开、齐、合、撮、鼻辅音这几类,这也是与 IPA 定义基

本一致的。由于汉语韵母发音情况较为复杂,根据韵头和韵尾以及韵母中鼻

音的不同其分类也略有不同,这里根据康世胤在论文中的论述进行一定的简

化和调整,得到本文的分类,如表 2.3 所示。

值得注意的是汉语普通话中韵母的发音情况很复杂,其中存在严重的发

音转移现象和发音重音变化,受到发音中韵头、韵尾中重音的影响很大,不

同的语音学家的分类定义也会存在不同,所以上述的韵母分类只是本文的一

家之言,目的是为了提供一定的语音的相关标准信息和基本的聚类说明,实

际中具体的发音情况是否完全符合上表是值得商榷的。

(2)数据驱动的基元聚类方法

本文使用了一种基于矢量量化(Vector Quantization,VQ)的基元聚类

方法,对各个基元建立模型后让其自行聚类,该方法主要包括以下步骤:

1. 收集足够的语音数据,并且这些语音数据能够充分的覆盖所有的汉

语普通话中韵母基元的发音。同时要考虑到降低其他因素(例如噪

音和信道因素)干扰,保持性别均衡。然后使用 EM 算法在这些数

Page 44: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

34

据上训练一个通用背景模型 UBM,参数为ubm ;

2. 对于每个特定基元 nP 收集足够的数据,然后使用 MAP 算法(Bilmes,

1998)自适应得到对于该基元的 GMM 模型nP ,作为后续聚类的基

础;

3. 定 义 基 元 类 模 型 之 间 的 距 离 度 量 。 这 里 主 要 使 用 KL 距 离

(Kullback-Leibler divergence)(Xiang and Berger, 2003) 来度量两

个高斯分布之间的距离。其定义如下,对于两个多维单高斯分布

,a aN 和 ,b bN ,它们之间的 KL 距离的计算公式如下:

1 1

1/2 1/2 1/2 1/2

1/2 1/2 1/2 1/2

1,

2

1

2

1

2

T

a b b a a b b a

T

a b a b

T

a b a b

KL N N

tr

tr D

(2-22)

其中 tr 运算为求矩阵的迹,D 为输入特征的维数。J. Campell 在

1997 年的文章(Campbell Jr, 1997)中对上式进行了一定的简化运算,

其公式如下:

1 1

1 1

1,

2

1

2

T

a b b a a b b a

a b a b

KL N N

tr

(2-23)

两个基元 GMM 模型之间的距离是基于上述单高斯分布之间的距离

计算得到的。对于两个基元 GMM 模型 1 和 2 ,两个模型之间的 KL

距离计算公式如下:

1 2

1 2

1

, ,M

i i i

i

KL w KL N N

(2-24)

其中 1

iN 和 2

iN 分别代表两个基元 GMM 模型 1 和 2 的第 i 个单高斯混

合,而 1 2,i iKL N N 是使用公式(2-23)来计算得到的单高斯 KL 距离,

iw 为 UBM 中第 i 个单高斯混合的权重;

4. 从 N 个基元 GMM 模型中使用最大最小准则挑选 J 个作为初始的聚

类中心,下面的公式(2-25)定义了单个 GMM 模型与一个 GMM 模

型集合 S 之间的距离, i 代表一个 GMM 模型:

Page 45: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

35

, min ,i i jj S

d S KL

(2-25)

基于最大最小准则的基元模型聚类中心挑选流程如下:定义两个不

同的 GMM 集合 1S 和 2S ,其中 1S 初始包含全体基元 GMM 模型, 2S 初

始不包含任何基元 GMM 模型。首先利用 UBM 模型和公式(2-25)

计算选择出第一个聚类中心 j :

ubmarg min , jj S

j KL

(2-26)

然后将 j 从集合 1S 中剔除并将其加入集合 2S ,接着利用公式(2-26)

选择下一个初始聚类中心,式(2-27)的含义是从基元类 GMM 集合

1S 中寻找与集合 2S 距离最大的基元类:

21 1

2ˆ arg max , arg max min ,i i j

j Si S i Sd S KL

(2-27)

选择出 GMM 模型后更新集合 1S 和 2S ,一直重复本步骤,并使集合 2S

中的初始聚类中心达到指定的 J 个,完成基元聚类中心选择;

5. 使用 K-Means 聚类算法(Hall, 1967)进行基元 GMM 模型聚类。分

别计算每个基元 GMM 模型到 J 个基元聚类中心的 KL 距离,选取这

J 个距离中最小的那一类中心,将该基元划分到该类。然后同样重复

该流程,迭代计算更新各类基元集合,直到 K-means 算法停止,从

而得到最后的基元分类结果。

以上就是基于专家知识的基元聚类方法和数据驱动的基元聚类方法。在

实验部分,本文将对比这两种不同的聚类方法对最后说话人识别性能的影

响,并得到相应结论。

2.2.2 语音基元的判别

识别语音内容主要使用语音识别的相关技术,来自动的获取语音中的发

音基元信息,如图 2.4 所示。

Page 46: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

36

图 2.4 基元序列示意图

自动语音识别(Automatic Speech Recognition)(Rabiner and Juang, 1993)

将输入的语音提取语音特征,称为观测序列 O,定义输入语音的真实发音序

列是 B ,对特征序列计算后验概率,得到概率最大的情况下对应的声学模型

序列作为识别结果,如公式(2-28)所示:

ˆ maxB

P B O P B O (2-28)

根据贝叶斯公式:

ˆ maxB

P B O P O B P B (2-29)

其中第一项 P O B 描述了基元序列生成观测序列的概率,称其为声学模型

(Acoustic Model)(Rabiner and Juang, 1993), P B 为语言中基元的出现

概率,称为语言模型(Language Model)(Stolcke, 2002)。求解 ˆP B O 后

验概率最大情况下的基元序列 B̂ 的过程称为搜索解码过程,如公式(2-30)。

ˆ arg maxB

B P O B P B (2-30)

声学模型主要使用高斯混合模型 -隐马尔科夫模型(Gaussian Mixture

Model-Hidden Markov Models,GMM- HMM)(Rabiner and Juang, 1993)。

本文利用语音识别的方法的根本出发点是在于利用内容标注达到增加说话

人识别训练识别匹配程度,从而构建多说话人模型的目的,所以从根本上说,

本文并不是在对语音进行语音的具体内容识别,也同时也是本文采用音素分

类而非纯粹语音识别的出发点;另一方面,片面强调精准语音识别,还会增

加不必要的复杂度,用语音识别扰乱了原本的多模型说话人识别的框架。总

的来说,因为语音识别的结果不是本文的研究目标,故而本文使用较为经典

Page 47: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

37

的 GMM-HMM 语音识别模型。

对于每一个发音基元都建立一个对应的自左向右( left-right)的 HMM

模型,其模型示意如图 2.5。

1 2 3a12 a23

a11 a22 a33

a13

1

图 2.5 HMM 模型示意图

HMM 模型为一个有限状态机,定义其状态数目为 N,t 时刻的状态为 tq ,

其模型参数主要由三部分组成,第一部分为初始状态概率:

1

,1 , 1N

i i

i

i N

(2-31)

第二部分为状态转移概率矩阵 A,由跳转概率 ,i ja 组成,其中 ,i ja 为状态 i 跳

转到状态 j 的概率:

, , 1, ,1 ,i j i j t tA a a P q j q i i j N (2-32)

最后一部分为各状态输出的观测概率分布 B:

, ,1i i tB b b o P o q i i N (2-33)

当这三部分定义下来,就构成了一个 HMM 模型,其参数为 , ,A B 。一

般来说,在语音领域中常选用高斯混合分布 GMM 作为状态输出的观测概率

分布 B 的模型分布,即 GMM-HMM 声学模型。

由于本文使用语音识别技术是达到匹配说话人训练识别的目的,所以语

音识别的具体结果和识别性能不是本文的研究目标,这里主要考虑声学模型

对基元的识别影响,不使用语言模式,所以公式(2-30)退化为:

Page 48: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

38

ˆ arg maxB

B P O B (2-34)

2.2.3 基于基元类的说话人多模型训练

对于基元类的说话人模型的训练方法,还是使用基于 GMM-UBM 的模

型训练框架,具体分为以下两个部分。

2.2.3.1 训练基元类相关的通用背景模型

对 UBM 开发集语音数据提取语音特征,并进行语音基元识别后,获取

语音中的基元标注信息,然后根据标注信息将所需的基元数据进行语音切

分,得到所需要的基元数据。对所有的基元数据使用 EM 算法训练得到基础

通用背景模型 UBMbase,模型参数为 UBM 。

接着训练每一类基元类的通用背景模型,流程如下:对每一类基元类的

语音数据,在基础通用背景模型 UBMbase 的参数 UBM 上使用 MAP 算法自适

应出各个基元类相关的 GMM 模型,其参数为 ubm

j ,1 j J ,J 为基元类的

类数。把这一系列基元类相关的 GMM 模型作为后续说话人模型自适应时使

用的基元类相关的 UBM 模型,称为 UBMPC,为下一步训练说话人基元类相

关的 GMM 模型做好准备。

2.2.3.2 训练基元类相关的说话人模型

这一节主要介绍如何从基元类相关的 UBMPC 模型上自适应得到当前说

话人基元相关的 GMM 模型,主要流程如图 2.6 所示。

对于说话人 s 的训练语音,先对其进行语音基元识别,接着根据统一的

基元类定义,对其进行基元聚类,完成数据准备工作。对于给定说话人 s 的

第 j 类(1 j J )基元类语音数据,使用基于最大后验估计 MAP 的算法从

对应的基元类 UBM 模型 ubm

j 上进行说话人模型自适应,得到说话人 s 的基

元类相关的一系列说话人模型 s

j (1 j J )。

Page 49: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

39

说话人s训练语音

语音基元识别器

基元类

PCs1数据

基元类UBM1

基元序列 基元类定义

基元类

PCsJ数据

MAP算法

基元GMMs1:

ubm

1

基元类UBMJ

ubm

J

1

s …

基元GMMsJ:s

J

图 2.6 基元类相关的说话人模型自适应流程图

2.2.4 基元类多模型打分融合

对于测试语音,先对其进行基元识别得到相应的基元序列标注。对于其

中的每一个基元,都在对应的那一类说话人基元类模型和基元类 UBM 模型

上计算其对数似然比得分,然后将其融合得到最终的测试语音判决打分。对

于语音识别给出的结果,一般选用其最高几个概率选择进行得分计算。

假设测试语音含有 L 个基元,对于其中的第 l 个基元(1 l L ),其语

音识别后对应的基元类为 lPC ,对应的特征向量集合为 lX ,包括 lf 帧特征矢

量,则某个基元在说话人 s 的基元类模型上的对数似然比打分 l 计算如下:

ubm1log log

sl ll l PC l PC

l

p pf

X X (2-35)

计算完每个基元的对数似然比得分以后,对各个基元的打分进行加权平均,

计算公式如下:

Page 50: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

40

1

1

1 L

s l lLl

l

l

f

f

(2-36)

得到所有的s 计算得分后,统计说话人识别在各个阈值下的结果,得到系

统性能。

2.3 实验

2.3.1 实验数据和设置

为了验证基于基元类的多模型说话人识别方法的实验性能,本文主要在

汉语普通话数据库上进行实验对比,并对结果进行分析得到结论。

(1)短语音说话人识别数据库 SUD12

由于现存的汉语普通话说话人识别数据库一般都会有录制信道或者环

境噪音的影响,而且如果从中采取切出短语音段的方式来准备测试语音,首

先与实际的发音情况不符,此外也会存在切出来语音中基元不完整的情况,

更主要的问题还有无法保证发音内容信息的均衡性和充分性,所以本文不采

用切分的方式准备短语音测试数据。本文专门为短语音说话人识别设计并录

制了一个汉语普通话数据库,数据库名为 SUD12 数据库(Zhang et al., 2011;

Zhang et al., 2012)。为了尽量研究短语音对说话人识别的影响,这个数据

库的语音采集过程中使用同一个录音室,在相对安静并且环境较稳定的状况

(减少噪音影响)下使用同样的麦克风(消除信道差异)录制。这个数据库

的总人数为 60 人,包括 30 男和 30 女,所有说话人录音方式为正常的朗读

方式,并且朗读文本为特定设计的发音文本,使该文本能保证基元信息的覆

盖并且数据量充足。所有数据采样频率为 16,000Hz,采样精度为 16bit。

录音文本分为两部分:第一部分为训练数据,包括 100 个汉语长句子,

每个汉语句子包含 10~30 个汉字不等,平均长度为 15 秒左右,有效语音长

约为 10 秒。设计文本考虑到声韵母的发音覆盖情况,以及上下文对声韵母

发音的影响,这里的文本覆盖率和均衡度基于“di-IF”基元组合(Dobrisek

et al., 1999),对于中文普通话来说其“di-IF”的统计信息如表 2.4。

Page 51: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

41

表2.4 普通话“di-IF”基元组合统计信息

di-IF 类型 举例 数量

声母+韵母 zh+ong 380

零声母+韵母 _y+uan 36

韵母+声母 ong+n 38*21

韵母+零声母 ua+_y 38*6

总计 -- 1,442

使用人民日报中的句子作为候选的语音文本,总的文本数为 5,000 句。

为了挑选其中基元信息丰富并且“di-IF”基元组合良好的句子,这里使用低

频单元加强(Encouraging Low-Frequency Units,ELF)算法(Xiong and Zheng;

Li et al., 2003),每次迭代将备选语句进行排序,从所有句子中找出“di-IF”

基元组合贡献度最低的句子,将其替换为贡献度最高的句子,然后从所有候

选集合中挑选出所需要的最好的 100 句话的文本。最后挑选出来的句子,单

发音基元(声母+韵母+零声母)覆盖率为 100%,“di-IF”基元组合覆盖率

为 82%。并且对于对个声韵母基元,其中至少都包括数十次的发音,保证其

充分性。

第二部分为测试语音,包括 63 句汉语普通话短语音,每句话的发音包

括 1~3 个音节,平均有效发音长度为 1.5 秒,并且覆盖了汉语普通话中的所

有辅音发音基元,双字和三字短语为日常使用中词频较高的汉语词语,表

2.5 为测试语音时长的具体分布表。

表2.5 测试语音时长分布表

有效发音时长 句子个数 所占比例

小于 0.5 秒 38 60.3%

0.5 秒~1 秒 15 23.8%

1~2 秒 10 15.9%

对于汉语普通话的说话人识别实验,本文对所有的测试数据进行全交叉

测试,即每段测试语音在所有训练模型上都进行打分,总测试次数约为 22

万次测试。

(2)UBM 训练数据

Page 52: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

42

对于汉语普通话,进行 UBM 模型训练的数据库为 863 汉语普通话数据

库(王天庆 和 李爱军 , 2003),这个数据库是由国家 863 计划支持,863

委员会组织录制完成的,录制单位为中国社会科学院语言所和中国科技大

学,这个数据库经过精心设计和录制,对汉语普通话中的各种发音情况都有

很好的涉及和覆盖,能够满足实验上基元覆盖的充分性和完整性需要,在国

内汉语普通话的语音研究领域应用很广泛。本文从中选取 80 男和 80 女的语

音,每个说话人包括 75 句发音,每句话的发音时长约为 5 秒,总发音时长

约为 17 小时,数据采样频率为 16,000Hz,采样精度为 16bit。

(3)说话人识别实验参数设置

对于说话人识别,声学特征采用 16 维的 MFCC 特征以及其一阶差分 16

维,一共 32 维特征,并且对特征使用倒谱均值减和倒谱方差归一化(Cepstral

Mean Subtraction-Cepstral Variance Normalization,CMS-CVN)(Furui, 1981)。

MFCC 特征的前端处理参数如下:帧长和帧移分别为 20 毫秒和 10 毫秒,预

加重系数为 0.97,使用汉明窗(Hamming Window),对每帧语音的 FFT 大

小为 256,Mel 滤波器组的个数为 30 个,语音的截止频率为 0~8,000Hz。对

于语音首先使用基于能量的语音活动检测算法(Voice Activity Detection,

VAD)(Kinnunen and Li, 2010)检测出语音中的发音部分,除去静音部分

后作为训练基元类 UBM 模型和说话人基元类模型的输入,对其提取语音特

征序列。训练通用背景模型和说话人 GMM 模型的混合数为 1,024 混合,其

中单高斯维数为 32。MAP 自适应系数为 16。

后面章节如果提到对应部分的实验设置参数均参照以上的设定,不再额

外进行叙述。

2.3.2 实验结果和分析

实验一 基于 GMM-HMM 系统的语音识别性能

对于基于 GMM-HMM 的语音识别,训练和测试数据库都来自清华大学

语音与语言技术中心的 Sony PTH 数据库(Zhang et al., 2013),包括 51.5

小时训练数据和 3.9 小时测试语句,语音数据采样频率为 16,000Hz,采样精

度为 16bit。其声学特征采用倒谱均值归零化(Cepstral Mean Normalisation,

CMN)(Young et al., 2006) 处理过的 12 维倒谱系数,和 1 维能量特征一

起构成的 13 维 MFCC 特征,和其一阶差分向量和二阶差分向量,一共 39

Page 53: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

43

维。对于汉语普通话,构建 22 个声母、36 个韵母,6 个零声母的 HMM 模

型,每个 HMM 模型拓扑结构都是 5 共享状态,与图 2.5 类似,从左到右并

且不跳过状态,共享状态为 3,000 个,每个状态为 12 个高斯混合组成的

GMM。

表2.6 GMM-HMM系统的语音识别性能

系统名称 音节准确率

GMM-HMM 77.5%

本文使用的系统与在 Zhang 的论文中使用的系统完全一致,在 Zhang

的论文中还提到了其他几种对基于 GMM-HMM 的语音识别进行改善的方

法,在汉语普通话上的改善幅度不大,并且本文的目的是使用语音识别来匹

配内容信息,具体的识别结果不是本文的目标。可以认为本文使用的

GMM-HMM 系统性能比较稳定。

使用该 GMM-HMM 系统在 SUD12 说话人识别数据库上进行语音内容的

识别,得到最终的发音基元标注信息。

实验二 数据驱动的发音基元聚类实验

对于数据驱动的基元聚类方法,不同的聚类数目会对后面的说话人识别

性能产生重大影响,聚类数过多会产生数据稀疏问题,使当前基元类的代表

性不好,而聚类数目过少则区分性不足。汉语普通话的聚类实验的说话人识

别性能结果如图 2.7 所示。

Page 54: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

44

1 2 3 4 5 6 7 8 9 10 1122%

23%

24%

25%

26%

27%

28%

29%

30%

聚类数目

说话

人识

别性

能(

EE

R)

图 2.7 汉语普通话数据驱动的基元聚类系统性能

可以发现对于汉语普通话,当聚类数逐渐增加的时候,说话人确认的等

错误率首先开始降低;当聚类数达到一定的数值时达到最低点,此时聚类数

目比较合适,内聚性较好,说话人识别性能达到最优;之后当聚类数增加时,

说话人识别的等错误率则开始提高,系统性能恶化,这是符合预期的。其中

聚类数为 6 类的韵母基元分类如表 2.7 所示:

表2.7 本文数据驱动的韵母分类

韵母分类 韵母基元

1 a,ao,an,ang,ai, ia, iao

2 e, ie,ai,ei, i,uei , iii

3 iou,ou,u,ong, iou,o

4 v,vn,ve,van,er

5 en, ian,uan,uen,uai, in, ii,ing

6 eng, iang, iong,uang,ueng

对比发现,数据驱动的基元聚类和基于专家知识的基元聚类的结果有一定的

Page 55: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

45

差异性,这是由于首先本文基于韵母基元的专家知识的分类并不是一个放之

四海皆准的唯一分类,不同的语音学家定义会有不同。此外,实际数据库上

发音的具体情况也会不同,而且语音识别时也会产生一定的误差,使得某些

特定的基元和标准的专家知识的结论产生了一定的差距,这两种聚类方式存

在不同也是符合客观现实的。

在各个系统的实验对比中,数据驱动的实验选取图中最好的系统性能结

果作为数据驱动聚类方法的性能基准。

实验三 基线系统与基于基元类的多模型说话人识别方法比较

本文使用的基线系统是经典的 GMM-UBM 系统,这一节主要对比本文

提出的方法和基线系统的系统性能,并给出分析,相应的实验结果如表 2.8

所示。

表 2.8 各说话人确认系统的性能对比

系统 EER minDCF

性能 相对下降 性能 相对下降

GMM-UBM 29.78% -- 10.13% --

专家知识+

基元类多模型 25.80% 13.36% 9.54% 5.81%

数据驱动+

基元类多模型 22.74% 23.64% 9.06% 10.56%

实验结果显示,不管是基于专家知识聚类还是数据驱动聚类,本文提出

的基于基元类的多模型说话人识别方法都在经典的 GMM-UBM 方法上取得

了明显的改进,验证了加强语音内容匹配性能够提升短语音条件下说话人识

别性能的观点。在汉语普通话上,本文提出的方法分别取得了 13.36%和

23.64%的相对 EER 下降,对于 minDCF 也有相近似的改进。

2.4 小结

本章首先介绍了经典的 GMM-UBM 文本无关说话人识别框架,接着分

析了语音中的内容信息对说话人识别的影响,提出了基于基元类相关的多模

型说话人识别方法。该方法充分考虑了语音中的高层信息,将语音发音的内

Page 56: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 2 章 基于发音基元类的多模型说话人识别框架

46

容信息加入到说话人识别的模型训练中,这样加强了训练和识别之间的匹配

程度,从而改进了短语音条件下说话人识别的性能。基于基元类相关的多模

型说话人识别方法首先对汉语普通话中的不同发音基元进行了介绍比较,对

汉语普通话选取了合适的基元集合,并提出了基于专家知识和数据驱动的基

元聚类方法,最后介绍了基元类相关的多模型训练和基元类融合打分识别。

与传统的 GMM-UBM 方法相比,本文提出的方法在汉语普通话的短语音说

话人识别问题上取得了较为显著的改进。但是该方法的应用需要均衡性和充

分性比较好的数据支持,在数据不足的情况下会存在一定的缺陷,因此需要

进一步的完善加强。

Page 57: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

47

第 3 章 基于投影映射的说话人基元类模型合成

3.1 引论

本章主要解决的难点是在说话人训练数据也有一定缺失和不足的情况下如何

使用基于基元类的多模型方法来改善短语音说话人识别。

基于基元类的多模型说话人识别方法在较短的测试语音条件下取得了较好的

改进性能,这种方法使用的前提假设是目标说话人各类基元类的训练发音数据都

满足一定的数据量要求,即满足训练语音数据内容的均衡性和充分性要求,但是

现实中说话人的训练数据的语音内容很难控制,这样会很有可能在某些基元类上

无法收集到足够的基元语音数据,这样在缺失数据的基元类上当前说话人就无法

训练得到很好的基元类模型,导致多模型说话人识别方法无法使用。所以本章主

要针对这个问题进行了一定的分析和探索,希望能利用基元类之间的相互差异关

系合成出缺失数据的那一类基元类模型,从而扩展了基于基元类的多模型说话人

识别方法的使用范围。

对于不同说话人的相同内容的发音,其语音特征在空间上的分布是有一定相

似性和内聚性的,这一点由语音识别对语音中的发音基元建立声学模型可以得到

证明,而较好的基元类划分可以将语音空间上相似的基元划分到一类,保持类内

有一定的内聚性。所以在基元类的划分确定以后,不同基元类之间的相对位置和

映射关系是比较稳定的,这种稳定性就为合成缺失的基元类模型提供了可能。当

说话人的某一类基元类的训练数据不充足时,可以利用额外的语音数据信息来分

析出缺失部分与充足部分的之间的特性关系,并用已存在的模型结合分析出的特

性合成得到缺失数据的模型。而本文对于缺失的说话人基元类模型合成的思路就

是从上面的分析而来,由于需要描述两个基元类之间的变换关系,这里使用基于

投影映射的说话人模型合成作为主要手段。

根据基元类模型投影合成参考特性的不同,本章主要尝试了两种合成方式:

基于基元类通用背景模型关系的 MLLR 投影映射和基于 Cohort 参考说话人

的 MLLR 的投影映射。这两种方法分别利用了语音上各类基元类之间的平均

特性和与当前目标说话人相似的参考说话人的投影特性,来作为合成的依

据。

Page 58: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

48

3.2 说话人模型合成

说话人模型合成(Teunen et al., 2000; Reynolds, 2003; Wu et al., 2006)本质上

就是一种说话人模型自适应的过程。本文基于基元类投影合成的前提假设是认为

缺失部分的说话人基元类模型与存在的基元类模型之间存在一个较为稳定的变换

关系,通过这个变换关系对当前说话人已存在模型的参数进行相应的变换,从而

自适应出缺失的说话人基元类模型。基于这种变换的思想,最典型的说话人模型

自适应算法是最大似然线性回归(MLLR)算法。

3.2.1 最大似然线性回归算法

MLLR 算法(Leggetter and Woodland, 1995)在 1995 年被提出,当时主要用

来解决语音识别中对某个特定说话人的声学模型进行自适应的问题,Leggetter 为

了将语音识别中的说话人无关的声学模型投影到某个特异说话人空间上而提出了

该算法。 MLLR 算法本质上是一种基于参数估计变换映射的模型自适应方法,在

语音领域 MLLR 算法不管在说话人识别上还是语音识别上都发挥了重要的作用

(Gales et al., 1996; Gales, 1998; Kajarekar and Venkataraman, 2005; Ferras et al.,

2007; Stolcke et al., 2007)。

由于说话人识别主要基于 GMM-UBM 方法,在 GMM-UBM 系统框架下对说

话人的描述是通过模型均值的变化来体现的,那么 GMM 模型的均值是本文主要

考量的目标,所以主要针对均值矢量进行 MLLR 变换。MLLR 算法的基本流程是,

对于一个当前存在的模型和一个目标的语音特征矢量集合,对当前模型的均值进

行变换,使其变换后的模型参数在目标矢量集合上的概率最大,从而得到目标矢

量空间上的模型参数。

MLLR 算法的具体流程如下:假设当前原始的 GMM 模型包括 M 个高斯混合,

其均值集合为 r ,其中 r 为 GMM 模型第 r 个高斯混合的均值矢量(1 r M ),

那么经过 MLLR 算法变换以后得到的新的均值矢量 ˆr 的计算公式如公式(3-1)。

ˆ 1T

T

r r rL L (3-1)

假设语音特征矢量维数为 D 维,L为一个 1D D 的变换矩阵,所以一般也

可以将映射出来的新的均值矢量写成 ˆr r A b 的形式,其中b为 D 维的偏差矢

量。 r 为扩展的原始模型均值矢量,定义如下:

1

1

1

T

r D

T

r D

(3-2)

Page 59: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

49

由于 MLLR 算法使变换后的均值在目标语音特征矢量集合上的概率最大,那么其

核心问题就是对变换矩阵 L 的估计,其最优值的估计是基于最大似然的方法。假

设 GMM 模型中每个高斯分布分协方差矩阵均为对角阵,则变换矩阵 L 的最优估

计值如下:

1

i i iL G k (3-3)

其中 iL 为变换矩阵 L 的第 i 个行向量,上式中等号右边的部分对应的计算公式如下

面几个公式所示:

21 1

1M TT

i r i r

r t r

l t o ti

k (3-4)

2

1 1

1M TT

i r r r

r tr

G l ti

(3-5)

1,rl t P r

P

O

O

(3-6)

上述公式中的变量定义如下,O为全体目标语音特征矢量集合, io t 为时间 t 时

刻语音特征矢量的第 i 维(1 i D )矢量元素, 2

r i 为高斯混合模型第 r 个高斯

混合的标准差的第 i 个元素, rl t 则是 t 时刻的语音特征矢量 o t 在第 r 个高斯混

合上的后验概率值,通过计算 ik 、 iG 和 rl t 最终得到变换矩阵 L 的最优估计值。

在后面两节中,本文利用 MLLR 这种投影变换的思想设计了两个不同的基于

基元类相互关系的基元类模型合成方法。

3.3 基于基元类通用背景模型关系的模型合成方法

这一节希望从总体的基元类相互关系中挖掘出所需要的基元类之间的映射方

式,从而合成出缺失的基元类模型。

3.3.1 通用背景模型关系的模型构建

基于基元类通用背景模型关系的模型合成方法利用了不同基元类的通用背景

模型的参数作为先验知识。对于每一类基元类通用背景模型的训练,都使用了充

足的基元发音数据,很好的描述对应语音内容下人发音的平均特性。所以不同基

元类的通用背景模型参数的变化能够体现说话人语音在发音内容上的特性变化。

Page 60: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

50

基础通用背景模型

基元类1的

通用背景模型

基元类J的

通用背景模型

目标说话人的

基元类1模型

目标说话人的

基元类J模型

……

……

图 3.1 基于基元类通用背景模型的模型构建结构

该方法首先训练一个包括全部汉语韵母基元数据的通用背景模型 UBMbase,而

且韵母数据上各类基元类的数据相对比较平衡,这样训练出来的该通用背景模型

是各个基元类无关的;然后对不同的基元类,收集该基元类对应的大量说话人数

据,从 UBMbase模型上使用 MAP 自适应算法训练出特定基元类相关的通用背景模

型 UBMPC;对于说话人的基元类相关模型的训练,利用该说话人的训练数据从

UBMPC 上同样使用 MAP 算法得到说话人的基元类模型。整个流程与第二章中基于

基元类相关的说话人多模型的训练方法一致,这样保证了所有基元类模型的各个

GMM 模型的高斯混合之间存在对应性。

3.3.2 缺失数据基元类的说话人模型参数合成

如果说话人的某个基元类模型由于数据的问题无法训练得到,则利用目标说

话人存在的基元类模型和对应的基元类通用背景模型来进行合成,其流程如下:

假设说话人存在的基元类模型的所属基元类为 PCa,而缺失数据的基元类为 PCb,

则说话人的 PCb 模型的合成算法如下:

,PCubm

,PC ,PC ubm

,PC

a

b b

a

m

m m

m

ww w

w

(3-7)

,PC ,PC 1b a

TT

m mL (3-8)

1

ubm ubm

,PC ,PC ,PC ,PCb b a am m m m

(3-9)

其中各个参数的定义如下:上标带 ubm 的参数代表对应 PCa 和 PCb的通用背景模

Page 61: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

51

型的第 m 个高斯混合的参数,分别为 ubm ubm ubm

,PC ,PC ,PC, ,a a am m mw 和 ubm ubm ubm

,PC ,PC ,PC, ,b b bm m mw ;

而 ,PC ,PC ,PC, ,a a am m mw 和 ,PC ,PC ,PC, ,

b b bm m mw 为说话人存在的 PCa 基元类模型的

参数,以及需要合成出的数据不够的 PCb 基元类模型参数。

根据 GMM-UBM 框架下的通常设定和说明,说话人模型只关注均值矢量的变

化,其他部分不变,所以上述公式中(3-7)和(3-9)可简化为:

,PC ,PC ,PC ,PC,b b b b

ubm ubm

m m m mw w (3-10)

然后对公式(3-8)的变换矩阵 L进行说明,其估计值来自:

ubm ubm

,PC UBM ,PC 1b a

TT

m mL

(3-11)

即这个投影变换矩阵 L的估计值来自于基元类通用背景模型之间的投影关系,这代

表了这个算法的物理含义和前提假设:

UBML L (3-12)

由上式可知,目标说话人的各个基元类模型之间的投影变换关系和对应的基元类

通用背景模型的投影变换关系相一致,然后利用这个一致性的关系来合成出缺失

的基元类模型,如图 3.2 所示。

PCa PCb

ubm

,PCbmubm

,PCam

,PCam ,PCbm

图 3.2 基于通用背景模型投影映射关系说明

但是这种投影特性只利用了说话人无关的特性,合成的途径相对来讲比较粗

糙,下一节本文将加入相似说话人的特性来进一步细化。

3.4 基于Cohort参考说话人集合的基元类模型合成方法

在上一节中本文对基于基元类通用背景模型关系的基元类合成算法进行了叙

Page 62: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

52

述,主要的思想是用基元类通用背景模型中语音内容信息的平均特性关系作为参

考,对说话人缺失的基元类进行补充合成。该算法的前提假设是说话人的各个基

元类之间的相互变换关系与平均化的基元类通用背景模型的相互变换关系一致,

即这种变换关系是说话人无关的;但是由于不同人的发音情况还是会存在比较明

显的差异,所以不同说话人的各个基元类之间的变换关系和投影矩阵可能会存在

不同,并不一定与基元类的平均特性完全符合。而上一节的合成方法并未考虑不

同说话人的相互差异,也未利用这个差异对变换关系进行一定的补充和调整。

为了对不同的目标说话人建立其特异的基元类投影变换关系,这一节介绍了

基于 Cohort 参考说话人集合的基元类模型合成方法。这个方法的基本思想是建立

一个额外的说话人语音数据集合,对于有基元类数据缺失的目标说话人,在这个

额外的开发集中寻找与其发音特性较为相似的说话人来提供变换信息。Cohort 参

考说话人集合的概念最早在 1992 年由贝尔实验室的 A. E. Rosenberg 教授、李锦辉

教授、庄炳煌教授和宋謌平教授联合提出(Rosenberg et al., 1992),其含义就是

与目标说话人语音特性相近似的一组参考说话人集合,并在说话人识别上发挥了

一定的作用。

由于需要寻找与目标说话人相似的说话人,需要对说话人语音的相似度量加

以定义,所以下面分别对相似度定义和具体的合成算法进行介绍。

3.4.1 说话人语音相似度定义

如果对不同说话人语音的相似程度直接用语音数据来进行度量,会存在比较

大的困难(Wester et al., 2010),一般需要将语音训练成对应的模型,用各个说话

人模型之间的相差来描述说话人之间的相似程度。Kullback-Leibler(KL)散度

在信息论领域被用来定义两个分布函数之间的相关熵(Relative Entropy),

由于它不具有对称性,所以 KL 散度不是严格意义上的距离度量,其计算公

式如下:

, logKL

f xD f x g x f x dx

g x

(3-13)

其中 f x 和 g x 为两个概率分布函数。为了能在说话人识别上使用,本文使用扩

展后的对称 KL 散度:

, log logKL

f gD f g f dx g dx

g f

(3-14)

Page 63: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

53

如果使用上述公式的对说话人 GMM 模型进行精确计算,需要使用 Monte-Carlo 方

法(Ben et al., 2002)进行随机抽样计算,计算过程相对比较繁琐。根据清华大学

的吴畏 2007 年的文章(Wu et al., 2007),对于计算从同一 UBM 模型上自适应得

到的两个说话人模型之间的相似性,其基于 KL 散度的相似度计算公式可以简化

为:

1 2

11 2 1 2

1

,KL

M Tubm

m m m m m m

m

D

w

(3-15)

其中 1 和 2

为同一 UBM 模型上自适应出的两个说话人 GMM 模型。

Monte-Carlo方法计算的KL散度

简化

的G

MM模

型K

L散

图 3.3 两种 KL 散度计算的比较(Wu et al., 2007)

为了验证公式(3-15)与 Ben 设计的 Monte-Carlo 方法的一致性,在文章中吴

畏对两种方法进行了比较和验证(Wu et al., 2007),得出的结论是用公式(3-15)

计算出的 KL散度的值总体上比 Monte-Carlo 方法偏大一些,但是两者的相关系数

为 0.9934,相关性非常明显,所以对于说话人的相似排名,使用简化后的公式并

不会对实际排序产生影响。本文后面的相似性度量同样使用公式(3-15)。

3.4.2 基于Cohort参考说话人模型构建

先介绍整体的模型结构,如图 3.4 所示,同小节 3.2 中的模型相互结构基本上

一致,只是增加了 Cohort 参考说话人集合的模型训练。建立一个新的 Cohort 说话

Page 64: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

54

人数据库,收集额外的说话人语音作为参考集合,对其中的说话人数据进行发音

基元识别和基元聚类,并训练相应的说话人基元类多模型,作为每个基元类的

Cohort 数据全集。对于当前说话人识别系统中的每个目标说话人,在对应的基元

类 Cohort 全集上根据相似度找出与自己最相似的部分作为自己的 Cohort 子集,当

目标说话人的某个基元类数据不足时,用其存在部分基元类的 Cohort 子集中的说

话人的基元类相互关系来合成出缺失的模型参数。

基础通用背景模

基元类1的

通用背景模型

目标说话人的

基元类1模型

基元类J的

通用背景模型

目标说话人的

基元类J模型

目标说话人

基元类1的

Cohort子集

目标说话人

基元类J的

Cohort子集

… … …

… … …

基元类1的Cohort全集 基元类J的Cohort全集

图 3.4 Cohort 参考说话人集合的模型结构

3.4.3 缺失数据基元类的说话人模型参数合成

具体做法如下:对于基元类多模型框架中某个目标说话人的两个基元类 PCa

和 PCb,假设其在 PCa上有足够的数据,并训练出了对应的基元类模型,而在 PCb

上的数据不足,需要进行合成。在 Cohort 说话人语音全集上挑选出与目标说话人

同在 PCa 上模型相近的说话人,并将其定为目标说话人的相似者,利用相似者 PCa

和 PCb 上的映射变换关系来为目标说话人合成缺失的基元类模型。单个相似者的

投影变换的变动误差较大,一般会挑选多个相似者组成一个 Cohort 参考说话人子

集来保证整体算法的稳定性。

与 3.2 节的假设一致,目标说话人缺失数据的基元类为 PCb, PCb 基元类模型

的第 m 个高斯混合的模型参数合成计算公式如下:

Page 65: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

55

ubm

,PC ,PCb bm mw w (3-16)

,PC ,PC 1b a

TT

m mL (3-17)

ubm

,PC ,PCb bm m (3-18)

其模型参数设置也和 3.2 小节中一致,公式(3-17)中的变换矩阵 L 的估计值如下

计算得到:

Coh Coh

,PC ,PC 1b a

TT

m C mL

(3-19)

变换矩阵 CL 表示与目标说话人最相似的参考说话人的投影关系,即目标说话人的

各个基元类模型之间的投影变换关系和其对应的 Cohort 子集中的相似说话人的投

影变换关系相一致。

CL L (3-20)

PCa PCb

Coh

,PCbmCoh

,PCam

,PCam ,PCbm

图 3.5 基于 Cohort 参考说话人的投影映射关系说明

如果只单独对目标说话人使用一个参考说话人的投影映射关系,那么相关性

会比较大,容易导致合成性能不稳定,所以一般需要挑选一定量的参考说话人,

并将其组成目标说话人的 Cohort 子集,然后对 Cohort 子集中的所有参考说话人的

合成特性进行平均,获取较为稳定的缺失模型。假设 Cohort 子集包括 N 个参考说

话人,对公式(3-17)进行改进,对所有参考说话人进行均值平均得到最终的均值

合成公式(3-21)。

Page 66: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

56

,PC , ,PC

1

1 1

b a

NT

T

m C n m

n

LN

(3-21)

3.5 实验

3.5.1 实验数据和设置

本章使用的 UBM 训练和说话人模型训练识别的数据库与第二章的设置相同,

为 863 汉语普通话数据库和 SUD12 短语音汉语普通话数据库,MFCC 特征提取和

GMM-UBM 模型参数设置也相同。

为了建立目标说话人的 Cohort 集合,这里选用北京得意音通公司为韩国的

SITEC 中心(Speech Information Technology and Promotion Center)录制的汉语普

通话数据库。这个数据库由麦克风在干净环境下录制,包括 300 位说话人,150 位

男说话人和 150位女说话人,语音数据采样频率为 16,000Hz,采样精度为 16bit。

这个数据库初始目的是研究汉语普通话的语音识别,所以在录制时考虑到了汉语

中的发音均衡,每个说话人包括 100 句 10 秒左右的标准普通话朗读语音,与 SUD12

数据库和 863 数据库的录制情况基本对应并且基元集合完备,比较适合用来作为

参考说话人集合。从这个数据库中挑选 150 男和 150 女作为 Cohort 全集,为后面

实验做好准备。

3.5.2 实验结果和分析

为了验证模型合成的效果,本文假设说话人的某一类基元类模型无法训练,

然后选用存在的一类基元类模型作为基础模型使用上文介绍的 MLLR 投影合成的

算法将缺失的基元类模型合成得到,并使用合成的基元类模型替代原有的训练充

足的基元类模型,来验证基于基元类多模型的说话人识别方法。

实验一 基于基元类通用背景模型关系的模型合成实验

这一节主要验证基于基元类通用背景模型关系的模型合成效果,表 3.1 为对应

映射合成后的短语音说话人识别性能,其中纵列为 MLLR 投影变换的说话人基础

基元类模型,横列为合成出来的缺失基元类模型,中间的数字为用合成模型替代

原始模型后的基元类多模型说话人识别结果,这里 MLLR 的投影矩阵训练来自不

同基元类的通用背景模型,基元类聚类方法为数据驱动的聚类方法:

Page 67: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

57

表3.1 基于基元类通用背景模型关系的模型合成性能

EER(%) 基元类 1 基元类 2 基元类 3 基元类 4 基元类 5 基元类 6

基元类 1 26.61 27.09 27.08 27.29 26.68

基元类 2 27.12 27.06 27.04 27.27 26.63

基元类 3 27.21 27.18 27.47 27.62 26.98

基元类 4 27.02 27.56 27.11 27.31 26.17

基元类 5 27.10 27.15 26.79 27.11 26.69

基元类 6 26.94 27.52 27.01 27.25 27.32

可以发现基于基元类通用背景模型投影关系的合成方法性能相对比较稳定,这是

由通用背景模型的说话人无关特性决定的。根据第 2 章的实验结果,数据较为完

备时的短语音说话人系统性能为 22.74%,这种合成方法相对于数据集完备的多基

元类方法 EER 绝对值提高了约 4.27%,性能损失比较明显,但是相对于传统的

GMM-UBM 系统 EER 相对降低了 9.10%,仍然有所改进,并且该方法受到的影响

较小,性能较为稳定,说明这种模型合成方法还是有一定效果的。

实验二 Cohort 参考说话人模型合成实验

这一节主要研究基于 Cohort 参考说话人的模型合成方法。选取基元类 3 为基

础基元类,基元类 4 为缺失基元类进行相关的实验验证。由于 Cohort 参考说话人

模型合成方法是对参考说话人进行选取达到合成的目的,那么无论是 Cohort 总集

合还是针对某个目标说话人的 Cohort 子集大小都会对合成的结果产生直接的影

响,下面针对于合成时目标说话人不同的 Cohort 子集和 Cohort 总集合进行实验,

实验结果如图 3.6 和图 3.7 所示:

Page 68: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

58

5 10 20 30 50 100 150 20024%

25%

26%

27%

28%

说话

人识

别性

能(

EE

R)

目标说话人Cohort子集说话人数目

图 3.6 目标说话人 Cohort 子集大小对合成结果的影响

50 100 200 300

24.2%

24.4%

24.6%

24.8%

25.0%

25.2%

25.4%

25.6%

说话

人识

别性

能(

EE

R)

Cohort全集说话人数目

图 3.7 Cohort 全集大小对合成结果的影响

对于目标说话人的子集大小的实验结果,可以发现在开始 Cohort 子集增大时

Page 69: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

59

合成的性能在逐步优化,这是因为选取的 Cohort 说话人与目标说话人的说话特性

较为类似,投影合成出来的模型较好;随着加入子集的说话人数目增大到一定程

度,加入 Cohort 子集的说话人的相似程度会下降,此时选取的参考说话人和目标

说话人特性区别明显,并且很有可能性别都不符合,不仅达不到模拟目标说话人

投影变换的目的,还会产生负面影响,所以当 Cohort 子集达到一定数目后合成性

能开始下降也是符合预期的。在最优点的合成性能 EER 为 24.33%,选取的参考说

话人人数为 20 人。

以此为基础对 Cohort 参考说话人全集进行实验,观测 Cohort 参考说话人全集

中的说话人数目变化对说话人识别性能的影响规律。可以发现短语音说话人识别

的性能随着 Cohort 全集中说话人数目的增多而下降,并且在 Cohort 集合说话人数

目达到 200 人以后趋于饱和。这是因为 Cohort 参考说话人集合总人数少的时候,

可供目标说话人寻找的相似说话人数目也相对较少,选择余地有限。当 Cohort 集

合的说话人数目达到一定的量以后,目标说话人可以从中比较富余的选取相似的

说话人,借助参考说话人对目标说话人的特性描述达到最优,从而模型合成较为

良好。

表3.2 最优合成性能比较

系统 EER 相对下降

GMM-UBM 29.78% --

基元类通用背景模型合成 27.06% 9.13%

Cohort 集合模型合成 24.33% 18.30%

对比一下基于基元类通用背景模型的合成方式和基于 Cohort 参考说话人的合

成方式,在最优点的短语音说话人识别性能上,两种方法相对于经典的 GMM-UBM

方法都取得了一定的改进,EER 相对下降分别为 9.13%和 18.30%,一定程度上证

明了合成的有效性。两种合成方法对比数据充足的情况来说,Cohort 参考说话人

集合的合成方法比基于基元类通用背景模型的合成方法性能损失更少,EER 相对

提升为 6.91%,总体来说合成效果更为优良。但是相对来说,Cohort 合成方法受到

选取的参考说话人影响变动较大,需要针对不同目标说话人进行多次测试来确定

其最优值,合成的稳定性不是很好。总的来说,以上这两种合成方法各有利弊。

3.6 小结

在这一章为了解决当说话人训练数据中基元类数据不均衡时说话人某些基元

Page 70: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 3 章 基于投影映射的说话人基元类模型合成

60

类模型无法训练的问题,提出了利用额外数据集合上各个基元类数据之间相对位

置和映射关系,使用投影变换的方式合成缺失基元类说话人模型的方法。本章主

要介绍了两种基于 MLLR 投影映射的说话人基元类模型合成办法,在一定程度上

对说话人基元类模型训练时数据缺失的情况进行了解决;并对比分析了用基元类

通用背景模型关系的合成办法和用 Cohort 参考说话人模型关系的合成办法的优点

和缺点。利用这两种合成办法,在某些基元类缺失的情况下,使用合成出来的模

型进行补充后,相对经典的 GMM-UBM 方法,在短语音说话人识别上 EER 分别

下降了为 9.13%和 18.30%,扩大基于基元类的多模型说话人识别方法的使用前提,

提高了该方法的使用鲁棒性,对短语音说话人识别问题进行了一定的探索和尝试。

Page 71: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

61

第 4 章 基于 Fishervoice 的声学特征融合算法

4.1 引论

前面几章主要讨论了利用语音内容信息对说话人空间进行划分描述的思路,

从而达到增加说话人训练识别匹配性的目的。在本章,主要针对第一章中短语音

条件下测试语音所包含的信息量少、混淆度大的难点,提出了一种利用多种不同

的语音底层声学特征中的信息,将其融合筛选的算法,希望从短测试语音收集多

种不同的特性,挖掘出区分性更强的信息,实现更好的说话人识别性能。

J. M. Naik 在其 1990 年的综述文章(Naik, 1990)中做过如下叙述:人发出的

语音信号,作为一个受到人体发音的物理特性、听觉特征、环境特性(噪音和信

道传递特性)、说话方式特性影响的复杂函数,对其进行特征提取的方式决定了

特征中对以上各种信息的重视程度,对后端语音领域的各种应用具有非常显著的

影响。对于语音中提取出来的不同声学特征,并不能体现语音中的全部信息,只

代表了以上这些信息的某些方面。在较长的测试语音条件下,单种特征的信息量

和区分性足够完成说话人识别任务,但是在短语音条件下,由于数据量少,提供

的区分性就不足,所以需要利用语音中这些不同的特性。

在很多科研领域已经证明了,对某个识别系统中的原始数据提取多种不同的

特征,并将不同特征融合起来取长补短,对于提高系统性能是很有好处的(Yang et

al., 2003; Sun et al., 2005)。对于语音领域的多种短时声学特性特征,最简单的特

征融合方法就是直接对于每一帧语音,将从语音信号中提取出来的多种特征直接

相连成为一个大的语音特征向量。但在实际中这种做法并不可取,这是因为不同

种类的特征互相之间并非正交,直接相连会互相影响,而且不同特征直接相连后

会变成一个高维空间中的向量,提高维度意味着增加复杂度;此外其中很多维的

信息相互之间会有重复,产生冗余信息。因此需要通过降维操作再把高维数据空

间映射到低维空间中,选取其中最有区分性的部分。所以一般来说,对于多种特

征融合的方法,必须解决的两个问题(Yang et al., 2003; Sun et al., 2005)如下:

1. 对多种不同特征进行去相关性操作,使特征之间相互正交化,方便寻找其

中的最有区分性信息;

2. 对高维空间中的数据矢量进行分析,将其中冗余和区分性不强的部分去

除,达到降维压缩数据空间和提高区分性的目的。

经过以上两部分的处理,得到最后所需的融合特征。

Page 72: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

62

本章首先介绍了语音领域最常用的几种底层声学特征,并对这些特征的特性

和提取过程进行了一定的分析和对比,然后利用本文提出的 Fishervoice 声学特征

融合算法对其进行融合降维,并通过实验给出了几种声学特征对经典的说话人识

别中的性能影响,最后给出了改进的融合算法和其性能改进。

4.2 语音底层声学特性特征介绍

语音信号特征在过去数十年的发展中主要是基于物理学信号领域的知识对语

音信号进行分析得到的,物理学家和语音领域的学者们对语音中的各种特性的不

同特点和有效性做出了广泛的研究。在早期的研究中,普遍认为语音频域上的长

时特性,例如 Pitch 信息等,具有较为丰富的说话风格和语调变化上的信息(Atal,

1972; Chen and Wang, 1990),但是长时特性不易测量提取,对说话人特性的细节

描述不足,现在一般使用长时信息作为主流特征的补充和调整;研究语音中短时

频谱信息成为了主流,作为时间的直接函数,频谱信息能很好的体现语音的发音

特点(Davis and Mermelstein, 1980),体现语音随时间的变化规律;随着利用频谱

信息进行研究的不断深入,语音的短时平稳假设和语音频域信息的短时相对稳定

性都促使了语音特征向短时进步,现在基于短时谱特性(Short-term Spectral

Feature)的特征逐渐成为语音领域的主流特征。这类特征对于体现人体发音的特

性描述较好,能反映说话语音生理上的差别,而且相对比较稳定。

另外一类语音相关的底层特征是基于生物神经信号的语音特征。进入 21 世纪,

随着计算神经学的发展,语音领域的不少研究者开始注意语音在人体生物学上的

具体特性,语音和生物领域的研究者开始利用功能性磁共振造影成像(Functional

Magnetic Resonance Imaging,fMRI)分析语音信号在人大脑中的神经响应情况

(Dogil et al., 2002),希望从中找出人分辨语音的主要特征,这些特征现在处在

探索和研究阶段,其稳定性还有待证实。

在当前语音领域主流的系统还是以基于短时的底层声学特征参数作为主要特

征,在这一部分,本文主要对现在最主流的几种短时语音特征及其声学特性加以

介绍和分析,并对比了它们的侧重点,为后面的语音特征融合提供声学特性方面

的基础信息。

4.2.1 梅尔频率倒谱系数

作为目前语音领域运用最广泛的特征,梅尔频率倒谱系数(Mel-Frequency

Cepstral Coefficients,MFCC)在说话人识别、语音识别、语音合成、哼唱识别

等语音领域上都发挥了很重要的作用(Vergin et al., 1999; Logan, 2000; Zheng et al.,

Page 73: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

63

2001)。

4.2.1.1 Mel尺度说明

MFCC 是一种基于 Mel 尺度的倒谱系数,相比其他倒谱系数 MFCC 最突出的

优点是模拟了现实中人耳的听觉特性,即对于不同频率的语音信号,人的感知特

性是有着很大的区别的。生理学研究者和语音学家的实验发现,对于 1,000Hz 以下

的语音,人耳对语音的感知能力是基本呈线性关系的;对于 1,000Hz 以上的语音,

感知能力基本呈对数关系(Stevens et al., 1937)。低频部分的人耳的分辨率会比较

敏锐,高频部分的则会越来越粗糙,分辨率也会下降的很厉害。根据人耳这种听

觉特性,提取特征的过程中需要将语音信号的线性频率转化到基于人耳听觉特性

的非线性频率,这个非线性频域被称为 Mel 域。将线性频率 f 转化到 Mel 域 m 的

转换公式如下:

102595log 1 1127ln 1700 700

f fm

(4-1)

0 500 1000 1500 2000 2500 3000 3500 40000

200

400

600

800

1000

1200

1400

1600

1800

2000

2200

线性频率(Hz)

Mel域

(M

el)

图 4.1 Mel 频率与线性频率转换对应图

经过这种对数域的频率弯折(Frequency Warping)基本能模拟人耳听觉的特性,

其示意图如图 4.1。可以从图中发现线性频域的 1,000Hz 与 Mel 域的 1,000Mel 能够

直接对应上,其代表了人耳感知特性的分界点。利用这种弯折频域,在特征提取

中可以很好地对语音中高频和低频的部分进行不同分辨和强调。

在实际中一般使用一组临界频带三角滤波器组来描述这种频率特性,这组三

Page 74: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

64

角滤波器的特别之处在于相邻三角滤波器的中心频率的频率间隔在 Mel 域尺度上

是相等的,呈一种线性关系,而且在 Mel 域上相邻三角滤波器互相之间保持一半

的重叠部分。三角滤波器的带宽满足临界带宽的限制(Critical Bandwidth)(人耳

分辨不同音调的最低带宽差值)(Moore, 2003),三角滤波器组的结构示意图如

图 4.2 所示。

m1 …… mp三角滤波器对应

的输出能量

图 4.2 Mel 三角滤波器组和对应的输出能量

4.2.1.2 MFCC提取流程

MFCC 特征根据三角滤波器组对应的输出能量进行倒谱计算得到,其具体的

提取流程如图 4.3 所示:

预加重离散傅里叶变换

DFT

三角滤波器组

频率弯折求对数能量

分帧

加窗函数

DCT变换

语音信号

MFCC

图 4.3 MFCC 特征参数提取流程

1. 预加重:目的是消除发声中的声带和嘴唇的效应,补偿语音信号受到人体

发音系统压抑的高频部分,计算公式如下:

Page 75: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

65

2 1 1 1s n s n s n (4-2)

其中 1s n 和 2s n 分别代表预加重前后的语音信号, 为预加重系数,介

于 0.9 和 1.0 之间,这种处理本质上是将信号通过一个高通滤波器进行滤

波,达到补偿高频的目的;

2. 分帧加窗:根据现代语音学对语音信号短时平稳的假设,一般要将语音信

号进行分帧处理。将 N 个语音取样点集合成一个观测单位,称为语音帧,

为了后面进行傅里叶变换的运算方便,一般 N 取 256 点或者 512 点,帧长

约为 15 毫秒到 30 毫秒,并且为了保持相邻帧的变动不会过大,一般帧移

约为 N 的一半或 1/3;

接着对每一帧语音数据乘上一个窗函数以增加帧左右端的连续性,减少边

缘锐变。假设某一帧的语音信号 s n 包括 N 个采样点,窗函数为 ,W n ,

加窗的过程为 ,Ws n s n W n , 0, 1n N ,常用的汉明窗函数定

义如下:

2

, 1 cos1

nW n

N

(4-3)

系数 不同,汉明窗的形式也会不同,一般取 0.46;

3. 离散傅里叶变换(Discrete Fourier Transform,DFT):描述语音信号在时

域上的变化比较困难,一般需要将其转换成频域上的能量分布,使用离散

傅里叶变换将语音信号转化到频谱上,并求出对应的离散功率谱 X;

4. Mel 三角滤波器组频率弯折:对语音的能量谱在图 4.2 的 P 个三角滤波器

上求得每个滤波器的能量输出 0 1, , , PX X X ;

5. 求对数能量:对每个滤波器的能量输出求对数能量,得到滤波器的对数能

量谱 1 2, , , PE E E ;

6. 离散余弦变换(Discrete Cosine Transform,DCT):对对数能量谱,利用

DCT 变换求出 D 阶的 MFCC 参数,计算公式如公式(4-4)。

1

0.5cos , 1,

P

d k

k

kC E d d D

P

(4-4)

以上就是 MFCC 参数的提取过程,实际使用中还会考虑加入一阶对数总能量

作为特征,并加入差分参数(Delta Cepstrum)来显示 MFCC 参数对时间的变化。

Page 76: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

66

4.2.2 线性预测倒谱系数

线性预测倒谱系数(Linear Prediction Cepstral Coefficients, LPCC)

(Makhoul, 1975; Atal, 2005)是对线性预测系数(Linear Prediction Coefficients,

LPC)(Atal, 1976)求倒谱得到的。和 MFCC 特征频率弯折的出发点不同,LPC

系数是从人体声道这一发声系统的本身出发,强调连续语音信号的采样点之间存

在的相关性,即对于一个语音采样点可以使用过去一段时间的语音采样的线性组

合来进行预测表示,然后用这组线性组合的预测系数作为语音信号的特征参数。

而在 LPC 系数上得到的 LPCC 特征包含比较丰富的语音相关性信息,在说话人识

别和语音识别领域都有很好应用。

4.2.2.1 LPC系数

先介绍一下 LPC 参数的计算,对语音信号 s n 进行处理,假设对于时间点 n

时刻的采样值用这个点之前的 P 个语音采样点的线性组合来预测,预测后的信号

值计算如下:

1

ˆP

i

i

s n a s n i

(4-5)

式(4-5)中的 ,1ia i P 即为线性预测系数。由于希望这个线性组合与真实的语

音信号的误差尽量小,所以需要对这个预测信号的误差进行分析,使用误差最小

时的那组系数作为 LPC 的最佳估计值。最常用的误差准则是基于最小均方误差的

准则函数,其计算公式如下:

1

ˆP

i

i

e n s n s n s n a s n i

(4-6)

2

2

1

P

i

n i

E e n s n a s n i

(4-7)

对公式(4-7)求其极小值,得到最佳的 LPC 估计值。实际中常使用求解 ia 最优

值的计算方法有自相关法、协方差法等(Makhoul, 1975)。

4.2.2.2 LPCC参数提取

对上述求得的 LPC 参数进行进一步处理,得到 LPCC 语音特征。根据语音学

家的结论,LPCC 参数能很好的反映出人的声道响应,减少语音中激励信息的影响,

Page 77: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

67

对语音中的共振峰等信息给出更为准确的描述。

LPCC 特征主要是从 LPC 参数中提取对应的倒谱系数得到。首先利用 LPC 参

数建立语音的线性预测模型,其对应的声道传递函数计算如下:

1

1

1P

i

i

i

H z

a z

(4-8)

对传递函数取对数和傅里叶展开在频域中的系数 h n 即为 LPCC 参数:

1

1

lnn

n

H z nh n z

(4-9)

上式中的 iz 各次幂的系数左右对等,得到 LPCC 参数和 LPC 参数之间的计算递推

关系:

1

1

1

1

1

,1

,

n

n n k

k

P

n k

k

h a

kh n a a h k n P

n

kh n a h k P n

n

(4-10)

然后根据这种递推关系从 LPC 参数上逐步求得所需的 LPCC 特征,一般来说 LPCC

特征的阶数 P 取值在 10 到 16 之间。

4.2.3 感知对数面积比系数

4.2.3.1 PLAR特征简介

作为对 LPC 特征的改进和发展,对数面积比系数(Log Area Ratio,LAR)

(Makhoul, 1975)在 LPC 系数上推导发展而来。相比 LPC 系数,LAR 既保留了

LPC 丰富的语音相关信息,对量化噪音的稳定性相对更强。另一种语音领域著名

的语音特征是感知线性预测系数(Perceptual Linear Prediction,PLP)(Hermansky,

1990),PLP 借助人耳听觉实验(人耳的掩蔽特性,等强度加强等)的一些结论,

将这些结论用工程的方法加入到频谱处理中,取得了很好的效果。近年来语音学

者开始尝试用 PLP 系数替代 LAR 提取过程中的 LPC 系数,希望能够将 PLP 对于

人耳听觉感知机理的模拟优势加入到 LAR 中,以这种方式得到的语音特征就是感

知对数面积比系数(Perceptual Log Area Ratio,PLAR)(Chow and Abdulla, 2004)。

Page 78: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

68

PLAR 特征结合了 LAR 系数和 PLP 系数这两种语音特征的优势,综合体现了人发

音的声道特性和人耳的听觉感知机理,希望取得更好的改进。

4.2.3.2 PLAR特征提取

下面介绍一下 PLAR 特征的提取流程,由于 PLAR 是结合了 PLP 和 LAR 这两

种特征的特性,其提取上也可以看出这两种特征提取的踪迹,整体流程如图 4.4 所

示:

离散傅里叶变换DFT

等响曲线

的预加重

强度-响度

转换

逆傅里叶变换IDFT

自回归建模

临界带谱分析

LAR

系数变换

语音信号

PLAR PLP

图 4.4 PLAR 特征参数提取流程

下面对 PLAR 提取步骤进行叙述,输入的语音信号是经过预加重和分帧加窗处理

以后的语音帧序列:

1. 离散傅里叶变换:对时域的语音信号 s n 进行傅里叶变换,得到语音信号

的频谱 S ,求其短时功率谱 P ;

2 2

Re ImP S S (4-11)

2. 临界带谱分析:临界频带根据临界带宽进行划分,并反映了人耳听觉特性

中的掩蔽效应,这一步主要是对信号加入这种特性。首先对频域信号进行

Bark-Hertz 变换,Bark 域上能直接反映出临界带谱,Bark 域和线性频域

f 之间的换算关系如下:

12 2

6ln 11200 1200

f f

(4-12)

可以发现,上述变换和 MFCC 特征提取中对线性频域变换到 Mel 域的公式

(4-1)在形式上是类似的。对变换后的 Bark 域信号与临界带谱掩蔽函数

进行卷积,得到其曲线 :

Page 79: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

69

2.5 0.5

1.0 0.5

0 < 1.3, >2.5

10 1.3 0.5

1 0.5 0.5.

10 0.5 2.5

(4-13)

将短时功率谱 P 和上式进行卷积得到需要求得临界带谱功率谱:

2.5

1.3

i iP

(4-14)

其中 i 是第 i 个临界频带, 1, ,i M ,M 为总体的临界频带个数,其性

质类似于 MFCC 中的三角滤波器组;

3. 等响曲线预加重:使用等响曲线对临界带谱功率谱进行预加重,为后面的

强度与响度变换做好准备,计算如下:

E (4-15)

E 也是模拟人耳对不同语音听觉特性的非线性特性的加权函数,主要

模拟人耳对 40-dB 语音的听觉特性(Makhoul and Cosell, 1976):

2 6 4

22 6 2 9

56.8 10

6.3 10 0.38 10E

(4-16)

以上加权函数对 5,000Hz 以下语音的听觉特性的近似比较准确;

4. 强度响度转换:这部分主要模拟声音强度和响度之间的关系,响度是一种

声音大小的主观感受,强度和感知响度之间的关系是非线性的,换算公式

如(4-17);

0.33

(4-17)

5. 逆傅里叶变换自回归建模求 PLP 系数:利用自回归模型逼近信号的频谱,

使用类似 LPC 参数求解中的自相关递推方法,求解出 PLP 系数 i ,并

定义其阶数为 P;

6. LAR 系数变换:对输入的 PLP 系数,模拟人类声道模型中不同的声管分

段机理,进行 LAR 系数变换,求得 PLAR 特征:

Page 80: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

70

A1 A2 A3 A4声门 嘴唇

声道

图 4.5 语音的声道模型

每个声管的截面积与 PLP 系数密切相关,而 PLAR 系数可以表示为相邻声

管的截面积之比,PLAR 特征由 PLP 系数进行如下计算得到:

1

1log log

1

i ii

i i

APLAR

A

(4-18)

其中 iA 为第 i 个声管的截面积,并且第 P+1 个声管的截面积定义为 1,其

他的截面积与 PLP 系数有关, i 为 PLP 系数的第 i 阶。

上文介绍了三种语音领域的语音声学特征,这三种特征体现了三种不同的声

学感知特性,分别是模仿人的听觉感知特性、模拟人类说话的多节短管声道的发

声特性与将人发音的声道特性和人耳的听觉感知机理结合起来的综合特性。这三

种特征基本代表了语音领域常见的特征提取方式,体现了语音短时条件下的不同

变化。如果在短语音条件下能够充分的利用这些特征中不同的语音信息表征,则

将在短语音条件下从语音中获得更多的区分特性,从而达到减少混淆提高系统性

能的目的。

4.3 基于Fishervoice的特征融合降维算法

4.3.1 Fishervoice特征融合框架

为了利用以上这些语音特征中丰富的信息,提高短语音条件下说话人识别的

性能,本文提出了基于 Fishervoice 语音声学特征融合算法。这种特征融合算法能

够对多种不同特征之间的相关性进行去相关性操作,并将其中冗余和区分性不强

的部分去除,达到降维压缩数据空间和提高区分性的目的,为说话人识别系统的

模型训练和测试识别提供更好的判决依据,算法的基本流程如下:

Page 81: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

71

声学特征 1

多种声学特征

连接

进行PCA变换

进行LDA变换

声学特征 2 声学特征 K

融合后的声学特征

……

Fishervoice

特征降维融合

图 4.6 基于 Fishervoice 的声学特征融合流程

假设语音的训练数据为 1 2, , , Nx x xX ,包括 N 帧语音数据,且这 N 帧数据

来自 c 个不同的目标说话人。假设有 K 种声学特征,首先对每一帧的不同种特征

进行连接,组成一个高维的长特征,并定义总的特征维数为 D,然后对其进行去

相关性和降维的变换,获得融合以后的声学特征。其中利用到了多元统计分析中

的两种算法的特性:主成分分析(Principal Component Analysis,PCA)(Jolliffe,

2005)和线性判别分析(Linear Discriminant Analysis,LDA)(Cai et al., 2008),

其中 PCA 算法主要进行不同声学特征之间的去相关变换,而 LDA 算法则根据说

话人类内和类间的数据分布特性寻找这些特征中最有区分性的部分,并将比较冗

余的部分去掉。

4.3.2 去除多种特征相关性

去除相关性主要使用的方法是基于主成分分析的方法。主成分分析(PCA)

(Jolliffe, 2005)是一种基于数据全局分散性最大化的投影变换算法,PCA 本质上

是一种无监督(Unsupervised)的数据学习方法,其输入的数据是不带标签的数据

全集。PCA 算法的目标是在整体空间上寻找方差最大化的方向,同时也最小化投

影变换后的损失误差,并将数据的各个维度正交化去除相关性。

Page 82: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

72

PCA 算法的去相关性以如下的方式进行:假设输入的数据集合X 中的点都是

在 D 维空间中变动的点,则需要从这个 D 维空间中寻找 D 个相互正交的基向量,

作为这个空间的基底来表示当前空间。为了求解这个完全正交的基向量集合,假

设其为 , 1, ,i i Du ,由于这个基向量集合是完备的,所以这个 D 维空间中的任

何点 nx 都能表示为这个基向量组的线性组合,定义为:

1

D

n ni i

i

x u (4-19)

nx 由系数 ni 所决定,如果用其中的 M(M D )个基向量对上述中的数据点进

行模拟近似,并且为了定义和书写方便定为前 M 个基向量,那么对于 nx 的近似值

可以写为:

1 1

M D

n ni i i i

i i M

z b

x u u (4-20)

其中 niz 由具体的数据点决定, ib 对于所有点是一样的,那么这个模拟值和真实值

之间存在一定误差,因此使用基于最小均方误差的误差函数对其优化:

2

1

1 N

n n

n

JN

x x (4-21)

令误差 J 对公式(4-20)中的两个系数分别进行偏导运算,求得两个系数的极值,

结果为:

T

T

, 1,

, 1,

nj n j

j j

z j M

b j M D

x u

x u (4-22)

其中 x为所有数据点的均值向量,那么带入到 J 中可以发现:

2

T T T

1 1 1

1 N D D

n i i i T i

n i M i M

JN

x u x u u S u (4-23)

其中矩阵 TS 为对训练数据的协方差矩阵,计算公式如下:

1

NT

T n n

n

S x μ x μ (4-24)

对公式(4-23)进行求解,运用拉格朗日乘子法进行运算,对应的求解为下式:

Page 83: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

73

T i i iS u u (4-25)

由上式可知对应的特征向量即为所需要的正交基向量组。

值得注意的是上述推导中使用的M D ,这说明 PCA 算法可以用来进行数据

降维。并且 PCA 算法在M D 时依然有效,尽管不具有降维的特性,但是仍然保

留了对各维特征进行正交化的特性,所以可以用 PCA 算法对多种声学特征进行正

交化。定义这种正交化的投影矩阵为 PCAW ,那么经过 PCA 变换以后,原始的特征

向量X 经过变换后为PCA

TY W X,且投影矩阵为:

arg max T

PCA TW

W W S W

(4-26)

4.3.3 选取最大区分性的特征

PCA 算法的好处是能够简单直接的对数据进行降维和正交化,但是由于 PCA

算法是一种无监督的学习方式,只是将所有数据整体映射到最能体现这组数据整

体区分性的坐标上,并未利用不同类别的数据关系来进行数据分析。为了弥补这

种不足,可以使用线性判别分析(LDA)这种有监督(Supervised)的数据分析方

法,LDA 方法利用了数据上的分类标签,能够在低维空间上寻找不同类别数据间

的最大区分性,这对于分类问题是很有好处的。而且先对数据进行 PCA 变换可以

有效地避免 LDA 计算过程中的矩阵奇异问题。

对于处在 n 维空间 nR 上的带标注的训练数据集X ,其中总的数据量为 N 个数

据点,总的数据类数为 c 类,对于其中第 i 类( 1,i c )的数据样本集 iX 包含 iN

个数据点,所以 1 2 cN N N N ,根据如上定义,可以求得第 i 类数据样本集

合的样本均值和总体样本的均值分别为:

1

i

i

iN

x X

x (4-27)

1

1 N

i

iN

x (4-28)

LDA 的目标是使数据经过投影以后,类内的数据尽量内聚,类间的数据尽量远离,

所以需要计算各类的类内离散度 WS 和不同类之间的类间离散度 BS :

Page 84: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

74

T

W

1 k i

c

k i k i

i

x X

S x x (4-29)

B

1

cT

i i i

i

N

S (4-30)

定义从 nR 空间上向低维空间投影的矩阵为W,那么投影以后的类内离散度和类间

离散度为:

T T

W W B B, S W S W S W S W (4-31)

所以 LDA 的优化准则就是类间离散度与类内离散度的比值的最大优化,即:

T

B

T

W

arg maxLDA W S W

WW S W

(4-32)

对于上式的求解,等同于对公式 B Bi i iS w S w 求其最大的 D 个( 1D c )特征

根和特征向量,从而达到保持各类数据内聚性情况下降维、去除冗余的目的。一

般会根据实际的系统需要,在其最有区分性的前 D 个特征空间中选取最主要的特

征部分(特征根比重大于 99%)来作为后端的特征输入。

以上就是基于 Fishervoice 声学特征融合算法的主要组成部分。相比单独使用

PCA 或者 LDA,本文提出的 Fishervoice 方法既利用了有监督和无监督两种多元分

析的优势,解决了多种特征融合的相关性问题,也避免了进行 LDA 计算过程中经

常出现的矩阵奇异性问题。

Fishervoice 方法是对组合起来的语音特征数据进行了一个整体的变换,定义这

个整体变换矩阵为 optW ,那么这个总体变换矩阵的计算公式为:

T T T

opt LDA PCAW W W (4-33)

其中,

arg max T

PCA TW

W W S W

(4-34)

T

B

T

W

arg max

T

PCA PCA

LDA T

PCA PCA

W

W W S W WW

W W S W W (4-35)

Page 85: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

75

定义多种特征直接连接得到的高维长特征为 1total K

n n n X X X ,其中上标为特征

种类,下标为帧数标记,且1 n N ,并定义 total

nX 总的特征维数为 D,那么经过

变换以后的融合特征 fusion

nX 计算如下:

fusion T total

n opt nX W X (4-36)

其中融合特征 fusion

nX 的维数根据计算 LDA 变换时选取的特征根和特征向量的不

同,其维数也不同,需要根据特征根占全局的比重来选取合适的最有区分性的特

征部分。

具体的实验步骤如下:首先使用当前说话人训练语音的一部分数据提取多种

特征作为开发集来训练 Fishervoice 的变换矩阵 optW ,然后在训练识别过程中将多

种声学特征直接连接,经过该算法进行融合变换,得到不同降维程度的融合特征,

并将新的特征输入到后端的说话人系统进行模型训练和识别。这里为了对比,后

端的说话人模型训练使用经典的GMM-UBM系统和本文提出的基于基元类的多模

型说话人识别框架,验证本文提出的特征级方法和模型级方法的融合性能。

训练数据

特征

测试数据

特征

Fishervoice

特征融合

GMM-UBM

说话人识别系统

基于基元类的

多模型说话人识别系统

图 4.7 基于 Fishervoice 方法的短语音说话人识别

4.4 实验

4.4.1 实验数据和设置

本章使用的 UBM 训练和说话人训练识别的数据库与第二章的设置相同,为

863 汉语普通话数据库和 SUD12 短语音汉语普通话数据库。其中将 SUD12 数据库

的训练语音分为两部分,对于每个说话人,随机挑选其所有训练语音中的 50 句用

于训练说话人模型自适应;随机挑选其中的 3 句作为训练 Fishervoice 投影变换矩

阵使用。

Page 86: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

76

这里用于对比的三种声学特征为 MFCC 特征,LPCC 特征和 PLAR 特征,三

种特征设置如下:

1. MFCC 特征:提取 20 维 MFCC 特征,不带能量和差分参数;

2. PLAR 特征:提取 20 维的 PLAR 参数;

3. LPCC 特征:提取 12 维的 LPCC 特征。

对于以上这些特征尽量保持相同的处理参数。首先语音分帧参数相同,分帧

帧长和帧移同为 20 毫秒和 10 毫秒。此外,预加重系数为 0.97,窗函数为汉明窗,

对每帧数据计算 FFT 大小为 256,截止频率为 0~8,000Hz。其中 Mel 滤波器组个数

为 30。使用的说话人系统为 GMM-UBM 系统,混合数为 1,024 混合。

4.4.2 实验结果和分析

实验一 不同语音特征对测试时长的鲁棒性对比

本实验主要目的是简单测试三种特征在测试数据不同充足程度上的说话人识

别性能,训练 UBM 的数据库为 863 汉语普通话数据库,说话人模型训练识别的数

据库为 Speaking Style 数据库(张利鹏, 2009),这个数据库为麦克风录制,包括

110 个说话人,分别为 46 位男说话人和 64 位女说话人,每个人包括 12 段不同说

话方式的数据(包括朗读,高声等),每段为 3 分钟。从中选取 40 男和 40 女,

并使用其朗读方式的语音,将每个说话人正常朗读的 3 分钟语音分为 1 分半钟的

训练语音和 3 段测试语音,这 3 段测试语音有效语音分别约为 30 秒、15 秒、5 秒,

来测试这三种特征在干净环境下对于不同测试长度语音的性能情况,说话人识别

系统为 GMM-UBM 系统。实验结果如图 4.8 所示:

Page 87: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

77

图 4.8 不同声学特征的性能比较

可以发现在测试语音较为充足时,MFCC 特征的系统性能在三种特征中最好,随

着测试时间的缩短,MFCC 特征的性能下降比 LPCC 特征和 PLAR 特征更为明显,

这说明 MFCC 特征对测试时长的鲁棒性没有另外两种特征优良;而 PLAR 特征作

为在 LPCC 特征上加入 PLP 系数的改进,保留了 LPC 参数的优点,并且获取了 PLP

系数关于听觉特性的优点,其性能稳定性比 LPCC 特征优良。可以发现不同的语

音特征直接影响说话人识别的系统性能,而且受测试语音时长影响的差异也非常

明显。

实验二 Fishervoice 融合降维实验

对三种声学特征直接相连,总维数为 52 维,对这个高维特征进行 Fishervoice

特征降维,根据其区分性选取其中最主要的部分。Fishervoice 矩阵训练参考使用伊

利诺伊大学 CAI Deng 编写的 Dimensionality Reduction 工具包①(Cai et al., 2008)。

在 SUD12 数据库上测试在短语音条件下,其不同降维程度对 GMM-UBM 说话人

识别性能的影响,实验结果如图 4.9 所示:

① http://www.cad.zju.edu.cn/home/dengcai/Data/DimensionReduction.html

Page 88: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

78

图 4.9 降维性能示意图

可以发现在对全体的 52 维特征进行 Fishervoice 变换后,取前 32 维的特征根和特

征向量进行变换后得到的实验性能达到最优,短语音说话人识别的系统性能为

19.21%,这个结果与特征中包含的信息量是具有一定相关性的。为了验证这个变

化规律,下面对比了该性能变化与Fishervoice方法中LDA特征值分布的关系。LDA

特征值变化如图 4.10 所示,总和变化如图 4.11 所示。

5 10 15 20 25 30 35 40 45 500

0.05

0.1

0.15

0.2

0.25

特征根个数

Eig

env

alu

e特征

图 4.10 LDA 特征值分布示意

Page 89: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

79

5 10 15 20 25 30 35 40 45 500

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

特征根个数

Eig

envalu

e总和

图 4.11 LDA 特征值总和示意

通过计算 LDA 算法特征值的分布,得到最有区分性的特征部分,可以发现最

大的 32 个 Eigenvalue 总和占全体的比例为 98.66%。如图 4.11,这表明前面 32 个

特征根基本包含了特征中的绝大部分信息,在 32 维左右达到最优。当特征根数大

于 32 时,其对应的特征向量所包含的信息量有限,没有足够的区分性,对识别性

能起反作用,这与图 4.9 中性能的变换趋势也是基本符合的。在下一部分实验中,

取性能曲线变化中最优良的点作为本文融合降维算法的系统性能。

实验三 不同特征的短语音说话人识别性能比较

下面对不同特征在短语音条件下的系统性能进行对比,测试数据集为 SUD12

数据库,说话人识别系统为 GMM-UBM 系统,结果如表 4.1 所示:

表4.1 不同特征的短语音说话人识别性能比较

特征种类(维数) EER

MFCC(20) 26.52%

PLAR(20) 22.98%

LPCC(12) 23.44%

Page 90: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

80

直接连接的特征(52) 28.78%

Fishervoice(32) 19.21%

可以发现在短语音条件下不同特征的实验结果的差异比较明显,同一特征不

同维数(MFCC 特征与第二章对比)也会有不同;在时长很短的测试语音条件下

MFCC 特征的结果最差,PLAR 特征的性能相对比较好。如果直接将三种特征的矢

量相连,实验结果会严重下降,这也验证了本文中对于多种特征直接相连不可取

的观点。在进行 Fishervoice 融合降维后,融合特征在说话人系统的 EER 相对三种

特征分别下降了 27.56%、16.21%和 18.05%,证明了多种特征融合在短语音条件下

的有效性。

实验四 特征级方法与模型级方法的综合使用

这一节将 Fishervoice 算法和本文提出的基于基元类的多模型方法进行综合使

用,验证总体的改进性能,测试数据集为 SUD12 数据库,对比的基线说话人识别

系统为 GMM-UBM 系统,结果如表 4.2 所示:

表4.2 短语音说话人识别综合性能比较

系统 EER 相对下降

MFCC(20)+ GMM-UBM 26.52% --

MFCC(20)+ 基元类多模型 21.63% 18.43%

Fishervoice(32)+ GMM-UBM 19.21% 27.56%

Fishervoice(32)+ 基元类多模型 17.45% 34.20%

可以发现综合使用本文提出的特征级和模型级的算法后,相对于传统的MFCC

特征和 GMM-UBM 联合使用的系统,其 EER 相对下降为 34.20%,并且相对于只

使用特征级别的算法,其系统的相对改进也有 9.16%,说明了本文提出的算法能在

说话人系统从特征提取到模型训练上综合的改进短语音说话人识别的性能。

4.5 结论

本章主要针对短语音条件下单种特征提供信息量不足容易产生混淆的难点,

Page 91: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 4 章 基于 Fishervoice 的声学特征融合算法

81

讨论了利用多种声学特征融合的方式增加短语音条件下数据区分性的方法。首先

对语音中几种短时的声学特征进行了介绍,对其不同的特性进行了对比;然后介

绍了基于 Fishervoice 的特征融合降维算法,消除了多种声学特征中的相关性,选

取了其中最有区分性的部分,并用实验测试了不同声学特征在短语音条件下的实

验性能;最后与本文提出的模型级方法联合使用,验证了 Fishervoice 融合降维算

法在短语音条件下的有效性。

Page 92: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 5 章 总结与展望

82

第 5 章 总结与展望

5.1 论文工作总结

生物验证技术为人们日常生活提供了极大的便利,根据 Brianna Barry 于 2014

年初提供的生物验证技术市场和产业报告(Barry, 2014)中的数据显示,全球生物

验证产业在 2009 年的年总收入为 34.2 亿美元,而到 2013 年底已经迅速增长到 93.7

亿。除了传统领域的应用,在司法、游戏等领域上也发展迅速。随着移动互联时

代的到来,在传统的安全验证领域发挥巨大作用的生物验证技术也面临着新的机

遇和挑战。如何改进已经成熟的生物特征验证技术,为用户提供更好更优良的用

户使用体验成为各项科研技术实用方面的一个重要指标。说话人识别基于语音的

非接触性的特点使得其在应用上的体验具有天然的优势,说话人识别的应用前景

也越来越广阔。短语音作为说话人识别在现实中遇到的挑战,有着很强的实际应

用背景。本文针对短语音说话人识别问题进行了一定的分析和讨论,并且借鉴人

对语音的层次匹配识别特性,提出了一系列改进的方法,为短语音说话人识别在

未来的研究和应用打下了一定的基础。

概括来说,本文的工作内容和贡献主要体现在以下几个方面:

(1)针对短语音说话人识别难点中训练与识别空间匹配性不足的难题,提出

了基于基元类的多模型说话人识别方法。在很短的测试语音条件下,文本相关

的说话人识别在实际应用中的识别效果远好于文本无关的说话人识别。这是

因为测试语音的发音内容能够很好的匹配训练语音,从而减少内容信息的干

扰,提高了说话人识别的性能。在这个思路的基础上,本文提出了一种基于

发音基元的多模型说话人识别方法来改进短语音问题,其前提条件为当前说

话人的各类语音发音能充分的覆盖所有的发音空间,这样可以对说话人的语

音数据进行内容基元信息的分析,在对应发音基元的子空间上建立带有内容

信息的说话人特性模型。对于测试语音,使用其基元序列在对应的模型上进

行打分,并且把这些得分融合起来得到最终结果。由于只在对应基元上进行

识别打分判决,这就将文本无关转化成为了基元相关。出于数据稀疏性和发

音特性相似性的考虑,本文使用基元类来代替基元本身,聚类方法尝试了基

于专家知识和数据驱动的方法。在短语音条件下,本文提出的方法与经典的

GMM-UBM 统一建模识别方法相比,EER 的相对下降分别为 13.36%和

23.64%,对于 minDCF 也有相应的改进。

Page 93: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 5 章 总结与展望

83

(2)针对说话人训练数据有一定缺失和不足的问题,提出了基于投影映射

的说话人基元类模型合成方法。基于基元类的多模型说话人识别方法使用的前提

假设是满足训练语音数据内容的均衡性和充分性要求,但是现实中说话人的训练

数据的语音内容很难控制,这样会很有可能在某些基元类上无法收集到足够的基

元语音数据,使得这些基元类上当前说话人就无法训练得到很好的基元类模型,

导致多模型说话人识别方法无法使用。针对这个问题,本文尝试利用额外数据集

合,训练出基元类之间的相互差异关系,并用投影映射的方式合成出缺失数据的

那部分基元类模型。主要提出了基于基元类通用背景模型关系的 MLLR 投影合

成方法和基于 Cohort 参考说话人的 MLLR 的投影合成方法。使用合成出来的

模型进行补充后,相对经典的 GMM-UBM 方法,在短语音说话人识别上 EER 相

对下降分别为 9.13%和 18.30%,证明了合成模型的有效性。

(3)针对短语音说话人识别中测试语音所包含的信息量少、区分性不足、混

淆度大的难点,提出了基于 Fishervoice 的语音底层声学特征融合算法。不同的特

征代表了语音中不同的声学特性。在充足语音的情况下,单一特征所提供的

信息就能满足说话人识别的需求。但是在短语音条件下,单一的特征信息难

以满足实际使用中的需要,因此通过借鉴人对听觉信息的处理方式,挖掘语

音中各种不同的声学特性。本文提出将多种语音特征相连,从中挑选出最有

区分性的部分进行训练识别,增加识别的信息量和区分度的一种特征融合方

法。结合使用了主成分分析和线性判别分析,将多种不同声学特征正交化以

后提取了其中区分性最强的部分作为特征进行短语音说话人识别。对比三种

常用声学特征在短语音情况下的性能表现,融合特征的 EER 相对下降分别为

27.56%、16.21%和 18.05%,证明了本文特征融合算法在短语音条件下的有效性。

(4)针对短语音研究的需要建立了一个语音内容均衡的短语音声纹数据库。

由于在短语音条件下系统的识别性能损失严重,如果混杂别的影响因素很难对短

语音问题进行分析和优化。现存的汉语普通话说话人识别数据库一般都会有录

制信道或者环境噪音的影响,最主要的问题是无法保证发音内容信息的均衡

性和充分性。基于减少信道、噪音等因素影响的考虑,并且为本文提出的短

语音改进方法提供数据支持,本文专门设计了说话人录制语音的训练和测试

文本,保证了训练语音能够充分的覆盖所有汉语普通话的声韵母发音情况,

并且发音数量充分。此外,测试语音包括了汉语普通话中所有韵母基元和常

用短语,为短语音说话人识别的改进提供了实验的数据基础。此短语音数据

库 SUD12 将通过 CCC 中文语音平台发布提供使用。在该数据库上进行对本

文提出的方法进行综合实验,实验对比结果如表 5.1。

Page 94: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 5 章 总结与展望

84

表5.1 短语音说话人识别综合性能比较

系统 EER 相对下降

MFCC(20)+ GMM-UBM 26.52% --

MFCC(20)+ 基元类多模型 21.63% 18.43%

Fishervoice(32)+ GMM-UBM 19.21% 27.56%

Fishervoice(32)+ 基元类多模型 17.45% 34.20%

可以发现本文提出的方法在特征级和模型级两方面都取得了一定的改进。在

综合使用的情况下,相对于传统的 MFCC 特征和 GMM-UBM 建模方法,其系统性

能取得进一步的改进,EER 相对下降为 34.20%。

5.2 下一步研究的展望

本文对说话人识别中的短语音问题进行了一些初步研究,在总结前人工作的

基础上提出了一些改进算法,取得了一定的效果,但是距离现实应用还有相当的

距离,不足之处仍有很多,因此在未来可以考虑开展以下方向的研究:

(1)未将使用语音内容划分子空间的思想和说话人识别领域最新的 i-vector

等方法进行结合使用。近些年来在 GMM-UBM 模型上发展出来的 i-vector 等新方

法取得了很好的成功,如果能将这些方法与利用语音内容划分子空间的方法结合

使用,是有希望取得进一步改进的。那么伴随而来的需求也很明显,由于 i-vector

等方法需要在对应的子空间上收集足够多的数据量来训练对应的投影矩阵,那么

需要专门针对对应语言的基元收集比 GMM-UBM 系统多更多的特异数据。如果能

够收集和录制更大更丰富的语音均衡的说话人数据集合,提供充足的数据支持,

并且充分考虑 i-vector等方法的前提假设,那么这种结合是值得进一步深入研究的。

(2)未更细致地研究语音内容信息对说话人识别的影响。本文中出于数据量

稀疏性的考虑对汉语普通话中的各种基元进行自行聚类。但是不同的发音内容终

究还是会有不同影响的。那么,进一步可行的办法是更细致的研究各种不同发音

对说话人识别的影响,并把这个影响作为加权加入到内容信息中,提供更精确的

内容先验信息,就可以更完善说话人的内容子空间,精确化模型的描述。

(3)未考虑更高层的语音信息对说话人识别的影响。一般来说人对说话方式

(Speaking Style)、情感(Emotion)等这种总括性比较强的属性具有更直接的识

Page 95: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

第 5 章 总结与展望

85

别验证机理(Smiljanić and Bradlow, 2009),如果能够稳定的对说话方式进行特征

描述或者模型训练,研究说话方式在语音中的具体体现,将说话方式以某种方式

加入到说话人识别的特征提取和模型训练中,从而将这方面信息利用到说话人识

别中,会对识别性能有更好的改进。

(4)未从根本上给出语音中说话人特性的分析。本文主要从利用底层的声学

特性信息和高层的语音内容信息的角度改善了短语音说话人,但是语音中的信息

极其丰富,可以深入挖掘的部分很多。进入 21 世纪以后,随着实验条件的成熟和

生物学的发展,生物学家慢慢开始揭示人体对各种外部反应的神经响应情况

(Hornak et al., 1996; Delac and Grgic, 2004; Jain et al., 2004; Petkov et al., 2008),

对于人体各种生物特性的研究飞速发展,如果能结合生物神经学的成果,借鉴人

体大脑神经对语音的真实反应机理,研究出人体对语音的真实反应,就能从根本

上解决短语音说话人识别。在不久的将来,生物学的研究者能够将人类大脑对语

音信号中各种模式的处理流程和反应机理研究清楚,然后在计算机处理上模仿和

借鉴这方面的研究,提供人体识别的根本依据,思路就会得到进一步的扩展。

(5)进一步考虑在现实的复杂情况下研究短语音说话人识别。研究的最终目

的都是为了将技术进行实用,在实用中不可避免的会遇到多种干扰因素联合对说

话人识别进行影响,在将来限定条件的短语音说话人识别达到较为令人满意的识

别性能后,可以将其与噪音、信道等方面的研究进行联合考虑,使之在将来更为

便捷地在生活中使用。

Page 96: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

参考文献

86

参考文献

Arcienega M and Drygajlo A, 2003. A Bayesian network approach for combining pitch

and reliable spectral envelope features for robust speaker verification. Audio-and

Video-Based Biometric Person Authentication: 78-85.

Atal B, 1972. Automatic speaker recognition based on pitch contours. Acoustical

Society of America Journal, 52: 1687.

Atal B S, 1976. Automatic recognition of speakers from their voices. Proceedings of the

IEEE, 64 (4): 460-475.

Atal B S, 2005. Effectiveness of linear prediction characteristics of the speech wave for

automatic speaker identification and verification. The Journal of the Acoustical

Society of America, 55 (6): 1304-1312.

Barry B, 2014. (Online). "International Biometric Group (IBG) announces November 13

webcast and release of the biometric market and industry report 2009-2014." from

http://findbiometrics.com/international-biometric-group-ibg-announces-november-

13-webcast-and-release-of-the-biometric-market-and-industry-report-2009-2014/.

Beigi H, 2011. Fundamentals of speaker recognition, Springer.

Belin P, Bestelmeyer P E, Latinus M and Watson R, 2011. Understanding voice

perception. British Journal of Psychology, 102 (4): 711-725.

Belin P, Fecteau S and Bédard C, 2004. Thinking the voice: neural correlates of voice

perception. Trends in Cognitive Sciences, 8 (3): 129-135.

Ben M, Blouet R and Bimbot F, 2002. A Monte-Carlo method for score normalization

in automatic speaker verification using Kullback-Leibler distances. IEEE

International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1:

689-692.

Bilmes J A, 1998. A gentle tutorial of the EM algorithm and its application to parameter

estimation for Gaussian mixture and hidden Markov models. International

Computer Science Institute, 4 (510): 126.

Bricker P and Pruzansky S, 1976. Speaker recognition. Contemporary Issues in

Experimental Phonetics: 295-326.

Cai D, He X-F and Han J-W, 2008. SRDA: An efficient algorithm for large-scale

discriminant analysis. IEEE Transactions on Knowledge and Data Engineering, 20

(1): 1-12.

Campbell Jr J P, 1997. Speaker recognition: A tutorial. Proceedings of the IEEE, 85 (9):

1437-1462.

Chen S-H and Wang Y-R, 1990. Vector quantization of pitch information in Mandarin

Page 97: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

参考文献

87

speech. IEEE Transactions on Communications, 38 (9): 1317-1320.

Chow D and Abdulla W H, 2004. Robust speaker identification based on perceptual log

area ratio and Gaussian mixture models. International Speech Communication

Association (Interspeech).

Compton A J, 1963. Effects of filtering and vocal duration upon the identification of

speakers, aurally. The Journal of the Acoustical Society of America, 35: 1748.

Davis S and Mermelstein P, 1980. Comparison of parametric representations for

monosyllabic word recognition in continuously spoken sentences. IEEE

Transactions on Acoustics, Speech and Signal Processing, 28 (4): 357-366.

Dehak N, 2009. Discriminative and generative approaches for long-and short-term

speaker characteristics modeling: application to speaker verification, Ecole de

Technologie Superieure.

Dehak N, Dumouchel P and Kenny P, 2007. Modeling prosodic features with joint

factor analysis for speaker verification. IEEE Transactions on Acoustics, Speech

and Signal Processing, 15 (7): 2095-2103.

Dehak N, Kenny P J, Dehak R, Dumouchel P and Ouellet P, 2011. Front-end factor

analysis for speaker verification. IEEE Transactions on Audio, Speech, and

Language Processing, 19 (4): 788-798.

Delac K and Grgic M, 2004. A survey of biometric recognition methods. 46th

International Symposium Electronics in Marine: 184-193.

Dobrisek S, Mihelic F and Pavesic N, 1999. Acoustical modelling of phone transitions:

biphones and diphones-what are the differences?. Sixth European Conference on

Speech Communication and Technology.

Dogil G, Ackermann H, Grodd W, Haider H, Kamp H, Mayer J, Riecker A and

Wildgruber D, 2002. The speaking brain: a tutorial introduction to fMRI

experiments in the production of speech, prosody and syntax. Journal of

Neurolinguistics, 15 (1): 59-90.

段新, 黄新宇, 吴淑珍, 2003. 与文本无关的说话人辨认系统中一种新的使用基音

周期方法研究. 北京大学学报: 自然科学版, 39 (5): 690-696.

Dunn R B, Reynolds D A and Quatieri T F, 2000. Approaches to speaker detection and

tracking in conversational speech. Digital Signal Processing, 10 (1): 93-112.

El Ayadi M, Kamel M S and Karray F, 2011. Survey on speech emotion recognition:

Features, classification schemes, and databases. Pattern Recognition, 44 (3):

572-587.

Ferras M, Leung C C, Barras C and Gauvain J, 2007. Constrained MLLR for speaker

recognition. IEEE International Conference on Acoustics, Speech and Signal

Processing (ICASSP), 4: 53-56.

Furui S, 1981. Comparison of speaker recognition methods using statistical features and

dynamic features. IEEE Transactions on Acoustics, Speech and Signal Processing,

Page 98: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

参考文献

88

29 (3): 342-350.

Furui S, 1997. Recent advances in speaker recognition. Audio-and Video-based

Biometric Person Authentication: 235-252.

Gales M, Pye D and Woodland P C, 1996. Variance compensation within the MLLR

framework for robust speech recognition and speaker adaptation. International

Conference on Spoken Language Proceedings (ICSLP), 3: 1832-1835.

Gales M J, 1998. Maximum likelihood linear transformations for HMM-based speech

recognition. Computer speech & language, 12 (2): 75-98.

龚宬, 2013. 说话人识别中高区分性语音选取方法研究. 清华大学计算机科学与技

术, 硕士论文.

龚伟, 汪鲁才, 2006. 基于隐马尔可夫模型的话者识别研究. 声学与电子工程(2):

31-33.

Hall A, 1967. Methods for demonstrating resemblance in taxonomy and ecology.

Nature, 214: 830-831.

Hendriks R C, Heusdens R and Jensen J, 2004. Perceptual linear predictive noise

modelling for sinusoid-plus-noise audio coding. IEEE International Conference on

Acoustics, Speech, and Signal Processing (ICASSP), 4: 189-192.

Hermansky H, 1990. Perceptual linear predictive (PLP) analysis of speech. The Journal

of the Acoustical Society of America, 87: 1738.

Hermansky H, Kohn P, Morgan N and Bayya A, 1992. RASTA-PLP speech analysis

technique. IEEE International Conference on Acoustics, Speech, and Signal

Processing (ICASSP), 1: 121-124.

Hornak J, Rolls E and Wade D, 1996. Face and voice expression identification in

patients with emotional and behavioural changes following ventral frontal lobe

damage. Neuropsychologia, 34 (4): 247-261.

Huang X-D, Acero A, Hon H-W and Foreword B-R, 2001. Spoken language processing:

A guide to theory, algorithm, and system development, Prentice Hall PTR.

Hunt A J and Black A W, 1996. Unit selection in a concatenative speech synthesis

system using a large speech database. IEEE International Conference on Acoustics,

Speech and Signal Processing (ICASSP), 1: 373-376.

Hyon S-G, Wang H-C, Zhao C, Wei J-G and Dang J-W, 2012. A method of speaker

identification based on phoneme mean F-ratio contribution. International Speech

Communication Association (Interspeech).

International_Phonetic_Association, 1999. Handbook of the International Phonetic

Association: A guide to the use of the International Phonetic Alphabet, Cambridge

University Press.

Jain A K, Ross A and Prabhakar S, 2004. An introduction to biometric recognition.

IEEE Transactions on Circuits and Systems for Video Technology, 14 (1): 4-20.

Page 99: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

参考文献

89

Jin Q and Schultz T, 2004. Speaker segmentation and clustering in meetings.

International Speech Communication Association (Interspeech), 4: 597-600.

Jolliffe I, 2005. Principal component analysis, Wiley Online Library.

Kajarekar and Venkataraman, 2005. MLLR transforms as features in speaker

recognition.

Kanagasundaram A, Vogt R, Dean D B, Sridharan S and Mason M W, 2011. i-vector

based speaker recognition on short utterances. International Speech

Communication Association (Interspeech): 2341-2344.

康氏胤, 2010. HMM 语音合成中的韵律建模. 清华大学计算机科学与技术, 硕士论

文.

Kenny P, 2005. Joint factor analysis of speaker and session variability: Theory and

algorithms. CRIM, Montreal, (Report) CRIM-06/08-13.

Kinnunen T and Li H, 2010. An overview of text-independent speaker recognition:

from features to supervectors. Speech Communication, 52 (1): 12-40.

Kwon S and Narayanan S, 2007. Robust speaker identification based on selective use of

feature vectors. Pattern Recognition Letters, 28 (1): 85-89.

Ladefoged P and Johnstone K, 1982. A course in phonetics, Cengage learning.

Lea W A, Medress M F and Skinner T E, 1972. Prosodic aids to speech recognition.

Leggetter C J and Woodland P, 1995. Maximum likelihood linear regression for speaker

adaptation of continuous density hidden Markov models. Computer Speech &

Language, 9 (2): 171-185.

Li J, Zheng F, Xiong Z-Y and Wu W-H, 2003. Construction of large-scale Shanghai

putonghua speech corpus for Chinese speech recognition. Oriental-COCOSDA:

62-69.

Li K and Wrench Jr E, 1983. An approach to text-independent speaker recognition with

short utterances. IEEE International Conference on Acoustics, Speech and Signal

Processing (ICASSP), 8: 555-558.

李净, 徐明星, 张继勇, 郑方, 吴文虎, 方棣棠, 2001. 汉语连续语音识别中声学模

型基元比较: 音节, 音素, 声韵母. 第六届全国人机语音通讯学术会议论文集.

李净, 郑方, 张继勇, 吴文虎, 2004. 汉语连续语音识别中上下文相关的声韵母建

模. 清华大学学报 (自然科学版), 44 (1): 61-64.

Linden D E, Thornton K, Kuswanto C N, Johnston S J, Van de ven V and Jackson M C,

2011. The brain’s voices: comparing nonclinical auditory hallucinations and

imagery. Cerebral Cortex, 21 (2): 330-337.

林琳, 王树勋, 郭纲, 2007. 短语音说话人识别新方法的研究. 系统仿真学报, 19

(10): 2272-2275.

Liu M-H, Dai B-Q, Xie Y-L and Yao Z-Q, 2006. Improved GMM-UBM/SVM for

speaker verification. IEEE International Conference on Acoustics, Speech and

Page 100: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

参考文献

90

Signal Processing (ICASSP).

Logan B, 2000. Mel frequency cepstral coefficients for music modeling. ISMIR.

Makhoul J, 1975. Linear prediction: A tutorial review. Proceedings of the IEEE, 63 (4):

561-580.

Makhoul J and Cosell L, 1976. LPCW: An LPC vocoder with linear predictive spectral

warping. IEEE International Conference on Acoustics, Speech and Signal

Processing (ICASSP), 1: 466-469.

Malegaonkar A, Ariyaeeinia A, Sivakumaran P and Fortuna J, 2008. On the

enhancement of speaker identification accuracy using weighted bilateral scoring.

IEEE International Carnahan Conference on Security Technology (ICCST):

254-258.

McLaren M, Vogt R, Baker B and Sridharan S, 2010a. Data-driven background dataset

selection for SVM-based speaker verification. IEEE Transactions on Audio,

Speech, and Language Processing, 18 (6): 1496-1506.

McLaren M, Vogt R, Baker B and Sridharan S, 2010b. Experiments in SVM-based

speaker verification using short utterances. A Speaker Odyssey-The Speaker

Recognition Workshop: 83-90.

Ming J, Hazen T J, Glass J R and Reynolds D A, 2007. Robust speaker recognition in

noisy conditions. IEEE Transactions on Audio, Speech, and Language Processing,

15 (5): 1711-1723.

Montero J M, Gutierrez-Arriola J M, Palazuelos S E, Enriquez E, Aguilera S and Pardo

J M, 1998. Emotional speech synthesis: from speech database to TTS. International

Conference on Spoken Language Processing (ICSLP), 98: 923-926.

Moore B C, 2003. An introduction to the psychology of hearing, Academic press San

Diego.

Moraru D, Meignier S, Fredouille C, Besacier L and Bonastre J-F, 2004. The ELISA

consortium approaches in broadcast news speaker segmentation during the NIST

2003 rich transcription evaluation. IEEE International Conference on Acoustics,

Speech and Signal Processing (ICASSP), 1: 373-379.

Naik J, 1990. Speaker verification: A tutorial. IEEE Communications Magazine, 28 (1):

42-48.

National Institute of Standards and Technology and Speaker Recognition Evaluation,

2005. (Online). from http://www.nist.gov/itl/iad/mig/sre.cfm.

Nosratighods M, Ambikairajah E, Epps J and Carey M J, 2010. A segment selection

technique for speaker verification. Speech Communication, 52 (9): 753-761.

Parris E S and Carey M J, 1998. Multilateral techniques for speaker recognition.

International Conference on Spoken Language Processing (ICSLP).

Peacocke R D and Graf D H, 1990. An introduction to speech and speaker recognition.

Computer, 23(8): 26-33.

Page 101: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

参考文献

91

Perrachione T K and Wong P, 2007. Learning to recognize speakers of a non-native

language: Implications for the functional organization of human auditory cortex.

Neuropsychologia, 45 (8): 1899-1910.

Petkov C I, Kayser C, Steudel T, Whittingstall K, Augath M and Logothetis N K, 2008.

A voice region in the monkey brain. Nature Neuroscience, 11 (3): 367-374.

Poruba J, 2002. Speech enhancement based on nonlinear spectral subtraction. IEEE

International Caracas Conference on Devices, Circuits and System:

T031-1-T031-4.

Rabiner L R and Juang B-H, 1993. Fundamentals of speech recognition, PTR Prentice

Hall Englewood Cliffs.

Reynolds D, 2009. Gaussian mixture models. Encyclopedia of Biometrics: 659-663.

Reynolds D A, 2002. An overview of automatic speaker recognitionn. International

Conference on Acoustics, Speech, and Signal Processing (ICASSP). Washington,

DC: IEEE Computer Society: 4072-4075.

Reynolds D A, 2003. Channel robust speaker verification via feature mapping. IEEE

International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2:

II-53-6 vol. 2.

Reynolds D A, Quatieri T F and Dunn R B, 2000. Speaker verification using adapted

Gaussian mixture models. Digital Signal Processing, 10 (1): 19-41.

Rosenberg A E, DeLong J, Lee C-H, Juang B-H and Soong F K, 1992. The use of

cohort normalized scores for speaker verification. International Conference on

Spoken Language Processing (ICSLP), 92: 599-602.

Schröder M, 2001. Emotional speech synthesis: a review. International Speech

Communication Association (Interspeech): 561-564.

Selkirk E O, 1986. Phonology and syntax: the relationship between sound and structure,

MIT press.

Smiljanić R and Bradlow A R, 2009. Speaking and hearing clearly: Talker and listener

factors in speaking style changes. Language and Linguistics Compass, 3(1):

236-264.

Stevens S, Volkmann J and Newman E, 1937. A scale for the measurement of the

psychological magnitude pitch. The Journal of the Acoustical Society of America,

8(3): 185-190.

Stolcke A, 2002. SRILM-an extensible language modeling toolkit. International Speech

Communication Association (Interspeech).

Stolcke A, Kajarekar S S, Ferrer L and Shrinberg E, 2007. Speaker recognition with

session variability normalization based on MLLR adaptation transforms. IEEE

Transactions on Audio, Speech, and Language Processing, 15 (7): 1987-1998.

Sun Q-S, Zeng S-G, Liu Y, Heng P-A and Xia D-S, 2005. A new method of feature

fusion and its application in image recognition. Pattern Recognition, 38 (12):

Page 102: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

参考文献

92

2437-2448.

Teunen R, Shahshahani B and Heck L P, 2000. A model-based transformational

approach to robust speaker recognition. International Speech Communication

Association (Interspeech): 495-498.

Tritschler A and Gopinath R A, 1999. Improved speaker segmentation and segments

clustering using the bayesian information criterion. Eurospeech, 99: 679-682.

Van Santen J P, 1997. Progress in speech synthesis, Springer.

Vergin R, O'shaughnessy D and Farhat A, 1999. Generalized mel frequency cepstral

coefficients for large-vocabulary speaker-independent continuous-speech

recognition. IEEE Transactions on Speech and Audio Processing, 7 (5): 525-532.

Ververidis D and Kotropoulos C, 2006. Emotional speech recognition: Resources,

features, and methods. Speech Communication, 48 (9): 1162-1181.

Ververidis D, Kotropoulos C and Pitas I, 2004. Automatic emotional speech

classification. International Conference on Acoustics, Speech and Signal

Processing (ICASSP), 1: 593-599.

Vogt R, Sridharan S and Mason M, 2010. Making confident speaker verification

decisions with minimal speech. IEEE Transactions on Audio, Speech, and

Language Processing, 18 (6): 1182-1192.

Vogt R J, Baker B J and Sridharan S, 2008. Factor analysis subspace estimation for

speaker verification with short utterances.

Waibel A and Weibel A, 1988. Prosody and speech recognition, Pitman London.

Wang G and Zheng T F, 2009. Speaker segmentation based on between-window

correlation over speakers' characteristics. Asia-Pacific Signal and Information

Processing Association, Annual Summit and Conference (APSIPA ASC): 817-820.

Wang L-L, Wu X-J, Zheng T F and Zhang C-H, 2012. An Investigation into Better

Frequency Warping for Time-Varying Speaker Recognition. Asia-Pacific Signal

and Information Processing Association, Annual Summit and Conference

(APSIPA ASC), Hollywood, California, USA.

王天庆, 李爱军, 2003. 连续汉语语音识别语料库的设计. 第六届全国现代语音学

学术会议, 天津.

Wester M, Dines J, Gibson M, Liang H, Wu Y-J, Saheer L, King S, Oura K, Garner P N

and Byrne W, 2010. Speaker adaptation and the evaluation of speaker similarity in

the EMIME speech-to-speech translation project.

Wu W, Zheng T F, Xu M-X and Soong F K, 2007. A cohort-based speaker model

synthesis for mismatched channels in speaker verification. IEEE Transactions on

Audio, Speech, and Language Processing, 15 (6): 1893-1903.

Wu W, Zheng T F and Xu M-X, 2006. Cohort-based speaker model synthesis for

channel robust speaker recognition. International Conference on Acoustics, Speech

and Signal Processing (ICASSP).

Page 103: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

参考文献

93

吴宗济, 1997. 试论人-机对话中的汉语语音学. 世界汉语教学, 42 (4): 3-20.

Xiang B and Berger T, 2003. Efficient text-independent speaker verification with

structural gaussian mixture models and neural network. IEEE Transactions on

Speech and Audio Processing, 11 (5): 447-456.

Xiong Z-Y and Zheng T F, An Automatic Prompting Texts Selecting Algorithm for

di-IFs Balanced Speech Corpus.

Yang J, Yang J-Y, Zhang D and Lu J-F, 2003. Feature fusion: parallel strategy vs. serial

strategy. Pattern Recognition, 36 (6): 1369-1381.

Young S, Evermann G, Gales M, Hain T, Kershaw D, Liu X-Y, Moore G, Odell J,

Ollason D and Povey D, 2006. The HTK book (for HTK version 3.4). Cambridge

University Engineering Department, 2 (2): 2-3.

于哲舟, 杨佳东, 周春光, 王纲巧, 2004. 智能仪器嵌入式声纹识别技术方法. 仪器

仪表学报, 25 (5): 447-450.

Zhang C, Liu Y, Xia Y-Q, Wang X and Lee C-H, 2013. Reliable accent-specific unit

generation with discriminative dynamic gaussian mixture selection for

multi-accent Chinese speech recognition. IEEE Transactions on Audio, Speech,

and Language Processing, 21 (10): 2073-2084.

Zhang C-H, Wang L-L, Jang J and Zheng T F, 2011. A multi-model method for

short-utterance speaker recognition. Asia-Pacific Signal and Information

Processing Association, Annual Summit and Conference (APSIPA ASC).

Zhang C-H, Wu X-J, Zheng T F, Wang L-L and Yin C, 2012. A K-Phoneme-Class

based multi-model method for short utterance speaker recognition. Asia-Pacific

Signal and Information Processing Association, Annual Summit and Conference

(APSIPA ASC), 20: 1-4.

张利鹏, 2009. 发音方式鲁棒的说话人识别研究. 清华大学计算机科学与技术, 硕

士论文.

Zheng F, Zhang G-L and Song Z-J, 2001. Comparison of different implementations of

MFCC. Journal of Computer Science and Technology, 16 (6): 582-589.

郑方, 牟晓隆, 徐明星, 武健, 宋战江, 1999. 汉语语音听写机技术的研究与实现.

软件学报, 10 (4): 436-444.

Page 104: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

致 谢

94

致 谢

在清华大学语音和语言技术中心的这接近六年的时间中,衷心感谢导师郑方

老师对我的悉心指导,不管在科研还是日常的生活中都是我很好的榜样。读博的

科研历程与普通的上课考试区别很大,遇到了很多的挫折和困难,每当遇到这样

的坎时郑老师总能给我鼓励和指导,谢谢郑老师这六年的言传身教!终身受益!

衷心感谢徐明星老师将我介绍推荐到清华大学,并给予科研和生活上的关心

和帮助。徐老师工作认真,指导细致,在很多问题上对我提供了巨大的帮助,在

此表示万分感谢!

感谢我的父母,在我读博的这些年中一直默默的支持我鼓励我,在困难的时

候你们永远是我最坚强的后盾和最可靠的港湾!

感谢 CSLT 中心的王琳琳师姐、王刚师兄以及唐国瑜、陈丽欧、张超、别凡

虎、王军、李蓝天、邱晗、刘超、龚宬等同学和张之勇工程师在学习上和生活上

对我的支持和帮助,你们永远是我的兄弟姐妹。

特别感谢邬晓钧老师、王东老师以及 CSLT 所有帮助过我的老师,老师们的

学识品格永远值得我学习,谢谢!

感谢国家 973 项目以及国家自然科学基金的资助。

最后感谢我自己,这段时间的酸甜苦辣将是我一生的财富。

Page 105: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

声 明

95

声 明

本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研

究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本学位论

文的研究成果不包含任何他人享有著作权的内容。对本论文所涉及的研究工

作做出贡献的其他个人和集体,均已在文中以明确方式标明。

签 名: 日 期:

Page 106: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

个人简历、在学期间发表的学术论文和研究成果

96

个人简历、在学期间发表的学术论文与研究成果

个人简历

1987 年 9 月 15 日出生于湖北省汉川市。

2005 年 9 月考入北京邮电大学计算机科学与技术系,2009 年 7 月本科

毕业并获得工学学士学位。

2009 年 9 月免试进入清华大学计算机系攻读计算机应用博士至今。

发表的学术论文

[1] Chenhao Zhang, Thomas Fang Zheng and Linlin Wang. Phoneme class

based multi-model method for text-independent short utterance speaker

recognition. Qinghua Daxue Xuebao/Journal of Tsinghua University, v53,

n6, p813-817. (EI 期刊,检索号 20134416914699)

[2] Chenhao Zhang and Thomas Fang Zheng. A fishervoice based feature fusion

method for short utterance speaker recognition. IEEE China Summit and

International Conference on Signal and Information Processing, ChinaSIP,

2013, Beijing. (EI 会议,检索号 20135017076700)

[3] Chenhao Zhang, Xiaojun Wu, Thomas Fang Zheng and Linlin Wang. A

K-phoneme-class based multi-model method for short utterance speaker

recognition. The 4th Asia-Pacific Signal and Information Processing

Association, Annual Summit and Conference, APSIPA ASC, 2012, Los

Angeles. (EI 会议,检索号 20131016079197)

[4] Chenhao Zhang, Thomas Fang Zheng and Ruxin Chen. Text-dependent

speaker recognition with long-term feature based on functional data analysis.

International Symposium on Chinese Spoken Language Processing, ISCSLP,

2012, Hong Kong. (EI 会议,检索号 20131016084491)

[5] Chenhao Zhang, Xiaojun Wu, Linlin Wang, Gang Wang, Jyh-Shing Roger

Jang, and Thomas Fang Zheng. A multi-model method for short utterance

speaker recognition. The 3rd Asia-Pacific Signal and Information Processing

Association, Annual Summit and Conference, APSIPA ASC, 2011, Xi’an.

(EI 会议,检索号 20124015499706)

[6] Gang Wang, Xiaojun Wu, Thomas Fang Zheng, Linlin Wang and Chenhao

Zhang. Using class purity as criterion for speaker clustering in

multi-speaker detection tasks. The 3rd Asia-Pacific Signal and Information

Page 107: 短语音说话人识别研究 - cslt.riit.tsinghua.edu.cncslt.riit.tsinghua.edu.cn/~fzheng/THESES/201406-D-ZCH.pdf · 短语音说话人识别研究 (申请清华大学工学博士学位论文)

个人简历、在学期间发表的学术论文和研究成果

97

Processing Association, Annual Summit and Conference, APSIPA

ASC, 2011, Xi’an. (EI 会议,检索号 20124015499714)

在读期间完成的其他研发工作

[1] 中国建设银行 95533 声纹电话银行系统设计开发,已验收并上线运行

(合作完成)。

[2] 清华大学语音和语言技术中心与 索尼娱乐美国研发中心( Sony

Computer Entertainment America,SCEA)联合项目:文本相关说话人

识别系统研究。已完成全部模块并提交 SCEA,并申请美国专利一项,

专利申请号 US20130268272。

[3] 参与国家自然科学基金项目“说话人识别中时变鲁棒的声纹特征研究”,

完成相关工作。

[4] 参与国家 973 项目“互联网环境中文言语信息处理与深度计算的基础理

论与方法”,完成相关工作。