改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

50
改改改改改改改改改改改改改改 改改改改改改改改改 改改改改改改改改改改改改改改 改改改改 : 改改改 改改 改改改 : 改改改

Upload: amie

Post on 16-Jan-2016

79 views

Category:

Documents


0 download

DESCRIPTION

改善鑑別式聲學模型訓練於中文 連續語音辨識之研究. 中華民國九十六年六月二十二日. 指導教授 : 陳柏琳 博士 研究生 : 劉士弘. 大綱. 研究內容簡介 研究成果與貢獻 時間音框正確率函數 考慮事前機率 以熵値為基礎的資料選取方法 最小化音素錯誤訓練 非監督式聲學模型訓練 實驗結果 結論與未來展望. …. 統計式語音辨識基本架構圖. 語音訊號. 辨識結果. 特徵抽取. 聲學比對. 語言解碼. 信心度評估. 聲學模型. 語言模型. 最小化音素錯誤 (Minimum Phone Error, MPE) ( 鑑別式訓練 ). - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

改善鑑別式聲學模型訓練於中文連續語音辨識之研究

中華民國九十六年六月二十二日

指導教授 : 陳柏琳 博士 研究生 : 劉士弘

Page 2: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

2

大綱

• 研究內容簡介• 研究成果與貢獻

– 時間音框正確率函數– 考慮事前機率– 以熵値為基礎的資料選取方法

• 最小化音素錯誤訓練• 非監督式聲學模型訓練• 實驗結果• 結論與未來展望

Page 3: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

3

統計式語音辨識基本架構圖

語音訊號特徵抽取 聲學比對 語言解碼

辨識結果

聲學模型訓練 語言模型訓練

信心度評估

聲學模型 語言模型

非監督式聲學模型訓練

最小化音素錯誤(Minimum Phone Error, MPE)

( 鑑別式訓練 )

Page 4: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

4

全面風險最小化於聲學模型之訓練

Z

zzzMMI OWPF

1

)|()(

Z

z WzzPLMBRDT

LatticePinchedz

WWLOWPF1 ,

),()|()(W

Z

z WzzMPE

Latticez

WWAOWPF1 ,

),()|()(W

dOOpOWRRall )()|(

Z

zz

Wzz

Z

zzzzall OpOWPWWlOpOWRR

11

)()|(),()()|(W

[ORCE 2000]

[PLMBRDT 2003]

[MPE 2002]

Z

z WzzORCE

BestNz

WWLOWPF1 ,

),()|()(W

[MMI 1996]

Assume uniform

Large vocabulary continuous speech recognition

WW

OWPWWlOWR )|(),()|(貝氏風險

Page 5: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

5

研究成果與貢獻

• 提出時間音框正確率函數• 考慮訓練語句的事前機率• 提出以熵値為基礎的資料選取方法• 非監督鑑別式聲學模型訓練

Page 6: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

6

鑑別式聲學模型訓練之演進

MMI [Bahl et al. 198

6]

MMI [Valtchev et al. 1996]ORCE

[Kaiser et al. 2000]

MBRDT [Doumpiotis et al. 2003]

ML [Baum et al. 1972]

MFPE [Zheng et al. 2005] MD

[Du et al. 2006]

MCE [Juang et al. 1992]

MCE [Schluter et al. 200

1]

LME [Jiang et al. 200

5] SME [Li et al. 2006]

Data Selection

MPE [Povey et al. 2002]

s-MBR [Gibson et al. 2006]

ORCE [Na et al. 1995]

Small Vocabulary Speech Recognition(Phone Recognition)

Large Vocabulary Continuous

Speech Recognition

MTFA [Liu et al.

2007]

SME [Li et al. 2007]

Page 7: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

7

最小化音素錯誤訓練

• 目標函數

• 模型參數調整

• 因為 HMM 有潛藏變數 (latent variable) 的問題,故上式無法直接微分求極値來使模型參數最佳化

• 利用輔助函數來最佳化

Z

z WzzλMPE

Latticez

WWAOWPλF1 ,

),()|()(W

Z

z Wzzλ

λLatticez

WWAOWPλ1

*

,

),()|(maxargW

SIL SIL

國立台灣 師範

大學

鍋粒 颱風

排 彎吃飯

吃飯

師範 大學

大學

詞圖

Page 8: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

8

原始音素正確率函數

phonesdifferent if ),(1

phone same are and if ),(21max)( uqequuqeqA

u

為音素 q 與正確詞序列 u 中音素的重疊比例

),( uqe

b 的音素正確率為取最大 =1

a b c正確轉譯音素序列

b

time辨識之音素

-1+2/3=-1/3 -1+2/2=0-1+2*(3/3)=1

Page 9: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

9

輔助函數

• 強性輔助函數 (Strong-sense Auxiliary Function)

• 弱性輔助函數 (Weak-sense Auxiliary Function)

• 平滑函數 (Smoothing Function)

),( G

)(F

?),()( GF

),( H

)(F

?),()( HF

),( H

)(F

),( H

),( SMH

)(),( FG

)()(),(),( FFGG

)(),( FH

0),(

SMH

),(),(),( SMHHH

Page 10: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

10

最小化音素錯誤訓練

)|(log

)|(log),(

1 ,

qOpqOp

λFλλH zλ

Z

z qλλ

MPEMPE

latticez

W

Z

z WzzλMPE

Latticez

WWAOWPλF1 ,

),()|()(W

),),((log)(),(,

qmqmzzqm

MPEzq

m

et

stqzMPE μtoNtγγλλH

q

qlatticez

W

)()()(|)log(|2

),),((log)(),(

11

,

,

qmqmqmqmqmT

qmqmqmqm

mq

qmqmzzqm

MPEzq

m

et

stqzMPE

trμμμμD

μtoNtγγλλHq

qlatticezW

[Povey 2004]

弱性輔助函數

強性輔助函數

加入平滑輔助函數

Page 11: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

11

模型參數之調整

• 同延伸波氏重估演算法 :

22222

2

}{

)()}()({

}{

)}()({

qmdqmd

denqm

numqm

qmdqmdqmddenqmd

numqmd

qmd

qmddenqm

numqm

qmdqmddenqmd

numqmd

qmd

D

DOO

D

DOO

Z

z q

e

st

zq

zqm

numqm

latticez

q

q

MPE

γtγγ1 ,

),0max()(W

Z

z q

e

stz

zq

zqm

numqmd

latticez

q

q

MPE

toγtγOθ1 ,

)(),0max()()(W

Z

z q

e

stz

zq

zqm

numqmd

latticez

q

q

MPE

toγtγOθ1

22

,

)(),0max()()(W

Z

z q

e

st

zq

zqm

denqmd

latticez

q

q

MPE

γtγγ1 ,

),0max()(W

Z

z q

e

stz

zq

zqm

denqmd

latticez

q

q

MPE

toγtγOθ1 ,

)(),0max()()(W

Z

z q

e

stz

zq

zqm

denqmd

latticez

q

q

MPE

toγtγOθ1

22

,

)(),0max()()(W

Page 12: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

12

時間音框正確率函數

• 原始音素正確率沒有考慮刪除錯誤• 時間音框正確率有給予刪除錯誤適當的懲罰

0 5 10 15 20 25 30

cba正確轉譯音素

a c辨識之音素

MPE 之原始音素正確率 = 2

)1.0( 27.130

))(510(2

ρ

ρMTFA 之時間音框音素正確率=

1

),()(

qq

e

st

se

tuqδqccuracyTimeFrameA

q

q

10 , ,

,1),( ρtuqifρtuqiftuqδ

Page 13: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

13

S 型時間音框正確率函數

• 時間音框正確率函數的値域範圍為 到 1

• 為了更充分地懲罰刪除錯誤,使用 S 型函數來平滑時間音框正確率函數之分子項

• 其値域範圍為 -1 到 1

ρ

1)exp(1

2)(

βnetαqmeAccuracySigTimeFra

q

q

e

sttuqδnet ),(

Page 14: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

14

考慮事前機率

• 假設 布於一個給定的假設空間 (hypothesis space) ,此假設空間通常以詞圖來表示

• 若訓練語句所對應的詞序列越長,則此句的事前機率會越小– 使用時間音框長度來作正規化 (Normalization)

O W

latticezlatticez W

zW

zz WPWOpWOpOp,,

)()|(),()(WW

zO

latticez

T

Wzz WPWOpOp

,

)()|()(W

Z

r

T

Wr

T

Wz

z

rO

latticez

zO

latticez

WPWOp

WPWOp

Op

1 ,

,

)()|(

)()|(

)(~

W

W

Page 15: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

15

以熵值為基礎的資料選取方法

• 為何要做鑑別式訓練– 傳統最大化相似度無法再提高辨識率

• 為何要做資料選取– 讓鑑別式訓練只專注在混淆的訓練樣本上

• 正規化熵值

• 每個時間音框視為一個訓練樣本

)(

1log)(

log

1)( 2

12 tγtγ

NtE

zqm

Q

q qm

zqmz

Time

t 104

NQ

音素段落

Time

t 104

NQ

音素段落

Page 16: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

Timeit ltjt

kt

Posterior Domain

Decision Boundary

kt

ltjt

it

0Entropy

1

ktlt

Threshold

it jt

Page 17: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

17

以熵值為基礎的資料選取方法

Decision boundary

Entropy0 1

Threshold

ThresholdThreshold

Page 18: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

18

以熵值為基礎的資料選取方法

• 硬性選取 (HS)

• 軟性選取 (SS)

Z

z q

e

stzz

zq

zqm

numqmd

Z

z qz

e

stz

zq

zqm

numqmd

z

Z

z q

e

st

zq

zqm

numqm

latticez

q

q

MPE

latticez

q

q

MPE

latticez

q

q

MPE

ρtEItoγtγOθ

ρtEItoγtγOθ

ρtEIγtγγ

1

22

1

1

,

,

,

))(()(),0max()()(

))(()(),0max()()(

))((),0max()(

W

W

W

ρtEif

ρtEifρtEIz

zz )( ,0

)( ,1))((

)(1)()( tEωtγtγ zzqm

zqm 1-> emphasized

0-> de-emphasized relatively

Page 19: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

19

非監督式聲學模型訓練

• 在大詞彙連續語音辨識 (LVCSR) 的架構中,訓練語料的量越多,對聲學模型的訓練會越有幫助 – 因為可以看到更多以前所沒有看過的語音特徵

• 在語料隨手可得的今天,我們卻沒有辦法很容易地提升自動語音辨識器的效能,因為通常我們所收集到的大量語料是不具有正確轉譯文字

• 這時便可以利用現有的自動語音辨識器去辨識大量未轉譯的語料,省去大量人工轉譯的力氣,以達成非監督式模型訓練

Page 20: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

20

非監督式聲學模型訓練

• 非監督式最大化相似度聲學模型訓練– 搭配信心度評估方法來過濾可能辨識錯誤的詞段– 採用迭代方法

• 非監督鑑別式聲學模型訓練– 搭配信心度評估– 使用資料選取方法

Page 21: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

21

資料選取方法於非監督式訓練

SIL SIL

國立台灣 司法

大學

鍋粒 颱風

排 彎吃飯

吃飯

司法 大學

大學果粒

司法 大學 SIL台灣國立SIL辨識結果

Time

… … … …

1 0.9 0.85 110.5

Data Selection

Page 22: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

22

實驗設定

• 實驗語料 (公視電視新聞語料 MATBN)– 訓練語料 (24.5hrs): 外場記者男女各 46,000s (12.25 hrs)– 測試語料 (1.45hrs): 外場記者男 1300s ,女 :3900s

• 大詞彙連續語音辨識 (72,000 詞 )– 詞彙樹複製搜尋 : 使用雙連語言模型– 詞圖搜尋 : 使用三連語言模型

• 特徵抽取– 39維MFCC+CN

– 39維 HLDA+MLLT+CN

Page 23: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

23

時間音框正確率函數之實驗結果

20.5

21

21.5

22

22.5

23

23.5

24

0 1 2 3 4 5 6 7 8 9 10訓練次數

字錯誤率(%) MPE MTFA Lo=0.5CER(%) MPE MTFA

Lo=0.5

Baseline 23.64

Itr01 22.82 22.74

Itr02 22.44 22.36

Itr03 22.28 22.14

Itr04 21.79 21.56

Itr05 21.48 21.26

Itr06 21.24 21.09

Itr07 21.10 21.09

Itr08 21.06 20.82

Itr09 20.97 20.85

Itr10 20.77 20.72

給予刪除錯誤懲罰並不是要減少刪除錯誤,而是讓收集的統計值有考慮到刪除錯誤的影響。

Page 24: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

24

S 型時間音框正確率函數之實驗結果

CER(%) MPE MSTFA Lo=0.1

Alpha= 0.5

Baseline 23.64

Itr01 22.82 22.88

Itr02 22.44 22.37

Itr03 22.28 22.06

Itr04 21.79 21.52

Itr05 21.48 21.23

Itr06 21.24 21.05

Itr07 21.10 20.89

Itr08 21.06 20.50

Itr09 20.97 20.58

Itr10 20.77 20.46 Relative CER reduction=1.5%

(10th iteration)

充分地給予刪除錯誤懲罰對辨識率有幫助

20

20.5

21

21.5

22

22.5

23

23.5

24

0 1 2 3 4 5 6 7 8 9 10訓練次數

字錯誤率(%) MPE MSTFA Lo=0.1 alpha=0.5

Page 25: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

25

考慮事前機率之實驗結果

CER(%) MPE MPE Prior kappa=10

Baseline 23.64

Itr01 22.82 22.80

Itr02 22.44 22.31

Itr03 22.28 21.98

Itr04 21.79 21.57

Itr05 21.48 21.36

Itr06 21.24 21.23

Itr07 21.10 21.01

Itr08 21.06 20.98

Itr09 20.97 20.95

Itr10 20.77 20.76 κ

z

Z

z q

e

st

zq

zqm

numqm OPγtγγ

latticez

q

q

MPE 1

1

)(~

),0max()( ,

W

考慮事前機率確實對辨識率有影響,只是效果並不明顯。

20.5

21

21.5

22

22.5

23

23.5

24

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%) MPE MPE Prior kappa=10

Page 26: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

26

資料選取方法之分析

總共 frame 數 =9183883

Threshold=0.25 資料量共使用 26.04% (2391697)

Threshold=0.20 資料量共使用 29.74% (2731781)

Threshold=0.15 資料量共使用 33.80% (3104470)

Threshold=0.10 資料量共使用 38.77% (3561021)

Threshold=0.05 資料量共使用 45.88% (4214360)

Threshold=0.01 資料量共使用 58.21% (5346417)

0

1000000

2000000

3000000

4000000

5000000

6000000

Entropy

frame number ML10 HLDA+MLLT+CN

Page 27: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

27

資料選取方法於最大化交互資訊 (MMI)

21.5

22

22.5

23

23.5

24

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%) MMI MMI HS Thr=0.05CER(%) MMI MMI HS

Thr=0.05

Baseline 23.64

Itr01 23.28 22.95

Itr02 22.89 22.28

Itr03 22.58 22.21

Itr04 22.28 21.90

Itr05 22.16 21.77

Itr06 22.10 21.85

Itr07 22.08 21.88

Itr08 21.88 21.97

Itr09 21.81 22.02

itr10 21.75 22.43

Page 28: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

28

資料選取方法於最小化音素錯誤 (MPE)

CER(%) MPE MPE HS Thr=0.05

Baseline 23.64 23.64

Itr01 22.82 22.63

Itr02 22.44 22.05

Itr03 22.28 21.60

Itr04 21.79 21.40

Itr05 21.48 21.19

Itr06 21.24 20.92

Itr07 21.10 20.91  Itr08 21.06 21.22

Itr09 20.97 21.08  Itr10 20.77 21.29  

20.5

21.5

22.5

23.5

24.5

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%)MPE MPE HS Thr=0.05

Page 29: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

29

資料選取方法之分析

1.收斂速度加快的猜想 : 改變了控制收斂速度常數},2max{ min den

sss γEDD

sdens

nums

ssdens

nums

s Dγγ

μDOθOθμ

}{

)}()({

但事實上在使用資料選取方法調整時,控制收斂速度的常數雖然變小,但其調整的響影力也隨著其分子分母項的統計值減少而變小

2.效果差不多的原因是遇到了過度訓練 (Over-training) 的問題,

因為資料量只用了全部的 45.88%(Threshold=0.05)

Page 30: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

30

資料選取方法之分析

Random(45.88%)25000 (74.79%)

20.5

21.5

22.5

23.5

24.5

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%) MPE MPE HS0.05MPE Random MPE 25000

Page 31: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

31

資料選取方法於 S 型時間音框正確率函數 (MSTFA)

20

21

22

23

24

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%) MSTFA MSTFA HS Thr=0.05 MPE

CER(%) MPE MSTFA Lo=0.1

Alpha=0.5

MSTFA HS Thr=0.05

Baseline 23.64

Itr01 22.82 22.88 22.46

Itr02 22.44 22.37 21.87

Itr03 22.28 22.06 21.40

Itr04 21.79 21.52 21.38

Itr05 21.48 21.23 21.08

Itr06 21.24 21.05 21.03

Itr07 21.10 20.89 21.02

Itr08 21.06 20.50 21.15

Itr09 20.97 20.58 20.86

Itr10 20.77 20.46 21.43

Page 32: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

32

資料選取方法於 S 型時間音框正確率函數

CER(%) MPE MSTFA Lo=0.1

Alpha= 0.5

MSTFA SS w=0.8

Lo=0.1 alpha=0.5

Baseline 23.64

Itr01 22.82 22.88 22.81

Itr02 22.44 22.37 22.26

Itr03 22.28 22.06 21.81

Itr04 21.79 21.52 21.42

Itr05 21.48 21.23 21.21

Itr06 21.24 21.05 20.98

Itr07 21.10 20.89 20.73

Itr08 21.06 20.50 20.78

Itr09 20.97 20.58 20.53

Itr10 20.77 20.46 20.75

20

21

22

23

24

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%) MSTFA MSTFA SS MPE

Soft selection

Page 33: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

非監督式聲學模型訓練之流程使用 200 句 (11 分鐘 ) 語料來

訓練初始聲學模型

用目前訓練好的聲學模型去辨識 34472 句 (24 小時 ) ,並且產生詞圖

使用前向 -後向演算法求得每一個詞段的信心度,並產生第一名詞序列

利用含信心度的第一名詞序列 (34472 句 )及 200 句,重新訓練目前的聲學模型 (ML 10次 )

用目前訓練好的聲學模型去辨識 34472 句 (24 小時 ) ,並且產生詞圖

使用前向 -後向演算法求得每一個詞段的信心度,並產生第一名詞序列

使用鑑別式訓練 (MPE) ,信心度評估及資料選取方法來作聲學模型參數的調整

迭代 3次

Page 34: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

34

32.833.834.835.8

36.837.838.8

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%)ML MFCC+CN Conf=0.8ML HLDA+MLLT+CN Conf=0.8

35.5

37.5

39.5

41.5

43.5

0 1 2 3 4 5 6 7 8 9 10訓練次數

字錯誤率(%)ML MFCC+CN ML HLDA+MLLT+CN

非監督最大化相似度訓練之實驗結果CER(%) MFCC+CN

HLDA+MLLT+CN

HRest 58.95 58.37

HHed 58.31 57.80

40

45

50

55

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%)ML MFCC+CN ML HLDA+MLLT+CN

第一次迭代 第二次迭代

第三次迭代

Page 35: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

35

信心度值之分析

ML2_itr10 MFCC+CN

0

2000000

4000000

6000000

8000000

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

信心度值

音框個數

以每個詞段的事後機率來當成此詞段的信心度值,由上圖可知信心度評估不是很準,因為辨識率不高, (Acc=61.32% ML2)所以使用信心度評估幫助不大。

信心度值 音框個數0~0.1 34671

0.1~0.2 9775

0.2~0.3 37454

0.3~0.4 125937

0.4~0.5 747354

0.5~0.6 71006

0.6~0.7 84372

0.7~0.8 104582

0.8~0.9 153397

0.9~1 7815662

Page 36: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

36

非監督鑑別式聲學模型訓練之實驗結果

CER(%) ML MFCC+CN Conf=0.5

MPE MFCC+CN

Conf= 0

MPE FS MFCC+CN Conf= 0.5

ML3 itr10 36.42

Itr01 35.65 35.51 35.63

Itr02 35.61 34.91 35.13

Itr03 35.50 34.61 34.98

Itr04 35.49 34.43 34.82

Itr05 35.50 34.38 34.82

Itr06 35.52 34.14 34.73

Itr07 35.33 34.06 34.58

Itr08 35.41 33.87 34.43

Itr09 35.33 34.18 34.46

Itr10 35.38 34.24 34.51

33.534

34.535

35.536

36.5

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%)ML MFCC+CN MPE MFCC+CNMPE FS MFCC+CN

因為沒有正確答案,所以使用資料選取方法雖然能找出混淆的樣本,但卻無法將混淆的樣本拉離決定邊界。

Page 37: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

37

結論

• 時間音框正確率函數確實能增進辨識率

• 考慮事前機率確實對辨識率有幫助

• 資料選取方法能加快收斂速度

Page 38: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

38

未來展望

• 未來可能嘗試使用音韻的資訊來估測語句的事前機率

• 將以正規化熵值為基礎的資料選取方法應用到其他的鑑別式訓練,如最小化分類錯誤 (MCE)、最小化貝氏風險鑑別式訓練(MBRDT)等,以驗證此方法的一般性

Page 39: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

謝謝請口試委員指教

Page 40: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

40

比較不同語音特徵

20

21

22

23

24

25

26

27

0 1 2 3 4 5 6 7 8 9 10訓練次數

字錯誤率(%)

MPE MFCC+CN

MPE LDA+MLLT+CN

MPE HLDA+MLLT+CN

Page 41: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

41

比較不同訓練方法

20

21

22

23

24

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%)

ML HLDA+MLLT+CNMMI HLDA+MLLT+CNMPE HLDA+MLLT+CN

Page 42: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

42

時間音框正確率函數之實驗結果

CER(%) MTFA Lo=0.1

MTFA Lo=0.3

MTFA Lo=0.4

MTFA Lo=0.45

MTFA Lo=0.5

MTFA Lo=0.55

MTFA Lo=0.6

MTFA Lo=0.8

Baseline 23.64

Itr01 22.85 22.73 22.71 22.73 22.74 22.73 22.75 22.80

Itr02 22.35 22.33 22.31 22.30 22.36 22.33 22.29 22.39

Itr03 22.07 22.13 22.11 22.12 22.14 22.15 22.16 22.19

Itr04 21.65 21.50 21.57 21.60 21.56 21.57 21.58 21.69

Itr05 21.26 21.14 21.25 21.21 21.26 21.28 21.24 21.34

Itr06 20.98 20.97 21.00 21.00 21.09 21.17 21.11 21.23

Itr07 20.91 20.87 20.94 20.99 21.09 21.13 21.16 21.19

Itr08 20.87 20.81 20.85 20.79 20.82 20.78 20.82 20.93

Itr09 20.84 20.74 20.81 20.78 20.85 20.86 20.92 20.90

Itr10 20.82 20.80 20.81 20.80 20.72 20.79 20.83 20.93

Page 43: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

43

S 型時間音框正確率函數之實驗結果

MPE CER(%) MSTFALo=0.1

0.5

MSTFA Lo=0.2

0.5

MSTFA Lo=0.5 0.

5

MSTFA Lo=0.1

1

MSTFA Lo=0.2

1

MSTFA Lo=0.5

1

23.64 Baseline 23.64

22.82 Itr01 22.88 22.82 22.82 22.83 22.82 22.77

22.44 Itr02 22.37 22.40 22.34 22.37 22.40 22.38

22.28 Itr03 22.06 22.10 22.10 22.02 22.09 22.05

21.79 Itr04 21.52 21.56 21.58 21.41 21.60 21.56

21.48 Itr05 21.23 21.29 21.47 21.30 21.39 21.52

21.24 Itr06 21.05 21.03 21.27 21.06 21.26 21.32

21.1 Itr07 20.89 20.90 21.11 20.80 20.91 21.19

21.06 Itr08 20.50 20.69 20.97 20.54 20.84 20.98

20.97 Itr09 20.58 20.69 20.82 20.57 20.63 21.03

20.77 Itr10 20.46 20.68 20.87 20.65 20.72 21.10

Page 44: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

44

考慮事前機率之實驗結果

MPE CER(%) MPE Prior 3

MPE Prior 5

MPE Prior 8

MPE Prior 10

MPE Prior 12

MPE Prior 15

MPE Prior 20

23.64 Baseline 23.64

22.82 Itr01 22.56 22.80 22.78 22.80 22.74 22.79 22.79

22.44 Itr02 22.26 22.25 22.26 22.31 22.28 22.34 22.33

22.28 Itr03 21.67 21.83 21.95 21.98 22.01 22.01 22.10

21.79 Itr04 21.54 21.50 21.55 21.57 21.75 21.69 21.78

21.48 Itr05 21.44 21.32 21.27 21.36 21.43 21.41 21.53

21.24 Itr06 21.34 21.27 21.26 21.23 21.25 21.18 21.34

21.1 Itr07 21.42 21.10 21.01 21.01 21.18 21.10 21.37

21.06 Itr08 21.33 21.00 21.01 20.98 20.98 21.03 21.29

20.97 Itr09 21.22 20.91 20.91 20.95 20.95 20.99 21.25

20.77 Itr10 21.08 20.82 20.80 20.76 20.77 20.76 21.16

Page 45: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

45

不同減損函數之比較

20.5

21

21.5

22

22.5

23

23.5

24

0 1 2 3 4 5 6 7 8 9 10

訓練次數

字錯誤率(%)

MPE

MPFE

MFPE

MFPE_nosil

s-MBR

MD

Page 46: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

46

資料選取於 MMI

MMI CER(%) MMI HS Thr=0.05

MMI HS Thr=0.06

MMI HS Thr=0.08

MMI HS Thr=0.1

MMI HS Thr=0.25

23.64 Baseline 23.64 23.64 23.64 23.64 23.64

23.28 Itr01 22.95 22.96 22.91 22.84 22.89

22.89 Itr02 22.28 22.33 22.33 22.29 22.38

22.58 Itr03 22.21 22.18 22.06 22.11 22.33

22.28 Itr04 21.90 21.92 21.85 21.84 21.96

22.16 Itr05 21.77 21.86 21.88 21.94 22.08

22.1 Itr06 21.85 21.82 21.78 21.99 22.03

22.08 Itr07 21.88 21.90 21.92 21.92 21.90

21.88 Itr08 21.97 21.97 21.87 22.07 21.84

21.81 Itr09 22.02 22.20 22.27 22.46 21.76

21.75 itr10 22.43 22.70 22.87 23.12 22.06

Page 47: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

47

資料選取於 MPE (HS)

MPE CER(%) MPE HS Thr=0.05

MPE HS Thr=0.06

MPE HS Thr=0.08

MPE HS Thr=0.1

MPE HS Thr=0.15

23.64 Baseline 23.64 23.64 23.64 23.64 23.64

22.82 Itr01 22.63 22.55 22.55 22.55 22.53

22.44 Itr02 22.05 22.02 22.00 21.94 21.88

22.28 Itr03 21.60 21.66 21.61 21.70 21.74

21.79 Itr04 21.40 21.44 21.41 21.53 21.54

21.48 Itr05 21.19 21.24 21.10 21.27 21.39

21.24 Itr06 20.92 20.95 21.03 21.28 21.41

21.1 Itr07 20.91 21.06      21.06 Itr08 21.22        20.97 Itr09 21.08        20.77 Itr10 21.29        

Page 48: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

48

資料選取於 MPE (SS)

CER(%) MPE MPE SS1

MPE SS0.5

MPE SS2

MPE SS1.5

Baseline 23.64 23.64 23.64 23.64 23.64

Itr01 22.82 22.84 22.88 22.91 22.86

Itr02 22.44 22.40 22.43 22.36 22.37

Itr03 22.28 22.21 22.25 22.11 22.12

Itr04 21.79 21.65 21.73 21.62 21.60

Itr05 21.48 21.34 21.31 21.34 21.31

Itr06 21.24 21.33 21.18 21.48 21.37

Itr07 21.10 21.29 21.29 21.18 21.24

Itr08 21.06 21.00 21.06 21.15 21.13

Itr09 20.97 21.02 20.93 20.97 21.02

Itr10 20.77 20.94 20.89 21.04 21.08

Page 49: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

49

非監督訓練

CER(%) MFCC+CN Conf=0

MFCC+CN Conf=0.8

HLDA+MLLT+CN Conf=0

HLDA+MLLT+CN Conf=08

ML2itr10 38.68 38.68 35.56 35.56

Itr01 37.31 37.40 33.90 33.80

Itr02 37.24 37.14 33.61 33.59

Itr03 37.14 36.79 33.47 33.35

Itr04 36.75 36.82 33.20 33.19

Itr05 36.63 36.64 33.16 33.14

Itr06 36.61 36.68 33.14 33.03

Itr07 36.64 36.66 33.19 33.06

Itr08 36.65 36.73 33.10 32.95

Itr09 36.65 36.62 32.93 32.97

Itr10 36.62 36.42 33.00 32.91

第三次迭代

Page 50: 改善鑑別式聲學模型訓練於中文 連續語音辨識之研究

50

非監督鑑別式訓練

CER(%) ML MFCCCN Conf=0.5

MPE MFCC+CN

Conf= 0

MPE MFCC+CN Conf= 0.5

MPE MFCC+CN Conf= 0.7

MPE FS MFCC+CN Conf= 0.5

ML3 itr10 36.42 36.42 36.42 36.42 36.42

Itr01 35.65 35.51 35.58 35.68 35.63

Itr02 35.61 34.91 34.86 34.95 35.13

Itr03 35.50 34.61 34.61 34.75 34.98

Itr04 35.49 34.43 34.42 34.63 34.82

Itr05 35.50 34.38 34.40 34.51 34.82

Itr06 35.52 34.14 34.23 34.33 34.73

Itr07 35.33 34.06 34.23 34.10 34.58

Itr08 35.41 33.87 34.08 34.31 34.43

Itr09 35.33 34.18 34.19 34.20 34.46

Itr10 35.38 34.24 34.14 34.39 34.51