mmimpesmbr
TRANSCRIPT
MMIとMPE/sMBRKotaro Setoyama
1
NNの学習
l:l層目,t:t回目の更新,m:m個目のデータの出力 損失関数
2
損失関数
MSE(Mean Square Error)
CE(Cross Entropy)
■回帰
■識別
o:出力層の出力,y:ラベル,m:m個目のデータの出力,i:i番目のクラス 3
e.g. 回帰
NNの学習
デルタ(出力層)
4
NNの学習
5
HMM+DNN
6
MMI/MPE/sMBR
7
■識別モデルの目的関数群■それぞれ目的関数とデルタの算出方法が異なる■誤差関数として最小化したい時は-1をかける■MPEはexpected phone errorを最小化する後述のwが音素に対応
■sMBRはexpected state errorを最小化する後述のwがstateに対応
■Chainerの場合,Forwardは目的関数に-1をかけたもの,Backwardはデルタを実装すればよさそう
MMIの目的関数
θ:DNNのパラメータ κ:ハイパーパラメータ m:m番目の発話o:observation sequence w:word transcription(ラベル)
Tm:m番目の発話のフレーム数,Nm:m番目の発話のword数8
m番目の発話の候補をラティスから求めて和をとる(EBW)
e.g. 単語列
m番目の発話の遷移state列
m番目の発話の特徴ベクトル列
NNの出力から求められそう?
言語モデルから求める
ビタビで求めたやつ?周辺化
MMIの目的関数の微分
9
Chain Rule
デルタ(error signalと呼ばれる)
通常のBackpropと同じ
Error Signal(デルタ)
10
κ:ハイパーパラメータ r:state r
t:t回目の更新 i:出力層のi番目のユニット
stateがrになる事後確率
時刻tにあるstate rを通るラティス上の発話について和をとる
sMBRの目的関数
11
発話wに関する候補について和をとる
accuracy=ハミング距離
MPE:正解音素数sMBR:正解state数
NNの出力から求められそう?
言語モデルから求める
label sequence
Error Signal(デルタ)
12
時刻tにstate rを通るラティス上の発話とreferenceとのハミング距離の平均
ラティス上の発話とreferenceとのハミング距離の平均