mmimpesmbr

MMIとMPE/sMBRKotaro Setoyama

1

NNの学習

l：l層目，t：t回目の更新，m：m個目のデータの出力損失関数

2

損失関数

MSE(Mean Square Error)

CE(Cross Entropy)

■回帰

■識別

o：出力層の出力，y：ラベル，m：m個目のデータの出力，i：i番目のクラス 3

e.g. 回帰

NNの学習

デルタ(出力層)

4

NNの学習

5

HMM+DNN

6

MMI/MPE/sMBR

7

■識別モデルの目的関数群■それぞれ目的関数とデルタの算出方法が異なる■誤差関数として最小化したい時は-1をかける■MPEはexpected phone errorを最小化する後述のwが音素に対応

■sMBRはexpected state errorを最小化する後述のwがstateに対応

■Chainerの場合，Forwardは目的関数に-1をかけたもの，Backwardはデルタを実装すればよさそう

MMIの目的関数

θ：DNNのパラメータ κ：ハイパーパラメータ m：m番目の発話o：observation sequence w：word transcription(ラベル)

Tm：m番目の発話のフレーム数，Nm：m番目の発話のword数8

m番目の発話の候補をラティスから求めて和をとる(EBW)

e.g. 単語列

m番目の発話の遷移state列

m番目の発話の特徴ベクトル列

NNの出力から求められそう？

言語モデルから求める

ビタビで求めたやつ？周辺化

MMIの目的関数の微分

9

Chain Rule

デルタ(error signalと呼ばれる)

通常のBackpropと同じ

Error Signal(デルタ)

10

κ：ハイパーパラメータ r：state r

t：t回目の更新 i：出力層のi番目のユニット

stateがrになる事後確率

時刻tにあるstate rを通るラティス上の発話について和をとる

sMBRの目的関数

11

発話wに関する候補について和をとる

accuracy=ハミング距離

MPE：正解音素数sMBR：正解state数

NNの出力から求められそう？

言語モデルから求める

label sequence

Error Signal(デルタ)

12

時刻tにstate rを通るラティス上の発話とreferenceとのハミング距離の平均

ラティス上の発話とreferenceとのハミング距離の平均

mmimpesmbr

Science