形態素解析も辞書も言語モデルもいらないend-to-end音声認識
TRANSCRIPT
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIESCambridge, Massachusetts
◎Tomoki Hayashi (Nagoya Univ.)
Shinji Watanabe (MERL), Takaaki Hori (MERL)Suyoun Kim (CMU)
形態素解析も辞書も⾔語モデルもいらないend-to-end⾳声認識
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
⾳声認識システム• 系列から系列への変換問題
物理的な信号系列を⾔語的なシンボル系列へとマッピング
2016 2
“出資者は無理難題を”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)– ⾳素からHMMの状態系列へ:
• 発⾳辞書– 単語から⾳素系列へ:
• 形態素解析– テキストから単語系列へ:
• ⾔語モデル
2016 3
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システムの問題点• ⾔語的資源が必要
– 形態素解析 / 発⾳辞書– 未知語を追加するなどのメンテナンスが必要
• ⼤量のモジュールで構成– ⾮常に複雑– 局所的に最適化– それぞれのモジュール間の依存関係を考慮して調整するのが困難
2016 4
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)– ⾳素からHMMの状態系列へ:
• 発⾳辞書– 単語から⾳素系列へ:
• 形態素解析– テキストから単語系列へ:
• ⾔語モデル
2016 5
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来の⽇本語⾳声認識システム
⾳声特徴量 テキスト : “出資者は無理難題を”
• ⾳響モデル (出⼒確率, GMM→DNN)
• ⾳響モデル (HMM)– ⾳素からHMMの状態系列へ:
• 発⾳辞書– 単語から⾳素系列へ:
• 形態素解析– テキストから単語系列へ:
• ⾔語モデル
2016 6
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
“出資␣者␣は␣無理␣難題␣を”
“s y u q s i”
“s_1, s_2, s_3”
Neural Network
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Connectionist temporal classification (CTC)[Graves+(2006), Graves+(2014), Miao+(2015)]
2016 8
• ⽂字系列: • 冗⻑表現⽂字系列: • : HMMと同様の形式, forward-backward algorithm• 発⾳辞書は不要• 条件付き独⽴の仮定を利⽤
– 1次マルコフ性を仮定, ⻑期の影響を明⽰的に考慮せず
and aab, abb, a_b,ab_, _ab
条件付き独⽴の仮定 2
条件付き独⽴の仮定 3
条件付き独⽴の仮定 1
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Attention ASR [Chorowski+(2014), Chan+(2015)]
2016 9
連鎖律
• 条件付き独⽴性の仮定が不要• 発⾳辞書が不要• Attention & Encoder: ⾳響モデル• Decoder: ⾔語モデル⾳響モデルと⾔語モデルを単⼀のネットワークで表現!しかし…
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Attentionによるアライメントの問題• Attentionモデルはアライメントに
対して⾮常に柔軟– Attentionは⼊⼒と出⼒の順番
(因果関係)を保証しない
– Attention Encoderの役割が⾳響モデルの役割を超えている(機械翻訳の場合はこれは有効)⇒ Encoderの正則化の導⼊
2016 10
HMM or CTC case
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/Attention network [Kim+(2017)]
2016 11
Multitask learning:
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
Joint CTC/Attention network [Kim+(2017)]
2016 12
Multitask learning:
ブラックボックスなネットワークに⾳声認識の知識を組み込み
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
実験条件 ⽇本語話し⾔葉コーパス (CSJ)• ベースラインハイブリッドシステム
– Kaldiレシピバージョン• fMLLR features, DNN-sMBR, 3-gram LM• ⾳響モデル:academic lectures (236 hours) で学習• ⾔語モデル:all transcriptions (581 hours) で学習
– Syllable-based CTC• fbank (24+Δ+ΔΔ), 5-layer BLSTM (#cell = 320), 4-gram LM• 発⾳辞書を利⽤した263個の”かな”をCTCに利⽤
• End-to-endシステム– Joint CTC-Attention
• fbank (24+Δ+ΔΔ), 4-layer BLSTM encoder (#cell = 320),1 layer LSTM decoder (#cell = 320)
• 漢字/ひらがな/カタカナを含む3315⽂字• 発⾳辞書なし / ⾔語モデルなし• Chainerにより実装
2016 13
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
学習データ量の影響の調査
2016 14
• MTL (CTC-attention) はどの設定でも性能の向上に貢献• データが増えれば増えるほど性能が向上
Model(train) CER (task1) CER (task2) CER (task3)Attention
100k-train (147h) 20.1 14.0 32.7MTL
100k-train (147h) 16.9 12.7 28.9Attention
academic-train (236h) 17.2 12.4 25.4MTL,
academic-train (236h) 13.9 10.2 22.2Attention
full-train (581h) 11.5 7.9 9.0MTL
full-train (581h) 10.9 7.8 8.3
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
従来⼿法との⽐較
2016 15
• GMM-HMM, DNN-HMM, CTC-syllableは単語単位の認識結果からCERを計算
• MTL large model: 5-layer BLSTM encoder + 2-layer LSTM decoder
• ハイブリッドモデルに匹敵する性能を達成!
Model(train) CER (task1) CER (task2) CER (task3)
GMM-discr. (236hfor AM, 581h for LM) 11.2 9.2 12.1DNN-hybrid (236hfor AM, 581h for LM) 9.0 7.2 9.6
CTC-syllable (581h)9.4 7.3 7.5
MTL, large model (581h) 9.5 7.0 7.8
© MERL
MITSUBISHI ELECTRIC RESEARCH LABORATORIES
End-to-end ⾳声認識の利点• ⾔語的知識がほとんど不要
– 簡単に多⾔語ASRシステムを構築可能• ⽂字レベルベースなら未知語の問題を回避• ソースコードの総量を⼤幅に削減
16455 lines (Kaldiのメインソース抜き) → 2522 lines (Chianerのメインソース抜き)
• 学習時間GMMの学習:多数のCPUを利⽤して2~3⽇DNNの学習:多数のCPU+シングルGPUで3~4⽇→ シングルGPU (Titan X) で7⽇
2016 16