形態素解析も辞書も言語モデルもいらないend-to-end音声認識

© MERL

MITSUBISHI ELECTRIC RESEARCH LABORATORIESCambridge, Massachusetts

◎Tomoki Hayashi (Nagoya Univ.)

Shinji Watanabe (MERL), Takaaki Hori (MERL)Suyoun Kim (CMU)

形態素解析も辞書も⾔語モデルもいらないend-to-end⾳声認識

© MERL

MITSUBISHI ELECTRIC RESEARCH LABORATORIES

⾳声認識システム• 系列から系列への変換問題

物理的な信号系列を⾔語的なシンボル系列へとマッピング

2016 2

“出資者は無理難題を”

© MERL


従来の⽇本語⾳声認識システム

⾳声特徴量テキスト : “出資者は無理難題を”

• ⾳響モデル (出⼒確率, GMM→DNN)

• ⾳響モデル (HMM)– ⾳素からHMMの状態系列へ:

• 発⾳辞書– 単語から⾳素系列へ:

• 形態素解析– テキストから単語系列へ:

• ⾔語モデル

2016 3

“出資␣者␣は␣無理␣難題␣を”

“s y u q s i”

“s_1, s_2, s_3”

© MERL


従来の⽇本語⾳声認識システムの問題点• ⾔語的資源が必要

– 形態素解析 / 発⾳辞書– 未知語を追加するなどのメンテナンスが必要

• ⼤量のモジュールで構成– ⾮常に複雑– 局所的に最適化– それぞれのモジュール間の依存関係を考慮して調整するのが困難

2016 4

© MERL








• ⾔語モデル

2016 5


“s y u q s i”

“s_1, s_2, s_3”

© MERL








• ⾔語モデル

2016 6


“s y u q s i”

“s_1, s_2, s_3”


“s y u q s i”

“s_1, s_2, s_3”

Neural Network

© MERL


Joint CTC/attention network

2016 7

© MERL


Connectionist temporal classification (CTC)[Graves+(2006), Graves+(2014), Miao+(2015)]

2016 8

• ⽂字系列: • 冗⻑表現⽂字系列: • : HMMと同様の形式, forward-backward algorithm• 発⾳辞書は不要• 条件付き独⽴の仮定を利⽤

– 1次マルコフ性を仮定, ⻑期の影響を明⽰的に考慮せず

and aab, abb, a_b,ab_, _ab

条件付き独⽴の仮定 2



© MERL


Attention ASR [Chorowski+(2014), Chan+(2015)]

2016 9

連鎖律

• 条件付き独⽴性の仮定が不要• 発⾳辞書が不要• Attention & Encoder: ⾳響モデル• Decoder: ⾔語モデル⾳響モデルと⾔語モデルを単⼀のネットワークで表現！しかし…

© MERL


Attentionによるアライメントの問題• Attentionモデルはアライメントに

対して⾮常に柔軟– Attentionは⼊⼒と出⼒の順番

(因果関係)を保証しない

– Attention Encoderの役割が⾳響モデルの役割を超えている(機械翻訳の場合はこれは有効)⇒ Encoderの正則化の導⼊

2016 10

HMM or CTC case

© MERL


Joint CTC/Attention network [Kim+(2017)]

2016 11

Multitask learning:

© MERL


実験条件⽇本語話し⾔葉コーパス (CSJ)• ベースラインハイブリッドシステム

– Kaldiレシピバージョン• fMLLR features, DNN-sMBR, 3-gram LM• ⾳響モデル：academic lectures (236 hours) で学習• ⾔語モデル：all transcriptions (581 hours) で学習

– Syllable-based CTC• fbank (24+Δ+ΔΔ), 5-layer BLSTM (#cell = 320), 4-gram LM• 発⾳辞書を利⽤した263個の”かな”をCTCに利⽤

• End-to-endシステム– Joint CTC-Attention

• fbank (24+Δ+ΔΔ), 4-layer BLSTM encoder (#cell = 320),1 layer LSTM decoder (#cell = 320)

• 漢字/ひらがな/カタカナを含む3315⽂字• 発⾳辞書なし / ⾔語モデルなし• Chainerにより実装

2016 13

© MERL


学習データ量の影響の調査

2016 14

• MTL (CTC-attention) はどの設定でも性能の向上に貢献• データが増えれば増えるほど性能が向上

Model(train) CER (task1) CER (task2) CER (task3)Attention

100k-train (147h) 20.1 14.0 32.7MTL

100k-train (147h) 16.9 12.7 28.9Attention

academic-train (236h) 17.2 12.4 25.4MTL,

academic-train (236h) 13.9 10.2 22.2Attention

full-train (581h) 11.5 7.9 9.0MTL

full-train (581h) 10.9 7.8 8.3

© MERL


従来⼿法との⽐較

2016 15

• GMM-HMM, DNN-HMM, CTC-syllableは単語単位の認識結果からCERを計算

• MTL large model: 5-layer BLSTM encoder + 2-layer LSTM decoder

• ハイブリッドモデルに匹敵する性能を達成！

Model(train) CER (task1) CER (task2) CER (task3)

GMM-discr. (236hfor AM, 581h for LM) 11.2 9.2 12.1DNN-hybrid (236hfor AM, 581h for LM) 9.0 7.2 9.6

CTC-syllable (581h)9.4 7.3 7.5

MTL, large model (581h) 9.5 7.0 7.8

© MERL


End-to-end ⾳声認識の利点• ⾔語的知識がほとんど不要

– 簡単に多⾔語ASRシステムを構築可能• ⽂字レベルベースなら未知語の問題を回避• ソースコードの総量を⼤幅に削減

16455 lines (Kaldiのメインソース抜き) → 2522 lines (Chianerのメインソース抜き)

• 学習時間GMMの学習：多数のCPUを利⽤して2~3⽇DNNの学習：多数のCPU+シングルGPUで3~4⽇→ シングルGPU (Titan X) で7⽇

2016 16

© MERL


まとめと今後の課題

2016 17

• Attentionを利⽤することで単⼀のネットワークで⾳響モデルと⾔語モデルを表現

• マルチタスク学習によりAttention Encoderの役割を⾳響モデルのみに絞る正則化

• ⾔語的資源なしに⽇本語⾳声認識を実現

現在の問題点• 未だ⽂字レベルベースの⾳声認識システムであること

(⽇本語や中国語では問題ないが，アルファベットには不適当)• ⼤量のテキストデータの活⽤⽅法

形態素解析も辞書も言語モデルもいらないend-to-end音声認識

Data & Analytics