大規模進化計算による...

30
大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学 情報通信系 www.ts.ip.titech.ac.jp GTC Japan 2016 1

Upload: others

Post on 21-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

大規模進化計算による音声認識システム開発の自動化

篠崎隆宏

東京工業大学 情報通信系

www.ts.ip.titech.ac.jp

GTC Japan 2016 1

Page 2: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

音声認識の普及

2

音声入力・

音声区間検出

音声区間をサーバーへ

Internet

音声認識、

応答文生成、音声合

成データセンター

応答音声を端末へ

Where is the…

Keep going and…

音声出力

Page 3: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

音声認識の仕組み

3

A/D変

特徴量抽出

音響モデル

言語モデル

Hello!

マイク パターン認識・探索

ニューラルネットワークの利用で、近年性能が

大幅に向上

Page 4: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

音声認識システムの構築

① システム設計

RNN言語モデル

特徴量抽出器

入力音声

FF-DNN音響モデル

N-gram言語モデル

認識部第一段

認識結果

大規模音声データベース

②音響・言語モデルの学習 ③認識性能の評価

認識部第二段

単語誤り率(WER)

=置換誤り+挿入誤り+削除誤り

正解単語数

4

Page 5: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

DNN音響モデルの学習プロセス

5

② DNNの初期化

Output layer

Input vectorInput pattern=v0

h0 = v1

h1 = v2

③バックプロパゲーションによる教師付き学習

プレトレーニング ファインチューニング

RBM

RBM

RBM

Reference output

RBMの教師なし学習

Page 6: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

RNN言語モデルの学習プロセス

① RNNのループを時間方向に展開

② 時間展開バックプロパゲーション(BPTT)により教師付き学習

6

Page 7: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

音響・言語モデルの学習の計算規模

大規模音声・言語データ

大規模な音声データ(数百~数千時間)

大規模なニューラルネットワーク

(数百万~数千万ユニット)

最新GPGPUを用いて数日~数か月

7

Page 8: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

音声認識システム構築の問題点

相互依存する多数の調整要素(メタパラメタ)が存在

・ニューラルネットワークの構造(隠れ層数、各層のユニット数、ユニット種別、接続構造等)

・学習条件(学習率、モーメンタム、ミニバッチサイズ等)

ノウハウと試行錯誤の世界 8

Page 9: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

従来アプローチと提案アプローチ

HARDWORK

HARDWORK

従来アプローチ専門家によるチューニング

提案アプローチ進化計算による自動チューニング

9

Page 10: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

進化的アルゴリズムの種類

10

進化的アルゴリズム

遺伝的アルゴリズム(GA)

進化的戦略共分散行列適応進化戦略 (CMA-ES)

Page 11: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

CMA-ESによる音声認識システムの自動最適化

⑤ 評価結果をもとに分布を更新

評価結果評価結果評価結果評価結果評価結果

初期メタパラメタ

• 隠れ層の層数• 各層のユニット数• 学習係数etc. ガウス分布

サンプリングにより遺伝子個体群を生成

繰り返す

11

メタパラメタを遺伝子(実数値ベクトル)にエンコード

①② 遺伝子分布をガウス分布で表現

各遺伝子から個体を実体化・評価

Page 12: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

パレート最適を用いた多目的最適化

Ranking1. x1

x2x3

2. x4x5

3. x6

各個体の順位付け

12

目的関数として使用DNN size

WER

最適化方向

and

認識性能と計算時間など、複数の目的関数を同時最適化

Page 13: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

進化フレームワークの実装

•トップレベルスクリプト• gene2conf: 遺伝子を設定ファイルに変換(遺伝子の実体化)• trainEval: モデル学習と評価(個体の評価)• nextGeneration : ガウス分布の更新と次世代遺伝子群の生成

13

20048

0.1230.435

101:

遺伝子

HidSize1=205hidSize2=121Learnrate1=0.123Learnrate3=0.435Node2in=1Node3in=1,2Node4in=3

:

設定ファイル

$ for gene in {genes}gene2conf gene

$ for conf in {confs}trainEval conf

gene1 77.3gene2 65.2gene3 82.3gene4 0 gene5 48.3gene6 79.4

:

スコアファイル

$ nextGeneration score

genei genei 次世代遺伝子群

gene1gene2gene3gene4gene5gene6

:

Page 14: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

個体群の並列評価

14

1個体の評価 = ニューラルネットワークの学習と評価

全個体の評価には長時間の計算が必要

しかし、世代内においては、各個体の学習・評価は完全に独立して実行できる

1個体に1GPUを割り当てて、並列計算

Page 15: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

DNN音響モデルの進化最適化

データベース 日本語話し言葉コーパス(CSJ)

認識システム構築 Kaldi Speech Recognition Toolkit

学習データ 240 時間

個体(並列)数 / 世代 44

使用計算機 TSUBAME 2.5 (GPU : Tesla K20X)

開発・評価セット それぞれ2 時間(10講演)の音声データ

15

進化の評価尺度 単語正解精度+DNNファイルサイズ

実験条件

Page 16: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

最適化対象のメタパラメタ

16

カテゴリ メタパラメタ名 メタパラメタの詳細 初期値 xinit

特徴量 feat_type 特徴量の種類(MFCC,PLP,FBANK) MFCC

DNN構造

splice 入力特徴量のフレーム幅 5

nn_depth 中間層の数 6

hid_dim 中間層1層あたりの素子数 2048

RBM学習パラメタ

param_stddev_firstパラメタ初期化の分散値

0.1

param_stddev 0.1

rbm_lrate学習率

0.4

rbm_lrate_low 0.01

rbm_l2penalty L2正則化係数 0.0002

DNN学習パラメタ

learn_rate 学習率 0.008

momentum モーメンタム 0.00001

Page 17: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

各世代の性能分布

12.4

12.8

13.2

13.6

14.0

14.4

14.8

15.2

0 100 200 300 400 500 600 700

WER

[ %

]

DNN size [ MB ]

gen1

baseline

17

Page 18: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

各世代の性能分布

12.4

12.8

13.2

13.6

14.0

14.4

14.8

15.2

0 100 200 300 400 500 600 700

WER

[ %

]

DNN size [ MB ]

gen1

gen2

baseline

18

Page 19: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

各世代の性能分布

12.4

12.8

13.2

13.6

14.0

14.4

14.8

15.2

0 100 200 300 400 500 600 700

WER

[ %

]

DNN size [ MB ]

gen1

gen2

gen3

gen4

gen5

baseline

19

Page 20: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

11.8

12.2

12.6

13.0

13.4

0 100 200 300 400

WER

[ %

]

DNN size [ MB ]

全個体によるパレートフロント

20

サイズ削減率59 %

WER 相対削減率 4.4 %

初期個体

進化個体

Page 21: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

RNN言語モデルの進化最適化

•ネットワーク構造• 隠れ層の数,各層のユニット数

• 語彙サイズ(= 入力層,出力層のユニット数)• 各層のユニットタイプ (LSTM,RNN,FF)

•各種調整値• 学習率の初期値,モーメンタム

• ミニバッチサイズ• 学習器の種類とそのメタパラメタetc.

21

最適化対象のメタパラメタ

Page 22: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

隠れ層のユニットタイプ

22

FF layer最も単純な構造

RNN layer再帰構造により過去の文脈情報を利用可能

LSTM layerRNN layer より長い

文脈情報が利用可能

*LSTM: Long Short-Term Memory

LSTMlayer

RNNlayer

FFlayer

層毎のユニットタイプを可変にして進化により選択

Page 23: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

実験条件

• 全般条件

• 進化条件

開発セット 約 30 時間

世代数 10 世代

個体数 30 個体

評価尺度単語正解精度+

RNN言語モデルの計算時間

データベース 日本語話し言葉コーパス(CSJ)

学習セット音響モデル 520 時間

言語モデル 750万単語

評価セット 6 時間

認識デコーダ Kaldi

23

Page 24: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

進化結果

24

1350

1500

1650

1800

1950

2100

8.2

8.3

8.4

8.5

8.6

8.7

0 1 2 3 4 5 6 7 8 9 10

Resc

orin

g ti

me

[s]

WER

on

eval

uatio

n se

t [%

]

# of generation

WER

Rescoring time

Page 25: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

モデル構造と性能の分布( 10世代目)

8.2

8.6

9.0

9.4

9.8

10.2

10.6

0 10000 20000 30000 40000

WER

on

eval

uatio

n se

t [%

]

Training time [s]

LSTM RNN FF

2 hidden layer network2nd : LSTM1st : RNN

e.g.

25

Page 26: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

まとめと今後の課題

まとめ

• 進化的アルゴリズムにより、音声認識システムのシステム開発でボトルネックとなっているメタパラメタチューニングを自動化

• パレート最適を用いることで、単語誤り率WERと計算時間など複数の尺度を同時最適化

• 開発した高精度日本語音声認識システムは、Kaldiパッケージに収録され一般利用が可能

今後の課題

• より複雑なネットワーク構造や多様なユニットタイプを対象とした進化実験

• 進化効率の向上と超大規模データへのスケールアップ

26

http://kaldi-asr.org/

Page 27: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

27END

Page 28: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

補足資料

28

Page 29: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

RNN言語モデルの基本構造

文脈情報を利用 単語毎に確率値を出力

今日 の 天気 は晴れ

: 0.3: 0.3: 0.01: 0.00001

入力層 隠れ層 出力層

29

Page 30: 大規模進化計算による 音声認識システム開発の自動化大規模進化計算による 音声認識システム開発の自動化 篠崎隆宏 東京工業大学情報通信系

LSTM layer

• RNN layer の各ユニットをLSTMブロックに置換

• RNN layer より長い文脈情報を利用可能

30

LSTM block

Forget gate

Outputgate

Inputgate

LSTM layer

RNN layer

RNN unit