日本音響学会2017秋 ”moment-matching...

12
Moment-matching networkに基づく 一期一会音声合成における発話間変動の評価 高道 慎之介 †1 ,郡山 知樹 †2 ,齋藤 佑樹 †1 ,猿渡 洋 †1 日本音響学会 2017秋季研究発表会 1-8-9 (†1:東大院・情報理工,†2:東工大)

Upload: shinnosuke-takamichi

Post on 22-Jan-2018

248 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

Moment-matching networkに基づく

一期一会音声合成における発話間変動の評価

○高道 慎之介†1,郡山 知樹†2,齋藤 佑樹†1,猿渡 洋†1

日本音響学会 2017年 秋季研究発表会

1-8-9

(†1:東大院・情報理工,†2:東工大)

Page 2: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

/12

概要

発話間変動

– 同一コンテキストに対する音声の変動

一期一会音声合成 [Takamichi et al., INTERSPEECH2017.]

– Moment-matching networkに基づく音響モデリング

– 音質を劣化させずに,音声パラメータをランダム生成可能

本報告:一期一会音声合成の発話間変動を定量的に評価

– 繰り返し発話された自然音声と比較

2

“Hello” “Hello”

Page 3: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

/12

通常のDNN音声合成

(Mean squared errorの最小化)

3

Mean squared error

Linguistic feats.

Static-delta mean vectors

⋯ ⋯

time 𝑡 = 1

⋯ ⋯

time 𝑡 = 𝑇

Generated speech

params.

Natural speech params.

Parameter generation

[Wu et al., 2016.]

𝒚 𝒚 𝒙

条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定

Page 4: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

/12

一期一会音声合成

(条件付きMMDの最小化)

4

Conditional MMD

Linguistic feats.

𝒚

Static-delta mean vectors

𝒚

Generated speech

params.

Natural speech params.

Parameter generation

𝑁 𝟎, 𝑰 Frame-wise noise generator

time 𝑡 = 1

time 𝑡 = 𝑇

𝒙

⋯ ⋯

⋯ ⋯

モーメントマッチングによる経験分布表現に基づくサンプリング

Page 5: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

/12

MMD (Maximum Mean Discrepancy)

5

2つのデータセットの統計量の不一致指標

Moment-matching network [Li et al., 2015.]

– MMDを最小化するように、ノイズ入力のDNNを学習

𝑁 𝟎, 𝑰

𝒚

𝒚

MMD = Tr 𝟏 ⋅ 𝑲𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲𝒚 ,𝒚 − 2Tr 𝟏 ⋅ 𝑲𝒚,𝒚

𝒚, 𝒚 のグラム行列 𝒚 , 𝒚 𝒚, 𝒚

⋯ ⋯

Page 6: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

/12

条件付きMMD (CMMD: Conditional MMD)

条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]

Conditional moment-matching network [Ren et al., 2016.]

– CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習

6

𝒙 , 𝒙 のグラム行列の逆行列を含む行列

𝑁 𝟎, 𝑰

𝒚

𝒙 ⋯ ⋯

𝒚

CMMD = Tr 𝑳𝒙 ⋅ 𝑲𝒚,𝒚 + Tr 𝑳𝒙 ⋅ 𝑲𝒚 ,𝒚 − 2Tr 𝑳𝒙 ⋅ 𝑲𝒚,𝒚

𝒙

Page 7: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

/12

前回までの報告と今回の報告

前回までの報告:音質評価

– 1. 通常のDNN音声合成より,一期一会音声合成は高品質

– 2. スペクトルのランダム生成は,最尤生成と同程度の音質

今回の報告

– そのランダム性 (発話間変動) を定量評価

– 繰り返し音声を新たに収録

7

Page 8: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

実験的評価

8

Page 9: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

/12

実験条件

9

項目 値・設定

学習データ 女性1名,日本語4000文

評価データ ATR音素バランスJセット53文 (後述)

入力特徴量 442次元コンテキスト

出力特徴量 40次元メルケプストラム,連続対数F0,有声/無声ラベル,5帯域非周期性指標

入力ノイズ 5次元/フレーム.正規分布からランダム生成

ネットワーク構造 Feed-Forward

グラム行列の

カーネル

ガウスカーネル (予備実験で線形カーネル・多項式カーネルも使用したが,大きな変化はなし)

Page 10: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

/12

発話間変動の評価法

評価用データセットの作成

– 自然音声:評価データ (Jセット53文) を5回ずつ繰り返し収録

– 合成音声:各文に対して100回ランダム生成

評価対象手法

– 動的特徴量を考慮したパラメータ生成 [Tokuda et al., 2000.] あり/なし

• なしの場合は,静的特徴量を直接推定

– スペクトル,連続対数F0,有声/無声ラベル,音素継続長生成

評価法

– 自然音声同士,合成音声同士で発話間変動を計算

• スペクトル:メルケプストラム歪み

• 連続対数F0・継続長:二乗誤差

• 有声/無声ラベル:誤りフレーム数

10

Page 11: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

/12

評価結果

11

パラメータ パラメータ生成 発話間変動 自然音声の発話間変動との比

スペクトル あり 0.095 1.6 [%]

なし 0.202 3.4 [%]

連続対数F0 あり 0.60e-5 0.014 [%]

なし 1.85e-5 0.042 [%]

有声/無声 - 4.02e-3 2.7 [%]

音素継続長 - 0.557 17.3 [%]

・生成した音素継続長は,自然音声と比較して17%程度の発話間変動

- 他のパラメータは数%程度

・パラメータ生成を入れない方が,発話間変動は改善

Page 12: 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

/12

まとめ

一期一会音声合成

– 合成するごとに異なる音声パラメータを生成

– → 発話間変動を有する合成音声

実験的評価・結果

– 合成音声パラメータの発話間変動を定量的に評価

– → 自然音声と比較して,音素継続長は17%程度の変動

– → それ以外の特徴量は数%程度

今後の予定

– 発話間変動の主観評価

– 発話間変動の改善

12