日本音響学会2017秋 ”moment-matching...

Moment-matching networkに基づく

一期一会音声合成における発話間変動の評価

○高道慎之介†1，郡山知樹†2，齋藤佑樹†1，猿渡洋†1

日本音響学会 2017年秋季研究発表会

1-8-9

（†1：東大院・情報理工，†2：東工大）

/12

概要

発話間変動

– 同一コンテキストに対する音声の変動

一期一会音声合成 [Takamichi et al., INTERSPEECH2017.]

– Moment-matching networkに基づく音響モデリング

– 音質を劣化させずに，音声パラメータをランダム生成可能

本報告：一期一会音声合成の発話間変動を定量的に評価

– 繰り返し発話された自然音声と比較

2

“Hello” “Hello”

/12

通常のDNN音声合成

(Mean squared errorの最小化)

3

Mean squared error

Linguistic feats.

Static-delta mean vectors

⋯ ⋯

⋯

⋯

time 𝑡 = 1

⋯ ⋯

⋯

⋯

⋯

time 𝑡 = 𝑇

⋯

Generated speech

params.

Natural speech params.

Parameter generation

⋯

[Wu et al., 2016.]

𝒚 𝒚 𝒙

条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定

/12

一期一会音声合成

(条件付きMMDの最小化)

4

Conditional MMD

Linguistic feats.

𝒚

Static-delta mean vectors

𝒚

⋯

Generated speech

params.

Natural speech params.

Parameter generation

⋯

𝑁 𝟎, 𝑰 Frame-wise noise generator

time 𝑡 = 1

time 𝑡 = 𝑇

𝒙

⋯ ⋯

⋯

⋯

⋯ ⋯

⋯

⋯

⋯

モーメントマッチングによる経験分布表現に基づくサンプリング

/12

MMD (Maximum Mean Discrepancy)

5

2つのデータセットの統計量の不一致指標

Moment-matching network [Li et al., 2015.]

– MMDを最小化するように、ノイズ入力のDNNを学習

𝑁 𝟎, 𝑰

𝒚

𝒚

MMD = Tr 𝟏 ⋅ 𝑲𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲𝒚 ,𝒚 − 2Tr 𝟏 ⋅ 𝑲𝒚,𝒚

𝒚, 𝒚 のグラム行列 𝒚 , 𝒚 𝒚, 𝒚

⋯ ⋯

⋯

⋯

/12

条件付きMMD (CMMD: Conditional MMD)

条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]

Conditional moment-matching network [Ren et al., 2016.]

– CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習

6

𝒙 , 𝒙 のグラム行列の逆行列を含む行列

𝑁 𝟎, 𝑰

𝒚

𝒙 ⋯ ⋯

⋯

⋯

𝒚

CMMD = Tr 𝑳𝒙 ⋅ 𝑲𝒚,𝒚 + Tr 𝑳𝒙 ⋅ 𝑲𝒚 ,𝒚 − 2Tr 𝑳𝒙 ⋅ 𝑲𝒚,𝒚

𝒙

/12

前回までの報告と今回の報告

前回までの報告：音質評価

– 1. 通常のDNN音声合成より，一期一会音声合成は高品質

– 2. スペクトルのランダム生成は，最尤生成と同程度の音質

今回の報告

– そのランダム性 (発話間変動) を定量評価

– 繰り返し音声を新たに収録

7

実験的評価

8

/12

実験条件

9

項目値・設定

学習データ女性1名，日本語4000文

評価データ ATR音素バランスJセット53文 (後述)

入力特徴量 442次元コンテキスト

出力特徴量 40次元メルケプストラム，連続対数F0，有声／無声ラベル，5帯域非周期性指標

入力ノイズ 5次元/フレーム．正規分布からランダム生成

ネットワーク構造 Feed-Forward

グラム行列の

カーネル

ガウスカーネル (予備実験で線形カーネル・多項式カーネルも使用したが，大きな変化はなし)

/12

発話間変動の評価法

評価用データセットの作成

– 自然音声：評価データ (Jセット53文) を5回ずつ繰り返し収録

– 合成音声：各文に対して100回ランダム生成

評価対象手法

– 動的特徴量を考慮したパラメータ生成 [Tokuda et al., 2000.] あり／なし

• なしの場合は，静的特徴量を直接推定

– スペクトル，連続対数F0，有声／無声ラベル，音素継続長生成

評価法

– 自然音声同士，合成音声同士で発話間変動を計算

• スペクトル：メルケプストラム歪み

• 連続対数F0・継続長：二乗誤差

• 有声／無声ラベル：誤りフレーム数

10

/12

評価結果

11

パラメータパラメータ生成発話間変動自然音声の発話間変動との比

スペクトルあり 0.095 1.6 [%]

なし 0.202 3.4 [%]

連続対数F0 あり 0.60e-5 0.014 [%]

なし 1.85e-5 0.042 [%]

有声／無声 - 4.02e-3 2.7 [%]

音素継続長 - 0.557 17.3 [%]

・生成した音素継続長は，自然音声と比較して17%程度の発話間変動

－他のパラメータは数％程度

・パラメータ生成を入れない方が，発話間変動は改善

/12

まとめ

一期一会音声合成

– 合成するごとに異なる音声パラメータを生成

– → 発話間変動を有する合成音声

実験的評価・結果

– 合成音声パラメータの発話間変動を定量的に評価

– → 自然音声と比較して，音素継続長は17%程度の変動

– → それ以外の特徴量は数%程度

今後の予定

– 発話間変動の主観評価

– 発話間変動の改善

12

日本音響学会2017秋 ”moment-matching...

Technology