日本音響学会2017秋 ”moment-matching...
TRANSCRIPT
Moment-matching networkに基づく
一期一会音声合成における発話間変動の評価
○高道 慎之介†1,郡山 知樹†2,齋藤 佑樹†1,猿渡 洋†1
日本音響学会 2017年 秋季研究発表会
1-8-9
(†1:東大院・情報理工,†2:東工大)
/12
概要
発話間変動
– 同一コンテキストに対する音声の変動
一期一会音声合成 [Takamichi et al., INTERSPEECH2017.]
– Moment-matching networkに基づく音響モデリング
– 音質を劣化させずに,音声パラメータをランダム生成可能
本報告:一期一会音声合成の発話間変動を定量的に評価
– 繰り返し発話された自然音声と比較
2
“Hello” “Hello”
/12
通常のDNN音声合成
(Mean squared errorの最小化)
3
Mean squared error
Linguistic feats.
Static-delta mean vectors
⋯ ⋯
⋯
⋯
time 𝑡 = 1
⋯ ⋯
⋯
⋯
⋯
time 𝑡 = 𝑇
⋯
Generated speech
params.
Natural speech params.
Parameter generation
⋯
[Wu et al., 2016.]
𝒚 𝒚 𝒙
条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定
/12
一期一会音声合成
(条件付きMMDの最小化)
4
Conditional MMD
Linguistic feats.
𝒚
Static-delta mean vectors
𝒚
⋯
Generated speech
params.
Natural speech params.
Parameter generation
⋯
𝑁 𝟎, 𝑰 Frame-wise noise generator
time 𝑡 = 1
time 𝑡 = 𝑇
𝒙
⋯ ⋯
⋯
⋯
⋯ ⋯
⋯
⋯
⋯
モーメントマッチングによる経験分布表現に基づくサンプリング
/12
MMD (Maximum Mean Discrepancy)
5
2つのデータセットの統計量の不一致指標
Moment-matching network [Li et al., 2015.]
– MMDを最小化するように、ノイズ入力のDNNを学習
𝑁 𝟎, 𝑰
𝒚
𝒚
MMD = Tr 𝟏 ⋅ 𝑲𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲𝒚 ,𝒚 − 2Tr 𝟏 ⋅ 𝑲𝒚,𝒚
𝒚, 𝒚 のグラム行列 𝒚 , 𝒚 𝒚, 𝒚
⋯ ⋯
⋯
⋯
/12
条件付きMMD (CMMD: Conditional MMD)
条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]
Conditional moment-matching network [Ren et al., 2016.]
– CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習
6
𝒙 , 𝒙 のグラム行列の逆行列を含む行列
𝑁 𝟎, 𝑰
𝒚
𝒙 ⋯ ⋯
⋯
⋯
𝒚
CMMD = Tr 𝑳𝒙 ⋅ 𝑲𝒚,𝒚 + Tr 𝑳𝒙 ⋅ 𝑲𝒚 ,𝒚 − 2Tr 𝑳𝒙 ⋅ 𝑲𝒚,𝒚
𝒙
/12
前回までの報告と今回の報告
前回までの報告:音質評価
– 1. 通常のDNN音声合成より,一期一会音声合成は高品質
– 2. スペクトルのランダム生成は,最尤生成と同程度の音質
今回の報告
– そのランダム性 (発話間変動) を定量評価
– 繰り返し音声を新たに収録
7
実験的評価
8
/12
実験条件
9
項目 値・設定
学習データ 女性1名,日本語4000文
評価データ ATR音素バランスJセット53文 (後述)
入力特徴量 442次元コンテキスト
出力特徴量 40次元メルケプストラム,連続対数F0,有声/無声ラベル,5帯域非周期性指標
入力ノイズ 5次元/フレーム.正規分布からランダム生成
ネットワーク構造 Feed-Forward
グラム行列の
カーネル
ガウスカーネル (予備実験で線形カーネル・多項式カーネルも使用したが,大きな変化はなし)
/12
発話間変動の評価法
評価用データセットの作成
– 自然音声:評価データ (Jセット53文) を5回ずつ繰り返し収録
– 合成音声:各文に対して100回ランダム生成
評価対象手法
– 動的特徴量を考慮したパラメータ生成 [Tokuda et al., 2000.] あり/なし
• なしの場合は,静的特徴量を直接推定
– スペクトル,連続対数F0,有声/無声ラベル,音素継続長生成
評価法
– 自然音声同士,合成音声同士で発話間変動を計算
• スペクトル:メルケプストラム歪み
• 連続対数F0・継続長:二乗誤差
• 有声/無声ラベル:誤りフレーム数
10
/12
評価結果
11
パラメータ パラメータ生成 発話間変動 自然音声の発話間変動との比
スペクトル あり 0.095 1.6 [%]
なし 0.202 3.4 [%]
連続対数F0 あり 0.60e-5 0.014 [%]
なし 1.85e-5 0.042 [%]
有声/無声 - 4.02e-3 2.7 [%]
音素継続長 - 0.557 17.3 [%]
・生成した音素継続長は,自然音声と比較して17%程度の発話間変動
- 他のパラメータは数%程度
・パラメータ生成を入れない方が,発話間変動は改善
/12
まとめ
一期一会音声合成
– 合成するごとに異なる音声パラメータを生成
– → 発話間変動を有する合成音声
実験的評価・結果
– 合成音声パラメータの発話間変動を定量的に評価
– → 自然音声と比較して,音素継続長は17%程度の変動
– → それ以外の特徴量は数%程度
今後の予定
– 発話間変動の主観評価
– 発話間変動の改善
12