phonetic posteriorgrams for many-to-one voice conversion without parallel data trainingの紹介

13

Upload: kcs-keio-computer-society

Post on 22-Mar-2017

55 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

Phonetic Posteriorgrams for Many‑to‑One Voice Conversion Without ParallelData Trainingの紹介@sesenosannko

Page 2: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

目次

声質変換とは

新規性

声質変換の今後

目次

Page 3: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

声質変換(Voice Conversion)とはある人の発話音声の声質だけを他の人に変換する

アクセント矯正、声帯切除等後の音声復帰、映画吹替の

声質変換などへの応用が期待される

日本人の研究も有名(戸田、中鹿など)

声質変換とは

Page 4: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

新規性

声質変換における学習データ(従来)

1. パラレルデータ

全く同じ発話内容・タイミングの2人以上の音声

→データを用意するのが難しい

2. フレームアラインメント

音声を細切りにして繋ぎあわせるなどしてパラレル

データを作る

→パラレルデータを用いるより低質

新規性

Page 5: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

新規性

声質変換における学習データ(提案手法)

3. パラレルデータを全く用いない

既存研究でも試みられていたが(Lee, 2006など)

パラレルデータを用いるより低質であった

提案手法はパラレルデータを用いる声質変換と同等

以上の性能であると主張されている

新規性

Page 6: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

なぜパラレルデータが必要ないのか

パラレルデータを用いる場合

変換器はGMM、DNN、RNNなど

新規性

Page 7: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

なぜパラレルデータが必要ないのか

パラレルデータを用いない場合

いったん音声から話者の情報を取り除けば良い

話者情報を取り除く方法が課題だった

新規性

Page 8: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

話者情報を取り除く方法

Phonetic PosteriorGrams

音声認識の要領で発話音声のセノン(発音記号のような

もの)を認識し、その事後分布を時間軸に並べたもの

PPGs自体は既存だがこの論文で声質変換に適用された

新規性

Page 9: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

話者情報を取り除く方法

Phonetic PosteriorGrams

2種類の変換器を作れば話者情報を取り除いて変換可能

新規性

Page 10: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

話者情報を取り除く方法

Phonetic PosteriorGrams

パラレルデータがいらない以外の利点

従来手法の多くは学習データに含まれる人以外から変換

することは不可能だった

「音声→PPGs」変換器は1つ作れば誰でも使える↓

他対1変換が可能

入力話者は学習データにいない人でも良い

新規性

Page 11: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

話者情報を取り除く方法

Phonetic PosteriorGrams

こんな単純な方法でうまくいくのか?

↓https://sites.google.com/site/2016icme/

(僕が知っている)既存手法と同等に聞こえる

新規性

Page 12: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

声質変換の今後

音声生成技術は急成長している

MCEP→音声波形を扱う時代に(WaveNetなど)

GANなど生成モデルの発達

→声質変換にも適用が期待される

声質変換の研究数が少ないのが課題

声質変換の今後

Page 13: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介

まとめ

声質変換はパラレルデータが必要なことが大きな課題

提案手法はPPGsを経由することで話者情報を取り除く

PPGsはセノンの事後分布を時間軸に並べたもの

まとめ