Download - Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介
![Page 1: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/1.jpg)
Phonetic Posteriorgrams for Many‑to‑One Voice Conversion Without ParallelData Trainingの紹介@sesenosannko
![Page 2: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/2.jpg)
目次
声質変換とは
新規性
声質変換の今後
目次
![Page 3: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/3.jpg)
声質変換(Voice Conversion)とはある人の発話音声の声質だけを他の人に変換する
アクセント矯正、声帯切除等後の音声復帰、映画吹替の
声質変換などへの応用が期待される
日本人の研究も有名(戸田、中鹿など)
声質変換とは
![Page 4: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/4.jpg)
新規性
声質変換における学習データ(従来)
1. パラレルデータ
全く同じ発話内容・タイミングの2人以上の音声
→データを用意するのが難しい
2. フレームアラインメント
音声を細切りにして繋ぎあわせるなどしてパラレル
データを作る
→パラレルデータを用いるより低質
新規性
![Page 5: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/5.jpg)
新規性
声質変換における学習データ(提案手法)
3. パラレルデータを全く用いない
既存研究でも試みられていたが(Lee, 2006など)
パラレルデータを用いるより低質であった
提案手法はパラレルデータを用いる声質変換と同等
以上の性能であると主張されている
新規性
![Page 6: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/6.jpg)
なぜパラレルデータが必要ないのか
パラレルデータを用いる場合
変換器はGMM、DNN、RNNなど
新規性
![Page 7: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/7.jpg)
なぜパラレルデータが必要ないのか
パラレルデータを用いない場合
いったん音声から話者の情報を取り除けば良い
話者情報を取り除く方法が課題だった
新規性
![Page 8: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/8.jpg)
話者情報を取り除く方法
Phonetic PosteriorGrams
音声認識の要領で発話音声のセノン(発音記号のような
もの)を認識し、その事後分布を時間軸に並べたもの
PPGs自体は既存だがこの論文で声質変換に適用された
新規性
![Page 9: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/9.jpg)
話者情報を取り除く方法
Phonetic PosteriorGrams
2種類の変換器を作れば話者情報を取り除いて変換可能
新規性
![Page 10: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/10.jpg)
話者情報を取り除く方法
Phonetic PosteriorGrams
パラレルデータがいらない以外の利点
従来手法の多くは学習データに含まれる人以外から変換
することは不可能だった
「音声→PPGs」変換器は1つ作れば誰でも使える↓
他対1変換が可能
入力話者は学習データにいない人でも良い
新規性
![Page 11: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/11.jpg)
話者情報を取り除く方法
Phonetic PosteriorGrams
こんな単純な方法でうまくいくのか?
↓https://sites.google.com/site/2016icme/
(僕が知っている)既存手法と同等に聞こえる
新規性
![Page 12: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/12.jpg)
声質変換の今後
音声生成技術は急成長している
MCEP→音声波形を扱う時代に(WaveNetなど)
GANなど生成モデルの発達
→声質変換にも適用が期待される
声質変換の研究数が少ないのが課題
声質変換の今後
![Page 13: Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Data Trainingの紹介](https://reader034.vdocuments.pub/reader034/viewer/2022042723/58d1ac071a28ab6f6b8b66f7/html5/thumbnails/13.jpg)
まとめ
声質変換はパラレルデータが必要なことが大きな課題
提案手法はPPGsを経由することで話者情報を取り除く
PPGsはセノンの事後分布を時間軸に並べたもの
まとめ