presentation title タイトル...•presentation title: 28pt orange dfp華康ゴシック体w5...
TRANSCRIPT
![Page 1: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/1.jpg)
•深い青を基にメタル調の雰囲気をだしてみました。
•基調の青と真逆のオレンジ文字は強調したい部分に使用できます。
•タイトルフォントはりょうゴシック PlusN H、本文はDFP華康ゴシック体W5, Bold
• Presentation title: 32pt りょうゴシック PlusN H
• Presentation title: 28pt orange DFP華康ゴシック体W5
混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル
大石康智†, 持橋大地‡, 亀岡弘和†, 柏野邦夫†
† NTT コミュニケーション科学基礎研究所 ‡ 情報システム研究機構 統計数理研究所
![Page 2: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/2.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌声の声の大きさ(音量) 2
![Page 3: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/3.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌声の声の大きさ(音量)
音符の音高に連動した上昇下降,ビブラートと同期した振動
3
波形 ハニング窓
2 4 6 8 10 [秒]
歌声の音量軌跡(注:必ずしも知覚量(ラウドネス)に比例しない)
0
![Page 4: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/4.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌声の声の大きさ(音量)
音符の音高に連動した上昇下降,ビブラートと同期した振動
音量の動特性を取り除く(正規化する)と?
4
波形 ハニング窓
2 4 6 8 10 [秒]
歌声の音量軌跡(注:必ずしも知覚量(ラウドネス)に比例しない)
0
![Page 5: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/5.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌声の声の大きさ(音量)
音符の音高に連動した上昇下降,ビブラートと同期した振動
音量の動特性を取り除く(正規化する)と?
5
波形 ハニング窓
2 4 6 8 10 [秒]
歌声の音量軌跡(注:必ずしも知覚量(ラウドネス)に比例しない)
0
⇒ 声の高さや声色とともに,音量の動きも重要な特徴
![Page 6: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/6.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌唱者ごとに音量軌跡はどう違う?
歌唱者3名による同一メロディを歌った歌声の音量軌跡
6
歌唱者A
(発声訓練有)
歌唱者B
(発声訓練有)
0 2 4 6 8 10 12 [秒]
歌唱者C
(発声訓練無)
⇒ 訓練有の歌唱者ほど,その動き(強弱)を巧妙に制御する
![Page 7: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/7.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌唱者が色々な曲を歌ったら?
歌唱者(訓練有)が4つのメロディを歌った歌声の音量軌跡
7
楽曲(1) パターン1
0 2 4 6 8 10 12 [秒]
楽曲(2)
楽曲(3)
楽曲(4)
パターン3
パターン2
動きのモデル化によって,認識・合成の発展に貢献したい!
⇒ いくつかの動的(強弱)パターンを使い分ける
![Page 8: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/8.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
音量の動きを楽譜と結びつける生成過程モデルの構築
新規の楽譜に対して,
その音量軌跡を予測する
音量軌跡の動きを楽譜と
結びつけて学習する
研究の目的 8
学習結果
新規の楽譜
歌唱者A“らしい”,音量軌跡
楽譜
音量
歌唱者Aの歌声 学習結果
![Page 9: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/9.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
音量の動きを楽譜と結びつける生成過程モデルの構築
新規の楽譜に対して,
その音量軌跡を予測する
音量軌跡の動きを楽譜と
結びつけて学習する
研究の目的 9
学習結果
新規の楽譜
歌唱者A“らしい”,音量軌跡
音高や音色に適用可能かも?
楽譜
音量
歌唱者Aの歌声 学習結果
応用1:歌声合成
歌唱者A
歌唱者Z
・・・
DYN調整 ○○風に!
![Page 10: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/10.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
音量の動きを楽譜と結びつける生成過程モデルの構築
新規の楽譜に対して,
その音量軌跡を予測する
音量軌跡の動きを楽譜と
結びつけて学習する
研究の目的 10
学習結果
新規の楽譜
歌唱者A“らしい”,音量軌跡
音高や音色に適用可能かも?
応用2:歌声認識・マイニング 「歌ってみた」コンテンツ
楽譜
音量
歌唱者Aの歌声 学習結果
応用1:歌声合成
歌唱者A
歌唱者Z
・・・
DYN調整 ○○風に!
![Page 11: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/11.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程による名演奏の学習 [寺村+, 2008]
− 音符のコンテキストと,実演の音量・発音区間の関係を学習
先行研究と課題 11
C G E G
480 480 480 480
音高
音長
音量
時間
打鍵楽器を対象
複雑な動きを
表現しない
ガウス過程回帰 楽譜
![Page 12: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/12.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程による名演奏の学習 [寺村+, 2008]
− 音符のコンテキストと,実演の音量・発音区間の関係を学習
隠れマルコフモデル(HMM)に基づく歌声合成 [間瀬+, 2010]
先行研究と課題 12
C G E G
480 480 480 480
音高
音長
音量
時間
打鍵楽器を対象
複雑な動きを
表現しない
ガウス過程回帰
・ 固定された状態数と局所的な動的特徴量で表現することは難しい
・ HMMの状態クラスタリングにより,動きが過剰に平滑化される
ラベルごとにHMMを学習
楽譜
歌詞 a sa ya ke
HMM
時間
C G E G
480 480 480 480
音高
音長
音量 楽譜
![Page 13: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/13.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
アプローチ
音量の動きのモデル化⇒ ガウス過程 [Rasmussen+, 1996]
13
線形回帰 ガウス過程回帰
入力(時間)
出力(音量)
入力(時間)
Point:
回帰関数は明示的に
定義されず,データから自動的に学習される
![Page 14: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/14.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
アプローチ
音量の動きのモデル化⇒ ガウス過程 [Rasmussen+, 1996]
14
線形回帰 ガウス過程回帰
入力(時間)
出力(音量)
入力(時間)
Point:
回帰関数は明示的に
定義されず,データから自動的に学習される
HMM
入力(時間)
出力(音量)
![Page 15: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/15.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
アプローチ
音量の動きのモデル化⇒ ガウス過程 [Rasmussen+, 1996]
楽譜に伴う動的パターンの使い分け⇒ 混合ガウス過程
15
線形回帰 ガウス過程回帰
入力(時間)
出力(音量)
入力(時間)
Point:
回帰関数は明示的に
定義されず,データから自動的に学習される
楽譜空間
音符の音長
音符の音高
[Meeds+, 2006]
Point:
状態遷移によって,
動的パターンを切り替えながら音量を生成する
にクラスタ(状態)を形成
HMM
入力(時間)
出力(音量)
![Page 16: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/16.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
16
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜 音量軌跡
時間
![Page 17: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/17.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
17
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜
・・・ 入力変数
(10ms毎)
音量軌跡
時間
![Page 18: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/18.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
18
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜
・・・ 入力変数
(10ms毎)
音量軌跡
時間
前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可
音符内位置(発音開始からの時刻)
音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)
音符コンテキスト
音符内位置
長さ 高さ
![Page 19: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/19.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
19
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜
・・・ 入力変数
(10ms毎)
音量軌跡
時間
前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可
出力変数
(10ms毎)
・・・
音符内位置(発音開始からの時刻)
音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)
音符コンテキスト
音符内位置
長さ 高さ
![Page 20: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/20.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
20
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜
・・・ 入力変数
(10ms毎)
音量軌跡
時間
前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可
混合ガウス過程
出力変数
(10ms毎)
・・・
音符内位置(発音開始からの時刻)
音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)
音符コンテキスト
音符内位置
長さ 高さ
![Page 21: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/21.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
21
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜
・・・ 入力変数
(10ms毎)
音量軌跡
時間
前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可
① 混合ガウス過程を利用して,生成過程(入出力関係)を記述する
③ 学習結果を利用して,新たな入力に対する出力を予測する
混合ガウス過程
② 混合ガウス過程のパラメータを学習する
出力変数
(10ms毎)
・・・
音符内位置(発音開始からの時刻)
音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)
音符コンテキスト
音符内位置
長さ 高さ
![Page 22: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/22.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
22
メロディの
音符列
時間
![Page 23: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/23.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
23
メロディの
音符列
入力変数空間(楽譜空間)
時間
![Page 24: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/24.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
24
メロディの
音符列
入力変数空間(楽譜空間)
時間
![Page 25: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/25.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
25
メロディの
音符列
入力変数空間(楽譜空間)
ガウス過程回帰
入力
出力
・・・
時間
![Page 26: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/26.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
26
メロディの
音符列
入力変数空間(楽譜空間)
状態系列 ガウス過程回帰
入力
出力
・・・
時間
![Page 27: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/27.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
27
メロディの
音符列
入力変数空間(楽譜空間)
状態系列
出力
(音量軌跡)
ガウス過程回帰
入力
出力
・・・
時間
![Page 28: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/28.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
28
入力
出力
・・・
![Page 29: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/29.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
29
入力
出力
・・・ 平均
…
0
0
0
出力(軌跡)
10
3
グラム行列
20
20
20
10
3
5
5
10
10
…
…
0 1
1
1
単位行列
ノイズ
0 0
0
0
0
0 0 …
…
![Page 30: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/30.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
30
入力
出力
グラム行列: 出力(軌跡)のダイナミクスを制御する
・・・ 平均
…
0
0
0
出力(軌跡)
10
3
グラム行列
20
20
20
10
3
5
5
10
10
…
…
0 1
1
1
単位行列
ノイズ
0 0
0
0
0
0 0 …
…
カーネル関数 二つの入力変数間の近さ
![Page 31: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/31.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
31
入力
出力
グラム行列: 出力(軌跡)のダイナミクスを制御する
・・・ 平均
…
0
0
0
出力(軌跡)
近傍重視 広範囲重視
10
3
グラム行列
20
20
20
10
3
5
5
10
10
…
…
0 1
1
1
単位行列
ノイズ
0 0
0
0
0
0 0 …
…
カーネル関数
![Page 32: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/32.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
32
入力
出力
グラム行列: 出力(軌跡)のダイナミクスを制御する
・・・ 平均
…
0
0
0
出力(軌跡)
近傍重視 広範囲重視
10
3
グラム行列
20
20
20
10
3
5
5
10
10
…
…
0 1
1
1
単位行列
ノイズ
0 0
0
0
0
0 0 …
…
:大⇒急激に変動する軌跡, :大⇒滑らかに変動する軌跡を“生成しやすい”
カーネル関数
![Page 33: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/33.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
33
入力
出力
グラム行列: 出力(軌跡)のダイナミクスを制御する
・・・ 平均
…
0
0
0
出力(軌跡)
近傍重視 広範囲重視
回帰関数は,データから自動的に学習される
10
3
グラム行列
20
20
20
10
3
5
5
10
10
…
…
0 1
1
1
単位行列
ノイズ
0 0
0
0
0
0 0 …
…
:大⇒急激に変動する軌跡, :大⇒滑らかに変動する軌跡を“生成しやすい”
カーネル関数
![Page 34: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/34.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
② 混合ガウス過程のパラメータ学習
MCMC-EMアルゴリズムを利用する
34
メロディの
音符列
入力変数空間
状態系列
出力
(音量軌跡)
ガウス過程回帰
入力
出力
・・・
![Page 35: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/35.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
② 混合ガウス過程のパラメータ学習
MCMC-EMアルゴリズムを利用する
35
メロディの
音符列
入力変数空間
状態系列
出力
(音量軌跡)
ガウス過程回帰
入力
出力
・・・
![Page 36: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/36.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
② 混合ガウス過程のパラメータ学習
MCMC-EMアルゴリズムを利用する
36
メロディの
音符列
入力変数空間
状態系列
出力
(音量軌跡)
ガウス過程回帰
入力
出力
・・・
![Page 37: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/37.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
③ 学習結果を利用した出力の予測
予測分布の導出
37
学習データ 新しい入力変数
(音符コンテキスト)
パラメータ
![Page 38: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/38.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
③ 学習結果を利用した出力の予測
予測分布の導出
38
学習データ 新しい入力変数
(音符コンテキスト)
状態r の事後確率
入力変数空間
状態r
パラメータ
![Page 39: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/39.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
③ 学習結果を利用した出力の予測
予測分布の導出
39
学習データ 新しい入力変数
(音符コンテキスト)
状態r の予測分布 状態r の事後確率
入力変数空間
状態r のガウス過程回帰
学習データ
状態r
パラメータ
![Page 40: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/40.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
③ 学習結果を利用した出力の予測
予測分布の導出
40
学習データ 新しい入力変数
(音符コンテキスト)
状態r の予測分布 状態r の事後確率
入力変数空間
状態r のガウス過程回帰
学習データ
ガウス分布に従う!
状態r
パラメータ
![Page 41: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/41.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
基本動作の評価実験
新規の楽譜に対する音量軌跡の予測性能
− 音大声楽科出身の歌唱者1名が,J-popに分類される合計
10曲のサビを伴奏を聴きながら歌った歌声
− 入力変数:10msごとに,音符内位置(秒),音符の音高(MIDIノートナンバ),音符の音長(秒)からなる3次元ベクトル
− 出力変数:10msごとに音量を計算
− 評価方法:音量軌跡と予測分布の平均値系列との二乗平均平方根誤差
41
平均値系列
0
1000
2000
音量
学習区間(全体の7/10) 評価区間(全体の3/10)
0 2 4 6 8 10 12 [秒]
・・・ ・・・
予測
![Page 42: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/42.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
状態数R に対する予測性能 42
0 2 4 6 8 10 12 [秒]
音量
学習区間 評価区間
音量
音量
音量
• 状態数を増やすにつれて,予測性能は向上する
• ガウス過程の混合モデルを利用することの有効性を示せた
単一の
ガウス過程回帰
![Page 43: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/43.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
状態数R に対する予測性能の定量評価
評価区間における,音量軌跡と予測分布の平均値系列との二乗平均平方根誤差 (RMSE)
43
1 10 20 30 40 50 0
200
400
300
100 二乗平均平方根誤差
状態数
500
• 状態数を増やすにつれて,RMSEは減少する
• この歌唱者は20種類の動的パターンを使いまわす
![Page 44: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/44.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力変数に含める音符コンテキストの考察
状態数 の場合
44
音符内位置 音符内位置
+音高
300
380
360
二乗平均平方根誤差
音符内位置
+音長
音符内位置
+音高
+音長
320
340
音符内位置+音高
+音長+前音符との
音高差+音長+後音符との音高差+音長差
400
420
• 音符の音長より,音符の音高の方が有用
• 音符コンテキストを増やすにつれて,RMSEは減少する
![Page 45: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/45.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
まとめと今後の課題 45
音量の動きを楽譜と結びつける生成過程モデルの提案
− 音量軌跡の動きを楽譜と結びつけて学習する
− 新規の楽譜に対して,音量軌跡を予測する
⇒ 混合ガウス過程を利用したモデリング
HMMから生成される軌跡との比較
演奏記号や強弱記号のコンテキスト導入
カーネル関数の改良
− 2次系を表現するカーネル関数の導入
歌声知覚との対応付け
歌声認識・合成への応用
・・・
減衰振動
定常振動
楽譜
音量
![Page 46: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/46.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
予備スライド
46
![Page 47: Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,](https://reader036.vdocuments.pub/reader036/viewer/2022063005/5fa7936a72b92d65e9283772/html5/thumbnails/47.jpg)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力変数空間における“状態”の学習結果
状態数 に固定
47
音符の音高 (MIDIノートナンバ)
0
1
1.5
2
0.5
音符の音長
2.5
70 72 74 76 78 80 82 84 86
• 各音符に対応するように状態の分布が学習される
• 予測の際,学習データに無い音符はこの空間で補間される