optimal divergence diversity for superresolution-based nonnegative matrix factorization (in...

23
Optimal divergence diversity for superresolution-based nonnegative matrix factorization 超超超超超超超超超超超超超超超超超超超超超 超超超超超超超超超超超超超超超超超超 超超超超 , 超超超 , 超超超 , ( 超超超超超超超超超超超超超 ) 超超超 , 超超超超 ( 超超超超超超超 ) 超超超超 ( 超超超超 /NTT) 2014 ASJ Spring meeting 第第第第 第第第第 第第第第第第第 3-2-9

Upload: daichi-kitamura

Post on 31-Jul-2015

87 views

Category:

Engineering


4 download

TRANSCRIPT

Page 1: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

Optimal divergence diversity for superresolution-based nonnegative matrix factorization

超解像型教師あり非負値行列因子分解における最適なダイバージェンスのダイバーシチ

北村大地 , 猿渡洋 , 中村哲 , ( 奈良先端科学技術大学院大学 )

高橋祐 , 近藤多伸( ヤマハ株式会社 )

亀岡弘和( 東京大学 /NTT)

2014 ASJ Spring meeting第二会場 電気音響 アレー信号処理 3-2-9

Page 2: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

2

研究背景• 音楽信号分離技術の研究が盛ん

• 非負値行列因子分解 (NMF) を用いた手法が高い注目を集めいている

• 教師あり NMF(SNMF) は高精度な信号分離が可能だが,非目的音源が増加すると精度が劣化

• 自動採譜技術の前段処理• 音 AR システムへの応用 等

応用例

ステレオ信号を対象とした新しいハイブリッド信号分離手法が提案されている

信号分離

Page 3: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

3

研究背景• ハイブリッド手法

入力ステレオ信号

音源の空間情報による分離 ( 方位クラスタリング )

教師あり手法による分離( 超解像型 SNMF)

分離目的信号

L R

Page 4: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

4

研究背景• 後段の超解像型 SNMF における最適な距離規範 ( ダ

イバージェンス ) は入力信号中の音源の空間配置に依存– 音源の空間情報の違い

• 本発表の目的いかなる空間配置においても最適なダイバージェンスを用いて高精度で目的音源を分離できる一般化ハイブリッド手法を提案する

Page 5: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

5

• NMF– スパース分解表現手法– スペクトログラム中の有意な特徴量を抽出可能

NMF [Lee, 2001]

Amplitude

Am

plitu

de

観測行列( スペクトログラム )

基底行列( 頻出スペクトル )

アクティベーション行列( 各基底の時間変化 )

Time

: 周波数ビン数: 時間フレーム数: 分解基底数

Time

Fre

quen

cy

Fre

quen

cy

基底

Page 6: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

6

NMF の変数最適化• 分解行列 ( 変数 ) は観測データ と分解表現

データ の距離 ( ダイバージェンス ) の最小化で求める

• 特にユークリッド距離と KL ダイバージェンスが用いられる

• 振幅ドメインでの SNMF では, KL ダイバージェンスのコスト関数が高精度に分離できる [FitzGerald, 2012], [Kitamura, 2013]

– 音楽信号のスペクトログラムの持つスパース性に起因

: 行列 の要素

コスト関数 :

Page 7: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

7

• 分離目的音源の教師情報を用いる– 教師スペクトル基底 を作成 ( 目的音のスペクトルの辞

書 )– 観測スペクトログラム を目的成分とそれ以外の成分に

分離

SNMF [Smaragdis, 2007]

分離ステージ 最適化

学習ステージ

教師基底行列( 目的音源のスペクトル辞

書 )

目的音源のサンプル音

固定

目的音の音階情報

目的音源成分 その他の音源成分混合信号

Page 8: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

8

• 目的音源以外の干渉成分が増加すると分離精度が劣化

5 音源の場合

SNMF の問題

SNMF

2 音源の場合

SNMF

残留成分

Page 9: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

9

方位クラスタリング [Araki, 2007], [Miyabe, 2009]

• チャネル間の振幅差を用いてクラスタリング• スペクトログラムドメインでのバイナリマスキング

• 問題点– 同一方位の複数音源の分離は不可能– バイナリマスキングによる人工歪みの発生

Right

L R

CenterLeft

L R

Center

方位クラスタリング

入力ステレオ信号 分離信号

1 

1 

1 

0 

0 

0 

1 

0 

0 

0 

0 

0 

1 

1  1

1 

0 

0 

1 

0 

0 

0 

0 

0 

1  1

1  1

1 

1 

Fre

quen

cy

Time

C 

C 

C 

R  L

R 

C 

L 

L 

L 

R 

R 

C 

C  C

C 

R 

R 

C 

R 

R 

L 

L 

L 

C CC  C

C 

C 

Fre

quen

cy

Time

バイナリマスク混合信号

要素毎の積

Page 10: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

10

ハイブリッド手法 [Kitamura, 2013]

• 方位クラスタリングの後に超解像型 SNMF を適用するハイブリッド手法が提案された

方位クラスタリン

L R

空間分離スペクトル分離

超解像型 SNMF

ハイブリッド手法

Page 11: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

11

超解像型 SNMF• 方位クラスタリングによって生じる人工歪み ( スペ

クトログラム上での穴 ) を教師基底から外挿して復元

Time

Fre

quen

cy分離目的クラスタ

: 欠落

Time

Fre

quen

cy

入力スペクトログラム 非目的

方位成分

Time

Fre

quen

cy

復元目的信号

目的方位成分

方位クラスタリン

超解像型 SNMF

Page 12: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

12

• 方位クラスタリングによって生じる歪み

超解像型 SNMF

: 欠落

Time

Fre

que

ncy

分離されたクラスタ

欠落

欠落成分をコスト関数から除外教師スペクトル基

フィットする基底を外

Page 13: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

13

超解像型 SNMF に最適なダイバージェンス

• 従来の SNMF では KL ダイバージェンスが高精度

• 超解像型 SNMF の最適ダイバージェンスはスペクトログラムの欠落数に依存

– 方位クラスタリングの結果 ( 音源の空間配置 ) に依存

KL-divergence EUC-distance

KL-divergence EUC-distance?

一方

Page 14: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

14

超解像型 SNMF に最適なダイバージェンス

• 超解像型 SNMF は 2 つのタスクがある

• 分離能力と外挿能力はトレードオフになる [Kitamura, 2013]

目的音源分離

基底外挿( 超解像 )

超解像型 SNMF

性能

分離能力

ハイブリッド手法の総合性能

外挿能力

0 1 2 3 4

一般化距離関数 (b -divergence)

KL EUCIS

Page 15: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

15

Fre

quen

cy

Time

多重ダイバージェンスに基づく SNMF• スペクトルの欠落と最適なダイバージェンス

– 多いフレームはユークリッド距離 ( 外挿重視 )– 少ないフレームは KL ダイバージェンス ( 分離重視 )

欠落が少ないフレーム

KL ダイバージェンスで測る

ユークリッド距離で測る

観測スペクトログラム

バイナリマスク

番目のフレームにおける穴の密度 と閾値 で距離規範を決定

欠落が多いフレーム

Page 16: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

16

提案手法 : フロー図

Fre

que

ncy

Superresolution-based SNMF

Calculation of rate

Yes No

KL-divergence-based cost function

EUC-distance-based cost function

(EUC) (KL)

of chasmsCalculation of rate

Yes No

KL-divergence-based cost function

EUC-distance-based cost function

(EUC) (KL)

of chasmsCalculation of rate

Yes No

KL-divergence-based cost function

EUC-distance-based cost function

(EUC) (KL)

of chasms Calculation of rate

Yes No

KL-divergence-based cost function

EUC-distance-based cost function

(EUC) (KL)

of chasms

Time

Page 17: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

17

• 多重ダイバージェンスに基づく超解像型 SNMF のコスト関数

提案手法 : コスト関数

: 各フレームにおける穴の密度

Page 18: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

18

提案手法 : 更新式• 多重ダイバージェンスに基づく超解像型 SNMF の更

新式– アクティベーション行列の更新式はフレーム毎に独立し

ている為,直接場合分けされる

Page 19: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

19

提案手法 : 更新式• 多重ダイバージェンスに基づく超解像型 SNMF の更

新式– その他の基底の更新式はフレームに関する総和の中に場合

分けが起きる

Page 20: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

20

• 4 つのメロディからなるステレオの混合音源を作成• 中央に 2 つ,左右 ° に 1 つずつ音源を配置• 3種の楽器編成の MIDI 信号を用意,計 36 パターンの平均評価値

実験条件

Center

12 34

Left Right

目的音源

教師用音源信号

目的音源の音域をカバーする 2 オクターブの 24音階

Dataset Melody 1 Melody 2 Midrange BassNo. 1 Oboe Flute Piano TromboneNo. 2 Trumpet Violin Harpsichord FagottoNo. 3 Horn Clarinet Piano Cello

Page 21: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

21

• 音源の空間配置の異なる 4種類の入力データを作成• SP1 は欠落が少なく, SP4 は欠落が多い• 閾値 t = 0.2

実験条件

Center

12 34

Left Right目的音源

Spatialcondition

Measure

1 2 3 4

SP1        SP2        SP3        SP4        

Page 22: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

22

実験結果

14

12

10

8

6

4

2

0

SD

R [d

B]

SP1 SP2 SP3 SP4Spatial patterns

Good

Bad

穴の数 多い少ない

Hybrid method (KL-divergence)Hybrid method (EUC-distance)Hybrid method based on multi-divergence

SNMF (KL)

SNMF (EUC)

Page 23: Optimal divergence diversity for superresolution-based nonnegative matrix factorization (in Japanese)

23

まとめ• いかなる音源の空間配置にも対応した多重ダ

イバージェンスに基づく超解像型 SNMF を提案

• ダイバージェンスはスペクトログラムの各フレームの欠落密度によって閾値処理され,決定される– ダイバージェンスのダイバーシチ

• 音源の空間配置を変化させた信号を用いて,提案手法の有効性を確認