study on optimal divergence for superresolution-based supervised nonnegative matrix factorization...

47
超超超超超超超超超超超超超超超超超超超超超超超超超超超超超超超超超 超超超超超超超超超超超超超 超超超超 超超超 超超超超 超超超超超超超 超超超超 超超超 Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization

Upload: daichi-kitamura

Post on 07-Aug-2015

88 views

Category:

Engineering


2 download

TRANSCRIPT

Page 1: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

超解像に基づく教師あり非負値行列因子分解の最適距離規範に関する検討

奈良先端科学技術大学院大学北村大地 猿渡洋 鹿野清宏

ヤマハ株式会社近藤多伸 高橋祐

Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization

Page 2: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

2

研究背景

• 複数の楽器音が多重に混合された音楽信号から,楽器音を分離・抽出 音楽信号分解

• 応用例– ユーザが好み応じて各楽器音を編集– 音楽信号の自動採譜– 音の拡張現実 (AR) 等

Page 3: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

3

• 非負値行列因子分解 [Lee, et al., 1999]

• データのスパース性,重ね合わせ表現を考慮

• 効率的な乗法型更新式

• 画像処理,信号処理等様々な分野への応用

研究背景

Page 4: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

4

Time [sec]

Fre

quen

cy

[Hz]

Nonnegative Matrix Factorization (NMF)

……

頻出スペクトル各スペクトルのタイミングと音量

Page 5: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

5

Time [sec]

Fre

quen

cy

[Hz]

Nonnegative Matrix Factorization (NMF)

……アクティベーション

行列

スペクトル基底行列

Page 6: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

6

• NMF では,分解行列因子の と を最適化するための目的関数が距離関数として与えられる

• この距離関数はデータや分解する目的に応じて使い分けられる

– 音源分離: 一般化 KL ダイバージェンス– 自動採譜: 板倉 - 斉藤擬距離

NMF の目的関数

: 任意の距離関数

ex.)

Page 7: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

7

• 一般化距離関数 -divergence [Eguchi, et al., 2001]

: ユークリッド距離: 一般化 KL ダイバージェ

ンス: 板倉 - 斉藤擬距離 スパース性が重視

された距離尺度に

-divergence について

Page 8: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

8

• における のグラフ

-divergence について

5x102

4

3

2

1

0

IS-d

iver

genc

e

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=0) 25

20

15

10

5

0

KL-

dive

rgen

ce

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=1) 12

10

8

6

4

2

0

EU

C-d

ista

nce

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=2)

が正 入力変数 がデータ より大きい

が負 入力変数 がデータ より小さい

板倉 - 斉藤擬距離や KL-divergence では大きな距離値に

板倉 - 斉藤擬距離や KL-divergence では小さな距離値に

Page 9: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

9

-divergence について

5x102

4

3

2

1

0

IS-d

iver

genc

e

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=0) 25

20

15

10

5

0

KL-

dive

rgen

ce

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=1) 12

10

8

6

4

2

0

EU

C-d

ista

nce

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=2)

• における のグラフ

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

スパース性 : 強

スパース性 : 弱

Page 10: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

10

-divergence について

• における のグラフ100

80

60

40

20

0

-di

verg

ence

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=3)9x10

2

876543210

-di

verg

ence

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=4)5x10

97

0

-di

verg

ence

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=100)

さらに を大きくすると,入力変数 とデータ を入れ替えたような性質になる

Page 11: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

11

• -divergence の全ての において収束性が保障された更新式の導出

-divergence 規範 NMF [Nakano, et al., 2010]

はそれぞれ の要素

Page 12: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

12

• 分離する楽器の教師音を用いる手法学習プロセス

目的の楽器の教師音を用いて学習した基底

分離プロセス 教師基底 を固定して を構成

Penalized Supervised NMF (PSNMF)[Yagi, et al., 2012]

は となるべく無相関となるように求める

Page 13: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

13

• 分離する楽器の教師音を用いる手法学習プロセス

Penalized Supervised NMF (PSNMF)

目的の楽器の教師音を用いて学習した基底

分離プロセス 教師基底 を固定して を構成

から再構成したスペクトログラムが分離結果

[Yagi, et al., 2012]

Page 14: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

14

• PSNMF の問題点– 混合された音源数 ( 楽器の種類数 ) が 4 つ

以上のように多くなると分離精度が低下• 原因

– 様々な楽器の間で類似したスペクトルが現れる

– 学習基底の重ね合わせにより別の楽器のスペクトルを表現してしまう

Penalized Supervised NMF (PSNMF)[Yagi, et al., 2012]

Page 15: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

15

方位クラスタリング [Miyabe, et al., 2009]

• ステレオ信号を対象とした方位分解手法• チャネル間の定位情報 (振幅差と位相差 )

を用いてクラスタリング

L R L-c

h の

入力

信号

R-ch の入力信号

:音源成分:空間代表ベクトル

Page 16: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

16

クラスタリングによるバイナリマスクの生成

• ハードクラスタリングは完全スパース性を仮定

• スペクトログラムのグリッドが方位クラスタに属するか否かを示すバイナリマスクが生成

1 0 0 0 0 0 0

0 1 1 0 0 1 1

1 0 0 0 0 0 0

0 1 0 1 1 0 1

1 0 0 0 0 0 0

1 1 1 0 1 1 0

時間

周波

: 目的楽音成分時間

周波

時間

周波

: 不要音成分:アダマール積 ( 要素積 )

入力信号 バイナリマスク

分解されたクラスタ

Page 17: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

17

方位クラスタリングの問題点

• 問題点– 実際には完全スパース性が成り立たない為,

クラスタリング誤りによる人工的な歪みが生じる

–同一方位にある音源の分解はできない

時間

周波

分解されたクラスタ

-40

-20

0

20

40A

mp

litu

de

[d

B]

10008006004002000Frequency [Hz]

L R

Page 18: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

18

Multichannel NMF

• NMF をマルチチャネル信号へと拡張–チャネル間の位相情報も利用して信号分解

• 方位と調波構造を統一してモデル化し 1つのコスト関数で最適化

• 問題点– 1 つのコスト関数で多くの変数を最適化しよ

うとするため,非常に困難な推定問題–初期値依存性が極端に強く,頑健に動作させ

ることが難しい

[Sawada, et al., 2012][Ozerov, et al., 2010]

Page 19: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

19

従来手法のまとめ

• PSNMF– モノラル信号が対象– 教師あり分解– 混合楽器数が増加すると分離精度が低下

• 方位クラスタリング– マルチチャネル信号が対象– 人工的な歪みが発生– 同一方位の音源は分解できない

• Multichannel NMF– マルチチャネル信号が対象– 初期値依存性が強く,頑健性に欠ける

Page 20: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

20

• マルチチャネル信号を対象として高精度かつ頑健に動作する教師あり信号分解手法–前段に方位クラスタリングによる方位分解– 分解された目的方位クラスタに対して教師あ

り NMF を適用し目的楽器音を分離

– 方位分解と調波構造による音源分離のそれぞれに対して適切な手法を用いる分割統治法

提案手法

方位クラスタリングL R

教師あり NMF

Page 21: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

21

– 方位クラスタリングのバイナリマスクによってスペクトログラムの解像度が低下

–通常の PSNMF を後段に接続すると,歪みが発生

方位分解と教師あり NMF のハイブリッド手法

1 0 0 0 0 0 0

0 1 1 0 0 1 1

1 0 0 0 0 0 0

0 1 0 1 1 0 1

1 0 0 0 0 0 0

1 1 1 0 1 1 0

時間

周波

: 目的楽音成分時間

周波

時間周波

: 不要音成分

-40

-20

0

20

40

Am

plit

ud

e [

dB

]

10008006004002000Frequency [Hz]

• 後段の教師あり NMF について

: 欠落

Page 22: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

22

• 超解像に基づく教師あり NMF–欠落を観測できなかった成分として NMF の誤差関数から省く

–観測可能な成分のみを考慮し,表現できる教師基底をフィッティングさせる

–欠落成分は教師基底によって外挿される ( 超解像 )

方位分解と教師あり NMF のハイブリッド手法

目的音成分の穴を NMF の誤差関数から省く

1 0 0 0 0 0 0

0 1 1 0 0 1 1

1 0 0 0 0 0 0

0 1 0 1 1 0 1

1 0 0 0 0 0 0

1 1 1 0 1 1 0

時間

周波

: 目的楽音成分時間

周波

時間周波

数 : 欠落

: 不要音成分

Page 23: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

23

• ハイブリッド手法の処理の流れ

方位分解と教師あり NMF のハイブリッド手法

方位

音源

成分

目的音成分

Page 24: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

24

• ハイブリッド手法の処理の流れ

方位分解と教師あり NMF のハイブリッド手法

方位

音源

成分

目的音成分

方位

音源

成分

目的方位成分

目的成分の欠落

Page 25: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

25

• ハイブリッド手法の処理の流れ

方位分解と教師あり NMF のハイブリッド手法

方位

音源

成分

目的成分の欠落

Page 26: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

26

• ハイブリッド手法の処理の流れ

方位分解と教師あり NMF のハイブリッド手法

方位

音源

成分

外挿された目的成分

方位

音源

成分

目的成分の欠落

Page 27: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

27

• 超解像における正則化の必要性– あるフレームにおいて観測可能な成分が極端

に少ない場合,いかなる教師基底もマッチングできる

– 間違った教師基底が選択されてスペクトルが外挿される可能性がある

方位分解と教師あり NMF のハイブリッド手法

4

3

2

1

0

Fre

quen

cy [k

Hz]

43210 Time [s]

欠落グリッド数が多く (約 99%が穴 ) ,外挿誤りが生じたフレーム

外挿誤りを防ぐための正則化が必要

Page 28: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

28

• ノルム最小化による正則化

方位分解と教師あり NMF のハイブリッド手法

穴が極端に多いフレーム

本来目的音成分が存在していなかった

事前仮定

–事前仮定を導入

– それぞれのフレームにおいて,穴の数が多いほどノルムが小さくなる ( 出力音が小さくなる ) 教師基底を選択してフィッティング

Page 29: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

29

• 超解像に基づく教師あり NMF コスト関数

– は目的楽器の教師基底– は方位クラスタリングのバイナリインデッ

クス– はインデックス (0, 1) の論理反転– はそれぞれ直交化項,正則化項の重み係

方位分解と教師あり NMF のハイブリッド手法

Page 30: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

30

• 超解像に基づく教師あり NMF コスト関数

– は目的楽器の教師基底– は方位クラスタリングのバイナリインデッ

クス– はインデックス (0, 1) の論理反転– はそれぞれ直交化項,正則化項の重み係

方位分解と教師あり NMF のハイブリッド手法

距離関数に b -divergence を用いた場合の更新式を導出し,超解像に基づく教師あり NMF において最適な距離規範の検討

を行う

Page 31: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

31

• 更新式導出は補助関数法を用いる–コスト関数 の上限を与える補助関数を定義–コスト関数を間接的に最小化

超解像に基づく教師あり NMF 更新式導出

は変数の集合,   はバイナリマスクのインデックス行列 の要素

Page 32: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

32

• コスト関数 ( 上式 ) の第一項は定数• 第二項,第三項,第四項は の値に応じ

て凸関数 (convex) か凹関数 (concave) になる

超解像に基づく教師あり NMF 更新式導出

concave

convexconvex

concave

convex

convex

convexconvex

concave

Page 33: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

33

• 各項の上限関数は以下の不等式を用いて設計できる–凸関数 : Jensen の不等式

–凹関数 : 接線不等式

超解像に基づく教師あり NMF 更新式導出

: 凸関数

: 凹関数

Page 34: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

34

超解像に基づく教師あり NMF 更新式

• 補助関数を各変数で微分し,補助変数の等号成立条件を代入することで更新式を導出

• 超解像に基づく教師あり NMF 更新式

Page 35: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

35

超解像に基づく教師あり NMF 実験条件

目的音信号 (MIDI) フルート,オーボエ,ピアノ,トロンボーン

観測信号 (MIDI) 4 種類の楽器の等パワー混合信号

教師信号 (MIDI) 各楽器音の半音階で 2 オクターブ上昇する 24 音

方位クラスタ数 3

基底数 教師基底 : 100, その他の基底 : 30

NMF の更新回数 教師基底学習時 : 500, 分離時 : 400

重み係数 m , l 評価値が最も高くなる値を実験的に求める

距離規範 ( 教師基底学習時と分離時では統一 )

比較手法PSNMF単体超解像に基づく教師あり NMF を用いたハイブリッド手法

客観評価尺度Signal to distortion ratio (SDR: 目的音の品質 ), Source to interference ratio (SIR: 分離度合 ), Sources to artifact ratio (SAR: 処理歪みの少なさ )

Page 36: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

36

超解像に基づく教師あり NMF 実験条件

• 入力信号–左右の音源の定位角

度は 15 , 40 を用意– 目的音源は常に中央

(1番 ) に定位– 4 種の目的音源のそ

れぞれに対して非目的音の配置が 3 パターン

–計 12 パターンの音源に分離実験を行った評価値の平均

Center

12 34

Left Right

Page 37: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

37

• 比較手法

超解像に基づく教師あり NMF 実験条件

Input stereo signal

L-ch R-ch

STFT

Directional clustering

Center component

L-ch R-chcenter cluster

Index of

based SNMFSuperresolution-

based SNMFSuperresolution-

ISTFT ISTFT

Mixing

Extracted signal

Input stereo signal

L-ch R-ch

STFT

Monaural component

PSNMF

ISTFT

Mixing

Extracted signal

PSNMF 超解像に基づくハイブリッド手法

入力信号をモノラルにミックスダウン

Page 38: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

38

• の入力信号の結果

• 従来の PSNMF では (KL-divergence) が最も良い分離精度–従来の NMF を用いた音源分離の研究で経験

的に知られていた事実

超解像に基づく教師あり NMF 実験結果

14

12

10

8

6

4

2

0

SD

R [d

B]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

25

20

15

10

5

0

SIR

[dB

]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

10

8

6

4

2

0

SA

R [d

B]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

Page 39: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

39

• の入力信号の結果

• 従来の PSNMF では (KL-divergence) が最も良い分離精度–従来の NMF を用いた音源分離の研究で経験

的に知られていた事実

超解像に基づく教師あり NMF 実験結果

14

12

10

8

6

4

2

0

SD

R [d

B]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

25

20

15

10

5

0

SIR

[dB

]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

10

8

6

4

2

0

SA

R [d

B]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

Page 40: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

40

• の入力信号の結果

• 超解像に基づく教師あり NMF では (EUC-distance) が最も良い分離精度–通常の音源分離とは異なる結果に

超解像に基づく教師あり NMF 実験結果

14

12

10

8

6

4

2

0

SD

R [d

B]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

25

20

15

10

5

0

SIR

[dB

]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

10

8

6

4

2

0

SA

R [d

B]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

Page 41: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

41

• の入力信号の結果

• においても同様の結果となった

超解像に基づく教師あり NMF 実験結果

14

12

10

8

6

4

2

0

SD

R [d

B]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

25

20

15

10

5

0

SIR

[dB

]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

10

8

6

4

2

0

SA

R [d

B]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

Page 42: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

42

• 通常の NMF 音源分離– KL-divergence (   ) が分離精度が良い

• 今回の PSNMF の結果や多くの論文で示されている

• 超解像に基づく教師あり NMF– EUC-distance ( ) が良い結果となった

• 超解像処理を用いる NMF の最適な距離規範は EUC-distance といえる

超解像に基づく教師あり NMF 考察

Page 43: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

43

• の値が 0 に近くなるほど–事前学習時

• 教師基底はピークとスパース性を重視• アクティベーションのスパース性から局所的 ( ア

タック部 , サスティン部等 ) な特徴を良く捉えた基底が作られる

超解像に基づく教師あり NMF 考察

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz] Attack Sustain Release

Am

plitu

deTime

Decay

Page 44: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

44

• の値が大きくなるほど–事前学習時

• 教師基底はそれほどスパースにならず,少し滑らか

• より大局的な特徴を捉えた教師基底が学習される

超解像に基づく教師あり NMF 考察

Attack

Decay

Sustain ReleaseA

mpl

itude

Time-10

-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

Page 45: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

45

• 超解像に基づく教師あり NMF – 分離時

• 見えている成分のみで教師基底のフィッティングを行わなければならない

• 教師基底がスパースで局所的な特徴を捉えた教師基底は外挿しにくい

• 逆に少し滑らかで大局的な表現が可能な教師基底の方が外挿しやすい

超解像に基づく教師あり NMF 考察

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

Page 46: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

46

• 超解像に基づく教師あり NMF – 分離時

超解像に基づく教師あり NMF 考察

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

性能

分離精度

外挿能力

スパース性 : 強

スパース性 : 弱

総合的な性能

Page 47: Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

47

• ハイブリッド音源分離手法である超解像に基づく教師あり NMF において -divergence を用いた更新式を導出

• 超解像処理を含む音源分離 NMF では EUC-distance が最適な距離規範であることを示した

• バイノーラル信号に対する分離精度の確認

• 方位クラスタリング以外の方位分解手法を用いた場合の実験

まとめと今後