study on optimal divergence for superresolution-based supervised nonnegative matrix factorization...

超解像に基づく教師あり非負値行列因子分解の最適距離規範に関する検討

奈良先端科学技術大学院大学北村大地　猿渡洋　鹿野清宏

ヤマハ株式会社近藤多伸　高橋祐

Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization

2

研究背景

• 複数の楽器音が多重に混合された音楽信号から，楽器音を分離・抽出音楽信号分解

• 応用例– ユーザが好み応じて各楽器音を編集– 音楽信号の自動採譜– 音の拡張現実 (AR) 等

3

• 非負値行列因子分解 [Lee, et al., 1999]

• データのスパース性，重ね合わせ表現を考慮

• 効率的な乗法型更新式

• 画像処理，信号処理等様々な分野への応用

研究背景

4

Time [sec]

Fre

quen

cy

[Hz]

Nonnegative Matrix Factorization (NMF)

…

…

……

頻出スペクトル各スペクトルのタイミングと音量

5

Time [sec]

Fre

quen

cy

[Hz]

Nonnegative Matrix Factorization (NMF)

…

…

……アクティベーション

行列

スペクトル基底行列

6

• NMF では，分解行列因子のとを最適化するための目的関数が距離関数として与えられる

• この距離関数はデータや分解する目的に応じて使い分けられる

– 音源分離：一般化 KL ダイバージェンス– 自動採譜：板倉 - 斉藤擬距離

NMF の目的関数

: 任意の距離関数

ex.)

7

• 一般化距離関数 -divergence [Eguchi, et al., 2001]

: ユークリッド距離: 一般化 KL ダイバージェ

ンス: 板倉 - 斉藤擬距離スパース性が重視

された距離尺度に

-divergence について

8

• におけるのグラフ


5x102

4

3

2

1

0

IS-d

iver

genc

e

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=0) 25

20

15

10

5

0

KL-

dive

rgen

ce

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=1) 12

10

8

6

4

2

0

EU

C-d

ista

nce

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=2)

が正入力変数がデータより大きい

が負入力変数がデータより小さい

板倉 - 斉藤擬距離や KL-divergence では大きな距離値に

板倉 - 斉藤擬距離や KL-divergence では小さな距離値に

9


5x102

4

3

2

1

0

IS-d

iver

genc

e

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=0) 25

20

15

10

5

0

KL-

dive

rgen

ce

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=1) 12

10

8

6

4

2

0

EU

C-d

ista

nce

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=2)

• におけるのグラフ

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

-10-8-6-4-20

Am

plitu

de [d

B]


スパース性 : 強

スパース性 : 弱

10


• におけるのグラフ100

80

60

40

20

0

-di

verg

ence

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=3)9x10

2

876543210

-di

verg

ence

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=4)5x10

97

0

-di

verg

ence

-5 -4 -3 -2 -1 0 1 2 3 4 5y-x

=100)

さらにを大きくすると，入力変数とデータを入れ替えたような性質になる

11

• -divergence の全てのにおいて収束性が保障された更新式の導出

-divergence 規範 NMF [Nakano, et al., 2010]

はそれぞれの要素

12

• 分離する楽器の教師音を用いる手法学習プロセス

目的の楽器の教師音を用いて学習した基底

分離プロセス教師基底を固定してを構成

Penalized Supervised NMF (PSNMF)[Yagi, et al., 2012]

はとなるべく無相関となるように求める

13

• 分離する楽器の教師音を用いる手法学習プロセス

Penalized Supervised NMF (PSNMF)

目的の楽器の教師音を用いて学習した基底

分離プロセス教師基底を固定してを構成

から再構成したスペクトログラムが分離結果

[Yagi, et al., 2012]

14

• PSNMF の問題点– 混合された音源数 ( 楽器の種類数 ) が 4 つ

以上のように多くなると分離精度が低下• 原因

– 様々な楽器の間で類似したスペクトルが現れる

– 学習基底の重ね合わせにより別の楽器のスペクトルを表現してしまう

Penalized Supervised NMF (PSNMF)[Yagi, et al., 2012]

15

方位クラスタリング [Miyabe, et al., 2009]

• ステレオ信号を対象とした方位分解手法• チャネル間の定位情報 (振幅差と位相差 )

を用いてクラスタリング

L R L-c

h の

入力

信号

R-ch の入力信号

：音源成分：空間代表ベクトル

16

クラスタリングによるバイナリマスクの生成

• ハードクラスタリングは完全スパース性を仮定

• スペクトログラムのグリッドが方位クラスタに属するか否かを示すバイナリマスクが生成

1 0 0 0 0 0 0

0 1 1 0 0 1 1

1 0 0 0 0 0 0

0 1 0 1 1 0 1

1 0 0 0 0 0 0

1 1 1 0 1 1 0

時間

周波

数

: 目的楽音成分時間

周波

数

時間

周波

数

: 不要音成分：アダマール積 ( 要素積 )

入力信号バイナリマスク

分解されたクラスタ

17

方位クラスタリングの問題点

• 問題点– 実際には完全スパース性が成り立たない為，

クラスタリング誤りによる人工的な歪みが生じる

–同一方位にある音源の分解はできない

時間

周波

数

分解されたクラスタ

-40

-20

0

20

40A

mp

litu

de

[d

B]

10008006004002000Frequency [Hz]

L R

18

Multichannel NMF

• NMF をマルチチャネル信号へと拡張–チャネル間の位相情報も利用して信号分解

• 方位と調波構造を統一してモデル化し 1つのコスト関数で最適化

• 問題点– 1 つのコスト関数で多くの変数を最適化しよ

うとするため，非常に困難な推定問題–初期値依存性が極端に強く，頑健に動作させ

ることが難しい

[Sawada, et al., 2012][Ozerov, et al., 2010]

19

従来手法のまとめ

• PSNMF– モノラル信号が対象– 教師あり分解– 混合楽器数が増加すると分離精度が低下

• 方位クラスタリング– マルチチャネル信号が対象– 人工的な歪みが発生– 同一方位の音源は分解できない

• Multichannel NMF– マルチチャネル信号が対象– 初期値依存性が強く，頑健性に欠ける

20

• マルチチャネル信号を対象として高精度かつ頑健に動作する教師あり信号分解手法–前段に方位クラスタリングによる方位分解– 分解された目的方位クラスタに対して教師あ

り NMF を適用し目的楽器音を分離

– 方位分解と調波構造による音源分離のそれぞれに対して適切な手法を用いる分割統治法

提案手法

方位クラスタリングL R

教師あり NMF

21

– 方位クラスタリングのバイナリマスクによってスペクトログラムの解像度が低下

–通常の PSNMF を後段に接続すると，歪みが発生

方位分解と教師あり NMF のハイブリッド手法

1 0 0 0 0 0 0

0 1 1 0 0 1 1

1 0 0 0 0 0 0

0 1 0 1 1 0 1

1 0 0 0 0 0 0

1 1 1 0 1 1 0

時間

周波

数


周波

数

時間周波

数

: 不要音成分

-40

-20

0

20

40

Am

plit

ud

e [

dB

]

10008006004002000Frequency [Hz]

• 後段の教師あり NMF について

: 欠落

22

• 超解像に基づく教師あり NMF–欠落を観測できなかった成分として NMF の誤差関数から省く

–観測可能な成分のみを考慮し，表現できる教師基底をフィッティングさせる

–欠落成分は教師基底によって外挿される ( 超解像 )


目的音成分の穴を NMF の誤差関数から省く

1 0 0 0 0 0 0

0 1 1 0 0 1 1

1 0 0 0 0 0 0

0 1 0 1 1 0 1

1 0 0 0 0 0 0

1 1 1 0 1 1 0

時間

周波

数


周波

数

時間周波

数 : 欠落

: 不要音成分

23

• ハイブリッド手法の処理の流れ


方位

音源

成分

目的音成分

24



方位

音源

成分

目的音成分

方位

音源

成分

目的方位成分

目的成分の欠落

25



方位

音源

成分


26



方位

音源

成分

外挿された目的成分

方位

音源

成分


27

• 超解像における正則化の必要性– あるフレームにおいて観測可能な成分が極端

に少ない場合，いかなる教師基底もマッチングできる

– 間違った教師基底が選択されてスペクトルが外挿される可能性がある


4

3

2

1

0

Fre

quen

cy [k

Hz]

43210 Time [s]

欠落グリッド数が多く (約 99%が穴 ) ，外挿誤りが生じたフレーム

外挿誤りを防ぐための正則化が必要

28

• ノルム最小化による正則化


穴が極端に多いフレーム

本来目的音成分が存在していなかった

事前仮定

–事前仮定を導入

– それぞれのフレームにおいて，穴の数が多いほどノルムが小さくなる ( 出力音が小さくなる ) 教師基底を選択してフィッティング

29

• 超解像に基づく教師あり NMF コスト関数

– は目的楽器の教師基底– は方位クラスタリングのバイナリインデッ

クス– はインデックス (0, 1) の論理反転– はそれぞれ直交化項，正則化項の重み係

数


30

• 超解像に基づく教師あり NMF コスト関数

– は目的楽器の教師基底– は方位クラスタリングのバイナリインデッ

クス– はインデックス (0, 1) の論理反転– はそれぞれ直交化項，正則化項の重み係

数


距離関数に b -divergence を用いた場合の更新式を導出し，超解像に基づく教師あり NMF において最適な距離規範の検討

を行う

31

• 更新式導出は補助関数法を用いる–コスト関数の上限を与える補助関数を定義–コスト関数を間接的に最小化

超解像に基づく教師あり NMF 更新式導出

は変数の集合，　はバイナリマスクのインデックス行列の要素

32

• コスト関数 ( 上式 ) の第一項は定数• 第二項，第三項，第四項はの値に応じ

て凸関数 (convex) か凹関数 (concave) になる


concave

convexconvex

concave

convex

convex

convexconvex

concave

33

• 各項の上限関数は以下の不等式を用いて設計できる–凸関数 : Jensen の不等式

–凹関数 : 接線不等式


: 凸関数

: 凹関数

34

超解像に基づく教師あり NMF 更新式

• 補助関数を各変数で微分し，補助変数の等号成立条件を代入することで更新式を導出

• 超解像に基づく教師あり NMF 更新式

35

超解像に基づく教師あり NMF 実験条件

目的音信号 (MIDI) フルート，オーボエ，ピアノ，トロンボーン

観測信号 (MIDI) 4 種類の楽器の等パワー混合信号

教師信号 (MIDI) 各楽器音の半音階で 2 オクターブ上昇する 24 音

方位クラスタ数 3

基底数教師基底 : 100, その他の基底 : 30

NMF の更新回数教師基底学習時 : 500, 分離時 : 400

重み係数 m , l 評価値が最も高くなる値を実験的に求める

距離規範 ( 教師基底学習時と分離時では統一 )

比較手法PSNMF単体超解像に基づく教師あり NMF を用いたハイブリッド手法

客観評価尺度Signal to distortion ratio (SDR: 目的音の品質 ), Source to interference ratio (SIR: 分離度合 ), Sources to artifact ratio (SAR: 処理歪みの少なさ )

36


• 入力信号–左右の音源の定位角

度は 15 , 40 を用意– 目的音源は常に中央

(1番 ) に定位– 4 種の目的音源のそ

れぞれに対して非目的音の配置が 3 パターン

–計 12 パターンの音源に分離実験を行った評価値の平均

Center

１２３４

Left Right

37

• 比較手法


Input stereo signal

L-ch R-ch

STFT

Directional clustering

Center component

L-ch R-chcenter cluster

Index of

based SNMFSuperresolution-

based SNMFSuperresolution-

ISTFT ISTFT

Mixing

Extracted signal

Input stereo signal

L-ch R-ch

STFT

Monaural component

PSNMF

ISTFT

Mixing

Extracted signal

PSNMF 超解像に基づくハイブリッド手法

入力信号をモノラルにミックスダウン

38

• の入力信号の結果

• 従来の PSNMF では (KL-divergence) が最も良い分離精度–従来の NMF を用いた音源分離の研究で経験

的に知られていた事実

超解像に基づく教師あり NMF 実験結果

14

12

10

8

6

4

2

0

SD

R [d

B]

0 1 2 3 4Value of

PSNMF Superresolution-based SNMF

25

20

15

10

5

0

SIR

[dB

]

0 1 2 3 4Value of


10

8

6

4

2

0

SA

R [d

B]

0 1 2 3 4Value of


39


• 従来の PSNMF では (KL-divergence) が最も良い分離精度–従来の NMF を用いた音源分離の研究で経験

的に知られていた事実


14

12

10

8

6

4

2

0

SD

R [d

B]

0 1 2 3 4Value of


25

20

15

10

5

0

SIR

[dB

]

0 1 2 3 4Value of


10

8

6

4

2

0

SA

R [d

B]

0 1 2 3 4Value of


40


• 超解像に基づく教師あり NMF では (EUC-distance) が最も良い分離精度–通常の音源分離とは異なる結果に


14

12

10

8

6

4

2

0

SD

R [d

B]

0 1 2 3 4Value of


25

20

15

10

5

0

SIR

[dB

]

0 1 2 3 4Value of


10

8

6

4

2

0

SA

R [d

B]

0 1 2 3 4Value of


41


• においても同様の結果となった


14

12

10

8

6

4

2

0

SD

R [d

B]

0 1 2 3 4Value of


25

20

15

10

5

0

SIR

[dB

]

0 1 2 3 4Value of


10

8

6

4

2

0

SA

R [d

B]

0 1 2 3 4Value of


42

• 通常の NMF 音源分離– KL-divergence ( 　 ) が分離精度が良い

• 今回の PSNMF の結果や多くの論文で示されている

• 超解像に基づく教師あり NMF– EUC-distance ( ) が良い結果となった

• 超解像処理を用いる NMF の最適な距離規範は EUC-distance といえる

超解像に基づく教師あり NMF 考察

43

• の値が 0 に近くなるほど–事前学習時

• 教師基底はピークとスパース性を重視• アクティベーションのスパース性から局所的 ( ア

タック部 , サスティン部等 ) な特徴を良く捉えた基底が作られる


-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz] Attack Sustain Release

Am

plitu

deTime

Decay

44

• の値が大きくなるほど–事前学習時

• 教師基底はそれほどスパースにならず，少し滑らか

• より大局的な特徴を捉えた教師基底が学習される


Attack

Decay

Sustain ReleaseA

mpl

itude

Time-10

-8-6-4-20

Am

plitu

de [d

B]


45

• 超解像に基づく教師あり NMF – 分離時

• 見えている成分のみで教師基底のフィッティングを行わなければならない

• 教師基底がスパースで局所的な特徴を捉えた教師基底は外挿しにくい

• 逆に少し滑らかで大局的な表現が可能な教師基底の方が外挿しやすい


-10-8-6-4-20

Am

plitu

de [d

B]


-10-8-6-4-20

Am

plitu

de [d

B]


46

• 超解像に基づく教師あり NMF – 分離時


-10-8-6-4-20

Am

plitu

de [d

B]


-10-8-6-4-20

Am

plitu

de [d

B]


性能

分離精度

外挿能力

スパース性 : 強

スパース性 : 弱

総合的な性能

47

• ハイブリッド音源分離手法である超解像に基づく教師あり NMF において -divergence を用いた更新式を導出

• 超解像処理を含む音源分離 NMF では EUC-distance が最適な距離規範であることを示した

• バイノーラル信号に対する分離精度の確認

• 方位クラスタリング以外の方位分解手法を用いた場合の実験

まとめと今後

study on optimal divergence for superresolution-based supervised nonnegative matrix factorization...

Engineering