study on optimal divergence for superresolution-based supervised nonnegative matrix factorization...
TRANSCRIPT
超解像に基づく教師あり非負値行列因子分解の最適距離規範に関する検討
奈良先端科学技術大学院大学北村大地 猿渡洋 鹿野清宏
ヤマハ株式会社近藤多伸 高橋祐
Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization
2
研究背景
• 複数の楽器音が多重に混合された音楽信号から,楽器音を分離・抽出 音楽信号分解
• 応用例– ユーザが好み応じて各楽器音を編集– 音楽信号の自動採譜– 音の拡張現実 (AR) 等
3
• 非負値行列因子分解 [Lee, et al., 1999]
• データのスパース性,重ね合わせ表現を考慮
• 効率的な乗法型更新式
• 画像処理,信号処理等様々な分野への応用
研究背景
4
Time [sec]
Fre
quen
cy
[Hz]
Nonnegative Matrix Factorization (NMF)
…
…
……
頻出スペクトル各スペクトルのタイミングと音量
5
Time [sec]
Fre
quen
cy
[Hz]
Nonnegative Matrix Factorization (NMF)
…
…
……アクティベーション
行列
スペクトル基底行列
6
• NMF では,分解行列因子の と を最適化するための目的関数が距離関数として与えられる
• この距離関数はデータや分解する目的に応じて使い分けられる
– 音源分離: 一般化 KL ダイバージェンス– 自動採譜: 板倉 - 斉藤擬距離
NMF の目的関数
: 任意の距離関数
ex.)
7
• 一般化距離関数 -divergence [Eguchi, et al., 2001]
: ユークリッド距離: 一般化 KL ダイバージェ
ンス: 板倉 - 斉藤擬距離 スパース性が重視
された距離尺度に
-divergence について
8
• における のグラフ
-divergence について
5x102
4
3
2
1
0
IS-d
iver
genc
e
-5 -4 -3 -2 -1 0 1 2 3 4 5y-x
=0) 25
20
15
10
5
0
KL-
dive
rgen
ce
-5 -4 -3 -2 -1 0 1 2 3 4 5y-x
=1) 12
10
8
6
4
2
0
EU
C-d
ista
nce
-5 -4 -3 -2 -1 0 1 2 3 4 5y-x
=2)
が正 入力変数 がデータ より大きい
が負 入力変数 がデータ より小さい
板倉 - 斉藤擬距離や KL-divergence では大きな距離値に
板倉 - 斉藤擬距離や KL-divergence では小さな距離値に
9
-divergence について
5x102
4
3
2
1
0
IS-d
iver
genc
e
-5 -4 -3 -2 -1 0 1 2 3 4 5y-x
=0) 25
20
15
10
5
0
KL-
dive
rgen
ce
-5 -4 -3 -2 -1 0 1 2 3 4 5y-x
=1) 12
10
8
6
4
2
0
EU
C-d
ista
nce
-5 -4 -3 -2 -1 0 1 2 3 4 5y-x
=2)
• における のグラフ
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
スパース性 : 強
スパース性 : 弱
10
-divergence について
• における のグラフ100
80
60
40
20
0
-di
verg
ence
-5 -4 -3 -2 -1 0 1 2 3 4 5y-x
=3)9x10
2
876543210
-di
verg
ence
-5 -4 -3 -2 -1 0 1 2 3 4 5y-x
=4)5x10
97
0
-di
verg
ence
-5 -4 -3 -2 -1 0 1 2 3 4 5y-x
=100)
さらに を大きくすると,入力変数 とデータ を入れ替えたような性質になる
11
• -divergence の全ての において収束性が保障された更新式の導出
-divergence 規範 NMF [Nakano, et al., 2010]
はそれぞれ の要素
12
• 分離する楽器の教師音を用いる手法学習プロセス
目的の楽器の教師音を用いて学習した基底
分離プロセス 教師基底 を固定して を構成
Penalized Supervised NMF (PSNMF)[Yagi, et al., 2012]
は となるべく無相関となるように求める
13
• 分離する楽器の教師音を用いる手法学習プロセス
Penalized Supervised NMF (PSNMF)
目的の楽器の教師音を用いて学習した基底
分離プロセス 教師基底 を固定して を構成
から再構成したスペクトログラムが分離結果
[Yagi, et al., 2012]
14
• PSNMF の問題点– 混合された音源数 ( 楽器の種類数 ) が 4 つ
以上のように多くなると分離精度が低下• 原因
– 様々な楽器の間で類似したスペクトルが現れる
– 学習基底の重ね合わせにより別の楽器のスペクトルを表現してしまう
Penalized Supervised NMF (PSNMF)[Yagi, et al., 2012]
15
方位クラスタリング [Miyabe, et al., 2009]
• ステレオ信号を対象とした方位分解手法• チャネル間の定位情報 (振幅差と位相差 )
を用いてクラスタリング
L R L-c
h の
入力
信号
R-ch の入力信号
:音源成分:空間代表ベクトル
16
クラスタリングによるバイナリマスクの生成
• ハードクラスタリングは完全スパース性を仮定
• スペクトログラムのグリッドが方位クラスタに属するか否かを示すバイナリマスクが生成
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
時間
周波
数
: 目的楽音成分時間
周波
数
時間
周波
数
: 不要音成分:アダマール積 ( 要素積 )
入力信号 バイナリマスク
分解されたクラスタ
17
方位クラスタリングの問題点
• 問題点– 実際には完全スパース性が成り立たない為,
クラスタリング誤りによる人工的な歪みが生じる
–同一方位にある音源の分解はできない
時間
周波
数
分解されたクラスタ
-40
-20
0
20
40A
mp
litu
de
[d
B]
10008006004002000Frequency [Hz]
L R
18
Multichannel NMF
• NMF をマルチチャネル信号へと拡張–チャネル間の位相情報も利用して信号分解
• 方位と調波構造を統一してモデル化し 1つのコスト関数で最適化
• 問題点– 1 つのコスト関数で多くの変数を最適化しよ
うとするため,非常に困難な推定問題–初期値依存性が極端に強く,頑健に動作させ
ることが難しい
[Sawada, et al., 2012][Ozerov, et al., 2010]
19
従来手法のまとめ
• PSNMF– モノラル信号が対象– 教師あり分解– 混合楽器数が増加すると分離精度が低下
• 方位クラスタリング– マルチチャネル信号が対象– 人工的な歪みが発生– 同一方位の音源は分解できない
• Multichannel NMF– マルチチャネル信号が対象– 初期値依存性が強く,頑健性に欠ける
20
• マルチチャネル信号を対象として高精度かつ頑健に動作する教師あり信号分解手法–前段に方位クラスタリングによる方位分解– 分解された目的方位クラスタに対して教師あ
り NMF を適用し目的楽器音を分離
– 方位分解と調波構造による音源分離のそれぞれに対して適切な手法を用いる分割統治法
提案手法
方位クラスタリングL R
教師あり NMF
21
– 方位クラスタリングのバイナリマスクによってスペクトログラムの解像度が低下
–通常の PSNMF を後段に接続すると,歪みが発生
方位分解と教師あり NMF のハイブリッド手法
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
時間
周波
数
: 目的楽音成分時間
周波
数
時間周波
数
: 不要音成分
-40
-20
0
20
40
Am
plit
ud
e [
dB
]
10008006004002000Frequency [Hz]
• 後段の教師あり NMF について
: 欠落
22
• 超解像に基づく教師あり NMF–欠落を観測できなかった成分として NMF の誤差関数から省く
–観測可能な成分のみを考慮し,表現できる教師基底をフィッティングさせる
–欠落成分は教師基底によって外挿される ( 超解像 )
方位分解と教師あり NMF のハイブリッド手法
目的音成分の穴を NMF の誤差関数から省く
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
時間
周波
数
: 目的楽音成分時間
周波
数
時間周波
数 : 欠落
: 不要音成分
23
• ハイブリッド手法の処理の流れ
方位分解と教師あり NMF のハイブリッド手法
方位
音源
成分
目的音成分
24
• ハイブリッド手法の処理の流れ
方位分解と教師あり NMF のハイブリッド手法
方位
音源
成分
目的音成分
方位
音源
成分
目的方位成分
目的成分の欠落
25
• ハイブリッド手法の処理の流れ
方位分解と教師あり NMF のハイブリッド手法
方位
音源
成分
目的成分の欠落
26
• ハイブリッド手法の処理の流れ
方位分解と教師あり NMF のハイブリッド手法
方位
音源
成分
外挿された目的成分
方位
音源
成分
目的成分の欠落
27
• 超解像における正則化の必要性– あるフレームにおいて観測可能な成分が極端
に少ない場合,いかなる教師基底もマッチングできる
– 間違った教師基底が選択されてスペクトルが外挿される可能性がある
方位分解と教師あり NMF のハイブリッド手法
4
3
2
1
0
Fre
quen
cy [k
Hz]
43210 Time [s]
欠落グリッド数が多く (約 99%が穴 ) ,外挿誤りが生じたフレーム
外挿誤りを防ぐための正則化が必要
28
• ノルム最小化による正則化
方位分解と教師あり NMF のハイブリッド手法
穴が極端に多いフレーム
本来目的音成分が存在していなかった
事前仮定
–事前仮定を導入
– それぞれのフレームにおいて,穴の数が多いほどノルムが小さくなる ( 出力音が小さくなる ) 教師基底を選択してフィッティング
29
• 超解像に基づく教師あり NMF コスト関数
– は目的楽器の教師基底– は方位クラスタリングのバイナリインデッ
クス– はインデックス (0, 1) の論理反転– はそれぞれ直交化項,正則化項の重み係
数
方位分解と教師あり NMF のハイブリッド手法
30
• 超解像に基づく教師あり NMF コスト関数
– は目的楽器の教師基底– は方位クラスタリングのバイナリインデッ
クス– はインデックス (0, 1) の論理反転– はそれぞれ直交化項,正則化項の重み係
数
方位分解と教師あり NMF のハイブリッド手法
距離関数に b -divergence を用いた場合の更新式を導出し,超解像に基づく教師あり NMF において最適な距離規範の検討
を行う
31
• 更新式導出は補助関数法を用いる–コスト関数 の上限を与える補助関数を定義–コスト関数を間接的に最小化
超解像に基づく教師あり NMF 更新式導出
は変数の集合, はバイナリマスクのインデックス行列 の要素
32
• コスト関数 ( 上式 ) の第一項は定数• 第二項,第三項,第四項は の値に応じ
て凸関数 (convex) か凹関数 (concave) になる
超解像に基づく教師あり NMF 更新式導出
concave
convexconvex
concave
convex
convex
convexconvex
concave
33
• 各項の上限関数は以下の不等式を用いて設計できる–凸関数 : Jensen の不等式
–凹関数 : 接線不等式
超解像に基づく教師あり NMF 更新式導出
: 凸関数
: 凹関数
34
超解像に基づく教師あり NMF 更新式
• 補助関数を各変数で微分し,補助変数の等号成立条件を代入することで更新式を導出
• 超解像に基づく教師あり NMF 更新式
35
超解像に基づく教師あり NMF 実験条件
目的音信号 (MIDI) フルート,オーボエ,ピアノ,トロンボーン
観測信号 (MIDI) 4 種類の楽器の等パワー混合信号
教師信号 (MIDI) 各楽器音の半音階で 2 オクターブ上昇する 24 音
方位クラスタ数 3
基底数 教師基底 : 100, その他の基底 : 30
NMF の更新回数 教師基底学習時 : 500, 分離時 : 400
重み係数 m , l 評価値が最も高くなる値を実験的に求める
距離規範 ( 教師基底学習時と分離時では統一 )
比較手法PSNMF単体超解像に基づく教師あり NMF を用いたハイブリッド手法
客観評価尺度Signal to distortion ratio (SDR: 目的音の品質 ), Source to interference ratio (SIR: 分離度合 ), Sources to artifact ratio (SAR: 処理歪みの少なさ )
36
超解像に基づく教師あり NMF 実験条件
• 入力信号–左右の音源の定位角
度は 15 , 40 を用意– 目的音源は常に中央
(1番 ) に定位– 4 種の目的音源のそ
れぞれに対して非目的音の配置が 3 パターン
–計 12 パターンの音源に分離実験を行った評価値の平均
Center
12 34
Left Right
37
• 比較手法
超解像に基づく教師あり NMF 実験条件
Input stereo signal
L-ch R-ch
STFT
Directional clustering
Center component
L-ch R-chcenter cluster
Index of
based SNMFSuperresolution-
based SNMFSuperresolution-
ISTFT ISTFT
Mixing
Extracted signal
Input stereo signal
L-ch R-ch
STFT
Monaural component
PSNMF
ISTFT
Mixing
Extracted signal
PSNMF 超解像に基づくハイブリッド手法
入力信号をモノラルにミックスダウン
38
• の入力信号の結果
• 従来の PSNMF では (KL-divergence) が最も良い分離精度–従来の NMF を用いた音源分離の研究で経験
的に知られていた事実
超解像に基づく教師あり NMF 実験結果
14
12
10
8
6
4
2
0
SD
R [d
B]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
25
20
15
10
5
0
SIR
[dB
]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
10
8
6
4
2
0
SA
R [d
B]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
39
• の入力信号の結果
• 従来の PSNMF では (KL-divergence) が最も良い分離精度–従来の NMF を用いた音源分離の研究で経験
的に知られていた事実
超解像に基づく教師あり NMF 実験結果
14
12
10
8
6
4
2
0
SD
R [d
B]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
25
20
15
10
5
0
SIR
[dB
]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
10
8
6
4
2
0
SA
R [d
B]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
40
• の入力信号の結果
• 超解像に基づく教師あり NMF では (EUC-distance) が最も良い分離精度–通常の音源分離とは異なる結果に
超解像に基づく教師あり NMF 実験結果
14
12
10
8
6
4
2
0
SD
R [d
B]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
25
20
15
10
5
0
SIR
[dB
]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
10
8
6
4
2
0
SA
R [d
B]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
41
• の入力信号の結果
• においても同様の結果となった
超解像に基づく教師あり NMF 実験結果
14
12
10
8
6
4
2
0
SD
R [d
B]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
25
20
15
10
5
0
SIR
[dB
]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
10
8
6
4
2
0
SA
R [d
B]
0 1 2 3 4Value of
PSNMF Superresolution-based SNMF
42
• 通常の NMF 音源分離– KL-divergence ( ) が分離精度が良い
• 今回の PSNMF の結果や多くの論文で示されている
• 超解像に基づく教師あり NMF– EUC-distance ( ) が良い結果となった
• 超解像処理を用いる NMF の最適な距離規範は EUC-distance といえる
超解像に基づく教師あり NMF 考察
43
• の値が 0 に近くなるほど–事前学習時
• 教師基底はピークとスパース性を重視• アクティベーションのスパース性から局所的 ( ア
タック部 , サスティン部等 ) な特徴を良く捉えた基底が作られる
超解像に基づく教師あり NMF 考察
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz] Attack Sustain Release
Am
plitu
deTime
Decay
44
• の値が大きくなるほど–事前学習時
• 教師基底はそれほどスパースにならず,少し滑らか
• より大局的な特徴を捉えた教師基底が学習される
超解像に基づく教師あり NMF 考察
Attack
Decay
Sustain ReleaseA
mpl
itude
Time-10
-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
45
• 超解像に基づく教師あり NMF – 分離時
• 見えている成分のみで教師基底のフィッティングを行わなければならない
• 教師基底がスパースで局所的な特徴を捉えた教師基底は外挿しにくい
• 逆に少し滑らかで大局的な表現が可能な教師基底の方が外挿しやすい
超解像に基づく教師あり NMF 考察
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
46
• 超解像に基づく教師あり NMF – 分離時
超解像に基づく教師あり NMF 考察
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
性能
分離精度
外挿能力
スパース性 : 強
スパース性 : 弱
総合的な性能
47
• ハイブリッド音源分離手法である超解像に基づく教師あり NMF において -divergence を用いた更新式を導出
• 超解像処理を含む音源分離 NMF では EUC-distance が最適な距離規範であることを示した
• バイノーラル信号に対する分離精度の確認
• 方位クラスタリング以外の方位分解手法を用いた場合の実験
まとめと今後