optimal divergence diversity for superresolution-based nonnegative matrix factorization (in...
TRANSCRIPT
Optimal divergence diversity for superresolution-based nonnegative matrix factorization
超解像型教師あり非負値行列因子分解における最適なダイバージェンスのダイバーシチ
北村大地 , 猿渡洋 , 中村哲 , ( 奈良先端科学技術大学院大学 )
高橋祐 , 近藤多伸( ヤマハ株式会社 )
亀岡弘和( 東京大学 /NTT)
2014 ASJ Spring meeting第二会場 電気音響 アレー信号処理 3-2-9
2
研究背景• 音楽信号分離技術の研究が盛ん
• 非負値行列因子分解 (NMF) を用いた手法が高い注目を集めいている
• 教師あり NMF(SNMF) は高精度な信号分離が可能だが,非目的音源が増加すると精度が劣化
• 自動採譜技術の前段処理• 音 AR システムへの応用 等
応用例
ステレオ信号を対象とした新しいハイブリッド信号分離手法が提案されている
信号分離
3
研究背景• ハイブリッド手法
入力ステレオ信号
音源の空間情報による分離 ( 方位クラスタリング )
教師あり手法による分離( 超解像型 SNMF)
分離目的信号
L R
4
研究背景• 後段の超解像型 SNMF における最適な距離規範 ( ダ
イバージェンス ) は入力信号中の音源の空間配置に依存– 音源の空間情報の違い
• 本発表の目的いかなる空間配置においても最適なダイバージェンスを用いて高精度で目的音源を分離できる一般化ハイブリッド手法を提案する
5
• NMF– スパース分解表現手法– スペクトログラム中の有意な特徴量を抽出可能
NMF [Lee, 2001]
Amplitude
Am
plitu
de
観測行列( スペクトログラム )
基底行列( 頻出スペクトル )
アクティベーション行列( 各基底の時間変化 )
Time
: 周波数ビン数: 時間フレーム数: 分解基底数
Time
Fre
quen
cy
Fre
quen
cy
基底
6
NMF の変数最適化• 分解行列 ( 変数 ) は観測データ と分解表現
データ の距離 ( ダイバージェンス ) の最小化で求める
• 特にユークリッド距離と KL ダイバージェンスが用いられる
• 振幅ドメインでの SNMF では, KL ダイバージェンスのコスト関数が高精度に分離できる [FitzGerald, 2012], [Kitamura, 2013]
– 音楽信号のスペクトログラムの持つスパース性に起因
: 行列 の要素
コスト関数 :
7
• 分離目的音源の教師情報を用いる– 教師スペクトル基底 を作成 ( 目的音のスペクトルの辞
書 )– 観測スペクトログラム を目的成分とそれ以外の成分に
分離
SNMF [Smaragdis, 2007]
分離ステージ 最適化
学習ステージ
教師基底行列( 目的音源のスペクトル辞
書 )
目的音源のサンプル音
固定
目的音の音階情報
目的音源成分 その他の音源成分混合信号
8
• 目的音源以外の干渉成分が増加すると分離精度が劣化
5 音源の場合
SNMF の問題
SNMF
2 音源の場合
SNMF
残留成分
9
方位クラスタリング [Araki, 2007], [Miyabe, 2009]
• チャネル間の振幅差を用いてクラスタリング• スペクトログラムドメインでのバイナリマスキング
• 問題点– 同一方位の複数音源の分離は不可能– バイナリマスキングによる人工歪みの発生
Right
L R
CenterLeft
L R
Center
方位クラスタリング
入力ステレオ信号 分離信号
1
1
1
0
0
0
1
0
0
0
0
0
1
1 1
1
0
0
1
0
0
0
0
0
1 1
1 1
1
1
Fre
quen
cy
Time
C
C
C
R L
R
C
L
L
L
R
R
C
C C
C
R
R
C
R
R
L
L
L
C CC C
C
C
Fre
quen
cy
Time
バイナリマスク混合信号
要素毎の積
10
ハイブリッド手法 [Kitamura, 2013]
• 方位クラスタリングの後に超解像型 SNMF を適用するハイブリッド手法が提案された
方位クラスタリン
グ
L R
空間分離スペクトル分離
超解像型 SNMF
ハイブリッド手法
11
超解像型 SNMF• 方位クラスタリングによって生じる人工歪み ( スペ
クトログラム上での穴 ) を教師基底から外挿して復元
Time
Fre
quen
cy分離目的クラスタ
: 欠落
Time
Fre
quen
cy
入力スペクトログラム 非目的
方位成分
Time
Fre
quen
cy
復元目的信号
目的方位成分
方位クラスタリン
グ
超解像型 SNMF
12
• 方位クラスタリングによって生じる歪み
超解像型 SNMF
: 欠落
Time
Fre
que
ncy
分離されたクラスタ
欠落
欠落成分をコスト関数から除外教師スペクトル基
底
…
フィットする基底を外
挿
13
超解像型 SNMF に最適なダイバージェンス
• 従来の SNMF では KL ダイバージェンスが高精度
• 超解像型 SNMF の最適ダイバージェンスはスペクトログラムの欠落数に依存
– 方位クラスタリングの結果 ( 音源の空間配置 ) に依存
KL-divergence EUC-distance
KL-divergence EUC-distance?
一方
14
超解像型 SNMF に最適なダイバージェンス
• 超解像型 SNMF は 2 つのタスクがある
• 分離能力と外挿能力はトレードオフになる [Kitamura, 2013]
目的音源分離
基底外挿( 超解像 )
超解像型 SNMF
性能
分離能力
ハイブリッド手法の総合性能
外挿能力
0 1 2 3 4
一般化距離関数 (b -divergence)
KL EUCIS
15
Fre
quen
cy
Time
多重ダイバージェンスに基づく SNMF• スペクトルの欠落と最適なダイバージェンス
– 多いフレームはユークリッド距離 ( 外挿重視 )– 少ないフレームは KL ダイバージェンス ( 分離重視 )
欠落が少ないフレーム
KL ダイバージェンスで測る
ユークリッド距離で測る
観測スペクトログラム
バイナリマスク
番目のフレームにおける穴の密度 と閾値 で距離規範を決定
欠落が多いフレーム
16
提案手法 : フロー図
Fre
que
ncy
Superresolution-based SNMF
Calculation of rate
Yes No
KL-divergence-based cost function
EUC-distance-based cost function
(EUC) (KL)
of chasmsCalculation of rate
Yes No
KL-divergence-based cost function
EUC-distance-based cost function
(EUC) (KL)
of chasmsCalculation of rate
Yes No
KL-divergence-based cost function
EUC-distance-based cost function
(EUC) (KL)
of chasms Calculation of rate
Yes No
KL-divergence-based cost function
EUC-distance-based cost function
(EUC) (KL)
of chasms
Time
17
• 多重ダイバージェンスに基づく超解像型 SNMF のコスト関数
提案手法 : コスト関数
: 各フレームにおける穴の密度
18
提案手法 : 更新式• 多重ダイバージェンスに基づく超解像型 SNMF の更
新式– アクティベーション行列の更新式はフレーム毎に独立し
ている為,直接場合分けされる
19
提案手法 : 更新式• 多重ダイバージェンスに基づく超解像型 SNMF の更
新式– その他の基底の更新式はフレームに関する総和の中に場合
分けが起きる
20
• 4 つのメロディからなるステレオの混合音源を作成• 中央に 2 つ,左右 ° に 1 つずつ音源を配置• 3種の楽器編成の MIDI 信号を用意,計 36 パターンの平均評価値
実験条件
Center
12 34
Left Right
目的音源
教師用音源信号
目的音源の音域をカバーする 2 オクターブの 24音階
Dataset Melody 1 Melody 2 Midrange BassNo. 1 Oboe Flute Piano TromboneNo. 2 Trumpet Violin Harpsichord FagottoNo. 3 Horn Clarinet Piano Cello
21
• 音源の空間配置の異なる 4種類の入力データを作成• SP1 は欠落が少なく, SP4 は欠落が多い• 閾値 t = 0.2
実験条件
Center
12 34
Left Right目的音源
Spatialcondition
Measure
1 2 3 4
SP1 SP2 SP3 SP4
22
実験結果
14
12
10
8
6
4
2
0
SD
R [d
B]
SP1 SP2 SP3 SP4Spatial patterns
Good
Bad
穴の数 多い少ない
Hybrid method (KL-divergence)Hybrid method (EUC-distance)Hybrid method based on multi-divergence
SNMF (KL)
SNMF (EUC)
23
まとめ• いかなる音源の空間配置にも対応した多重ダ
イバージェンスに基づく超解像型 SNMF を提案
• ダイバージェンスはスペクトログラムの各フレームの欠落密度によって閾値処理され,決定される– ダイバージェンスのダイバーシチ
• 音源の空間配置を変化させた信号を用いて,提案手法の有効性を確認