divergence optimization based on trade-off between separation and extrapolation abilities in...

19
Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization 超解像型非負値行列因子分解における分離性能と外挿能力の トレードオフに基づく最適なダイバージェンスの検討 ☆北村大地, 猿渡洋, 中村哲 (奈良先端科学技術大学院大学) 高橋祐, 近藤多伸 (ヤマハ株式会社)

Upload: naistis

Post on 27-Dec-2014

430 views

Category:

Technology


4 download

DESCRIPTION

音楽信号を対象とした音源分離に関する研究をしています. 今回の学会発表では,ステレオ信号を対象として音源の方位情報を用いた分解と音源毎の音色の違いを用いた分解を組み合わせた ハイブリッドな分解手法について提案しました.また,本手法にのみ確認される通常と異なる固有の現象について仮説をたて実験的な実証を行いました.

TRANSCRIPT

Page 1: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

Divergence optimization based on trade-off between

separation and extrapolation abilities in

superresolution-based nonnegative matrix factorization

超解像型非負値行列因子分解における分離性能と外挿能力の

トレードオフに基づく最適なダイバージェンスの検討

☆北村大地, 猿渡洋, 中村哲

(奈良先端科学技術大学院大学)

高橋祐, 近藤多伸

(ヤマハ株式会社)

Page 2: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

• 音源分離: 複数の音源から成る混合音から特定の音源を分離

• 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee, 2001]

– スパース分解表現による特徴量抽出手法

• 一般に各音源毎に基底を選別することは困難

• 目的音源の基底を学習する教師ありNMF [Smaragdis, 2010], [Yagi, 2012]

背景: 非負値行列因子分解による音源分離

Amplitude

Am

plit

ud

e

観測スペクトログラム 基底スペクトル行列

アクティベーション行列

Time

Ω: 周波数ビン数

𝑇: 時間フレーム数

𝐾: 基底数

Time

Freq

uen

cy

Freq

uen

cy

2

Page 3: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

本発表における目的

• 頑健なマルチチャネル信号分離手法として,超解像型教師ありNMF及びそのハイブリッド手法を提案 [Kitamura, 2013]

3

L R

方位に関する分解

超解像型

教師ありNMF

超解像型教師ありNMFに関して,コスト関数をパラメトリックに拡張した一般化アルゴリズムを提案する

「スパース分解表現」と「教師による超解像処理」が統合された技術において,最適なコスト関数がどのようなメカニズムで決まるかを明らかにする

Page 4: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

従来法:教師ありNMFによる音源分離

• 分離したい目的音の教師(サンプル)音を事前に学習

• 学習プロセスで教師スペクトル基底(dictionary) を作成

• 分離プロセスで目的音 と,非目的音 に分離

分離プロセス

教師基底 を固定し,他の変数を最適化

最適化

学習プロセス

教師音から作成した教師スペクトル基底 分離目的音の教師音

4 無相関にする罰則条件

Page 5: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

提案法:超解像型NMF及びハイブリッド手法

• 方位クラスタリング [Araki, 2007], [Miyabe, 2009]

– ステレオ信号による方位情報のクラスタリングを用いた分解手法

• ハイブリッド手法 [Kitamura, 2013]

L-c

h a

mplit

ude

R-ch amplitude

:音源成分 :重心ベクトル Right cluster

L R

Center cluster Left cluster

L R

方位クラスタリング

方位情報を用いた分解 スペクトル情報を用いた分解 5

超解像型

教師ありNMF

Page 6: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

• 前段: 方位クラスタリング

– スペクトログラム上でのハードクラスタリング

• 後段: 超解像型教師ありNMF [Kitamura, 2013]

– 前段処理によって生成されるバイナリマスク を用いる

– 欠落したグリッドを無視し,残った成分だけに教師ありNMFを適用

– 欠落した目的音源成分は教師スペクトルによって外挿され復元

– 同一方位に存在する非目的音源成分を分離

提案法:超解像型NMF及びハイブリッド手法

1 0 0 0 0 0 0

0 1 1 0 0 1 1

1 0 0 0 0 0 0

0 1 0 1 1 0 1

1 0 0 0 0 0 0

1 1 1 0 1 1 0

Time F

req

ue

ncy

Time

Fre

qu

en

cy

: 欠落

Time 要素毎の積

Fre

qu

en

cy 入力スペクトログラム バイナリマスク 分離された目的クラスタ

目的

方位成分

非目的

方位成分

6

Page 7: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

提案法:超解像型NMF及びハイブリッド手法

Center Right Left Direction

sou

rce

co

mp

on

en

t

z

(b)

Center Right Left Direction

sou

rce

com

po

nen

t (a) 目的音源

Center Right Left Direction

sou

rce

com

po

nen

t (c) 外挿された

目的音源成分 Fr

eq

ue

ncy

of

Freq

uen

cy o

f Fr

equ

ency

of

After

Input

After

signal

directional clustering

super- resolution- based SNMF

方位クラス

タリング

方位クラス

タリング

超解像型

教師ありNMF

超解像型

教師ありNMF

バイナリマスク

7

Time

Fre

qu

en

cy 入力スペクトログラム

目的

方位成分

非目的

方位成分

Time

Time

Fre

qu

en

cy

外挿して復元

Fre

qu

en

cy

: 欠落

分離された目的クラスタ

復元された目的成分

教師スペクトル基底

Page 8: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

教師基底外挿における正則化

• 欠落が極端に多いフレームでは外挿誤りを起こす危険がある

• 超解像処理としての正則化が必要

8

4

3

2

1

0

F

requency [

kH

z]

43210 Time [s]

外挿誤りの例

Fre

qu

en

cy

: 欠落

目的成分がほぼ欠落したフレーム

分離された目的クラスタ

: それぞれ行列 の要素, : 論理反転,

フロベニウスノルム最小化による正則化

Time

: フロベニウスノルム

Page 9: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

• 従来は「ユークリッド距離」と「一般化KLダイバージェンス」規準のみが検討されていた

分解モデルとコスト関数

9

分解モデル:

コスト関数(ユークリッド距離規準):

教師スペクトル基底(固定)

正則化項 罰則項

: それぞれ行列 の要素,

: 正則化項と罰則項の重み係数, : 論理反転, : フロベニウスノルム

Page 10: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

• : -divergence関数 [Eguchi, 2001]

– パラメータ の値に応じてダイバージェンスが変化

– 特に, の時にユークリッド距離, の時に一般化KLダイバージェンス, の時に板倉-斎藤擬距離に対応

– 振幅ドメインのNMFによる

音源分離では,

程度が高精度

コスト関数の一般化

10

一般化コスト関数:

正則化項

罰則項

Page 11: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

• コスト関数 を最小化することで変数 の反復型更新式が得られる

• 最小化問題は補助関数法を用いて解くことができる

一般化コスト関数に基づく更新式

11

更新式:

Page 12: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

• 4つのメロディからなるステレオの混合音源を作成

• 中央に2つ,左右15°に1つずつ音源を配置

• 3種の楽器編成のMIDI信号を用意,計36パターンの平均評価値

最適距離規範の確認実験 実験条件

12

Center

1 2 3

Left Right

目的音源

教師用

音源信号

目的音源の音域をカバーする2オクターブの24音階

Dataset Melody 1 Melody 2 Midrange Bass No. 1 Oboe Flute Piano Trombone No. 2 Trumpet Violin Harpsichord Fagotto No. 3 Horn Clarinet Piano Cello

Page 13: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

• その他の実験条件

• NMFコストのダイバージェンス と正則化コストのダイバージェンス のすべての組み合わせ(16通り)で実験を行い,最適な を検討

– は教師基底学習時と超解像時で常に統一

• 評価値はSDR, SIR, SARを用いる [Vincent, 2006]

最適距離規範の確認実験 実験条件

観測信号 3種のデータセット,合計36パターンのステレオMIDI信号

教師信号 目的音源と同じMIDI信号で音域をカバーする2オクターブの24音階からなる信号

分解ドメイン 振幅スペクトログラム 基底数 教師基底: 100, その他の基底: 30 重み係数 実験的に調整して定めた値

比較手法 モノラルにミックスダウンした信号に罰則条件付き教師ありNMF (PSNMF)を適用

13

SDR :分離した目的音の品質

SIR :目的音と非目的音の分離度合

SAR :一連の処理で生じた歪みの少なさ

総合的な分離精度

Page 14: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

• 各手法における評価値の平均を算出

• 従来の教師ありNMFでは が最適だったが,超解像型教師ありNMF及びそのハイブリッド手法では が最適

– 最適なダイバージェンスがシフトしている

• 正則化コストのダイバージェンスは が極端に性能が悪く,他の値はほとんど差が無い

最適距離規範の確認実験 実験結果

14

20

15

10

5

0

SIR

[dB

]

0 1 2 3Value of

NMF

10

8

6

4

2

0

SA

R [

dB

]

0 1 2 3Value of

NMF

12

10

8

6

4

2

0

SD

R [

dB

]

0 1 2 3Value of

NMF

0

PSNMF

Proposed hybrid method (reg = 0) Proposed hybrid method (reg = 1)

Proposed hybrid method (reg = 2) Proposed hybrid method (reg = 3)

Good

Bad

Page 15: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

15

• 超解像型教師ありNMFには2つのタスクがある

• 仮説: 音源分離と基底外挿のそれぞれのタスクにおいて最適なNMFコストのダイバージェンス が異なるのではないか?

• 正味の外挿能力を測る実験

– 正則化コストの は最適値であった1に固定して実験

最適ダイバージェンスシフトの原因の仮説

目的音源のみの信号 成分が欠落した信号 復元された信号

バイナリマスク

超解像NMF

音源の分離 教師基底を用いた外挿 超解像型

教師ありNMF

Page 16: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

16

• 正則化コストのダイバージェンス は最適値の1に固定

• NMFコストのダイバージェンス は1よりも少し高い方が,外挿能力が高くなる

• ダイバージェンス が0に近づくと,学習された教師基底がスパースになる傾向がある

外挿能力の確認実験結果

20

15

10

5

0S

AR

[dB

]

0 1 2 3 4Value of

NMF

Good

Bad

-10

-8

-6

-4

-2

0

Am

plit

ude [dB

]

543210Frequency [kHz]

-10

-8

-6

-4

-2

0A

mplit

ude [dB

]

543210Frequency [kHz]

Page 17: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

-10

-8

-6

-4

-2

0

Am

plit

ude [dB

]

543210Frequency [kHz]

ダイバージェンスの違いによる基底の変化

• 事前学習時において の値が小さいと,教師基底はピークとスパース性が重視され,より局所的な特徴を捉える

• 逆に事前学習において の値が大きいと,教師基底は少し滑らかになり,より大局的な特徴を捉える

17

-10

-8

-6

-4

-2

0

Am

plit

ude [dB

]

543210Frequency [kHz] Attack Sustain Release

Am

plit

ud

e

Time

Decay

Attack

Decay

Sustain Release

Am

plit

ud

e

Time

Page 18: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

最適ダイバージェンスのトレードオフ

• 超解像型教師ありNMF及びそのハイブリッド手法における最適なダイバージェンスは音源分離能力と外挿能力のトレードオフとなる

– 振幅スペクトログラムにおける従来の教師ありNMF分離では が高性能であったが,ハイブリッド手法では が高い性能となる

-10

-8

-6

-4

-2

0

Am

plit

ude [dB

]

543210Frequency [kHz]

-10

-8

-6

-4

-2

0

Am

plit

ude [dB

]

543210Frequency [kHz]

スパース性: 強 スパース性: 弱

18

Pe

rfo

rma

nce

分離能力

総合性能

外挿能力

Value of

Page 19: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization

まとめ

• 超解像型教師ありNMFのコスト関数において,NMFコストと正則化コストを -divergenceで一般化

• 超解像型教師ありNMF及びそのハイブリッド手法における最適なダイバージェンスを実験的に確認

• 音源分離能力と教師基底外挿能力のトレードオフから,最適なダイバージェンスがシフトする現象を確認

19