ランク1空間近似を用いたbssにおける音源及び空間モデルの考察 study on...

ランク 1 空間近似を用いた BSS における音源及び空間モデルの考察

総合研究大学院大学博士課程 2 年東京大学

国立情報学研究所 / 総合研究大学院大学NTT

東京大学 /NTT

Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation

○ 北村大地猿渡洋

小野順貴澤田宏

亀岡弘和

2

研究の背景• ブラインド音源分離（ blind source separation:

BSS ）– 観測信号のみ（混合系は未知）から音源信号を推定する技

術

– 優決定条件（音源数録音マイク数）における BSS• 独立成分分析（ ICA ） [Comon, 1994] 等

– 劣決定条件（音源数録音マイク数）における BSS• 時間周波数マスク [Araki, 2007] ，非負値行列因子分解（ NMF ） [Lee,

1999] 等

• BSS の応用– 話者分離，雑音抑圧，音楽信号解析，音場再現の前処理

etc.

音源信号観測信号分離信号

混合系分離系

3

本発表の目的• ランク 1 空間近似を用いた BSS （全て優決定条件

下）– 周波数領域 ICA （ FDICA ） [Smaragdis, 1998], [Saruwatari, 2000], [Sawada,

2004], etc.

• スペクトログラム領域で周波数毎に独立な ICA を適用• パーミュテーション問題を解く

– 独立ベクトル分析（ IVA ） [Hiroe, 2006], [Kim, 2006]

• FDICA に対して球対称かつ多変量な事前分布を導入• パーミュテーション問題を回避しつつ音源を分離

– ランク 1 多チャネル NMF （ Rank-1 MNMF ） [Kitamura, 2015]

• 多チャネル NMF [Sawada, 2013] の空間相関行列にランク 1 制約を課す

• 効率的かつ安定に最適化できる音源分離手法

• 上記 3 手法の音源モデル及び空間モデルについて考察– 音源のスペクトル構造や混合系の制約等

• Rank-1 MNMF が最も柔軟な BSS であることを実験的に示す

ICAIVA

Rank-1 MNMF

4

ランク 1 空間近似とは？• 音源毎の空間相関行列のランクが 1 （という近似モデ

ル）– 時間周波数領域において 1 つの音源の伝達系が 1 本の時不

変なステアリングベクトルで表現可能

– 時間周波数領域における時不変複素瞬時混合モデル

– ランク 1 空間近似の物理的な意味• 音源の伝達系が時不変• インパルス応答が短時間フーリエ変換（ STFT ）の窓長より十分

短い

マイクアレイ

観測信号

音源: 周波数インデクス: 時間インデクス

時不変混合行列

ステアリングベクトル

ステアリングベクトル

5

FDICA とパーミュテーション解決

ICA

…

周波

数ビ

ン

全て時間周波数領域の信号

（スペクトログラム）

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq .

Time

• 周波数領域 ICA （ FDICA ） [Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc.

– スペクトログラムの周波数ビン毎に独立な ICA を適用– 音源及び空間モデルはパーミュテーション解決法に依存

6

FDICA+DOA の音源モデルと空間モデル• FDICA+DOA クラスタリング [Saruwatari, 2000]

– 推定分離フィルタからステアリングベクトルを逆算し音源の到来方向（ DOA ）でクラスタリングすることでパーミュテーションを解く

– 音源モデル• 具体的なモデルスペクトログラムは無し（ ICA の非ガウス性制約

のみ）

– 空間モデル• ランク 1 空間近似• 混合系は DOA クラスタリングで解決できるという仮定（制約）

推定

され

た音

源成

分の

頻度

到来方向（ DOA ）

正面左右

推定

され

た音

源成

分の

頻度

到来方向（ DOA ）

正面左右

DOAクラスタリ

ング

Source 1 Source 2

音源の空間的な配置条件と残響レベルが分離性能に影響

7

• 独立ベクトル分析（ IVA ） [Hiroe, 2006], [Kim, 2006]

– 音源モデル• 周波数間の一定分散多次元ラプラス

分布（球対称ラプラス分布）

– 空間モデル• 特に制約無し（ランク 1 空間近似の

み）

IVA の音源モデルと空間モデル

……

音源信号混合行列

…… …観測信号

分離行列分離信号

球対称

8

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　

音源モデル空間モデル多チャネル観測信号

Rank-1 MNMF の音源モデルと空間モデル

全空間相関行列がランク 1 という制約を導入

• ランク 1 空間近似付き多チャネル NMF [Kitamura, 2015]

– 音源モデル• 任意基底数の NMF による低ランク

近似分解（分散が時間周波数で変動する）

– 空間モデル• 特に制約無し（ランク 1 空間近似の

み）

分散が変動

9

IVA と Rank-1 MNMF の音源モデルの違い

• IVA の音源モデル– 周波数方向に一様な分散を持つ

• 一定分散の多次元ラプラス分布• 周波数ビン毎にスケールが任意なの

で一様（フラット）なスペクトルとは限らない

– 1 本の基底の NMF に近い

• Rank-1 MNMF の音源モデル– 任意基底数の NMF

• より具体的な調波構造等を捉えられる

– 音源毎に基底数を変えることも可能• 潜在変数付き NMF モデルとして提案済

Freq

uenc

y

Time

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Freq

uenc

y

Time

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

本来の音源のスペクトログラムが持つ基底数が分離性能に影響

濃淡は分散値

濃淡は分散値

10

実験的な実証方法• 音源スペクトログラムの基底数の違い• 音源の混合系の違い

– 実測信号ではその他の要因が多すぎる– 完全に人工的な音源と混合系を用いて実証する

音源モデル

空間

モデ

ル柔

軟限

定的

柔軟限定的

IVA

MNMF

Rank1MNMFNMF による音源

モデルの基底数拡張

FDICA+DOA

ランク 1 空間モデル

フルランク空間モデル

ランク 1 空間モデル＋ DOA クラスタリング

分離精度に与える影響

11

• 実験に用いる信号– ガンマ分布に従う変数の積とその線形結合に基づくパワー

スペクトログラムを 2 音源分生成– いかなる基底数においてもが等カートシス（

）となるように形状母数を設定（導出は省略！）• カートシスの違いによる音源分離性能の変化を除外するため

– の一様分布に従う位相を付与

実験条件

・・・

・・・

人工的なパワー

スペクトログラム

（基底数＝）生成

生成

12

• 実験に用いる混合系– DOA 上で 2 音源分のガウス分布を定義– 各ガウス分布からステアリングベクトルを生成– 先の人工音源に対して人工ステアリングベクトルを乗算

• その他の実験条件

実験条件

最適化アルゴリズム

FDICA: 自然勾配法 ,　 DOA クラスタリング : k-means 法 , IVA: 補助関数法 , Rank-1 MNMF: 補助関数法

反復回数 200 回（ FDICA の反復ステップサイズは実験的に調整済）

評価値 SDR改善量（総合分離性能）

人工混合行列

人工観測信号生成生成

推定

され

た音

源成

分の

頻度

到来方向（ DOA ） [rad]

13

• 音源の基底数を変化させた場合の分離精度比較– 混合系はに固定

FDICA+DOA

35

30

25

20

15

10

5

0

SD

R im

plov

emen

t [dB

]

87654321

Rank-1 MNMF

IVA

音源の基底数音源 1 の結果グラフ

音源の基底数の違いによる分離精度比較

Rank-1 MNMF の持つ音源モデル（ NMF 分解）が最も柔軟

（基底数＝　）

（基底数＝１）

– FDICA+DOA はによらない• 具体的な音源モデルが無いため

– IVA と Rank-1 MNMF （基底数＝１）は音源の基底数の増加に伴って精度が劣化• 音源モデルが表現できなくなるため

– Rank-1 MNMF （基底数＝）は精度劣化しない• 適切で具体的な音源モデルが仮定さ

れているため

14


FDICA+DOA

35

30

25

20

15

10

5

0

SD

R im

plov

emen

t [dB

]

87654321

Rank-1 MNMF

IVA









れているため

15


FDICA+DOA

35

30

25

20

15

10

5

0

SD

R im

plov

emen

t [dB

]

87654321

Rank-1 MNMF

IVA









れているため

劣化

16


FDICA+DOA

35

30

25

20

15

10

5

0

SD

R im

plov

emen

t [dB

]

87654321

Rank-1 MNMF

IVA









れているため

17

• 音源の混合系を変化させた場合の分離精度比較– 音源の基底数は，分散はに固定

音源の混合系の違いによる分離精度比較

– FDICA+DOA は 2 音源が接近すると精度が劣化• DOA クラスタリングのエラーが増加

する– IVA と Rank-1 MNMF （基底数＝１）は音源の混合系によらない• 空間モデルによる制約が無いため

IVA と Rank-1 MNMF の無制約な空間モデルが柔軟

35

30

25

20

15

10

5

0

SD

R im

plov

emen

t [dB

]

0.60.50.40.30.20.10.0

音源 1 の結果グラフ

FDICA+DOA

Rank-1 MNMF （基底数＝1 ）

IVA

音源間角度（）[rad]

18






35

30

25

20

15

10

5

0

SD

R im

plov

emen

t [dB

]

0.60.50.40.30.20.10.0


FDICA+DOA


IVA


劣化

19






35

30

25

20

15

10

5

0

SD

R im

plov

emen

t [dB

]

0.60.50.40.30.20.10.0


FDICA+DOA


IVA


20

• 音源の混合系を変化させた場合の分離精度比較– 音源の基底数は，平均はに固

定35

30

25

20

15

10

5

0

SD

R im

plov

emen

t [dB

]

0.200.150.100.050.00

FDICA+DOA

IVA

音源の分散（）音源 1 の結果グラフ


– FDICA+DOA は 2 音源の DOA幅が増加すると精度が劣化• DOA クラスタリングのエラーが増加

する– IVA と Rank-1 MNMF は音源の混

合系によらない• 空間モデルによる制約が無いため



21


定35

30

25

20

15

10

5

0

SD

R im

plov

emen

t [dB

]

0.200.150.100.050.00

FDICA+DOA

IVA








劣化

22


定35

30

25

20

15

10

5

0

SD

R im

plov

emen

t [dB

]

0.200.150.100.050.00

FDICA+DOA

IVA








23

• SiSEC データベース収録のプロ音楽信号– ファイル名 : bearlin-roads__snip_85_99 ， 14 s （ 16 kHzサンプル）– 音源 : acoustic_guit_main, bass, vocals の 3 音源– 実行環境 : MATLAB 8.3, Intel Core i7-4790 (3.6 GHz)– 更新回数 : 200 回

各手法の計算量の比較

IVA MNMF Rank-1 MNMF( 音源毎に基底数を固定 )

Rank-1 MNMF( 音源毎に基底数を可変 )

91.6 4498.4 121.0 173.4

（単位は全てs ）

121086420

-2SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF Rank-1 MNMF Rank-1 MNMF

（基底数固定）（基底数可変）

200 回更新時（ MNMF以外は十分収束）

24

結論とまとめ• Rank-1 MNMF [D. Kitamura et al., ICASSP 2015]

– IVA の音源モデルを任意の基底数に拡張– 空間モデルへの制限は「ランク 1」のみ– モデル複雑化に伴う最適化の不安定さもさほど問題になら

ない– ランク 1 空間近似を用いる優決定条件 BSS として優秀な

手法

音源モデル

空間

モデ

ル柔軟

具体

的

柔軟具体的

IVA Rank1MNMFNMF による音源

モデルの基底数拡張

FDICA+DOA

ランク 1 空間モデル

ランク 1 空間モデル＋ DOA クラスタリング

ランク1空間近似を用いたbssにおける音源及び空間モデルの考察 study on...

Engineering