ランク1空間近似を用いたbssにおける音源及び空間モデルの考察 study on...
TRANSCRIPT
![Page 1: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/1.jpg)
ランク 1 空間近似を用いた BSS における音源及び空間モデルの考察
総合研究大学院大学 博士課程 2 年東京大学
国立情報学研究所 / 総合研究大学院大学NTT
東京大学 /NTT
Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation
○ 北村大地猿渡洋
小野順貴澤田宏
亀岡弘和
![Page 2: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/2.jpg)
2
研究の背景• ブラインド音源分離( blind source separation:
BSS )– 観測信号のみ(混合系は未知)から音源信号を推定する技
術
– 優決定条件(音源数 録音マイク数)における BSS• 独立成分分析( ICA ) [Comon, 1994] 等
– 劣決定条件(音源数 録音マイク数)における BSS• 時間周波数マスク [Araki, 2007] ,非負値行列因子分解( NMF ) [Lee,
1999] 等
• BSS の応用– 話者分離,雑音抑圧,音楽信号解析,音場再現の前処理
etc.
音源信号 観測信号 分離信号
混合系 分離系
![Page 3: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/3.jpg)
3
本発表の目的• ランク 1 空間近似を用いた BSS (全て優決定条件
下)– 周波数領域 ICA ( FDICA ) [Smaragdis, 1998], [Saruwatari, 2000], [Sawada,
2004], etc.
• スペクトログラム領域で周波数毎に独立な ICA を適用• パーミュテーション問題を解く
– 独立ベクトル分析( IVA ) [Hiroe, 2006], [Kim, 2006]
• FDICA に対して球対称かつ多変量な事前分布を導入• パーミュテーション問題を回避しつつ音源を分離
– ランク 1 多チャネル NMF ( Rank-1 MNMF ) [Kitamura, 2015]
• 多チャネル NMF [Sawada, 2013] の空間相関行列にランク 1 制約を課す
• 効率的かつ安定に最適化できる音源分離手法
• 上記 3 手法の音源モデル及び空間モデルについて考察– 音源のスペクトル構造や混合系の制約等
• Rank-1 MNMF が最も柔軟な BSS で あることを実験的に示す
ICAIVA
Rank-1 MNMF
![Page 4: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/4.jpg)
4
ランク 1 空間近似とは?• 音源毎の空間相関行列のランクが 1 (という近似モデ
ル)– 時間周波数領域において 1 つの音源の伝達系が 1 本の時不
変なステアリングベクトルで表現可能
– 時間周波数領域における時不変複素瞬時混合モデル
– ランク 1 空間近似の物理的な意味• 音源の伝達系が時不変• インパルス応答が短時間フーリエ変換( STFT )の窓長より十分
短い
マイクアレイ
観測信号
音源: 周波数インデクス: 時間インデクス
時不変混合行列
ステアリングベクトル
ステアリングベクトル
![Page 5: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/5.jpg)
5
FDICA とパーミュテーション解決
ICA
…
周波
数ビ
ン
全て時間周波数領域の信号
(スペクトログラム)
音源 1
音源 2
観測 1
観測 2
Permutation Solver
分離信号 1
分離信号 2Freq .
Time
• 周波数領域 ICA ( FDICA ) [Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc.
– スペクトログラムの周波数ビン毎に独立な ICA を適用– 音源及び空間モデルはパーミュテーション解決法に依存
![Page 6: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/6.jpg)
6
FDICA+DOA の音源モデルと空間モデル• FDICA+DOA クラスタリング [Saruwatari, 2000]
– 推定分離フィルタからステアリングベクトルを逆算し音源の到来方向( DOA )でクラスタリングすることでパーミュテーションを解く
– 音源モデル• 具体的なモデルスペクトログラムは無し( ICA の非ガウス性制約
のみ)
– 空間モデル• ランク 1 空間近似• 混合系は DOA クラスタリングで解決できるという仮定(制約)
推定
され
た音
源成
分の
頻度
到来方向( DOA )
正面左 右
推定
され
た音
源成
分の
頻度
到来方向( DOA )
正面左 右
DOAクラスタリ
ング
Source 1 Source 2
音源の空間的な配置条件と残響レベルが分離性能に影響
![Page 7: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/7.jpg)
7
• 独立ベクトル分析( IVA ) [Hiroe, 2006], [Kim, 2006]
– 音源モデル• 周波数間の一定分散多次元ラプラス
分布(球対称ラプラス分布)
– 空間モデル• 特に制約無し(ランク 1 空間近似の
み)
IVA の音源モデルと空間モデル
……
音源信号混合行列
…… …観測信号
分離行列分離信号
球対称
![Page 8: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/8.jpg)
8
音源モデル空間モデル多チャネル観測信号
Rank-1 MNMF の音源モデルと空間モデル
全空間相関行列がランク 1 という制約を導入
• ランク 1 空間近似付き多チャネル NMF [Kitamura, 2015]
– 音源モデル• 任意基底数の NMF による低ランク
近似分解(分散が時間周波数で変動する)
– 空間モデル• 特に制約無し(ランク 1 空間近似の
み)
分散が変動
![Page 9: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/9.jpg)
9
IVA と Rank-1 MNMF の音源モデルの違い
• IVA の音源モデル– 周波数方向に一様な分散を持つ
• 一定分散の多次元ラプラス分布• 周波数ビン毎にスケールが任意なの
で一様(フラット)なスペクトルとは限らない
– 1 本の基底の NMF に近い
• Rank-1 MNMF の音源モデル– 任意基底数の NMF
• より具体的な調波構造等を捉えられる
– 音源毎に基底数を変えることも可能• 潜在変数付き NMF モデルとして提案済
Freq
uenc
y
Time
Freq
uenc
y
Time
本来の音源のスペクトログラムが持つ基底数が分離性能に影響
濃淡は分散値
濃淡は分散値
![Page 10: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/10.jpg)
10
実験的な実証方法• 音源スペクトログラムの基底数の違い• 音源の混合系の違い
– 実測信号ではその他の要因が多すぎる– 完全に人工的な音源と混合系を用いて実証する
音源モデル
空間
モデ
ル柔
軟限
定的
柔軟限定的
IVA
MNMF
Rank1MNMFNMF による音源
モデルの基底数拡張
FDICA+DOA
ランク 1 空間モデル
フルランク空間モデル
ランク 1 空間モデル+ DOA クラスタリング
分離精度に与える影響
![Page 11: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/11.jpg)
11
• 実験に用いる信号– ガンマ分布に従う変数の積とその線形結合に基づくパワー
スペクトログラムを 2 音源分生成– いかなる基底数 においても が等カートシス(
)となるように形状母数 を設定(導出は省略!)• カートシスの違いによる音源分離性能の変化を除外するため
– の一様分布に従う位相を付与
実験条件
・・・
・・・
人工的なパワー
スペクトログラム
(基底数= )生成
生成
![Page 12: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/12.jpg)
12
• 実験に用いる混合系– DOA 上で 2 音源分のガウス分布を定義– 各ガウス分布からステアリングベクトルを生成– 先の人工音源に対して人工ステアリングベクトルを乗算
• その他の実験条件
実験条件
最適化アルゴリズム
FDICA: 自然勾配法 , DOA クラスタリング : k-means 法 , IVA: 補助関数法 , Rank-1 MNMF: 補助関数法
反復回数 200 回 ( FDICA の反復ステップサイズは実験的に調整済)
評価値 SDR改善量(総合分離性能)
人工混合行列
人工観測信号生成 生成
推定
され
た音
源成
分の
頻度
到来方向( DOA ) [rad]
![Page 13: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/13.jpg)
13
• 音源の基底数 を変化させた場合の分離精度比較– 混合系は に固定
FDICA+DOA
35
30
25
20
15
10
5
0
SD
R im
plov
emen
t [dB
]
87654321
Rank-1 MNMF
IVA
音源の基底数音源 1 の結果グラフ
音源の基底数の違いによる分離精度比較
Rank-1 MNMF の持つ音源モデル( NMF 分解)が最も柔軟
(基底数= )
(基底数=1)
– FDICA+DOA は によらない• 具体的な音源モデルが無いため
– IVA と Rank-1 MNMF (基底数=1)は音源の基底数の増加に伴って精度が劣化• 音源モデルが表現できなくなるため
– Rank-1 MNMF (基底数= )は精度劣化しない• 適切で具体的な音源モデルが仮定さ
れているため
![Page 14: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/14.jpg)
14
• 音源の基底数 を変化させた場合の分離精度比較– 混合系は に固定
FDICA+DOA
35
30
25
20
15
10
5
0
SD
R im
plov
emen
t [dB
]
87654321
Rank-1 MNMF
IVA
音源の基底数音源 1 の結果グラフ
音源の基底数の違いによる分離精度比較
Rank-1 MNMF の持つ音源モデル( NMF 分解)が最も柔軟
(基底数= )
(基底数=1)
– FDICA+DOA は によらない• 具体的な音源モデルが無いため
– IVA と Rank-1 MNMF (基底数=1)は音源の基底数の増加に伴って精度が劣化• 音源モデルが表現できなくなるため
– Rank-1 MNMF (基底数= )は精度劣化しない• 適切で具体的な音源モデルが仮定さ
れているため
![Page 15: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/15.jpg)
15
• 音源の基底数 を変化させた場合の分離精度比較– 混合系は に固定
FDICA+DOA
35
30
25
20
15
10
5
0
SD
R im
plov
emen
t [dB
]
87654321
Rank-1 MNMF
IVA
音源の基底数音源 1 の結果グラフ
音源の基底数の違いによる分離精度比較
Rank-1 MNMF の持つ音源モデル( NMF 分解)が最も柔軟
(基底数= )
(基底数=1)
– FDICA+DOA は によらない• 具体的な音源モデルが無いため
– IVA と Rank-1 MNMF (基底数=1)は音源の基底数の増加に伴って精度が劣化• 音源モデルが表現できなくなるため
– Rank-1 MNMF (基底数= )は精度劣化しない• 適切で具体的な音源モデルが仮定さ
れているため
劣化
![Page 16: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/16.jpg)
16
• 音源の基底数 を変化させた場合の分離精度比較– 混合系は に固定
FDICA+DOA
35
30
25
20
15
10
5
0
SD
R im
plov
emen
t [dB
]
87654321
Rank-1 MNMF
IVA
音源の基底数音源 1 の結果グラフ
音源の基底数の違いによる分離精度比較
Rank-1 MNMF の持つ音源モデル( NMF 分解)が最も柔軟
(基底数= )
(基底数=1)
– FDICA+DOA は によらない• 具体的な音源モデルが無いため
– IVA と Rank-1 MNMF (基底数=1)は音源の基底数の増加に伴って精度が劣化• 音源モデルが表現できなくなるため
– Rank-1 MNMF (基底数= )は精度劣化しない• 適切で具体的な音源モデルが仮定さ
れているため
![Page 17: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/17.jpg)
17
• 音源の混合系 を変化させた場合の分離精度比較– 音源の基底数は ,分散は に固定
音源の混合系の違いによる分離精度比較
– FDICA+DOA は 2 音源が接近すると精度が劣化• DOA クラスタリングのエラーが増加
する– IVA と Rank-1 MNMF (基底数=1)は音源の混合系によらない• 空間モデルによる制約が無いため
IVA と Rank-1 MNMF の無制約な空間モデルが柔軟
35
30
25
20
15
10
5
0
SD
R im
plov
emen
t [dB
]
0.60.50.40.30.20.10.0
音源 1 の結果グラフ
FDICA+DOA
Rank-1 MNMF (基底数=1 )
IVA
音源間角度( )[rad]
![Page 18: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/18.jpg)
18
• 音源の混合系 を変化させた場合の分離精度比較– 音源の基底数は ,分散は に固定
音源の混合系の違いによる分離精度比較
– FDICA+DOA は 2 音源が接近すると精度が劣化• DOA クラスタリングのエラーが増加
する– IVA と Rank-1 MNMF (基底数=1)は音源の混合系によらない• 空間モデルによる制約が無いため
IVA と Rank-1 MNMF の無制約な空間モデルが柔軟
35
30
25
20
15
10
5
0
SD
R im
plov
emen
t [dB
]
0.60.50.40.30.20.10.0
音源 1 の結果グラフ
FDICA+DOA
Rank-1 MNMF (基底数=1 )
IVA
音源間角度( )[rad]
劣化
![Page 19: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/19.jpg)
19
• 音源の混合系 を変化させた場合の分離精度比較– 音源の基底数は ,分散は に固定
音源の混合系の違いによる分離精度比較
– FDICA+DOA は 2 音源が接近すると精度が劣化• DOA クラスタリングのエラーが増加
する– IVA と Rank-1 MNMF (基底数=1)は音源の混合系によらない• 空間モデルによる制約が無いため
IVA と Rank-1 MNMF の無制約な空間モデルが柔軟
35
30
25
20
15
10
5
0
SD
R im
plov
emen
t [dB
]
0.60.50.40.30.20.10.0
音源 1 の結果グラフ
FDICA+DOA
Rank-1 MNMF (基底数=1 )
IVA
音源間角度( )[rad]
![Page 20: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/20.jpg)
20
• 音源の混合系 を変化させた場合の分離精度比較– 音源の基底数は ,平均は に固
定35
30
25
20
15
10
5
0
SD
R im
plov
emen
t [dB
]
0.200.150.100.050.00
FDICA+DOA
IVA
音源の分散( )音源 1 の結果グラフ
音源の混合系の違いによる分離精度比較
– FDICA+DOA は 2 音源の DOA幅が増加すると精度が劣化• DOA クラスタリングのエラーが増加
する– IVA と Rank-1 MNMF は音源の混
合系によらない• 空間モデルによる制約が無いため
IVA と Rank-1 MNMF の無制約な空間モデルが柔軟
Rank-1 MNMF (基底数=1 )
![Page 21: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/21.jpg)
21
• 音源の混合系 を変化させた場合の分離精度比較– 音源の基底数は ,平均は に固
定35
30
25
20
15
10
5
0
SD
R im
plov
emen
t [dB
]
0.200.150.100.050.00
FDICA+DOA
IVA
音源の分散( )音源 1 の結果グラフ
音源の混合系の違いによる分離精度比較
– FDICA+DOA は 2 音源の DOA幅が増加すると精度が劣化• DOA クラスタリングのエラーが増加
する– IVA と Rank-1 MNMF は音源の混
合系によらない• 空間モデルによる制約が無いため
IVA と Rank-1 MNMF の無制約な空間モデルが柔軟
Rank-1 MNMF (基底数=1 )
劣化
![Page 22: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/22.jpg)
22
• 音源の混合系 を変化させた場合の分離精度比較– 音源の基底数は ,平均は に固
定35
30
25
20
15
10
5
0
SD
R im
plov
emen
t [dB
]
0.200.150.100.050.00
FDICA+DOA
IVA
音源の分散( )音源 1 の結果グラフ
音源の混合系の違いによる分離精度比較
– FDICA+DOA は 2 音源の DOA幅が増加すると精度が劣化• DOA クラスタリングのエラーが増加
する– IVA と Rank-1 MNMF は音源の混
合系によらない• 空間モデルによる制約が無いため
IVA と Rank-1 MNMF の無制約な空間モデルが柔軟
Rank-1 MNMF (基底数=1 )
![Page 23: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/23.jpg)
23
• SiSEC データベース収録のプロ音楽信号– ファイル名 : bearlin-roads__snip_85_99 , 14 s ( 16 kHzサンプル)– 音源 : acoustic_guit_main, bass, vocals の 3 音源– 実行環境 : MATLAB 8.3, Intel Core i7-4790 (3.6 GHz)– 更新回数 : 200 回
各手法の計算量の比較
IVA MNMF Rank-1 MNMF( 音源毎に基底数を固定 )
Rank-1 MNMF( 音源毎に基底数を可変 )
91.6 4498.4 121.0 173.4
(単位は全てs )
121086420
-2SD
R im
prov
emen
t [dB
]
4003002001000Iteration steps
IVA MNMF Rank-1 MNMF Rank-1 MNMF
(基底数固定)(基底数可変)
200 回更新時( MNMF以外は十分収束)
![Page 24: ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)](https://reader036.vdocuments.pub/reader036/viewer/2022062503/5875a85c1a28ab6d198b844b/html5/thumbnails/24.jpg)
24
結論とまとめ• Rank-1 MNMF [D. Kitamura et al., ICASSP 2015]
– IVA の音源モデルを任意の基底数に拡張– 空間モデルへの制限は「ランク 1」のみ– モデル複雑化に伴う最適化の不安定さもさほど問題になら
ない– ランク 1 空間近似を用いる優決定条件 BSS として優秀な
手法
音源モデル
空間
モデ
ル 柔軟
具体
的
柔軟具体的
IVA Rank1MNMFNMF による音源
モデルの基底数拡張
FDICA+DOA
ランク 1 空間モデル
ランク 1 空間モデル+ DOA クラスタリング