過決定条件bssにおけるランク1空間制約の緩和 relaxation of rank-1 spatial model in...
TRANSCRIPT
過決定条件 BSS におけるランク 1 空間制約の緩和
総合研究大学院大学 博士課程 1 年 北村大地国立情報学研究所 / 総合研究大学院大学 小野順貴NTT コミュニケーション科学基礎研究所 澤田宏
東京大学 / NTT コミュニケーション科学基礎研究所 亀岡弘和
東京大学 猿渡洋
Relaxation of Rank-1 Spatial Model in Overdetermined BSS
2
研究背景• ブラインド音源分離 (blind source separation: BSS)
– 観測信号のみ ( 混合系は未知 ) から音源信号を推定する技術
– 過決定条件 ( 音源数 録音マイク数 ) における BSS• 独立成分分析 (ICA) ,独立ベクトル分析 (IVA) 等
– 劣決定条件 ( 音源数 録音マイク数 ) における BSS• スペクトログラムマスキング,非負値行列因子分解 (NMF) 等
• BSS の応用– 話者分離,雑音抑圧,音楽信号解析,音場再現の前処理
etc.
音源信号 観測信号 分離信号
混合系 分離系
3
• 多チャネル非負値行列因子分解 (NMF) [H. Sawada, 2013]
従来手法 (1/3)
Amplitude
Am
plitu
de
Time
Time
Fre
quen
cy Fre
quen
cy
基底 アクティベーション
スペクトログラム
観測信号の時間&周波数毎の チャネル間相関行列
周波数&音源毎の空間相関行列
スペクトル基底(頻出パターン)
アクティベーション
(時間強度変化)潜在変数
参考 : 単一チャネルNMF
音源モデル空間モデル多チャネル観測信号
: 実数値(非負)
: 複素数値
: 0~1 の実数値
: 要素毎の積
4
従来手法 (2/3)• 独立ベクトル分析 (IVA) [T. Kim, 2007]
– 周波数をまとめた音源ベクトル間の独立性を仮定• ベクトル内では高次統計量の相関を考慮• 周波数領域 ICA のパーミュテーション問題を解決
– 各フレームで時不変の複素瞬時混合系を仮定– 安定かつ高速に分離行列が推定可能
……
音源信号 混合行列
…… …観測信号 分離行列 分離信号
5
音源モデル空間モデル多チャネル観測信号
従来手法 (3/3)• ランク 1 空間制約付き多チャネル NMF [D. Kitamura,
2014]
– 空間モデル : IVA の分離行列の推定問題に帰着– 音源モデル : 単一チャネル NMF の基底とアクティベー
ションの推定問題に帰着
全空間相関行列をランク 1 で近似
IVA と NMF の更新式の交互反復により高速かつ安定に多チャネル NMF が解ける
6
ランク 1 空間モデル• 空間相関行列のランク 1 近似とは?
– 時間周波数領域での時不変の複素瞬時混合仮定と等価– 周波数領域 ICA や IVA でもおなじみ
1. 音源が点音源性を持つ2. 残響が短時間フーリエ変換の窓長より短い
F
requ
ency
Time
観測信号のスペクトログラ
ム
観測信号音源信号
時不変複素混合行列
7
• 収録環境の残響が長い場合– 音源とマイク間のインパルス応答が窓長より長くなる– 残響成分が前の時間フレームから漏れる
Fre
quen
cy
Time
観測信号のスペクトログラ
ム
観測信号
ランク 1 空間モデルの問題点
混合系が時不変瞬時混合では表現できない従来の分離手法( IVA 等)では精度が著しく劣化
前フレームから
漏れた成分
音源信号
8
問題点のまとめとモチベーション• 多チャネル NMF [H. Sawada, 2013]
– フルランクの空間相関行列を推定可能• 残響にも多少頑健
– 計算コストが極めて高い– 初期値依存性が強い
• IVA [T. Kim, 2007] & ランク 1 多チャネル NMF [D. Kitamura, 2014]
– 空間モデルのランク 1 空間制約あり ( 時不変瞬時混合を仮定 )
– 残響が窓長より長いと精度が劣化
高い計算効率を保ったままランク 1 空間制約を緩和したい
高残響下でも音源を分離する為には
提案法
10
アプローチ• 余剰チャネルの存在する過決定条件を想定
– 個の音源に対して 倍の録音マイク がある ( )
音源信号
観測信号
混合
分離信号
BSS
次元削減された観測信号
主成分分析
例 : 音源 2個,マイク 4個の場合 ( )
• 主成分分析 (PCA) を用いた次元削減– 観測信号中の弱い成分(各音源の残響成分)の除去を期待– パワーがアンバランスな混合には不向き
• パワーの弱い音源の主成分が除去される危険がある
11
アプローチ• 余剰チャネルの存在する過決定条件を想定
– 個の音源に対して 倍の録音マイク がある ( )
音源信号
観測信号
混合
例 : 音源 2個,マイク 4個の場合 ( )
• 各音源の直接音成分と残響成分を分けて推定– 直接音成分と残響成分の間の独立性を仮定– 同一音源の直接音と残響を足し合わせて分離信号を再構成
直接音残響
直接音残響
分離信号
再構成
仮想的な分離信号
BSS
12
仮想分離信号のクラスタリング• 推定信号の順番の不定性
– どの仮想分離信号がどの音源の直接音 or 残響音に対応するかが不明
分離信号
再構成
クラスタリングされた仮想分離信号
音源 1 の直接音音源 1 の残響音音源 2 の直接音音源 2 の残響音
クラスタリング
推定した仮想分離信号
仮想分離信号を音源毎にまとめるクラスタリングが必要
13
仮想分離信号のクラスタリング法• 同一音源の直接音成分と残響成分はパワースペクト
ログラムが高い相関を持つ
• 数フレームの遅れを考慮した相互相関値
– 仮想分離信号の全組み合わせの相関値を計算– 高い順に信号をマージ
のパワースペクトログラム
のパワースペクトログラム
・・・
14
• 同一音源の直接音成分と残響成分は同じスペクトル基底で表現できる
• 複数の音源で共有するスペクトル基底を与えて推定
– ランク 1 多チャネル NMF限定の手法 (IVA では不可能 )– あらかじめスペクトル基底を共有してモデル化すること
で音源毎にグルーピングしつつ仮想分離信号を推定
基底共有型ランク 1 多チャネル NMF
(音源 1 の直接音)(音源 1 の残響音)(音源 2 の直接音)(音源 2 の残響音)
仮想分離信号ランク 1 多チャネルNMF の音源モデル
分離信号共有基底
共有基底
再構成
実験
16
• 実験条件
– JR2 インパルス応答
分離精度の比較実験
音源信号 SiSEC のプロ音楽信号に, RWCP 収録のマイクアレーインパルス 応答で畳み込んで作成, 2 音源 4 チャネルの混合信号
サンプリング周波数 44.1 kHz から 16 kHz へダウンサンプル
FFT 窓長 8192 点 (128 ms, Hamming 窓 )
シフト長 2048 点 (64 ms)
基底数 各音源につき 15本 ( トータルで 30本 )
反復回数 200 回
試行回数 初期値を変えて 10 回主観評価値 平均 SDR改善値とその標準偏差 ( 総合分離性能 )
残響時間 : 470 ms 2 m
音源 1
80 60
マイク間隔 : 2.83
cm
音源 2
17
• 比較手法(計 7 手法)– PCA + 2ch IVA
• PCA をかけて 2 チャネルに圧縮した後, IVA で分離– PCA + 2ch Rank1MNMF
• PCA をかけて 2 チャネルに圧縮した後,ランク 1 多チャネル NMF で分離
– 4ch IVA + クラスタリング• 4 チャネルのまま IVA を適用後,クラスタリングし分離信号を再構成
– 4ch 基底共有型 Rank1MNMF• 4 チャネルのまま基底共有型ランク 1MNMF を適用後,分離信号を再構成
– 4ch MNMF + BF• 4 チャネルのまま推定した空間相関(フルランク)で BF を適用(時不変
フィルタ)– 4ch MNMF
• 4 チャネルのまま推定した空間相関(フルランク)と音源モデルで多チャネル Wiener フィルタを適用(時変フィルタ)
– 真の空間情報を用いた理想的な BF• 各音源の真の空間相関の時間平均を用いた時不変分離フィルタの限界性能
分離精度の比較実験
従来手法
提案手法
従来手法
参考値
MNMF: 多チャネル NMFBF: ビームフォーマ
18
• 分離性能の比較 1 (ultimate_nz_tour__snip_43_61)
– Source 1: Guitar– Source 2: Vocals
16
14
12
10
8
6
4
2
0
SD
R im
prov
eme
nt [
dB
]分離精度の比較実験
ランク 1 空間制約時不変フィルタ( 1個 / 音源)
フルランクモデル時不変フィルタ( 1個 / 音源)
フルランクモデル時変フィルタ時不変フィル
タ( 1個 / 音源)の限界性能
ランク 1 空間制約時不変フィルタ( 2個 / 音源)
: Source 1 : Source 2
PCA+2ch IVA
PCA+2ch Rank1
MNMF
4ch IVA+クラスタリ
ング
4ch MNMF+BF
4ch MNMF真の空間情報を用いた
理想的な BF
4ch 基底共有型
Rank1MNMF
19
• 分離性能の比較 2 (bearlin-roads__snip_85_99)
– Source 1: Acoustic guitar– Source 2: Piano
12
10
8
6
4
2
0
-2
-4
SD
R im
prov
eme
nt [
dB
]分離精度の比較実験
PCA+2ch IVA
PCA+2ch Rank1
MNMF
4ch IVA+クラスタリ
ング
4ch MNMF+BF
4ch MNMF真の空間情報を用いた
理想的な BF
4ch 基底共有型
Rank1MNMF
: Source 1 : Source 2
20
• 分離性能の比較 3 (fort_minor-remember_the_name__snip_54_78)
– Source 1: Drums– Source 2: Vocals
12
10
8
6
4
2
0
-2
-4
SD
R im
pro
vem
ent
[dB
]分離精度の比較実験
PCA+2ch IVA
PCA+2ch Rank1
MNMF
4ch IVA+クラスタリ
ング
4ch 基底共有型
Rank1MNMF
4ch MNMF+BF
4ch MNMF真の空間情報を用いた
理想的な BF
: Source 1 : Source 2
21
分離精度の比較実験• 計算時間の比較
– 条件• CPU: Intel Core i7-4790 (3.60GHz)• 環境 : MATLAB 8.3 (64-bit)• 楽曲 : ultimate_nz_tour__snip_43_61 (18 s, 16 kHzサンプル )
PCA + 2ch IVA
PCA + 2ch Rank1MNMF
4ch IVA+クラスタリン
グ
4ch Rank1MNMF+
クラスタリング
MNMF
23.4 s 29.4 s 60.1 s 143.9 s 3611.8 s
高残響下で高い計算効率を保ったまま多チャネル NMF と同程度の分離性能を実現
22
まとめ• 残響時間が窓長を超える長さの観測信号を対象
– 高い計算効率と十分な分離性能の両立• 音源の数の 2倍以上の観測マイク数があれば適用可
能な分離アルゴリズムを提案– 従来は PCA で観測信号の次元圧縮を行うことが一般的だった
• 余剰な観測チャネルを用いて各音源の直接音成分と残響成分を別々に推定– ランク 1 空間制約が緩和可能– 高残響下での分離精度向上
• 実験結果は良好な性能を示した– 時不変線形分離フィルタの限界性能を超える場合も確認