独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 history...

74
独独独独独独独独独独独独独独独独独独独独 独独独独独独独独独独 History of independence-based blind source separation and independent low- rank matrix analysis 独独独独独独独独独SOKENDAI 独独独独独独独 独独独独独独 3 独 独独独独 独独独独 独独独独独独独独独 独独独 2017 独 2 独 27 独 独独 () 15 独

Upload: daichi-kitamura

Post on 19-Mar-2017

780 views

Category:

Science


6 download

TRANSCRIPT

Page 1: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

独立性に基づくブラインド音源分離の発展と

独立低ランク行列分析History of independence-based blind source separation

and independent low-rank matrix analysis

総合研究大学院大学( SOKENDAI )複合科学研究科 博士後期課程 3 年

北村大地

東京大学 システム情報学専攻 談話会2017 年 2 月 27 日(月) 15 時

自己紹介bull 名前 北村大地( Daichi Kitamura )bull 年齢 26 ( 1990 年 3 月 11 日生まれ)博士後期課

程 3 年bull 経歴

bull Twitter UDN48_udon

2

香川高等専門学校(旧高松工業高等専門学校)( 16 ~ 22 )

電気情報工学科rarr専攻科(創造工学専攻) 学士(工学)奈良先端科学技術大学院大学( 22 ~ 24 )

情報科学研究科 修士(工学)総合研究大学院大学( 24 ~ 27 )

複合科学研究科(情報学専攻)博士(情報学)取得見込

サバゲー

3

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

4

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

5

bull 音源分離( audio source separation )ndash 複数の音源が混合された信号を音源毎に分離する信号処理ndash 音声認識雑音抑圧補聴器会議アーカイブ etcndash ほぼ全ての音響システムのフロントエンドに応用可能

bull 観測信号から有意な因子を抽出する技術ndash 知能情報学の一大トピック

bull 音楽信号の音源分離( music source separation )

ndash ユーザによる既存音楽の再編集自動採譜技術楽器演奏における教育支援超臨場感音場再現の制御 等

研究の背景音源分離問題

音楽CD

音源分離実演奏の録音

6

研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係

ndash 優決定条件(音源数 マイク数)の音源分離

ndash 劣決定条件(音源数 マイク数)の音源分離

bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ

イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離

音源信号 観測信号 分離信号

混合系 分離系マイクロホンアレイ

音楽 CD

L-ch

R-ch

ステレオ信号( 2-ch )

モノラル録音

1-ch

モノラル信号( 1-ch )

7

bull 基礎となる数理理論の登場と発展

研究の背景歴史的発展

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

8

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

9

ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )

ndash 混合系 が未知の条件で分離系 を推定

ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS

ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]

bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]

bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら

ない

BSS混合系 分離系

独立成分分析( ICA )おさらいbull ICA の前提条件

ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)

bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)

混合系音源信号(潜在因

子)

混合信号(観測情

報)1 互いに独立

2 非ガウス分布

3 可逆で時不変

10

逆行列

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 2: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

自己紹介bull 名前 北村大地( Daichi Kitamura )bull 年齢 26 ( 1990 年 3 月 11 日生まれ)博士後期課

程 3 年bull 経歴

bull Twitter UDN48_udon

2

香川高等専門学校(旧高松工業高等専門学校)( 16 ~ 22 )

電気情報工学科rarr専攻科(創造工学専攻) 学士(工学)奈良先端科学技術大学院大学( 22 ~ 24 )

情報科学研究科 修士(工学)総合研究大学院大学( 24 ~ 27 )

複合科学研究科(情報学専攻)博士(情報学)取得見込

サバゲー

3

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

4

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

5

bull 音源分離( audio source separation )ndash 複数の音源が混合された信号を音源毎に分離する信号処理ndash 音声認識雑音抑圧補聴器会議アーカイブ etcndash ほぼ全ての音響システムのフロントエンドに応用可能

bull 観測信号から有意な因子を抽出する技術ndash 知能情報学の一大トピック

bull 音楽信号の音源分離( music source separation )

ndash ユーザによる既存音楽の再編集自動採譜技術楽器演奏における教育支援超臨場感音場再現の制御 等

研究の背景音源分離問題

音楽CD

音源分離実演奏の録音

6

研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係

ndash 優決定条件(音源数 マイク数)の音源分離

ndash 劣決定条件(音源数 マイク数)の音源分離

bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ

イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離

音源信号 観測信号 分離信号

混合系 分離系マイクロホンアレイ

音楽 CD

L-ch

R-ch

ステレオ信号( 2-ch )

モノラル録音

1-ch

モノラル信号( 1-ch )

7

bull 基礎となる数理理論の登場と発展

研究の背景歴史的発展

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

8

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

9

ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )

ndash 混合系 が未知の条件で分離系 を推定

ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS

ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]

bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]

bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら

ない

BSS混合系 分離系

独立成分分析( ICA )おさらいbull ICA の前提条件

ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)

bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)

混合系音源信号(潜在因

子)

混合信号(観測情

報)1 互いに独立

2 非ガウス分布

3 可逆で時不変

10

逆行列

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 3: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

3

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

4

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

5

bull 音源分離( audio source separation )ndash 複数の音源が混合された信号を音源毎に分離する信号処理ndash 音声認識雑音抑圧補聴器会議アーカイブ etcndash ほぼ全ての音響システムのフロントエンドに応用可能

bull 観測信号から有意な因子を抽出する技術ndash 知能情報学の一大トピック

bull 音楽信号の音源分離( music source separation )

ndash ユーザによる既存音楽の再編集自動採譜技術楽器演奏における教育支援超臨場感音場再現の制御 等

研究の背景音源分離問題

音楽CD

音源分離実演奏の録音

6

研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係

ndash 優決定条件(音源数 マイク数)の音源分離

ndash 劣決定条件(音源数 マイク数)の音源分離

bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ

イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離

音源信号 観測信号 分離信号

混合系 分離系マイクロホンアレイ

音楽 CD

L-ch

R-ch

ステレオ信号( 2-ch )

モノラル録音

1-ch

モノラル信号( 1-ch )

7

bull 基礎となる数理理論の登場と発展

研究の背景歴史的発展

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

8

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

9

ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )

ndash 混合系 が未知の条件で分離系 を推定

ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS

ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]

bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]

bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら

ない

BSS混合系 分離系

独立成分分析( ICA )おさらいbull ICA の前提条件

ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)

bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)

混合系音源信号(潜在因

子)

混合信号(観測情

報)1 互いに独立

2 非ガウス分布

3 可逆で時不変

10

逆行列

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 4: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

4

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

5

bull 音源分離( audio source separation )ndash 複数の音源が混合された信号を音源毎に分離する信号処理ndash 音声認識雑音抑圧補聴器会議アーカイブ etcndash ほぼ全ての音響システムのフロントエンドに応用可能

bull 観測信号から有意な因子を抽出する技術ndash 知能情報学の一大トピック

bull 音楽信号の音源分離( music source separation )

ndash ユーザによる既存音楽の再編集自動採譜技術楽器演奏における教育支援超臨場感音場再現の制御 等

研究の背景音源分離問題

音楽CD

音源分離実演奏の録音

6

研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係

ndash 優決定条件(音源数 マイク数)の音源分離

ndash 劣決定条件(音源数 マイク数)の音源分離

bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ

イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離

音源信号 観測信号 分離信号

混合系 分離系マイクロホンアレイ

音楽 CD

L-ch

R-ch

ステレオ信号( 2-ch )

モノラル録音

1-ch

モノラル信号( 1-ch )

7

bull 基礎となる数理理論の登場と発展

研究の背景歴史的発展

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

8

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

9

ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )

ndash 混合系 が未知の条件で分離系 を推定

ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS

ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]

bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]

bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら

ない

BSS混合系 分離系

独立成分分析( ICA )おさらいbull ICA の前提条件

ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)

bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)

混合系音源信号(潜在因

子)

混合信号(観測情

報)1 互いに独立

2 非ガウス分布

3 可逆で時不変

10

逆行列

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 5: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

5

bull 音源分離( audio source separation )ndash 複数の音源が混合された信号を音源毎に分離する信号処理ndash 音声認識雑音抑圧補聴器会議アーカイブ etcndash ほぼ全ての音響システムのフロントエンドに応用可能

bull 観測信号から有意な因子を抽出する技術ndash 知能情報学の一大トピック

bull 音楽信号の音源分離( music source separation )

ndash ユーザによる既存音楽の再編集自動採譜技術楽器演奏における教育支援超臨場感音場再現の制御 等

研究の背景音源分離問題

音楽CD

音源分離実演奏の録音

6

研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係

ndash 優決定条件(音源数 マイク数)の音源分離

ndash 劣決定条件(音源数 マイク数)の音源分離

bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ

イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離

音源信号 観測信号 分離信号

混合系 分離系マイクロホンアレイ

音楽 CD

L-ch

R-ch

ステレオ信号( 2-ch )

モノラル録音

1-ch

モノラル信号( 1-ch )

7

bull 基礎となる数理理論の登場と発展

研究の背景歴史的発展

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

8

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

9

ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )

ndash 混合系 が未知の条件で分離系 を推定

ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS

ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]

bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]

bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら

ない

BSS混合系 分離系

独立成分分析( ICA )おさらいbull ICA の前提条件

ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)

bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)

混合系音源信号(潜在因

子)

混合信号(観測情

報)1 互いに独立

2 非ガウス分布

3 可逆で時不変

10

逆行列

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 6: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

6

研究の背景音源分離問題の種類bull 混合される音源数と録音時のマイク数の関係

ndash 優決定条件(音源数 マイク数)の音源分離

ndash 劣決定条件(音源数 マイク数)の音源分離

bull 「事前情報」の有無ndash 音色の事前学習楽譜やユーザアノテーション音源やマ

イクの空間的な位置情報等ndash 事前情報を用いない手法ブラインド音源分離

音源信号 観測信号 分離信号

混合系 分離系マイクロホンアレイ

音楽 CD

L-ch

R-ch

ステレオ信号( 2-ch )

モノラル録音

1-ch

モノラル信号( 1-ch )

7

bull 基礎となる数理理論の登場と発展

研究の背景歴史的発展

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

8

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

9

ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )

ndash 混合系 が未知の条件で分離系 を推定

ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS

ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]

bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]

bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら

ない

BSS混合系 分離系

独立成分分析( ICA )おさらいbull ICA の前提条件

ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)

bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)

混合系音源信号(潜在因

子)

混合信号(観測情

報)1 互いに独立

2 非ガウス分布

3 可逆で時不変

10

逆行列

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 7: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

7

bull 基礎となる数理理論の登場と発展

研究の背景歴史的発展

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

8

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

9

ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )

ndash 混合系 が未知の条件で分離系 を推定

ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS

ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]

bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]

bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら

ない

BSS混合系 分離系

独立成分分析( ICA )おさらいbull ICA の前提条件

ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)

bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)

混合系音源信号(潜在因

子)

混合信号(観測情

報)1 互いに独立

2 非ガウス分布

3 可逆で時不変

10

逆行列

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 8: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

8

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

9

ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )

ndash 混合系 が未知の条件で分離系 を推定

ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS

ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]

bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]

bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら

ない

BSS混合系 分離系

独立成分分析( ICA )おさらいbull ICA の前提条件

ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)

bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)

混合系音源信号(潜在因

子)

混合信号(観測情

報)1 互いに独立

2 非ガウス分布

3 可逆で時不変

10

逆行列

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 9: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

9

ブラインド音源分離と独立成分分析bull ブラインド音源分離( blind source separation BSS )

ndash 混合系 が未知の条件で分離系 を推定

ndash マイクの位置や間隔音源の位置等の情報が不要bull 優決定条件(マイク数≧音源数)の BSS

ndash 統計的独立性に基づく手法が代表的bull 独立成分分析( ICA ) [Comon 1994]

bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998] [Saruwatari 2000] [Sawada 2004]

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006] [Kim 2007] [Ono 2011]

bull 音響信号の BSS における難しさndash 「残響による畳み込み混合」の逆系を推定しなければなら

ない

BSS混合系 分離系

独立成分分析( ICA )おさらいbull ICA の前提条件

ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)

bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)

混合系音源信号(潜在因

子)

混合信号(観測情

報)1 互いに独立

2 非ガウス分布

3 可逆で時不変

10

逆行列

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 10: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

独立成分分析( ICA )おさらいbull ICA の前提条件

ndash 3つの仮定を用いて混合前の独立成分を推定bull 1 独立成分は互いに独立(音源は多くの場合独立)bull 2 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)

bull 3 混合行列は可逆で時不変(優決定音源やマイクは移動しない)

混合系音源信号(潜在因

子)

混合信号(観測情

報)1 互いに独立

2 非ガウス分布

3 可逆で時不変

10

逆行列

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 11: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

独立成分分析( ICA )おさらいbull ICA の不確定性

ndash 2つの任意性が存在bull 1 独立成分の分散(パワー)は決定できない(音量が分からない)

bull 2 独立成分の順序は決定できない(順番が変わりうる)

11

ICA分離系

混合信号独立成分

ICA分離系

混合信号独立成分

推定信号

推定信号

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 12: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

bull ICA の推定理論ndash 推定信号間の独立性を最大化

ndash 対数尤度関数

独立成分分析( ICA )おさらい

12

近づける

音源の非ガウスな分布未知なものなので適当に与える必要がある

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 13: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

音源の分布音声bull 音声の時間信号

ガウス分布よりも急峻で裾が長いrarr尖度が高い

13

>

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 14: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

bull ピアノ音の時間信号

音源の分布ピアノ音

音声ほどではないがやはりガウス分布よりも急峻で裾が長いrarr尖度が高いrarr ラプラス分布に近い

-5 -4 -3 -2 -1 0 1 2 3 4 50

010203040506

ラプラス分布

14

>

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 15: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

bull ドラム音の時間信号

音源の分布ドラム音

ガウス分布よりも急峻で裾が長いrarr尖度が高いrarrコーシー分布っぽい

-5 -4 -3 -2 -1 0 1 2 3 4 50

02

04

06

08

1コーシー分布

15

>

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 16: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

16

bull 実際の音響信号の混合ndash 残響による畳み込み混合

bull 例 会議室では 300ミリ秒コンサートホールでは 2秒等

ndash 時不変混合係数 が時不変混合フィルタ    に変化bull 対残響性の向上

ndash 時間領域での逆フィルタ を推定bull 16 kHz サンプルでは 300 ms のフィルタ長が 4800タップ( 1 音

源あたり)bull ICAで推定すべきパラメータが爆発的に増加rarr推定は困難

ndash 周波数領域での ICA の適用bull 周波数毎の分離行列 を周波数毎の ICAで推定rarr推定は容易bull パーミュテーション問題に直面

耐残響性の向上周波数領域 ICA ( FDICA )

残響長(混合フィルタのタップ長)

瞬時混合畳み込み混合

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 17: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

17

耐残響性の向上周波数領域 ICA ( FDICA )bull 短時間フーリエ変換( short-time Fourier transform STFT )

ndash 音響信号を短時間で切り出して周波数領域に変換

ndash 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可

ndash 従来の ICAやその推定アルゴリズムがそのまま適用可能ndash 窓長の設定はトレードオフが存在 [Araki1 2003]

bull 長いと統計バイアスが増加短いと残響の影響が増加

hellip

窓長

シフト長

Freq

uenc

y

Time

                                                                                          

hellip

窓長窓関数

フーリエ変換

フーリエ変換

フーリエ変換

スペクトログラムの解像度を決定窓長が短い時間分解能が高い窓長が長い周波数分解能が高い

スペクトログラム

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 18: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

18

耐残響性の向上周波数領域 ICA ( FDICA )bull 周波数領域 ICA ( FDICA ) [Smaragdis 1998]

ndash 各周波数ビンの複素時系列に対して独立な ICA を適用スペクトログラム ICA1

ICA2ICA3

hellip hellip

ICA

Freq

uenc

y bi

n

Time frame

hellip

Chan

nel

逆行列周波数領域の時不変瞬時混合行列

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 19: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

19

耐残響性の向上周波数領域 ICA ( FDICA )

ICA

hellip

周波

数ビ

全て時間周波数領域の信号

音源 1

音源 2

観測 1

観測 2

Permutation Solver

分離信号 1

分離信号 2Freq

Time

bull FDICA におけるパーミュテーション問題ndash 各周波数ビンで推定信号の順序がバラバラになるndash 様々なパーミュテーションソルバが検討されている

分散(スケール)もバラバラになるがこれは容易に戻すことが可能

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 20: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

20

到来方向を用いたパーミュテーション解決bull FDICA+ DOA クラスタリング [Saruwatari 2006]

ndash 推定分離フィルタ から混合フィルタ を逆算ndash 音源の到来方向( DOA )でクラスタリング

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

推定

され

た音

源成

分の頻

到来方向( DOA )

正面左 右

DOAクラスタリ

ング

Source 1 Source 2

正面

左 右

音源 とマイクアレイ間の伝達系を表す「ステアリングベクトル」混合行列の列ベクトル

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 21: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

21

bull FDICAで推定される分離フィルタ とはndash 周波数領域での瞬時混合を仮定ndash 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ

ndash 適応ビームフォーミング( ABF )と本質的に等価 [Araki2 2003]bull ABF 妨害音のみがアクティブな時間の出力二乗誤差最小化bull 妨害音に対してヌル(感度 0 )を打つような空間分離bull ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要

ndash FDICAはブラインドな音源分離手法bull 混合系未知アクティビティ検出不要bull 厳密な音源位置とマイク位置が既知の場合のビームフォーミング

が FDICA の上限性能といえる

FDICA による音源分離のメカニズム

音源 1

音源 2

音源 1 の空間分離フィ

ルタ

音源 1分離フィルタのタップ長はフーリエ変換の窓長と同じ

空間分離フィルタ

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 22: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

22

FDICA の分離フィルタと ABF の分離フィルタ

bull 図は [Araki2 2003] より引用

BSS の 空間分離フィルタ

ABF の 空間分離フィルタ

TR = 0 ms TR = 300 ms

TR = 0 ms TR = 300 ms

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 23: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

23

独立ベクトル分析( IVA )bull よりエレガントなアプローチ

ndash 分離フィルタ推定(周波数毎の ICA の最適化)ndash パーミュテーション問題の解決(ポスト処理)

bull 独立ベクトル分析( IVA ) [Hiroe 2006] [Kim 2006]

ndash ICA を多変量(多次元)分布モデルへ拡張( )

ndash 周波数をまとめたベクトル変数に対する ICA

1個の問題の    最適化で実現したい

helliphellip混合行列

helliphellip hellip

観測信号分離行列

推定信号

互いに独立

多変量非ガウス分布

互いに高次相関を持つ

同じ音源が一つの推定信号に自然にまとまる

スカラー ベクトル

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 24: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

24

bull FDICA と IVA の違いは非ガウス音源分布のみndash 音源の事前分布が一変量か多変量か

bull IVA の仮定する音源の事前分布ndash 零平均ラプラス分布の例(音声信号のモデルとして一般

的)

ndash 後者は (互いに無相関)の場合でも が互いに依存bull 球対称な分布を仮定していることに起因bull 高次相関性高次依存性が生じる

IVA における音源分布と高次相関

周波数毎に独立な事前分布

周波数間で高次相関をもつ事前分布

分散共分散行列

のときベクトルノルムにのみ依存

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 25: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

25

bull 図は [Kim 2007] より引用

bull 球対称音源分布の(かなりざっくりとした)定性的な説明ndash 周波数間で同じ時間変動を持つ成分を一つの音源としてま

とめる傾向にある パーミュテーション問題の回避

IVA における音源分布と高次相関

x1 と x2は互いに独立なラプラス分布

(条件付き分布はラプラス分布)

x1 と x2は互いに無相関だが依存関係がある

球対称な  二変数ラプラス分布

互いに独立な二変数ラプラ

ス分布

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 26: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

26

FDICA と IVA の分離原理比較bull FDICA の分離原理

bull IVA の分離原理

観測信号

推定信号の分布形状があらかじめ仮定した非ガウスな音源分布に近づくように分離フィルタを

更新

推定信号

分離フィルタ

推定信号の    現在の分布形状

非ガウスな  音源分布

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

観測信号 推定信号

分離フィルタ

推定信号の    現在の分布形状

STFT

Freq

uenc

y

Time

                                                                 

Freq

uenc

y

Time

                                                                 

非ガウスな  球対称多変量音源分布

スカラーの     確率変数

ベクトルの多変量確率変数

推定信号の分布形状があらかじめ仮定した非ガウスな球対称の音源分布に近づくように分離フィル

タを更新

中心極限定理より混合信号はガウス分布に近い信号

本来の音源信号は非ガウス分布に従う

互いに独立

互いに独立

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 27: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

27

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2012年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 28: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

28

非負値行列因子分解の音響信号への適用bull 非負値行列因子分解( NMF ) [Lee 1999]

ndash 非負制約付きの任意基底数( 本)による低ランク近似bull 限られた数の非負基底ベクトルとそれらの非負係数を抽出

ndash STFTで得られるパワースペクトログラムに適用bull 頻出するスペクトルパターンとそれらの時間的な強度変化

AmplitudeA

mpl

itude

混合された観測行列(パワースペクトログラ

ム )

基底行列( スペクトルパターン )

アクティベーション行列

( 時間的強度変化 )

Time

周波数ビン数 時間フレーム数 基底数

Time

Freq

uenc

y

Freq

uenc

y 基底 アクティベーション

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 29: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

29

bull NMF における変数の最適化ndash 観測 とモデル の距離をコストとし変数について最小化

ndash 距離関数は任意bull 二乗ユークリッド距離 KLダイバージェンス板倉斎藤擬距

ndash いずれの距離関数でも閉形式の解は未発見ndash 効率的な反復更新による最適化アルゴリズム

bull 補助関数法に基づく乗算型更新式(最も有名) [Lee 2000]

NMF のパラメータ推定

(コスト関数が二乗ユークリッド距離の場合)

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 30: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

30

bull 推定した基底(頻出スペクトル)とアクティベーション(時間変化)を音源毎にクラスタリングndash ブラインドではなかなか難しい

bull 教師あり NMF ( SNMF ) [Smaragdis 2007] [Kitamura1 2014]

NMF の音響信号への応用例

分離ステージ

学習ステージ

Given

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 31: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

31

bull 音楽信号の音源分離の特徴ndash 離散的構造 限られた数の音高(ピッチ)の重ね合わせbull 重なり合った音をパーツ単位に分割しその線形結合で表現できる

bull 離散的構造を持つ信号の適切な表現ndash 音楽信号の「低ランク性」ndash NMF の「低ランク近似分解」

bull 音源分離以外にも音楽信号処理で広く活用されているndash 自動採譜ビートトラッキング超解像

NMF と音楽信号の相性

限られた数の音高(音の高さ)

限られた数の音価(音の長さ)

離散的なパーツの重ね合わせで構成されている

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 32: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

32

bull 音楽信号の特有の性質

音楽信号は本当に低ランク

Drums Guitar

Vocals Speech

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 33: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

33

bull 音楽信号特有の性質

ndash 同じパターンの繰り返しが多いドラムやギター等は低ランク

ndash ボーカル及び音声は楽器音ほど低ランクではない

ndash 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)

音楽信号は本当に低ランク

10

08

06

04

02

00

Cum

ulat

ive

sing

ular

val

ue

300250200150100500Number of bases

Drums Guitar Vocals Speech

6 41 101 ( Vocals と Speechで同じ)95到達時の基底数

(行列サイズは2049x394 )

95 line

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 34: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

34

板倉斎藤擬距離基準 NMF ( ISNMF )bull 従来の NMF 分解の問題点

ndash データ行列(非負実数)は 1本の基底と 1本のアクティベーションからなるランク 1 行列の線形結合として表現

ndash は振幅スペクトログラムなのかあるいはパワーなのか

ndash いずれにしても線形結合(加法性)は成り立たないbull 理論的には複素スペクトログラムの加法モデルが正しい

ndash 位相スペクトログラムはどうするのかbull 板倉斎藤擬距離基準 NMFでは下記のように解釈さ

れるndash 複素スペクトログラムに対する生成モデルを与えられる

bull 複素数成分の線形結合なので理論的に正しいモデル

ndash 位相は無情報な形(一様分布)で保持されるbull 無情報なので最尤推定結果は観測の位相

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 35: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

35

bull ISNMF[Feacutevotte 2009]

bull この生成モデルはガウス分布の再生性を用いて分解可ndash とおくと

板倉斎藤擬距離基準 NMF ( ISNMF )

最小化は等価 点対称零平均複素ガウス分布観測の複素数値

複素ガウスの分散

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 36: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

36

bull を複素スペクトログラムとしたとき各時間周波数要素は複素要素 を 個足し合わせたもの

ndash 複素ガウス分布の線形結合なので も複素ガウス分布bull ガウス分布の再生性bull の複素ガウス分布の分散は

ndash 分散が時間周波数で変動する複素ガウス分布が生成モデル

板倉斎藤擬距離基準 NMF ( ISNMF )

Imaginary Real

これらの複素ガウス分布は互いに独立(分散は異なる)

零平均分散 の原点対称複素ガウス

時間周波数 要素(複素数)

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 37: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

37

bull パワースペクトログラムは複素ガウスの分散に対応

板倉斎藤擬距離基準 NMF ( ISNMF )

Freq

uenc

y bi

n

Time frame

パワースペクトログラム

パワーが小=分散が小殆ど 0付近の複素数し

か生成しない

パワーが大=分散が大大きな振幅の複素数も

生成しうる

各時間周波数で分散が変動する複素ガウス分布巨視的(マクロ)に考えると分散が変動する為スペクトログラム全体の密度分布 はスーパーガウシアン(カートシスがガウス分布より大)な分布になっている

但し濃淡が濃い方が大きなパワーを

示す

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 38: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

38

bull NMF を多チャネルの信号に適用できれば面白いndash アレー信号処理や ICA のように空間特徴量(振幅差位相差)を活用できる

bull アクティベーション共有型多チャネル NMF[Kitamura2 2014]

ndash チャネル間の音量比(アクティベーション)を保つ NMF分解

ndash 空間特徴量を壊すことなく低ランク近似bull DOA クラスタリングと SNMF のハイブリッド法

[Kitamura 2015]

ndash 音楽信号を音量比でクラスタリングして SNMF を適用ndash クラスタリングで欠損した成分を外挿復元しながら音源

分離bull 多チャネル NMF[Ozerov 2010] [Sawada 2013]

ndash 音源の時間周波数構造を低ランク近似しそのパーツを空間特徴量で音源毎にクラスタリング

ndash 理論的には劣決定条件(マイク<音源数)でも音源分離可能

NMF の多チャネル信号への拡張

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 39: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

39

bull 多チャネル NMF [Sawada 2013]

                                                                                

                                                 

                                                                                

                                                 

                                                                          

                                                 

                                                      

                                                 

                                                      

                                                 

                                                      

                                                 

NMF の多チャネル信号への拡張

時間周波数毎の観測チャンネル間相関

多チャネル観測信号

音源周波数毎のチャンネル間相関 基底行列 アクティベーション

行列

空間モデル 音源モデル

クラスタリング関数

スペクトルパターン

強度変化

音源毎の空間的な違い 全音源の音色構造

多チャネルベクトル

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy

Time

Freque

n

cy 瞬時空間相関行列

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 40: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

40

bull 空間相関行列 又は 空間共分散行列 [Duong 2010]

ndash Duong model とも呼ばれるndash 音源とマイク間の伝達系と音響的拡散度合を表す特徴量ndash ステアリングベクトル の基底拡張ndash 観測信号 中の 番目の音源成分のみを と表すとき

空間相関行列とは

Source image

時変な音源の分散(パワースペクトログラム)

マイクロホンへの伝達系に寄与する時不変な成分 (空間相関行列)

音源毎の 空間共分散

観測の 空間共分散

観測の 生成モデル

多チャネルWiener filter

時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可)

時間周波数で分散共分散が変動する多変量ガウス分布

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 41: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

41

bull 空間相関行列は瞬時空間相関の期待値

ndash 「瞬時相関の期待値」のランクが 1

ndash 時不変な 1本の空間基底ステアリングベクトル

ndash 「瞬時相関の期待値」のランクが 1 より大きい(フルランク)

bull ステアリングベクトルのような 1本の空間基底では表現不可bull 複数本の空間基底になる(空間基底の数=空間相関行列のラン

ク)bull 周波数領域での瞬時混合仮定が成り立たない

空間相関行列のランク

音源毎の 空間共分散

伝達系が時不変な 1本の空間基底でモデル化できる

ランク 1 空間モデル

音響信号の拡散音響放射特性の変動残響

という瞬時混合の式で書けない

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 42: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

42

bull 多チャネル NMFは ISNMF の純粋な多次元拡張bull 尤度関数

ndash 各時間周波数で分散が変動する多変量複素ガウス分布

bull 負の対数尤度関数ndash Logdet divergence [Kulis 2006] Steinrsquos loss [James 1961] ともndash 板倉斎藤擬距離の多次元版

bull ISNMF のような更新式が出てくるが計算量が大きい

NMF の多チャネル信号の最適化

とおくと

観測 に対してパラメタを

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 43: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

43

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 44: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

44

動機bull ICAで仮定される非ガウスな音源分布

ndash 分離フィルタを推定する唯一の手がかり音源モデルndash より正確な音源分布 rarr 高精度な分離フィルタの推定ndash 確率分布というマクロなモデル

bull 音源信号の持つ時間周波数の構造は考慮できないndash 音楽信号では音源間の独立性が弱まる

bull 時間的な共起(リズム)周波数の重なり(ハーモニー) 等

bull 時間周波数構造を分散の変動として表現した ISNMFndash 従来手法よりも正確な音源分布として ICA の推定に用い

たいndash ICA の高速安定な最適化も受け継ぎたい

bull 多チャネル NMF の最適化はあまりにも非効率不安定

bull 時変分散複素ガウス IVA (時変 IVA ) [Ono 2012]

bull 独立低ランク行列分析( ILRMA ) [Kitamura 2016]

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 45: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

45

bull 球対称ラプラス分布 IVA (再掲) [Hiroe 2006] [Kim 2006] ndash 定常な球対称ラプラス分布を仮定

bull 時変分散複素ガウス分布 IVA [Ono 2012]

ndash 分散が時変なパラメトリックな複素ガウス分布を仮定ndash 時間方向の音源アクティビティを時変分散でモデル化

非ガウス分布

複素ガウス分布

時変分散

非ガウス分布(球対称ラプラス分

布)

分散

ラプラスIVA

時変 IVA

様々な非ガウス分布を仮定した IVA

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 46: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

46

Freq

uenc

y

Time

                                                                                          

時変 IVAの   音源モデ

Freq

uenc

y       

Time               

周波数方向には一様な分散

時変な成分

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数上での分散の変動をNMFで低ランク表現

濃淡が分散の大小分散の大小は音源のパワーの大小

「低ランク性」の音源モデルへの導入

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 47: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

47

提案手法 IVA と NMF を融合した新しいBSS

bull 独立低ランク行列分析( independent low-rank matrix analysis

ILRMA )

ndash 時間周波数で分散が変動する複素ガウス分布を仮定

ndash 分離音源が「互いに独立」かつ「できるだけ低ランク」になる

イ ル マ

非ガウス分布

複素ガウス分布

Freq

uenc

y

Basis

                              

Bas

is

Time

                                                   

基底数(音源モデルのランク数)は任意

Freq

uenc

y

Time

                                                                                                      

提案手法の音源モデル

時間周波数変動分散(低ランク音源モデ

ル)

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 48: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

48

Freq

uenc

y

Time

                                                                           

                                                                                          

                                                            

提案手法 IVA と NMF を融合した新しいBSS

bull FDICA IVA 及び ILRMA の比較

Freq

uenc

y

Time

                                                                           

FDICA の音源モデルスカラー変数の非ガウス分

布(ラプラス分布)

ラプラス IVA の音源モデル

ベクトル変数の多変量な    球対称非ガウス分布(多変量ラプラス分布)

ILRMA の音源モデルNMF による低ランクな

時間周波数構造(時間周波数分散変動型 

 複素ガウス分布)

低ランクな時間周波数構造を持つように分離フィルタ

を更新

観測信号 推定信号

分離フィルタ

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 49: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

49

bull ILRMA のコスト(対数尤度)関数

ndash IVA の反復更新式ndash NMF の反復更新式

bull 音源の適切なランク数を潜在変数で推定することも可能

ndash Ex ボーカルはあまり低ランクにならずドラムは低ランク

ILRMA のコスト関数と潜在変数の導入

分離信号

ISNMF のコスト関数(音源モデルの推定に寄与)

IVA のコスト関数(空間分離フィルタの推定に寄

与)2つの交互最適化反復で全変数を容易に推定可能

潜在変数の導入

0~1 の値をとる潜在変数

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 50: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

50

ILRMA の最適化bull ILRMA の反復更新式(最尤推定)

ndash NMF変数の最適化は補助関数法に基づく乗法更新式

ndash 反復で尤度が単調増加することが保証されているbull 必ずどこかの局所解(停留点)へ収束

空間分離フィルタと分離信号の更新

音源モデルの更新

但し は 番目の要素のみ 1で 他は 0 の縦ベクトル

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 51: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

51

ILRMA の更新のイメージbull 音源毎の空間情報(空間モデル)と

各音源の音色構造(音源モデル)を交互に学習

ndash 音源毎の時間周波数構造を正確に捉えることで独立性基準での線形時不変な空間分離の性能向上が期待できる

空間分離フィルタの学習

混合信号分離信号

音源モデル

の更新NMF

NMF

音源モデルの学習

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 52: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

52

多チャネル NMF と ILRMA の関連性bull 何が違うのか

ndash 音源分布は同じ( ISNMF の時間周波数分散変動複素ガウス)

ndash ILRMAは ICAや IVA と同様に周波数領域の瞬時混合を仮定

ndash 多チャネル NMFはフルランク空間相関行列を仮定

bull 多チャネル NMF の空間相関行列にランク 1 制約を導入ndash ランク 1空間モデル(再掲)

bull 時不変な 1本の空間基底(ステアリングベクトル)で伝達系が表現できるという仮定

bull 実際に計算してみるndash 1 ランク 1空間モデルの導入ndash 2 混合系の変数を分離系の変数へと変換

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 53: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

53

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

とおくと

観測 に対してパラメタを

にランク 1空間制約        を導入

ここで

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 54: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

54

多チャネル NMF と ILRMA の関連性bull ランク 1空間モデル制約多チャネル NMF の導出

(続き) を多チャネル NMF のコスト関数に代入

を用いて変数変換

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 55: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

55

IVA 多チャネル NMF ILRMA の関連性bull 多チャネル NMF からみると

ndash ランク 1空間制約逆システム(分離系)の推定問題に変換

ndash 決定条件(マイク数=音源数)では ILRMA と双対な問題bull 時変 IVA からみると

ndash 音源分布の基底数を 1本から任意の本数に拡張bull 独立に発展した多チャネル NMF と IVA を統一的に捉える新しい理論

音源モデル

空間

モデ

ル 柔軟

限定

柔軟限定的

IVA

多チャネルNMF

ILRMANMF の音源モデルを導

空間相関行列のランクを 1 に

制限

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 56: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

56

bull ラプラス IVA [Hiroe 2006] [Kim 2006]

bull 時変ガウス分布 IVA [Ono 2012]

bull 多チャネル NMF [Sawada 2013]

bull ILRMA [Kitamura 2016]

尤度関数の比較

時間周波数変動分散(低ランク音源モデ

ル)

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 57: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

57

bull 基礎となる数理理論の登場と発展

歴史的発展(再掲)

1994

1998

2006

2013

2009

パーミュテーション問題解決法の検

1999

独立成分分析( ICA )

非負値行列因子分解( NMF )

周波数領域ICA ( FDICA )

板倉斎藤擬距離NMF ( ISNMF )

独立ベクトル分析( IVA )

多チャネルNMF

2016 独立低ランク行列分析( ILRMA )

2012 時変複素ガウスIVA

年代

代表的な手法のみを表記

NMF の様々な問題への適用生成モデル的解釈   

   各種拡張

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 58: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

58

従来手法と ILRMA の性能評価bull ILRMA への期待

ndash NMF 音源モデルの導入による性能向上( IVA と比して)ndash ランク 1空間モデルの導入による安定性の向上(多チャネ

ル NMF と比して)bull ランク 1空間モデルが成立する条件での実験

ndash マイク位置時不変混合系(多チャネル NMF を含む全手法での必須条件)

ndash 残響時間が窓長より短い(ランク 1空間モデル)ndash 特異な音響放射特性などがない(ランク 1空間モデル)

bull インパルス応答の畳み込みによるシミュレーション混合ndash 残響時間が短ければランク 1空間モデルが完全に成立

bull 実際のライブ録音による混合観測ndash より現実的な条件での実験

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 59: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

59

音楽音源分離実験の条件bull 実験条件

音源信号 SiSEC のプロ音楽信号に RWCP収録のマイクアレーインパルス 応答で畳み込んで作成 2 チャンネルで 2 音源の混合信号

窓長( FFT長) 512 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 30本( ILRMA1 )全音源で 60本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

2 m

Source 1

566 cm

50 50

Source 2

2 m

Source 1

566 cm

60 60

Source 2

Impulse response E2A(reverberation time 300 ms)

Impulse response JR2(reverberation time 470 ms)

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 60: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

60

実験結果 fort_minor-remember_the_name16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

16

12

8

4

0

-4

-8

SD

R im

prov

emen

t [dB

]

Violin synth Vocals

Violin synth Vocals

E2A( 300 ms )

JR2( 470 ms )

Poor

Good

Poor

Good

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 61: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

61

実験結果 ultimate_nz_tour

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

20

15

10

5

0

-5

SD

R im

prov

emen

t [dB

]

Guitar Synth

Guitar Synth

Poor

Good

Poor

Good

E2A( 300 ms )

JR2( 470 ms )

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 62: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

62

12

10

8

6

4

2

0

-2

SD

R im

prov

emen

t [dB

]

4003002001000Iteration steps

IVA MNMF ILRMA ILRMA

bull SiSEC データベース収録のプロ音楽信号ndash ファイル名 bearlin-roads__snip_85_99 14 s ( 16 kHz サンプル)ndash 音源 acoustic_guit_main bass vocals の 3 音源

各手法の性能と計算コストの比較例

(潜在変数無)(潜在変数有)

115 s

151 s 607 s

76473 s

Poor

Good

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 63: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

63

音声音源分離実験の条件bull 実験条件

ndash 予備実験より音声信号に対しては基底数を大きくすると音源分離に失敗する事実を確認bull 音声信号の時間周波数構造が NMF 表現に不向き

音源信号 SiSEC のライブ録音音声信号 2 チャンネルで 2 話者の混合信号

窓長( FFT長) 256 ms ハニング窓

シフト長 128 ms (14 シフト )

基底数 1 音源につき 2本( ILRMA1 )全音源で 4本( ILRMA2 )

主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)

Number of bases for each source ( )

Number of bases for each source ( )

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

16

12

8

4

0

-4SD

R im

prov

emen

t [dB

]

10987654321

Speaker 1 Speaker 2

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 64: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

64

実験結果 female3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

1614121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 65: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

65

実験結果 male3_liverec_1m

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Sawadarsquos MNMF

IVA Ozerovrsquos MNMF

Ozerovrsquos MNMF with

random initialization

Sawadarsquos MNMF

initialized by proposed method

Proposed method

wo partitioning

function

Proposed method

with partitioning

function

Directional clustering

14121086420-2-4

SD

R im

prov

emen

t [dB

]

Speaker 1 Speaker 2

Speaker 1 Speaker 2

130 ms

250 ms

Poor

Good

Poor

Good

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 66: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

66

bull 音声信号と音楽信号の分離結果を主観評価で比較ndash 聴覚の正常な 20代の男性 10 名女性 4 名ndash サーストンの一対比較法(間隔尺度)

bull 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に対応

各手法の性能の主観評価による比較

1009080706050403020100

Pro

babi

lity

of s

elec

tion

-20 -15 -10 -05 00 05 10 15 20Difference of subjective scores

間隔尺度を確率値に変換するグラフ

16

12

08

04

00

-04

-08

-12

Sub

ject

ive

scor

e

IVA Multichannel NMF ILRMA

Speech signals Music signals

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 67: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

67

考察bull ほぼすべての場合で高速高精度安定な分離を達

成ndash 多チャネル NMF と比較するとモデルの自由度に優位性は

ないndash 精度向上はランク 1空間モデルの導入による空間モデル変

数の最適化が容易になったことに起因bull 音声信号に対しては基底数を増加できない

ndash 基底数が増加すると性能が不安定ndash 音声の時間周波数構造は音楽信号ほど低ランクではない

10

08

06

04

02

00Cum

ulat

ive

sing

ular

val

ue

80706050403020100Number of bases

First speaker in female speech signal (dev1) Second speaker in female speech signal (dev1) Guitar in music signal (song ID4) Synth in music signal (song ID4)

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 68: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

68

音源分離デモンストレーション音楽分離の例

bull 音楽信号ndash ldquoUltimate NZ tourrdquo 3 音源ndash イコライザ(音色の変更)では不可能な処理

GuitarVocal

Keyboard

Guitar

Vocal

Keyboard

提案法によるパートご

との音源分離

3つのパートが鳴っていることに注意して聞いてください HP にも手法間比較用のデモがあり

ます

>
>
>
>

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 69: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

69

発表の概要bull 研究の背景

ndash 音源分離問題とその用途bull ブラインド音源分離と独立成分分析

ndash 前提条件問題解決に利用可能な手掛かりndash 周波数領域への適用耐残響性の向上

bull 音楽信号の効率的なモデリングndash 非負値行列因子分解による低ランク近似ndash 多次元観測音響信号への拡張

bull 独立低ランク行列分析によるブラインド音源分離ndash 独立低ランク行列分析ndash 多チャネル非負値行列因子分解との関連性

bull まとめとさらなる発展ndash より高精度なブラインド音源分離を目指して

独立成分分析     に由来する音源分離法の発展( 1994 年~ 2007年)非負値行列因子分解に由来する音響信号の表現方法の発展( 1999 年~ 2013年)

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 70: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

70

より高精度なブラインド音源分離を目指してbull 潜在因子への構造モデルの導入による発展可能性

ndash 確率分布モデルでは困難だった詳細な「操作( induce )」が可能

ndash ユーザとのインタラクションbull ユーザが分離の途中で構造モデルに介入bull 例映画撮影等のプロ用途の音声強調

ndash 実現可能な学習データの活用bull 音楽信号では「楽譜」は強力な事前情報bull 例芸術性を損なわない超高品質な音楽編集

bull ブラインドな信号処理技術の重要性ndash DNN の華々しい凌駕学習ベースの技術ndash 音源分離の学習データは容易可能か

bull 意外と困難ではない SiSEC2016 SiSEC2017 (MSDDSD dataset)

ndash では空間情報の学習データは容易可能かbull 録音環境は一期一会bull 学習なし or スモールデータの追求

時間区間の指定

領域の指定

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 71: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

71

参考文献(アルファベット順)( 14 )bull [Araki1 2003] S Araki R Mukai S Makino T Nishikawa and H Saruwatari ldquoThe

fundamental limitation of frequency domain blind source separation for convolutive mixtures of speechrdquo IEEE Trans Speech and Audio Process vol 11 no 2 pp 109ndash116 2003

bull [Araki2 2003] S Araki S Makino Y Hinamoto R Mukai T Nishikawa and H Saruwatari ldquoEquivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixturesrdquo EURASIP Journal on Advances in Signal Process vol 2003 no 11 pp 1ndash10 2003

bull [Comon 1994] P Comon ldquoIndependent component analysis a new conceptrdquo Signal Process vol 36 no 3 pp 287ndash314 1994

bull [Duong 2010] N Q K Duong E Vincent and R Gribonval ldquoUnder-determined reverberant audio source separation using a full-rank spatial covariance modelrdquo IEEE Trans Audio Speech Lang Process vol 18 no 7 pp 1830ndash1840 2010

bull [Feacutevotte 2009] C Feacutevotte N Bertin and J-LDurrieu ldquoNonnegative matrix factorization with the Itakura-Saito divergence With application to music analysisrdquo Neural Comput vol 21 no 3 pp 793ndash830 2009

bull [Hiroe 2006] A Hiroe ldquoSolution of permutation problem in frequency domain ICA using multivariate probability density functionsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 601ndash608

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 72: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

72

参考文献(アルファベット順)( 24 )bull [James 1961] W James and C Stein ldquoEstimation with quadratic lossrdquo Proc Berkeley

Symposium on Mathematical Statistics and Probability vol 1 1961 pp 361ndash379bull [Kim 2006] T Kim T Eltoft and T-W Lee ldquoIndependent vector analysis An extension of

ICA to multivariate componentsrdquo Proc Int Conf Independent Compon Anal Blind Source Separation 2006 pp 165ndash172

bull [Kim 2007] T Kim H T Attias S-Y Lee and T-W Lee ldquoBlind source separation exploiting higher-order frequency dependenciesrdquo IEEE Trans Audio Speech Lang Process vol 15 no 1 pp 70ndash79 2007

bull [Kitamura1 2014] D Kitamura H Saruwatari K Yagi K Shikano Y Takahashi and K Kondo ldquoMusic signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penaltiesrdquo IEICE Trans Fundamentals of Electronics Communications and Computer Sciences vol E97-A no 5 pp 1113ndash1118 2014

bull [Kitamura2 2014] T Miyauchi D Kitamura H Saruwatari and S Nakamura ldquoDepth estimation of sound images using directional clustering and activation-shared nonnegative matrix factorizationrdquo Journal of Signal Process vol 18 no 4 pp 217ndash220 2014

bull [Kitamura 2015] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S Nakamura ldquoMultichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restorationrdquo IEEEACM Trans on Audio Speech and Lang Process vol 23 no 4 pp 654ndash669 2015

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 73: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

73

参考文献(アルファベット順)( 34 )bull [Kitamura 2016] D Kitamura H Saruwatari H Kameoka Y Takahashi K Kondo and S

Nakamura ldquoDetermined blind source separation unifying independent vector analysis and nonnegative matrix factorizationrdquo IEEEACM Trans Audio Speech Lang Process vol 24 no 9 pp 1626ndash1641 2016

bull [Kulis 2006] B Kulis M Sustik and I Dhillon ldquoLearning low-rank kernel matricesrdquo Proc Int Conf on Machine Learning 2006 pp 505ndash512

bull [Lee 1999] D D Lee and H S Seung ldquoLearning the parts of objects by non-negative matrix factorizationrdquo Nature vol 401 pp 788ndash791 1999

bull [Lee 2000] D D Lee and H S Seung ldquoAlgorithms for non-negative matrix factorizationrdquo Proc Adv Neural Inform Process Syst 2000 vol 13 pp 556ndash562

bull [Ono 2011] N Ono ldquoStable and fast update rules for independent vector analysis based on auxiliary function techniquerdquo Proc IEEE Workshop on Applications of Signal Process to Audio and Acoust 2011 pp 189ndash192

bull [Ono 2012] T Ono N Ono and S Sagayama ldquoUser-guided independent vector analysis with source activity tuningrdquo Proc ICASSP 2012 pp 2417ndash2420

bull [Ozerov 2010] A Ozerov and C Feacutevotte ldquoMultichannel nonnegative matrix factorization in convolutive mixtures for audio source separationrdquo IEEE Trans Audio Speech and Lang Process vol 18 no 3 pp 550ndash563 2010

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)
Page 74: 独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

74

参考文献(アルファベット順)( 44 )bull [Saruwatari 2000] S Kurita H Saruwatari S Kajita K Takeda and F Itakura ldquoEvaluation

of blind signal separation method using directivity pattern under reverberant conditionsrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2000 pp 3140ndash3143

bull [Saruwatari 2006] H Saruwatari T Kawamura T Nishikawa A Lee and K Shikano ldquoBlind source separation based on a fast-convergence algorithm combining ICA and beamformingrdquo IEEE Trans Audio Speech Lang Process vol 14 no 2 pp 666ndash678 Mar 2006

bull [Sawada 2004] H Sawada R Mukai S Araki and SMakino ldquoConvolutive blind source separation for more than two sources in the frequency domainrdquo Proc IEEE Int Conf Acoust Speech Signal Process 2004 pp III-885ndashIII-888

bull [Sawada 2013] H Sawada HKameoka SAraki and N Ueda ldquoMultichannel extensions of non-negative matrix factorization with complex-valued datardquo IEEE Trans Audio Speech Lang Process vol 21 no 5 pp 971ndash982 2013

bull [Smaragdis 1998] P Smaragdis ldquoBlind separation of convolved mixtures in the frequency domainrdquo Neurocomputing vol 22 pp 21ndash34 1998

bull [Smaragdis 2007] P Smaragdis B Raj and M Shashanka ldquoSupervised and semi-supervised separation of sounds from single-channel mixturesrdquo Proc ICA 2007 pp 414ndash421

  • 独立性に基づくブラインド音源分離の発展と 独立低ランク行列分析 History of independence-based b
  • 自己紹介
  • 発表の概要
  • 発表の概要 (2)
  • 研究の背景音源分離問題
  • 研究の背景音源分離問題の種類
  • 研究の背景歴史的発展
  • 発表の概要 (3)
  • ブラインド音源分離と独立成分分析
  • 独立成分分析(ICA)おさらい
  • 独立成分分析(ICA)おさらい (2)
  • 独立成分分析(ICA)おさらい (3)
  • 音源の分布音声
  • 音源の分布ピアノ音
  • 音源の分布ドラム音
  • 耐残響性の向上周波数領域ICA(FDICA)
  • 耐残響性の向上周波数領域ICA(FDICA) (2)
  • 耐残響性の向上周波数領域ICA(FDICA) (3)
  • 耐残響性の向上周波数領域ICA(FDICA) (4)
  • 到来方向を用いたパーミュテーション解決
  • FDICAによる音源分離のメカニズム
  • FDICAの分離フィルタとABFの分離フィルタ
  • 独立ベクトル分析(IVA)
  • IVAにおける音源分布と高次相関
  • IVAにおける音源分布と高次相関 (2)
  • FDICAとIVAの分離原理比較
  • 発表の概要 (4)
  • 非負値行列因子分解の音響信号への適用
  • NMFのパラメータ推定
  • NMFの音響信号への応用例
  • NMFと音楽信号の相性
  • 音楽信号は本当に低ランク
  • 音楽信号は本当に低ランク (2)
  • 板倉斎藤擬距離基準NMF(ISNMF)
  • 板倉斎藤擬距離基準NMF(ISNMF) (2)
  • 板倉斎藤擬距離基準NMF(ISNMF) (3)
  • 板倉斎藤擬距離基準NMF(ISNMF) (4)
  • NMFの多チャネル信号への拡張
  • NMFの多チャネル信号への拡張 (2)
  • 空間相関行列とは
  • 空間相関行列のランク
  • NMFの多チャネル信号の最適化
  • 発表の概要 (5)
  • 動機
  • 様々な非ガウス分布を仮定したIVA
  • 「低ランク性」の音源モデルへの導入
  • 提案手法IVAとNMFを融合した新しいBSS
  • 提案手法IVAとNMFを融合した新しいBSS (2)
  • ILRMAのコスト関数と潜在変数の導入
  • ILRMAの最適化
  • ILRMAの更新のイメージ
  • 多チャネルNMFとILRMAの関連性
  • 多チャネルNMFとILRMAの関連性 (2)
  • 多チャネルNMFとILRMAの関連性 (3)
  • IVA多チャネルNMFILRMAの関連性
  • 尤度関数の比較
  • 歴史的発展(再掲)
  • 従来手法とILRMAの性能評価
  • 音楽音源分離実験の条件
  • 実験結果 fort_minor-remember_the_name
  • 実験結果 ultimate_nz_tour
  • 各手法の性能と計算コストの比較例
  • 音声音源分離実験の条件
  • 実験結果 female3_liverec_1m
  • 実験結果 male3_liverec_1m
  • 各手法の性能の主観評価による比較
  • 考察
  • 音源分離デモンストレーション音楽分離の例
  • 発表の概要 (6)
  • より高精度なブラインド音源分離を目指して
  • 参考文献(アルファベット順)(14)
  • 参考文献(アルファベット順)(24)
  • 参考文献(アルファベット順)(34)
  • 参考文献(アルファベット順)(44)