asj2017 3 bileveloptnmf

2017年日本音響学会春季研究発表会

NMFにおける識別的基底学習のための

２段階最適化

☆遠藤宣明（東大），中嶋広明（東大），高宗典玄（東大），

高道慎之介（東大），猿渡洋（東大），小野順貴（NII / 総研大），

高橋祐（ヤマハ），近藤多伸（ヤマハ）

非負値行列因子分解（NMF）

• NMF [Lee & Seung, 1999]

– 非負値行列を非負値行列の積に低ランク近似

– 画像処理、自動採譜など応用先は様々

– 音源分離の場合，音源のスペクトログラムを基底行列と

アクティベーション行列に分解

Time

Time

Freq

uen

cy

𝑭 𝑮

𝑡

𝒀

𝑡

Freq

uen

cy

Am

plit

ud

e

Amplitude

観測行列 (スペクトログラム)

基底行列 (頻出スペクトルパターン)

アクティベーション行列 (時間的なゲイン変化)

𝑓 : 周波数ビン数 𝑡 : 時間フレーム数 𝑘 : 基底数

2/17

音源分離と教師ありNMF

• 教師ありNMF（supervised NMF: SNMF）[Smaragdis et al., 2007]

– 教師基底に重複する特徴が多い場合，分離性能が低下

分離プロセス教師基底𝑭,𝑯を固定して𝑸,𝑿を構成

𝒀mix

学習プロセス目的の楽器の教師音を用いて学習した基底行列

特徴が重複しないように基底を学習させて、分離性能を向上させたい

＝

𝑯 𝑼

𝑭 𝑮

𝑭 𝑸

𝑯 𝑿

3/17

２段階最適化問題としての音源分離問題

• ２段階最適化問題 – 下位制約関数が最適化問題で記述されている – ２つの最適化問題の変数が互いに入れ子構造を形成

𝑭 = argmin𝑭 ,𝑮

𝔇KL 𝒀𝟏 𝑭 𝑮 , 𝑯 = argmin𝑯 ,𝑼

𝔇KL 𝒀𝟐 𝑯 𝑼

s. t. 𝑮, 𝑼 = argmin𝑮 ,𝑼

𝔇KL 𝒀mix 𝑭 𝑮 + 𝑯 𝑼

上位目的関数教師音𝒀𝟏, 𝒀𝟐から教師基底𝑭,𝑯をNMFで学習

下位制約関数アクティベーション行列𝑮,𝑼は混合音𝒀mixをよく表現できる

4/17


• 従来研究 [Weninger et al., 2014]

– 仮定を設け，問題を緩和→厳密性を損なう












𝔇KL 𝒀mix 𝑭(∗)𝑮 + 𝑯(∗)𝑼

𝑭(∗) = argmin𝑭 , 𝑮

𝔇KL 𝒀𝟏 𝑭 𝑮 , 𝑯(∗) = argmin𝑯 , 𝑼


5/17

下位制約関数中の基底行列𝑭 ∗ , 𝑯(∗)を事前学習したものから動かさない


• 提案手法

– 下位問題を等式制約に置き換える

– 非負値制約付きのargminによる問題をどう等式制約とするか？

– 等式制約を罰金関数化して、上位目的関数に組み込む

下位問題はNMFの形→独立に解くと乗算更新式が得られる（更新係数が非負であれば非負値制約を満たしたまま解が得られる） →乗算更新式の等号が成り立てば更新が停留する →停留に関する等式制約が得られる＋非負値制約も解決

min𝑭,𝑮,𝑯,𝑼

𝔇KL 𝒀𝟏 𝑭𝑮 +𝔇KL 𝒀𝟐 𝑯𝑼 + 𝛼𝐺𝐶𝐺 + 𝛼𝑈𝐶𝑈

上位目的関数罰金関数項








6/17

乗算更新式による罰金関数の導出

補助関数法で下位問題を解いたときの 𝑮の乗算更新式

　　　　　　　　　

𝐺𝑘,𝑡 ← 𝐺𝑘,𝑡

𝑌mix𝜔,𝑡𝐹𝜔,𝑘

𝐹𝜔,𝑘′𝑘′ 𝐺𝑘′,𝑡 + 𝐻𝜔,𝑙′𝑈𝑙′,𝑡𝑙′𝜔

𝐹𝜔,𝑘𝜔 乗算更新式

下位目的関数の停留点では更新式の「←」は等号になるはず

等式制約 𝐺𝑘,𝑡 = 𝐺𝑘,𝑡



𝐹𝜔,𝑘𝜔

罰金関数 𝐶𝐺 = 𝐺𝑘,𝑡2



𝐹𝜔,𝑘𝜔− 1

2

𝑡𝑘

両辺の差の２乗が罰金関数

𝐶𝑈についても同様に定められる． 7/17

最適化問題の求解

• 罰金付きの目的関数を非負値制約の下で解かねばならない

– 通常のNMFのように補助関数法で解くことが困難

→ 乗算型の最急降下法[Fevotte et al., 2009]で解く

𝜕

𝜕𝐹Ω,𝐾𝔇KL 𝒀𝟏 𝑭𝑮 + 𝔇KL 𝒀𝟐 𝑯𝑼 + 𝛼𝐺𝐶𝐺 + 𝛼𝑈𝐶𝑈

= 𝐺𝐾,𝑡 −𝑌1Ω,𝑡𝐺𝐾,𝑡

𝐹Ω,𝑘′𝐺𝑘′,𝑡𝑘′𝑡

+⋯⋯⋯⋯⋯⋯⋯⋯ 項別に展開、整理

= 𝐺𝐾,𝑡𝑡

+⋯⋯⋯⋯ − 𝑌1Ω,𝑡𝐺𝐾,𝑡


+⋯⋯⋯⋯

正の項の和負の項の和 = Δ𝑓+ − Δ𝑓−

最急降下法の式

𝐹Ω,𝐾 ← 𝐹Ω,𝐾 − 𝜂(Δ𝑓+ − Δ𝑓−) ステップ幅の設定

𝜂 =𝐹Ω,𝐾Δ𝑓+

乗算型最急降下法

𝐹Ω,𝐾 ← 𝐹Ω,𝐾 ×Δ𝑓−

Δ𝑓+

非負制約を容易に解決

非負の更新係数

8/17

最適化問題の求解

Δ𝑓− = 𝑌1Ω,𝑡𝐺𝐾,𝑡


+ 2𝛼𝐺 𝐺𝑘,𝑡2

𝑘,𝑡

𝑌mix 𝜔,𝑡𝜔 𝐹𝜔,𝑘 𝐹𝜔,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻𝜔,𝑙′𝑈𝑙′,𝑡𝑙′−1𝑌mix Ω,𝑡𝐹Ω,𝑘𝐺𝐾,𝑡

𝐹𝜔,𝑘𝜔2 𝐹Ω,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′𝑈𝑙′,𝑡𝑙′

2

+ 2𝛼𝐺 𝐺𝐾,𝑡2

𝑡

𝑌mix Ω,𝑡

𝐹𝜔,𝐾 𝐹Ω,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′𝑈𝑙′,𝑡𝑙′𝜔


𝑡

𝑌mix 𝜔,𝑡𝜔 𝐹𝜔,𝐾 𝐹𝜔,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻𝜔,𝑙′𝑈𝑙′,𝑡𝑙′−1 2

𝐹𝜔,𝐾𝜔3 𝐹Ω,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′𝑈𝑙′,𝑡𝑙′

+ 2𝛼𝑈 𝑈𝑙,𝑡2

𝑙,𝑡

𝑌mix 𝜔,𝑡𝜔 𝐻𝜔,𝑙 𝐹𝜔,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻𝜔,𝑙′𝑈𝑙′,𝑡𝑙′−1𝑌mix Ω,𝑡𝐻Ω,𝑙𝐺𝐾,𝑡

𝐻𝜔,𝑙 𝐹𝜔,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻𝜔,𝑙′𝑈𝑙′,𝑡𝑙′2

𝜔

Δ𝑓+ = 𝐺𝐾,𝑡𝑡

+ 2𝛼𝐺 𝐺𝑘,𝑡2

𝑘,𝑡

𝑌mix Ω,𝑡𝐹Ω,𝑘𝐺𝐾,𝑡

𝐹𝜔,𝑘 𝐹𝜔,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻𝜔,𝑙′𝑈𝑙′,𝑡𝑙′2

𝜔


𝑡

𝑌mix 𝜔,𝑡𝜔 𝐹𝜔,𝐾 𝐹𝜔,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻𝜔,𝑙′𝑈𝑙′,𝑡𝑙′−1

𝐹𝜔,𝐾𝜔2


𝑡

𝑌mix 𝜔,𝑡𝜔 𝐹𝜔,𝐾 𝐹𝜔,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻𝜔,𝑙′𝑈𝑙′,𝑡𝑙′−1𝑌mix Ω,𝑡

𝐹𝜔,𝐾𝜔2 𝐹Ω,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻Ω,𝑙′𝑈𝑙′,𝑡𝑙′

+ 2𝛼𝑈 𝑈𝑙,𝑡2

𝑙,𝑡

𝑌mix Ω,𝑡𝐻Ω,𝑙𝐺𝐾,𝑡

𝐻𝜔,𝑙 𝐹𝜔,𝑘′𝐺𝑘′,𝑡𝑘′ + 𝐻𝜔,𝑙′𝑈𝑙′,𝑡𝑙′2

𝜔

Δ𝑓−, Δ𝑓+の第１項のみを考えると（つまり𝛼𝐺 = 𝛼𝑈 = 0のとき）SNMFに相当する

𝜕

𝜕𝐹Ω,𝐾𝔇KL 𝒀𝟏 𝑭𝑮

9/17

罰金関数の設定

• 罰金関数の候補

(2) 𝐶𝐺≡ 𝐺𝑘,𝑡




2

𝑡𝑘

(1) 𝐶𝐺 ≡ 𝐺𝑘,𝑡2




2

𝑡𝑘

各行列は非負値行列なので(2) のように𝐶𝐺を定めても罰金関数として成立する．他にも様々なバリエーションが考えられる．

10/17

トイモデルに対する実験

• 実験条件

– 乱数シードは固定

– 個別教師音𝒀𝟏, 𝒀𝟐：各要素が形状母数0.4, 尺度母数1のガ

ンマ分布に従う行列𝑭,𝑮,𝑯,𝑼の積を生成し，これにガウス

ノイズ（平均0、分散10−4）を加えたもの

– 𝑭𝑮,𝑯𝑼のサイズは65×100，ランクは10

– 混合教師音は𝒀𝟏 + 𝒀𝟐に一様乱数で生成した位相を加えた

もの

– NMFの際の行列の基底数は５

– 各行列の初期値は乱数で生成（乱数シードは固定）

11/17


• 混合音源に対する目的関数値

𝔇KL 𝒀𝐦𝐢𝐱 𝑭𝑮 +𝑯𝑼 のグラフ（重み係数 = 10）

KKT条件由来の更新則

SNMF

※KKT条件由来の更新則：下位問題を不等式制約付き最適化問題とみなして， KKT条件から導かれる等号条件を罰金化して得られる更新則

乗算更新式由来の更新則

• 下位制約の効果でSNMFよりも最適な解へ収束している． • KKT条件由来の更新則は収束が遅い．

12/17

罰金関数(1) 罰金関数(2)


• 個別音源に対する目的関数値

𝔇KL 𝒀𝟏 𝑭𝑮 のグラフ（重み係数 = 10）

KKT条件由来の更新則

SNMF

※KKT条件由来の更新則：下位問題を不等式制約付き最適化問題とみなして， KKT条件から導かれる等号条件を罰金化して得られる更新則

乗算更新式由来の更新則

• 下位制約により，SNMFに比べて上位目的関数値は増加する． • KKT条件由来の更新則は収束が遅い．

13/17

罰金関数(1) 罰金関数(2)

実データに対する実験

• 実験条件（訓練時）

– 個別音の訓練データ𝒀𝟏, 𝒀𝟐：２つの楽器の24音階分のMIDI信

号（YAMAHA）𝑦1 𝑡 , 𝑦2(𝑡)の振幅スペクトログラム．

– 各信号のサンプリング周波数は44.1 kHz, STFTの窓長は

1024 点，Hanning窓を使用

– 訓練データ中の音階数は24

– 混合教師音𝒀𝟑は𝑦1 𝑡 + 𝑦2(𝑡)の振幅スペクトログラム

– 基底行列の基底数は100

– 各行列の初期値は乱数で生成（乱数シードは固定）

– 評価指標：signal to distortion ratio (SDR)

• SN比と信号の歪みの両方を考慮した指標

• ダイナミックレンジが狭く人間は0.5 dB差も知覚可能

14/17

実データに対する実験

• 実験条件（分離時）

– テストデータとして２つの楽器音𝑦1t 𝑡 , 𝑦2

t 𝑡 からなる曲

[Kitamura et al., 2014] 𝑦t 𝑡 = 𝑦1t 𝑡 + 𝑦2

t 𝑡 を与え，そのスペ

クトログラム𝒀𝐭に対して個別教師音に対するNMFおよび提案手

法で推定した基底行列を用いてSNMFを行う．

– 10種類の初期値から計算を行い，平均SDRで分離度評価

15/17

実験結果

• 平均SDR [dB]

楽器の組

楽器１ SNMF

楽器１ Proposed

楽器2 SNMF

楽器２Proposed

Fg & Fl 13.5 14.6 13.8 17.0

Fg & Hp 16.6 18.2 5.80 8.59

Fg & Hr 4.03 5.24 6.39 6.53

Fl & Hp 15.7 16.2 4.21 5.55

Fl & Hr 3.37 7.14 5.02 8.25

Hp & Hr 3.60 5.27 16.4 17.2

Average 9.48 11.1 8.61 10.5

• SNMFに比べ分離精度が大幅に改善された．

16/17

まとめ

• 識別的基底学習を定式化した２段階最適化問題に対して，

下位制約関数の停留点条件を利用して局所最適解を導出

した．

• NMFで用いられる乗算更新式の停留条件に着目し，等式

制約を導き，罰金関数として上位目的関数に組み込んだ．

• 実データの音源分離において，平均SDRがSNMFに比べ

実験的に改善された．

17/17

asj2017 3 bileveloptnmf

Engineering