:t,nxw!qq ft,nxw`ms‾mowu|hil.t.u-tokyo.ac.jp/publications/download.php?bib=... · :t,nxw!qq...

複数スペクトログラムに基づく信号の変動スペクトル表現とそれに基づく信号の新しい分析・分離手法の検討Multi-spectrogram-based Fluctuation Representation of Signal

and Its Application to New Signal Analysis and Separation

橘秀幸 † 小野順貴 † 嵯峨山茂樹 †

†東京大学大学院情報理工学系研究科

Hideyuki TACHIBANA† Nobutaka ONO† Shigeki SAGAYAMA†

†Graduate School of Information Science and Technology, The University of Tokyo.

アブストラクト本研究では，スペクトログラム解像度

表現という新しい信号の分解表現とそれに基づく音響信

号の分析・加工手法について報告する．我々はこれまで，

スペクトログラムを縦方向成分，横方向成分に分離する

ことにより，信号を定常・狭帯域成分と非定常・広帯域

成分に分離する HPSSという手法を研究・開発してきた．本手法では HPSSを複数のフレーム長での分析により得られたスペクトログラムに対し適用することにより，任

意の信号を，定常・狭帯域成分から非定常・広帯域成分に

段階的に分離する．本手法により，時間領域，周波数領域

とも異なる新たな信号分解表現が得られ，音楽信号と音

声信号を分離するような処理が可能になることを示す．

1 はじめに

様々な時変な成分が混合する音響信号において，これ

らの各成分の変動の大きさには，しばしば重要な意味が

ある．このため，信号の各成分を変動の大きさごとに分

離・分析・加工する技術が重要と考えられる．本研究で

は，信号を定常・狭帯域的成分と非定常・広帯域的成分と

に分離する手法である調波打楽器音分離 (Harmonic andPercussive Sound Separation, HPSS) [5]を複数のフレーム長でのスペクトログラム上で多重的に用いることによ

り，音響信号を変動の大きさごとに分離する手法を提案

する．

信号の時間変動の大きさに応じた分析・分離に関しては，

特に音声認識における音声の変調の周波数の重要性が指摘

されており [1]，変調スペクトル (modulation spectrum)上での音声強調などの処理が提案されている．その例とし

て，1 – 12 Hz 程度の変調成分を強調する特性をもつフィルタである RelAtive SpecTrAl processing (RASTA)[2]や，3 – 22 Hz程度の変調成分を強調する特性をもつMel-cepstrum Modulation Spectrum (MCMS)[3]などを挙げることができる．また，複数のフレーム長を用いた信号

処理に関しては，様々なフレーム長（時間周波数分解能）

によるスペクトログラム表現の利点と欠点を補い合うこ

とにより，通常の離散フーリエ変換よりも高精度でピッチ

などの情報を推定することなどが検討されており，その

一例として，音楽中のメロディのピッチ情報を複数フレー

ム長の離散フーリエ変換により高精度で求めることを検

討した研究 [4]などが挙げられる．

本研究においては，信号を変動ごとに分離する手法の

新しい枠組みとして，分離性能がスペクトログラムの分

解能に依存する信号分離手法を様々な分解能のスペクト

ログラム上で適用することにより，信号の変動に関する

ある種のフィルタバンクを構成することを考える。この

とき，定常・狭帯域成分と非定常・広帯域成分とを分離

する手法である HPSSにおいて，定常・狭帯域性と非定常・広帯域性は相対的なものであり，基準とする尺度に

よって同じ音が定常・狭帯域とも非定常・広帯域とも見な

されうることに着目し，様々な方法で分離した際の信号

を適当に組み合わせることにより，信号の時間変動の大

きさに概ね基づく分離について検討する．実際，著者ら

はこれまでの研究において，HPSSを 2段階に用いることにより歌声にほぼ相当する成分を強調/抑圧する手法を提案している [6]。

本論文では HPSSを 2段階で適用する枠組みをさらに拡張し，さらに多くの条件でのHPSSによって信号をより細かく分解する方法を提案する．また，これにより変動の

大きさと概ね対応するパラメータを持った分離信号が得る

こと，およびそのパラメータを用いることによって，周波

数表現や時間周波数表現などとは異なる新しい信号の表

現が可能となることを示す．また，その信号表現を用いる

ことにより，従来の周波数領域や時間周波数領域での処理

と同様の要領で，従来とは異なった信号の分析・分離がで

きることを示す．また，実際に分析・分離した例を示す．

第25回信号処理シンポジウム 2010年11月24日～26日(奈良)

- 171 -

図 1: HPSSの処理の手順．HPSSでは信号 s(t)をフレーム長 lk でSTFT して得られる振幅スペクトログラム S 上で，スペクトログラムをH,Pに分離し，逆 STFTすることにより，定常・狭帯域的成分 h(t)と非定常・広帯域的成分 p(t) とを分離する．

2 調波打楽器音分離 (HPSS)の概要

調波打楽器音分離 (HPSS)では，信号 s(t)を定常的・狭帯域的な成分 h(t)と，非定常的・広帯域的な成分 p(t)との和，すなわち

s(t) = h(t) + p(t) (1)

として表わすことを考える．HPSSでは，h(t)と p(t)の短時間フーリエ変換 (STFT)スペクトログラム表現H =Ht,ω1≤t<T,1≤ω<Ω,P = Pt,ω1≤t<T,1≤ω<Ω の振幅の時

間方向および周波数方向への「滑らかさ」に着目し，そ

れに基づいて h(t)の定常・狭帯域性と p(t)の非定常・広帯域性を評価し，それを最適化することによって両者を

分離する．

具体的には，与えられたスペクトログラムを Sとした

とき，次のような目的関数

J(H,P) =T−1∑t=1

Ω∑ω=1

1σ2

1

(|Ht+1,ω| − |Ht,ω|)2

+T∑

t=1

Ω−1∑ω=1

1σ2

2

(|Pt,ω+1| − |Pt,ω|)2

+T∑

t=1

Ω∑ω=1

I(|St,ω|2, |Ht,ω|2 + |Pt,ω|2

)(2)

を最小化することによりH,Pを求める．ただし，

I(y, x) =

y logy

x− y + x

(3)

とする．ここで，目的関数の第 1項はスペクトログラムHの時間方向への滑らかさに関するコスト関数となって

いる．同様に第 2項はスペクトログラム Pの周波数方向

への滑らかさに関するコスト関数となっている．また，第

3項はスペクトログラム SとH + Pの隔たりに関するコ

スト関数であり，I-ダイバージェンスにより評価される．

HPSSでは，目的関数 (式 2)を EMアルゴリズムに類似した技法により導かれる更新式を反復することにより

最小化し，スペクトログラム Sを定常・狭帯域なHと非

定常・広帯域な Pに分離し，これにより得られた振幅ス

図 2: n 種の異なるフレーム長により得られた n 種の異なるスペクトログラム上における HPSS の適用によって，s(t) は n 通りに分離され，2n 個の成分 hk(t), pk(t)1≤k≤n が得られる．このうち，n − 1個は残りの n + 1 に従属である．これら n + 1 個の信号を線形変換することにより xk(t)1≤k≤n+1 が得られる．このときこれらの和は原信号 s(t) に一致する．

ペクトログラムを用いたウィーナーマスキングにより，複

素スペクトログラムH,Pを以下のように推定する．

Ht,ω :=|Ht,ω|2

|Ht,ω|2 + |Pt,ω|2 St,ω (4)

Pt,ω :=|Pt,ω|2

|Ht,ω|2 + |Pt,ω|2 St,ω. (5)

また，これらを逆短時間フーリエ変換することにより，

h(t), p(t)を得ることができる．（図 1）

3 変動スペクトルと時間-変動表現

3.1 複数の STFT上でのHPSSに基づく信号分離

HPSSでは，スペクトログラム上の隣接 binとの差分情報を用いることにより信号を分離しているが，STFTにおいては様々なフレームの取り方が可能であり，そのそ

れぞれによって HPSSの分離結果は異なったものになる．特に重要な要素のひとつが，STFTにおけるフレーム

長であり，HPSSの分離結果は STFTのフレーム長に依存する．例えば歌声のようにピッチがあり，かつゆらぎの

ある音は，十分短いフレームで観測すれば定常・狭帯域

的であるが，十分長いフレームで観測すれば非定常的で

あり，また変調の効果によりスペクトログラムは広帯域

となる．すなわち，歌声信号は短いフレーム長の STFT領域上では h(t)へ，長いフレーム長の STFT領域上ではp(t)へ，それぞれ分離されやすい [6]．一般に，信号 s(t)に対して，異なった n通りのフレー

ム長 l1 < · · · < ln のそれぞれの STFT 領域上で HPSSを適用することにより，n通りの異なった分離信号が得ら

れ，信号の 2n次元表現

[h1(t) p1(t) · · · hn(t) pn(t)]T (6)

が得られる．

- 172 -

ところでHPSSでは pk(t)が決まれば同時に hk(t)も決まるから，このような 2n次元の表現は冗長である．すな

わち，hk(t)1≤k≤n は全て s(t)と pk(t)1≤k≤n から求

めることができるから，n + 1次元の情報

p(t) := [p1(t) p2(t) · · · pn(t) s(t)]T (7)

で十分である．さらに，フレーム長 lk の STFT 領域上で P的である成分は，それよりも長いフレーム長 lk+1の

STFT領域上でも P的である可能性が高いと考えられることから，両者の P的成分同士の差分 pk+1(t)− pk(t)がより本質的な情報であると考えられる．すなわち，p(t)を次のように変換することにより得られる差分情報 x(t)がより本質的であると考えられる．（図 2）

x(t) =

x1(t)......

xn+1(t)

=

1

−1. . .. . . . . .

−1 1

p(t). (8)

なお，このとき x(t)の各成分の和は原信号 s(t)に一致する．すなわち，

s(t) =n+1∑

k=1

xk(t). (9)

これにより，x(t)は s(t)を分解した表現になっている．このときx(t)の各成分 xk(t)は，概ね lk程度のスケー

ルで変動している成分であると考えることができる．これ

は，いま仮にフレーム長 lm1のスケールにおいてP的な成分は全て，フレーム長 lm2(> lm1)のスケールにおいてもP的であると仮定できるとすると，xm(t) = pm(t)−pm−1(t)より，xm(t)には，フレーム長 lm−1以下では P的ではなく（すなわちH的であり），フレーム長 lmで初めて P的となるような成分が抽出されていることになるためであ

る．そこで以下では，x(t)の各成分の添え字変数を kで

表記し，この k を本論文では変動と呼ぶこととする．な

お，kはフレーム長の対数に相当する．

3.2 信号の変動スペクトル表現と時間-変動表現

以上によって得られる x(t)のうちどの成分が強く現れているかを調べることにより，信号の変動に関する特徴

を調べることができると考えられる．その方法の一例と

して，各成分のパワー

X(k) =∫

xk(τ)2dτ (10)

が挙げられる．本論文ではこれを変動スペクトルと呼ぶ

こととする．これは，通常のスペクトル表現

X(ω) =∣∣∣∣∫

x(τ)e−jωτdτ

∣∣∣∣2

(11)

と同様の要領で信号の分析・分離に利用することができ

ると考えられる．すなわち，変動スペクトル領域上では，

通常の周波数領域上での信号処理手法と同様に，例えば

バンドパスフィルタと類似した方法により，信号に含ま

れる特定の変動成分のみを強調するように信号を加工す

るような処理ができると考えられる．

他の例として，変動スペクトルが時間情報を失ってい

るという欠点を補うために，適当な窓関数 w(t)により信号を時間局在化した変動スペクトル表現

Xt,k =∫xk(τ)w(t− τ)2dτ (12)

を考えることもできる．本論文ではこれを信号の時間-変動表現と呼ぶこととする．これは，短時間フーリエ変換

による時間 (t)-周波数 (ω)表現

Xt,ω =∣∣∣∣∫

x(τ)wt(t− τ)e−jωτdτ

∣∣∣∣2

(13)

と同様の要領で信号を扱うことができると考えられる．こ

れにより，時間-周波数領域上でどの時刻にどの周波数が強く現れているのかを分析できるのと同様に，時間-変動領域上ではどの時刻でどの変動成分が強く現れているか

を分析することができると考えられる．

4 変動スペクトルと時間-変動表現に基づく信号の分析・

分離実験

4.1 実験条件

前節にて示した信号の変動スペクトル表現の，信号の

分析・分析に用いる領域としての妥当性や，これらの音

響特徴量としての妥当性を検証するため，実際の音響信

号に対して本手法により変動スペクトルと時間-変動表現を求め，信号を表示・分析・分離する実験を行った．

実験には新聞記事読み上げ音声コーパス（JNAS）[7]，RWC研究用音楽データベース [8]，および建築と環境のサウンドライブラリ (SMILE2004)[9] より数データを抜粋して使用した．いずれも簡単のためサンプリング周波数

8 kHzでリサンプリングし，両チャンネルを加算してモノラル信号として用いた．また，いずれの信号もフレーム

長が長い場合の HPSSを行うにあたって十分な長さ（10秒程度）になるように，元データの長さが短い場合は適

当な回数だけ繰り返すように編集した．

STFT のフレーム長は lk = 64 × 2k [samples] (1 ≤k ≤ 8), すなわち 128, · · · , 16384 [samples] (16, · · · , 2048[ms])とした．分散 σ2

1 , σ22はいずれも (0.3)2とした．また，

HPSSのスライディング分析におけるブロック数は 30とし，後処理として連続値マスキングを施した．これらは

いずれも，フレーム長を除き通常の HPSS[5]と同じ条件である．

- 173 -

4.2 変動スペクトルとそれに基づく信号の分析・分離

4.2.1 音声信号の変動スペクトル

新聞記事読み上げ音声コーパス（JNAS）より抜粋した男声，女声それぞれ 10話者の各 1データずつに関して変動スペクトルを求めた結果を図 3,4に示す．

男声，女声合わせた 20話者のほとんどのデータにおいて，変動スペクトルは，話者に関わらず k = 3, 4程度（すなわちフレーム長 64[ms], 128[ms]程度）の成分に大部分のパワーが集中していること，k = 5, 6, 7, 8にはあまり強く現れないことなど，概ね同様な傾向を示していること

が観察できる．

4.2.2 音楽信号の変動スペクトル

RWC 研究用音楽データベースよりポピュラー音楽，RWC-MDB-P-2001 No. 1 – No. 10, クラシック音楽（管弦楽曲）RWC-MDB-C-2001 No. 1 – No.10, クラシック音楽（ピアノ曲）RWC-MDB-C-2001 No. 26 – No. 35,ジャズ RWC-MDB-J-2001 No.1 – No.10 を抜粋し，各曲冒頭 10秒のそれぞれに関して変動スペクトルを求めた結果を図 5 – 8に示す．

いずれのジャンルも，音声に比較すると比較的広い k

にパワーが分散していることが観察できる．また，特に

ピアノ曲，管弦楽曲，ジャズに関しては，いずれの曲も，

k = 5, 6, 7程度にパワーが集中する傾向にあることが観察できる．

4.2.3 変動スペクトル上での音声と音楽の分離実験

4.2.1, 4.2.2節で見たように，音声と音楽では変動スペクトルの形状が異なっている．このことを利用すると，k

軸上でバンドパスフィルタに類似した処理を行うことに

より，音声と音楽が分離できると考えられる．本節では，

音楽信号を音声信号を混合した信号を変動スペクトル領

域上で分離する実験を行った例を示す．

実験に用いたデータは，音声，音楽ともに建築と環境の

サウンドライブラリ (SMILE2004)からの抜粋で，日本語女性朗読音声（s13104.wav）と弦楽四重奏（s12202.wav）である．本実験では両者を 0 dB で混合して用いた．混合信号の変動スペクトルを図 9，スペクトログラムを図 10に示す．

混合信号の変動スペクトルにおいて，k = 3, 4におけるピークは混合信号に含まれる音声の性質に由来している

と考えられる．一方，それ以外の kでは，全体にパワーが

分散しながらも k = 6を中心にパワーが集中しやすいという傾向が見られ，これは音楽の性質と考えられる．そ

こで，ローパスフィルタに類似した次のようなフィルタ

a = [1.0 1.0 1.0 0.7 0.3 0 0 0 0]T (14)

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

k (log frame length)

Pow

er [d

B]

図 3: 男性 10話者分の音声を分析した変動スペクトル

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5


Pow

er [d

B]

図 4: 女性 10話者分の音声を分析した変動スペクトル

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5


Pow

er [d

B]

図 5: クラシック音楽（ピアノ曲）10曲，各 10秒を分析した際のそれぞれの変動スペクトル

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5


Pow

er [d

B]

図 6: クラシック音楽（管弦楽曲）10曲，各 10秒を分析した際のそれぞれの変動スペクトル

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5


Pow

er [d

B]

図 7: ポピュラー音楽 10曲，各 10秒を分析した際のそれぞれの変動スペクトル

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

2 4 6 8

−15

−10

−50

5

k (log of frame length)

Pow

er [d

B]

図 8: ジャズ 10 曲，各 10秒を分析した際のそれぞれの変動スペクトル

2 4 6 8

−15

−10

−50

5


Pow

er [d

B]

図 9: 混合信号の変動スペクトル

- 174 -

図 10: 音声信号と音楽信号の混合信号のスペクトログラム．

図 11: 変動スペクトル領域上でのフィルタリングにより得られた v(t)のスペクトログラム．信号中の音声信号の SNR は 6.03 dB.

図 12: 変動スペクトル領域上でのフィルタリングにより得られた m(t)スペクトログラム．信号中の音楽信号の SNR は 6.30 dB.

を考え，これを x(t)にかけることにより，音声 v(t)と音楽 m(t)をある程度分離することができると考えられる．すなわち．

v(t) = aTx(t), m(t) = (1− a)Tx(t) (15)

これにより得られたそれぞれの信号 v(t), m(t)のスペクトログラムを，それぞれ図 11, 12に示す．推定された音声信号 v(t)，音楽信号 m(t)のいずれのスペクトログラムに関しても，それぞれ音楽，音声に相当する成分の大部分が

抑圧されていることが観察できる．なお，このとき得られ

た信号のそれぞれにおいて，v(t)中の音声信号の SNRは6.0 dB, m(t)中の音楽信号の SNRは 6.3 dB であった．

4.3 時間-変動表現とそれに基づく信号分析・分離

4.3.1 音声と音楽の時間-変動表現に基づく信号分析

前節で使用したものと同じ音声，音楽信号，および両者

の混合信号に関して時間-変動表現を求めた結果を図 13, 14に示す．日本語女性朗読音声（図 13）の時間-変動領域表現では，変動スペクトル領域表現と同様に，概ね k = 3, 4, 5に強い成分が現れやすいことが観察できる．一方，非定

常的・広帯域的な成分がある時刻では，実際に k = 1, 2など小さな kに強い成分が現れていることが観察できる．

弦楽四重奏（図 14）の時間-変動領域表現では，変動スペ

図 13: 音声信号（日本語女性朗読音声）のスペクトログラムと時間-変動表現．

図 14: 音楽信号（弦楽四重奏）のスペクトログラムと時間-変動表現．

クトル領域表現と同様に，概ね k = 5, 6, 7などの成分が強い一方，5-7 [s]付近のように，高域にゆらぎがあるなど非定常性が強い時刻には，より小さな k = 3, 4にも強い成分が現れていることが観察できる．

4.3.2 音声と音楽の混合信号の時間-変動表現に基づく

信号分離

両者の混合信号の時間-変動表現を図 15に示す．ここで，図 15から適当な成分のみを取り出すことにより，信号を分離することができると考えられる．今，適当な方

法により図 16のようなマスクが得られたとする．（なお本論文では，混合前の信号の時間-変動表現が既知のものとして，それを利用することによりマスクを設計した．）こ

のマスクを用いて時間-変動表現上でマスキングを行った結果を図 17に，さらにこの時間-変動表現に基づいて再合成された信号のスペクトログラムを図 18に示す．図 17,18を観察すると，信号が効果的に分離されていることが確認できる．なお，推定された音声信号中の真の音声信

号の SNRは 5.8 dB 推定された音楽信号中の真の音楽信号の SNRは 5.9 dB であった．

5 まとめ・今後の展望

本稿では，フレーム長の異なる複数の STFT上で，定常的・狭帯域的成分と非定常的・広帯域的成分とを分離す

る手法 HPSSを並列的に適用することにより，信号を概ね変動の大きさに対応して分離する，新しい信号の分離

手法「変動スペクトル」を提案した．また，ここで得られ

る分解信号を用いることで，周波数表現と同様の要領で

- 175 -

図 15: 音声と音楽の混合信号のスペクトログラムと時間-変動表現．

図 16: 適当な方法により設計した時間-変動マスク．

図 17: 時間-変動領域上でのマスキングにより得られた新しい時間-変動表現．

図 18: 時間-変動領域上でのマスキングにより得られた新しい時間-変動表現を用いて合成された信号のスペクトログラム

信号を扱うことができる，新しい信号表現が得られるこ

とを示した．また，この信号表現を用いることにより音

声信号と音楽信号を分析・分離した例を示した．

本論文では x(t)の全帯域に関するパワーを用いることで信号の変動軸表現を得たが，これは帯域ごとに分けて考

えることも可能である．時間，周波数，および変動の 3変数をパラメータとして持つ信号表現を用いた信号処理は

今後の研究課題となる．また，本論文で考えた時間周波数

マスキング以外にも様々なスペクトログラム領域上での

信号処理手法があり，これらを時間-変動領域上での処理に応用することが今後の研究課題である．また，x(t)の各成分を特徴量として利用し，音声認識や音楽情報検索な

どの認識問題へ応用することも，今後の研究課題である．

謝辞本研究の一部は日本学術振興会科研費特別研究員

奨励費 (22-6961)の助成を受けて行われた．

参考文献

[1] N. Kanedera, T. Arai, H. Hermansky, and M. Pavel,“On the Relative Importance of Various Componentsof the Modulation Spectrum for Automatic SpeechRecognition,” Speech Communication 28, pp. 43–55,1999.

[2] H. Hermansky, and N. Morgan, “RASTA Processingof Speech,” IEEE Trans. on Speech & Audio Process-ing, Vol. 2, No. 4, pp. 578–589, 1994.

[3] V. Tyagi, I. McCowan, H. Misra, and H. Bourlard,“Mel-cepstrum Modulation Spectrum (MCMS) Fea-tures for Robust ASR,” Proceedings of IEEE ASRU,pp.399-404, 2003.

[4] K. Dressler, “Sinusoidal Extraction Using an Effi-cient Implementation of a Multi-Resolution FFT,”Proceedings of DAFx, pp.247–252, 2006.

[5] N. Ono, K. Miyamoto, H. Kameoka, J. Le Roux,Y. Uchiyama, E.Tsunoo, T. Nishimoto, and S.Sagayama, “Harmonic and Percussive Sound Sepa-ration and its Application to MIR-related Tasks,”Advances in Music Information Retrieval, ser. Stud-ies in Computational Intelligence, Z. W. Ras andA. Wieczorkowska, Eds. Springer, 274, pp.213-236,Feb., 2010.

[6] H. Tachibana, T. Ono, N. Ono, S. Sagayama,“Melody Line Estimation in Homophonic Music Au-dio Signals Based on Temporal-Variability of MelodicSource,” Proceedings of ICASSP 2010, pp.425-428,Mar., 2010.

[7] 日本音響学会編新聞記事読み上げ音声コーパス

（JNAS）

[8] M. Goto, “Development of the RWC MusicDatabase,” Proceedings of ICA2004, pp.I-553-556,Apr., 2004.

[9] 日本建築学会編建築と環境のサウンドライブラリ

(SMILE2004)

- 176 -

:t,nxw!qq ft,nxw`ms‾mowu|hil.t.u-tokyo.ac.jp/publications/download.php?bib=... · :t,nxw!qq...

Documents