音情報処理論 - naist...音声の特徴抽出...

音情報処理論

音声処理における信号処理1

～音声の特徴抽出（DFT, ケプストラム）～

東京大学大学院情報理工学系研究科/奈良先端大

猿渡洋

（2014年10月）

音声とは？

音声信号の特徴

• 人間の口から発せられる言語構造をもつ信号

• 基本周波数：

• 男性平均125 Hz

• 女性平均250 Hz

• スペクトル構造：

• 長時間平均的には800 Hzまではほぼ平坦，

• 800 Hz以上は -10 dB/octの傾斜をもつ

比較的低周波数帯域にエネルギーが集中する信号

ディジタル音声処理

我々が耳にすることができる音声信号は…

• 口から発せられた原音声信号は，空気を媒体として伝達され，耳（マイクロホン）に到達する．

• 音声信号をディジタル化した後、機械による処理

ディジタル音声処理のメリット

• 極めて技巧を凝らした（アナログでは処理できないような）信号処理を容易に実現可能

• ディジタル処理は信頼性があり装置がコンパクト

ディジタル音声処理の流れ

原音声信号)(ts

我々が実際に扱うことのできる信号は…

AD変換

標本化：離散時間化

量子化：離散振幅化マイクロホン計算機へ

離散振幅化

離散時間化

時間

振幅

Shannon-染谷の標本化定理1

• アナログ信号波形が0～W [Hz]に帯域制限されているとき、をT＝1/(2W) [s]ごとに標本

化すれば、標本値系列から以下のように波形再生を行うことができる。

標本化周期T=1/2W

)(tx)(tx

WitW

WitW

W

ixtx

i 2/2

2/2sin

2)(

Shannon-染谷の標本化定理2

1/T＝2 W [Hz]：ナイキストレート

（例1）電話音声： W =4 [kHz] ⇒T=1/8000 [s]

（例2）通常音声： W =8 [kHz] ⇒T=1/16000 [s]

：

（例2）音楽信号： W =20 [kHz] ⇒T=1/40000 [s]

（因みにCDは44100 [Hz]でサンプリングされている）

音声の特徴抽出

音声の性質をよく表す特徴の抽出とは？

⇒時間波形をそのまま使用せずに周波数領域で特徴量を記述することが多い。

理由：

• 音声波形は、振幅と位相が時間的にゆるやかに変化する正弦波の和で構成されていると近似可能

• 人間の聴覚による音声の知覚において重要な特徴は、主として振幅情報に含まれており、位相情報は通常重要な役割を果たしていない。

周波数特性（スペクトル特性）のみを抽出して分析すればよい

音声のスペクトル構造1短時間スペクトル• 音声は、短時間区間ごとの電力スペクトル密度（周波数領域におけるパワー特性）で測ることが多い。

音声スペクトル構造の２要素• 周波数とともにゆるやかに変化する成分[スペクトル包絡]

⇒発声器官の共振・反共振特性を表す

（つまり人間の喉・口の形をあらわす特徴量）

• 細かく周期的（有声音；母音などの場合）または非周期的（無声音の場合）に変化する成分 [スペクトル微細構造]

⇒音源の周期性

（つまり声帯の基本周期・声の高低を表す特徴量）

音声信号のスペクトルはこれら２つの要素の積で表される

音声のスペクトル構造：発声構造

声帯

鼻腔

声道

音声の基本周期を与える（スペクトル微細構造）

音声の音色を与える（スペクトル包絡構造）

人間頭部の断面図

①

②

①×②＝最終的な音声

の共振

の振動

音声のスペクトル構造：発声構造2

母音型

有声音源声道共振口放射

子音型

声道（後）声道（前）口放射無声音源

鼻音型

有声音源口放射声道（後）

声道（前）

鼻腔

音程（ピッチ）音韻性・音色を付与

音声のスペクトル構造：分析例

F0(基本周波数） →ｆ

スペクトル微細構造

→ｆ

スペクトル包絡構造F0 →ｆ

最終的な短時間スペクトル

共振ピーク（ホルマント）

我々が聞いているのはこのスペクトル

音声のスペクトル分析手法短時間スペクトルを求める2手法• ノンパラメトリック分析とパラメトリック分析

ノンパラメトリック分析法：• 分析対象の信号に関して、特にモデルを仮定せずに周波数分析を行う手法。万能であるが抽出すべきパラメータは多くなる。

• （例）DFT（離散フーリエ変換）分析，ケプストラム分析

パラメトリック分析法：• 分析対象信号に対して特定のモデル化を行い、そのモデルを表現する特徴パラメータを抽出する。音声をよく表現するモデルを用意できるならば、能率的な分析が可能。

• （例）線形予測分析

DFTに基づく音声スペクトル分析

N点DFT（離散フーリエ変換）

• 準備：は時間波形，は周波数特性

• 定義1（フーリエ正変換；時間から周波数領域へ）

• 定義2（フーリエ逆変換；周波数から時間領域へ）

1

0

/2)()(N

n

NknjenxkX

)(nx )(kX

})1(...,),1(),0({)( Nxxxnx

})1(...,),1(),0({)( NXXXkX

1

0

/2)(1

)(N

k

NknjekXN

nx

DFTに関する注意

N点DFT（離散フーリエ変換）

• 準備：は時間波形，は周波数特性

• 定義1（フーリエ正変換；時間から周波数領域へ）

1

0

/2)()(N

n

NknjenxkX

)(nx )(kX

})1(...,),1(),0({)( Nxxxnx

})1(...,),1(),0({)( NXXXkX

←実数

←複素数

kが0からN/2

⇒ 周波数0 Hzから最高周波数（W Hz）に対応

kがN/2+1からNｰ1

⇒ 周波数ｰW Hzからｰ0 Hzに対応（負の周波数を表す）

DFTに関する注意（続き）

における周波数対称性

• は、N/2点を境にして複素共役対称となる。

• ただし、k=0の点の対称点はの中には現れない（k=Nの位置に現れるから）。

)(kX

)(kX

)(kX

)(kX

0 ２４ k6

0 Hz W Hz

（8点DFTの例）複素共役対称

通常はこの破線内のみを表示する

DFTスペクトル分析例1

4点DFT

が単位インパルス信号

)(nx

}0,0,0,1{)( nx)(nx

011

)()(

4/02

14

0

4/2

je

enxkX

kjn

knj

0 1 2 3

1

n

)(kX

0 1 2 3 n

)(kX

0 1 2 3

1

n

の実部

の虚部DFT

DFTスペクトル分析例1（続き）DFTスペクトルの別の複素数表現

振幅スペクトル特性と位相スペクトル特性• 振幅スペクトル特性：

周波数成分（複素数）の絶対値

⇒その周波数成分の強さを表す

• 位相スペクトル特性：

周波数成分（複素数）の実部と虚部のなす角度

⇒その周波数成分の位相（時間的な遅れ・進み）を表す

)(kX

)(|)(|)( kjekXkX

)(kX

前述の例では振幅特性＝１ (for all k), 位相特性＝0 (for all k)

一般に音声分析では振幅特性のみを見ればよい

DFTスペクトル分析例2（周期関数）

8点DFT

が１個おきに単位インパルス信号（周期信号）

)(nx

0

041111)( 8/628/428/228/02

jeeeekX kjkjkjkj

}0,1,0,1,0,1,0,1{)( nx

(kが0，4の場合)

(kがそれ以外の場合)

)(nx

0 ２４

1

n

DFT

6

)(kX

0 ２４

4

n6

周期スペクトル

DFTスペクトル分析例2（続き）数学的には…

が周期信号である場合には、その周波数特性

も周期関数となる。

一般に音声における声帯音源信号は…• 有声音の場合には「周期的三角波」

⇒ 声帯音源の振幅スペクトルは周期的な微細構造を持つ。よって音声信号自体も周期的スペクトルとなる。

)(nx )(kX



→ｔ

声帯音源波形

DFT

実用的なDFTスペクトル分析

問題点１：波形の不連続性• 時間波形を短時間分析する場合、波形を途中で切り出すことになる。しかし、波形を切り出すタイミングによって、得られるスペクトル形状が変動してしまう。

⇒分析区間の両端で振幅が緩やかに減少する窓関数を波形に乗じて切り出す。

問題点２： DFT演算にかかる計算コスト• N点のDFTを行うのにN×N回の積和が必要

⇒高速フーリエ変換アルゴリズムを使用することによりN・logN回の積和演算でN点DFTを計算可能

)(nx

サウンドスペクトログラム1

時間波形における短時間DFT分析

• 利点：• 比較的定常な部分の静的な特徴を見ることが可能

（例）定常母音/a/の特徴を見る

• 欠点：• 音声が定常と見なせるのはせいぜい40 ms程度まで

• 音声波形全体がどのように変化していったのかを見ることは出来ない。

⇒解決策：

DFTによる短時間スペクトル分析を時間軸方向に連続して実行し、それらを「時間ー周波数領域」へ２次元表示

)(nx

この表示はサウンドスペクトログラムとよばれる


)(nx

… …

短時間DFT分析

→ｆ

→ｆ→ｆ

→ｔ

t１t２

t３

時間ｔと周波数ｆの2次元（濃淡）表示を行う

t

サウンドスペクトログラム例


周波数分解能と時間分解能間トレードオフ⇒より細かく周波数成分をみようとする

⇒DFTにおけるNを大きくする

⇒サウンドスペクトログラムの時間幅が荒くなる

広帯域分析と狭帯域分析• 広帯域分析：

• 周波数分解能300 Hz, 時間分解能 3 ms

スペクトル上の周期性はぼやけるが、時間方向の細かな変動は表現可能

• 狭帯域分析：• 周波数分解能45 Hz, 時間分解能 22 ms

時間方向の細かな変動はぼやけるが、スペクトル上の周期性は表現可能

DFT分析のまとめ

波形情報から周波数特性へ

• 音声信号は波形そのものよりも、周波数（振幅）スペクトル上に重要な情報がある

• 高速アルゴリズムにより簡単な実装

周波数特性から分かることは…

• 周期的なスぺクトル微細構造⇒声帯音源の周期

• スペクトル包絡構造⇒声道の共振特性

両者が混合されて観測されるためその分離は不可能である

音声認識など音韻の識別には包絡情報のみが必要

⇒DFT分析だけでは不充分。更なる包絡抽出分析法が必要

音声スペクトルからの情報抽出

音声信号スペクトル

１．スペクトル微細構造

• 周期成分 ⇒ 声帯の振動に対応

• その人個人が持つ「声の高さ」

２．スペクトル包絡構造

• 声道・鼻腔における共振・反共振特性

⇒ 各音韻ごとの違いに対応

• 音声認識処理などでは、この包絡情報に基づいて識別を行う．

スペクトル包絡の代表的抽出法

ケプストラム法

• モデルを仮定しないノンパラメトリック法の一種

• 短時間スペクトル上において微細構造と包絡構造とを分ける。

線形予測法

• 自己回帰モデルに基づくパラメトリック法

• 声道における共振特性をモデリング

ケプストラムとは？

ケプストラム（cepstrum）

• 波形の短時間振幅スペクトルの対数の逆フーリエ変換として定義される。

• ケプストラム領域では、微細構造と包絡構造に対応する各成分を容易に見分けることができる。

“Cepstrum”とは、「スペクトルを逆変換する」という意味を含めてspectrumをもじって作った造語である。（Bogert, 1963）

ケプストラム算出手順

短時間スペクトルフーリエ変換

絶対値

振幅スペクトル

対数

対数振幅スペクトル

逆フーリエ変換

ケプストラム

時間波形

フーリエ変換には、一般にDFTが用いられる。

音声の対数振幅スペクトル構造



→ｆ

スペクトル包絡構造F0 →ｆ

最終的な（短時間）対数振幅スペクトル

対数振幅スペクトル上では、積が和に置き換えられることに注意！

対数振幅

対数振幅

対数振幅スペクトルとケプストラム

→ｆ


→ｆ

スペクトル包絡構造

対数振幅

対数振幅

音声の対数振幅スペクトル

逆DFT

ケプストラム

→ｔ？

→ｔ？

異なる場所に集中して値が生じる

fに関して速い周期関数

fに関して遅い周期関数

0

0

典型的なケプストラムの構造

ケプストラム

→ quefrency

0

低次のケプストラムは

スペクトル包絡に対応

高次のケプストラムは

スペクトル微細構造に対応

低次高次

単位は「時間」ではないが、周波数frequency

の逆数のようなものなので、それをもじって“quefrency”（ケフレンシー）と呼ばれる。

それぞれ異なるケフレンシー位置に値が生じるので、容易に区別可能

リフタリングによる包絡構造抽出

ケプストラム

→ quefrency

0

低次ケプストラムのみ残す

→ｆ

スペクトル包絡が抽出される

対数振幅

DFT

低次ケプストラムのみをケフレンシー領域で切り出す窓関数を“lifter”（リフター）*という。

＊周波数領域のfilterのもじり

リフター

ケプストラム処理の特徴

スペクトル構造の分解• 対数を利用してスペクトル積を和に変換

• ケフレンシー領域へ変換することにより、スペクトル包絡と周期的微細構造を区別可能にする。

• 単純な窓かけ操作（リフター）により、包絡成分のみ（もしくは微細構造のみ）を抽出可能

少ない演算量• スペクトル包絡成分を抽出するのに必要な演算

[対数演算＋逆DFT＋リフタリング＋DFT]

⇒ 非常に少ない演算量で抽出可能

ケプストラム例

母音のケプストラムの典型例

スペクトル包絡に対応する低次成分

スペクトル微細構造に対応する高次成分

基本周波数に対応

ケプストラムによるスペクトル包絡

抽出されたスペクトル包絡→

時間

スペクトル包絡の時間遷移短時間スペクトル包絡の例

DFTを用いたケプストラムの算出1

N点DFT

• 準備：は周波数特性

• ケプストラムへの変換

1

0

1

0

/2

/2cos|)(|log1

|)(|log1

N

k

N

k

Nknj

n

NknkXN

ekXN

c

)(kX

})1(...,),1(),0({)( NXXXkX ←複素数

⇒ ケプストラムは必ず実数で与えられる

nc


• は必ずN/2点に関して対称形となる。

⇒実際にケプストラムとして表示するのはN/2まで

nc

nc

0 ２４ 6

（16点DFTの例）

通常はこの破線内のみを表示する

n108 12 14


• を表示するのはN/2までであるが、リフタリングを行う場合は、全N点に関してリフターを適用する。

⇒ リフターもN/2点で対称になることに注意！

nc

nc

0 ２４ 6

（16点DFTの例）

リフター

n108 12 14

ケプストラム分析のまとめ

長所

• 比較的単純な操作でスペクトル包絡抽出可能

• 高次ケプストラムも使用すれば基本周波数も抽出可能

問題点

• リフタリングのカットオフ位置をどのようにして決めるか？

• 抽出されたスペクトル包絡において、ホルマント共振があまり強く表示されない。

人間の聴覚系では共振点をより聞いていると言われている

⇒声道での共振をモデルにしたパラメトリック分析が有効

音情報処理論 - naist...音声の特徴抽出...

Documents