音情報処理論 - naist...音声の特徴抽出...
TRANSCRIPT
音声とは?
音声信号の特徴
• 人間の口から発せられる言語構造をもつ信号
• 基本周波数:
• 男性平均125 Hz
• 女性平均250 Hz
• スペクトル構造:
• 長時間平均的には800 Hzまではほぼ平坦,
• 800 Hz以上は -10 dB/octの傾斜をもつ
比較的低周波数帯域にエネルギーが集中する信号
ディジタル音声処理
我々が耳にすることができる音声信号は…
• 口から発せられた原音声信号は,空気を媒体として伝達され,耳(マイクロホン)に到達する.
• 音声信号をディジタル化した後、機械による処理
ディジタル音声処理のメリット
• 極めて技巧を凝らした(アナログでは処理できないような)信号処理を容易に実現可能
• ディジタル処理は信頼性があり装置がコンパクト
Shannon-染谷の標本化定理1
• アナログ信号波形 が0~W [Hz]に帯域制限されているとき、 をT=1/(2W) [s]ごとに標本
化すれば、標本値系列から以下のように波形再生を行うことができる。
標本化周期T=1/2W
)(tx)(tx
WitW
WitW
W
ixtx
i 2/2
2/2sin
2)(
Shannon-染谷の標本化定理2
1/T=2 W [Hz]: ナイキストレート
(例1)電話音声: W =4 [kHz] ⇒T=1/8000 [s]
(例2)通常音声: W =8 [kHz] ⇒T=1/16000 [s]
:
(例2)音楽信号: W =20 [kHz] ⇒T=1/40000 [s]
(因みにCDは44100 [Hz]でサンプリングされている)
音声の特徴抽出
音声の性質をよく表す特徴の抽出とは?
⇒時間波形をそのまま使用せずに周波数領域で特徴量を記述することが多い。
理由:
• 音声波形は、振幅と位相が時間的にゆるやかに変化する正弦波の和で構成されていると近似可能
• 人間の聴覚による音声の知覚において重要な特徴は、主として振幅情報に含まれており、位相情報は通常重要な役割を果たしていない。
周波数特性(スペクトル特性)のみを抽出して分析すればよい
音声のスペクトル構造1短時間スペクトル• 音声は、短時間区間ごとの電力スペクトル密度(周波数領域におけるパワー特性)で測ることが多い。
音声スペクトル構造の2要素• 周波数とともにゆるやかに変化する成分[スペクトル包絡]
⇒発声器官の共振・反共振特性を表す
(つまり人間の喉・口の形をあらわす特徴量)
• 細かく周期的(有声音;母音などの場合)または非周期的(無声音の場合)に変化する成分 [スペクトル微細構造]
⇒音源の周期性
(つまり声帯の基本周期・声の高低を表す特徴量)
音声信号のスペクトルはこれら2つの要素の積で表される
音声のスペクトル構造:発声構造
声帯
鼻腔
声道
音声の基本周期を与える(スペクトル微細構造)
音声の音色を与える(スペクトル包絡構造)
人間頭部の断面図
①
②
①×②=最終的な音声
の共振
の振動
音声のスペクトル構造:発声構造2
母音型
有声音源 声道共振 口放射
子音型
声道(後) 声道(前) 口放射無声音源
鼻音型
有声音源 口放射声道(後)
声道(前)
鼻腔
音程(ピッチ) 音韻性・音色を付与
音声のスペクトル分析手法短時間スペクトルを求める2手法• ノンパラメトリック分析とパラメトリック分析
ノンパラメトリック分析法:• 分析対象の信号に関して、特にモデルを仮定せずに周波数分析を行う手法。万能であるが抽出すべきパラメータは多くなる。
• (例)DFT(離散フーリエ変換)分析,ケプストラム分析
パラメトリック分析法:• 分析対象信号に対して特定のモデル化を行い、そのモデルを表現する特徴パラメータを抽出する。音声をよく表現するモデルを用意できるならば、能率的な分析が可能。
• (例)線形予測分析
DFTに基づく音声スペクトル分析
N点DFT(離散フーリエ変換)
• 準備: は時間波形, は周波数特性
• 定義1(フーリエ正変換;時間から周波数領域へ)
• 定義2(フーリエ逆変換;周波数から時間領域へ)
1
0
/2)()(N
n
NknjenxkX
)(nx )(kX
})1(...,),1(),0({)( Nxxxnx
})1(...,),1(),0({)( NXXXkX
1
0
/2)(1
)(N
k
NknjekXN
nx
DFTに関する注意
N点DFT(離散フーリエ変換)
• 準備: は時間波形, は周波数特性
• 定義1(フーリエ正変換;時間から周波数領域へ)
1
0
/2)()(N
n
NknjenxkX
)(nx )(kX
})1(...,),1(),0({)( Nxxxnx
})1(...,),1(),0({)( NXXXkX
←実数
←複素数
kが0からN/2
⇒ 周波数0 Hzから最高周波数(W Hz)に対応
kがN/2+1からNー1
⇒ 周波数ーW Hzからー0 Hzに対応(負の周波数を表す)
DFTに関する注意(続き)
における周波数対称性
• は、N/2点を境にして複素共役対称となる。
• ただし、k=0の点の対称点は の中には現れない(k=Nの位置に現れるから)。
)(kX
)(kX
)(kX
)(kX
0 2 4 k6
0 Hz W Hz
(8点DFTの例) 複素共役対称
通常はこの破線内のみを表示する
DFTスペクトル分析例1
4点DFT
が単位インパルス信号
)(nx
}0,0,0,1{)( nx)(nx
011
)()(
4/02
14
0
4/2
je
enxkX
kjn
knj
0 1 2 3
1
n
)(kX
0 1 2 3 n
)(kX
0 1 2 3
1
n
の実部
の虚部DFT
DFTスペクトル分析例1(続き)DFTスペクトルの別の複素数表現
振幅スペクトル特性と位相スペクトル特性• 振幅スペクトル特性:
周波数成分 (複素数)の絶対値
⇒その周波数成分の強さを表す
• 位相スペクトル特性:
周波数成分 (複素数)の実部と虚部のなす角度
⇒その周波数成分の位相(時間的な遅れ・進み)を表す
)(kX
)(|)(|)( kjekXkX
)(kX
前述の例では振幅特性=1 (for all k), 位相特性=0 (for all k)
一般に音声分析では振幅特性のみを見ればよい
DFTスペクトル分析例2(周期関数)
8点DFT
が1個おきに単位インパルス信号(周期信号)
)(nx
0
041111)( 8/628/428/228/02
jeeeekX kjkjkjkj
}0,1,0,1,0,1,0,1{)( nx
(kが0,4の場合)
(kがそれ以外の場合)
)(nx
0 2 4
1
n
DFT
6
)(kX
0 2 4
4
n6
周期スペクトル
DFTスペクトル分析例2(続き)数学的には…
が周期信号である場合には、その周波数特性
も周期関数となる。
一般に音声における声帯音源信号は…• 有声音の場合には「周期的三角波」
⇒ 声帯音源の振幅スペクトルは周期的な微細構造を持つ。よって音声信号自体も周期的スペクトルとなる。
)(nx )(kX
F0(基本周波数) →f
スペクトル微細構造
→t
声帯音源波形
DFT
実用的なDFTスペクトル分析
問題点1: 波形の不連続性• 時間波形 を短時間分析する場合、波形を途中で切り出すことになる。しかし、波形を切り出すタイミングによって、得られるスペクトル形状が変動してしまう。
⇒分析区間の両端で振幅が緩やかに減少する窓関数を波形に乗じて切り出す。
問題点2: DFT演算にかかる計算コスト• N点のDFTを行うのにN×N回の積和が必要
⇒高速フーリエ変換アルゴリズムを使用することによりN・logN回の積和演算でN点DFTを計算可能
)(nx
サウンドスペクトログラム1
時間波形 における短時間DFT分析
• 利点:• 比較的定常な部分の静的な特徴を見ることが可能
(例)定常母音/a/の特徴を見る
• 欠点:• 音声が定常と見なせるのはせいぜい40 ms程度まで
• 音声波形全体がどのように変化していったのかを見ることは出来ない。
⇒解決策:
DFTによる短時間スペクトル分析を時間軸方向に連続して実行し、それらを「時間ー周波数領域」へ2次元表示
)(nx
この表示はサウンドスペクトログラムとよばれる
サウンドスペクトログラム3
周波数分解能と時間分解能間トレードオフ⇒より細かく周波数成分をみようとする
⇒DFTにおけるNを大きくする
⇒サウンドスペクトログラムの時間幅が荒くなる
広帯域分析と狭帯域分析• 広帯域分析:
• 周波数分解能300 Hz, 時間分解能 3 ms
スペクトル上の周期性はぼやけるが、時間方向の細かな変動は表現可能
• 狭帯域分析:• 周波数分解能45 Hz, 時間分解能 22 ms
時間方向の細かな変動はぼやけるが、スペクトル上の周期性は表現可能
DFT分析のまとめ
波形情報から周波数特性へ
• 音声信号は波形そのものよりも、周波数(振幅)スペクトル上に重要な情報がある
• 高速アルゴリズムにより簡単な実装
周波数特性から分かることは…
• 周期的なスぺクトル微細構造⇒声帯音源の周期
• スペクトル包絡構造⇒声道の共振特性
両者が混合されて観測されるためその分離は不可能である
音声認識など音韻の識別には包絡情報のみが必要
⇒DFT分析だけでは不充分。更なる包絡抽出分析法が必要
音声スペクトルからの情報抽出
音声信号スペクトル
1.スペクトル微細構造
• 周期成分 ⇒ 声帯の振動に対応
• その人個人が持つ「声の高さ」
2.スペクトル包絡構造
• 声道・鼻腔における共振・反共振特性
⇒ 各音韻ごとの違いに対応
• 音声認識処理などでは、この包絡情報に基づいて識別を行う.
スペクトル包絡の代表的抽出法
ケプストラム法
• モデルを仮定しないノンパラメトリック法の一種
• 短時間スペクトル上において微細構造と包絡構造とを分ける。
線形予測法
• 自己回帰モデルに基づくパラメトリック法
• 声道における共振特性をモデリング
ケプストラムとは?
ケプストラム(cepstrum)
• 波形の短時間振幅スペクトルの対数の逆フーリエ変換として定義される。
• ケプストラム領域では、微細構造と包絡構造に対応する各成分を容易に見分けることができる。
“Cepstrum”とは、「スペクトルを逆変換する」という意味を含めてspectrumをもじって作った造語である。 (Bogert, 1963)
音声の対数振幅スペクトル構造
F0(基本周波数) →f
スペクトル微細構造
→f
スペクトル包絡構造F0 →f
最終的な(短時間)対数振幅スペクトル
対数振幅スペクトル上では、積が和に置き換えられることに注意!
対数振幅
対数振幅
対数振幅スペクトルとケプストラム
→f
スペクトル微細構造
→f
スペクトル包絡構造
対数振幅
対数振幅
音声の対数振幅スペクトル
逆DFT
ケプストラム
→t?
→t?
異なる場所に集中して値が生じる
fに関して速い周期関数
fに関して遅い周期関数
0
0
典型的なケプストラムの構造
ケプストラム
→ quefrency
0
低次のケプストラムは
スペクトル包絡に対応
高次のケプストラムは
スペクトル微細構造に対応
低次 高次
単位は「時間」ではないが、周波数frequency
の逆数のようなものなので、それをもじって“quefrency”(ケフレンシー)と呼ばれる。
それぞれ異なるケフレンシー位置に値が生じるので、容易に区別可能
リフタリングによる包絡構造抽出
ケプストラム
→ quefrency
0
低次ケプストラムのみ残す
→f
スペクトル包絡が抽出される
対数振幅
DFT
低次ケプストラムのみをケフレンシー領域で切り出す窓関数を“lifter”(リフター)*という。
*周波数領域のfilterのもじり
リフター
ケプストラム処理の特徴
スペクトル構造の分解• 対数を利用してスペクトル積を和に変換
• ケフレンシー領域へ変換することにより、スペクトル包絡と周期的微細構造を区別可能にする。
• 単純な窓かけ操作(リフター)により、包絡成分のみ(もしくは微細構造のみ)を抽出可能
少ない演算量• スペクトル包絡成分を抽出するのに必要な演算
[対数演算+逆DFT+リフタリング+DFT]
⇒ 非常に少ない演算量で抽出可能
DFTを用いたケプストラムの算出1
N点DFT
• 準備: は周波数特性
• ケプストラム への変換
1
0
1
0
/2
/2cos|)(|log1
|)(|log1
N
k
N
k
Nknj
n
NknkXN
ekXN
c
)(kX
})1(...,),1(),0({)( NXXXkX ←複素数
⇒ ケプストラムは必ず実数で与えられる
nc
DFTを用いたケプストラムの算出2
• は必ずN/2点に関して対称形となる。
⇒実際にケプストラムとして表示するのはN/2まで
nc
nc
0 2 4 6
(16点DFTの例)
通常はこの破線内のみを表示する
n108 12 14
DFTを用いたケプストラムの算出3
• を表示するのはN/2までであるが、リフタリングを行う場合は、全N点に関してリフターを適用する。
⇒ リフターもN/2点で対称になることに注意!
nc
nc
0 2 4 6
(16点DFTの例)
リフター
n108 12 14