やさしく音声分析法を学ぶ: ケプストラム分析とlpc分析
TRANSCRIPT
高道 慎之介
ケプストラム分析 & LPC分析
/34
スライドについて
音声の特徴とは?
– 基本周波数、声道の特性など
何故そんなことをするのか?
– 少ないパラメータで音声波形を表現できる
– 音声を効率的・直感的に扱える
– 複数の特徴を分離できる
– など
2
音声の特徴を分析する手法を理解しよう!
スライドの目的
復習 ~音声の生成過程~
3
/34
音声の生成
4
音色の付与
口や舌を動かして,
音色をつける!
声帯を開閉させて, 空気を振動させる!
音源の生成
音声波形
時間
混ぜる
/34
音源・声道伝達関数の周波数特性
5
周波数
パワー
周波数
パワー
基本周波数(F0)
音響管の共振周波数
周波数
パワー
音声の
周波数特性
微細構造
包絡
分析法① ~ケプストラム分析~
6
/34
ケプストラム分析のモチベーション
7
周波数
パワー
音声から、声道の特性と音源の特性を 抽出(分離)できないかな?
(でも、混ざっちゃってるんだよな・・・)
声道の特性と音源の特性の形に違いはないかな・・・?
よく見ると、声道の特性は緩やかに変動して、 逆に、 音源の特性は激しく変動しているな。
じゃあ、上図の信号を、緩やかに振動する低周波数成分と 激しく振動する高周波数成分に分ければいいんだ!
/34
ケプストラム (Cepstrum)
定義: 時間波形のパワースペクトルの対数のフーリエ変換
特徴:
– 複数の信号が畳み込まれた信号を分離可能
– 対数パワースペクトルを波として考える方法
手順:
8
定義によっては
逆DFTを使用
板橋 他, 音声工学,図4.6から引用
/34
ケプストラムの計算
9
時間
振幅
周波数 パワー
周波数
対数パワー
音声波形から
切り出した時間波形 パワースペクトル 対数パワースペクトル
離散フーリエ変換(DFT) 対数の計算
対数パワースペクトルを時間波形だと思って(逆)DFT
=> ケプストラムが計算される!
声道特性(包絡)と音源特性(微細構造)が
分離されて現れる(はず)!
/34
ケプストラムの例
10
ケフレンシー
ケプストラム
低次のケプストラムは
声道特性(スペクトル包絡)に対応
高次のケプストラムは
音源特性(スペクトル微細構造)に対応
リフタ: ケプストラムに対するフィルタ
リフタを掛けることで低次/高次の情報を分離できる!
/34
包絡成分・基本周波数の抽出
11 板橋 他, 音声工学,図4.5から引用
低次だけを取り出すと
包絡を抽出
高次のピークでF0を抽出
10次
20次
包絡抽出
次数が上がると
より複雑に表現可能
分析法② ~線形予測分析~
12
/34
線形予測分析のモチベーション
13
周波数
パワー
音声の特徴(声道伝達関数など)を 効率よくモデル化できないかな?
じゃあ、声道を音響管だと思って、 その特性を抽出できればいいんじゃない?
人間の声道って、確か、音響管の 連接でモデル化できるんだよな・・・
そして、音響管の共振で音色が付くんだよね・・・
/34
線形予測法 (Linear Prediction Coding:LPC)
定義: 声道を音響管に見立てた時の特徴量
特徴: 声道の特徴を効率よくモデル化できる
14
口からの放射
)(zE )(zA )(zX
音源信号 音声信号
Z変換
音響管の特性A(z)は共振特性を持つと仮定
)(1
1)()()(
1
1
zEzaza
zEzAzXp
p
線形予測係数
/34
LPCのパラメータと、その計算
15
周波数
パワー
)(1
1)()()(
1
1
zEzaza
zEzAzXP
P
係数の値によって共振の特性 (スペクトルのピーク:フォルマント)が決定
全極モデルと呼ばれる
線形予測係数を求める方法
tx
切り取られた 時間 t の信号
P
p
ptp xa0
線形予測係数で求められる 時間 t の信号
この二乗誤差を最小にするように、apを求める!(詳細は省略)
観測信号と、モデルから
生成される信号の差
/34
LPC分析によって求められたスペクトル包絡
16
ケプストラム分析よりもピークを重視した包絡を抽出
= より効率的な特徴量
板橋 他, 音声工学,図4.13から引用
/34
スペクトル包絡と、LPCの発展
17 http://hil.t.u-tokyo.ac.jp/~sagayama/applied-acoustics/2009/C1-LPC.pdf より引用
2次
4次
10次
18次
ケプストラムと同じように、次数が増えるほど細かくモデル化できる
上図のように、LPCは特徴を効率よくモデル化できる
– しかし、ノイズ(誤差)に弱いなどの欠点がある
– ノイズに対する頑健性向上や更なる効率化のために、
PARCORやLSPと呼ばれる手法がある