雑音重み推定と音声ＧＭＭを用いた雑音除去

神戸大学大学院工学研究科　　三宅信之，滝口哲也，有木康雄

研究の背景

雑音が混入することで音声認識率が低下そのため様々な雑音除去法が存在する

発話中に突如発生した雑音は除去しづらい

研究の目的クリーンスピーチに突発的な雑音が重畳した

とき，その雑音を除去し、音声認識率を改善する

電話音

o m o t e

システム全体の流れ

音声特徴量の抽出

雑音の検出

雑音の識別雑音除去

音声認識クリーンスピーチ

突発性雑音あり

クラスタリング雑音は種類が多いためあらかじめクラスタリ

ング

K-means で分類

データと中心の距離 d を計算

θ<d ならクラスを分割

クラス内距離を一定以下 (θ) に設定したい除去時にクラスのデータの平均値を雑音のデータとして利用

クラス内距離を一定以下にすることでミスマッチを防ぐ

クラスタリングクラス内距離を小さくするとクラスが増えすぎる

ツリー上にすることで解決

Class 2coinscoin

Class 1phone

Class NTear

上段から徐々に θ の値を小さくしていく

システム全体の流れ

雑音の検出

あらゆるげんじつおすべてじぶんのほーえねじまげたのだがーーーー

入力フレーム

識別器

識別器を用いてクリーンスピーチか　雑音重畳音声かのラベルを付ける

クリーンスピーチ雑音重畳音声

識別器は AdaBoost で作成弱識別器は decision stump

雑音の識別

Class 1phone

Class 2coinscoin

Class NTear

Classifier×

Clean speech

Noisy speech

×feature

各クラスの雑音重畳音声を使用して作成した識別器でツリーの上段から順に識別していく

識別器は one-vs-rest法で拡張したAdaBoostで作成

雑音除去

雑音の検出

雑音重畳音声の特徴量)()()( tntstx

観測信号音声信号雑音

~~~~bbb NSX

メルフィルタバンクに変換

どんな雑音か識別されている　≒特徴量の大まかな形は既知（強さは不明）

bbb NSX

強さを表す定数 α を導入

（ b 次元目の特徴量）

雑音重畳音声の特徴量

第 2 項を推定し、音声特徴量を得る

対数メルフィルタバンクに変換)log( bb Xx

bbb nsx expexpexp

bbb NSX

)exp(1log

)exp()exp(log

GMMを用いた推定

)x(p を考える m

msmsNmp ,, ,;s)Pr()s( をもとにクリーン音声の GMM （ Gaussian Mixture Model ）

mxmxNmp ,, ,;)Pr()( xx

mGmsmx ,,, )]exp(1log[ ,, nmsmG

msmx ,, 第 2 項の推定値は混合ごとの尤度を使った、の重み付き平均とする

,;)Pr(

g g - x s

mG,識別されたクラスの平均値

)( ,,nsgsx より

未知

[2001eurospeech, segura et.al]

重み推定

EMアルゴリズムを使った推定 p(x)が最大になるように決定

混合ごとの重み推定 p(x,m)が最大になるように混合ごとに決定混合ごとの最大の尤度による重み付き平均

EMアルゴリズムを用いた推定

mmxnmsms

)),,,(;x()Pr(

,;x)Pr()x(

を最大化するように α の値を決定

EM アルゴリズムの使用

収束するまで繰り返すことで最適解を得る

kk mpmpQ ),,x(log),,x(),( )()(

),(maxarg )()1( kk Q

Estimation ステップ

Maximizationステップ

EMアルゴリズムを用いた推定

kbmsbn

bmsbnbmsbn

eexmxp

))1log((),(

)(log,,,

,,,,,,

と微分した式は複雑な値になるためニュートン法を用いてとく

)()1( xpf

2)2( )(log

を繰り返すことで近似解を得る

混合ごとの推定はを最大化するよう混合ごとに決定

,mp x を解くあるいは 0

),(log

),( mp x

bmsbNex

))1log((

)(,log

))1log((),(log,,,

,,,,,,

b mbmx

m bmsbn

bmsbnbmsbn

解析的にとくことは難しく、ニュートン法で決定

),( mp x

混合ごとの推定 )exp(1log ,, msnmmG

音声特徴量の推定

gxs ˆˆ

求めた　　　を使いm

推定値に各混合の尤度を使って重み付き平均と定義しなおす

実験条件（雑音除去）

雑音の検出・識別 AdaBoost の学習回数 200 回特徴量： 24 次元対数メルフィルタ

バンク雑音除去

クリーン音声 GMM 混合数16,32,64

発話データ ATR 特定話者単語発話

男性 2 名女性 2 名雑音データ [S. Nakamura, et al,

2000] RWCP 非音声ドライソースに含ま

れるすべての雑音 (105 種 ) 1 種類につき 100 データが存在し、

50 データを学習用、 50 データをテスト用に使用

学習データ単語発話 2000 発話 AdaBoost の学習用に上記の発話に

雑音を重畳させたもの

評価法 MFCC 12 次元クリーン音声で作成した

HMM での認識率を算出音素 HMM 　各５状態　 4

混合

クラス内距離上段から順に 50,25,12,6 クラス数 45

テストデータSNR を調整した雑音重畳音声 500 単語 ×4 人　計 2000 発話（シミュレーションデー

タ） SNR -5,0,5 dB雑音継続時間は 20 ～ 300 　 ms

程度

検出・識別結果5 dB 0 dB -5 dB

再現率 0.820

0.897 0.952

適合率 0.827

0.831 0.833

識別率 0.283

0.404 0.470

適合率 =正しく検出されたフレーム数＋誤検出フレーム数

正しく検出されたフレーム数

再現率= 正しく検出されたフレーム数＋未検出フレーム数

正しく検出されたフレーム数

識別率 =正しく検出されたフレーム数

正しく検出されたフレーム数－識別誤り数

音声認識結果

78.8 79.1

79.479.4

79.680.2 81.582.2

除去なし 16混合 32混合 64混合雑音除去時の混合数

重み推定なしEMアルゴリズム混合毎推定

[SNR -5 dB]

クリーンスピーチ

Oracle label

音声認識結果

63.860.8

80.3 81.2

80.7 82.0

81.482.485.785.1

404550556065707580859095

除去なし 16混合 32混合 64混合

雑音除去時の混合数

[SNR 0 dB]

40455055

6065707580

859095

Oracle label

音声認識結果

70.565.8

82.883.3

83.984.1

84.484.788.489.1

404550556065707580859095

除去なし 16混合 32混合 64混合雑音除去時の混合数

[SNR 5 dB]

Oracle label

未知雑音に対する実験結果 10-fold クロスバリデーションを用い、 94 種で学習、残りの 11

種の雑音でテストデータを作成 GMM 64 混合，混合ごとの重み推定を使用

4045505560657075808590

-5 dB 0 dB 5 dB

除去前除去後

5 dB 0 dB -5 dB

再現率 0.808 0.879 0.934

適合率 0.802 0.806 0.806

まとめと今後の予定突発性の雑音除去法を提案したシミュレーションデータにおいて、雑音除去

によって認識率の改善が見られた重み推定を行うことでの認識率の改善未知雑音に対しても本手法の有効性を確認

大語彙・不特定話者での音声認識への適応実環境での実験

雑音重み推定と音声ＧＭＭを用いた雑音除去

Documents

音声認識理論と音声認識システム - naist ·...

音声ファイルのダウンロード／ストリーミング音声ファイルのダウンロード／ストリーミング...

2014 年度上智大学理工学部活動報告書情報 -...

背景音付き音声のノンパラレルデータ...

雑音環境下のための音声案内システム...

高騒音下の音声の性質と雑音レベルの低減 -...

drx-smg01hrƒ‰ライブレコーダー付きスマートルームミラー...

音声含むダブルチャンネルヴィデオインスタレーショ...

音声対話サンプルアプリ作成 ...€¦ ·...

覚醒時に閉塞型無呼吸症候群を...

android端末で音声ファイルをダウンロード...android端末で音声ファイルをダウンロード...

東京大学工学部年生夏学期...

aeon mobile -...

音声音響信号処理のための...

シスコユニファイド...

keysight technologies...

tama300 オンライン雑音解析

2015 年度上智大学理工学部活動報告書...

日本語の無声子音・有声子音、...

一、概念声母是处于音节开头的辅音。 ...

雑音重み推定と音声 ＧＭＭを用いた雑音除去

雑音重み推定と音声ＧＭＭを用いた雑音除去