多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2...

102
2007 多様な雑音に頑健な 携帯端末向け音声強調技術 大学 ・ネットワーク システム 3606U055-3 高田晋太郎

Upload: others

Post on 27-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

2007年度 修士論文

多様な雑音に頑健な携帯端末向け音声強調技術

指導教授

小林 哲則 教授

早稲田大学 理工学研究科 情報・ネットワーク専攻知覚情報システム研究室

3606U055-3

高 田 晋 太 郎

Page 2: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener
Page 3: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

iii

目 次

第 1章 序論 1

1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 本論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

第 2章 一般的な雑音抑圧技術 7

2.1 指向性雑音と拡散性雑音 . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 指向性雑音抑圧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 拡散性雑音抑圧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.1 単一マイクロホンを用いた手法 . . . . . . . . . . . . . . . . 16

2.3.2 複数マイクロホンを用いた手法 . . . . . . . . . . . . . . . . 19

第 3章 正方形マイクロホンアレイを用いた指向性雑音抑圧 23

3.1 2個のマイクロホンを用いた指向性雑音抑圧 . . . . . . . . . . . . . 23

3.1.1 アレイ処理 . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1.2 Spectral Subtraction . . . . . . . . . . . . . . . . . . . . . . 27

3.2 3個のマイクロホンを用いた指向性雑音抑圧 . . . . . . . . . . . . . 28

3.3 指向性雑音抑圧実験 . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.3.1 実験状況 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.3.2 2ch手法と 3ch手法による指向性雑音抑圧実験結果 . . . . . 33

3.3.3 従来の指向性雑音抑圧手法との比較結果 . . . . . . . . . . . 34

第 4章 正方形マイクロホンアレイを用いた拡散性雑音抑圧 37

4.1 空間フィルタの出力を利用したmulti-channel型と single-channel型Wiener filterの統合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1.1 空間フィルタ群の形成 . . . . . . . . . . . . . . . . . . . . . 38

4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener filter 40

4.1.3 single-channel型Wiener filterによる残留ノイズ除去 . . . . 42

4.2 拡散性雑音抑圧実験 . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2.1 実験状況 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2.2 単語正解精度による提案手法の性能評価 . . . . . . . . . . . 47

Page 4: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

iv

4.2.3 PESQ-MOSによる提案手法の性能評価 . . . . . . . . . . . . 48

第 5章 指向性雑音抑圧と拡散性雑音抑圧の統合 51

5.1 問題設定とマイクロホン配置 . . . . . . . . . . . . . . . . . . . . . 52

5.2 正方形マイクロホンアレイを用いた音声強調手法 . . . . . . . . . . 53

5.2.1 空間フィルタ群の形成 . . . . . . . . . . . . . . . . . . . . . 54

5.2.2 空間フィルタ群の選択による指向性雑音抑圧 . . . . . . . . . 55

5.2.3 空間フィルタの出力を利用したmulti-channel型Wiener fil-

tering による拡散性雑音抑圧 . . . . . . . . . . . . . . . . . 56

5.2.4 single-channel型Wiener filteringによる残留ノイズ除去 . . . 57

5.3 指向性と拡散性の雑音が混在する環境下での雑音抑圧実験 . . . . . 58

5.3.1 実験状況 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.3.2 提案手法の各段階での雑音抑圧性能 . . . . . . . . . . . . . . 59

5.3.3 提案手法と他の雑音抑圧技術との比較 . . . . . . . . . . . . 65

第 6章 結論と今後の課題 69

6.1 結論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.2 今後の課題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

付 録A 拡散性雑音のコヒーレンス関数の導出 73

A.1 無指向性マイクロホン . . . . . . . . . . . . . . . . . . . . . . . . . 73

A.2 指向性マイクロホン . . . . . . . . . . . . . . . . . . . . . . . . . . 75

付 録B 本論文における実験の手順の解説 79

B.1 インパルス応答計測 . . . . . . . . . . . . . . . . . . . . . . . . . . 79

B.2 評価音声作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

B.3 分離処理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

B.4 評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

謝辞 87

参考文献 89

研究業績 93

Page 5: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

v

表 目 次

2.1 記号の定義. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.1 他の指向性雑音抑圧手法と提案手法との比較結果. . . . . . . . . . 36

Page 6: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener
Page 7: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

vii

図 目 次

2.1 指向性雑音と拡散性雑音のマイクロホンアレイへの到達. . . . . . 8

2.2 (a)(b)目的音声の時間波形とスペクトログラム,(c)(d)指向性雑音を重畳した音声の時間波形とスペクトログラム (SNR = 5 dB),(e)(f)

拡散性雑音を重畳した音声の時間波形とスペクトログラム (SNR =

10 dB). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.1 各信号とマイクロホンアレイの配置. . . . . . . . . . . . . . . . . 24

3.2 提案手法ブロック図 (two-channel method). . . . . . . . . . . . . . 25

3.3 各空間フィルタの指向特性 φB12 , φB21 , φN12 , φS′12

(f = 2000 Hz, dmic

= 4 cm, τ = 3/32k sec). . . . . . . . . . . . . . . . . . . . . . . . 26

3.4 SS後の出力 |S ′12(ω, k)|に生じる周波数軸上の歪の例 (τ = 3/32k sec). 28

3.5 正方形マイクロホンアレイのマイク配置 . . . . . . . . . . . . . . . 29

3.6 提案手法ブロック図 (three-channel method). . . . . . . . . . . . . 30

3.7 目的音声と指向性雑音の収録環境.θ = 0, 30, 60, 90, 120, 150,

180. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.8 目的音声,指向性雑音,マイクロホンアレイの位置関係.θ = 0,

30, 60, 90, 120, 150, 180, φ = 30. . . . . . . . . . . . . . . . . 32

3.9 2話者同時発話における単語正解精度. . . . . . . . . . . . . . . . . 34

3.10 2話者同時発話における PESQ-MOS. . . . . . . . . . . . . . . . . 35

4.1 提案手法ブロック図 (拡散性雑音抑圧). . . . . . . . . . . . . . . . 38

4.2 形成する空間フィルタ群のパターン. . . . . . . . . . . . . . . . . 39

4.3 無指向性マイクロホンを用いた場合と空間フィルタの出力を用いた場合の拡散性雑音のmagnitude-squared coherence (MSC)の理論値(マイク間隔 4 cm). . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.4 音声存在確率 SPPと雑音更新パラメーター λの振るまい. : (a)マイクロホン観測信号 (SNR = 10 dB) (b) SPP (c) 雑音更新パラメーター λ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.5 各 SNRにおける拡散性雑音重畳音声に対し,各手法を施したときの単語正解精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Page 8: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

viii

4.6 各 SNRにおける拡散性雑音重畳音声に対し,各手法を施したときの単語正解精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.1 各章での実験に使用した正方形マイクロホンアレイ. . . . . . . . . 53

5.2 提案手法ブロック図 (指向性雑音,拡散性雑音抑圧). . . . . . . . . 54

5.3 提案手法の各段階毎の出力波形 : (a)目的音声,(b)雑音重畳音声(SNRdir = 5 dB, SNRdif = 15 dB),(c)指向性雑音抑圧処理後音声,(d)拡散性雑音抑圧処理後音声,(e)残留ノイズ除去後音声. . . . . 60

5.4 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif =

10 dB, SNRtotal = 3.98 dB). . . . . . . . . . . . . . . . . . . . . . . 62

5.5 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif =

15 dB, SNRtotal = 6.12 dB). . . . . . . . . . . . . . . . . . . . . . . 62

5.6 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif =

20 dB, SNRtotal = 7.61 dB). . . . . . . . . . . . . . . . . . . . . . . 63

5.7 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif =

10 dB, SNRtotal = 3.98 dB). . . . . . . . . . . . . . . . . . . . . . . 63

5.8 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif =

15 dB, SNRtotal = 6.12 dB). . . . . . . . . . . . . . . . . . . . . . . 64

5.9 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif =

20 dB, SNRtotal = 7.61 dB). . . . . . . . . . . . . . . . . . . . . . . 64

5.10 各 SNRdif での従来手法,提案手法を施した際の単語正解精度 . . . 66

5.11 各 SNRdif での従来手法,提案手法を施した際の PESQ-MOS . . . . 66

A.1 無指向性マイクロホンに到達する信号 . . . . . . . . . . . . . . . . 73

A.2 指向性マイクロホンに到達する信号 . . . . . . . . . . . . . . . . . . 75

B.1 マイクロホンの配置図 . . . . . . . . . . . . . . . . . . . . . . . . . 83

Page 9: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

1

第1章 序論

1.1 背景

近年音声認識技術,雑音抑圧技術の発展に伴い,携帯電話等の携帯端末やTV等

の家電製品のリモコンの操作に音声認識を適用することが期待されている.また

音声認識だけでなく,TV電話やハンズフリー電話等,周囲の雑音環境に影響を受

けず目的とする話者の音声のみを伝達する音声強調技術の実現も期待されている.

上述した使用状況では,機器類に設置された発話収集用のマイクロホンは必ずし

も発話者の口元付近にあるとは限らない.この結果,目的音声と周囲雑音の SNR

はマイクロホンが口元付近にある場合と比べ,極端に下がり,音声認識の失敗,雑

音を含んだままの音声の伝達等の問題を引き起こす.これらの問題を解決をする

には,マイクロホンに入力された信号に対して信号処理を施し,目的音声と周囲

雑音を分離することで目的音声のみを得る手法や,雑音環境にロバストな音声認

識手法を適用する必要がある.本研究では,上述したような SNRが低い状況にお

いても,周囲雑音を含まない目的音声のみの信号を抽出することができ,かつ高

い音声認識率を実現することを可能とする携帯端末向け音声強調技術の実現を目

標とする.

一般的に雑音を抑圧し,目的音声のみを抽出する技術として,多数のマイクロ

ホンを直線上や円状に配置したマイクロホンアレイを用いた技術が多く報告され

ている [1].マイクロホンアレイを用いた音声強調技術は,単一のマイクロホンを

用いた場合に比べ,計算コスト,雑音抑圧性能共に優れたパフォーマンスを発揮

する技術として現在も盛んに研究が行われている.しかしながら,多数のマイク

Page 10: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

2 第 1章 序論

ロホンを用意する必要があり,装置の規模が大きくなってしまうという欠点を有

する.携帯端末に搭載することを考慮すると,以下のような制約条件が挙げられ

る.まず携帯端末は設置面積が限られるため,マイクロホンアレイを使用する場

合のマイクロホン数,マイク間隔に制限が生じる.加えて,よりロバスト性を高

めるためにはできるだけ少ないマイクロホン数,小さなマイク間隔であることが

要求される.次に,迅速な音声認識や音声伝達を実現させるためには,携帯端末

上で音声強調処理を行えることが望ましく,そのためには音声強調処理のアルゴ

リズムはできるだけ少ない計算コストである必要がある.適応や学習等,複雑な

計算を必要としないアルゴリズムは,突発性ノイズの発生等にも追従がしやすく,

その点でも有用である.最後に,携帯端末の性質上,使用する環境は屋内,屋外

問わず様々な種類が考えられ,それら全てで使用できることが求められる.環境

雑音は様々な性質の雑音が存在し,特に指向性雑音と拡散性雑音の二種類に大き

く大別できる.例として,指向性雑音は目的話者以外の話者の発話や,TV,オー

ディオ等の点音源とみなせるものから発せられるもの,拡散性雑音は部屋の空調

の音や,部屋に響くPCのファンノイズ,屋外での道路や駅の騒音等がそれぞれ挙

げられる.目標とする携帯端末向けの音声強調システムは,このような雑音の性

質に関わらず,雑音を抑圧できることが必要不可欠である.

指向性雑音を抑圧する技術として,複数のマイクロホン間で生じる差を利用し

た技術が多く報告されている [4–8].GriffithsらはDelay and Sum法によって得た

目的音声強調フィルタと減算型空間フィルタによって得たブロッキングフィルタの

出力を利用し,それぞれの差が最小となるように適応フィルタリングを行うこと

で指向性雑音の抑圧を行った [4].また浅野らは,二系統の空間フィルタの出力を

周波数領域で減算することで指向性雑音の高い抑圧効果を得た [5].また近年,人

間の音声は時間-周波数領域で分析すると疎に分布しており,時間波形上では重な

りあっている複数話者同士の発話でも,時間-周波数領域では重なりが少ないとう

いう性質を利用した手法が報告されている [6–8].この性質を利用することで,各

Page 11: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

1.1 背景 3

時間-周波数 binの成分がどの音源によるものかわかりさえすれば,目的とする音

源の成分のみを通過させるフィルタを設計するだけで雑音抑圧が可能なため,抑

圧効果の向上のみだけでなく計算コスト削減にも大きく貢献している.

拡散性雑音を抑圧する技術としては,単一マイクロホンを用いたものと,複数

マイクロホンを用いたものに大別できる.単一マイクロホンを用いた手法として,

Bollらは拡散性ノイズは比較的定常であり,かつ目的音声とは無相関であること

を仮定し,あらかじめ推定しておいた雑音のスペクトルを周波数領域で減算する

ことで雑音抑圧を行った [9].Bollらが提案した Spectral Subtraction (SS)は広く

研究され改善,応用がなされている [10–17].また Ephraimらは,過去の時間情

報を利用した decision directed法によって推定した a prioriSNRを用いてWiener

filterを設計することで,Spectral Subtractionで発生するmusical noiseを大きく

低減する手法を提案している [18–20].また複数のマイクロホンを用いた手法とし

て,拡散性雑音は,複数のマイクロホン間では相関が無いという仮定を利用した,

multi-channel型のWiener filterを設計する手法が Zelinskiによって提案されてい

る [21].しかし,Zelinskiの仮定は,マイクロホン間隔が狭い場合や,低周波数領

域で成り立たなくなり,それに対する解決案が提案されている [22–25].

上述した従来技術は,決められた条件で,個々の雑音が存在する場合において

は,非常に高い雑音抑圧効果を発揮する.しかし,これらの技術をそのまま携帯

端末の音声強調システムに適用することはできない.なぜなら複数マイクロホン

を用いる手法では,携帯端末ではマイク間隔が狭くなり十分な性能が期待できな

いからである.また単一のマイクロホンを用いる手法では,雑音成分の推定のた

めに多大な計算コストを必要としてしまう.加えて突発的な指向性雑音には対応

できないという問題もある.さらに,実環境においてそれぞれの雑音が個々に存

在することは極めて稀であるという問題もある.したがって,このような,個々

の雑音に対する雑音抑圧性能面での問題を解決すると同時に,それぞれの雑音抑

圧のアルゴリズムが親和性の高い形で組み合わされ,どちらの種類の雑音にも対

Page 12: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

4 第 1章 序論

応できる枠組を持った音声強調システムが求められる.

本論文では,4個の無指向性マイクロホンを正方形の各頂点に配置した正方形

マイクロホンアレイを用いた複数の新しい携帯端末向け音声強調技術を提案する.

このマイクロホンアレイは各辺が 4 cmの正方形で,非常にコンパクトな配置であ

るため,設置面積が限られる携帯端末にも設置することが可能である.このマイ

クロホン配置を積極的に利用することで,まず指向性雑音,拡散性雑音が単独で

存在する場合における,新しい音声強調手法を提案する.これらは上述した,マ

イクロホン配置を利用して得られる,特性の異なる空間フィルタを最大限に利用

することで,高性能に指向性雑音,拡散性雑音をそれぞれ抑圧することが可能と

なる.さらに,これらの手法から得られた知見を利用して,指向性雑音抑圧と拡

散性雑音抑圧をそれぞれ親和性の高い形で統合することで,両雑音に対して頑健

な音声強調技術を提案する.

1.2 本論文の構成

本論文は 6章から構成されている.

第 2章ではまず,従来から存在する一般的な音声強調技術について述べる.指

向性雑音を抑圧する技術は,主にマイクロホンアレイを用いた手法が一般的であ

る.これはマイクロホンアレイを用いることで,複数のマイクロホン間に生じる

振幅差,位相差を有効に使用できるため,計算コストを削減できることに起因す

る.また拡散性雑音を抑圧する技術は,単一マイクロホンを用いた手法と,マイ

クロホンアレイを用いた手法が存在する.マイクロホンアレイを用いる利点は指

向性雑音抑圧技術の場合と同様である.単一マイクロホンを用いる手法は,拡散

性雑音は主に定常的であり,音声との相関は無いと仮定することで,あらかじめ

推定した雑音成分を減算することで,雑音を抑圧できる.これは雑音の推定が高

精度な場合,高い雑音抑圧効果を得られる.これら代表的な雑音抑圧技術につい

て本章では概説するとともに,これらの技術を携帯端末に搭載する際に生じる問

Page 13: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

1.2 本論文の構成 5

題について述べる.

第 3章では,マイクロホンペアから得られる,複数の空間フィルタと,SSを利

用した指向性雑音抑圧手法を提案する.複数の空間フィルタリングと SSを組み合

わせることで,マイク間隔が小さい場合においても,目的音声方向に急峻なビー

ムを向ける指向性を得ることが可能となる.提案する指向性雑音抑圧手法の性能

を,従来の手法との比較を交え,連続音声認識性能と PESQ [26]による音質の尺

度で評価した.

第 4章では,4通りのマイクロホンペアの減算処理によって形成された,指向特

性の異なる4種類の空間フィルタ群の出力を用いたmulti-channel型のWiener filter

と single-channel型のWiener filterを組み合わせた,拡散性雑音抑圧手法を提案す

る.マイク間隔がせまくなればなるほど,性能が劣化するmulti-channel型Wiener

filterと雑音の定常性の仮定と推定を要する single-channel型のWiener filterを組

み合わせることで,それぞれを単独に用いた場合の短所を補う.さらに,空間フィ

ルタ群の出力を用いたmulti-channel型のWiener filterを用いることで他の手法と

比べた場合の優位性を拡散性雑音抑圧実験によって示す.

第 5章では,第 3章,第 4章で提案した,指向性雑音抑圧手法と拡散性雑音抑圧

手法から得られた知見を利用した,両雑音を対象とした統合手法を提案する.4通

りのマイクロホンペアの減算処理によって形成された指向特性の異なる 4種類の

空間フィルタ群を,指向性雑音,拡散性雑音抑圧に用いる.まず指向性雑音の抑

圧は,4種類の空間フィルタ群の出力信号を時間-周波数領域において,最小化選

択を行うことで実現する.これは,提案手法において自然に導出可能な仮定とし

て,4種類の出力信号のパワーは,指向性の音源の到来方向にのみ依存することを

利用した処理である.同時に,拡散性雑音の抑圧は,4種類の空間フィルタ群の出

力信号を用いたmulti-channel型のWiener filtering で実現する.最後に前述した

二つの処理で残留したノイズを,single-channel型のWiener filteringを適用し,除

去することで所望とする音声を高精度に得る.提案する指向性雑音抑圧と拡散性

Page 14: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

6 第 1章 序論

雑音抑圧統合手法の性能を,音声認識性能と PESQによる評価で行い,さらに他

の従来手法との比較を,指向性雑音と拡散性雑音が混在する環境で実験を行った.

第 6章で結論と今後の課題をまとめる.本論文の結論を延べ,提案する種々の

音声強調手法を,実用的な観点で見た場合,どのような問題が挙げられるのかに

ついて述べる.

Page 15: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

7

第2章 一般的な雑音抑圧技術

本章では指向性雑音もしくは,拡散性雑音抑圧を志向した従来の雑音抑圧技術に

ついて述べる.各種の雑音抑圧は雑音の性質を利用したものであり,まず始めに

指向性雑音,拡散性雑音の性質について述べた後,マイクロホンアレイを用いた

指向性雑音抑圧技術,単一マイクロホンまたはマイクロホンアレイを用いた拡散

性抑圧技術について,それぞれ述べる.なお,ここで紹介する手法は,計算量や,

マイクロホンアレイ規模等の点で,性能は無視し,現実的に携帯端末に搭載し得

る手法であり,かつ,次章から解説する提案手法の要素技術と成り得る手法に限っ

て選択した.

表 2.1にて式の記述に用いる記号について定義する.なお,tは離散時間,ωは

周波数ビン,kは短時間フレームのインデックスをそれぞれ表す.またN はマイ

クロホンアレイのマイクロホン総数である.

2.1 指向性雑音と拡散性雑音

指向性雑音,拡散性雑音の性質について述べる.指向性雑音は,点音源とみな

すことができるものから発せられる音声,もしくは雑音である.例えば,目的と

する話者以外の人物の話声やテレビやオーディオから発せられる音声や音楽等が

挙げられる.一方,拡散性雑音は,特定の到来方向を有しない雑音である.例と

しては,室内ならば空調や PCファンのノイズ,室外ならば,人混みや駅構内等

の雑音である.これらの雑音が存在する場において,目的とする話者が音声収集

装置に向けて発声している様子を図 2.1に,指向性雑音の場合と拡散性雑音の場合

Page 16: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

8 第 2章 一般的な雑音抑圧技術

表 2.1 記号の定義.

x(t) マイクロホンの観測信号X(ω, k) x(t)の周波数領域表現xi(t) マイクロホンアレイにおける i番目のマイクロホンでの観測信号 (i = 1,…, N)

Xi(ω, k) xi(t)の周波数領域表現s(t) 目的音声信号

S(ω, k) s(t)の周波数領域表現n(t) 雑音信号

N(ω, k) n(t)の周波数領域表現s(t) (雑音抑圧処理による)推定目的音声信号

S(ω, k) s(t)の周波数領域表現

target voice

directional noise

target voice

diffuse noise

図 2.1 指向性雑音と拡散性雑音のマイクロホンアレイへの到達.

をそれぞれ示す.ここで,簡単のため目的音声はマイクロホンアレイにて同相化,

つまり正面方向から到来しているものとする.指向性雑音の場合,目的音声はマ

イクロホンアレイの正面,雑音はそれ以外の方向から到来することから,各マイ

クロホンで観測される信号は,目的音声信号は全て同一,指向性雑音信号はマイ

ク間隔と到来方向に応じた位相差もしくは遅延をともなうことがわかる.このよ

Page 17: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

2.1 指向性雑音と拡散性雑音 9

sample point(a)

Time [sec]

Freq

uenc

y [H

z]

(b)

! "

#

# $ %

$ %

sample point(c)

Time [sec]F

requ

ency

[Hz]

(d)

&' ( ) ) ' ( * *' ( + +' (

) &&&*&&&+&&&,&&&(&&&-&&&.&&&

/ 0 1 2 34 3/5 346

7 3

7 48 9

4

48 9

3

sample point

(e) Time [sec]

Freq

uenc

y [H

z]

(f)

:; < = = ; < > >; < ? ?; <= :::>:::?:::@:::<:::A:::B:::

図 2.2 (a)(b) 目的音声の時間波形とスペクトログラム,(c)(d) 指向性雑音を重畳した音声の時間波形とスペクトログラム (SNR = 5 dB),(e)(f) 拡散性雑音を重畳した音声の時間波形とスペクトログラム (SNR = 10 dB).

うに指向性雑音は複数のマイクロホンで観測すれば,各観測信号に差が生じるた

め,これを有効に活用できることから,マイクロホンアレイを用いて雑音抑圧を

おこなう手法が一般的である.また,拡散性雑音については単一マイクロホンを

用いた手法とマイクロホンアレイを用いた手法が存在する.

次に,指向性雑音もしくは拡散性雑音が存在する場において,発声された音声

を観測した信号を時間波形と周波数領域で分析したものを図 2.2に示す.ここで,

目的音声,指向性雑音はそれぞれ別の発話であり,目的音声と指向性雑音の SNR

は 5 dB,拡散性雑音はサーバールームで収録した雑音であり,目的音声と拡散性

Page 18: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

10 第 2章 一般的な雑音抑圧技術

雑音の SNRは 10 dBである.これによると,指向性雑音は時間波形では突発的で

り,目的音声に重なっているが,時間-周波数領域で分析すると,目的音声との重

なりはそれほど無いことがわかる.また,拡散性雑音は指向性雑音の場合と比べ,

時間-周波数領域で分析すると,ほぼ全周波数帯域に均等に分布しており,目的音

声の上に重なっている様子がわかる.しかし,時間軸上での変化はあまり無く,比

較的定常である性質がわかる.

以上で述べた各雑音の性質は,従来提案されている雑音抑圧技術でふんだんに

利用されている.

2.2 指向性雑音抑圧

指向性雑音は前述したように,マイクロホンアレイを用いることが効果的であ

る.Delay and Sum (DS)法は,目的とする方向に感度を向ける最も単純なビーム

フォーミング手法である.マイクロホンアレイの各観測信号の和をとり,平均化

することで,正面方向からの目的信号は同相化され強められ,その他の方向から

到来する信号は各観測信号で位相が異なるため弱められる.

S(ω, k) =1

N

N∑

i=1

Xi(ω, k) (2.1)

DS法は非常に単純な処理で,目的とする方向にビームを向けることができる手法

ではあるが,実用的な性能を実現するためには,非常に大きなマイクロホンアレ

イを用い,大量のマイクロホンを用意する必要がある.

DS法のようにある特定の方向のみの感度をあげようとすると,装置規模が大き

くなってしまう.それに対してある特定の方向だけの感度を下げることは,二つ

のマイクロホンがあれば実現できる.二つのマイクロホンの観測信号を減算すれ

ば,各マイクロホンに同相で入力した信号は打ち消しあい,相殺される.これは

減算型の空間フィルタまたは減算型のビームフォーミングと呼ばれ,マイクロホ

ンアレイの規模が小さい場合でも,有効に雑音を抑圧できる手法である.除去す

Page 19: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

2.2 指向性雑音抑圧 11

べき信号が,二つのマイクロホンに,ある遅延量 τ に相当する方向から到来する

場合,片側のマイクロホン観測信号に τ を付加し,減算すれば,その信号を抑圧

することができる.

s(t) = x2(t − τ) − x1(t) (2.2)

なお,任意の方向からの雑音を除去するためには,指向性雑音の到来方向を予測

する枠組みがシステムに含まれていることが必要である.

適応ビームフォーマー

上述した減算型ビームフォーマーは雑音の到来方向が必要である.これに対し

て,マイクロホンアレイの観測信号それぞれにある適応フィルタ係数をかけ,目

的音声方向の利得は 1となる拘束条件を保った上で,ビームフォーマーの出力が

最小となるよう,適応的な処理を行っていくことで,結果として,指向性雑音方

向に死角を向けるような枠組を持った,適応ビームフォーマーの技術が存在する.

代表的なものとして,アレーアンテナ信号処理の技術から由来するDirectionally

Constrained Minimization of Power(DCMP)がある [2].DCMPは目的音声方向で

の応答を 1と拘束した上で,出力を最小にする適応フィルタ係数を算出する.こ

こで,

X(t) =[

x1(t) x2(t) · · · xN(t)]T

(2.3)

としたとき,出力は

s(t) = WTX(t) (2.4)

のように表せ,最適なフィルタ係数は,

Wopt = R−1xx C∗(CT R−1

xx C∗)−1H (2.5)

となる.ここで,T は転置を表す.また,Rxxは観測信号ベクトルの共分散行列,

Cは拘束ベクトル,Hは拘束応答ベクトルを表す.

Page 20: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

12 第 2章 一般的な雑音抑圧技術

DCMPは,目的音声方向に対して,1という応答しか許容していない.そこで,

金田らは,目的音声方向の拘束条件にある程度の許容を許すことで,大幅な雑音

抑圧効果を得られる,AMNOR方式を提案した [3].

D =1

∫ π

−π

|1 − F (ω)|2 dω

≤ Dth (2.6)

ここで,Dは拘束として定めた値と拘束応答F (ω)の 2乗誤差である.この誤差成

分Dthを一定値以下に抑える規準で適応フィルタを更新していくことで,目的音

声方向の信号に対し,周波数成分である程度の歪を許容する代わりに,大きな雑

音抑圧効果を得る.

ただし,適応ビームフォーマー全体の問題として,雑音区間中にその方向への

死角を向ける処理を行うため,発話区間検出が必須となることが挙げられる.

Griffiths-Jim型ビームフォーマー

Griffithsらは,DS法で除去しきれない指向性雑音を,減算型ビームフォーマー

から得られた雑音成分を適応的に減算することで除去する,Griffiths-Jim型ビー

ムフォーマーを提案した [4].まずDS法による目的音声強調フィルタと,減算型

ビームフォーミングによる目的音声抑圧フィルタ (ブロッキングフィルタ)の出力

を得る.目的音声強調信号 d(t)と目的音声抑圧信号 u(t)とのエラー出力が最小と

なるように,フィルタ係数を適応的に求める.

s(t) = d(t − Q) −Mtap∑

t=1

WGJBF (t)u(t) (2.7)

ここで,Qは除去に必要な因果律を満たすように,ビームフォーミングや適応フィ

ルタの遅延を補償するための遅延サンプル数である.また,WGJBF (t)は適応フィ

ルタの係数,Mtapはタップ数である.Griffiths-Jim型ビームフォーマーは雑音信

号成分を目的音声抑圧フィルタによって得ているため,雑音区間の検出は必要な

Page 21: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

2.2 指向性雑音抑圧 13

い.また,適応ビームフォーマーと同様に目的音声方向に対する拘束条件にある

程度の誤差を許容することで,性能を向上させている.

2ch型の Spectral Subtraction

浅野らは,マイクロホン観測信号と目的音声抑圧信号を周波数領域で減算する

2ch型の Spectral Subtraction (2ch-SS)を提案した [5].ブロッキングフィルタ中

に含まれる指向性雑音成分は,減算型のビームフォーミングによる周波数領域で

の歪を含むため,観測信号中に含まれるものとは異なる.そこで,その歪を補正

項によって補正した後,観測信号から雑音成分を SSする.

|S(ω, k)|2 = |XL(ω, k)|2 − |N2ch−SS(ω, k)|2 (2.8)

|N2ch−SS(ω, k)|2 = [XL(ω, k) − XR(ω, k)]2/|1 − ejωτ |2 (2.9)

ここでXL(ω, k),XR(ω, k)はそれぞれ目的音声の正面に配置された,2個のマイ

クロホンの観測信号を表す.

上述した適応ビームフォーマー,Griffiths-Jim型ビームフォーマーや 2ch-SSは,

DS法もしくは減算型ビームフォーミング等の技術が基になっている.しかし,こ

れらの技術の雑音抑圧性能はマイクロホンアレイの規模に大きく依存するため,装

置規模にロバストではない.近年では,図 2.2で示したような,人間の音声は時間-

周波数領域では疎に分布しているという仮定を積極的に利用した手法が提案され

ている.ある複数話者の混合音声を分析したとき,上述した音声のスパース性の

仮定が成り立っているならば,各時間-周波数ビンに着目した場合,その成分はあ

る特定の 1音源の成分のみが優勢であると考えられる.したがって,何らかの方

法で各時間-周波数ビンの成分がどの音源によるものなのかがわかりさえすれば,0

と 1のバイナリー型のマスキングを行うことで,所望とする音源のみを抽出する

ことができる.このような時間-周波数マスキングを用いることで,装置規模に関

係なく高精度に特定の音声のみを抽出できる.

Page 22: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

14 第 2章 一般的な雑音抑圧技術

複数マイク間に生じた強度差を利用した時間-周波数マスキング

青木らは所望とする音声と,それ以外の音声または雑音を装置上の工夫によっ

て,複数のセンサーに強度差をつけた状態で観測し,それら複数のセンサーの情

報を用いて時間-周波数マスキングを行った [6].例として,複数の話者にそれぞれ

指向性を向けた指向性マイクロホンを設置する等が挙げられる.話者A側に指向

性を向けた指向性マイクロホンの入力信号をXA(ω, k),話者B側に指向性を向け

た指向性マイクロホンの入力信号をXB(ω, k)としたとき,ある時間-周波数 binに

おいて,話者Aの音声が優勢ならば,その binでは,|XA(ω, k)| > |XB(ω, k)| とな

るはずである.したがって話者Aを目的音声とした場合,以下のように話者Aの

成分を抽出する時間-周波数マスクを生成できる.

M(ω, k) =

1, |XB(ω, k)| < |XA(ω, k)|0, otherwise

(2.10)

このようにして得られた時間-周波数マスクを観測信号のスペクトルにかけること

で,目的音声の成分のみを通過させ,雑音をマスキングすることができる.

S(ω, k) = M(ω, k) · XA(ω, k) (2.11)

複数マイク間に生じた位相差を利用した時間-周波数マスキング

Yilmazらは,マイクロホンアレイの各観測信号に生じる音声の位相差に着目し

た時間-周波数マスキングを提案した [7].これは,青木らの手法と比較して,目

的音声を強調するような装置上の工夫は必要なく,マイクロホン間の位相差から,

音源の到来方向を推定し,それから時間-周波数マスクを生成する.ある時間-周波

数 binにおける,位相差が所望とする音源方向と対応したものならば,その binを

通過させるようなマスクを生成する.マイクロホンアレイ正面方向を 0°とした場

合,信号の到来方向 θTFmask(ω, k)は以下のように求まる.

θTFmask(ω, k) = sin−1 ϕ(ω, k)c

2πfdij

(2.12)

Page 23: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

2.3 拡散性雑音抑圧 15

ϕ(ω, k) = ∠Xi(ω, k)

Xj(ω, k)(i 6= j) (2.13)

ここで,cは音速,f は周波数,dij はマイクロホン iと jのマイク間距離である.

得られた到来方向に基づいて,以下のような時間-周波数マスキングを行う.

M(ω, k) =

1, θtarget − δ < θTFmask(ω, k) < θtarget + δ

0, otherwise(2.14)

θtargetは目的とする信号の到来方向であり,δは目的音声と許容する到来方向の範

囲である.最後にマスキングを行い所望とする音声を抽出する.

S(ω, k) = M(ω, k) · Xi(ω, k) (2.15)

このように音声のスパース性の仮定を利用した手法は,従来のビームフォーミ

ングと比べ,複数のセンサーが必要という点では優位性は無いが,マイク間隔が

小さい場合でも,少しの差が生じれば,マスクを生成できるため,小規模なマイ

クロホンアレイへの適用に向いている.一方で,線形処理であるビームフォーミ

ングと比べ,時間-周波数マスキングは非線形の処理となるため,仮定が全く成り

立たない環境では,目的音声成分をマスクしてしまう等,著しく性能を劣化させ

てしまう恐れもある.

2.3 拡散性雑音抑圧

拡散性雑音抑圧技術は,単一マイクロホンを用いた手法と,マイクロホンアレ

イを用いた手法が存在する.単一マイクロホンを用いた手法は,拡散性雑音の時

間的定常性と無相関性に基づいて,雑音抑圧を行う.マイクロホンアレイを用い

た手法は,拡散性雑音のマイクロホン間での無相関性,つまり空間的無相関性に

基づいてる.以下,それぞれについて詳しく述べる.

Page 24: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

16 第 2章 一般的な雑音抑圧技術

2.3.1 単一マイクロホンを用いた手法

拡散性雑音は一般的に比較的定常的であることが考えられるため,非発話区間

中に雑音成分を推定して,それを雑音除去に用いることが可能なため,単一マイ

クロホンを用いた手法が数多く存在する.

Spectral Subtraction

単一マイクロホンを用いた手法として,最も単純なものは,Bollが提案したSpec-

tral Subtraction (SS)である [9].まず,発話が存在しない区間において,雑音の

みのスペクトルを得る.例としては,Voice Activity Detection (VAD)等を用いて

非発話区間を定め,その区間における周波数 bin毎のスペクトルの平均値,すなわ

ち雑音成分のパワースペクトルの推定値を得る.このようにして得られた雑音成

分の推定値を入力信号のパワースペクトルから周波数領域における減算を行うこ

とで,目的音声の推定パワースペクトルを得る.

|S(ω, k)|2 = |X(ω, k)|2 − |N(ω, k)|2 (2.16)

Bollによる SSは雑音が完全に定常的であるならば,観測信号に含まれる雑音を

とても単純な処理で除去することが可能である.しかし,取り扱う雑音の分散が

大きい場合,推定値として平均値を用いているため,誤差が生じることになる.こ

の誤差は,周波数領域上でランダムに発生し,SSで消し残した成分は,時間-周波

数領域上で孤立した成分として存在する.これは自然現象では起き得ない現象で

あり,人間が耳にした場合,大きく耳障りなノイズとなる.これはmusical noise

と呼ばれ,SSを使用する上での大きな問題となっている.

Beroutiらは,推定雑音成分をそのまま観測信号から減算するのでなく減算成

分を定数倍するようなサブトラクション係数を導入して,SSを行う over spectral

subtractionを提案した [10].サブトラクション係数は,Siganl to noise ration (SNR)

Page 25: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

2.3 拡散性雑音抑圧 17

に基づいて決定される 1以上の数である.

|S(ω, k)|2 = |X(ω, k)|2 − α|N(ω, k)|2 (2.17)

SNRが小さいとき,その区間では発話成分は無く,雑音のみであると考えられる.

そのとき,サブトラクション係数 αの値が大きくなることで,雑音成分の分散が

大きい場合においても,全て引き去ることができるため,musical noiseが大きく

目立つのを防ぐことができる.一方,SNRが大きいとき,雑音成分を大きく減算

をする必要はないためα は 1となる.この over spectral subtractionの考えは後に

大きく応用され,SS処理音声の音質,musical noiseの低減に大きく貢献している.

Viragらはサブトラクション係数に加え,SS後の音声の減算に下限値を設け,さら

にそれらの値を聴覚的な特性に応じて決定した [11].Choらは,マイクロホンア

レイの各観測信号それぞれに SSを行い,その出力信号にDS法を適用することで,

定常的な雑音と指向性の雑音の除去を試みた [12].山ノ内らは発話区間中にて雑音

成分が推定雑音から,変化していくことに追従するため,音声成分が存在しない超

高域,または超低域の変化を参照しながらサブトラクション係数を変える手法を

提案している [13,14].また,SSによって生じるmusical noiseを SSの後処理とし

て除去する手法が,ZentonやUderaらによって,提案されている [15,16].musical

noiseは時間-周波数領域では孤立するものであり,前後時間フレームまたは前後の

周波数で分析し,突発的に発生しているならば,それを消すことで,musical noise

を抑圧することが可能である.

MMSEに基づく single-channel型Wiener filter

SSは短時間フレーム毎の情報しか用いていない.したがって,突然出力のパワー

スペクトルが大きくなったり,小さくなる等の不自然な状況に対応できない.出力

信号は不連続な信号はとらず,時間的に連続な振るまいをすることが予測できる.

つまり,過去の情報を利用して過去からの振るまいと大きく異なるような現象を

防ぐ枠組を導入することで,不自然なスペクトル,musical noiseの発生を防げる

Page 26: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

18 第 2章 一般的な雑音抑圧技術

はずである.Ephraimらは,過去の時間情報を利用する Decision Directed (DD)

法よって求めた a priori SNRを用いて single-channel型のWiener filterを設計す

ることで,SSで発生するmusical noiseを大きく低減することを実現した [18].最

適な single-channel型のWiener filterは以下の式で表せる.

Ws(ω, k) =SNRpriori(ω, k)

SNRpriori(ω, k) + 1(2.18)

SNRpriori(ω, k) =E[|S(ω, k)|2]E[|N(ω, k)|2]

(2.19)

a priori SNRと定義されるSNRpriori(ω, k)は目的信号と雑音成分のパワーの期待値

の比であり,これがわかれば最小二乗誤差に基づいた上述した形の最適なWiener

filterが求まる.しかし,目的信号の期待値は未知であるから,どのようにして

a priori SNRを求めるかが焦点となる.Ephraimらは,観測信号と推定雑音成分

のパワー比で定義される,a posteriori SNRならば求めることが可能であることに

着目し,過去フレームの推定目的音声成分も利用したDD法によって,a priori SNR

を推定した.

SNRpost(ω, k) =|X(ω, k)|2

E[|N(ω, k)|2](2.20)

SNRpost(ω, k) =|X(ω, k)|2

|N(ω, k)|2(2.21)

SNRDD

priori(ω, k) = β|S(ω, k − 1)|2

|N(ω, k)|2+ (1 − β)P [SNRpost(ω, k) − 1] (2.22)

ここで,P [·]は 0以下の値を 0にするための関数,βは時間スムージングのための

係数であり,通常は β = 0.98である.このように過去の情報をふんだんに活用す

ることで,短時間フレームの情報のみを利用する処理と比べ,大幅にmusical noise

の発生を防ぐことが可能となる.また,PlapousらはDD法によって得た推定目的

音声成分を使ってもう一度 a priori SNRを求めることで,時間平滑化による正確

なスペクトルの追従の遅れを解消している [19, 20].

Page 27: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

2.3 拡散性雑音抑圧 19

2.3.2 複数マイクロホンを用いた手法

指向性を有さない拡散性雑音ならば,複数のマイク間での相関は無いというこ

とに着目した,マイクロホンアレイを用いたmulti-channel型のWiener filterが提

案されている.multi-channel型のWiener filterは single-channel型のWiener filter

と比べ,装置の規模が大きくなってしまうという欠点を有するが,雑音をあらか

じめ推定しておくことが必要無く,変化する雑音にも追従しやすい.また,前述

したビームフォーミング技術とも組み合わせることで指向性雑音抑圧も可能とな

り,多く研究されている.

観測信号を用いたmulti-channel型Wiener filter

Zelinskiは複数の観測信号中に含まれる拡散性雑音は完全に無相関であると仮定

し,以下のようなmulti-channel型のWiener filterを設計した.

Wm(ω, k) =

2N(N−1)

∑N−1i=1

∑Nj=i+1[ReXi(ω, k)X∗

j (ω, k)]1N

∑Ni=1[Xi(ω, k)X∗

i (ω, k)](2.23)

ここで,Re·はリアルオペレータを表す.また,分子分母の相互相関,自己相関

はそれぞれ,時間平均をとることで,期待値に近い値を得る.これによって,分

子の自己相関部分はマイク間の相関に応じた値となり,それを自己相関でわるこ

とで無相関な拡散性雑音を抑圧する最適なゲイン係数となる.一方,Zelinskiと同

様にBouquinらによって複数マイクロホンを用いた拡散性雑音抑圧がなされてい

る [22].Bouquinらは,雑音抑圧にWiener filterでは無く,複数マイク間のコヒー

レンス関数を雑音抑圧ゲインとして用いている.

MSC(ω, k) =|XL(ω, k)X∗

R(ω, k)|2

|XL(ω, k)|2|XR(ω, k)|2(2.24)

Zelinskiの観測信号中に含まれる拡散性雑音は完全に無相関であるという仮定

は,マイク間隔が十分に大きい場合は成り立つが,マイク間隔が小さくなるにつ

れ,低周波数帯域の部分から次第に拡散性雑音でも相関を持ってしまうことが知

Page 28: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

20 第 2章 一般的な雑音抑圧技術

られている [24].この問題に対して,拡散性雑音の相関を有する成分が残留した

残留ノイズを除去する手法が提案されている.Bouquinらは,非発話区間におけ

る複数マイクロホンの相互相関成分は,拡散性雑音の有相関成分であるとみなし,

非発話区間にて推定しておいた,相互相関成分を減算することで,拡散性雑音の

有相関成分を除去することを試みた [23].

拡散性雑音の coherene関数で補正したmulti-channel型Wiener filter

McCowanらは,理論的な拡散性雑音のコヒーレンス関数は既知であることを利

用して,拡散性雑音の残留成分をコヒーレンス関数から導くことで,残留ノイズ

を除去することを試みた [24].multi-channel型のWiener filterの残留ノイズが除

去された分子部分を φijss(ω, k)とすると,これは理論的な拡散性雑音のコヒーレン

ス関数 Γijを用いて,以下のように導出される.

φijss(ω, k) =

ReXi(ω, k)X∗j (ω, k) − 1

2ReΓij(|Xi(ω, k)|2 + |Xj(ω, k)|2

1 − ReΓij(2.25)

このようにして求めたφijss(ω, k)を観測信号の自己相関で割ることで,multi-channel

型のWiener filterを設計する.

Wmcco(ω, k) =

2N(N−1)

∑N−1i=1

∑Nj=i+1[φ

ijss(ω, k)]

1N

∑Ni=1[Xi(ω, k)X∗

i (ω, k)](2.26)

multi-channel型と single-channel型Wiener filterの混合手法

Liらは拡散性雑音の相関が低い高周波数領域はmulti-channel型のWiener filter

を,相関の高い低周波数領域では single-channel型のWiener filterを適用したhybrid

型の拡散性雑音抑圧手法を提案している [25].拡散性雑音の無相関性の仮定がある

程度成り立つ周波数帯域では,Zelinskiが提案したようなmulti-channel型のWiener

filterを改良したものを設計する.これは全てのマイクロホンペアを選択するので

は無く,信頼性の高いマイクロホンペアを選択しWiener filterを設計することで,

ロバスト性を高めている.また,拡散性雑音の無相関性の仮定が成り立たないよう

Page 29: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

2.3 拡散性雑音抑圧 21

な周波数帯域では,DD法によって求めた a priori SNRを用いた,single-channel

型のWiener filterを適用する.

以上,指向性雑音もしくは拡散性雑音を抑圧する一般的な雑音抑圧技術につい

て述べた.これらの技術は,理想的なマイクロホンアレイ配置や,計算資源があれ

ば,対象とする種類の雑音を抑圧できることが可能となる.しかし,これらの技術

は本研究が目的とする携帯端末への搭載に適していない.なぜなら,携帯端末は

マイクロホンアレイを使用する場合,設置面積が限られることから理想的な設置

が不可能であるためである.これによって適応ビームフォーマーやmulti-channel

型のWiener filter等,多数のマイクロホンを用いた手法には効果的な雑音抑圧は

期待できない.また,単一マイクロホンを用いた手法はマイクロホンが一つで済

むため,携帯端末に設置することは可能であるが,指向性雑音に対応しにくいと

いう問題がある.さらに,雑音成分を学習するためのVADには膨大な計算量が必

要となる場合もあり,携帯端末への適用は現実的ではない.加えて,実環境にお

いてそれぞれの種類の雑音が個々に存在することは極めて稀であるため,雑音抑

圧の枠組に指向性雑音抑圧と拡散性雑音抑圧の枠組が親和性の高い形で組み合わ

されていなければならない.

次章からは,これらの問題を克服することを目的とした提案手法について詳し

く述べる.

Page 30: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener
Page 31: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

23

第3章 正方形マイクロホンアレイを用いた指向性雑音抑圧

本章では,小規模なマイクロホンアレイで実現可能な新しい指向性雑音抑圧手法

について述べる.提案手法は,2個の無指向性マイクロホンの入力信号に対し,減

算型のアレイ処理を施し,その後,Spectral Subtraction (SS)を行う.アレイ処理

部では,目的音声強調の空間フィルタと目的音声抑圧空間フィルタの 2系統の空間

フィルタを得る.目的音声以外の方向に死角を向けた空間フィルタを複数得た後,

それらの最小化選択によって擬似的に目的音声方向を強調するような空間フィル

タを得る.このようにして得られた 2系統の空間フィルタを用いて SSを行うこと

で,目的音声方向に鋭い焦点を向けることが可能となる.さらに,より広範囲か

らの妨害音にも対応できるようにするため,その技術を 3個のマイクロホンへと

拡張する.

以下,3.1で 2個のマイクロホンを用いた指向性雑音抑圧手法を,3.2で 3個のマ

イクロホンを用いた指向性雑音抑圧手法について,それぞれ述べる.3.3では,提案

手法の効果を確認するため,2話者の同時発話状況における雑音抑圧実験について

述べる.雑音抑圧性能の評価は,連続音声を対象とした音声認識性能とPESQ [26]

によって行った.

3.1 2個のマイクロホンを用いた指向性雑音抑圧

図 3.1に 2個のマイクロホンと目的音声,指向性雑音の配置例を示す.s(t)は目

的音声信号,d(t)は指向性雑音信号をそれぞれ示す.また,dmicはマイク間距離,

Page 32: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

24 第 3章 正方形マイクロホンアレイを用いた指向性雑音抑圧

ch1 ch2

(t)x2(t)x1

s(t)target source

disturbance source d(t)

dmic

図 3.1 各信号とマイクロホンアレイの配置.

xi(t)は ch-iのマイクロホンにおける観測信号を示す.目的音声は 2個のマイクロ

ホンの正面に位置し,指向性雑音は正面方向に対して θ方向から到来するものと

する.

図 3.2に提案する 2個のマイクロホンを用いた指向性雑音抑圧手法のブロック図

を示す.本章では以後この手法を”2ch手法 (two-channel method)”と呼ぶ.2ch手

法はアレイ処理部と SS部に別れる.

3.1.1 アレイ処理

アレイ処理部では,減算処理によって複数の指向特性の異なる空間フィルタを

得る.一つは目的音声方向から到来する信号を強める空間フィルタ,もう一つは目

的音声方向から到来する信号を弱める空間フィルタである.

目的音声抑圧フィルタは二つのマイクロホンの観測信号を用いて,以下のよう

な減算処理によって得られる.

n12(t) = x1(t) − x2(t) (3.1)

Page 33: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

3.1 2個のマイクロホンを用いた指向性雑音抑圧 25

+

delay

delay

+

-

+

-

-

FFT

FFT

FFT

IFFT/OLA

min| . |

SpectralSubtraction

SpectralSubtraction

calculate distortion

phaseinformation(t)x 2

(t)x1

(t)n12

(t)b12

(t)b21

)k ,(N12

)k ,(B12

)k ,(B21

)k ,(S12

(t)s

)k ,(M12

| . |ch1

ch2

distortioncorrection

)k ,(S12′

図 3.2 提案手法ブロック図 (two-channel method).

ここで, n12(t)は目的音声抑圧フィルタの出力に対応する信号である.

次に,二つのマイクロホンの観測信号の片側に,ある遅延量 τ を付加しもう片

方の信号と減算処理を行うことで,付加した遅延量 τ に応じた方向に死角を向け

るような空間フィルタを得る.ここでは,遅延を付加するマイクロホンを変える

ことで,2通りの空間フィルタを得る.

b12(t) = x1(t − τ) − x2(t) (3.2)

b21(t) = x1(t) − x2(t − τ) (3.3)

ここで,b12(t)と b21(t)は付加した遅延量 τ に応じた方向に死角を向けるような空

間フィルタの出力信号に対応する.以後,nij(t)と bij(t)の周波数領域表現である

Nij(ω, k) と Bij(ω, k)を用いて話を進める.これらの出力信号に対応する各空間

フィルタ φN12,φBijの指向特性を図 3.3に示す.ここで,青木らが論じているよ

うな音声のスパース性の仮定 [6]が成り立っているとき,B12(ω, k)とB21(ω, k)を

時間-周波数 bin毎に小さいほうの信号を選択することは,目的音声方向に擬似的

なビームを向けることと等価である言える.

|M12(ω, k)| = min[|B12(ω, k)|, |B21(ω, k)|] (3.4)

Page 34: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

26 第 3章 正方形マイクロホンアレイを用いた指向性雑音抑圧

direction θ [deg]

Gai

n

φ φ φ φ ′

図 3.3 各空間フィルタの指向特性 φB12 , φB21 , φN12 , φS′12

(f = 2000 Hz, dmic = 4

cm, τ = 3/32k sec).

例えば,ある時間-周波数 binにおいて,その binで優勢な音源が図 3.3における 45

°方向から到来している場合,図における φB12 が選択され,その音源方向には死

角が向けられる.一方,優勢な音源が-45°方向から到来している場合は,図にお

ける φB21が選択され,その音源方向に死角が向けられることになる.したがって,

B12(ω, k)とB21(ω, k)の最小化選択の出力である |M12(ω, k)|は擬似的に目的音声

方向に焦点を向けた空間フィルタの出力とみなすことができる.結果的に,アレ

イ処理部にて,目的音声抑圧信号 |N12(ω, k)|と,目的音声強調信号 |M12(ω, k)|の

2系統のスペクトルを得ることができる.

Page 35: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

3.1 2個のマイクロホンを用いた指向性雑音抑圧 27

3.1.2 Spectral Subtraction

アレイ処理によって得られた特性の異なる 2個の信号を用いて SSを行う.目的

音声方向により鋭い焦点を向けるため,|M12(ω, k)|から |N12(ω, k)|を以下の式の

ように減算する.

|S ′12(ω, k)|2 =

|M12(ω, k)|2 − |N12(ω, k)|2,if |M12(ω, k)| > |N12(ω, k)|

0, otherwise

(3.5)

SSの出力信号 |S ′12(ω, k)|が形成する指向特性φS′

12を図 3.3に示す.この図より,SS

によって目的音声方向への指向特性がより鋭くなっていることがわかる.なお,図

における片側のマイクロホンに付加する遅延量 τ は 3/32 k secであるが,これは

指向性雑音によらず決定できる値であり,例えば, τ を大きくすると,目的音声

方向へのビーム幅が広くなり,逆に小さくすることで,目的音声方向へのビーム

幅が狭くなる.

また,前述したアレイ処理によって得られる |M12(ω, k)|は,目的音声方向に対

して,周波数軸上で均一な利得では無いため,目的音声成分の周波数上での歪を

生じさせてしまう.SSの出力である |S ′12(ω, k)|にも歪は含まれているため,これ

を補正する必要がある.マイクロホンアレイの正面に目的音声のみが存在する場

合を考える.このとき,各マイクロホンの観測信号は全て同一の信号であると考

えられる.

x1(t) = x2(t) = s(t) (3.6)

このことから,アレイ処理で得られる二つの信号は以下のように表せる.

|N12(ω, k)| = 0 (3.7)

|M12(ω, k)| =√

2 − 2 cos(ω · τ) · |S(ω, k)| (3.8)

ここで,|S(ω, k)|は目的音声信号 s(t)の周波数領域表現である.このことから,SS

の出力 |S ′12(ω, k)|は以下のように表せる.

|S ′12(ω, k)| =

√|M12(ω, k)|2 − |N12(ω, k)|2

Page 36: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

28 第 3章 正方形マイクロホンアレイを用いた指向性雑音抑圧

Frequency [Hz]

Gai

n

図 3.4 SS後の出力 |S ′12(ω, k)|に生じる周波数軸上の歪の例 (τ = 3/32k sec).

=√

2(1 − cos(ω · τ)) · |S(ω, k)| (3.9)

上式において,|S(ω, k)|にかかる項が,歪を生じる項であり,例えば周波数軸上

で図 3.4のような振るまいをとる.この歪を以下のようにして補正する.

|S12(ω, k)| =|S ′

12(ω, k)|√2(1 − cos(ω · τ))

(3.10)

こうして得られた真の推定目的音声のスペクトル |S12(ω, k)|は,時間領域に復元

する際には,入力信号の位相等を用いて推定目的音声信号 s(t)を得る.

3.2 3個のマイクロホンを用いた指向性雑音抑圧

前節で述べた 2ch手法は真横から到来する指向性雑音,例えばマイクロホンア

レイの真横等から到来するようなものは効果的に除去することができる.しかし,

目的音声方向以外からの方向であるのに関わらず,マイクロホンに対し,同時に到

Page 37: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

3.2 3個のマイクロホンを用いた指向性雑音抑圧 29

ch2

ch3 ch4

y

ch1

4cm

4cmch2

ch3 ch4

ch1

図 3.5 正方形マイクロホンアレイのマイク配置

達するような雑音は除去できない.例えば,目的音声とマイクロホンアレイをは

さんでちょうど反対の方向から到来するような雑音である.これは原理的に,2ch

手法は 2個のマイクロホンに対し,位相差を伴って入力された信号を除去する枠

組であり,そのような信号には対応できないためである.実際の使用環境を考え

ると,上述した状況から指向性雑音が到来する場合も大いに考えられ,2ch手法だ

けでは十分とは言えない.本節では,2ch手法を 4個のマイクロホンを正方形の各

頂点に配置した正方形マイクロホンアレイのうちの 3個を使う手法へと拡張する.

なおここで提案する手法を”3ch手法 (three-channel method)”と呼ぶものとする.

図 3.5に正方形マイクロホンアレイのマイクロホン配置を示す.正方形マイクロ

ホンアレイのマイク配置は,前述した指向性雑音抑圧可能方向の制限を克服する

目的のマイク配置がなされている.目的音声が到来する方向は図における z軸方

向から到来するものとする.このような配置をすることで,マイクロホンアレイ

平面方向 360°から到来する信号の区別をつけることが可能となる.なお,本節で

提案する 3ch手法では,実際に用いるマイクロホンは 4個の中から 3 個を選択す

ることになる.

Page 38: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

30 第 3章 正方形マイクロホンアレイを用いた指向性雑音抑圧

IFFT/OLA

phaseinformation

(t)x 2

(t)x1

k),(S ω (t)sch1

ch2

ch3 (t)x3

k),(S12 ωtwo-channel methodtwo-channel method

two-channel methodtwo-channel method

minimizationminimization

k),(S23 ω

図 3.6 提案手法ブロック図 (three-channel method).

このようなマイクロホン配置において,2通りのマイクペアで 2ch手法を適用す

れば,z軸方向から到来する音声のみを抽出することができると考えられる.例え

ば,ch1と ch2,ch2と ch3の組合せが挙げられる.図 3.6に 3ch手法のブロック図

を示す.|S12(ω, k)|は,ch1と ch2を使用して,推定された目的音声のスペクトル

であり,図 3.5における y-z平面から到来する信号が抽出されたものであると考え

ることができる.一方,|S23(ω, k)|は,ch2と ch3を使用して,推定された目的音

声のスペクトルであり,図 3.5における x-z平面から到来する信号が抽出されたも

のであると考えることができる.2ch手法での最小化選択の場合と同様に,音声の

スパース性が仮定できるならば,|S12(ω, k)|と |S23(ω, k)|の最小化選択を行うこと

で,z軸方向から到来する音声のみを抽出することが可能であると考えられる.

|S(ω, k)| = min[|S12(ω, k)|, |S23(ω, k)|] (3.11)

このようにして得られた |S(ω, k)|は,図 3.5における z軸方向からの音声のみを抽

出したものであり,携帯端末の使用者の音声のみを抽出できるものと考えられる.

Page 39: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

3.3 指向性雑音抑圧実験 31

3.3 指向性雑音抑圧実験

指向性雑音が存在する環境下で,雑音を抑圧し目的音声を強調する実験を行い,

連続音声認識と強調された音声の音質の二つの観点から,提案手法の評価を行っ

た.雑音抑圧性能は連続発話音声の単語正解精度と,PESQによって算出される

mean opinion score (MOS) によって評価される.雑音が到来する方向を変化させ,

3個のマイクロホンを用いた 3ch手法が指向性雑音の到来方向にロバストであるこ

とを確認するとともに,同じ雑音環境下にて従来手法と提案手法の性能を比較を

行った.

3.3.1 実験状況

実験は携帯端末の使用者が端末に向かって発話を行っていて,その端末に指向

性雑音として他者の発話が向けられている,という 2話者の同時発話状況を想定

して行った.図 3.7にマイクロホンアレイと目的音声,指向性雑音の位置関係と収

録環境を示す.目的音声は傾けられたマイクロホンアレイに対し,25 cmの距離か

ら発話される.指向性雑音である妨害音声は,マイクロホンアレイから 1 mの距

離で角度 θ方向から発話される.それぞれのより詳細な位置関係を,図 3.8に示す.

マイクロホンアレイ平面と床がなす角 φは 30°とし,図 3.8における b軸と指向性

雑音の到来方向とがなす角 θは,0°,30°,60°,90°,120°,150°,180°の 7通

りの場合を考える.なおマイクロホンの高さは床から 100 cm,各スピーカーの高

さは 140 cmであり,収録を行った部屋の残響は 240 msである.各スピーカーか

ら Time streched pulse (TSP)を鳴らし,マイクロホンアレイで収録した TSP波

形からインパルス応答を計算した [28].目的音声,妨害音声ともにASJ-JNASの

男性 23名の新聞読み上げ連続音声 100発話 [29]にインパルス応答を畳み込むこと

で,発話をシミュレートした.なお,目的音声と指向性雑音の SNRは 0 dBとし

た.このようにして得られた,目的音声と指向性雑音が混入した混合音声に対し

て提案手法による雑音抑圧処理を施し,連続音声認識性能と PESQによる評価を

Page 40: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

32 第 3章 正方形マイクロホンアレイを用いた指向性雑音抑圧

4 m2 m

2 m

5.5 m

DisturbanceTarget MIC ARRAY

1 m

25cm

図 3.7 目的音声と指向性雑音の収録環境.θ = 0, 30, 60, 90, 120, 150, 180.

φθ ch1

ch2

ch4

ch3

a

b

target speech

disturbance speech

図 3.8 目的音声,指向性雑音,マイクロホンアレイの位置関係.θ = 0, 30, 60,

90, 120, 150, 180, φ = 30.

行った.

Page 41: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

3.3 指向性雑音抑圧実験 33

音声認識に用いる音響モデルには,ASJ-JNASの男性話者 133人が接話型マイク

ロホンによって収録した連続発話音声 20414文から学習した状態共有トライフォン

を使用し, 認識器には当研究室開発のワンパストライグラムデコーダ SKOOD [30]

を使用した.なお,目的音のみをマイクロホンが観測した場合の単語正解精度は

88.6 %であった.PESQによる評価では,目的音声を参照信号とし,雑音抑圧処

理後音声,または無処理音声を被試験信号とした. 雑音抑圧処理時には分析フレー

ム長 32 msのハミング窓を使用し,フレームシフトは 8 ms,空間フィルタを形成

する際の遅延量 τ の値は 3/32 k secとした.なお,本稿にて考慮する音声の帯域

は,全ての実験において 300-7500 Hzとした.

3.3.2 2ch手法と3ch手法による指向性雑音抑圧実験結果

提案手法の指向性雑音抑圧効果を調べるため,2ch手法と 3ch手法による処理後

音声の単語正解精度と PESQ-MOSを算出した.評価項目は,1) 雑音抑圧処理

を施していない音声 (mic input),2) 図 3.8における ch1と ch2を使用した 2ch手

法 (ch1 & ch2),3)  ch2と ch3を使用した 2ch手法 (ch2 & ch3),4)  ch1,ch2,

ch3を使用した 3ch手法 (ch1 & ch2 & ch3) の 4通りである.

単語正解精度とPESQ-MOSを図 3.9,図 3.10 にそれぞれ示す.まず,図 3.9に

着目する.2ch手法を適用した場合,理論通りの角度から到来する指向性雑音が

抑圧できていることがわかる.例として,図 3.8における ch1と ch2を使用した

場合,θ = 90°方向から到来する信号が最も 2個のマイク間に位相差がつくため,

雑音抑圧効果が大きいと考えられるが,図 3.9における θ = 90°の単語正解精度

を見ると,mic inputがほぼ 0 %であるのに対し,ch1&ch2で 62.3 %と大幅に向

上しているのがわかる.対称的に,図 3.8における ch2と ch3を使用した場合,同

様に θ = 180°方向から到来する信号に対する雑音抑圧効果が最も大きいと考えら

れ,実際に図 3.9における θ = 180°の単語正解精度を見ると,mic inputでほぼ

0 %から,ch2&ch3で 68.6 %と大幅に向上している.この結果から,2ch手法が効

Page 42: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

34 第 3章 正方形マイクロホンアレイを用いた指向性雑音抑圧

"! # !%$'& ()*

+ ,,-.,/0 12

3 4 5 6 5 5 6 5 5 6 75 6 5

図 3.9 2話者同時発話における単語正解精度.

果的に指向性雑音を抑圧できていることが確認できる.しかし,2ch手法では結果

からもわかる通り,指向性雑音がうまく抑圧できていない到来方向が存在するこ

とがわかる.2ch手法を 3個のマイクロホンへ拡張した 3ch手法の結果を見ると,

ほぼ全ての指向性雑音の到来方向に対応できていることがわかる.また図 3.10の

PESQ-MOSの結果もほぼ同等の傾向が見られ,単語正解精度だけでなく,音質の

面でも大きく向上が見られる.このことから,提案した 3ch手法によって,ほぼ

全ての方向から到来する指向性雑音を効果的に抑圧できることが可能であること

がわかる.

3.3.3 従来の指向性雑音抑圧手法との比較結果

2章において解説した,他の指向性雑音抑圧手法と提案手法との比較実験を行っ

た.実験状況は,目的音声と指向性雑音の SNRは 0 dBとし,妨害音声の到来方向

Page 43: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

3.3 指向性雑音抑圧実験 35

"!$# #&%(' ) * +

,-./012.

3 " 4 5 6 5 5 6 5 5 6 5 6 5

図 3.10 2話者同時発話における PESQ-MOS.

は図 3.8において,θ = 90°とした.比較を行った手法は,図 3.8における 4個の

マイクロホンを用いたDelay & sum法 (DS),図 3.8において ch1と ch2を用いて,

Griffiths-Jim型のビームフォーマーを施したもの (2ch-GJBF) [4],浅野らによる 2

チャンネルのマイクロホンに基づく SSを施したもの (2ch-SS) [5],マイクロホン間

の位相差に基づいて時間-周波数マスキングを施したもの (2ch-TFmasking) [7]であ

る.なお,Griffiths-Jim型のビームフォーマーでの適応フィルタのタップ数は 512

tapとし,2ch-SSでの雑音の到来方向は真値を与えた.さらに,2ch-TFmaskingで

は目的音声とする角度をマイクロホンアレイ正面に対して±20°の範囲とした.単

語正解精度と PESQ-MOSによる結果を表 3.1に示す.

この結果より,マイクロホンアレイによるビームフォーミングが基になってい

る,DS,2ch-GJBF,2ch-SSは若干の性能の向上は見られるものの効果的とは言

えない.これはマイク間隔が非常に狭いため,急峻な死角またはビームが向けら

Page 44: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

36 第 3章 正方形マイクロホンアレイを用いた指向性雑音抑圧

表 3.1 他の指向性雑音抑圧手法と提案手法との比較結果.

method word accuracy [%] PESQ-MOS

non-proess 0.25 1.89

DS 6.23 1.99

2ch-GJBF [4] 9.66 2.04

2ch-SS [5] 24.9 2.29

2ch-TFmasking [7] 62.2 2.72

ch1&ch2&ch3 63.2 2.75

れていないためであると考えられる.一方,2ch-TFmaskingや提案手法では,大

幅な単語正解精度,PESQ-MOSの向上が見られる.これは,マイクロホンアレイ

によるビームフォーミングが,一つの要素として用いられているが,最終的には

時間-周波数マスキングや,SS等の非線形処理を加えることで,効果的に雑音を抑

圧しているためである.なお,2ch-TFmaskingと提案手法の性能がかなり近い値

を達成しているが,両手法とも音声のスパース性の仮定に基づいた手法であるた

め,時間-周波数マスキングによるアプローチという点では,この実験環境下での

性能限界にほぼ達しているためであると考えられる.

以上,本章では,正方形マイクロホンアレイを用いた新しい指向性雑音抑圧に

ついて述べた.提案手法は少ないマイクロホン数,具体的には最小で 2個のマイ

クロホンがあれば,効果的に指向性雑音を抑圧できる.さらに,3個のマイクロホ

ンへの拡張も容易に可能で,それによってほぼ全ての方向から到来する指向性雑

音に対応できる.また,雑音抑圧性能面でも他の指向性雑音抑圧手法と比較して,

音声認識精度,PESQ-MOSの二つの面で,優れていることを確認した.

Page 45: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

37

第4章 正方形マイクロホンアレイを用いた拡散性雑音抑圧

本章では,正方形マイクロホンアレイを用いた新しい拡散性雑音抑圧手法につい

て述べる.提案する拡散性雑音抑圧手法では,空間フィルタ群の形成,空間フィ

ルタ群の出力を利用したmulti-channel型のWiener filtering,残留ノイズ除去のた

めの single-channel型のWiener filteringから成る.本手法では雑音の学習が必要

無く,複数のマイクロホンの情報を活用できる点からmulti-channel型のWiener

filteringを初段に用いる.このとき,マイクロホンアレイの観測信号をそのまま

Wiener filterの計算に用いる従来のmulti-channel型Wiener filterでは,マイク間

隔が狭い場合,拡散性雑音の無相関性の仮定が成り立たなくなるため,雑音抑圧の

性能は劣化してしまうが,本手法では,観測信号ではなく空間フィルタの出力を用

いることで雑音抑圧の性能劣化を防ぐ.さらに,multi-channel型のWiener filter

で抑圧しきれなかった残留ノイズを single-channel型のWiener filterで除去する.

ここでは,残留ノイズ推定のための発話区間検出に前段のmulti-channel型Wiener

filterの値を利用するため,別途発話区間推定を行う必要は生じない.

以下,4.1で空間フィルタの出力を利用したmulti-channel型と single-channel型

Wiener filterを統合した提案手法について述べる.4.2では,提案する拡散性雑音

抑圧手法の性能評価実験について述べる.ここでは,目的音声に拡散性雑音を重

畳させた音声に対し,従来の拡散性雑音抑圧手法と提案手法との比較を連続音声

認識性能と処理後音声の音質の観点で行った.

Page 46: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

38 第 4章 正方形マイクロホンアレイを用いた拡散性雑音抑圧

multiple nullbeamforming

& DFT

calculatemulti-channel

Wiener filter

residual noiseestimation &

calculatesingle-channel

Wiener filter

IFFTOLA

),( kBi ω

),(sum kB ω

),( kHm ω

),(ˆ kSm ω ),(ˆ kS ω

phase information

)(ˆ ts

),( kH s ω

)(1 tx

)(2 tx

)(3 tx

)(4 tx

make spatial filters |.|

1/4

|.||.|

|.|

図 4.1 提案手法ブロック図 (拡散性雑音抑圧).

4.1 空間フィルタの出力を利用したmulti-channel型と single-channel型Wiener filterの統合

本手法でも,前章の図 3.5で示したマイクロホン配置の正方形マイクロホンアレ

イを用いる.目的音声が到来する方向は同様に図における z軸方向のみとする.図

4.1に提案する拡散性雑音抑圧手法のブロック図を示す.本手法は,空間フィルタ

群の形成,空間フィルタ群の出力を利用したmulti-channel型のWiener filtering,

残留ノイズ除去のための single-channel型のWiener filteringから成る.以下,そ

れぞれのステップについて述べる.

4.1.1 空間フィルタ群の形成

マイクロホンペアの減算型ビームフォーミングによって 4種類の空間フィルタ

φ1, φ2, φ3, φ4を得る.図 4.2に形成する各空間フィルタのパターンを示す.ここ

で,この減算型ビームフォーミングはマイクロホンペアの片方の信号にあらかじ

Page 47: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

4.1 空間フィルタの出力を利用したmulti-channel型と single-channel型Wiener filterの統合39

ch2

ch3 ch4

ch1

1φ2φ3φ4φ

図 4.2 形成する空間フィルタ群のパターン.

め決められた遅延量を付加し,もう片方との減算処理を行うことで得られるため,

動的な処理は必要としない.したがって,4種類の空間フィルタの形成は以下の式

によってなされる.

b1(t) = x2(t − τ) − x1(t) (4.1)

b2(t) = x3(t) − x4(t − τ) (4.2)

b3(t) = x2(t − τ) − x3(t) (4.3)

b4(t) = x1(t) − x4(t − τ) (4.4)

ここで,bi(t)は i番目の空間フィルタ φiの出力に相当し,tは時間インデックスを

表す.xj(t)は j番目のマイクロホンの入力信号,τ は図 4.2に示すようなカージオ

イド型の指向特性を形成するために,減算処理を行う際に付加する遅延量を表す.

Page 48: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

40 第 4章 正方形マイクロホンアレイを用いた拡散性雑音抑圧

cを音速,dをマイク間距離とした場合,τは d/cとなる.以下では空間フィルタφi

の出力 bi(t)に,短時間フーリエ変換を施したものBi(ω, k)を用いて議論を進める.

4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener

filter

空間フィルタ群の出力を利用したmulti-channel型Wiener filteringについて述

べる.ここでは雑音の学習が必要無く,複数のマイクロホンの情報を活用できる

点からmulti-channel型のWiener filteringを用いる.2章で述べたように Zelinski

は,マイクロホン間の拡散性雑音成分は無相関であると仮定して,以下のような

Wiener filterを設計した [21].

Wm(ω, k) =

2N(N−1)

∑N−1i=1

∑Nj=i+1[ReXi(ω, k)X∗

j (ω, k)]1N

∑Ni=1[Xi(ω, k)X∗

i (ω, k)](4.5)

マイク間隔が十分に大きい場合,この手法は拡散性雑音抑圧の効果を発揮するが,

マイク間隔が小さい場合は性能が劣化してしまう.無指向性のマイクロホンで観

測した拡散性雑音のコヒーレンス関数は以下の式で表せる.

γxy(ω) =sin ( ωd/c )

ωd/c(4.6)

図4.3に4 cm間隔の無指向性マイクロホン対で観測された,拡散性雑音のmagnitude-

squared coherence (MSC)の理論値を示す.これより,無指向性マイクロホンの入

力信号をそのまま用いた場合,低周波数帯域において,拡散性雑音でも高い相関

をもってしまうことがわかる.それに対し提案手法では,無指向性マイクロホン

の入力信号を用いてWiener filterを設計するのでは無く,空間フィルタ群の出力

を用いる.互いに 180°反対の方向に,指向性を向けた指向性マイクロホンに入力

された拡散性雑音のMSCは,無指向性の場合と比べて低くなることが知られてい

る [27].提案手法ではこの知見を積極的に活用する.指向性のマイクロホンで観

測した拡散性雑音のコヒーレンス関数は以下の式で表せる.

γxy(ω) = 3

4[

sin( ωd/c )

ωd/c+ ( x1x2 + y1y2 ) · ( sin( ωd/c )

( ωd/c )3− cos( ωd/c )

( ωd/c )2)

Page 49: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

4.1 空間フィルタの出力を利用したmulti-channel型と single-channel型Wiener filterの統合41

Frequency [Hz]

MS

C

omnidirectionalspatial filter outputs

図 4.3 無指向性マイクロホンを用いた場合と空間フィルタの出力を用いた場合の拡散性雑音のmagnitude-squared coherence (MSC)の理論値 (マイク間隔 4 cm).

+ z1z2(sin( ωd/c )

ωd/c+

2 cos( ωd/c )

( ωd/c )2− 2 sin( ωd/c )

( ωd/c )3)

+ j( z1 + z2 )(cos( ωd/c )

ωd/c− sin( ωd/c )

( ωd/c )2) ] (4.7)

ここで,( x1, y1, z1 ),( x2, y2, z2 )はそれぞれ指向性マイクロホンの指向性を

向けたベクトルの成分である.なお,無指向性マイクロホン,指向性マイクロホ

ンを用いた場合のコヒーレンス関数の導出は付録Aに示す.形成した 4個の空間

フィルタの出力 Bi(ω, k)から,180°反対の方向に指向性を向けたものを選択し,

以下のようにWiener filterを設計する.

Hm(ω, k) =12

∑[ReBp(ω, k)B∗

q (ω, k)]14

∑[Br(ω, k)B∗

r (ω, k)](4.8)

ここで,添字 p,q,rは (p, q) = (1, 2), (3, 4),r = 1, 2, 3, 4のように選択され

る.図 4.3に 180°反対の方向に指向性を向けた空間フィルタの出力中に含まれる,

拡散性雑音のMSCの理論値を示す.無指向性マイクロホンの場合と比べ,大き

Page 50: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

42 第 4章 正方形マイクロホンアレイを用いた拡散性雑音抑圧

くMSCが低減していることがわかる.これによって拡散性雑音の無相関性の仮定

がより正確になり,雑音抑圧効果の高いWiener filterを設計できることが期待さ

れる.

空間フィルタ群の出力の振幅を平均化した |Bsum(ω, k)|と,空間フィルタ群の出

力を用いて算出されたmulti-channel型のWiener filterを用いて,拡散性雑音が抑

圧された目的音声の推定スペクトルを得る.

|S ′m(ω, k)| = Hm(ω, k) · |Bsum(ω, k)| (4.9)

|Bsum(ω, k)| =|B1(ω, k)| + |B2(ω, k)| + |B3(ω, k)| + |B4(ω, k)|

4(4.10)

なお,|S ′m(ω, k)|は空間フィルタの出力であるため,目的音声の到来方向に対して,

周波数領域で均一な利得を得ていない.このことから生じる,周波数領域上の歪

みを 3章で述べたものと同様に,以下のように補正し,周波数領域上の歪みを含

まない目的音声の推定スペクトル |Sm(ω, k)|を得る.

|Sm(ω, k)| =|S ′

m(ω, k)|√2(1 − cos(ω · τ))

(4.11)

4.1.3 single-channel型Wiener filterによる残留ノイズ除去

図4.3に示したように,空間フィルタ群の出力を用いてmulti-channel型のWiener

filterを設計した場合でも,拡散性雑音のMSCは全周波数帯域で 0になるわけでは

無い.これはつまり,拡散性雑音をmulti-channel 型のWiener filterで全て抑圧で

きるわけでは無く,|Sm(ω, k)|に残留ノイズが存在することを意味する.しかし,

|Sm(ω, k)|中の残留ノイズ成分は,前段のmulti-channel 型Wiener filteringによっ

てパワーは小さくかつ,定常的であると考えられる.そこで,|Sm(ω, k)|を入力と

みなした single-channel型のWiener filterを適用することで,残留ノイズ成分を除

去することを試みる.single-channel型のWiener filterは,発話が存在しない区間

にてノイズ成分の推定を行う必要があり,以下のように残留ノイズ成分のパワー

Page 51: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

4.1 空間フィルタの出力を利用したmulti-channel型と single-channel型Wiener filterの統合43

スペクトルを更新する.

|Nm(ω, k)|2 = λ(k)|Sm(ω, k)|2 + (1 − λ(k))|Nm(ω, k − 1)|2 (4.12)

|Nm(ω, k)|2は残留ノイズのパワースペクトルの推定値,λ(k)は更新パラメーターで

あり単時間フレーム毎に算出され,multi-channel型のWiener filter Hm(ω, k)の値

に基づいて決定される.まず,Hm(ω, k)の値を対象とする周波数領域で平均化する

ことで,その短時間フレームでの音声の存在確率である speech presence probability

(SPP) SPP(k)を算出する.

SPP(k) =1

Ω

Ω∑

ω=1

Hm(ω, k) (4.13)

ここで,Ωは分析対象周波数 binの最大インデックスである.このようにして算

出された SPPは,例えば,音声が存在する場合は,マイク間での相関が高いため

multi-channel型のWiener filterの値Hm(ω, k)が高くなり,その結果SPPは高くな

り,逆に非発話区間では,拡散性雑音の相関は低いためmulti-channel型のWiener

filterの値Hm(ω, k)は低くなり,結果 SPPも低くなるというような振るまいをと

る.SPPを用いて,以下のようにその短時間フレームでの雑音更新パラメーター

λ(k)を更新する.

λ(k) =

λmax , SPP(k) < SPPmin

0 , SPPmin + ∆ < SPP(k)

−λmax

∆SPP(k) + λmax

∆(SPPmin + ∆), otherwise

(4.14)

ここで,λmaxは更新パラメーター λ(k)の最大値,SPPminは完全にそのフレーム

が非発話区間であると判定する SPP(k)の下限値,∆は完全な発話区間と完全な

非発話区間の判別のための SPPの幅を決定する値をそれぞれ表す.実際に拡散性

雑音が重畳された音声に対して,上述した式で算出した SPPと雑音更新パラメー

ターλ(k)の値を図 4.4に示す.ここで,目的音声は正方形マイクロホンアレイに向

かって発話された音声,拡散性雑音は屋外の道路上で正方形マイクロホンアレイを

Page 52: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

44 第 4章 正方形マイクロホンアレイを用いた拡散性雑音抑圧

sample point

frame

SP

P

frame

λ

(a)

(b)

(c)

SPPmin

図 4.4 音声存在確率 SPPと雑音更新パラメーター λの振るまい. : (a) マイクロホン観測信号 (SNR = 10 dB) (b) SPP (c) 雑音更新パラメーター λ

用いて収録した雑音であり,SNRが 10 dBとなるように重畳した.また,λmaxは

0.04,∆は 0.1,SPPminは,図 4.3に示したMSCの平均値を用いた.この図より,

まず SPPが非発話区間では低い値をとり,逆に発話区間では高い値をとっている

様子がわかる.さらにそれを雑音更新パラメーター λ(k)の算出に利用することで,

非発話区間では λ(k)の最大値 λmaxで更新を行い,発話区間では λ(k)が 0となり

雑音更新をしていない様子が確認できる.このようにして,前段のmulti-channel

型Wiener filterの値を利用することで,別途発話区間の推定をすることなく,推

定雑音成分を更新することが可能となり,single-channel型Wiener filterの適用を

可能とする.

Page 53: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

4.2 拡散性雑音抑圧実験 45

得られた残留ノイズ成分を用いて,single-channel型のWiener filterを設計する.

Hs(ω, k) =SNRpriori(ω, k)

SNRpriori(ω, k) + 1(4.15)

ここで,SNRprioriは a priori SNRであり,以下のように定義される.

SNRpriori(ω, k) =E[|S(ω, k)|2]

E[|Nm(ω, k)|2](4.16)

E[·]は期待値を表す.a priori SNRは,Plapousらによる two-step noise reduction

(TSNR)法を用いて推定することができる [19].これによって最終的な目的音声の

推定スペクトルを得る.

|S(ω, k)| = Hs(ω, k) · |Sm(ω, k)| (4.17)

このようにして推定された,目的音声のスペクトルを時間領域での音声として復

元するためには,位相情報が必要であり,例えば入力信号の位相情報を用いて,推

定目的音声 s(t)を得る.

4.2 拡散性雑音抑圧実験

拡散性雑音が存在する環境下で,雑音を抑圧し目的音声を強調する実験を行い,

連続音声認識と強調された音声の音質の二つの観点から,提案手法の評価を行っ

た.雑音抑圧性能は連続発話音声の単語正解精度と,PESQによって算出される

MOS値によって評価される.目的音声と拡散性雑音の SNRを変化させ,各環境

において従来手法,提案手法の各々の手法で雑音抑圧性能を評価した.

4.2.1 実験状況

道路において収録した実環境におけるノイズ (主に車の走行音)を拡散性雑音と

みなし,マイクロホンアレイ平面から垂直に 25 cmの距離から発話された音声を

重畳し作成した混合音に対し,提案手法と従来手法で雑音抑圧処理を行い,雑音

Page 54: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

46 第 4章 正方形マイクロホンアレイを用いた拡散性雑音抑圧

抑圧の効果を比較した.目的音声として使用した音声はASJ-JNASの新聞読み上

げ連続音声 100発話を用い,0,5,10,15,20 dBの 5通りの SNRを用いて騒音下

での発話をシミュレーションした.音声認識に用いる音響モデルには,ASJ-JNAS

の男性話者 133人が接話型マイクロホンによって収録した連続発話音声 20414文

から学習した状態共有トライフォンを使用し, 認識器には当研究室開発のワンパス

トライグラムデコーダ SKOOD [30]を使用した.なお,目的音のみをマイクロホ

ンが観測した場合の単語正解精度は 88.6 %である.PESQによる評価では,目的

音声を参照信号とし,雑音抑圧処理後音声,または無処理音声を被試験信号とし

た. 雑音抑圧処理時には分析フレーム長 32 msのハミング窓を使用し,フレーム

シフトは 8 ms,空間フィルタを形成する際の遅延量 τ の値は 0.04/343 secとした.

また,残留ノイズ推定のための更新パラメーターのための各係数は,λmaxは 0.04,

∆は 0.1,SPPminは,図 4.3に示したMSCの平均値を用いた.なお,本章におい

ても考慮する音声の帯域は,全ての実験において 300-7500 Hzとした.

以下,結果で表記する評価項目について述べる.1) “noisy”は雑音抑圧処理を施

していないマイクロホン観測信号,2) “Zelisnki”はZelisnkiによる一般的なmulti-

channel型のWiener filterのみを適用した音声 [21],3) “McCowan”はMcCowanら

が提案した,コヒーレンス関数を用いて,拡散性雑音成分の無相関性が成り立たな

い帯域の雑音を除去する手法を施した音声 [24],4) “multi-channel”は提案手法の

前段部分である,空間フィルタ群の出力を用いたmulti-channel型のWiener filterの

みを施した音声,5) “single-channel”はマイクロホン観測信号に対し,Plapousらの

TSNR法を用いた single-channel型のWiener filterのみを施した音声 [19]である.

なお,雑音推定部分は提案手法のmulti-channel型のWiener filterの値を利用した

ものを用いて算出している.最後に 6) “proposed”は空間フィルタ群の出力を利用

したmulti-channel型のWiener filteringと残留ノイズ除去のための single-channel

型のWiener filteringを組み合わせた提案手法を施した音声である.

Page 55: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

4.2 拡散性雑音抑圧実験 47

! "$#%'&( )"+*+ ,.-/ 021)354 ( 6 7 -8 1) &("9 +: ( & 7 -8 1) &(;)<=>;>" &

図 4.5 各 SNRにおける拡散性雑音重畳音声に対し,各手法を施したときの単語正解精度

4.2.2 単語正解精度による提案手法の性能評価

単語正解精度による実験結果を図 4.5に示す.この結果によると,まず Zelinski

によるmulti-channel型のWiener filterは noisyの場合と比べ,約 3~10ポイント

程度と若干の単語正解精度の向上が見られるが十分とは呼べない性能であること

がわかる.Zelinskiは複数マイクロホン間の観測信号に含まれる拡散性雑音成分は

無相関であると仮定したが,図 4.3にて示したように,マイクロホン間隔が小さい

場合はその仮定が成り立たないことがわかる.したがって,本実験で用いた正方

形マイクロホンのようにマイク間隔を小さくせざるをえないようなタスクに適用

することは適していないことがわかる.次に,拡散性雑音の有相関となる成分を

コヒーレンス関数で補正するMcCowanらの手法では,Zelinskiに比べ大きく単語

正解精度が向上していることがわかる.さらに,single-channel型のWiener filter

Page 56: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

48 第 4章 正方形マイクロホンアレイを用いた拡散性雑音抑圧

のみを施した場合も,McCowanらによるmulti-channel型のWiener filterの性能

とほぼ同等の結果であることがこの結果からわかる.

これに対し,提案手法である空間フィルタ群の出力を用いたmulti-channel型の

Wiener filterのみを施した音声の場合では,single-channel型のWiener filterのみ

の場合やMcCowanには及ばぬものの,Zelisnkiの手法と比べた場合,単語正解精

度の向上が見られる.これは,空間フィルタ群の出力を用いた場合でも,低域にお

いてノイズが残留してしまうため,その残留ノイズ成分の分が,single-channel型

のWiener filter のみの場合やMcCowanの性能に及んでいない原因だと考えられ

る.しかし,後段に single-channel型のWiener filterを施し,残留ノイズを除去す

ることで,他の手法よりも優れた単語正解精度を達成していることがわかる.こ

れは,空間フィルタ群の出力を利用したmulti-channel型のWiener filtering と残

留ノイズ除去のための single-channel型のWiener filteringの組み合わせが効果的

であることを示していて,提案手法の有効性が確認できる.

4.2.3 PESQ-MOSによる提案手法の性能評価

PESQ-MOSによる実験結果を図 4.6に示す.PESQ-MOSによる評価においても

単語正解精度とほぼ同様の結果を示している.単独で single-channel型のWiener

filterやMcCowanの手法を施した場合でも,MOS値の向上は見られているが,提案

手法による空間フィルタ群の出力を利用したmulti-channel型のWiener filteringと

残留ノイズ除去のための single-channel型のWiener filteringの組合せが最もMOS

値を向上させることができることがわかる.

以上,本章では正方形マイクロホンアレイを用いた新しい拡散性雑音抑圧手法

について述べた.複数マイクロホンの観測信号を用いるmulti-channel型のWiener

filteringは雑音の推定が必要が無いなどのメリットを有するが,携帯端末に適用す

るには,マイクロホン間隔を大きくとることは不可能であるため,単純にmulti-

Page 57: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

4.2 拡散性雑音抑圧実験 49

! "$#&% (')+*-, -.0/-132 % 4 5 *&6 /-- #&% 7 % # 5 *&6 /-- #&%8-9 8 #-:

図 4.6 各 SNRにおける拡散性雑音重畳音声に対し,各手法を施したときの単語正解精度

channel型のWiener filteringを適用するだけでは,十分な雑音抑圧性能は出にくい.

そこで,提案手法では空間フィルタ群の出力を利用したmulti-channel型のWiener

filtering と残留ノイズ除去のための single-channel型のWiener filteringの組合せ

ることで,大幅な拡散性雑音抑圧性能の向上を計った.また,本手法は後段の残

留ノイズ推定に前段の出力結果を用いるため,single-channel型のWiener filtering

の際に生じる発話区間推定の計算をする必要がなく,計算量が肥大化することも

防いでいる.拡散性雑音を重畳した音声を用いた雑音抑圧実験では,他の従来手

法との優位性を示し,提案手法の優位性を確認した.

Page 58: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener
Page 59: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

51

第5章 指向性雑音抑圧と拡散性雑音抑圧の統合

本章では,指向性雑音と拡散性雑音の両雑音に対応可能な,新しい携帯端末向け

音声強調技術について述べる.3章,4章ではそれぞれ指向性雑音,拡散性雑音が

単独で存在する環境において有効な小規模なマイクロホンアレイで実現可能な雑

音抑圧技術の提案を行った.各章で述べた提案手法は各雑音が存在する環境下で

は,従来の手法に対して優位であることを示したが,実際に携帯端末を使用する

環境では,各雑音が個々に存在しているということは稀で,同時に存在している

ことが多いと考えられる.したがって,それぞれの雑音抑圧アルゴリズムが携帯

端末に搭載する条件を雑音抑圧性能面や計算量の面で満たした上で,それぞれが

親和性の高い形で組み合わされ,どちらの種類の雑音にも対応できる枠組を持っ

た音声強調システムが求められる.

ここで,4個の無指向性マイクロホンを正方形の各頂点に配置した正方形マイ

クロホンアレイを用い,上述した条件を満たした新しい携帯端末向け音声強調技

術を提案する.提案手法は正方形マイクロホンアレイを用いて,3章,4章で得ら

れた知見を利用し,指向性雑音,拡散性雑音を低計算コストで高精度に抑圧する.

本手法は,まず始めに指向特性の異なる 4種類の空間フィルタ群を,4通りのマイ

クロホンペアの減算処理によって形成する.この 4種類の空間フィルタ群の出力

信号を指向性雑音,拡散性雑音抑圧に用いる.まず指向性雑音の抑圧は,4種類の

空間フィルタ群の出力信号を時間-周波数領域において,最小化選択を行うことで

実現する.これは,提案手法において自然に導出可能な仮定として,4種類の出力

信号のパワーは,指向性の音源の到来方向にのみ依存することを利用した処理で

Page 60: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

52 第 5章 指向性雑音抑圧と拡散性雑音抑圧の統合

あり,到来方向の推定等を必要とせず,非常に単純な処理で実現できる.同時に,

拡散性雑音の抑圧は,4章で述べた,4種類の空間フィルタ群の出力信号を用いた

multi-channel型のWiener filtering で実現する.最後に前述した処理で残留した

ノイズを,single-channel型のWiener filteringを適用し,除去することで所望とす

る音声を高精度に得る.

以下,5.1で,対象とする問題設定と,正方形マイクロホンアレイの配置につい

て,5.2で,正方形マイクロホンアレイを用いた提案手法について,それぞれ述べ

る.5.3において,提案手法の有効性を確かめるため行った雑音抑圧実験について

述べる.雑音抑圧性能の評価は,連続音声を対象とした音声認識性能とPESQ [26]

によって行った.

5.1 問題設定とマイクロホン配置

本論文の 3章,4章にて,マイクロホンペアを用いて複数の空間フィルタを形成

し,各時間-周波数 binで処理を行うことで指向性雑音を除去する手法,および複

数の空間フィルタの出力を利用した,multi-channel型のWiener filteringと single-

channel型のWiener filteringを組み合わせることで,拡散性雑音を抑圧する手法

をそれぞれ提案した.これらの手法を親和性が高い形で組み合わせるため,ここ

でも図 3.5 に示した正方形マイクロホンアレイを用いる.この配置の利点は,端

末の表面,つまり同一平面上にマイクロホンを配置することができ,図における z

軸方向から到来する目的音声が,全てのマイクロホンに同時に入力されると仮定

できる点にある.さらに,z軸方向以外から到来する雑音全てに対応できることも

大きな要因である.本章では,他者が z軸以外の方向からこのマイクロホンアレ

イに向かって発声する,指向性の雑音と,PCファンノイズ等の部屋に響く拡散性

雑音が,それぞれ同時に目的音声と共にマイクロホンに混入する状況を想定する.

図 5.1に 3章,4章,本章の実験の際に使用した正方形マイクロホンアレイの写

真を示す.マイクロホンは sonyの無指向性マイクロホンECM-C10を使用し,マ

Page 61: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

5.2 正方形マイクロホンアレイを用いた音声強調手法 53

図 5.1 各章での実験に使用した正方形マイクロホンアレイ.

イクロホン間隔は 4 cmである.

5.2 正方形マイクロホンアレイを用いた音声強調手法

図 5.2に提案手法のブロック図を示す.提案手法では,以下の 4つの段階を経て,

所望とする音声の強調を行う.1) 減算型ビームフォーミングによる 4通りの空間

フィルタの形成,2) 空間フィルタ群の最小化選択による指向性雑音抑圧,3) 空間

フィルタ群の出力を利用したmulti-channel型Wiener filteringによる拡散性雑音

抑圧,4) single-channel型Wiener filteringによる残留ノイズ除去.

Page 62: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

54 第 5章 指向性雑音抑圧と拡散性雑音抑圧の統合

multiple nullbeamforming

& DFT

filterminimization

calculatemulti-channelWiener filter

residual noiseestimation &

calculatesingle-channel

Wiener filter

IFFTOLA

iB

minB

mH

mS S

phase information

)(ˆ ts

sH

directional noise reduction

diffuse noise reduction

residual noise reduction

)(1 tx

)(2 tx

)(3 tx

)(4 tx

spatial filterformation

図 5.2 提案手法ブロック図 (指向性雑音,拡散性雑音抑圧).

5.2.1 空間フィルタ群の形成

4章で述べた方法と同様に,マイクロホンペアの減算型ビームフォーミングに

よって 4種類の空間フィルタ φ1, φ2, φ3, φ4を得る.各空間フィルタのパターンは

図 4.2で示したものと同様である.

b1(t) = x2(t − τ) − x1(t) (5.1)

b2(t) = x3(t) − x4(t − τ) (5.2)

b3(t) = x2(t − τ) − x3(t) (5.3)

b4(t) = x1(t) − x4(t − τ) (5.4)

ここで,bi(t)は i番目の空間フィルタ φiの出力に相当し,tは時間インデックスを

表す.xj(t)は j番目のマイクロホンの入力信号,τ は図 4.2に示すようなカージオ

イド型の指向特性を形成するために,減算処理を行う際に付加する遅延量を表す.

cを音速,dをマイク間距離とした場合,τは d/cとなる.以下では空間フィルタφi

の出力 bi(t)に,短時間フーリエ変換を施したものBi(ω, k)を用いて議論を進める.

Page 63: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

5.2 正方形マイクロホンアレイを用いた音声強調手法 55

5.2.2 空間フィルタ群の選択による指向性雑音抑圧

空間フィルタ群の最小化選択による,指向性雑音の抑圧について述べる.3章に

おいては,複数の空間フィルタによって,目的音声を強調した信号と,目的音声を

抑圧した信号の 2系統の信号を得た後,SSを行う手法を述べたが,本章で考慮す

る指向性雑音と拡散性雑音が混在するような環境では,音声と雑音の間でスパー

ス性の仮定が成り立たなくなることが考えられる.したがって,SS等の非線型処

理の導入は,音声を歪ませる要因となり,このような環境には適していない.そ

こで,本手法では実際に到来する指向性雑音はあまり大きなパワーを伴って到来

しないものであり,空間フィルタのみで抑圧できるものと考える.

空間フィルタ φiの出力Bi(ω, k)に含まれる成分について,SBi (ω, k)を目的音成

分,Ndiri (ω, k)を指向性雑音成分,Ndif

i (ω, k)を拡散性雑音成分とすると,Bi(ω, k)

Bi(ω, k) = SBi (ω, k) + Ndir

i (ω, k) + Ndifi (ω, k) (5.5)

と表せる.各成分は無相関であるとする.ここで,目的音声はマイクロホンアレ

イの正面から到来する,つまり各マイクロホンに一様な信号が入力されることと,

Ndifi (ω, k)は拡散性,つまり方向に依存しないということを考慮すると,この二つ

の信号の振幅成分は,4つの信号Bi(ω, k)いづれに関しても,同一だと考えられる

ことに着目する.つまり以下のように SBi (ω, k),Ndif

i (ω, k)はインデックス iによ

らず等しいと考えられる.

|SBi (ω, k)| = |SB(ω, k)|, (i = 1, 2, 3, 4) (5.6)

|Ndifi (ω, k)| = |Ndif (ω, k)|, (i = 1, 2, 3, 4) (5.7)

したがって,ある時間-周波数インデックス (ω, k)における Bi(ω, k)の振幅成分

|Bi(ω, k)|は,指向性雑音成分Ndiri (ω, k)のみに依存すると考えられる.つまり,4

つの空間フィルタの出力の振幅成分 |B1(ω, k)|,|B2(ω, k)|,|B3(ω, k)|,|B4(ω, k)|

Page 64: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

56 第 5章 指向性雑音抑圧と拡散性雑音抑圧の統合

のうち,最も小さな成分 |Bmin(ω, k)|を選択することは,指向性雑音の成分を最も

小さくした出力を得ることと等価であると考えられる.

|Bmin(ω, k)| = mini

[|Bi(ω, k)|], i = 1, 2, 3, 4 (5.8)

これは指向性雑音の到来方向の推定を必要とせず,また各信号が時間-周波数領域

上で重なりが少ない仮定を利用していない.また,非常に単純な処理で指向性雑

音を抑圧することが可能となる.

5.2.3 空間フィルタの出力を利用したmulti-channel型Wiener

filtering による拡散性雑音抑圧

次に,拡散性雑音成分 Ndifi (ω, k)の抑圧について述べる.4章と同様に,空間

フィルタ群の出力を利用したmulti-channel型Wiener filteringを用いる.形成し

た 4個の空間フィルタの出力Bi(ω, k)から,180°反対の方向に指向性を向けたも

のを選択し,以下のようにWiener filterを設計する.

Hm(ω, k) =12

∑[ReBp(ω, k)B∗

q (ω, k)]14

∑[Br(ω, k)B∗

r (ω, k)](5.9)

ここで,添字 p,q,rは (p, q)=(1, 2), (3, 4),r=1, 2, 3, 4のように選択される.

最小化選択によって指向性雑音を抑圧された空間フィルタの出力 |Bmin(ω, k)|と,

空間フィルタ群の出力を用いて算出されたmulti-channel型のWiener filterを用い

て,両雑音が抑圧された目的音声の推定スペクトルを得る.

|S ′m(ω, k)| = Hm(ω, k) · |Bmin(ω, k)| (5.10)

空間フィルタリングから生じる,周波数領域上の歪みを以下のように補正し,周

波数領域上の歪みを含まない目的音声の推定スペクトル |Sm(ω, k)|を得る.

|Sm(ω, k)| =|S ′

m(ω, k)|√2(1 − cos(ω · τ))

(5.11)

ここで,4個の空間フィルタに対する目的音声の利得は 4通り全てで等しいため,

どの空間フィルタが選択されても歪み補正項を変化させる必要は無い.

Page 65: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

5.2 正方形マイクロホンアレイを用いた音声強調手法 57

5.2.4 single-channel型Wiener filteringによる残留ノイズ除去

4章と同様に,|Sm(ω, k)|を入力とみなした single-channel型のWienerfilterを適

用することで,残留ノイズ成分を除去する.以下のように残留ノイズ成分のパワー

スペクトルを更新する.

|Nm(ω, k)|2 = λ′(k)|Sm(ω, k)|2 + (1 − λ′(k))|Nm(ω, k − 1)|2 (5.12)

|Nm(ω, k)|2は残留ノイズのパワースペクトルの推定値,λ′(k)は更新パラメーター

である.ここで,まず 4章のときと同様に SPP,雑音更新パラメーター λ(k)を求

める.

SPP(k) =1

Ω

Ω∑

ω=1

Hm(ω, k) (5.13)

λ(k) =

λmax , SPP(k) < SPPmin

0 , SPPmin + ∆ < SPP(k)

−λmax

∆SPP(k) + λmax

∆(SPPmin + ∆), otherwise

(5.14)

しかし,SPPから求めた雑音更新パラメーターをそのまま用いてしまうと,本章

のような拡散性雑音のみでなく,指向性雑音も混在するような環境では,SPPが

正確な音声の存在確率を示さない場合がある.これは,例えば目的音声と指向性雑

音が同時に存在するような区間では,MSCは指向性雑音の影響で低い値になって

しまい,結果 SPPも低くなってしまう.そこで,4章で述べたように算出したλ(k)

に加えて,出力信号のパワーの情報も雑音更新パラメーターの算出に利用する.

λ′(k) =

λ(k) , Spower(k) < γNpower

0 , γNpower 5 Spower(k)(5.15)

Spower(k) =1

Ω

Ω∑

ω=1

|Sm(ω, k)| (5.16)

ここで,Npowerは収録開始冒頭の数100ms程の区間において,平均化した Spower(k)

であり,これに対し係数 γ倍したものをそのフレーム Spower(k)が上回った場合,

指向性雑音などの突発的な雑音が混入したものとみなし,雑音の更新を止める.こ

Page 66: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

58 第 5章 指向性雑音抑圧と拡散性雑音抑圧の統合

れは,指向性雑音等の突発的なノイズは一時的な要因であり,残留ノイズとはみ

なさないようにするためである.

得られた残留ノイズ成分を用いて,single-channel型のWiener filterを設計する.

Hs(ω, k) =SNRpriori(ω, k)

SNRpriori(ω, k) + 1(5.17)

こうして,最終的な目的音声の推定スペクトルを得る.

|S(ω, k)| = Hs(ω, k) · |Sm(ω, k)| (5.18)

時間領域での音声として復元するため,入力信号等の位相情報を加え,推定目的

音声 s(t)を得る.

5.3 指向性と拡散性の雑音が混在する環境下での雑音抑圧実験

指向性雑音と拡散性雑音が混在する環境下で,雑音を抑圧し目的音声を強調す

る実験を行い,音声認識と強調された音声の音質の二つの観点から,提案手法の評

価を行った.雑音抑圧性能は連続発話音声の単語正解精度と,PESQ-MOS によっ

て評価される.SNRを変化させて提案手法の各段階毎での評価を行い,それぞれ

の段階での雑音抑圧効果を確かめた.また,同じ雑音環境下にて従来手法と提案

手法の性能を比較した.

5.3.1 実験状況

実験は携帯端末の使用者が端末に向かって発話を行っていて,その端末に指向性

雑音として他者の発話が向けられ,その部屋では拡散性のノイズが存在する,と

いう状況を想定して行った.用いたマイクロホンアレイ,目的音声,指向性雑音

の収録に関しては 3章における指向性雑音抑圧実験と同様である.なお,本実験

では,図 3.8における b軸と指向性雑音の到来方向とがなす角 θは,30°,60°,

Page 67: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

5.3 指向性と拡散性の雑音が混在する環境下での雑音抑圧実験 59

90°,120°,150°,180°の 6通りの場合を考える.また,拡散性雑音に関して

はサーバールームにてマイクロホンアレイで収録した雑音を重畳することで,シ

ミュレートした.このようにして得られた,目的音声と指向性雑音,拡散性雑音

が混入した混合音声に対して雑音抑圧処理を施し,連続音声認識性能と PESQに

よる評価を行った.また,実験を行う際の,提案手法のパラメータは,分析フレー

ム長 32 msのハミング窓を使用し,フレームシフトは 8 ms,空間フィルタを形成

する際の遅延量 τ の値は 0.04/343 secとした.また,残留ノイズ推定のための更

新パラメーターのための各係数は,λmaxは 0.04,∆は 0.1,SPPminは,図 4.3に

示したMSCの平均値を用いた.なお,本章においても考慮する音声の帯域は,全

ての実験において 300-7500 Hz とした.

5.3.2 提案手法の各段階での雑音抑圧性能

提案手法の各段階での効果を確認するために,指向性雑音と拡散性雑音が混入し

た混合音声に対して,提案手法の各段階での出力音声を連続音声認識性能とPESQ

によって評価した.なお目的音声と指向性雑音との SNR (SNRdir)は 10 dBとし,

目的音声と拡散性雑音との SNR (SNRdif)は 10,15,20 dBの 3通りとした.こ

れは拡散性雑音の大きさを変えることによって,指向性雑音の影響が強い場合と,

拡散性雑音の影響が強い場合での提案手法の効果を調べるためである.なお,最

終的な目的音声と雑音の SNRを SNRtotalと表すとする.

時間波形による提案手法の各段階の効果

まず,図 5.3に雑音が重畳された音声に対して,提案手法を施した場合の,出力

音声を示す.(a)は目的音声,(b)は指向性雑音と拡散性雑音をそれぞれ SNRdir =

5 dB, SNRdif = 15 dBで重畳した混合音声,(c)は提案手法における空間フィル

タの最小化選択による出力音声,(d)は (c)での処理に加え,空間フィルタの出力

信号を用いて算出したmulti-channel型のWiener filteringを施した出力音声,(e)

Page 68: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

60 第 5章 指向性雑音抑圧と拡散性雑音抑圧の統合

(a)

(b)

(c)

(d)

(e)

図 5.3 提案手法の各段階毎の出力波形 : (a)目的音声,(b)雑音重畳音声 (SNRdir

= 5 dB, SNRdif = 15 dB),(c)指向性雑音抑圧処理後音声,(d)拡散性雑音抑圧処理後音声,(e)残留ノイズ除去後音声.

は (d)での処理に加え single-channel型のWiener filterによって残留ノイズを除去

をした音声である.まず,(c)を見ると提案手法による指向性雑音抑圧処理によっ

て,指向性雑音が抑圧されている様子がわかる.さらに,(d)では拡散性雑音処理

によって雑音が抑圧され,(e)では残留ノイズが除去され,目的音声のみが高精度

に抽出されているのがわかる.

Page 69: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

5.3 指向性と拡散性の雑音が混在する環境下での雑音抑圧実験 61

単語正解精度とPESQ-MOSによる提案手法の評価

音声認識の結果として,図 5.4,5.5,5.6に異なるSNRに対する単語正解精度を,

処理後音声の音質の結果として,図 5.7,5.8,5.9に PESQによるMOS (PESQ-

MOS)の結果をそれぞれ示す.縦軸は単語正解精度もしくはPESQ-MOS,横軸は

指向性雑音の到来方向 θ である.non-processは雑音抑圧処理を施していないも

の,directional noise reduction (NR)は指向性雑音抑圧処理のみを行ったもの,+

diffuse NRはさらに拡散性雑音抑圧処理を行ったもの,+ residual NRはさらに

残留ノイズ除去処理を施した場合の出力音声に対する結果を表す.まず単語正解

精度,PESQ-MOSどちらの結果においても,指向性雑音がどの方向から到来して

も抑圧できていることがわかる.また図 5.4において,指向性雑音の到来方向が

90°の場合,無処理の音声は単語正解精度が 22.4 % であるのに対し,directional

noise NR,directional & diffuse NR,residual NRの処理によってそれぞれ,39.1

%,51.1 %,66.5 %まで向上していることが確認できる.これに対して図 5.6にお

いて,指向性雑音の到来方向が 90°の場合,無処理の音声は単語正解精度が 39.0

% であるのに対し,directional noise NR,directional & diffuse NR,residual NR

の処理によってそれぞれ,72.1 %,79.0 %,80.4 %まで向上していることが確認で

きる.この結果は,拡散性雑音が大きな影響を持つ場合においては,指向性雑音抑

圧の処理よりも,拡散性雑音抑圧処理と残留ノイズ抑圧処理が大きく単語正解精

度向上に貢献しており,逆に拡散性雑音が小さく指向性雑音の影響が大きい場合

は,指向性雑音抑圧の処理が大きく単語正解精度向上に貢献していることがよく

わかる.また,PESQによる結果は単語正解精度の結果とほぼ同じ傾向が見られ

るが,それに比べて残留ノイズ除去によるMOS値の向上が,拡散性雑音の大きさ

に関わらず見られる.これは音声認識には残留ノイズが非常に小さい場合は認識

性能に大きく影響は与えないが,純粋に被試験信号の音質を算出するPESQ-MOS

では,残留ノイズを除去した効果がより鮮明に現れるためであると考えられる.

Page 70: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

62 第 5章 指向性雑音抑圧と拡散性雑音抑圧の統合

!#"$%&('

)*+, -../+-.01 23

465478 9 4!:4;< => $?6>;< =#6 !:4;<

図 5.4 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif = 10 dB,

SNRtotal = 3.98 dB).

!#"$%&('

)*+, -../+-.01 23

465478 9 4!:4;< => $?6>;< =#6 !:4;<

図 5.5 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif = 15 dB,

SNRtotal = 6.12 dB).

Page 71: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

5.3 指向性と拡散性の雑音が混在する環境下での雑音抑圧実験 63

!#"$%&('

)*+, -../+-.01 23

465478 9 4!:4;< => $?6>;< =#6 !:4;<

図 5.6 提案手法による段階毎の単語正解精度 (SNRdir = 10 dB, SNRdif = 20 dB,

SNRtotal = 7.61 dB).

! "$#%&'

()* +-,./*

01023 !4 0"50687 9$3 :!$687 9; 3"50687

図 5.7 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif = 10 dB,

SNRtotal = 3.98 dB).

Page 72: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

64 第 5章 指向性雑音抑圧と拡散性雑音抑圧の統合

! "$#%&'

()* +-,./*

01023 !4 0"50687 9$3 :!$687 9; 3"50687

図 5.8 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif = 15 dB,

SNRtotal = 6.12 dB).

! "$#%&'

()* +-,./*

01023 !4 0"50687 9$3 :!$687 9; 3"50687

図 5.9 提案手法による段階毎の PESQ-MOS (SNRdir = 10 dB, SNRdif = 20 dB,

SNRtotal = 7.61 dB).

Page 73: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

5.3 指向性と拡散性の雑音が混在する環境下での雑音抑圧実験 65

5.3.3 提案手法と他の雑音抑圧技術との比較

他の雑音抑圧手法と提案手法との比較実験を行った.雑音は SNRdir = 10 dBで

固定, SNRdif = 10, 15, 20 dBの 3通りとした.これは,拡散性雑音の大きさを変

化させることで,指向性雑音の影響が大きい場合と拡散性雑音の影響が大きい場

合のそれぞれの雑音抑圧技術の効果を調べるためである.妨害音声の到来方向は

図 3.7において,θ = 90°とした.比較を行った手法は,図 3.8における 4個のマ

イクロホンを用いたDelay & sum法と,Zelinskiによるポストフィルタを用いたも

の (DS & Zelinski PF) [21],図 3.8において ch1と ch2を用いて,Griffiths-Jim型

のビームフォーマーを施したもの (2ch-GJBF) [4],浅野らによる 2チャンネルの

マイクロホンに基づく SSを施したもの (2ch-SS) [5],マイクロホン間の位相差に

基づいて時間-周波数マスキングを施したもの (2ch-TFmasking) [7]である.なお,

Griffiths-Jim型のビームフォーマーでの適応フィルタのタップ数は 512 tapとし,

2ch-SSでの雑音の到来方向は真値を与えた.さらに,2ch-TFmaskingでは目的音

声とする角度をマイクロホンアレイ正面に対して±20°の範囲とした.

図 5.10に各 SNRdifでの従来手法,提案手法を施した際の単語正解精度の結果を

示す.まず,SNRdifが 20 dBの場合に注目する.この雑音環境は指向性雑音が拡

散性雑音に比べ大きい影響を持つと考えられる.結果より,指向性雑音抑圧に特

化した手法である 2ch-TFmaskingは無処理の場合の単語正解精度 39.0 %から 75.5

%と精度を向上させていることがわかる.これに対し提案手法の directional NR

は線形ビームフォーマーの処理のみしか行っていないため,単語正解精度は 72.1

%と 2ch-TFmaskingの性能には及んでいないものの,+ diffuse NR,+ residual

NRの処理によって拡散性雑音を親和性の高い形で抑圧することで,それぞれ精度

を 79.0 %,80.4 %まで向上させていることが確認できる.この結果を見ると,ビー

ムフォーミングによる線形フィルタ処理であるDS & Zelinski PFと 2ch-GJBFは

雑音抑圧の効果により単語正解精度,PESQ-MOS値の向上は見られるものの,提

案手法に比べて向上の度合いは小さい.これは,用いたマイクロホンアレイが非常

Page 74: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

66 第 5章 指向性雑音抑圧と拡散性雑音抑圧の統合

!!" !#$ %&

')(*'+*,)-.()/*0)121 35476780:9 ; '12<;*=> ?)/*@+:ACBDC> ?)/*@+E4F4?*/*@+)G>:HJI12< KEL M.N*O2PQL REST*U:VCWKEL M.N*O2PQL REST*U:VCWKEL M.N*O2PQL REST*U:VCWKEL M.N*O2PQL REST*U:VCW XYKEL Z[Z\)]NYVCWXYKEL Z[Z\)]NYVCWXYKEL Z[Z\)]NYVCWXYKEL Z[Z\)]NYVCW XYM.N)])L KE\TEU:VWXYM.N)])L KE\TEU:VWXYM.N)])L KE\TEU:VWXYM.N)])L KE\TEU:VW

図 5.10 各 SNRdif での従来手法,提案手法を施した際の単語正解精度

!"#$

% &'%)(*+,&-./)/ 0214365.'7 8 % /:9 8;< =->)('?@A< =->)('1B1=-'>)(C2<'DFE /:9 G'H IJK)LMH NPO)Q'RPSTG'H IJK)LMH NPO)Q'RPSTG'H IJK)LMH NPO)Q'RPSTG'H IJK)LMH NPO)Q'RPST UVG'H WXWZY[:J\STUVG'H W]W^Y[:J\STUVG'H WXWZY[:J\STUVG'H W]W^Y[:J\ST U\I,J[H GY QRPSTU\I,J[ H GY QRPSTU\I,J[H GY QRPSTU\I,J[ H GY QRPST

図 5.11 各 SNRdif での従来手法,提案手法を施した際の PESQ-MOS

Page 75: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

5.3 指向性と拡散性の雑音が混在する環境下での雑音抑圧実験 67

に小さなマイク間隔であるため,急峻なビーム又はヌルを向けられなかったこと

と,ポストフィルタが十分な機能を果たせなかったためであると考えられる.また

非線型処理である,2ch-SSと 2ch-TFmaskingは提案手法の directional NRに近く,

またはそれ以上の単語正解精度,PESQ-MOS値を達成しているが,拡散性雑音を

抑圧する枠組は含まれていないため,提案手法の+ diffuse NR,+ residual NRの

性能には及ばないことがわかる.また,SNRdif が 15 dB,10 dBと拡散性雑音の

影響が大きくなるにつれて,従来手法の性能は大きく劣化していくが,提案手法

は大きな劣化は見えず,最も SNRが低い状況である,SNRdif = 10 dBの場合で

も,無処理の場合で 22.4 %の単語正解精度を 66.5 %まで向上させることができる

ことが確認できる.

図 5.11に各 SNRdifでの従来手法,提案手法を施した際のPESQ-MOSの結果を

示す.PESQ-MOSの結果においても単語正解精度の結果とほぼ同様の傾向が見ら

れ,音質の観点においても提案手法の有効性がうかがえる.

以上,本章では,指向性雑音と拡散性雑音の両雑音に対応可能な,新しい携帯端

末向け音声強調技術について述べた.3章,4章で得られた指向性雑音,拡散性雑

音抑圧の知見をもって,それぞれの処理を親和性の高い形で組合せることで,ど

ちらの種類の雑音にも対応できる枠組を持った音声強調システムを提案した.両

雑音が混在する環境下における雑音抑圧実験によって,提案手法がどの方向から

到来する指向性雑音にも対応できることと,従来の手法と比較して,拡散性雑音

の変化に対してよりロバストであることを確認した.

Page 76: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener
Page 77: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

69

第6章 結論と今後の課題

6.1 結論

多様な雑音に頑健な携帯端末向けの音声強調技術を提案した.携帯端末に搭載

する際に必要な条件である,小規模,低計算コストで雑音の種類に対するロバス

ト性を満たすため,本論文において,4個の無指向性マイクロホンを正方形の各頂

点に配置した正方形マイクロホンを用いた複数の音声強調技術を提案した.

提案する正方形マイクロホンアレイを用いた指向性雑音抑圧手法は,マイク間

隔が狭くなることによるビームフォーミングの性能劣化を,複数の異なる特性を持

つ空間フィルタを形成し,それらを用いて SSによる非線形処理を行うことで,指

向性雑音を除去し,マイクロホンアレイ平面に対して,垂直な方向から到来する

音声のみを高精度に抽出することが可能となる.2話者の同時発話状況での指向性

雑音抑圧実験では,目的音声方向以外から到来する指向性雑音を,提案手法によっ

て,ほぼ全ての方向において除去できることを確認した.指向性雑音が θ = 90°方

向から到来する場合,単語正解精度と PESQ-MOS はそれぞれ 0.25 %,1.89であ

るのに対し,3chのマイクロホンを用いた提案手法によって,63.2 %,2.75まで向

上させることができた.

提案する正方形マイクロホンアレイを用いた拡散性雑音抑圧手法は,マイク間

隔が狭くなることによるmulti-channel型のWiener filterの性能劣化を,空間フィ

ルタの出力を利用することと,後段に single-channel型のWiener filterを組み合わ

せる多段処理によって,拡散性の雑音を抑圧することが可能となる.実環境におけ

る雑音を用いた拡散性雑音抑圧実験では,SNRが 10 dBの環境において,単語正

Page 78: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

70 第 6章 結論と今後の課題

解精度と PESQ-MOS がそれぞれ 34.9 %,2.15であるのに対し,提案手法によっ

て,68.9 %,2.73まで向上することが確認できた.

指向性雑音と拡散性雑音が混在する環境下を対象とするため,両方の雑音抑圧

手法を統合した提案手法では,まず特性の異なる複数の空間フィルタを形成し,そ

れらを最小化選択することで指向性雑音を抑圧し,空間フィルタ群の出力を利用

したmulti-channel型のWiener filter を用いて拡散性雑音を抑圧する.最後にそれ

らの処理で残留するノイズを single-channel型のWiener filterで除去することで,

雑音の種類によらず目的音声を高精度に抽出することが可能となる.指向性雑音

と拡散性雑音が混在する環境において行った雑音抑圧実験では,SNRが 6.12 dB

の場合,単語正解精度と PESQ-MOS はそれぞれ 36.2 %,2.25であるのに対し提

案手法によって,76.6 %,2.89の性能を達成できることを確認した.

指向性雑音,拡散性雑音問わず目的音声を抽出することが可能となる,携帯端

末向けの音声強調技術として,他の従来手法との優位性を示し,連続音声認識音

声,音質の面でも優れた性能であることを雑音抑圧実験によって示した.

6.2 今後の課題

携帯端末の音声インターフェイスやハンズフリー電話等への搭載等の実用化に

向けたうえで考えられる課題を挙げる.

まず,目的音声はマイクロホンアレイ平面の垂直方向から到来するという仮定

の妥当性が挙げられる.本論文で提案した手法は,この仮定が成り立つとした上

で,その条件を最大限に活用した手法であるが,使用者によっては端末の斜め方

向から発話することや,使用者が複数いて,必ずしも正面方向からの音声が目的

音声と成り得ないことが考えられる.これに対しては,マイク間に伴う位相差を

利用して音声の到来方向を推定し,その方向に対して空間フィルタを形成すると

いう方法が考えられるが,逐次到来方向を推定する枠組は処理量を増やすことに

なるためトレードオフとなる.これに近い問題として,マイクロホンアレイ平面

Page 79: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

6.2 今後の課題 71

をはさんで目的音声方向とちょうど反対の方向から到来する雑音は除去できない

点が挙げられる.提案手法によって,マイクロホンアレイ平面の垂直な成分のみ

を抽出することが可能となるが,ちょうどアレイ平面の反対の方向からの雑音に

は対応できない.通常の携帯電話の使用では,端末の背面は床に向けれていると

考えられるが,この条件は常に満たされるとは限らない.

次に,提案手法は非線型処理を加えることで,雑音抑圧性能を大幅に向上させ

ているが,これによって生じる目的音声成分の欠損などの歪の問題が挙げられる.

欠損が大きくなるにつれて,処理後の音声はやせた音になってしまう.さらに,ノ

イズの成分の消し残し成分はmusical noiseとなってしまい,人間の聴き心地を大

きく劣化させる.これに対しては,雑音抑圧処理の時点でmusical noiseを発生さ

せないか,処理後の音声に対し,後処理として欠損した部分やmusical noiseを除

去する枠組を導入することが考えられる.さらに,musical noiseは音声認識の際

にはほとんど影響が無く,PESQにおいてもあまり影響は無い.しかし,人間に

よる主観的な評価には顕著な影響を与える.したがって,musical noiseの度合を

計る客観的な評価尺度を提案することが重要である.

Page 80: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener
Page 81: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

73

付 録A 拡散性雑音のコヒーレンス関数の導出

ここでは,2個の無指向性マイクロホンと,指向性マイクロホンに到達する拡散性

雑音のコヒーレンス関数の理論値の式を導出する.(※)導出は基本的に文献 [27]

の付録 1に基づいた.

A.1 無指向性マイクロホン

図A.1に示すような 2個の無指向性マイクロホンを設置した場合を考える.θ方

x yd

d cos

図 A.1 無指向性マイクロホンに到達する信号

Page 82: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

74 付 録A 拡散性雑音のコヒーレンス関数の導出

向から波が到達するとすると,

y(t) = x(t − d

ccos θ) (A.1)

ここで,cは音速,dはマイク間距離である.したがって,信号 x,yの相互相関

の周波数領域表現は Sx(ω),Sy(ω)をそれぞれ x,yの自己相関の周波数領域表現,

もしくはパワースペクトルとすると,

Sx(ω) = Sy(ω) (A.2)

であることから,

Sxy(ω) = Sx(ω)e−j(ωdc

) cos θ (A.3)

と表せる.したがって,コヒーレンス関数は以下のように表せる.

γxy(ω) =Sx(ω) Ee−j(ωd

c) cos θ

[ Sx(ω) Sx(ω) ]−2(A.4)

= Ee−j(ωdc

) cos θ (A.5)

E·は期待値である.ここで,拡散性雑音を考慮しているため,球平面上で全て

の θ方向と φ方向から等しい成分が到来すると仮定し,球積分を行う.

Ee−j(ωdc

) cos θ =1

∫ 2π

φ=0

∫ π

θ=0

e−j(ωdc

) cos θ sin θ dθ dφ (A.6)

ここで x = ωdc

cos θと置換することで,

=1

2ωd/c

∫ −ωd/c

x=ωd/c

e−jxdx (A.7)

=sin ( ωd/c )

ωd/c(A.8)

と求まる.これは一般的に良く知られている,拡散性雑音場でのマイク間隔 dの

無指向性マイクロホン観測信号のコヒーレンス関数である.

Page 83: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

A.2 指向性マイクロホン 75

x

y

z

d1r

0r

2r

図 A.2 指向性マイクロホンに到達する信号

A.2 指向性マイクロホン

指向性マイクロホンの場合は図A.2を用いて導出する.指向性マイクロホンの

ため,観測信号は空間中でもはや等しくは無い.図中において,r1と r2はそれぞ

れの指向性マイクロホンの指向性の方向を表す.また,r0は到達するある波の到

来方向である.2個のマイクロホンの指向特性をそれぞれ,mx(θ, φ)とmy(θ, φ)と

すると,相互相関の周波数領域表現は,

Sxy(ω) = FEmx(θ, φ)x(t)my(θ, φ)y(t + τ) (A.9)

Page 84: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

76 付 録A 拡散性雑音のコヒーレンス関数の導出

と表せる.なお F·はフーリエ変換を表す.また,自己相関は,

Sx(ω) = FEm2x(θ, φ)x(t)x(t + τ) (A.10)

と表せる.Sy(ω)も同様である.無指向性マイクロホンの場合と同様にコヒーレン

ス関数はmx(θ, φ)とmy(θ, φ)と用いて,以下のように表せる.

γxy(ω) =Emx(θ, φ) my(θ, φ) e−jωd/c

[ Em2x(θ, φ) Em2

y(θ, φ) ]−2≡ N(ω)

Dω(A.11)

一般的に,ある指向性マイクロホンの指向性 ~r1 = (x1, y1, z1) に対して,ある波

が ~r0 = (x0, y0, z0)方向から到来したときの,利得は,

gain( ψ ) = 1/2(1 + cos ψ) (A.12)

となる.ここで,ψはベクトル ~r0,~r1のなす角で,

cos( ψ ) =~r0 · ~r1

|~r0| |~r1|(A.13)

である.ここで (·)は内積の演算を表す.もし ~r0 が単位ベクトルならば,~r0 =

(cos φ sin θ, sin φ sin θ, cos θ)となることから,利得は以下のように表せる.

gain(θ, φ) = 1/2(1 + x1 sin θ cos φ + y1 sin θ sin φ + z1 cos θ) (A.14)

したがって,上述した指向性マイクロホンのコヒーレンス関数の式の分子部分

N(ω)は,

N(ω) = 1/4E[1 + x1 sin θ cos φ + y1 sin θ sin φ + z1 cos θ]

·[1 + x2 sin θ cos φ + y2 sin θ sin φ + z2 cos θ]e−jωd/c (A.15)

となり,全ての到来方向で積分すると,

N(ω) = 1/4π

∫ 2π

0

∫ π

0

1

4[1 + x1 sin θ cos φ + y1 sin θ sin φ + z1 cos θ]

·[1 + x2 sin θ cos φ + y2 sin θ sin φ + z2 cos θ]e−j(ωd/c) cos θ sin θ dθ dφ (A.16)

Page 85: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

A.2 指向性マイクロホン 77

となる.まず始めに,φに関して先に積分を行うことで,

N(ω) = 1/16

∫ π

0

[2 + 2(z1 + z2) cos θ + (x1x2 + y1y2) sin2θ

+2z1z2cos2θ]e−j(ωd/c) cos θ sin θ dθ (A.17)

となる.また,分母部分D(ω)を計算するために,2個の無指向性マイクロホンは

z軸上に配置されているとすると,

Em2x(θ, φ) = Em2

y(θ, φ)

=1

∫ 2π

0

∫ π

0

1

4(1 + cos θ)2 sin θdθdφ

=1

3(A.18)

となって,これと先ほどのN(ω)を積分したものを組み合わせることで,拡散性雑

音の指向性マイクロホンでのコヒーレンス関数は以下の式で表すことができる.

γxy(ω) = 3

4[

sin( ωd/c )

ωd/c+ ( x1x2 + y1y2 ) · ( sin( ωd/c )

( ωd/c )3− cos( ωd/c )

( ωd/c )2)

+ z1z2(sin( ωd/c )

ωd/c+

2 cos( ωd/c )

( ωd/c )2− 2 sin( ωd/c )

( ωd/c )3)

+ j( z1 + z2 )(cos( ωd/c )

ωd/c− sin( ωd/c )

( ωd/c )2) ](A.19)

Page 86: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener
Page 87: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

79

付 録B 本論文における実験の手順の解説

ここでは本論文で行った実験を,小林研究室の環境において行う手順を解説する.

実験の手順は大まかに以下のようになる.

1. 正方形マイクロホンを用いてのインパルス応答収録

2. 実験に用いる評価音声の作成 (インパルス応答の畳み込み,雑音の重畳)

3. 分離処理

4. skood,PESQによる評価

B.1 インパルス応答計測TSP信号の収録

まず収録用マシンにてTSPを録音する.その時,TSPからインパルス応答に変

換するシェルスクリプトの都合から以下のようなフォルダ構造で作っておくと良

い.

目的音方向

/home/takada/takada/4ch/2006 10/imp/lean/target/ch~.wav

妨害音方向

/home/takada/takada/4ch/2006 10/imp/lean/角度/ch~.wav

上は実際に本実験で使用したインパルス応答のTSP波形ファイルである.

Page 88: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

80 付 録B 本論文における実験の手順の解説

TSPからインパルス応答の生成

収録したTSPがある場所を以下のように指定してシェルを実行する.

%/home/takada/work/ImpulseResponse/shell/impulse.csh

/home/takada/takada/4ch/2006 10/imp/lean/ 

生成されたインパルス応答を適切に切り出す必要がある.

% matlab

% cd /home/takada/work/m file/Impulse

% Imp extract 

ただし,matlabmfileの Imp extract.m内の引数を適切なものに変えてから実行す

ること.これでインパルス応答の生成は完了.

B.2 評価音声作成

目的音声,指向性雑音にインパルス応答を畳み込んだ後,各雑音を任意の SNR

で重畳する.

2話者同時発話データの作成

目的音声と妨害発話を,録音した音量そのままで重畳する場合

% matlab

% cd /home/takada/work/m file/4ch method/simu

% refdata

ただし,refdata.m内のインパルス応答の場所と,出力場所の引数は適切なものに

変えること.

目的音声と妨害発話を,任意の SNRで重畳する場合

Page 89: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

B.2 評価音声作成 81

% matlab

% cd /home/takada/work/m file/4ch method/simu/SN/

% refdata

ただし,refdata.m内のインパルス応答の場所と,出力場所の引数,SNRは適切な

ものに変えること.

なお,目的音声,指向性雑音として使用している音声は,以下のものを使用し

た.ASJ-JNASの音声データベース 100発話セットで,発話時間,平均パワーは

等しく調整済み./frontが目的,/rightが妨害.

/home/takada/speech

拡散性雑音重畳データの作成

目的音声と拡散性雑音の重畳

% matlab

% cd /home/takada/work/m file/4ch method/noise

% mknoise shell.m

ただし,mknoise shell.m内の引数を適切に変更すること.

INDIR = ’/home/takada/takada/voice/4ch/cog/lean/target/’;

使用するインパルス応答重畳済みの目的音声 

NDIR = ’/home/takada/takada/4ch/07 6 13/N/noise1/’

使用する拡散性雑音データ 

OUTDIR = ’/home/takada/takada/voice/4ch/8000/noise/’; 

Page 90: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

82 付 録B 本論文における実験の手順の解説

出力場所 

なお,本論文の拡散性雑音抑圧実験の雑音は道路の雑音なので,

NDIR = ’/home/takada/takada/4ch/2006 10/road2/noise1/’

を用いた. 

指向性&拡散性雑音重畳データの作成

指向性雑音重畳済みデータに拡散性雑音を任意の SNRで重畳

% matlab

% cd /home/takada/work/m file/4ch method/diffuse direc

% mknoise shell.m

ただし,mknoise shell.m内の引数を適切に変更すること.

SNR = [ 10 15 20]’; 

生成する拡散性雑音の SNRのパターン

INDIR = ’/home/takada/takada/voice/4ch/cog/lean 10dB/R180/’;

使用する目的音声と指向性雑音の重畳データ

NDIR = [’/home/takada//takada/4ch/07 6 13/robo s/noise1/’ ];

使用する拡散性雑音データ 

OUTDIR = ’/home/takada/takada/voice/4ch/diffuse direc/PCA 10dB R180/’;

出力場所

Page 91: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

B.3 分離処理 83

ch4

ch1 ch2

ch3 ch1

ch2 ch3

ch4 !

図 B.1 マイクロホンの配置図

論文中の各雑音抑圧実験で用いた雑音重畳音声データの所在

• 指向性雑音抑圧実験

/home/takada/takada/voice/4ch/cog/

• 拡散性雑音抑圧実験

/home/takada/takada/voice/4ch/8000/noise/road2/noise1/

• 指向性&拡散性雑音抑圧実験

/home/takada/takada/voice/4ch/diffuse direc/

フォルダ構造等の詳しい解説は分離処理にて.

B.3 分離処理

ここで,注意して欲しい点が,収録を行ったマイク配置と,雑音抑圧処理プロ

グラム中で考慮するマイク配置が異なることである.具体的な変更は図 B.1に示

す.この図の配置はちょうど目的話者方向からマイクロホンアレイを見た図であ

る.既に存在するプログラムではこれを考慮して,データ読み込みの時点で入れ

換えているので,問題無いが新たに作成する場合は注意されたし.

Page 92: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

84 付 録B 本論文における実験の手順の解説

各雑音抑圧実験で用いた分離処理の解説.基本的には

/home/takada/work/m file/

の,

compe/

compe diffuse/

compe directional/

に提案手法,比較手法をまとめてある.

指向性雑音抑圧実験

/home/takada/work/m file/compe directional/ 

に移動.詳しくは readme.txtを参照.

例として提案手法を回す場合. 

% matlab

% cd /home/takada/work/m file/compe directional/

% main 3ch shell

ただし,3ch shell.mの引数を適切なものに変更すること.

(※)methodは必ず変更しないと,各手法でデータを上書きしていまうので注意!!

拡散性雑音抑圧実験

/home/takada/work/m file/compe diffuse/ 

に移動.詳しくは readme.txtを参照.

例として提案手法を回す場合. 

% matlab

% cd /home/takada/work/m file/compe diffuse/

% DD shell

ただし,DD shell.mの引数を適切なものに変更すること.

Page 93: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

B.4 評価 85

指向性&拡散性雑音抑圧実験

/home/takada/work/m file/compe/ 

に移動.詳しくは readme.txtを参照.

例として提案手法を回す場合. 

% matlab

% cd /home/takada/work/m file/compe/

% mincoheMMSE shell

ただし,mincoheMMSE shell.mの引数を適切なものに変更すること.

B.4 評価skoodによる単語正解精度

例として,指向性&拡散性雑音抑圧実験の提案手法の結果を評価する場合.

% /home/takada/work/recog/shell reco.csh

/home/takada/takada/select/4ch/diffuse direc/PCA 10dB R90/mincoheMMSE/cog/

指向性実験の提案手法の結果を評価する場合.

% /home/takada/work/recog/shell reco.csh

/home/takada/takada/select/4ch/direc/lean 0dB/main 3ch/cog/

結果を見る場合は,前者の場合は, 

% cd /home/takada/takada/select/4ch/diffuse direc/PCA 10dB R90/mincoheMMSE/

cog/15/result/

% jless result — tail 

で,

WORD: %Corr=78.08, Acc=76.62 [H=1229, D=95, S=250, I=23, N=1574]

Page 94: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

86 付 録B 本論文における実験の手順の解説

となっているところの,Accが単語正解精度.

PESQ

あまりいいシェルは作れていないのだが,一応解説すると, 

例として,指向性&拡散性雑音抑圧実験の提案手法の結果を評価する場合.

% /home/takada/work/PESQ/result/dirshell.csh

/home/takada/takada/select/4ch/diffuse direc/PCA 10dB R90/mincoheMMSE/PESQ/

結果は,% cd /home/takada/takada/select/4ch/diffuse direc/PCA 10dB R90/

mincoheMMSE/PESQ/15/

にあるmix.txtが処理前音声の 100文のMOS,out.txtが処理後音声のMOSとなっ

ている.

Page 95: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

87

謝辞

本研究の着手および方針について多くの御指導,御助言を頂いた小林哲則教授

に心より感謝致します.小林先生からは,研究の内容だけでなく一社会人として

の心構えも教えていただきました.

私が学部生の頃から,研究に関して本当に的確なアドバイスを与え続けていた

だいた赤桐健三氏に深く感謝します.小川哲司先生には,研究のことに加え,一研

究者としての一般に関することを多く学ばせていただきました.特に,国内,海

外での学会や,論文の日本語,英語に関しては,大変御世話になりました.岩田

先生,藤江先生,中野助手,柴田氏には,研究に関する直接的な接点は無かった

ものの,ゼミなどでの的確な指摘は大変ためになりました.また,2006年卒業の

持木氏,2007年卒業の勘場氏,伊佐氏には,私が学部生の頃から,音源分離に関

して大変多くのことを御指導いただき,さらに,研究室での生活を非常に楽しい

ものにさせていただきました.同学年竹内氏には,研究室全般のネットワークや

PCに関する仕事を引き受けていただき,竹内氏のおかげで非常に有意義な研究室

生活をおくれました.小林研究室の卒業された先輩諸氏を含め,皆様には様々な

面で協力して頂きました.どうもありがとうございました.皆様に深く感謝致し

ます.

最後に,経済的,精神的に,様々な面から研究を支えてくれた両親に深く感謝

致します.ありがとうございました.

Page 96: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener
Page 97: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

89

参考文献

[1] M. S. Brandstein and D. Ward, “Microphone Arrays: Signal Processing Tech-

niques and Applications,” Berlin, Germany: Springer-Verlag, 2001.

[2] 菊間信義,“アレーアンテナによる適応信号処理,” 科学技術出版, 1998.

[3] Y. Kaneda and J. Ohga, “Adaptive microphone-array system for noise reduc-

tion,” IEEE Trans. Acoustic, Speech, Signal Processing, vol.ASSP-34, no.6,

pp.27-34, Dec. 1986.

[4] L. J. Griffiths and C. W. Jim, “An alternative approach to linearly constrained

adaptive beamforming,” IEEE Trans. Antennas and Propagation., vol. 30, no.

1, pp. 27-34, 1982.

[5] H. Y. Kim, F. Asano, Y. Suzuki, and T. Sone, “Speech enhancement based

on short-time spectral amplitude estimation with two-channel beamformer,”

IEICE Trans. Fund., vol. E79-A, no. 12, pp. 2151-2158, Dec. 1996.

[6] M. Aoki, M. Okamoto, S. Aoki, H. Matsui, T. Sakurai and Yutaka Kaneda,

“Sound source segregation based on estimating incident angle of each fre-

quency component of input signals acquired by multiple microphones,”

J.Acoustic . Soc. vol.22, no.2 March 2001.

[7] O. Yilmaz and S. Rickard, “Blind separation of speech mixtures via time-

frequency masking,” IEEE Trans. on SP, vol. 52, no. 7, pp. 1830-1847, 2004.

Page 98: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

90 参考文献

[8] Y. Takenouchi and N. Hamada, “Time-frequency masking for BSS problem

using equilateral triangular microphone array,” Proc. ISPACS, pp. 185-188,

Dec. 2005.

[9] S. F. Boll, “Suppression of acoustic noise in speech using spectral subtrac-

tion,” IEEE Trans. ASSP-33, vol.27, pp.113-120, 1979.

[10] M. Berouti, R. Schwartz and J. Makhoul, “Enhancement of speech corrupted

by acoustic noise,” Proc. ICASSP, vol. 4, pp. 208-211, April 1979.

[11] N. Virag, “Single channel speech enhancement based on masking properties

of the human auditory system,” IEEE Trans. Speech and Audio Processing,

vol. 7, pp. 126- 137, March 1999.

[12] J. Cho and A. Krishnamurthy, “Speech enhancement using microphone array

in moving vehicle environment,” IEEE Proc. Intelligent Vehicles Symposium,

pp. 366-371, 2003.

[13] J. Yamauchi and T. Shimamura, “Noise estimation using high frequency re-

gions for spectral subtraction,” IEICE Trans. Fundam., vol. E85-A, no. 3, pp.

723-727, March 2002.

[14] K. Yamashita and T. Shimamura, “Nonstationary noise estimation using low-

frequency regions for spectral subtraction,” IEEE Signal Processing Letters.

vol. 12, pp. 465-468, June 2005.

[15] Zenton Goh, Kah-Chye Tan and Tan T.G, “Postprocessing method for

suppressing musical noise generated by spectral subtraction,” IEEE Trans.

Speech and Audio Processing, vol. 6, pp. 287-292, May 1998.

Page 99: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

91

[16] R.M. Udrea and S. Ciochina, “Speech enhancement using spectral over-

subtraction and residual noise reduction,” Proc. SCS, vol. 1, pp. 165-168,

July 2003.

[17] N. W. D. Evans, J .S. D. Mason, W. M. Liu and B.Fauve, “An assessment on

the fundamental limitations of Spectral Subtraction,” Proc. ICASSP, vol. 1,

pp. 145-148, May 2006.

[18] Y. Ephraim and D.Malah, “Speech enhancement using a minimum mean-

square error log-spectral amplitude estimator,” IEEE Trans. Speech Audio

Process., vol. 33, no. 2, pp. 443-445, 1985.

[19] C. Plapous, C. Marro and P. Scalart, “Two-step noise reduction technique,”

Proc. ICASSP, vol. 1, pp. 289-292, May 2004.

[20] C. Plapous, C. Marro and P. Scalart, “Improved signal-to-noise ratio estima-

tion for speech enhancement,” IEEE. Trans. Speech Audio Process., vol. 14,

pp. 2098-2108, Nov. 2006.

[21] R. Zelinski, “A microphone array with adaptive post-filtering for noise reduc-

tion in reverberant rooms,” Proc. ICASSP, vol. 5, pp. 2578-2581, 1988.

[22] R. Le Bouquin-Jeannes and G. Faucon, “Using the coherence function for

noise reduction,” Proc. Inst. Elect. Eng., vol. 139, no. 3, pp. 276-280, June

1992.

[23] R. Le Bouquin-Jeannes, A. A. Azirani, and G. Faucon, “Enhancement of

speech degraded by coherent and incoherent noise using a cross-spectral esti-

mator,” IEEE Trans. Speech Audio Process., vol. 5, no. 5, pp. 484-487, Sept.

1997.

Page 100: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

92 参考文献

[24] I.A. McCowan and H. Bourlard, “Microphone array post- filter based on noise

field coherence,” IEEE Trans. Speech Audio Process., vol. 11, no. 6, pp. 709-

716, 2003.

[25] J. Li and M. Akagi, “A hybrid microphone array post-filter in a diffuse noise

field” Proc. INTERSPEECH, pp. 2313-2316, Sept. 2005.

[26] ITU-T Recommendation P.862, “Perceptual Evaluation of Speech Quality

(PESQ): An Objective Method for End-to-End Speech Quality Assessment

of Narrow-Band Telephone Networks and Speech Codecs,” 2001.

[27] M. M. Coulding and J. Bird, “Speech enhancement for mobile telephony,”

IEEE Trans. Vehicular Technology., vol. 39, no. 4, pp. 316-326, Nov. 1990.

[28] Y. Suzuki, F. Asano, H. Y. Kim, and Toshio Sone, “An optimum computer-

generated pulse signal suitable for the measurement of very long impulse

responses,” J. Acoust. Soc. Am., vol.97(2), pp.1119-1123, 1995.

[29] K. Itou, M. Yamamoto, K. Takeda, T. Takezawa, T. Matsuoka, T. Kobayashi,

K. Shikano and Shuichi Itahashi, “The design of the newspaper-based

Japanese large vocabulary continuous speech recognition corpus,” Proc. IC-

SLP, pp.722-725, Nov. 1998.

[30] 柴田大輔,小林哲則,“ワンパストライグラムデコーダにおける単語履歴の束

ね処理に関する検討”音講論集,pp.151-152,Sept. 2002.

Page 101: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

93

研究業績

国際会議

(1) Shintaro Takada, Satoshi Kanba, Tetsuji Ogawa, Kenzo Akagiri and Tet-

sunori Kobayashi “Sound source separation using null-beamforming and spec-

tral subtraction for mobile devices,” Proc. 2007 IEEE Workshop on Appli-

cations of Signal Processing to Audio and Acoustics (WASPAA2007), pp.

30-33, Oct. 2007.

(2) Shintaro Takada, Tetsuji Ogawa, Kenzo Akagiri and Tetsunori Kobayashi

“Speech enhancement using square microphone array for mobile devices,”

Proc. 2008 IEEE International Conference on Acousitc, Speech, and Signal

Processing (ICASSP2008), March 2008. (to appear)

講演

(3) 高田晋太郎,勘場智之, 小川哲司, 赤桐健三, 小林哲則,“減算型アレイ処理と

スペクトラルサブトラクションを用いた音源分離技術とその携帯電話への応

用,” 電子情報通信学会技術研究報告 信学技報,Vol. 106 No.123 pp.7-12,

June. 2006.

(4) 高田晋太郎,勘場智之, 小川哲司, 赤桐健三, 小林哲則,“少数のマイクロホン

を用いた携帯端末向け音源分離,” 日本音響学会秋期研究発表会講演論文集,

pp.493-494,Sept. 2006.

Page 102: 多様な雑音に頑健な 携帯端末向け音声強調技術 · 4.1.2 空間フィルタ群の出力を利用したmulti-channel型Wiener fllter 40 4.1.3 single-channel型Wiener

94 研究業績

(5) 高田晋太郎,小川哲司, 赤桐健三, 小林哲則,“空間フィルタとポストフィル

タを用いた背景雑音抑圧,”日本音響学会春季研究発表会講演論文集,pp.575-

576,March 2007.

(6) 高田晋太郎,小川哲司, 赤桐健三, 小林哲則,“指向性雑音と拡散性雑音の混

在する環境を対象とした携帯端末向け音声強調の検討,” 日本音響学会秋期研

究発表会講演論文集,pp.743-746,Sept. 2007.

(7)   赤桐健三, 勘場智之, 高田晋太郎,小林哲則,“空間フィルタと帯域選択を用

いた音源分離方式の携帯電話への適用,” 日本音響学会秋期研究発表会講演論

文集,pp.597-598,Sept. 2005.

(8)   竹内寛史,高田晋太郎,小川哲司, 赤桐健三, 小林哲則,森戸誠,“ロボット

頭部に設置した 4系統小型無指向性マイクロホンによるハンズフリー音声認

識,” 日本音響学会春季研究発表会講演論文集,March 2008. (発表予定)