音響信号処理基礎 - naist5 [高道 他, 2011.] 点音源 直接波 第一散乱波 直接波...

52
音響信号処理基礎 東京大学 情報理工学系研究科 特任助教 高道 慎之介 奈良先端大 音情報処理論第7回 (2016/11/22)

Upload: others

Post on 11-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

音響信号処理基礎

東京大学 情報理工学系研究科 特任助教

高道 慎之介

奈良先端大 音情報処理論第7回 (2016/11/22)

/52

本講義の目的

音の知覚 … 音を理解する

音場再現技術 … 音の場を作る

音源分離技術 … 音の情報を分離する

2

音を理解する、音の場を作る、 音を分ける

音の知覚

3

/52

音の到来方向をどうやって知覚する?

ある位置から音が到来した。どうやってその方向を知覚する?

– 当然ながら、両耳の情報だけで判断している

両耳に到来する音はどう違う?

– 両耳間時間差 と 両耳間音圧差

– 両者とも到来経路の差により生じる

4

/52

頭部における音波の伝達経路

頭部を球に近似すると、その到来を明示的に記述できる

5

[高道 他, 2011.]

点音源

直接波

第一散乱波

直接波 表耳に直接到来 散乱波 まず頭部に音波が到来し、その後、 頭部表面を伝播して影耳に到来 直接波と散乱波の経路差 頭部を球に近似すると、音源距離と 方位角から解析的に計算可能

/52

実際に計測した両耳間時間差

6

角度[°] 0 180 270 360 90

0.4

0.8

0

-0.2

時間

差 [

mse

c]

-0.4

4

時間 [msec]

0 2 3 1

右 左

両耳間時間差

到来の時間差は1msec以下

– 我々はその時間差を知覚できる

/52

実際に計測した両耳間音圧差

7

Gain

[dB]

-30

10

-10

-50

0.5 1 5 10

周波数 [kHz]

20 0

0

角度[°]

180 270 360 90

音圧

差 [

dB]

20

-20

到達経路の違いにより、音圧が変わる

右 左

/52

帯域毎の時間差・音圧差の影響

8

両耳間音圧差

両耳間時間差

0

周波数 [kHz]

0.5 2 4 8 12 16 1 20

広帯域の音源は定位しやすい

逆に、純音の定位精度は悪い

/52

時間差・音圧差以外に 聴こえを変える要素

ピーク・ノッチの影響

先行音効果

– 最初に到来する音源の方向が音像の定位に支配的に影響する

視覚情報との相互作用

– カクテルパーティ効果

– 腹話術効果

– マガーク効果

9

/52

ピーク・ノッチ

10

Gai

n [

dB

]

-30

10

-10

-50

0.5 1 5 10 周波数 [kHz]

20

耳介形状等の影響により、伝達特性は大きく変化する

– ピーク (P1, P2…) … 信号が増幅される帯域

– ノッチ (N1, N2…) … 信号が減衰される帯域

P1 N1

/52

ピーク・ノッチは何故発生する?

z変換を思い出すと…

– ピーク: 音波の共振による増幅

– ノッチ: 音波の遅延による減衰

ピーク … 耳介で生じる共振

ノッチ … 直接波と耳介による反射波の影響

11

[竹本 他, 2010.]

/52

先行音効果(1)

12

2つのスピーカの間に音像を知覚 右側のスピーカからの音しか知覚できない

最初に到来する音源の方向が音像の定位に支配的に影響すること

– ハース効果、第一波面効果とも

/52

先行音効果(2)

13

時間

音圧 先行音効果の成立する領域

先行音効果の成立する条件

– コヒーレントな信号

– 信号の到来時間差や音圧差が影響

/52

人間の感覚器の比較

14

種類 受容器 (数) 中枢神経への数

視覚 網膜の視細胞 (108) 106

聴覚 蝸牛殻の有毛細胞 (104) 104

嗅覚 嗅粒膜の嗅細胞 (107) 103

触覚 皮膚の触覚細胞 (105) 104

[“Communication”,P.13,No.61,vol.11,1996.]

人間の感覚器と受容器の数

中枢神経の数で比較すれば、視覚は聴覚の100倍の情報量

– 視覚情報との相互作用が生じる

– 次ページ以降のような、相互作用による効果が起こる

/52

カクテルパーティ効果

人間は、聴取した音を処理して必要な情報だけを再構築する

– 音声の選択的聴取

15

両耳受聴(聴覚)+

+口の動き(視覚)

+思考(脳)⇒一致判断

~~~

~~~

~~~

~~~ ~~~

A君、結婚したん だって!

/52

腹話術効果

音像位置が映像位置に引っ張られる

– 両耳情報の曖昧さに起因

16

時間的に同期した映像と音像。ただし、 空間位置は違う

しかし、受聴者は、映像と同じ位置から 音がなっているように知覚する → 音像が映像に引っ張られる (腹話術効果)

/52

マガーク効果

音声の音韻知覚における視覚・聴覚の相互作用

– 音韻Aの視覚刺激 + 音韻Bの聴覚刺激 = 音韻Cを知覚

17

聴覚情報

視覚情報

/52

マガーク効果(動画)

18

https://www.youtube.com/watch?v=G-lN8vWm3m0

(BBC channel on YouTube)

音は ’ba’ のままなのに、映像を変えると ‘va’ に聴こえる!

音場再現技術

19

/52

音場再現技術

音場再現技術

– 所望の音場 (音波の存在する空間) を人工的に再現する技術

– → 時空間の制約を超えた高臨場感 立体音響システム

再生系による区分

– 拡声型 (開放型とも) … スピーカによる再現

– 両耳型 (没入型とも) … ヘッドホンによる再現

評価要素

– 受聴領域の大きさ

– 空間解像度

20

/52

音場再現技術とは

21

5.1ch サラウンド

バイノーラル

トランスオーラル

空間解像度

22.2ch サラウンド

Higher Order Ambisonics

受聴領域の大きさ

Wave Field Synthesis

広い受聴領域と高い空間解像度を 目指した物理的な音場再現へ

/52

従来の音響再生技術 (ステレオ、サラウンド5.1ch)

欠点

聴くことができる位置がスピーカの中心 (スィートスポット) に限定

音をデザインする人が必要(あくまで人工的な音の表現)

人間の音の方向知覚を利用した、心理音響モデルに基づく方法

22

エンジニア

/52

音場再現による高臨場音響再生

対象領域 𝑽 内の音場を,境界面 𝑺 上に配置した二次音源 (=スピーカ)を用いて,所望の音場と一致させる

23

音場そのものを物理的に再現 (物理音響モデルベース)

Secondary source distribution

Virtual

primary sources

広い受聴領域を 実現できる可能性

/52

音場再現手法の比較

24

アレイ配置 概要 収録音場の再現

Wave Field Synthesis (WFS)

平面/直線 Kirchhoff-Helmholtz積分/Rayleigh積分に基づく スピーカ駆動信号

×

Higher Order Ambisonics (HOA)

球 球面調和関数展開に基づくエンコーディング/ デコーディング

逆フィルタに基づく手法 (e.g. 境界音場制御)

任意 最小二乗法などに基づく 多点音圧制御

波面再構成 (WFR) フィルタ法

平面/直線/円筒/球/円

空間スペクトル上での 直接的な信号変換

/52

ホイヘンスの原理

ある時点での波面の形状は,その前段階の波面上の各点から 球面状に波が出た結果として生じたものと説明

25 図は、電子情報通信学会『知識の森』 2群-6編-7章から引用

/52

Wave Field Synthesis (WFS)

26

[Berkhout+ JASA 1993] [Spors+ AES Conv 2008]

Secondary source plane

空間位置𝒓s、周波数𝜔の駆動信号

境界面上の音圧勾配を二次音源の駆動信号として、音場を再現

スピーカパネルin長岡技大(2009)

スピーカパネルの図は [板倉, 長岡技大卒業論文, 2009.]より引用

/52

Higher Order Ambisonics (HOA)

27

球面調和関数

所望音場の球面調和スペクトル

スピーカ中心を原点とする球面調和スペクトル領域で合成音場が所望音場と一致するように制御

合成音場の球面調和スペクトル

球面調和関数を要素にもつ行列の(一般化)逆行列を用いて駆動信号を得る

[Daniel AES Conf 2003] [Poletti JAES 2005]

球状アレイを用いることで全方位の音場を再現可能

/52

逆フィルタに基づく手法

28

Control points ( 個)

所望の音圧

Loudspeakers ( 個)

の 逆システム

制御点上で所望の音圧と一致するような逆システムを用いる

最小二乗法による の逆フィルタの設計

正則化パラメータ

[Gautheir+ JASA 2005]

逆フィルタの設計さえできれば任意のアレイ形状に適用可能

/52

両耳系の音場再現技術

拡声型の音場再現

– 多人数で音場を共有可能

両耳型の音場再現

– 受聴者毎に音場を個別化可能・省スペース

– バイノーラル技術

29

/52

ヘッドホンの種類

30 図は [福永, 長岡技大修士論文, 2011.]より引用

/52

ヘッドホンの影響

耳覆い型~イントラコンカ型は、耳介の影響を強く受ける

– 耳介形状や装着具合に影響

– 個人依存性が強い

挿入型は伝達経路に耳介を含まない

– 個人依存性が低い

– 外耳道は一次元音響管であると仮定すれば、 イヤホンの振動面から鼓膜まで平面波が伝播する。

31

/52

バイノーラル

32

Inverse

System

Head And Torso Simulator (HATS)

原音場 聴取者

ヘッドホン&外耳道特性のキャンセル

・ダミーヘッド(もしくはHATS)を用いて収音,ヘッドフォンで再生

・システムが簡易

・聴取者の頭部回転や移動に弱く,音像が頭内定位する

→ ヘッドトラッキングにより緩和可能

/52

頭部伝達関数 (HRTF: Head Related Transfer Function)

33 図は [平原 他, 2011.]より引用

実際に現音場を構築しなくとも、HRTFとの畳み込みで実現可能

– HRTF: 自由音場における音源と受聴者鼓膜近傍の間の音響伝達関数

音源分離技術

34

/52

研究背景 (1)

複数の楽器音が混合された音楽信号から,楽器音を分離・抽出

→ 音楽信号分解

応用例

– ユーザが好み応じて各楽器音を編集

– 音楽信号の自動採譜

– 音の拡張現実 (AR) 等

35

/52

研究背景 (2)

非負値行列因子分解 (NMF) [Lee, et al., 1999]

データのスパース性,重ね合わせ表現を考慮。効率的な 乗法型更新式

画像処理,信号処理等様々な分野への応用

36

/52

Time [sec]

Fre

quency [

Hz]

Nonnegative Matrix Factorization (NMF)

37

頻出スペクトル

各スペクトルのタイミングと音量

/52

Time [sec]

Fre

quency [

Hz]

Nonnegative Matrix Factorization (NMF)

38

アクティベーション行列

スペクトル基底行列

/52

NMF では,分解行列因子の 𝑭 と 𝑮 を最適化するための目的関数が距離関数として与えられる

この距離関数はデータや分解する目的に応じて使い分けられる

– 音源分離: 一般化KLダイバージェンス

– 自動採譜: 板倉-斉藤擬距離

NMF の目的関数

39

𝐷 ⋅ | ⋅ : 任意の距離関数

/52

一般化距離関数 𝛽-divergence [Eguchi, et al., 2001]

40

: ユークリッド距離

: 一般化KLダイバージェンス

: 板倉-斉藤擬距離

スパース性が重視された距離尺度に

𝛽-divergence について

/52 41

5x102

4

3

2

1

0

IS-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=0) 25

20

15

10

5

0

KL-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=1) 12

10

8

6

4

2

0

EU

C-d

ista

nce

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=2)

𝑦 − 𝑥が負 → 入力変数 𝑥 がデータ 𝑦 より大きい

板倉-斉藤擬距離やKL-divergenceでは大きな距離値に

板倉-斉藤擬距離やKL-divergenceでは小さな距離値に

𝐷𝛽 𝑦|𝑥 におけるy − 𝑥のグラフ

𝑥

𝑥

𝑦 − 𝑥が正 → 入力変数 𝑥 がデータ 𝑦 より小さい

𝛽-divergence について

/52 42

5x102

4

3

2

1

0

IS-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=0) 25

20

15

10

5

0

KL-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=1) 12

10

8

6

4

2

0

EU

C-d

ista

nce

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=2)

-10

-8

-6

-4

-2

0

Am

plit

ude [dB

]

543210Frequency [kHz]

-10

-8

-6

-4

-2

0

Am

plit

ude [dB

]

543210Frequency [kHz]

スパース性: 強 スパース性: 弱

𝐷𝛽 𝑦|𝑥 におけるy − 𝑥のグラフ

𝛽-divergence について

/52 43

100

80

60

40

20

0

-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=3)9x10

2

8

7

6

5

4

3

2

1

0

-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=4)5x10

97

0

-d

ive

rgence

-5 -4 -3 -2 -1 0 1 2 3 4 5

y-x

=100)

さらに を大きくすると,入力変数 とデータ を 入れ替えたような性質になる

𝐷𝛽 𝑦|𝑥 におけるy − 𝑥のグラフ

𝛽-divergence について

/52

𝛽-divergence の全ての 𝛽 において収束性が保障された更新式の導出

𝛽-divergence規範NMF

44

𝑓𝜔,𝑘 , 𝑔𝑘,𝑡はそれぞれ 𝑭,𝑮の要素

[Nakano, et al., 2010]

/52

分離する楽器の教師音を用いる手法

学習プロセス

45

目的の楽器の教師音を用いて学習した基底

分離プロセス 教師基底 を固定して を構成

は となるべく無相関となるように求める

[Kitamura, et al., 2013]

Penalized Supervised NMF (PSNMF)

/52

分離する楽器の教師音を用いる手法

学習プロセス

目的の楽器の教師音を用いて学習した基底

分離プロセス 教師基底 を固定して を構成

は となるべく無相関となるように求める 46

𝑭𝑮から再構成した スペクトログラムが分離結果

[Kitamura, et al., 2013]

Penalized Supervised NMF (PSNMF)

/52

音源分離デモ1

47

原曲

分離音1

分離音2

分離音3

分離音4

全てのメロディが聞き取れたら、君もプロミュージシャン!

フルート聞き取れ

た?

難しい

簡単

/52

音源分離デモ2

48

原曲

教師1

分離音1

教師2

分離音2

実際の演奏曲を教師有りNMFで分解してみた。

/52

音源分離デモ3

49

原曲(プロ演奏) Saxのみを抜いた 伴奏部分

Copyright © 2014 Yamaha Corp. All rights reserved.

サックス奏者が 消えた!?

プロレコーディングに対応できる品質を目指して。

まとめ

50

/52

まとめ

51

音の知覚

– 両耳間時間差・両耳間音圧差

– 視覚との相互作用

音場再現技術

– 両耳型・拡声型

音源分離技術

– NMF音源分離

音を理解する、音の場を作る、 音を分ける

/52

謝辞

本講義資料の一部は、以下の方々から提供して頂いた。

– 島田 正治 長岡技科大 名誉教授

– 猿渡 洋 東京大学 教授

– 森川 大輔 北陸先端大 助教

– 小山 翔一 東京大学 助教

52