2006 11...

23
1 1 コミュニケーションシステム設計論特論 20061111京都大学 大学院情報学研究科 知能情報学専攻 知能メディア講座 音声メディア分野 http://winnie.kuis.kyoto-u.ac.jp/~okuno/ [email protected], [email protected] http://winnie.kuis.kyoto-u.ac.jp/~okuno/Lecture/06/UEC/ コミュニケーションシステム設計論 特論 音情報処理 2 講義予定・講義の目的 1回: 111113:0018:00 2回: 112513:0018:00 3回: 11213:0018:00 4回: 11313:0018:00 http://winnie.kuis.kyoto-u.ac.jp/~okuno/Lecture/06/UEC/ 講義の目標 1. 音情報処理についての知識修得 音声・音楽・環境音・混合音 2. 音声認識システムの構築技術の修得 3 音響信号・ 記号変換 ユーザに合わせた応答 相互理解追求型対話 音声認識・言語理解・対話処 理の統合 対人距離による対話戦略 音楽情報検索 (MIR) 歌手認識 擬音語認識 マルチモーダル統合 による物体認識 RNNPB による擬似 シンボル獲得 共感覚による視聴覚 情報統合・模倣 混合音を 聞き分ける 人にも機械に も優しい対話 多様な音を 聞き分ける 音環境理解 機械も聞き間違える 人も聞き間違える 複数人との対話・鼎談 音源定位・分離・認識 マルチモーダル情報統合 複数話者同時発話 知能機械情報学 マルチモーダル統合 による物体認識 能動知覚 音による環境認識 ディジタル音楽検索 擬音語による対話 擬音語による音検索 ミッシングフィーチャ理論によ る音源分離と認識の統合 自動ミッシングマスク生成 複数のロボットでの有効性 Output S(t+1) Input S(t) PB Context loop X(t) X(t+1) Output S(t+1) Input S(t) PB Context loop X(t) X(t+1) 京都市バス運行情報案内システム (075-326-3116) マルチドメイン検索システム 分離音声 認識結果 ミッシングフィーチャーマスク MFT基づく 音声認識 音源分離 混合音声 混合音声 音源方向 音源方向 にゃーお 3 6 7 16

Upload: others

Post on 21-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

1

1

コミュニケーションシステム設計論特論 2006年11月11日

奥 乃 博京都大学 大学院情報学研究科

知能情報学専攻

知能メディア講座 音声メディア分野

http://winnie.kuis.kyoto-u.ac.jp/~okuno/

[email protected], [email protected]://winnie.kuis.kyoto-u.ac.jp/~okuno/Lecture/06/UEC/

コミュニケーションシステム設計論

特論 ー 音情報処理 ー

2

講義予定・講義の目的

第1回: 11月11日 13:00~18:00第2回: 11月25日 13:00~18:00第3回: 11月2日 13:00~18:00第4回: 1月13日 13:00~18:00

http://winnie.kuis.kyoto-u.ac.jp/~okuno/Lecture/06/UEC/

講義の目標

1. 音情報処理についての知識修得

音声・音楽・環境音・混合音

2. 音声認識システムの構築技術の修得

3

コミュニケーションシステム設計論特論 2006年11月11日

音響信号・記号変換

ユーザに合わせた応答相互理解追求型対話音声認識・言語理解・対話処理の統合対人距離による対話戦略

音楽情報検索 (MIR)歌手認識擬音語認識

マルチモーダル統合による物体認識RNNPB による擬似

シンボル獲得共感覚による視聴覚情報統合・模倣

混合音を聞き分ける

人にも機械に

も優しい対話

多様な音を

聞き分ける

音環境理解機械も聞き間違える人も聞き間違える複数人との対話・鼎談

音源定位・分離・認識マルチモーダル情報統合複数話者同時発話

知能機械情報学マルチモーダル統合による物体認識能動知覚

音による環境認識ディジタル音楽検索擬音語による対話擬音語による音検索

ミッシングフィーチャ理論による音源分離と認識の統合自動ミッシングマスク生成複数のロボットでの有効性

Output S(t+1)

Input S(t)PB

Context loop X(t)

X(t+1)Output S(t+1)

Input S(t)PB

Context loop X(t)

X(t+1)

京都市バス運行情報案内システム(075-326-3116)

マルチドメイン検索システム

分離音声 認識結果

ミッシングフィーチャーマスク

MFTに基づく

音声認識

MFTに基づく

音声認識音源分離

音源分離

混合音声混合音声

音源方向音源方向

にゃーお 367

和は16

Page 2: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

2

4

第1回目の目次 (Introduction)1. 課題の説明,音声認識の概略

2. 混合音処理

3. 調波構造による音響ストリーム分離

4. 音源方向による音響ストリーム分離

5. 画像情報統合による音響ストリーム分離

第2回: 音源定位・音源分離

第3回: ロボット聴覚

第4回: 音楽情報処理・擬音語認識

5

本講義での目標・立場

1. 混合音など一般的な音の理解

• CASA (音環境理解、Computational Auditory Scene Analysis)

• 音声認識システムは、単一話者の声を想定

2. 人工知能研究の立場から

• 信号処理中心ではなく、記号処理(音の表現)を中心に

• 統計的なアプローチだけでなく、情報統合で

3. ソーシャルインターラクションを志向• カクテルパーティ効果:アクティブ知覚との統合• 社会性を持ったインターラクション• 聖徳太子コンピュータ:同時に10人の訴えを聞く

7

聴覚の重要性

聴覚は人間にとって最も重要な感覚である。言語によるコミニケーションが聴覚によって成立することは容易に理解されるが、「ヒトは聴覚によってのみ言語を獲得し、そこに文化が生まれ、継承される。書かれた言語は目によって伝承されるが、話す言葉は耳からしか得られない。話し言葉があって書く言葉が生まれる」ことを、多くの人が理解していないのは残念なことである。

鈴木淳一、小林武夫共著『耳科学 --- 難聴に挑む』(中公新書1598, 2001)

Page 3: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

3

8

刺激と反応

1. 傾聴(listening)や注視 (looking)は、聞こえる(hearing)や見える(seeing)と違い、より能動的、主体的な行動である。

2. 傾聴や注視では、注意が移るきっかけはそれぞれの感覚情報だけでなく、環境から得られる複数の感覚情報に基づいたマルチモーダル情報の影響が大きい。

3. 刺激と反応は、身体を有したシステムで実証する必要がある。

9

テキスト入力と音声入力との違い

1. 音声認識誤り

2. ユーザの発話が非定形(発話前に推敲・確認・修正は難しい)

3. 音は一覧性がない

4. 音声言語の不適格性(ill-formed)

情報の不足,過多,言語的誤り

5. 言語理解の頑健性 vs. ユーザの負荷軽減

6. 未登録語(音声認識は事前知識依存)

10

音声言語の不適格性の分類

ドメイン知識不足

状況的誤りあいづち復唱

文脈による省略,ゼロ代名詞

照応曖昧間接言語行為

語用論

語彙・意味的知識不足

選択制限違反

同格言い換え

必須格の省略複数語義比喩・換喩

意味

システムの構文を逸脱

助詞誤り倒置

挿入句助詞省略中断・断片文

係り受け曖昧構文

未知語言い誤り間投語言い直し

省略語同音異義語区分化曖昧

形態素

システムの能力不足

言語的誤り(エラー)

重複(情報過多)

省略(情報不足)

曖昧性・漠然性(情報不足)

河原・荒木:『音声対話システム』,オーム社,2006.

Page 4: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

4

11

どのようにして私たちは音を聞くのか

stream

stream

stream

stream

soundsoundsound

sound

Frequency

Timebackground noise

Sound stream segregation

Auditory events generate individual streams

We hear a mixture of sounds

Mixing

単一の音ではなく、混合音を聞いている。

12

音響ストリーム分離における曖昧性

曖昧性を解消するためにさまざまな特徴や他の情報を利用する必要がある。

13

ストリーム化 ー 部分の帰属性

円とシミの境界線はどちらに属する?

Page 5: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

5

14

ストリーム化 - 排他的割り当て

The Principle of Exclusive Allocation(地と図との問題)

15

ストリーム化 - 変化を検出

A B の順序は分かるか?(Old-Plus-New Heuristics)

16

ストリーム化 - 周波数の差

ストリーム分離はどちらが強いか?

Page 6: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

6

17

ストリーム化 - 時間間隔

ストリーム分離はどちらが強いか?

18

Gestalt Principles

Forces of attraction により perceptual organization が生ずる。(全体主義 vs. 還元主義)

19

Gestalt Principle of Closure

この文字は? Occlusion (見え隠れ)?

Page 7: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

7

20

Gestalt Principle of Closure

21

Gestalt Principle of Closure

Occlusion (見え隠れ)の鍵があると。Auditory Induction (音素修復)

22

音声認識システムのインストール

http://julius.sourceforge.co.jp/マイクロフォン入力に注意.

課題1: julius を動かしてみて,動作確認.発声のコツ(発話のタイミング,大きさなど)

課題2:適当なタスクを設定.文法を記述.そのタスクの発話を受理する音声認識器を構築.

課題3:適当なタスクを設定.統計的言語モデルを作成.音声認識器を構築.

課題4:適当なタスクを設定.音声入力に対して応答を行うシステムの作成.

Page 8: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

8

23

音を抽出するための特徴

低レベルの音の特徴

• 音の立ち上がり(オンセット)、立下り(オフセット)、パワー、調波構造(基本周波数の音とその整数倍音)、変調(AM, FM)、音源方向、音源の距離

音源の特徴

• 音源のモデル(音声、楽音、動物の鳴き声)、音源の種類(ヘヤードライヤ、電話のベル)

• 音源の個数

• リズム、和音の遷移

25

人は皆同じように感じ取るのか

同じ情景を描いた2つの絵の違いは?

ゴヤ「1805年5月3日」 マネ「マクシミリアン皇帝の処刑」

29

マルチエージェントによる分離

stream 3

stream 1

agent1

agent2

agent3

interaction

stream 2

各エージェントは自分が追跡する音響ストリームに集中し、相互作用を通じて調整。

Page 9: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

9

30

調波構造:基本的な音の表現

基本周波数

i=1 は基本周波数、他は倍音と呼ぶ

は基本周波数

は振幅

は位相

440Hzの純音

31

440Hzの純音を信号処理をすると波形、フーリエ変換、スペクトル

32

110Hzの調波構造を持つ音波形、フーリエ変換、スペクトル

Page 10: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

10

33

発話「あいうえお」の信号解析波形、フーリエ変換、スペクトル

34

残差駆動型アーキテクチャInput Residue Event

detectorTracer generator

Tracer

Tracer

Noise-tracer

Extractinformation Predict

next input

Extractinformation Extractinformation Extractinformation Extractinformation Extractinformation Extractinformation Extractinformation Extractinformation Extractinformation Predict

next input

Extractinformation Predict

next input

Extractinformation Predict

next input

Stream fragmentStream fragmentStream fragmentStream fragmentStream fragmentStream fragmentStream fragment

Stream fragment

Noise stream fragment

Predicted next input

Predicted next input

Predicted next input

35

残差駆動型調波構造ストリーム分離

1. Event detector が予測信号を入力信号から減算し、得られた残差をtracer generator に与える。

2. 残差が閾値より大きければ、tracer generator は、新たな音を発見したものとして tracer を生成。

3. Tracer generator が残差の中に調波構造を発見すると、tracer を生成。調波構造がない場合には、定常雑音を除去する noise tracer を生成。

4. Tracer は調波構造断片を抽出するとともに、次の入力信号(混合音)中の調波構造を予測し、生成した予測信号を event detector に渡す。

HBSS (Harmonics-Based Stream Separation)

Page 11: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

11

36

調波構造断片のグルーピング

1. Tracer は次式を最大にする周波数を予想

2. 調波構造断片に含まれる基本周波数 が近いものを次々につないでいく

3. 漸進的に分離を実行。

4. 音源数は予め与えておく必要がないし、音源数が動的に変化してもよい。

37

HBSSによる音響ストリーム分離

3つの音を演奏: 入力混合音、

分離音(女性の発話、男性の発話)

0

50

100

150

200

250

300

0 50 100 150 200 250 300 350

入力混合音 HBSSによる分離音

基本周波数

0

50

100

150

200

250

300

0 50 100 150 200 250 300 350

38

Noise Tracer の効果

3つの音を演奏: 入力混合音、

分離音(女性の発話、男性の発話)

Noise tracerなし(デモなし)

HBSSによる分離音

基本周波数

0

50

100

150

200

250

300

0 100 200 300 400 500 600 0

50

100

150

200

250

300

0 100 200 300 400 500 600

Page 12: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

12

39

HBSSの能力

1. 音源数を仮定しない。

2. 音源数が変化してもよい。

3. 漸進的に音を分離。

4. モノラル音では、前述した分離の曖昧性ができないことがある。

方向情報を使用し、分離精度向上を狙うバイノーラル音(頭に組み込まれたマイクロフォン) Binaural HBSS (BiHBSS)

40

音源定位のJeffressのモデル左右の耳に到着する時間差 (ITD, Interaural Time Difference, Delay Time of Arrival (DTOA))

同じ音という判断は

頭の形の影響は

d d

d d

dd

d d

+

+

+

+

+

+

Input from leftside

Input from rightside

delay

delay

41

BiHBSS: 方向情報を取り込む

L R

residue residue

TracerGenerator

TracerGenerator

InterauralCoordinator

Generate a pair of Tracers

Tracer Tracer InterauralCoordinator

Grouping according to direction

stream fragmentwith direction

stream fragmentwith direction

a pair of binaural streams

predictednext input

predictednext input

input input

Page 13: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

13

42

方向情報を求めるには取り込む

1. 左右のHBSSで同じ基本周波数を持つ調波構造ストリームを検出

2. 見つけた1対のストリームに対して、

• IPD(両耳間位相差)

• IID(両耳間強度差)

3. 頭の形から、

• IPD(両耳間位相差) は1500Hz位まで

• IID(両耳間強度差) は1500Hz以上で

43

BiHBSSによる音響ストリーム分離

3つの音を演奏: 入力混合音、

分離音(女性の発話、男性の発話)

0

50

100

150

200

250

300

0 50 100 150 200 250 300 3500

50

100

150

200

250

300

0 50 100 150 200 250 300 350

入力混合音 BiHBSSによる分離音

基本周波数

44

HBSSとBiHBSSの性能比較

3つの音を演奏: 入力混合音、

分離音(女性の発話、男性の発話)

0

50

100

150

200

250

300

0 50 100 150 200 250 300 350

HBSSによる分離音 BiHBSSによる分離音

基本周波数

0

50

100

150

200

250

300

0 50 100 150 200 250 300 350

Page 14: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

14

45

BiHBSSによる音響ストリーム分離

2種の3つの音を演奏: 入力混合音、

分離音(女性1の発話、女性2の発話)

HBSSによる分離音 BiHBSSによる分離音

基本周波数

150

250

350

0 100 200 300 400 500

150

250

350

0 100 200 300 400 500

46

音声ストリームの分離

1. BiHBSSによる調波構造ストリーム分離

母音、有声子音は調波構造を持つ

無声子音は×

2. 無声子音の抽出は難しい。

1. 残差はほとんど調波構造がふくまれないはず。

2. 残差を無声子音の代用とする

47

音声ストリームの分離:第1段階

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

BiHBSSで分離

入力混合音

Page 15: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

15

48

音声ストリームの分離:第2段階

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

残差

入力

調波構造

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

49

音声ストリームの分離:第3段階

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

残差調波構造

+Time (ms)

Fre

quen

cy (

Hz)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Fre

quen

cy (

Hz)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

50

音声ストリームの分離:デモ

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

Time (ms)

Fre

quen

cy (

Hz)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Fre

quen

cy (

Hz)

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

100 200 300 400 500 600 700 800 900

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Time (ms)

Freq

uenc

y (H

z)

1 入力混合音 2 分離されたomomuki 3 分離されたakiti

4 残差 5 分離された「おもむき」 6 分離された「あきち」

Page 16: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

16

51

音声ストリーム分離の評価

1. 音声認識システムで単語発話を評価

2. 隠れマルコフモデル(HMM)による自動音声認識システムで評価

3. 日本語の単語500組で評価。学習データと評価データは独立。

強いノイズ女性2女性1Triple’弱いノイズ女性2女性1Triple

女性2女性1Double第3音第2話者第1話者

1-best 10-best

||0.0

|10.0

|20.0

|30.0

|40.0

|50.0

|60.0

|70.0

|80.0

|90.0

Err

or

Red

uct

ion

Rat

e (%

)

Double

aver

age

Wo

man

1

Wo

man

2Triple

aver

age

Wo

man

1

Wo

man

2

Triple’

aver

age

Wo

man

1

Wo

man

2

52

音声ストリーム分離の評価

1-best 10-best

||0.0

|10.0

|20.0

|30.0

|40.0

|50.0

|60.0

|70.0

|80.0

|90.0

Err

or

Red

uct

ion

Rat

e (%

)

Double

aver

age

Wo

man

1

Wo

man

2

Triple

aver

age

Wo

man

1

Wo

man

2

Triple’

aver

age

Wo

man

1

Wo

man

2

53

方向情報による画像との統合

1. サブバンド(FFTのポイント)毎に処理

2. IPD(両耳間位相差)とIID(両耳間強度差)の組合せ

3. 画像処理からIPD、IIDの予想値と実際の値との間で仮説推論

Left Channel

Right Channel

IPD

IID

FrequencyAnalysis

Frequency

Calculation ofIPD and IID

03060

-30-60-90

90

03060

-30-60-90

90

IID IPDHRTF

03060

-30-60-90

90

03060

-30-60-90

90

IFFT

Integration ofIPD and IID

Matching

IPD

ProbabilityCalculation

IPD

IID IID

03060

-30-60-90

90

03060

-30-60-90

900

3060

-30-60-90

90 90

60

-90

DirectionPass Filter

03060

-30-60-90

90FFT

SeparatedSounds

StereoVision

Direction

Page 17: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

17

54

モーダリティ増加による音声ストリーム分離への効果

1-best 10-best

||0.0

|10.0

|20.0

|30.0

|40.0

|50.0

|60.0

|70.0

|80.0

|90.0

|100.0

Rec

og

nit

ion

Rat

e (%

)

Proposed

aver

age

Fir

st S

pea

ker

Sec

on

d S

pea

ker

Th

ird

Sp

eake

rICA&BiHBSS

aver

age

Fir

st S

pea

ker

Sec

on

d S

pea

ker

Th

ird

Sp

eake

r

BiHBSS

aver

age

Fir

st S

pea

ker

Sec

on

d S

pea

ker

Th

ird

Sp

eake

r

HBSS

aver

age

Fir

st S

pea

ker

Sec

on

d S

pea

ker

Th

ird

Sp

eake

r

55

音楽分離システムとの統合

1.異なる音響ストリーム分離システムを統合。

2.音楽と音声

56

音って何?

振動

疎密波として伝播(真空中は伝わらない)

• ロケットの問題

「音響信号」と呼ぶ

ある場所での音響信号は一次元の信号 s(t)v = f ×λ

Page 18: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

18

57

音の特徴

音高

• 基本周波数 vs. ピッチ

音圧

• 音圧レベル vs. ラウドネス

音色

• スペクトル包絡、パワー包絡 vs. 音色

時間

• 継続時間物理量と心理量は区別して扱う必要がある。

音の3要素

58

ピッチと基本周波数

「ミッシングファンダメンタル」

• 1,800Hz,2,000Hz,2,200Hzの正弦波

– 基本周波数: 200Hz– 知覚:ほぼ200Hz

• 1,840Hz,2,040Hz,2,240Hzの正弦波

– 基本周波数: 40Hz– 知覚: 204Hz

(音響学会誌より抜粋)

59

音圧レベルとラウドネス

2003年 ISO 226 の全面的な改定:等ラウドネスレベル曲線

騒音レベルを計測するためのA特性との一致

(http://www.aist.go.jp/aist_j/press_release/pr2003/pr20031022/pr20031022.html)

Page 19: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

19

60

可聴域人の可聴域 Auditory sensation area:20Hz~16kHz

( 猫:100Hz~40kHz, こうもり: 数 kHz~100kHz)感度の高い周波数: 4kHz音圧の単位: dB SPL = 20×log10(X/X0)

X0 = 2×10-5N/m2(the least sound pressure people can hear)

Auditory sensation area

61

音色・音の継続時間

音色:ピッチ、ラウドネス以外の特徴として定義される

継続時間:物理量と心理量で違うにもかかわらず、言葉としては物理量しか存在していない

62

Peripheral Auditory System~external ear~

外耳道の効果2~7kHz の音響信号を強調するようになっている外耳道の長さ 25mm = 3430Hz の ¼ 波長に相当

external ear

externalauditorycanal

tympanic membrane(drum)

auricle

25mm

耳たぶの効果垂直方向の定位、両耳間の差を大きくする

Page 20: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

20

63

Humanoid SIG2駆動部 上半身 4 自由度 + 台車

・ハーモニックドライブ・岡崎産業 TITECH モータドライバ・Active Media, Inc. Pioneer 2-AT

外装 胴体, 頭部 : ABS 製, シリコン被覆耳部 : シリコン製, 高研 外耳道モデル台車部 : 木製

マイク 耳部 2本・SENNHEISER ME102 ・内部ノイズ抑制用に耳部以外に

6本まで追加可能カメラ 2台 (カラーCMOSステレオカメラ)

・25万画素・共立電子産業 JPP-CM25F (OV7910チップ使用) を改造

静音、移動可

ソフト、低反射

高収音性、密閉性

静音性

66

耳の形状の効果頭内部にマイクを配置し耳部のマイクによって収音された音と, 内部マイクによって収音された音の音圧差をインパルス応答により測定した.

67

外装の音響測定結果

SIGの外装 SIG2の外装

※ スピーカ方向を -90°から90°まで10°おきに変化させ、インパルス応答を計測し両耳間位相差(IPD)を算出

※ 直線は聴覚エピポーラ幾何によって推定された値

Page 21: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

21

69

external ear(外耳)

鼓膜

middle ear(中耳)

internal ear(内耳)

耳小骨 (3 bones) : 鼓膜の振動を内耳に伝達する音圧強調(27dB)

tensor muscle of the tympanic membrane (鼓膜張筋), stapedius muscle (鐙骨筋)自分自身が発生する音を抑制する

middle ear cavity: 空気圧は耳管を通じて常に一定に保たれている

Peripheral Auditory System~middle ear~

槌骨砧骨

鐙骨

中耳腔

(Principles of Neural Science)

70

(Biological Psychology)

71

前庭階

基底膜コルチ器

Peripheral Auditory System~internal ear~

Cochlea(蝸牛): spiral shape(only mammals) 34-2 rotations(human)

中央階

鼓室階

ライスナ膜

3 cavities: scala vestibuli, scala media, scala tympani (filled with lymph)2 membranes: Reissner’s membrane, basilar membraneOrgan of Corti: signal creator to send to the brain

(Principles of Neural Science)

Page 22: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

22

72

基底膜(Basilar membrane)

中耳の空気圧→ 楕円窓 (oval window) の振動

→ 蝸牛内空間の液体の波→ 基底膜(Basilar membrane)の振動

共鳴する部位は振動の周波数によって異なるBase : 15000Hz, Apex : 100Hz周波数に対して log-scale の反応

Principles of Neural Science

73

基底膜上の器官脳へ電気信号として振動情報を伝達有毛細胞(Hair cells): vibration detectors, 2 types

inner hair cell 4000cells single row 100cells/mmouter hair cell 12000cells three rows 300cells/mm

Stereocilia: sensor on top of the hair cell100hairs/hair cell, 毛の偏移によって電気信号へ変換される

コルチ器(Organ of Corti)Outer hair cells

Inner hair cells

Principles of Neural Science

74

基底膜における最適周波数の振動強度は音圧が小さくなるに従って大きくなる(squirrel monkey).

耳音響放射(Otoacoustic emission):f1 Hzと f2 Hz の音響信号入力があると存在しないはずの 2f1-f2 Hz の音が蝸牛内で知覚される. (外有毛細胞)

二音抑制(Two–tone suppression):ある音で興奮している状況で、別の音を同時に入力すると抑制される。

内耳の非線形性

Optimal frequency

Page 23: 2006 11 コミュニケーションシステム設計論winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/06/... · コミュニケーションシステム設計論特論2006年11月11日

23

75

脳内での処理

これらの信号は、聴覚野に伝達される

ウェルニケ野(脳左半球の側頭連合野)は言語理解、ブローカ野(脳左半球の前頭連合野)は発話、文法に関係あると言われている

視聴覚統合も比較的低レベルでも起きているといわれている

が…実際にはその処理はほとんどわかっていない