音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/lecture/07/... ·...

18
1 音声情報処理特論 第1部 第1回 株式会社 国際電気通信基礎技術研究所(ATR) 株式会社 ATR-Promotions 正木 信夫 2007年10月2日 シラバスより 本講義では, 音について基礎理論から, 最先 端の音の認識技術とその応用に ついて学ぶ. 第1部では, 音の基礎理論と音声の生成機構お よび聴覚機構について述べる. 音の物理特性を 明らかにし, 音声生成の理論(ソース・フィルタ理 論)の理解に つなげる. 聴覚機構については, テゴリカル・パーセプションを取り上げる. さらに近 年の脳研究から明らかになりつつある人間の音 声情報処理に関連した成果を紹介する.

Upload: others

Post on 27-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

1

音声情報処理特論第1部第1回

株式会社 国際電気通信基礎技術研究所(ATR)株式会社 ATR-Promotions

正木 信夫

2007年10月2日

シラバスより

本講義では, 音について基礎理論から, 最先端の音の認識技術とその応用に ついて学ぶ.

第1部では, 音の基礎理論と音声の生成機構および聴覚機構について述べる. 音の物理特性を明らかにし, 音声生成の理論(ソース・フィルタ理論)の理解に つなげる. 聴覚機構については, カテゴリカル・パーセプションを取り上げる. さらに近

年の脳研究から明らかになりつつある人間の音声情報処理に関連した成果を紹介する.

Page 2: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

2

ATRの紹介 見学にいらしてください

きょうのトピック

音声からスペクトログラムへ

スペクトログラムから音声の聴取へ

カテゴリカル・パーセプション

Page 3: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

3

母音生成の理論

Source Filter Theory of Vowels

医療言語聴覚士制度推進協議会講習会実務委員会編集:言語聴覚療法の医学的基礎 p.565

母音生成の理論(疑問その1)

音源について

なぜ の形になるのか?

Page 4: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

4

周期的複合音(1)

相対

的振

幅の

大き

さ1Hz 振幅1

2Hz 振幅0.5

3Hz 振幅0.25

4Hz 振幅0.125

5Hz 振幅0.0625

合成

0

0.5

1.0

0 1 2 3 4 5周波数(Hz)

周期的複合音(2)

相対

的振

幅の

大き

0

0.5

1.0

0 1 2 3 4 5周波数(Hz)

基本周波数

基本周波数の整数倍の周波数を持つ正弦波

基本周波数を周期とする周期的複合音

合成

分解

1Hz 振幅1

2Hz 振幅0

3Hz 振幅0.25

4Hz 振幅0

5Hz 振幅0.0625

合成

Page 5: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

5

10ms = 0.01s

母音生成の理論

音源について 声門波形(時間領域)

スペクトル(周波数領域)

0 100 200 300 400 500 600 700 800 900 1000 周波数(Hz)

時間(s)

基本周波数

基本周期

母音生成の理論(疑問その1)

音源について

だから の形になる!

Page 6: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

6

母音生成の理論(疑問その2)

声道共鳴特性について

なぜ の形になるのか?

声道の共鳴特性

Borden 他著: ことばの科学入門 p.97

V:最高速度となる点P:最大圧となる点

・声道が端点解放、端点閉鎖の管と同等の機能を持つ

Page 7: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

7

声道の共鳴特性

声道の長さを17cmとすると(男性はだいたいそのぐらい)

F1=500Hz F2=1500Hz F3=2500Hz

注:音速を340m/sとする

声道の共鳴特性

Titze: Princeple of Voice Production p.147

周波数(Hz)

周波数(Hz)

声道にエネルギー損失がほとんどないと仮定した場合

実際には声道にエネルギー損失が存在し、このようになる

Page 8: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

8

母音生成の理論(疑問その2)

声道共鳴特性について

だから の形になる!

そして

母音の生成「あ」

一様の管と比べて、第1フォルマントの周波数は上昇し、第2フォルマントは下降する。

Titze: Principle of Voice Production p.150

/a/

100Hzの声帯振動

Page 9: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

9

母音の生成「い」

一様の管と比べて、第1フォルマントの周波数は下降し、第2フォルマントは上昇する。

Titze: Principle of Voice Production p.150

/i/

100Hzの声帯振動

母音の生成「う」

一様の管と比べて、第1フォルマントも第2フォルマントもの周波数は下降する。

Titze: Principle of Voice Production p.150

/u/

100Hzの声帯振動

Page 10: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

10

スペクトログラム「あ」

色が濃くなる

「あ~~」

時間(s)

周波数(Hz)

色が濃くなる

「い~~」

時間(s)

周波数(Hz)

スペクトログラム「い」

Page 11: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

11

スペクトログラム「う」

色が濃くなる

「う~~」

時間(s)

周波数(Hz)

スペクトログラム「あいうえお」

男性話者による「あいうえお」のスペクトログラム(その1)

声帯振動(基本周波数)の分析

0

1000

2000

3000

4000

5000[Hz]

a i u e o

500Hz

1500Hz

2500Hz狭帯域分析

Page 12: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

12

スペクトログラム「あいうえお」

男性話者による「あいうえお」のスペクトログラム(その2)フォルマント周波数の分析

0

1000

2000

3000

4000

5000[Hz]

a i u e o

500Hz

1500Hz

2500Hz広帯域分析

きょうのトピック

音声からスペクトログラムへ

スペクトログラムから音声の聴取へ

カテゴリカル・パーセプション

Page 13: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

13

スペクトログラムから音声の聴取へ

米国Haskins研究所で行われた音声の研究

大量のスペクトログラムを採り分析

子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

The Acoustic Analysis of Speech (R.D.Kent, C.Read)

ローカス理論へ(Delattreら,1955)

ローカス理論

The Acoustic Analysis of Speech (R.D.Kent, C.Read)

600-800 Hz

1800 Hz

3000 Hz

1300 Hz

[b]

[d]

[g]

Page 14: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

14

ローカス理論を音声合成で検証

Pattern Playback という装置が使われた

前のスライドのようなスペクトログラムが一定の速さで送られる

光源とトーン・ホイールによって120 Hzの整数倍の正弦波が作られる

各周波数の振幅がスペクトルの濃淡パタンにより振幅(AM)変調される

→合成音声が出力上智大学 荒井先生提供の図を改変

(http://www.haskins.yale.edu/featured/patplay.html より)

きょうのトピック

音声からスペクトログラムへ

スペクトログラムから音声の聴取へ

カテゴリカル・パーセプション

Page 15: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

15

カテゴリカル・パーセプション

Pattern Play Backによる聴取実験(刺激音)

「ことばの科学入門」より

[b] [d]

[d] [g]

b-d-g

カテゴリカル・パーセプション

Pattern Play Backによる聴取実験(結果)

「ことばの科学入門」より

[b] [d] [g]

Page 16: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

16

Pattern Play Backによる聴取実験(刺激音)

カテゴリカル・パーセプション

r - l

「ことばの科学入門」より

[r]

[l]

Pattern Play Backによる聴取実験(結果)

カテゴリカル・パーセプション

「ことばの科学入門」より

[r] [l]

Page 17: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

17

謝辞

講義の準備にご協力いただいた皆様

上智大学 工学部 電気・電子工学科

荒井隆行 教授

株式会社 ATR-Promotions ATR CALL事業部

山田玲子 部長

Page 18: 音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/Lecture/07/... · 2007-10-11 · 子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?

1.R

L W

2.R

L W

3.R

L W

4.R

L W

5.R

L W

6.R

L W

7.R

L W

8.R

L W

9.R

L W

10.R

L W

1.R

L W

2.R

L W

3.R

L W

4.R

L W

5.R

L W

6.R

L W

7.R

L W

8.R

L W

9.R

L W

10.R

L W

練習

11.R

L W

12.R

L W

13.R

L W

14.R

L W

15.R

L W

16.R

L W

17.R

L W

18.R

L W

19.R

L W

20.R

L W

21.R

L W

22.R

L W

23.R

L W

24.R

L W

25.R

L W

26.R

L W

27.R

L W

28.R

L W

29.R

L W

30.R

L W

31.

R L

W32

.R

L W

33.

R L

W34

.R

L W

35.

R L

W36

.R

L W

37.

R L

W38

.R

L W

39.

R L

W40

.R

L W

41.R

L W

42.R

L W

43.R

L W

44.R

L W

45.R

L W

46.R

L W

47.R

L W

48.R

L W

49.R

L W

50.R

L W

51.R

L W

52.R

L W

53.R

L W

54.R

L W

55.R

L W

56.R

L W

57.R

L W

58.R

L W

59.R

L W

60.R

L W

61.R

L W

62.R

L W

63.R

L W

64.R

L W

65.R

L W

66.R

L W

67.R

L W

68.R

L W

69.R

L W

70.R

L W

71.R

L W

72.R

L W

73.R

L W

74.R

L W

75.R

L W

76.R

L W

77.R

L W

78.R

L W

79.R

L W

80.R

L W

81.R

L W

82.R

L W

83.R

L W

84.R

L W

85.R

L W

86.R

L W

87.R

L W

88.R

L W

89.R

L W

90.R

L W

91.

R L

W92

.R

L W

93.

R L

W94

.R

L W

95.

R L

W96

.R

L W

97.

R L

W98

.R

L W

99.

R L

W10

0.R

L W

101.

R L

W10

2.R

L W

回答

用紙

ATR C

ALL

EXPERIM

ENT S

ERIE

SCate

gorical

Perc

eption