音声情報処理特論 - 京都大学winnie.kuis.kyoto-u.ac.jp/members/okuno/lecture/07/... ·...
TRANSCRIPT
1
音声情報処理特論第1部第1回
株式会社 国際電気通信基礎技術研究所(ATR)株式会社 ATR-Promotions
正木 信夫
2007年10月2日
シラバスより
本講義では, 音について基礎理論から, 最先端の音の認識技術とその応用に ついて学ぶ.
第1部では, 音の基礎理論と音声の生成機構および聴覚機構について述べる. 音の物理特性を明らかにし, 音声生成の理論(ソース・フィルタ理論)の理解に つなげる. 聴覚機構については, カテゴリカル・パーセプションを取り上げる. さらに近
年の脳研究から明らかになりつつある人間の音声情報処理に関連した成果を紹介する.
2
ATRの紹介 見学にいらしてください
きょうのトピック
音声からスペクトログラムへ
スペクトログラムから音声の聴取へ
カテゴリカル・パーセプション
3
母音生成の理論
Source Filter Theory of Vowels
医療言語聴覚士制度推進協議会講習会実務委員会編集:言語聴覚療法の医学的基礎 p.565
母音生成の理論(疑問その1)
音源について
なぜ の形になるのか?
4
周期的複合音(1)
相対
的振
幅の
大き
さ1Hz 振幅1
2Hz 振幅0.5
3Hz 振幅0.25
4Hz 振幅0.125
5Hz 振幅0.0625
合成
0
0.5
1.0
0 1 2 3 4 5周波数(Hz)
周期的複合音(2)
相対
的振
幅の
大き
さ
0
0.5
1.0
0 1 2 3 4 5周波数(Hz)
基本周波数
基本周波数の整数倍の周波数を持つ正弦波
基本周波数を周期とする周期的複合音
合成
分解
1Hz 振幅1
2Hz 振幅0
3Hz 振幅0.25
4Hz 振幅0
5Hz 振幅0.0625
合成
5
10ms = 0.01s
母音生成の理論
音源について 声門波形(時間領域)
スペクトル(周波数領域)
0 100 200 300 400 500 600 700 800 900 1000 周波数(Hz)
時間(s)
基本周波数
基本周期
母音生成の理論(疑問その1)
音源について
だから の形になる!
6
母音生成の理論(疑問その2)
声道共鳴特性について
なぜ の形になるのか?
声道の共鳴特性
Borden 他著: ことばの科学入門 p.97
V:最高速度となる点P:最大圧となる点
・声道が端点解放、端点閉鎖の管と同等の機能を持つ
7
声道の共鳴特性
声道の長さを17cmとすると(男性はだいたいそのぐらい)
F1=500Hz F2=1500Hz F3=2500Hz
注:音速を340m/sとする
声道の共鳴特性
Titze: Princeple of Voice Production p.147
周波数(Hz)
周波数(Hz)
声道にエネルギー損失がほとんどないと仮定した場合
実際には声道にエネルギー損失が存在し、このようになる
8
母音生成の理論(疑問その2)
声道共鳴特性について
だから の形になる!
そして
母音の生成「あ」
一様の管と比べて、第1フォルマントの周波数は上昇し、第2フォルマントは下降する。
Titze: Principle of Voice Production p.150
/a/
100Hzの声帯振動
9
母音の生成「い」
一様の管と比べて、第1フォルマントの周波数は下降し、第2フォルマントは上昇する。
Titze: Principle of Voice Production p.150
/i/
100Hzの声帯振動
母音の生成「う」
一様の管と比べて、第1フォルマントも第2フォルマントもの周波数は下降する。
Titze: Principle of Voice Production p.150
/u/
100Hzの声帯振動
10
スペクトログラム「あ」
色が濃くなる
「あ~~」
時間(s)
周波数(Hz)
色が濃くなる
「い~~」
時間(s)
周波数(Hz)
スペクトログラム「い」
11
スペクトログラム「う」
色が濃くなる
「う~~」
時間(s)
周波数(Hz)
スペクトログラム「あいうえお」
男性話者による「あいうえお」のスペクトログラム(その1)
声帯振動(基本周波数)の分析
0
1000
2000
3000
4000
5000[Hz]
a i u e o
500Hz
1500Hz
2500Hz狭帯域分析
12
スペクトログラム「あいうえお」
男性話者による「あいうえお」のスペクトログラム(その2)フォルマント周波数の分析
0
1000
2000
3000
4000
5000[Hz]
a i u e o
500Hz
1500Hz
2500Hz広帯域分析
きょうのトピック
音声からスペクトログラムへ
スペクトログラムから音声の聴取へ
カテゴリカル・パーセプション
13
スペクトログラムから音声の聴取へ
米国Haskins研究所で行われた音声の研究
大量のスペクトログラムを採り分析
子音の聞き分けには、後続母音へのF2やF3の始点の周波数が重要な役割を果たしている?
The Acoustic Analysis of Speech (R.D.Kent, C.Read)
ローカス理論へ(Delattreら,1955)
ローカス理論
The Acoustic Analysis of Speech (R.D.Kent, C.Read)
600-800 Hz
1800 Hz
3000 Hz
1300 Hz
[b]
[d]
[g]
14
ローカス理論を音声合成で検証
Pattern Playback という装置が使われた
前のスライドのようなスペクトログラムが一定の速さで送られる
光源とトーン・ホイールによって120 Hzの整数倍の正弦波が作られる
各周波数の振幅がスペクトルの濃淡パタンにより振幅(AM)変調される
→合成音声が出力上智大学 荒井先生提供の図を改変
(http://www.haskins.yale.edu/featured/patplay.html より)
きょうのトピック
音声からスペクトログラムへ
スペクトログラムから音声の聴取へ
カテゴリカル・パーセプション
15
カテゴリカル・パーセプション
Pattern Play Backによる聴取実験(刺激音)
「ことばの科学入門」より
[b] [d]
[d] [g]
b-d-g
カテゴリカル・パーセプション
Pattern Play Backによる聴取実験(結果)
「ことばの科学入門」より
[b] [d] [g]
16
Pattern Play Backによる聴取実験(刺激音)
カテゴリカル・パーセプション
r - l
「ことばの科学入門」より
[r]
[l]
Pattern Play Backによる聴取実験(結果)
カテゴリカル・パーセプション
「ことばの科学入門」より
[r] [l]
17
謝辞
講義の準備にご協力いただいた皆様
上智大学 工学部 電気・電子工学科
荒井隆行 教授
株式会社 ATR-Promotions ATR CALL事業部
山田玲子 部長
1.R
L W
2.R
L W
3.R
L W
4.R
L W
5.R
L W
6.R
L W
7.R
L W
8.R
L W
9.R
L W
10.R
L W
1.R
L W
2.R
L W
3.R
L W
4.R
L W
5.R
L W
6.R
L W
7.R
L W
8.R
L W
9.R
L W
10.R
L W
練習
11.R
L W
12.R
L W
13.R
L W
14.R
L W
15.R
L W
16.R
L W
17.R
L W
18.R
L W
19.R
L W
20.R
L W
21.R
L W
22.R
L W
23.R
L W
24.R
L W
25.R
L W
26.R
L W
27.R
L W
28.R
L W
29.R
L W
30.R
L W
31.
R L
W32
.R
L W
33.
R L
W34
.R
L W
35.
R L
W36
.R
L W
37.
R L
W38
.R
L W
39.
R L
W40
.R
L W
41.R
L W
42.R
L W
43.R
L W
44.R
L W
45.R
L W
46.R
L W
47.R
L W
48.R
L W
49.R
L W
50.R
L W
51.R
L W
52.R
L W
53.R
L W
54.R
L W
55.R
L W
56.R
L W
57.R
L W
58.R
L W
59.R
L W
60.R
L W
61.R
L W
62.R
L W
63.R
L W
64.R
L W
65.R
L W
66.R
L W
67.R
L W
68.R
L W
69.R
L W
70.R
L W
71.R
L W
72.R
L W
73.R
L W
74.R
L W
75.R
L W
76.R
L W
77.R
L W
78.R
L W
79.R
L W
80.R
L W
81.R
L W
82.R
L W
83.R
L W
84.R
L W
85.R
L W
86.R
L W
87.R
L W
88.R
L W
89.R
L W
90.R
L W
91.
R L
W92
.R
L W
93.
R L
W94
.R
L W
95.
R L
W96
.R
L W
97.
R L
W98
.R
L W
99.
R L
W10
0.R
L W
101.
R L
W10
2.R
L W
回答
用紙
ATR C
ALL
EXPERIM
ENT S
ERIE
SCate
gorical
Perc
eption