課題1...
TRANSCRIPT
1
課題1
「サンプリング周波数」の解答
課題1 「サンプリング周波数」
(1) 以下に示す信号のサンプリング周波数値を調べよ.また,その値としている合理的な設定理由を述べよ. オーディオCD: ? kHz
音声通話(固定電話,携帯電話) ? kHz
様々な音声信号処理でのサンプリング周波数
音声通話(固定電話,携帯電話): 8kHz
Skype: 16KHz (状況により可変)
オーディオCD: 44.1KHz
DVDオーディオ音声: 48KHz
MP3: 最大48KHz (可変)注:ビットレートが規定 64kbps~320kbps
WAV: ビットレートが規定 1411Kbps
PCの音声処理: 44.1kHz~192kHz (標準48kHz)
ハイレゾオーデイオ: 48k, 96k, 192kHz3
4
(補足)ビットレート(bps)
ビットレート(ビット速度,bit rate) 一秒間にシステムで処理されるデジタル信号のビット数
単位: [bps] (bit per sec), [ビット/秒]
例: 2CHオーディオ信号を,44.1KHzのサンプリング周波数,16ビットの量子化数でデジタル化した場合のビットレートは?
44.1x103x2x16 = 1536000 = 1411.2kbps
信号処理システムのbps値の例 MP3: 320kbps(最大), AACオーディオ:256kbps(最大)
Wav: 1411kbps
ワンセグ動画:128kbps,地デジHD放送画像:15Mbps
スマホ(LTEデータ通信)75-100Mbps(理論値),??(実際)
5
問題1(1) 解答 可聴域のテスト
(正弦波を44.1kHzでサンプリング)
15Hz
27.5Hz (ピアノの最低音)
50Hz
100Hz
440Hz(時報の低い音)
880Hz (時報の高い音)
4096Hz(ピアノの最高音)
6000Hz
10000Hz
12000Hz
13000Hz
14000Hz
15000Hz
22050Hz (CDで再生可能な最大周波数)
色々な動物の可聴域(「立体視の不思議を探る」 井上弘著 オプトロニクス社より )
6
演習問題 問題1(1) 解答 音声信号の周波数帯域(可聴域)は、個人差や年齢差もあるが、大体 20Hz~20,000Hz (20kHz)と言われている。
従って可聴域の最高周波数が、ほぼ20kHz となるため、ナイキスト周波数は2×20kHz=40kHz である。
デジタルオーディオ装置開発当初,当時のVTRの映
像記録部を流用し,オーディオ信号を録音しようとした.その映像信号のサンプリング周波数が44.1kHzであったため,CDのサンプリング周波数に流用された.
((社)日本音響学会HPより http://www.asj.gr.jp/qanda/answer/3.html)
7
演習問題 問題1(1) 解答 MPEG-1 Audio Layer-3(いわゆるMP3)は,映像データ圧縮方式のMPEG-1で利用される音声圧縮方式の
一つ。人間が聞き取りくい音声、不可聴帯域を圧縮し,音質を大きく損なうことなく約1/10に圧縮している.
CD, MP3いずれのサンプリング周波数も,可聴域の最
高周波数を再現可能なナイキスト周波数である約40kHzを超え,サンプリング後のデータ量が不要に増加しないことを考慮し,44.1~48kHzが用いられている。
MP3のサンプリング周波数は,周波数特性を犠牲にしても,データ量削減を優先したい場合もあるため,16K, 32K,22.05K, 24KHz なども選択可
8
演習問題 問題1(1) 解答
ハイレゾ音源従来の音楽用CDのサンプリング周波数・量子化ビット数(44.1キロヘルツ・16ビット)を上回る、48kHzまたは96kHz・24ビット以上のデジタル音楽データ.192kHz/24ビットのデータもあり.
スタジオ録音と同じサンプリング周波数仕様
2013年頃から対応商品が市販化
原理的には,従来音源との違いを人間が識別できないはずであるが,官能検査では音の良さ,響き,心地よさなどの違いが,一部の被験者では識別可能という結果も得られており,更なる科学的な解明が待たれている.(http://app-review.jp/news/224212)
9
課題1(1) 解答(つづき)
日本語5母音のホルマントの位置(㈱沖電気Web,「声の種類と発生のしくみ」http://www.oki.com/jp/rd/ss/speech.htmlより)
人間の声の周波数は,声帯・声道の効果により定まる.
声帯の振動周期が『ピッチ』(声の高さ)を与える.
声道の形が『ホルマント』(声の種類)を与える.
ホルマントは複数個発生し、周波数の低い方から第1ホルマント(F1)、第2ホルマント(F2)、第3ホルマント(F3)で構成される。この複数のホルマントによって声の種類(音色)が決まる.
母音の第2フォルマント(F2)の最高周波数3.0KHz, 子音の最高周波数は5.0~7.0KHz程度である.
通信が可能となる音声の下限の最高周波数は3.5kHz程度(少なくとも母音が正しく伝わ
る)となるため、きりのよいナイキスト周波数として8kHz が選ばれている.
10
日本語音声(母音)の波形とスペクトル例
「あ」の波形例
「あ」の振幅スペクトルF1
F2
F3
フォルマントは,スペクトル自身のピークではなく,ピークを滑らかに補間した曲線( )の極大点となります
「い」の波形例
「い」の振幅スペクトルF1
F2(F3)
日本語音声(子音)の波形例
11
「し」の波形 「ち」の波形
子音部 子音部 母音部母音部
「音声認識~周波数スペクトルで音素を判別」http://www.geocities.jp/myonsei/index.html
12
子音の最高周波数は5KHzを超えること
もあるため,周波数の特に高い母音+子音の組みあわせ音(例えば「し」や「ち」の音,最高7KHz程度)は電話で正しく伝わらない場合が多い.
「し」の子音部のスペクトル 「ち」の子音部のスペクトル
4700Hz4100Hz「音声認識~周波数スペクトルで音素を判別」http://www.geocities.jp/myonsei/index.html
13
問題1(1) 解答 可聴域のテスト
(正弦波を44.1kHzでサンプリング)
15Hz
27.5Hz (ピアノの最低音)
50Hz
100Hz
440Hz(時報の低い音)
880Hz (時報の高い音)
4096Hz(ピアノの最高音)
6000Hz
10000Hz
12000Hz
13000Hz
14000Hz
15000Hz
22050Hz (CDで再生可能な最大周波数)
色々な動物の可聴域(「立体視の不思議を探る」 井上弘著 オプトロニクス社より )
14
演習問題 問題1(1) 解答 音声信号の周波数帯域(可聴域)は、個人差や年齢差もあるが、大体 20Hz~20,000Hz (20kHz)と言われている。
従って可聴域の最高周波数が、ほぼ20kHz となるため、ナイキスト周波数は2×20kHz=40kHz である。
デジタルオーディオ装置開発当初,当時のVTRの映
像記録部を流用し,オーディオ信号を録音しようとした.その映像信号のサンプリング周波数が44.1kHzであったため,CDのサンプリング周波数に流用された.
((社)日本音響学会HPより http://www.asj.gr.jp/qanda/answer/3.html)
15
演習問題 問題1(2) 解答(2) 量集センタ壁面を,1600x900程度の解像度で,クロ
ーズアップ撮影した画像と,駐車場から離れて撮影した画像とを夫々レポートに記載し,なぜ離れて撮影した画像には縞が現れたのか理由を,サンプリング周波数の観点から簡単に説明せよ.
→ ディジタル画像での「エリアシング」の発生が理由
15
情報棟
量集センタ
クローズアップ画像
離れて撮影した画像
壁のタイル模様
⽩⿊2値周期関数
t0
1
タイル模様の横⽅向輝度変化の周期関数近似
𝑇2
𝑇2
𝑇 50 mm
𝑇 𝑇 22.5 mm
⽩
⿊
18
フーリエ級数の計算例
20
1
01
1
TtT
Tttx
0
0.5
1
t [ ]
x (t
)
0-T0
T0
周期 T0
-T1 T1
20T
10
10
0
1
00
10
00
00
0
2
20
00
sin2
sin2
2
2
1
11
1
1
1010
1
1
0
1
1
0
0
0
0
0 0
Tk
Tk
T
T
Tk
Tk
j
ee
Tk
eTjk
dteT
dtetxT
dtetxT
C
TjkTjk
T
T
tjk
T
Ttjk
T
Ttjk
T tjkk
• でも
x(t)は1周期
2200 T
tT
020
1
tx
TtT で
20T t
19
タイル模様の複素フーリエ級数展開
k
k
Tk
TkCk
9.0sin
sin2
00
10
𝑇 50 mm ,𝑇 22.5 mm , Ω 𝑚𝑚
9.02
0
10
T
TC
のとき0)1 k
のとき0)2 k𝑘
1 0.971
2 0.923
3 0.847
4 0.747
5 0.628
6 0.498
7 0.363
8 0.231
基本⾓周波数Ω の7倍程度の⾼周波数成分もタイル模様に相当含まれる
エリアシングが起きる撮影距離の⾒積
20
タイル模様幅
𝑇
レンズ𝐿 𝐹
撮像⾯
𝑇 ′
𝑇 ︓タイル模様幅𝑇 ′ ︓撮像⾯上模様幅𝐿 ︓撮影距離𝐹 : レンズ焦点距離∆ : 撮像⾯1画素⼨法
∆
タイル模様幅𝑇 の,カメラ撮像⾯上での投影幅𝑇 は,𝑇
𝐹𝐿
𝑇
となる.スマホカメラの焦点距離𝐹 3.0 𝑚𝑚 , 模様幅 𝑇 50 𝑚𝑚 であるので,投影幅 𝑇 は,
𝑇150
𝐿𝑚𝑚
⼀⽅,撮像⾯上の1画素の⼨法∆は,撮影画像の横⽅向解像度1920,撮像素⼦⼨法4.8[mm]より
∆ =4.8
1920=2.5 10 𝑚𝑚
よって,撮像⾯上の画像のサンプリング周波数 𝑓 は,𝑓
1∆
12.5 10
0.4 10 𝑚𝑚
⼀⽅,撮像⾯上でのタイル模様幅𝑇 𝑚𝑚 なので撮像⾯上の模様の基本周波数は 𝑚𝑚 ,その最⼤周波数 𝑓 は, 先述の 𝐶 の分析より,基本周波数の7倍程度と推察されるので
𝑓 7𝐿
150 𝑚𝑚
サンプリング定理より 𝑓 2𝑓 の時,エリアシングが発⽣する.すなわちエリアシングが発⽣する撮影距離𝐿 は0.4 10 2 7 ∴ 𝑳 𝟒. 𝟑 𝟏𝟎𝟑 𝒎𝒎
4.3m以上離れて撮影すると,画像にエリアシングが発⽣する可能性が⾼い.
21
実際の撮影画像 ( )
22
実際の撮影画像 ( )
23
実際の撮影画像 ( )
24
実際の撮影画像 ( )
25
実際の撮影画像 ( )
不適切な解答の例 タイルの格⼦幅>デジタル化する幅 離れて撮影するとサンプリング周波数が⼩さくなり.. 格⼦周波数が,カメラのサンプリング周波数と⼀致したので.. 限界周波数を超えた... 壁のサンプリング周期の差 空間周波数>ナイキスト周波数のため 周期 > ナイキスト周波数のため サンプリング周波数 > 画像の最⾼周波数の2倍のため (理由を述べずに)サンプリング時にエリアシングが発⽣したため 画素の細かさが,レンガの細かさより⼤きいので....正解︓ 遠くから撮影することで,(画像のサンプリング周波数)<(撮像⾯上での縞の最⾼空間周波数の2倍(ナイキスト周波数)となり,エリアシングが発⽣したため 26