audio overview

30
Audio Overview 指指指指 指指指 指指 指指 指指指 2003/7/7

Upload: dezso

Post on 12-Jan-2016

54 views

Category:

Documents


0 download

DESCRIPTION

Audio Overview. 指導教授:蔡宗漢 博士 姓名:王怡雯 2003/7/7. Outline. Instruction Psychoacoustics Model Time-frequency analysis MPEG-1 Layers 1& 2 MPEG-1 Layers 3 MPEG-2 AAC Conclusions. 簡介. 我們平常聽到的聲音,是由物體的震動產生聲波,聲波再藉由空氣傳遞到達耳朵,並震動耳膜而形成的。 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Audio Overview

Audio Overview

指導教授:蔡宗漢 博士 姓名:王怡雯

2003/7/7

Page 2: Audio Overview

Outline

• Instruction

• Psychoacoustics Model

• Time-frequency analysis

• MPEG-1 Layers 1& 2

• MPEG-1 Layers 3

• MPEG-2 AAC

• Conclusions

Page 3: Audio Overview

簡介• 我們平常聽到的聲音,是由物體的震動

產生聲波,聲波再藉由空氣傳遞到達耳朵,並震動耳膜而形成的。

• 樂器發聲的原理也是這樣,不同的樂器會震動出不一樣的聲波波形,相同的樂器也可利用震動的快慢來產生不同的音調。以弦樂器來說,長、厚且鬆弛的弦會產生低頻的音調。

Page 4: Audio Overview

網路音樂的傳輸• 在電腦中記錄聲音,最簡單的方式就是記錄整個聲波的波形,換句話說,就是記錄在時間軸上聲波波形的振幅值(樣本值)。

• 這種記錄方式可以將任何聲音完整地記錄在電腦儲存裝置中;播放時,也是隨著時間的遞增將聲波的振幅值播放出來,就可達到原音重現的效果。

Page 5: Audio Overview

網路音樂的傳輸• 例如目前市面上最常見的記錄聲音儲存裝置 C

D ( compact disc ),其取樣頻率為 44.1 千赫( KHz ),且為雙聲道,每個樣本值儲存空間大小為 16 個位元;也就是說它每秒記錄了 44,100 乘以 2 個 16 位元大小( 1378.125 Kbps ;Kbps 為 kilo-bits persecond 的縮寫,代表每秒傳送幾千個位元的資料量)的振幅值。

• 我們都知道 CD 的音質已經可以帶給我們如同真實世界的聲音感受,但是它需要的儲存空間太大,並不適合在現今有限的網路頻寬下當成網路音樂傳輸的媒體。

Page 6: Audio Overview

音訊處理技術• 許多以訊號編碼為主的音訊壓縮方式如

MP3 、 AAC ( advanced audio coding ;MPEG 高級音頻編碼)等紛紛制定出來。

• 以我們最常見的 MP3 來說,是利用移除人類聽覺系統中聽不到的聲音,來達到高壓縮比、高音質的壓縮。透過 MP3 的壓縮方式, CD 音質的聲音可以壓縮到每秒傳輸量在 128 千位元上下,壓縮率可達 12 倍之多。

Page 7: Audio Overview

音訊編碼技術的發展• 音訊編碼的實現主要是引進聲響心理學內有關

人耳對頻率分辨與響度察覺的非線性感應,即所謂的感知型編碼。

• 其編碼流程如下:首先將音訊信號透過時頻轉換成頻域係數,同時求出人耳所能容忍失真的遮蔽臨界曲線,再據以彈性調整各個頻域係數所需要的位元數。

• 常見的時頻轉換技術包括次頻帶編碼器採用的多相濾波器組,以及轉換編碼器所採用的修正餘弦轉換。而結合兩者優點的混合轉換機制,可以進一步在各個次頻帶提供不同的頻率解析度,已經廣泛地使用於較先進的音訊編碼技術上。

Page 8: Audio Overview

音訊編碼技術的發展• 自一九九二年起,國際標準組織( ISO )的動畫專家群組( Moving Pictures Experts Group, MPEG )制定了一系列的影音編碼標準,因此,希望藉由介紹MPEG標準,使大家對音訊編碼技術的演進發展更加了解。

• MPEG-1 是第一個國際性寬頻音訊壓縮標準,可以支援三種取樣率,適用於單聲道或雙聲道的音響設備。 MPEG-1依照複雜度由低而高又可分為第一層、第二層及第三層,而壓縮比例分別為 1/ 4 、 1/8 與 1/ 12 。 MPEG-1三個層次的時頻轉換技術均以 32 個次頻帶的多相濾波器組為基礎。 MP3 數位音樂壓縮格式,即是採用 MPEG-1第三層的技術。

Page 9: Audio Overview

音訊編碼技術的發展• 近年來,大眾對於聽覺享受的要求不斷提高,適

用於 5.1 聲道環繞音效系統的 MPEG-2 也隨之出現。• 制定的目在與 MPEG-1 相容的基礎上,實現低取

樣率與多聲道擴展,但音質與壓縮效率並不如預期理想。後來為了需要而制定一個可獲得更高品質的多聲道音訊編碼標準,該標準與 MPEG-1 並不相容,稱為進階音訊編碼標準( MPEG-2 AAC ),已經應用於數位影音光碟及歐洲的數位電視廣播。

• MPEG-2 AAC 的核心技術,是利用人耳對於高頻信號較不敏感的特性,而且高頻信號本身強度的影響甚於其內容細節,許多內容細節可讓多個聲道共用,因此可以將若干聲道的高頻訊息合併為單一耦合聲道再傳遞。

Page 10: Audio Overview

音訊編碼技術的發展

• MPEG-4 與之前制定的標準並不同,不僅是壓縮資料以提升通訊網路的使用效益,更引進以內容為導向的資料處理技術,目的在實現對未來具有高度互動性的多媒體應用的廣泛支援,因此,必須符合傳輸頻寬的限制並減少通道雜訊所造成的影響。

Page 11: Audio Overview

Psychoacoustics Model

• Psychoacoustic principles

1. Absolute threshold of hearing

2. Critical bands / bandwidths

3. Tone and noise masking

Page 12: Audio Overview

Perceptual coding

• Generic perceptual audio encoding system

Analysis Filterbank

Perceptual Model

Quantization & Coding

Encoding of bitstream

Audio in

bistream out

Page 13: Audio Overview

Perceptual coding

• Generic perceptual audio decoding system

Decoding of bitstream

Inverse Quantization

Synthesis Filterbank

Audio out

bistream in

Page 14: Audio Overview

Perceptual coding

• Definitions

(1)Sound Pressure Level(SPL)

*Standard metric for intensity

*LspL= 20 log(P/P0) (dB)

* P0= 20u Pa

*150dBspL dynamic range

(2)The Bark

*One Bark is the bandwidth of one critical bnad

Page 15: Audio Overview

Absolute threshold of hearing• The ear is most sensitive to frequencies between 1 and 5

kHz, where we can actually hear signals below 0 dB.

Page 16: Audio Overview

Critical Band• MPEG/audio 將聲音信號分配成接近 critical band 的

subband ,然後依據每一個 subband 的聽覺量化雜訊程度來量化。最有效的壓縮,即是將不需要的聽覺量化雜訊移除。

Page 17: Audio Overview

Tone and noise masking

• Three basic types of masking

(1)Noise-is-Masking-Tone(NMT)

(2)Tone-is-Masking-Noise(TMN)

(3)Noise-is-Masking-Noise(NMN)

Page 18: Audio Overview

Noise-is-Masking-Tone(NMT)

• Narrowband noise is masking a tone

• Typical SMR threshold is around –5 ~ +5dB

=>Noise easily masks a tone

Page 19: Audio Overview

Tone-is-Masking-Noise(TMN)

• Tone is masking narrowband noise

• Typical SMR threshold of 21 ~ 28dB

=>Tones must have fairly high intensity to

mask noise

Page 20: Audio Overview

Masking in the frequency domain

Page 21: Audio Overview

Masking in the frequency domain

• Masking threshold:low-level signals below this threshold will not be audible.

• SMR:signal-to-mask ratio

• SNR:signal-to-noise ratio

• NMR:noise-to-mask ratio

• NMR(m)=SMR-SNR(m) (in dB)

Page 22: Audio Overview

Time-frequency analysis

• Filter banks

1. Parallel bank of bandpass filters

2. Provides explicit info on signal

distribution.

• Transforms

Page 23: Audio Overview

Filter bank types

• Uniform bandwidth M-channel

• Cosine modulated PQMF

• Cosine modulated PR M-band

• MDCT

Page 24: Audio Overview

Transform coders

• Use unitary transforms

• Good spectral resolution

• Poor temporal resolution

Page 25: Audio Overview

Quantization

• Represent outputs of filterbank by a finite number of levels.

1.Uniform quantizer

2.Non-uniform quantizer

Page 26: Audio Overview

Bit Allocation

• Allocates the total number of bits available for the quantization.

1.uniform quantizer : simply allocate the

bits for subband signals.

2.non-uniform quantizer : quantization

noise varies with respect to the input

values---quantizer not easy control.

Page 27: Audio Overview

MPEG-1 Layers 1& 2

• Filterbank divides into 32 subbands

• Psychoacoustic 512/1024 FFT

Page 28: Audio Overview

MPEG-1 Layers 3

• Filterbank a cascade of two filterbanks

• Non-uniform transform

Page 29: Audio Overview

MPEG-2 AAC

• Not compatible with MPEG-1

Page 30: Audio Overview

Conclusions

• 聲音編碼的目的,是為了進行資料壓縮,以節省傳輸時所需的頻寬與在記憶體中所占的儲存空間,同時需保證解碼端在還原後還能聽到和原來一樣的聲音。