audio overview
DESCRIPTION
Audio Overview. 指導教授:蔡宗漢 博士 姓名:王怡雯 2003/7/7. Outline. Instruction Psychoacoustics Model Time-frequency analysis MPEG-1 Layers 1& 2 MPEG-1 Layers 3 MPEG-2 AAC Conclusions. 簡介. 我們平常聽到的聲音,是由物體的震動產生聲波,聲波再藉由空氣傳遞到達耳朵,並震動耳膜而形成的。 - PowerPoint PPT PresentationTRANSCRIPT
Audio Overview
指導教授:蔡宗漢 博士 姓名:王怡雯
2003/7/7
Outline
• Instruction
• Psychoacoustics Model
• Time-frequency analysis
• MPEG-1 Layers 1& 2
• MPEG-1 Layers 3
• MPEG-2 AAC
• Conclusions
簡介• 我們平常聽到的聲音,是由物體的震動
產生聲波,聲波再藉由空氣傳遞到達耳朵,並震動耳膜而形成的。
• 樂器發聲的原理也是這樣,不同的樂器會震動出不一樣的聲波波形,相同的樂器也可利用震動的快慢來產生不同的音調。以弦樂器來說,長、厚且鬆弛的弦會產生低頻的音調。
網路音樂的傳輸• 在電腦中記錄聲音,最簡單的方式就是記錄整個聲波的波形,換句話說,就是記錄在時間軸上聲波波形的振幅值(樣本值)。
• 這種記錄方式可以將任何聲音完整地記錄在電腦儲存裝置中;播放時,也是隨著時間的遞增將聲波的振幅值播放出來,就可達到原音重現的效果。
網路音樂的傳輸• 例如目前市面上最常見的記錄聲音儲存裝置 C
D ( compact disc ),其取樣頻率為 44.1 千赫( KHz ),且為雙聲道,每個樣本值儲存空間大小為 16 個位元;也就是說它每秒記錄了 44,100 乘以 2 個 16 位元大小( 1378.125 Kbps ;Kbps 為 kilo-bits persecond 的縮寫,代表每秒傳送幾千個位元的資料量)的振幅值。
• 我們都知道 CD 的音質已經可以帶給我們如同真實世界的聲音感受,但是它需要的儲存空間太大,並不適合在現今有限的網路頻寬下當成網路音樂傳輸的媒體。
音訊處理技術• 許多以訊號編碼為主的音訊壓縮方式如
MP3 、 AAC ( advanced audio coding ;MPEG 高級音頻編碼)等紛紛制定出來。
• 以我們最常見的 MP3 來說,是利用移除人類聽覺系統中聽不到的聲音,來達到高壓縮比、高音質的壓縮。透過 MP3 的壓縮方式, CD 音質的聲音可以壓縮到每秒傳輸量在 128 千位元上下,壓縮率可達 12 倍之多。
音訊編碼技術的發展• 音訊編碼的實現主要是引進聲響心理學內有關
人耳對頻率分辨與響度察覺的非線性感應,即所謂的感知型編碼。
• 其編碼流程如下:首先將音訊信號透過時頻轉換成頻域係數,同時求出人耳所能容忍失真的遮蔽臨界曲線,再據以彈性調整各個頻域係數所需要的位元數。
• 常見的時頻轉換技術包括次頻帶編碼器採用的多相濾波器組,以及轉換編碼器所採用的修正餘弦轉換。而結合兩者優點的混合轉換機制,可以進一步在各個次頻帶提供不同的頻率解析度,已經廣泛地使用於較先進的音訊編碼技術上。
音訊編碼技術的發展• 自一九九二年起,國際標準組織( ISO )的動畫專家群組( Moving Pictures Experts Group, MPEG )制定了一系列的影音編碼標準,因此,希望藉由介紹MPEG標準,使大家對音訊編碼技術的演進發展更加了解。
• MPEG-1 是第一個國際性寬頻音訊壓縮標準,可以支援三種取樣率,適用於單聲道或雙聲道的音響設備。 MPEG-1依照複雜度由低而高又可分為第一層、第二層及第三層,而壓縮比例分別為 1/ 4 、 1/8 與 1/ 12 。 MPEG-1三個層次的時頻轉換技術均以 32 個次頻帶的多相濾波器組為基礎。 MP3 數位音樂壓縮格式,即是採用 MPEG-1第三層的技術。
音訊編碼技術的發展• 近年來,大眾對於聽覺享受的要求不斷提高,適
用於 5.1 聲道環繞音效系統的 MPEG-2 也隨之出現。• 制定的目在與 MPEG-1 相容的基礎上,實現低取
樣率與多聲道擴展,但音質與壓縮效率並不如預期理想。後來為了需要而制定一個可獲得更高品質的多聲道音訊編碼標準,該標準與 MPEG-1 並不相容,稱為進階音訊編碼標準( MPEG-2 AAC ),已經應用於數位影音光碟及歐洲的數位電視廣播。
• MPEG-2 AAC 的核心技術,是利用人耳對於高頻信號較不敏感的特性,而且高頻信號本身強度的影響甚於其內容細節,許多內容細節可讓多個聲道共用,因此可以將若干聲道的高頻訊息合併為單一耦合聲道再傳遞。
音訊編碼技術的發展
• MPEG-4 與之前制定的標準並不同,不僅是壓縮資料以提升通訊網路的使用效益,更引進以內容為導向的資料處理技術,目的在實現對未來具有高度互動性的多媒體應用的廣泛支援,因此,必須符合傳輸頻寬的限制並減少通道雜訊所造成的影響。
Psychoacoustics Model
• Psychoacoustic principles
1. Absolute threshold of hearing
2. Critical bands / bandwidths
3. Tone and noise masking
Perceptual coding
• Generic perceptual audio encoding system
Analysis Filterbank
Perceptual Model
Quantization & Coding
Encoding of bitstream
Audio in
bistream out
Perceptual coding
• Generic perceptual audio decoding system
Decoding of bitstream
Inverse Quantization
Synthesis Filterbank
Audio out
bistream in
Perceptual coding
• Definitions
(1)Sound Pressure Level(SPL)
*Standard metric for intensity
*LspL= 20 log(P/P0) (dB)
* P0= 20u Pa
*150dBspL dynamic range
(2)The Bark
*One Bark is the bandwidth of one critical bnad
Absolute threshold of hearing• The ear is most sensitive to frequencies between 1 and 5
kHz, where we can actually hear signals below 0 dB.
Critical Band• MPEG/audio 將聲音信號分配成接近 critical band 的
subband ,然後依據每一個 subband 的聽覺量化雜訊程度來量化。最有效的壓縮,即是將不需要的聽覺量化雜訊移除。
Tone and noise masking
• Three basic types of masking
(1)Noise-is-Masking-Tone(NMT)
(2)Tone-is-Masking-Noise(TMN)
(3)Noise-is-Masking-Noise(NMN)
Noise-is-Masking-Tone(NMT)
• Narrowband noise is masking a tone
• Typical SMR threshold is around –5 ~ +5dB
=>Noise easily masks a tone
Tone-is-Masking-Noise(TMN)
• Tone is masking narrowband noise
• Typical SMR threshold of 21 ~ 28dB
=>Tones must have fairly high intensity to
mask noise
Masking in the frequency domain
Masking in the frequency domain
• Masking threshold:low-level signals below this threshold will not be audible.
• SMR:signal-to-mask ratio
• SNR:signal-to-noise ratio
• NMR:noise-to-mask ratio
• NMR(m)=SMR-SNR(m) (in dB)
Time-frequency analysis
• Filter banks
1. Parallel bank of bandpass filters
2. Provides explicit info on signal
distribution.
• Transforms
Filter bank types
• Uniform bandwidth M-channel
• Cosine modulated PQMF
• Cosine modulated PR M-band
• MDCT
Transform coders
• Use unitary transforms
• Good spectral resolution
• Poor temporal resolution
Quantization
• Represent outputs of filterbank by a finite number of levels.
1.Uniform quantizer
2.Non-uniform quantizer
Bit Allocation
• Allocates the total number of bits available for the quantization.
1.uniform quantizer : simply allocate the
bits for subband signals.
2.non-uniform quantizer : quantization
noise varies with respect to the input
values---quantizer not easy control.
MPEG-1 Layers 1& 2
• Filterbank divides into 32 subbands
• Psychoacoustic 512/1024 FFT
MPEG-1 Layers 3
• Filterbank a cascade of two filterbanks
• Non-uniform transform
MPEG-2 AAC
• Not compatible with MPEG-1
Conclusions
• 聲音編碼的目的,是為了進行資料壓縮,以節省傳輸時所需的頻寬與在記憶體中所占的儲存空間,同時需保證解碼端在還原後還能聽到和原來一樣的聲音。