audio overview

Audio Overview

指導教授：蔡宗漢博士姓名：王怡雯

2003/7/7

Outline

• Instruction

• Psychoacoustics Model

• Time-frequency analysis

• MPEG-1 Layers 1& 2

• MPEG-1 Layers 3

• MPEG-2 AAC

• Conclusions

簡介• 我們平常聽到的聲音，是由物體的震動

產生聲波，聲波再藉由空氣傳遞到達耳朵，並震動耳膜而形成的。

• 樂器發聲的原理也是這樣，不同的樂器會震動出不一樣的聲波波形，相同的樂器也可利用震動的快慢來產生不同的音調。以弦樂器來說，長、厚且鬆弛的弦會產生低頻的音調。

網路音樂的傳輸• 在電腦中記錄聲音，最簡單的方式就是記錄整個聲波的波形，換句話說，就是記錄在時間軸上聲波波形的振幅值（樣本值）。

• 這種記錄方式可以將任何聲音完整地記錄在電腦儲存裝置中；播放時，也是隨著時間的遞增將聲波的振幅值播放出來，就可達到原音重現的效果。

網路音樂的傳輸• 例如目前市面上最常見的記錄聲音儲存裝置 C

D （ compact disc ），其取樣頻率為 44.1 千赫（ KHz ），且為雙聲道，每個樣本值儲存空間大小為 16 個位元；也就是說它每秒記錄了 44,100 乘以 2 個 16 位元大小（ 1378.125 Kbps ；Kbps 為 kilo-bits persecond 的縮寫，代表每秒傳送幾千個位元的資料量）的振幅值。

• 我們都知道 CD 的音質已經可以帶給我們如同真實世界的聲音感受，但是它需要的儲存空間太大，並不適合在現今有限的網路頻寬下當成網路音樂傳輸的媒體。

音訊處理技術• 許多以訊號編碼為主的音訊壓縮方式如

MP3 、 AAC （ advanced audio coding ；MPEG 高級音頻編碼）等紛紛制定出來。

• 以我們最常見的 MP3 來說，是利用移除人類聽覺系統中聽不到的聲音，來達到高壓縮比、高音質的壓縮。透過 MP3 的壓縮方式， CD 音質的聲音可以壓縮到每秒傳輸量在 128 千位元上下，壓縮率可達 12 倍之多。

音訊編碼技術的發展• 音訊編碼的實現主要是引進聲響心理學內有關

人耳對頻率分辨與響度察覺的非線性感應，即所謂的感知型編碼。

• 其編碼流程如下：首先將音訊信號透過時頻轉換成頻域係數，同時求出人耳所能容忍失真的遮蔽臨界曲線，再據以彈性調整各個頻域係數所需要的位元數。

• 常見的時頻轉換技術包括次頻帶編碼器採用的多相濾波器組，以及轉換編碼器所採用的修正餘弦轉換。而結合兩者優點的混合轉換機制，可以進一步在各個次頻帶提供不同的頻率解析度，已經廣泛地使用於較先進的音訊編碼技術上。

音訊編碼技術的發展• 自一九九二年起，國際標準組織（ ISO ）的動畫專家群組（ Moving Pictures Experts Group, MPEG ）制定了一系列的影音編碼標準，因此，希望藉由介紹MPEG標準，使大家對音訊編碼技術的演進發展更加了解。

• MPEG-1 是第一個國際性寬頻音訊壓縮標準，可以支援三種取樣率，適用於單聲道或雙聲道的音響設備。 MPEG-1依照複雜度由低而高又可分為第一層、第二層及第三層，而壓縮比例分別為 1／ 4 、 1／8 與 1／ 12 。 MPEG-1三個層次的時頻轉換技術均以 32 個次頻帶的多相濾波器組為基礎。 MP3 數位音樂壓縮格式，即是採用 MPEG-1第三層的技術。

音訊編碼技術的發展• 近年來，大眾對於聽覺享受的要求不斷提高，適

用於 5.1 聲道環繞音效系統的 MPEG-2 也隨之出現。• 制定的目在與 MPEG-1 相容的基礎上，實現低取

樣率與多聲道擴展，但音質與壓縮效率並不如預期理想。後來為了需要而制定一個可獲得更高品質的多聲道音訊編碼標準，該標準與 MPEG-1 並不相容，稱為進階音訊編碼標準（ MPEG-2 AAC ），已經應用於數位影音光碟及歐洲的數位電視廣播。

• MPEG-2 AAC 的核心技術，是利用人耳對於高頻信號較不敏感的特性，而且高頻信號本身強度的影響甚於其內容細節，許多內容細節可讓多個聲道共用，因此可以將若干聲道的高頻訊息合併為單一耦合聲道再傳遞。

音訊編碼技術的發展

• MPEG-4 與之前制定的標準並不同，不僅是壓縮資料以提升通訊網路的使用效益，更引進以內容為導向的資料處理技術，目的在實現對未來具有高度互動性的多媒體應用的廣泛支援，因此，必須符合傳輸頻寬的限制並減少通道雜訊所造成的影響。

Psychoacoustics Model

• Psychoacoustic principles

1. Absolute threshold of hearing

2. Critical bands / bandwidths

3. Tone and noise masking

Perceptual coding

• Generic perceptual audio encoding system

Analysis Filterbank

Perceptual Model

Quantization & Coding

Encoding of bitstream

Audio in

bistream out

Perceptual coding

• Generic perceptual audio decoding system

Decoding of bitstream

Inverse Quantization

Synthesis Filterbank

Audio out

bistream in

Perceptual coding

• Definitions

(1)Sound Pressure Level(SPL)

*Standard metric for intensity

*LspL= 20 log(P/P0) (dB)

* P0= 20u Pa

*150dBspL dynamic range

(2)The Bark

*One Bark is the bandwidth of one critical bnad

Absolute threshold of hearing• The ear is most sensitive to frequencies between 1 and 5

kHz, where we can actually hear signals below 0 dB.

Critical Band• MPEG/audio 將聲音信號分配成接近 critical band 的

subband ，然後依據每一個 subband 的聽覺量化雜訊程度來量化。最有效的壓縮，即是將不需要的聽覺量化雜訊移除。

Tone and noise masking

• Three basic types of masking

(1)Noise-is-Masking-Tone(NMT)

(2)Tone-is-Masking-Noise(TMN)

(3)Noise-is-Masking-Noise(NMN)

Noise-is-Masking-Tone(NMT)

• Narrowband noise is masking a tone

• Typical SMR threshold is around –5 ~ +5dB

=>Noise easily masks a tone

Tone-is-Masking-Noise(TMN)

• Tone is masking narrowband noise

• Typical SMR threshold of 21 ~ 28dB

=>Tones must have fairly high intensity to

mask noise

Masking in the frequency domain

Masking in the frequency domain

• Masking threshold:low-level signals below this threshold will not be audible.

• SMR:signal-to-mask ratio

• SNR:signal-to-noise ratio

• NMR:noise-to-mask ratio

• NMR(m)=SMR-SNR(m) (in dB)

Time-frequency analysis

• Filter banks

1. Parallel bank of bandpass filters

2. Provides explicit info on signal

distribution.

• Transforms

Filter bank types

• Uniform bandwidth M-channel

• Cosine modulated PQMF

• Cosine modulated PR M-band

• MDCT

Transform coders

• Use unitary transforms

• Good spectral resolution

• Poor temporal resolution

Quantization

• Represent outputs of filterbank by a finite number of levels.

1.Uniform quantizer

2.Non-uniform quantizer

Bit Allocation

• Allocates the total number of bits available for the quantization.

1.uniform quantizer ： simply allocate the

bits for subband signals.

2.non-uniform quantizer ： quantization

noise varies with respect to the input

values---quantizer not easy control.

MPEG-1 Layers 1& 2

• Filterbank divides into 32 subbands

• Psychoacoustic 512/1024 FFT

MPEG-1 Layers 3

• Filterbank a cascade of two filterbanks

• Non-uniform transform

MPEG-2 AAC

• Not compatible with MPEG-1

Conclusions

• 聲音編碼的目的，是為了進行資料壓縮，以節省傳輸時所需的頻寬與在記憶體中所占的儲存空間，同時需保證解碼端在還原後還能聽到和原來一樣的聲音。

audio overview

Documents