chapter 2

29
MULTIMEDIA MULTIMEDIA MULTIMEDIA Lecturer: Nguyen Duy Nhat Vien July, 2006. N N I DUNG I DUNG TỔNG QUAN KỸ THUẬT AUDIO KỸ THUẬT VIDEO

Upload: tran-anh-duc

Post on 10-Dec-2014

12 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Chapter 2

MULTIMEDIAMULTIMEDIAMULTIMEDIA

Lecturer: Nguyen Duy Nhat Vien

July, 2006.

NNỘỘI DUNGI DUNG

• TỔNG QUAN

• KỸ THUẬT AUDIO

• KỸ THUẬT VIDEO

Page 2: Chapter 2

KKỹỹ thuthuậật Audiot Audio

NNộội dungi dung

• GIỚI THIỆU• MÃ HOÁ AUDIO CẢM QUAN• PHÂN TÍCH TÂM LÝ ÂM HỌC• KỸ THUẬT NÉN AUDIO• MPEG-1• MPEG-2• AC-3 (DOLBY DIGITAL)• APT-X100• MÃ HOÁ ÂM THANH NỔI

Page 3: Chapter 2

GiGiớới thii thiệệuu

• Âm thanh:• Dạng lan truyền của sóng trong không gian,

• Sóng âm khi ñến tai người nghe, ñập vào màng nhĩ, làm cho người ñócảm nhận ñược sự rung ñộng này

• Con người có khả năng phân biệt với các âm thanh khác dựa vào một số ñặc tính như tần số, nhịp ñiệu, mức áp lực...

• Mục ñích của các hệ thống audio:• Xử lý, tạo hiệu ứng, nén tín hiệu audio từ tín hiệu thu nhận từ nguồn.

• Audio số:• Chuỗi các giá trị số ñược biểu diễn bằng mức âm thanh theo thời gian.

ỨỨng dng dụụngng

• Các hệ thống thông tin không dây: – Truyền hình phân giải cao (HighDensity TV HDTV), Âm thanh quảng

bá số (Digital Broadcast Audio DBA), Vệ tinh quảng bá trực tiếp (Digital Broadcast Satelite DBS).

• Các môi trường mạng: – Âm thanh theo yêu cầu (chuyển mạch gói, Internet), Truyền hình cáp

(CATV) các tuyến studio.

• Các ứng dụng ña môi trường:– CD-R, ðĩa ña năng số (DVD).

• Cinema:– Dolby AC-3 (5 kênh, @384kbps), APT-x100.

• Lưu trữ khối:– MiniDisc, DCC.

Page 4: Chapter 2

Audio sAudio sốố

• Hệ thống audio tương tự và số• Hệ thống audio tương tự, việc xử lý tín hiệu gặp phải một số vấn ñề

như khả năng của linh kiện (về mặt tần số), lưu trữ, phức tạp... từ ñóméo phi tuyến cao, SNR bé.

• Hệ thống audio số, việc thu nhận, hiệu chỉnh, xử lý và phát lại trở nên dễ dàng hơn rất nhiều. Các kỹ thuật tổng hợp và nhận dạng phát triển một cách nhanh chóng, tương thích máy tính và con người trở nên phong phú hơn.

• Ưu ñiểm của audio số là: ðộ méo tín hiệu nhỏ (0,01%), Dải ñộng âm thanh lớn gần mức tự nhiên (>90dB), Dải tần rộng hơn (20Hz ñến 20kHz), ðáp tuyến tần số bằng phẳng, Cho phép ghi âm nhiều lần màkhông giảm chất lượng, Thuận tiện lưu trữ, xử lý, Tăng dung lượng kênh truyền, Khả năng xử lý bằng hệ phi tuyến

QuQuáá trtrìình thu nhnh thu nhậận audio sn audio sốố

Hình 2-1 Quá trình thu nhận âm thanh số

Tín hiệu vào tương tự

L

Tín hiệu vào tương tự

R

Khuếch ñạituyến tính

TạoDither

Lấy vàgiữ mấu

Lọc thôngthấp

Mãhóa

Khuếch ñạituyến tính

Lấy vàgiữ mấu

Lọc thôngthấp

Mãhóa

Ghépkênh

Xử lýTín hiệu ra số

Page 5: Chapter 2

LLấấy my mẫẫu vu vàà lư lượợng tng tửử hohoáá

• Lấy mẫu và giữ mức:Lấy mẫu là quá trình rời rạc hóa tín hiệu về mặt thời gian và giữ cho biên

ñộ trong khoảng thời gian lấy mẫu không ñổi.

• Lượng tử hóa:Lượng tử hóa là quá trình rời rạc tín hiệu về mặt biên ñộ. Tại mỗi mẫu,

biên ñộ ñược chia thành các mức gọi là các mức lượng tử

Hình 2-2 Lấy giữ mẫu và lượng tử

Tín hiệu vào Lượng tử

DitherDither

• Nguyên nhân: Lượng tử hóa � méo. Tín hiệu có biên ñộ càng nhỏ thìméo lượng tử càng cao.

• Khắc phục: Cộng âm thanh trước khi lấy mẫu với một tạp âm tương tự �

Ngẫu nhiên hóa các ảnh hưởng méo lượng tử ñể phân phối ñều méo lượng tử thành các lỗi ngẫu nhiên chứ không tập trung nhiều vào phần có biên ñộthấp.

• Khái niệm: Dither là một nhiễu ñược cộng vào tín hiệu âm thanh.• Mục ñích: Loại bỏ méo lượng tử.• Cơ sở: Dither làm cho tín hiệu âm thanh bị biến ñổi giữa các mức lượng tử

gần nhau, ñiều này làm giảm ñộ tương quan của lượng tử hóa tín hiệu, loại các ảnh hưởng của lỗi và mã hóa các biên ñộ tín hiệu thấp hơn một mức lượng tử.

• Nhược ñiểm: Cộng nhiễu vào tín hiệu.

Page 6: Chapter 2

DitherDither

Hình 2-3 Dither và không ditherDither

Tín hiệu gốc

Tín hiệu lấy mẫu

Không dither

Tín hiệu gốc

Tín hiệu lấy mẫu

Tín hiệu sau khi lọcTín hiệu sau khi lọc

Mã hMã hóóa va vàà mã hmã hóóa kênha kênh

• Mã hoá– là quá trình chuyển các mức rời rạc thành một chuỗi các mẫu số nhị

phân (hoặc các hệ ñếm khác) theo một quy luật nhất ñịnh.

– Sau mã hóa nhị phân, ta ñược tín hiệu ñiều xung mã PCM.

– Tín hiệu PCM không thích hợp ñể lưu trữ hoặc truyền dẫn vì vẫn còn tồn tại thành phần một chiều � mã hóa kênh.

• Mã hóa kênh – biến ñổi dữ liệu với mục ñích ñạt ñược mật ñộ bit cao trong giới hạn

băng thông của kênh truyền.

– Giảm sự tổn hao trong khi truyền hoặc lưu trữ.

– Cải thiện dải thông, dữ liệu truyền dẫn có ñặc tính tối ưu.

– Làm cho phổ tín hiệu âm thanh số ít méo.

Page 7: Chapter 2

GhGhéép kênhp kênh

– Tín hiệu âm thanh số thường bao gồm nhiều kênh, ví dụ hệthống âm thanh 5.1 gồm các kênh trái, phải, trung tâm, trái vòm, phải vòm và siêu trầm, ngoài ra còn có các tín hiệu mã phụ, mã ñồng bộ…

– Nguyên lý ghép kênh có thường ñược áp dụng ñó là ghép kênh phân chia theo thời gian, mỗi kênh sử dụng một khe thời gian ñược ấn ñịnh trước.

L

R

L R

Ghép kênh L+R

Hình 2-4 Ghép kênh tín hiệu audio

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• Giới thiệuMục ñích:

Biểu diễn chuỗi số ngắn gọn.Tốc ñộ bit thấp.Chất lượng cao

ðộng cơ:Giảm tốc ñộ dữ liệu.Giảm chi phí truyền dẫn (BW).Giảm các yêu cầu lưu trữ.Mạnh.

Các yêu cầu:Cảm nhận trong suốt.ðộc lập nguồn.Có khả năng ña kênh.ðộ phức tạp bất ñối xứng.ðộ trễ hợp lý.

Page 8: Chapter 2

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

Mã hoá nguồn không thực tế với tín hiệu audio, do ñó, trong audio, người ta tiến hành- Khai thác các ñặc tính thu ñược.

- Loại bỏ các thành phần không thích hợp với cảm nhận.

- Giảm các dư thừa thống kê.

Thoại AudioBăng thông 200-3400Hz 20Hz-20kHzTốc ñộ lấy mẫu 8kHz 44.1kHz/48kHzSố bits trên mẫu 8bits 16+bitsTốc ñộ bit thô 64kbps 768kbpsSố kênh 1 1-6+kênhMô hình hiệu quả nguồn Có KhôngSức chịu ñựng nguồn Có thể yêu cầu Yêu cầuChất lượng mong ñợi Méo do bị giới hạn Chất lượng “CD”Tính ña dạng của phổ Harmonic, V/UV/TR Không thể phân loại

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• Các tiêu chuẩn lấy mẫu theo các yêu cầu cụ thể khác nhau- Chất lượng.

- ðộ trễ.

- Băng thông.

- Tốc ñộ

20Khz192.0 kbytes/sStereo16 bits/mẫu48 kHzDAT

20kHz176.4 kbytes/sStereo16 bits/mẫu44.1 kHzCD

10kHz88.2 kbytes/sStereo16 bits/mẫu22.05 kHzFM radio

5kHz11.0 kbytes/sMono8 bits/mẫu11.025 kHzAM radio

4Khz8 kbytes/sMono8 bits/mẫu8 kHzðiện thoại

Băng tầnTốc ñộMono/stereoSố bits/mẫuTốc ñộ lấymẫu

Tiêu chuẩn

Page 9: Chapter 2

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

� Băng lọc số:Băng lọc số là một tập hợp các bộ lọc số có chung ñầu vào nhiều ñầu ra hoặc chung ñầu ra nhiều ñầu vào.Băng lọc số phân tích là tập hợp các bộ lọc số có ñáp ứng tần số Hk(e

jω) có chung ñầu vào và nhiều ñầu ra

Ngõ ra gồm M tín hiệu Xk(n) chiếm dải tần liên tiếp nhau gọi là các tín hiệu băng con (subband).Các bộ lọc H0(e

jω): thông thấp, HM-1(ejω): thông cao, Hi(e

jω): thông dải, với i từ 1 ñến M-2

H0(ejω)

H1(ejω)

HM-1(ejω)

X0(ejω)

X1(ejω)

XM-1(ejω)

x0(n)

x1(n)

xM-1(n)

x(n)

X(ejω)

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUANBăng lọc số tổng hợp: Là tập hợp các bộ lọc số có ñáp ứng tần số Gk(e

jω) có chung ñầu ra

Các bộ lọc : G0(ejω): thông thấp, GM-1(e

jω): thông cao, Gi(ejω): thông dải, với i từ 1

ñến L-2Băng lọc số nhiều nhịp hai kênh và băng lọc gương cầu phương QMF (Quadrature Mirror Filter Bank):Băng lọc số nhiều nhịp là sự kết hợp của băng lọc số phân tích, băng lọc số tổng hợp với bộ phân chia và bộ nội suy. Với số bộ lọc của băng lọc phân tích và tổng hợp bằng 2 thì ta có băng lọc số nhiều nhịp hai kênh.

G0(ejω)

G1(ejω)

GL-1(ejω)

X0(ejω)

X1(ejω)

XL-1(ejω)

x0(n)

x1(n)

xL-1(n)x(n)

X(ejω)

+

+

Page 10: Chapter 2

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• H0(ejω), G0(ejω) :Lọc thông thấp. H1(ejω), G1(ejω) :Lọc thông cao.

• Lý tưởng:

• Nếu |H0(ejω)|=|H1(ejω)| và nếu chọn tần số cắt cho 2 bộ lọc là π/2 thì ta thấy |H0(ejω)|là ảnh của |H1(ejω)| qua gương ñặt ở vị trí π/2. Băng lọc nhiều nhịp hai kênh với ñặc tính như vậy gọi là băng lọc gương cầu phương.

• Nếu giống dạng tín hiệu ngõ vào thì ta gọi là băng lọc gương cầu phương khôi phục hoàn hảo PRQMF (Perfect Reconstructure QMF)

0ˆ( ) ( )x n cx n n= −

H0(ejω) ↓2 ↑2 G0(e

jω)

H1(ejω) ↓2 ↑2 G1(e

jω) +

x(n) x0(n)

x1(n)

v0(n)

v1(n) y1’(n)

ˆ( )x n

y0’(n)y0(n)

y1(n)

ˆ( ) ( )x n x n=

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• Mã hoá băng con và cấu trúc bộ lọc QMF– Mã hoá băng con

• Sử dụng bộ lọc số ñể mã hoá băng con

• Thuận lợi cho việc nén tín hiệu âm thanh vì phổ tập trung không ñồng ñều. Từ ñó, ta có ñược sự phân bố hợp lý, vừa hiệu quả, vừa ñạt chất lượng cao.

H0(ejω) ↓2 ↑2 G0(e

jω)

H1(ejω) ↓2 ↑2 G1(e

jω) +

x(n) x0(n)

x1(n)

v0(n)

v1(n) y1’(n)

ˆ( )x n

y0’(n)y0(n)

y1(n)

v0(n)

v1(n)

Kênh truyền dẫn

Mã hoá Giải mã

Page 11: Chapter 2

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• Cấu trúc dạng cây ñơn phân giải

H01(ejω) ↓2

H11(ejω) ↓2

x(n)

H020(ejω) ↓2

H120(ejω) ↓2

H021(ejω) ↓2

H121(ejω) ↓2

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• Cấu trúc dạng cây ña phân giải– Cấu trúc này cho ta lượng bit ngõ ra tối ưu và phù thuộc

vào sự phân bố phổ của tín hiệu.

H01(ejω) ↓2

H11(ejω) ↓2

x(n)

H020(ejω) ↓2

H120(ejω) ↓2

Page 12: Chapter 2

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• Các phương pháp mã hoá chuyển ñổi– FFT (Fast Fourier Transform)

– DFT (Discrete Fourier Transform)

– DCT (Discrete Cosine Transform)

– MDCT (Modified DCT)

– Wavelets.

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• DCT (Discrete Cosine Transform) DCT là phép biến ñổi trực giao, một thuật toán hiệu quả, cho các ñặc tính nén

mạnh và giảm ñộ tương quan.Chuyển ñổi DCT thuận:

Chuyển ñổi DCT ngược

−≤<

==∆

−=+

∆=∑−

=

10,2

;0,1

)(

1,..0,2

)12(cos)()()(

1

0

NnN

nNn

NkN

knnxnkX

N

n

π

−≤<

==∆

−=+

∆=∑−

=

10,2

;0,1

)(

1,..,0,2

)12(cos)()()(

1

0

NnN

nNn

NnN

knkXnnx

N

k

π

Page 13: Chapter 2

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• MDCT (Modified DCT): DCT ñược hiệu chỉnh.MDCT là phép biến ñổi trực giao tuyến tính ñược hiệu chỉnh từ DCT.MDCT thuận:

Và chuyển ñổi MDCT ngược (IMDCT):

Với p(x) là hàm cửa sổ sin ñược xác ñịnh:

• WaveletsWavelets có thể ñược xem như một bộ phân tích băng con, với cây không cân

bằng, nghĩa là các tần số ñược chia một cách không ñồng nhất. Vậy, băng lọctương ñồng với dải tới hạn.

( ) sin( )x

p xN

π=

1

0

( ) ( ) ( ) os (2 1 )(2 1) ; 0,.., 1; 0,.., 1.2N 2 2

N

n

N NX k p n x n c n k n N k

π−

=

= + + + = − = − ∑

.12

,..,0;1,..,0,)12)(2

12(2

cos)()(4

)(

12

0

−=−=

+++= ∑−

=

NkNnk

Nn

NkXnp

Nnx

N

k

π

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• DWT (Discrete Wavelet Transform)Mở rộng và dịch chuyển “hàm mẹ” h(t) bằng cách ñịnh nghĩa một cơ sở trực

giao, wavelet cơ sở:

Trong ñó: n là tỷ lệ, m là ñộ dời và t là thời gian. Hệ số tỷ lệ n chỉ thị ñộ rộng của các wavelet và hệ số vị trí m xác ñịnh vị

trí của nó. Với hàm mẹ h(t), ta ñược một tập hàm wavelet trực giao cơ sở.

Trực giao:

f(t), g(t) là hai vector thuộc không gian L2(a,b). t∈∈∈∈[a,b].

Hai vector gọi là trực giao khi tích vô hướng của chúng bằng 0.

( )/ 2. ( ) 2 2m m

n mh t h t n− −= −

∫ =>=<b

adttgtftgtf 0)()()(),( *

Page 14: Chapter 2

MÃ HOMÃ HOÁÁ AUDIO CAUDIO CẢẢM QUANM QUAN

• Cơ sở trực giao:

Tập các vector {vk}={v1,v2, …,vn} ñược gọi là cơ sở trực giao nếu chúng trựcgiao từng ñôi một và có ñộ dài bằng 1.

<vm,vn>=δδδδmn. Hay:

•Hàm delta:

Chuyển ñổi Wavelet:

Chuyển ñổi wavelet ngược:

.)(*)( kll

b

a

k dtthth δ=∫

==

lk

lkkl ,0

,1δ

∑== *,, )(),( mnmn htxcmnXω

∑∑+∞

∞−

+∞

∞−

= )()( ,. thctx mnmn

PHÂN TPHÂN TÍÍCH TÂM LÝ ÂM HCH TÂM LÝ ÂM HỌỌCC

• Hệ thống thính giác của con người– ðược chú trọng khai thác trong mã hoá audio cảm quan.– Con người có thể nghe trong dải 20Hz ñến 20kHz với khả năng nghe không

ñồng nhất với các tần số trong dải này. Việc cảm nhận còn phụ thuộc vào mứcáp lực và tuỳ thuộc vào từng người.

– Dải 20Hz÷20kHz ñược chia thành các dải con không ñồng nhất và không tuyếntính. Cảm nhận tốt trong khoảng 2kHz ñến 4kHz và ngưỡng nghe ñến ngưỡngñau khoảng 96dB.

– Phụ thuộc vào môi trường nghe, với môi trường nhiễu lớn thì hạn chế khả năngnghe và khả năng phân biệt các âm thanh khác nhau.

– Vậy, phân tích tâm lý nghe là xét các vấn ñề:• ðộ nhạy của tai, khả năng ñáp ứng của các cường ñộ khác nhau.• ðáp ứng của tai với các tần số khác nhau.• Nghe một âm khi có mặt một âm khác.

Page 15: Chapter 2

PHÂN TPHÂN TÍÍCH TÂM LÝ ÂM HCH TÂM LÝ ÂM HỌỌCC

• Ngưỡng nghe tuyệt ñối ATH (Absolute Theshold of Hearing)– Thí nghiệm:ðặt một người trong phòng kín, im lặng, phát âm kiểm tra (test

tone) với tần số xác ñịnh (1kHz), tăng mức âm thanh cho ñến khi có thể ngheñược, ghi lại các giá trị và lặp lại với tần số khác.

– Vẽ ñồ thị, ta ñược ngưỡng nghe tuyệt ñối. Thử với người khác, ghi kết quả.

PHÂN TPHÂN TÍÍCH TÂM LÝ ÂM HCH TÂM LÝ ÂM HỌỌCC

• Dải tới hạn (critical bankwidth)– Fletcher tiến hành các thử nghiệm và cho thấy việc nghe của con người giống

như sử dụng các bộ lọc tâm sinh lý có ñộ rộng gần bằng một giá trị tới hạn vàFlecher gọi ñộ rộng của bộ lọc tới hạn là dải tới hạn.

– Dải tới hạn biểu diễn công suất xác ñịnh của tai cho cho các tần số hay dải tầnsố liên tục.

– Các thí nghiệm cho thấy rằng:• Với các tần số che nhỏ hơn 500Hz thì dải tới hạn không ñổi với ñộ rộng khoảng

100Hz.

• Với các tần số che lớn hơn 500Hz thì dải tới hạn có ñộ rộng tăng tương ñối tuyếntính theo tần số.

– Vậy, thang tần số không tuyến tính � thang bark (Barkhausen)

Page 16: Chapter 2

PHÂN TPHÂN TÍÍCH TÂM LÝ ÂM HCH TÂM LÝ ÂM HỌỌCC

• Dải tới hạn (critical bankwidth)– Flecher chia băng thông âm thanh thành 25 dải tới hạn.

655022050187751550025

……………

1407707006307

1206305705106

1105104504005

1004003503004

..........

1002001501002

-10050-1

Băng thôngTần số caoTsố trung tâmTần số thấpDải

PHÂN TPHÂN TÍÍCH TÂM LÝ ÂM HCH TÂM LÝ ÂM HỌỌCC

• Dải tới hạn (critical bankwidth)– Bark là ñơn vị ñể biểu diễn một dải tới hạn, 1 bark=1 ñộ rộng dải tới hạn.

– Công thức chuyển ñổi:

– Công thức khác: 1bark=13arctg(0.76f)+3.5arctg(f/7500) [bark]

– Công thức khác nữa: 1bark=13arctg(0.76f)+3.5arctg(f2/65.25) [bark]

≥+

<=

500),1000(log49

500,1001

2 ff

ff

bark

Page 17: Chapter 2

PHÂN TPHÂN TÍÍCH TÂM LÝ ÂM HCH TÂM LÝ ÂM HỌỌCC

• Kỹ thuật che (masking)Con người khi nghe một âm với sự có mặt của một âm khác sẽ cảm nhận yếu ñi khi âm này

có tần số gần với âm cần nghe hoặc biên ñộ lớn.

– Che tần số (frequency masking)Thí nghiệm: ðặt một người trong phòng kín, phát ra một âm che (masking tone) với tần số

xác ñịnh (1kHz) ở một mức nào ñó (60dB), sau ñó, phát âm kiểm tra (test tone) (1,1kHz) , tăng

mức ñến khi có thể nghe ñược. Thay ñổi âm kiểm tra, vẽ ngưỡng nghe, lặp lại với âm che khác.

PHÂN TPHÂN TÍÍCH TÂM LÝ ÂM HCH TÂM LÝ ÂM HỌỌCC

– Che thời gian (temporal masking)Thí nghiệm:

Phát một âm che ở tần số 1kHz, biên ñộ 55dB, thêm một âm kiểm tra 1,1kHz, biên ñộ 20dB trước và sau âm che. Âm kiểm tra không thể nghe ñược (nó ñang bị che).

Lặp lại các mức khác của âm kiểm tra và vẽ.

Với thí nghiệm trên, ta thấy âm 1,1kHz với 20dB bị che trước khoảng 15ms và che saukhoảng 50ms.

Page 18: Chapter 2

KKỸỸ THUTHUẬẬT NT NÉÉN AUDION AUDIO

• Cơ sởÂm thanh trung thực và chất lượng dịch vụ thoả mãn thì tốc ñộ dòng dữ liệu phải

lớn.

Ví dụ : Hệ thống âm thanh ña kênh mã hoá 16 bits, tần số lấy mẫu 48kHz (6 kênh) sẽ có tốc ñộ: 48x16x6=4.5Mbps.

Tốc ñộ cao � Khó khăn lưu trữ, truyền dẫn và giá thành thiết bị. � Nén.

• Nén không tổn haoKhôi phục ñúng thông tin ban ñầu sau khi giải nén.

Cơ sở: Loại bỏ dư thừa thống kê, các thông tin xuất hiện trong tín hiệu mà có thểdự báo trước.

Tỷ số nén thấp, khoảng 2:1, phụ thuộc vào ñộ phức tạp của tín hiệu nguồn.

Thường sử dụng kỹ thuật mã hoá dự ñoán trong miền thời gian.

KKỸỸ THUTHUẬẬT NT NÉÉN AUDION AUDIO

– Thuật toán vi sai:Tín hiệu âm thanh có ñặc tính lặp ñi lặp lại nên xuất hiện sự dư thừa số liệu.

Thông tin lặp sẽ ñược loại bỏ trong quá trình mã hoá và ñược ñưa vào lại trong quátrình giải mã sử dụng kỹ thuật DPCM.

Các tín hiệu audio ñầu tiên ñược phân tích thành tập hợp các dải băng con baogồm một số lượng âm thanh rời rạc, sau ñó, DPCM ñược sử dụng ñể dự báo các tínhiệu lặp lại theo chu kỳ. Nếu sử dụng ADPCM còn cho kết quả tốt hơn.– Mã hoá Entropy:

Tận dụng ñộ dư thừa trong cách miêu tả các hệ số băng con ñã lượng tử hoá nhằmcải thiện tính hiệu quả của quá trình mã hoá. Các hệ số lượng tử ñược gởi ñi theo sựtăng dần của tần số.

Kết quả nhận ñược là bảng mã tối ưu thống kê các giá trị miền tần số thấp và cao.Sử dụng mã hoá Hufman, Lempel-Zip ñể nén.

Page 19: Chapter 2

KKỸỸ THUTHUẬẬT NT NÉÉN AUDION AUDIO

• Nén tổn haoHệ thống thính giác của con người không thể phân biệt các thành phần phổ có biên

ñộ nhỏ giữa các thành phần phổ có biên ñộ lớn. Hệ số nén lớn, khoảng 20:1 phụ thuộc vào quá trình nén và giải nén và chất lượng

audio yêu cầu.– Các kỹ thuật ñược sử dụng:

- Kỹ thuật che (masking) ñối với các thành phần tín hiệu trong miền thời gian vàtần số.

- Che mức tạp âm lượng tử cho từng âm ñộ của tín hiệu âm thanh bằng cách chỉñịnh số bit vừa ñủ ñể chắc chắn rằng mức nhiễu lượng tử luôn nằm dưới mức giá trịcần che.

- Mã hoá ghép: Khai thác ñộ dư thừa trong hệ thống audio ña kênh với các thànhphần số liệu trong các kênh giống nhau. Mã hoá một phần số liệu chung trên một kênhvà chỉ ñịnh cho bộ giải mã lặp lại tín hiệu ñó trên các kênh còn lại.

MPEGMPEG--11

• Giới thiệu

ðược phát triển trên cơ sở phối hợp chuẩn ISO/IEC 11172.Sử dụng tần số lấy mẫu của CD-DA, với fs=32;44.1;48kHz, mã hoá 16bits/mẫu tín

hiệu.Tốc ñộ bít: 32 - 768 kbps/channel.Các kiểu: Mono, dual-mono, dual-stereo, joint-stereo.Xác ñịnh các tham số khác nhau về tốc ñộ, dòng số sau khi nén, số mẫu trong

header cho một kênh, cấu trúc thời gian khung, phương pháp mã hoá dự ñoán và cácchế ñộ làm việc.

MPEG-1

Lớp I Lớp II Lớp III

Mono và Stereo32, 44.1, 48kHz

Page 20: Chapter 2

MPEGMPEG--11

• ðặc tính

Lớp I Lớp II Lớp III

Dùng cho thiết bị dân dụng Dùng cho thiết bị chuyên dụng, ña môi trường

Dùng cho thiết bị chuyên dụng, ña môi trường

Tốc ñộ dòng số liệu từ 32-448kbps

Tốc ñộ dòng số liệu từ 32-384kbps

Tốc ñộ dòng số liệu từ 32-320kbps

384mẫu/khung/kênh 1152mẫu/khung/kênh 1152mẫu/khung/kênh

32 băng con ñều nhau, mỗi băng con gồm block 12 mẫu

32 băng con ñều nhau, mỗi băng con gồm block 36 mẫu

32 băng con tới hạnthành18 MDCT

Chu kỳ một khung 8ms cho kênh có fs=48kHz

Chu kỳ một khung 24mscho kênh có fs=48kHz

Chu kỳ một khung 24mscho kênh có fs=48kHz

Hệ số tỷ lệ 6 bits/băng, phân phối bit theo phương thức ứng trước.

Hệ số tỷ lệ 6 bits/băng,phân phối bit theo phương thức ứng trước.

Hệ số tỷ lệ 6 bits/băng,phân phối bit theo phương thức ứng trước.

MPEGMPEG--11

• Khung lớp I : 12x32 =384.

• Khung lớp II, III: 12x32x3=1152.

Lọc băng con 0

Lọc băng con 1

Lọc băng con 31

Lọc băng con 2

Các mẫu Audio ngõ vào

12 mẫu 12 mẫu 12 mẫu

12 mẫu 12 mẫu 12 mẫu

12 mẫu 12 mẫu 12 mẫu

12 mẫu 12 mẫu 12 mẫu

Khung lớp I

Khung lớp II và lớp III

Page 21: Chapter 2

MPEGMPEG--11

– Kiến trúc

Băng lọc phân tích ña pha 32 kênh

Lượng tửhoá

Mã hoáMUX

FFTLI: 512LII: 1024

Phân tích tâm sinh lý âm học

Phân phốibit ñộng

32Dữ liệu

Thôngtin thêm

SMRLượng tử

32

s(n)kênh

Dữ liệu

SMR: Tỷ số tín hiệu/ngưỡng che

Băng lọc phân tích ña pha 32 kênh

MDCT

MUX

FFTPhân tích tâm sinh lý âm học

SMR

32

s(n)kênh

Vòng lặp chỉ ñịnh bitLượng tử hoá

Mã hoá Huffman

Mã thông

tin thêm

↓32

MPEG1 lớp 1,2

MPEG1 lớp 3

Thôngtin thêm

MPEGMPEG--11

• Thuật toán cơ bản– Tiến hành chia ngõ vào thành 32 băng con bởi các băng lọc.

• Lấy 32 mẫu PCM trong cùng một thời ñiểm, kết quả là 32 hệ số tần số ở ngõ ra.

– Trong MPEG-1 lớp I thì tập 32 giá trị PCM ñược kết hợp vào trong khối gồm12 nhóm 32 mẫu này.

– MPEG-1 lớp II và lớp III thì gồm 3 khối 12 nhóm này.

– Phân bố bit ñảm bảo rằng mọi nhiễu lượng tử nằm ở dưới các ngưỡng che.

– Với mỗi băng con, xác ñịnh mức biên ñộ và mức nhiễu bằng mô hình tâm sinhlý nghe. SMR (signal-mask rate) ñược sử dụng ñể xác ñịnh số bit cho quá trìnhlượng tử hoá ñối với mỗi băng con với mục ñích giảm thiểu dung lượng.

Page 22: Chapter 2

MPEGMPEG--11

Ví dụ: Sau khi phân tích, mức của 16 băng con ñầu là:Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Level (db) 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1 Nếu mức của băng con thứ 8 là 60 thì nó che 12 dB ở băng con thứ 7 và 15 dB ở

băng con thứ 9.Băng con 7 có mức 10dB<12dB: loại. Băng con 9 có mức 35dB>15dB: gởi ñi.

� Chỉ có các mức lớn hơn mức che là ñược gởi ñi thay vì dùng 6 bits ñể mã hoá, tachỉ dùng 4 bits.

MPEG-Layer I: Bộ lọc DCT 1 khung và tần số bằng phẳng trong mỗi băng con. Mô hình tâm sinh lý nghe sử dụng che tần số.

MPEG-Layer II: Có 3 khung trong bộ lọc (trước, hiện tại và kế), tổng là 1125 mẫu. Sử dụng vài bits ñể che thời gian.

MPEG-Layer III: Sử dụng bộ lọc tới hạn ñể ñáp ứng tốt hơn. Mô hình tâm sinh lýnghe sử dụng che thời gian, che tần số, tính toán ñộ dư thừa stereo và mã hoáHufman.

MPEGMPEG--11

• Cấu trúc khung

– Header Info: Gồm 12 bits ñồng bộ; 20 bis thông tin hệ thống chỉ thị tốc ñộ bit, tần số lấy mẫu, dạng nhấn…; 16 bits CRC với ña thức sinh x16+x15+x2+1.

– Side Info: Gồm phân bố bit: lớp 1 với 4 bits tuyến tính cho các băng con, lớpII 4 bits cho các băng con tần thấp, 3 bit tần trung và 2 bits tần cao; hệ số tỷ lệlà 6 bits/băng con kết hợp với phân bố bits và các bits mã hóa cho băng con ñóñể xác ñịnh giá trị, lớp III mã hóa âm thanh nổi.

– Subband Samples: 32x12 mẫu ñối với lớp I và 32x36 mẫu ñối với lớp II và lớpIII.

– Aux Data: Dữ liệu bổ sung

Header Info Side Info Subband Samples Aux Data

Page 23: Chapter 2

MPEGMPEG--22

• Mở rộng MPEG-1 cho các ứng dụng mới.

• Có khả năng áp dụng nhiều tốc ñộ khác nhau, từ 32 ñến 1066kbps. Tần số lấy mẫucó thể giảm 1 nửa so với MPEG-1 (16; 22,05; 24kHz).

• Khả năng ña kênh, tốc ñộ bits mở rộng có thể lên ñến 1 Mbps cho các ứng dụngtốc ñộ cao. Cho phép nén ñồng thời nhiều kênh.

• Chất lượng âm thanh tuỳ thuộc ứng dụng.

• Hỗ trợ khả năng lồng tiếng, bình luận nhiều ngôn ngữ trong phần bits mở rộng.

• MPEG-2 sử dụng mã hoá cường ñộ cao, giảm xuyên âm, mã hoá dự ñoán liênkênh và mã hoá ảo ảnh kênh trung tâm ñể nhận ñược tốc ñộ bit kết hợp 384 kbps.

• Khung MPEG-2 ñược chia thành 2 phần, phần ñầu là MPEG-1stereo, phần mởrộng MPEG-2 chứa tất cả những dữ liệu surround khác.

MPEGMPEG--22

Mono-stereo

MPEG-1

32;44.1;48kHz

MPEG-2

Layer ILayer II

Layer III

Mono-stereo

MPEG-2

16;22,05;24kHz

Layer ILayer II

Layer III

5 channels

MPEG-2

multi channel

32;44.1;48kHzLayer ILayer II

Layer III

Page 24: Chapter 2

MPEGMPEG--22

• Mã hoá và giải mã MPEG-2

Matrix

MPEG-1encoder

MPEG-2Extensionencoder

L

C

R

LS

RS

L0

R0

T3

T4

T5

+ MPEG-1decoder

MPEG-2Extensiondecoder

L0’

R0’

T3’

T4’

T5’

InverseMatrix

L’

C’

R’

LS’

RS’

channel

MPEGMPEG--22

Trong ñó:

Với R: phải, L: trái, C: trung tâm, LS:trái vòm và RS: phải vòm.

Từ ñó dễ dàng trong mã hóa thuận nghịch

Cấu trúc khung

=====+

=++=

++=0;1

2

1;

21

1,

)(0

)(0δβαδβα

δβαδβα

orRSCRR

LSCLL

MPEG1 header MPEG-1 Data MPEG-1 Auxillary Data

MPEG2 header MPEG2 DataKhung MPEG-1/2

Page 25: Chapter 2

ACAC--3 (DOLBY DIGITAL)3 (DOLBY DIGITAL)

• Chuyển tải âm thanh ña kênh trong các ứng dụng như DVD-Video, DTV và DBS.• Phát triển từ AC-1 và AC-2.• Mã hoá âm thanh từ 1 ñến 6 kênh, thông thường cung cấp âm thanh 5.1 kênh: trái,

phải, trung tâm, trái vòm, phải vòm và 1 kênh hiệu ứng tần số thấp.• 6 kênh yêu cầu 6x48kHzx18bits=5.184Mbps chưa nén có thể ñược mã hoá tối thiểu

với tốc ñộ 384kbps (tỷ lệ 13:1). • Tuy nhiên, AC-3 hỗ trợ tốc ñộ từ 32 ñến 640kbps.• Cung cấp khả năng tự chọn mức âm thanh cho thính giả.• Cho phép giảm dữ liệu bằng quá trình lượng tử biểu diễn trong miền tần số của tín

hiệu âm thanh. • Bộ mã hoá sử dụng băng lọc phân tích chuyển các mẫu PCM thành các hệ số trong

miền tần số. Mỗi hệ số biểu diễn ký hiệu mũ nhị phân gồm phần số mũ và phầnñịnh trị. Các tập số mũ ñược mã hoá thô qua phổ tín hiệu và xem như là ñường baophổ. Sử dụng phân phối bít xác ñịnh số bits cần mã hoá mỗi ñịnh trị dựa vào ñườngbao phổ. ðường bao phổ và các ñịnh trị ñược lượng tử cho 6 khối âm thanh (1536 mẫu âm thanh) ñược ñịnh dạng thành khung rồi chuyển ñi.

ACAC--3 (DOLBY DIGITAL)3 (DOLBY DIGITAL)

Quá trình giải mã hoàn toàn ngược lại, ở ñây chỉ xét quá trình mã hoá

Băng lọc phân tích

Mã hoá ñường bao

Chỉ ñịnh bit

Lượng tử hoáphần ñịnh trị

ðịnh dạng khung AC-3

Thông tin chỉ ñịnh bit

Phần ñịnh trị

Sốmũ

ðường bao phổ ñược mã hoá

Phần ñịnh trị ñược lượng tử hoá

Các mẫuPCM

Dòng bit AC-3

Page 26: Chapter 2

APTAPT--X100X100

• APT-X100 cho tỷ lệ nén 4:1.• Sử dụng ñể truyền dẫn, lưu trữ các tín hiệu audio mono, stereo hay ña kênh chất

lượng cao.• Không hẳn dựa vào mô hình tâm sinh lý nghe, cũng không trực tiếp loại các thành

phần không thích hợp trong tín hiệu audio, mà nó ngầm hiểu một mô hình ñáp ứngnghe bằng việc phân phối ít bit ở tần số cao.

• Thuật toán hoàn toàn trong miền thời gian sử dụng mã hoá dự ñoán tuyến tính trongcác băng con.

• Hoạt ñộng với bất kỳ tần số lấy mẫu với ngõ ra 16 bits/từ mẫu.• Tín hiệu audio ñược chia thành 4 băng con với băng thông ñều nhau sử dụng các bộ

lọc QMF.• Tín hiệu ñược phân tích trong miền thời gian: sử dụng mã hoá dự ñoán tuyến tính

ADPCM ñể lượng tử mỗi băng theo nội dung và loại bỏ ñộ dư thừa trong các băngcon.

• Mã hoá sự khác biệt của mẫu hiện thời và mẫu trước.• Giải mã ñược tiến hành một cách ngược lại.

MÃ HMÃ HÓÓA ÂM THANH NA ÂM THANH NỔỔII

• Âm thanh ña kênh

L R C CL R L R

S S

CL R

LS RS

CL R

LS RSLFE

S: Surround.LFE : Low FrequencyEnhancement (Woofer)

15 – 120HzCó thể ñặt bất kỳ.

2/0 Stereo 3/0 3/1

3/2 3/2 với siêu trầm (5.1)

Page 27: Chapter 2

MÃ HOMÃ HOÁÁ ÂM THANH NÂM THANH NỔỔII

• Mã hóa Trái phải (LR)Không loại bỏ ñộ dư thừa.

Các kênh riêng biệt ñược mã hoá ñộc lập.

Ngưỡng che không liên quan.

Hiệu quả với âm thanh rất khác biệt giữa kênh trái và kênh phải.

N1

N2

L≈R

R≈L

+

+

L’

R’

Nguồn

MÃ HOMÃ HOÁÁ ÂM THANH NÂM THANH NỔỔII

• Joint Stereo Midle-SideKhuynh hướng của Joint Stereo không chỉ là kết hợp các ñịnh dạng của

chuẩn nén mp3 (MPEG1 lớp III) mà còn kết hợp các dạng khác: MPEG và AAC.Middle-Side Stereo xét hai kênh dữ liệu theo hai phương diện khác nhau.

Thay vì lưu trữ một dữ liệu âm thanh theo hai kênh Left và Right, ta có thể chỉ cần lưutrữ một chuỗi tương tự số trung bình Average (của Left và Right) và sự sai biệtDifference (giữa Left và Right).

Ở dạng Middle-Side, ta có thể lưu trữ các giá trị Middle và Side như sau:Middle=(L+R)/2, Side=(L-R)/2.

Dấu của Side là rất quan trọng, nếu Side >0 nghĩa là tín hiệu L lớn hơn tínhiệu R.

Ta hoàn toàn có thể tái tạo hai kênh L, R như sau:L=Middle+Side, R=Middle-Side.

Ưu ñiểm là sự khác biệt tương ñối của các tín hiệu audio của các kênh L vàR. Kết quả là kênh Middle lớn hơn nhiều so với kênh Side. Việc mã hoá kênh Side sửdụng ít bít hơn ñể giải phóng tài nguyên mà có thể ñược sử dụng ñể triển khai hữu hiệuhơn trên kênh Middle. Khi tái ñịnh dạng lại L, R thì kết quả sẽ thể hiện tín hiệu gốc ngõvào thực hơn.

Page 28: Chapter 2

MÃ HOMÃ HOÁÁ ÂM THANH NÂM THANH NỔỔII

– Tính chấtKênh side sử dụng số bit rất ít.

Loại bỏ ñộ dư thừa cho tín hiệu mono trong thực tế.

Có thể ñược áp dụng trong miền thời gian lẫn tần số.

ðộ lợi mã hoá cao phụ thuộc tín hiệu.

– Biến ñổi ngược: tổng/hiệu chuẩn hoá.

MÃ HOMÃ HOÁÁ ÂM THANH NÂM THANH NỔỔII

• Stereo ghép cường ñộ cao (Intensity Stereo):Mục ñích: Tối thiểu hoá thông tin stereo ñể nhận ñược tốc ñộ bit thấp nhất nếu có thể.

• Mã hoá tín hiệu tổng các kênh + các hướng của các kênh. Truyền ñường bao, sauñó tỷ lệ theo các kênh.

• Kiểm chứng dựa trên việc cảm nhận của con người kém ñối với tần số trên 3kHz.

• Không liên quan ñến kỹ thuật suy giảm.

• Biên ñộ và pha là không quan trọng.

• Giảm gần 50% dữ liệu.

• Không ñảm bảo thông tin về pha của tín hiệu.

• Một vài sự méo có thể nhận biết ñược.

• Sử dụng trong các ứng dụng tốc ñộ bit thấp.

Page 29: Chapter 2

MÃ HOMÃ HOÁÁ ÂM THANH NÂM THANH NỔỔII

Chỉnh pha

Chỉnh pha

Σ

ðo biên ñộ

ðo biên ñộ

÷

÷

ðo biên ñộ ðo biên ñộ

Hướng kênh L

Hướng kênh R

L+R

L

R

X

X

L+R

Hướng kênh L

Hướng kênh R

L

R