ms_odgovori_na_pitanja_za_ispit_2008_2009_03-06-2009
DESCRIPTION
odgovori na pitanjaTRANSCRIPT
MULTIMEDIJSKI SUSTAVI
Odgovori za ispit 2008./2009.
1. Huffmanovo kodiranje (značajke i primjer)
Predavanje: 2_kompresija_1
Za dani niz podataka računa se frekvencija ponavljanja
Huffmanovim algoritmom računa se minimalni broj bitova za svaki znak ovisno o
frekvenciji ponavljanja
kodovi se pohranjuju u rječnik koji se šalje dekoderu
kod ima tzv. svojstvo prefiksa – nijedna kodna riječ nije prefiks neke druge –
omogućava dekodiranje
Huffmanov kod je optimalni kod koji osigurava najmanji izlazni broj bitova kada se
kodiraju znakovi iste duljine
Primjer 1:
Kodirat ćemo sekvencu go go gophers
Svakom znaku pridijelimo broj ponavljanja
Pravimo stablo spajajući po dvije grane sa najmanjim brojem ponavljanja
Nastavljamo postupak
1
To daje tablicu
‘g’ 00
‘o’ 01
‘p’ 1110
‘h’ 1101
‘r’ 1111
‘s’ 1100
‘ ‘ 100
0
0 10 1
10 1 0
0 10 1
ukupan broj bitova potreban za kodiranje je
(2x2 + 2x2+2x3+4x4+1x3) za kodiranje + 26 za kodnu tablicu = 33 + 26 =59 bitova
za originalni niz uz 8 znakova treba 3 bita za kodiranje znaka x 13 = 39
za efikasnu kompresiju trebamo dužu sekvencu
2
Primjer 2:
- Slika je kodirana s 1 bitom
po pikselu (bi-level)
480 x 903 x 1 bit = 433 440 bita
Huffmanovo kodiranje: 406 888
Stupanj kompresije:
433440 : 406 888 = 1.065
Rezultat ukazuje na problem koji se javlja kod Huffmanova kodiranja kada se jedan znak
pojavljuje s velikom vjerojatnošću – kod ne može biti kraći od 1-og bita
2. Aritmetičko kodiranje (značajke i primjer)
Predavanje: 2_kompresija_1
temelji se na statistici simbola
ne kodira svaki simbol zasebno, već u ovisnosti o prethodnim podacima
nije moguć slučajan pristup
daje bolje rezultate od Huffmanovog kodiranja kod digitalne grafike jer sa manje
bitova kodira simbole koji se uzastopce ponavljaju – prosječan broj bitova ovdje je
manji od jedan
za sekvencu koju kodira daje realni broj između 0 i 1
Primjer:
kodirat ćemo sekvencu BILL GATES
izračunat ćemo frekvenciju ponavljanja svakog znaka
3
ZNAK VJEROJATNOST
razmak
A
B
E
G
I
L
S
T
1/10
1/10
1/10
1/10
1/10
1/10
2/10
1/10
1/10
rezultat kodiranja će biti broj koji se određuje na temelju statistike
za svaki znak moramo odrediti njegovo “područje vjerojatnosti”
ZNAK VJEROJATNOST PODRUČJE
razmak
A
B
E
G
I
L
S
T
1/10
1/10
1/10
1/10
1/10
1/10
2/10
1/10
1/10
0.00 – 0.10
0.10 – 0.20
0.20 – 0.30
0.30 – 0.40
0.40 – 0.50
0.50 – 0.60
0.60 – 0.80
0.80 – 0.90
0.90 – 1.00
4
prvu decimalu određuje prvo slovo u sekvenci - B, što znači da će konačni broj biti u području od 0.20 do 0.30
sljedeću decimalu određuje drugo slovo na način da konačni broj mora biti od 0.50 do 0.60 područja od 0.20 do 0.30 (Δ = 0.1)
dalje se kodira prema algoritmu
Set low to 0.0 Set high to 1.0 While there are still input symbols do get an input symbol code_range = high - low. high = low + range*high_range(symbol) low = low + range*low_range(symbol) End of While output low
zadnja donja granica 0.2572167752 predstavlja će kod ulazne sekvence BILL GATES
Poznavajući vjerojatnost pojavljivanja pojedinog znaka dekoder može iz ovog broja
dekodirati poruku
Iz broja 0.2572167752 dekoder zna da je prvi znak onaj kojem pripada granica 0.2 do
0.3, odnosno B
Od ulaznog broja oduzima donju granicu i i to dijeli s Δ=0.1 za taj znak
Dobijeni broj 0.572167752 je u području znaka I
Dalje se dekodira na isti način
Primjer 2:
nekomprimirana slika
403 x 353 piksela x 8 bita =
1 138 072 bita
komprimirana 694 419
stupanj kompresije 1.64 : 1
3. LZW kodiranje (značajke i primjer)
Predavanje: 2_kompresija_1
Postavlja se inicijalna kodna tablica (rječnik), a ostatak se stvara dinamički
Ograničava se duljina tablice iz praktičnih razloga – veća tablica znači duže vrijeme
pretrage, ali i veću moć kompresije
Dekodiranje brže i jednostavnije, dinamički se gradi tablica
5
Primjer 1:
koristimo znakove (A,B,C,D)
kodiramo sekvencu ABACABADABACAB
početna tablica
#1 = A
#2 = B
#3 = C
#4 = D
čitamo string i popunjavamo tablicu:
A je u tablici kao #1 ,
A se upisuje u izlazni tok podataka sa #1
AB nije u tablici, upisuje se kao #5 u tablicu , a u izlazni tok podataka
se upisuje #2
slijedi BA koji nije u tablici, upisuje se kao #6 u tablicu, a u izlazni tok
podataka #1, itd.
IZLAZ KODNA TABLICA
#1
#2
#1
#3
#5
#1
#4
#9
#8
#2
AB = 5
BA = 6
AC = 7
CA = 8
ABA = 9
AD = 10
DA = 11
ABAC = 12
Primjer 2:
nekomprimirana slika
480 x 903 x 1 bit = 433 440 bita
komprimirana s LZW algoritmom ( u Corel-u)
83 560 bita
stupanj kompresije 5.19 : 1
6
Može li bolje?
WinZip kodira s 48 936 bita
kompresija 8,86: 1
4. Vektorska kvantizacija (značajke i primjer)
Predavanje: 2_kompresija_1
• Vektorska kvantizacija (VQ) je metoda kompresije s gubitcima
• temelji se na zamjeni bloka podataka kodnom riječi (radi se aproksimacija)
• izbor i optimizacija kodnog rječnika predstavlja složeni problem višedimenzionalne
integracije
• 1980.Linde, Buzo i Gray (LBG) predstavili su algoritam za VQ primjenom probne
sekvence (LBG-VQ)
• Vektorski kvantizator preslikava k-dimenzionalni prostor Rk u konačni set vektora
C={ci: i=1,2,3,...,N}
• Svaki vektor ci je k-dimenzionalan i predstavlja jednu kodnu riječ, a C predstavlja
riječnik.
1 2( , ,..., )i i i ikc c c c=
• Uz svaki kodni vektor pridruženo je kodno područje - područje najbližih susjeda
(Voronoi područje) definirano kao
gdje su x ulazni vektori koje kodiramo
{ }22: 1, 2,...ki i jV x R x c x c j N= ∈ − ≤ − ∀ =
• Cijeli prostor kodiranja Rk je unija kodnih područja
{ }..., NV1 2
1 1
0 , ,N N
ki i j
i ii j
V R VV P V V= =
≠
= = =∪ ∩
Primjer:
• originalna slika
– 403 x 353 piksela x 8 bita= 1 138 072 bita
• kompresija
– N = 256
– k = 16
– kodni rječnik
• 256 x 16 x 8 bita = 32 768
7
– kodirana slika
• (403 x 353)/16 x 8 bita=70 400
– ukupno 103 168
– stupanj kompresije 11.03:1
– S/N = 27.064 dB
5. Diskretna Fourierova transformacija (periodična vs. neperiodična fja., diskretna
vs. kontinuirana F. transf., odnos broja uzoraka, frekvencije uzorkovanja i perioda
promatranja)
Predavanje: 4_transformacije
Za neperiodične signale koristimo Fourierovu transformaciju:
2( ) ( ) j ftf x t e dtπ∞
−
−∞
= ∫X
2( ) ( ) j ftt X f e dfπ∞
−∞
= ∫x
Vrijedi Parsevalova jednakost energije signala u vremenskoj i frekvencijskoj domeni
2 2( ) ( )xE x t dt X f df∞ ∞
−∞ −∞
= =∫ ∫
• Zašto govorimo o Fourierovoj transformaciji?
– Koeficijenti dobijeni Fourierovom transformacijom predstavljaju frekvencijski
sadržaj signala – možemo raditi spektralnu analizu signala
– Moramo razmotriti što je s F. transformacijom neperiodičnog signala i k tome
još diskretnog (s kakvim se susrećemo u multimediji)
8
Fourierova transformacija diskretnog signala
• Diskretni signal možemo iskazati kao umnožak kontinuirane funkcije x(t) i impulsnog niza δT
• Dobijena diskretna funkcija xS(t) može se napisati u obliku
( ) ( ) ( )n
Sn
t x nT t nTδ=∞
=−∞
= −∑x
• Niz δT je periodičan s periodom T=1/fs pa ga možemo iskazati preko Fourierova reda
2
0
1 1( ) s
Tjk f t
kc t e dtT T
πδ −= =∫
2 21( ) j s skf t j kf tk
k kt c e e
Tπ πδ
∞ ∞
=−∞ =−∞
= =∑ ∑
f
Sad možemo naći Fourierovu tansformaciju diskretnog niza xS(t)
22 21( ) ( ) ( ) sj kf tj ft j ftS S
k
f x t e dt x t e e dtT
ππ π∞ ∞ ∞
− −
=−∞−∞ −∞
⎡ ⎤= = ⎢ ⎥⎣ ⎦∑∫ ∫X
9
kontinuirani signal
t
kontinuirani spektar
f
diskretni signal
kontinuirani spektar
10
Fourieova transformacija diskretnog periodičnog signala
• Realni diskretni signali su konačni, i želimo ih prikazati konačnim brojem frekvencijskih komponenti
• Način da to postignemo je da od signala duljine N uzoraka umjetno napravimo periodični tako da ga ponavljamo
• Diskretni signal x(n) ima PERIODIČAN SPEKTAR (zbog diskretnosti signala u vremenskoj domeni) koji se ponavlja svakih 2π (područje frekvencija se može iskazati kao (- π, π) ili (0, 2π)
• Diskretni periodični signal x(n) ima PERIODIČAN I DISKRETAN SPEKTAR (diskretan zbog periodičnosti u vremenskoj domeni) – razmak između komponenti je 2π/N
Periodični signal se može iskazati preko Fourierovog reda
21
0( ) 0,1, 2,..., 1
N j k nN
kk
x n c e n Nπ−
=
= = −∑
Gdje ck predstavljaju amplitude spektralnih komponenata signala
21
0
1 ( ) 0,1,2,..., 1N j nk
Nk
nc x n e k N
N
π− −
=
= = −∑
•U slučaju diskretnog periodičnog signala govorimo o Diskretnoj Fourierovoj Transformaciji – DFT
•DFT možemo računati brzim postupkom – FFT
6. DCT (princip, karakteristike, primjena)
Predavanje: 4_transformacije
• Kod DCT bazne funkcije transformacije su kosinusne (realne) funkcije. Diskretni signal z(n) možemo predočiti kao sumu kosinusnih funkcija
• DCT se koristi u transformacijskom kodiranju mirnih i pokretnih slika u većini standarda
(JPEG, MPEG-1, MPEG-2, MPEG-4)
1
0
2 cos (2 1) ( )2
N
k fn
kd c n x nN N
π−
=
⎡ ⎤= + ⋅⎢ ⎥⎣ ⎦∑
Gdje se amplitude cosinusnih funkcija (DCT koeficijenti) računaju kao:
1 02
1k
za kc
za ostale k
⎧ =⎪= ⎨⎪⎩
1
0
2( ) cos (2 1)2
N
k kk
kn c n dN N
π−
=
⎡ ⎤= + ⋅⎢ ⎥⎣ ⎦∑x
11
• prednost nad fft je u boljoj aproksimaciji linija s manje koeficijenata
7. DWT (karakteristike baznih fja, DWT kao digitalno filtriranje, primjena na
slikama)
Predavanje: 4_transformacije
Bazne funkcije DCT
12
Wavelet transformacija
• Waveleti su lokalizirane oscilirajuće funkcije definirane kao dilatacije i translacije osnovne wavelet funkcije ili “mother wavelet” ψ(t)
• Waveleti su bazne funkcije wavelet transformacije tako da funkciju f(t) možemo prikazati kao sumu waveleta s određenom amplitudom xj,k
• Analiza funkcije f(t)
∑∑ ⋅=j
kjk
kj tftf )(,)( ,, ψψkjkjkj wdtttff ,,, )()(, =⋅= ∫
∞
∞−
ψψ
)kt2(2)t( j2/jk,j −ψ=ψ
• Sinteza funkcije f(t)
Waveleti kao digitalni filtri
• primjenom konvolucije računaju se koeficijenti cj-m i dj-m
1( ) ( ) ( 2 )j jk
c n c k h k n− = ⋅ −∑•koeficijenti cj-m predstavljaju aproksimaciju signala na razini m a koeficijenti dj-m predstavljaju detalje na toj razini (rezoluciji)
•Primjer: wavelet 5/3 koji se koristi u JPEG 2000 za kompresiju mirnih slika ima filtere analize definirane preko koeficijenata
⎥⎦⎤
⎢⎣⎡ −−=
81,
86,
86,
86,
81
Ah⎥⎦⎤
⎢⎣⎡ −−=
21,1,
21
Ag
1( ) ( ) ( 2 )j jk
d n c k g k n− = ⋅ −∑
Zahtjevi na wavelete za kompresiju slike
• dobra prostorna i frekvencijska lokalizacija
• primjena FIR filtera
• simetrija
• ortogonalnost – biortogonalnost
• poželjno svojstvo –određena glatkoća wavelet funkcija sinteze
13
Wavelet filtri
Wavelet koeficijenti u piramidalnom algoritmu proračunavaju se preko konvolucije, tako
da se ovaj postupak može predstaviti digitalnim filtriranjem uz decimaciju
(poduzorkovanje).
Koeficijenti h(k) i g(k) definiraju wavelet filtre sa frekvencijskim karakteristikama H(f) i
G(f)
fk2jK
0ke
2)k(h)f(H π−
=
⋅=∑ fk2jK
0ke
2)k(g)f(G π−
=
⋅=∑
Wavelet filtar sa karakteristikom H(f) predstavlja niskopropusni pojasni filtar, dok wavelet
filtar sa karakteristikom G(f) predstavlja viskopropusni pojasni filtar.
DCT
x(n)
n
DWT
14
8. Svojstva ljudskog vizualnog sustava (građa ljudskog oka, receptori)
Predavanje: 5_slike_1r
• Ljudsko oko je sfera promjera oko 20 mm – cornea – rožnica – retina – mrežnica – iris – šarenica – lens – leća
• Mrežnica – prekrivena receptorima – cones – čunjići
• ima ih 6 –7 miliona • smješteni u središnjem dijelu mrežnice • svaki povezan s jednim živcem – raspoznavanje detalja • osjetljivi na boju • zaduženi za vid pri dobrom osvjetljenju (photopic vision)
– rods – štapići
• ima ih 75-150 miliona
• više ih je vezano na isti živac
• nisu osjetljivi na boje
• osjetljivi pri niskom intezitetu svjetla (scotopic vision)
• Fovea – u središtu žute pjege
– velične 1.5 mm x 1.5 mm
– gustoće oko 150 000 receptora po mm2
– u području fovee centralis oko 307 000 receptora
9. Što je prostorna frekvencija (definicija, osjetljivost oka na prostorne frekvencije)
Predavanje: 5_slike_1r
R rezolucija (piksela/cm) x D udaljenost u cm
monitorD
10
x=D tan ( 10) 10
x. R je maks. broj piksela unutar 10 vizualnog kuta
)180
tan(2max ⋅⋅
=DRf π
[ perioda/10]
017455.0)180
tan( =π
15
Osjetljivost ljudskog vizualnog sustava na prostorne frekvencije
0 5 10 15 20 25
0,0
0,2
0,4
0,6
0,8
1,0
Mannos-SakrisonNill
HVS
sen
sitiv
ity
Spatial frequancies [cycle/1o)
10. Percepcija boje i sustavi za prikaz boje u slici
Predavanje: 5_slike_1r
• Boja je složeni fenomen sa svojim objektivnim i subjektivnim aspektima;
• nije uvijek neophodna u slikama
– slike bez boje:
• zahtjevaju manje memorije
• imune su na razlike u prikazu boje na različitim monitorima
• neki ljudi ne raspoznaju boje
• ipak
– ljudi očekuju boju
– nekad je informacija koju nosi boja od vitalnog značaja
• boju moramo efikasno koristiti, svjesni ograničenja
Boja kao fizikalni fenomen • Boja je subjektivna senzacija stvorena u mozgu.
• Za elektroničku produkciju i manipulaciju bojom trebamo matematički model koji
povezuje subjektivni doživljaj boje sa mjerljivim i ponovljivim fizikalnim fenomenom.
• Vidljivo svjetlo je elektromagnetski val valnih duljina između 380 nm i 730 nm,
određenog inteziteta.
16
• Distribucija spektralne snage svjetlosnog izvora definira intezitet pojedine spektralne
komponente
Ljudski vid i doživljaj boje • ljudska mrežnica sastoji se od dvije vrste receptorskih stanica
– štapići
• neosjetljivi na boju
• omogućavaju vid kod niskih inteziteta svjetlosti
– čunjići
• postoje 3 vrste - svaka osjetljiva na drugu grupu valnih duljina
• to vodi do tzv. tristimulus teorije: svaka boja se može definirati sa samo
3 komponente različitih težina
• aditivne primarne boje : crvena (R - red), zelena (G - green), plava (B -blue)
Prikaz boje • CRT (Cathod Ray Tube) TV zasloni i računalni monitori izvedeni su od 3 vrste zrnaca
fosfora različite vrste, koji zrače dominantne valne duljine crvene, zelene i plave boje.
– za prikaz određene boje odabire se prikladan intezitet elektronskog snopa
katodne cijevi koji udara u određenu vrstu fosfora, pa se time regulira intezitet
svjetlosti koju emitira ta vrsta zrnaca
– optičko mješanje svjetlosti koju emitiraju fosforna zrnca za svaki element slike
daje doživljaj boje za dani piksel
• LCD (Liquid Christal Display) zasloni sadrže kolor filtre koji propuštaju svjetlost
crvene, zelene ili plave boje. Napon na ćeliji s tekućim kristalima određuje zakretanje
kristala, a time količinu polarizirane svjetlosti koja prolazi do kolor filtara, odosno na
zaslon.
RGB model boja • Primari RGB: crvena, plava i zelena, koriste se za dobijanje boja aditivnim
mješanjem.
• za računalne monitore ne postoji standard koji određuje boje (valne duljine) koje
odgovaraju ovim primarima, ali najčešće se koristi preporuka za HDTV (High
Definition TV - televiziju visoke kvalitete) - ITU-R BT.709
• Red = 700 nm
• Green = 546 nm
• Blue = 436 nm
17
• nepostojanje standarda rezultira u velikim razlikama u prikazu boja na različitim
monitorima
• RGB primarima nije moguće prikazati sve valne duljine koje oko vidi
11. Manipulacija slikom – operacije na pojedinačnom pikselu (promjena svjetline,
kontrasta, gamma korekcija, manipilacija histogramom)
Predavanje: 6_manipulacija_slikom
• radi se promjena inteziteta (ili razine sivog)
– selekcija - primjena maske ili filtra na selektiranom dijelu slike
• pravokutna, eliptička, laso, Bezier, magični štap (označava područje iste ili
slične boje) ...
– maska - različite razine prozirnosti
– obično se naziva alfa kanal (8-bitni)
– svjetlina slike (brightness)
• linearno mjenjamo sve vrijednosti na skali sivog
– kontrast
• povećavamo ili smanjujemo razliku između najsvjetlijeg i najtamnijeg
– manipulacija histogramom
• nelinearna promjena kontrasta
18
19
Promjena svjetline
original
g( , ) ( , )x y k f x y= ⋅
k=1.2 k=0.5
Promjena kontrasta
• intezitete u području (low_in, high_in) ulazne slike transformira u područje (low_out, high_out) u izlaznoj slici
• može biti linearna ili nelinearna transformacija
• kod nelinearne transformacije funkciju pretvorbe opisuje parametar gama
• ovakve transformacije se rade za potrebe poboljšanja slike, ali i zbog nelinearnih karakteristika prikaza slike na zaslonu katodne cijevi
– Ei = k(Eu)1/γ
γ
γ
γ
/1
/1
/1
'''
BBGGRR
=
=
=
γ
γ
γ
'''
BBGGRR
=
=
=γ
kamera ekran
19
Gama korekcija
Manipulacija histogramom
• Histogram slike s L mogućih razina intenziteta u području [0, G] je diskretna funkcija h(rk)=nk
– rk je k-ta razina intenziteta, a nk je broj piksela koji imaju tu razinu intenziteta
• Često se koristi normalizirani histogram
( )( ) k kr k
k
h r np rn n
= =∑
- gdje je n ukupan broj piksela
12. Filtriranje slike (niskopropusno, visokopropusno)
Predavanje: 6_manipulacija_slikom
Filtriranje
• Ako je x(n) ulazni diskretni signal, a y(n) izlazni signal nakon filtriranja, vrijedi konvolucija:
)()()()(
)()(
)( ωω
ω
ω
ω
jXjHeknxkh
enyjY
n
knkj
k
n
nj
⋅=⋅−⋅=
=⋅=
∑ ∑
∑∞
−∞=
−+−∞
−∞=
∞
−∞=
−
∑−
=
−=1
0)()()(
K
kknxkhny
• U frekvencijskoj domeni to odgovara izrazu
• gdje su Y(jω) i X(j ω) dobijeni Fourierovom transformacijom y(n), odnosno x(n)
20
Niskopropusno filtriranje • omekšava oštre rubove (blur)
• Gaussov niskopropusni filtar
– konvolucijska maska u obliku Gaussove krivulje
– moguće je mjenjati promjer širine maske (praktično to znače mjenjanje standardne devijacije Gaussove krivulje)
• promjer od 4 do 8 piksela omekšava rubove • maksimalni promjer maske, 250 piksela, daje srednju vrijednost u
području na kojem je primjenjen filtar
– često se koristi za pravljenje sjene na objektima
Blur sa Gaussovom maskom Original radijusa 29 piksela
• Gaussov niskopropusni filtar proračunava se iz formule
2 21 2
2
1 2
( )2
1 2
1 21 2
( , )
( , )( , )
n n
g
g
gn n
h n n e
h n nh n n
h
σ− +
=
=∑∑
• primjer uz σ=4
0.0587 0.0624 0.0624 0.05870.0624 0.0665 0.0665 0.06240.0624 0.0665 0.0665 0.06240.0587 0.0624 0.0624 0.0587
h
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦
21
Visokopropusno filtriranje • Visokopropusno filtriranje koristi se za izoštravanje slike
• Ovakvo filtriranje obično je preoštro
• Bolji se rezultati dobiju ako se od originala oduzme njegova niskopropusna verzija, tzv. unsharp masking
13. Geometrijske operacije na slici Predavanje: 6_manipulacija_slikom
• definirane su kao funkcije položaja piksela, a ne njihova inteziteta
• skaliranje, translacija, refleksija, rotacija, rezanje
• često se zahtjeva interpolacija piksela
– interpolacija najbližim susjedom
• više piksela u novoj slici ima isti izvor u originalu - nedostatak je što se obično
vide blokovi piksela
– bi-linearna interpolacija
• koristi 4 najbliža piksela originala sa težinama proporcionalno površini koju
zauzima novi piksel na njima
– bi-kubična interpolacija
• koriste se kubični splineovi, ostvaruju se meki prijelazi
22
• Translacija slike ),(),( byaxfyxg − −=
)cossin,sincos(),(
• translacija za a u horizonatalnom smjeru, i za b u vertikalnom smjeru
• Rotacija slike za kut θ
14. Detekcija objekata na slici (detekcija rubova)
Predavanje: 6_manipulacija_slikom
• Postupak detekcije ruba odnosi se na proces identifikacije i lociranja naglih
diskontinuiteta na slici.
• Detekcija ruba u prostornoj domeni uključuje konvoluciju pomoću operatora (2-D
filtri) koji su osjetljivi na velike promjene gradijenta intenziteta elemenata slike
• Gradijent se računa konvolucijom sa odgovarajućim dvodimenzionalnim filtrima
θθθθ yxyxfyxg = − +
• kod rotacije izazna slika često nije u području ulazne slike, pa se primjenjuje
Zumiranje slike
• smanjivanje ili povećavanje slike gdje vrijedi
)/,/(),( dydxfyxg =
))5.0(),5.0((),(
• uz d ≥ 1 sliku ćemo uvećati
• uz d < 1 sliku ćemo smanjiti
• potrebna je interpolacija
Interpolacija
• Interpolacija najbližim susjedom
+= yINTxINTfyxg +
• INT(z) označava cjeli broj manji ili jednak z • Interpolacija najbližim susjedom daje za više piksela u izlaznoj slici vrijednost
jednog piksela ulazne slike • smanjena rezolucija – blokovi u slici
23
- I je originalna slika, K je konvolucijska maska (impulsni odziv dvodimenzionalnog
filtra)
),()1,1(),(1 1
lkKljkijim
k
n
l∑∑= =
−+−+Ι=Ο
• Operatori su definirani prema sljedećim zahtjevima:
– orijentacija ruba
• geometrija operatora ukazuje na smjer ruba
– utjecaj šuma
• detektiranje ruba je otežano ukoliko je šum jako izražen. Pokušaji smanjenja šuma
izazivaju iskrivljene rubove. Operatori koji mogu zanemariti utjecaj šuma mogu raditi s
većom količinom podataka izuzimajući pritom one elemente slike gdje je šum jako
izražen, ali se u tom slučaju znatno smanjuje ukupna točnost detekcije rubova
– struktura rubova
• ne uključuju svi rubovi stepenastu promjenu intenziteta. Efekti kao što je npr. refrakcija
na objektu rezultira rubom koji je definiran postupnom promjenom intenziteta elemenata
slike, a operator koji koristimo mora biti prilagođen takvoj promjeni
Detekcija rubova objekta
• PREWITT-ov OPERATOR
– koristi centralnu derivaciju i konvolucijsku masku veličine 3x3
IGy ∗⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−−=
111000111
IGx ∗⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−−
=101101101
• SOBEL-ov OPERATOR
– koristi centralnu derivaciju i konvolucijsku masku veličine 3x3, ali propuštenu kroz niskopropusni filtar [1 2 1]
IGx ∗
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−−
=101202101
IGy ∗⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−−=
121000121
24
• CANNY-jev OPERATOR
– prvo se primjenjuje Gaussov filtar za smanjenje šuma
– koriste se 4 matrice za detekciju horizontalnih, vertikalnih i dijagonalnih rubova
– radi se mapa položaja rubova i njihove orijentacije
– Canny operator koristi metodu praga s histerezom koja postavlja dvije vrijednosti
praga: gornji i donji.
– Korištenjem gornjeg praga određuju se oni rubovi koji će sigurno biti ispravno
detektirani.
– Zatim se promatraju susjedni elementi slike (oko označenog ruba) i ukoliko je njihova
vrijednost između gornjeg i donjeg praga, također se proglašava rubom
– Točnost rubova izdvojenih Canny detektorom je ± 1 element slike.
15. Formati za bitmap slike, formati za vektorsku grafiku, glavne značajke (s
obzirom na kompresiju i prikaz boje)
Predavanje: 8_formati_1_web
•Bitmapslike(piksel mape)
–slike modelirane kao polje elemenata slike(piksela)
–na monitoru slikese uvijek prikazuju kao polje piksela
•Vektorska grafika
–slika je spremljenauobliku matematičkog opisa skupine individualnih linija,krivuljairazličitih
oblika
–slika je spremljenaugrafičkom jeziku kao što jePostScriptiliPDF
–prikaz zahtjeva određeni proračun za generiranje polja piksela
•Encyclopedia of Graphic File Formats (J.D. Murray, W.vanRyper, 1996)definira
preko100različitih formata
•zabitmapslike glavna razlikauformatima jeunačinu na koji je slika komprimirana
–GIF -razviliu Computer Serve -uobičajeniformatza razmjenubitmapslika između različitih
platformi
•kompresija bez gubitakaLZW (Lampel,Ziv, Welch)
•256boja
•1bojasemože definirati kao transparentna
•najboljiformatza jednostavne slike kao što su crtići ili računalne sintetičke slike
•lošiji razultati za fotografije
25
•JPEG standardmože biti ukomponiranudatoteke različitih formata
–zabitmapslike sa kontinuiranim tonovimaivelikim brojem boja
–JFIF -JPEG File Interchange Format
–SPIFF -Still Picture Interchange File Format
–JPEG standardje ugrađeni u TIFF i EPS format
•PNG -Portable Network Graphics -(čitase ping)novijiformat,razvijen za razmjenu naWeb-u
–bez gubitaka-LZ77algoritam(ne plaćase)
–nije ograničen na256boja
–transparentnost je ugrađenausofisticiranoj formi
–razvijen premaW3C (WWW Consortiumosnovan1994)preporuci1996.
IzvanWeb-auobičajeni formati su
•TIFF -Tag Image File Format
–podržava više kompresija uključujućii JPEG
–256*256*256boja
–podržava ga većinapaintingprograma(ponekad neupotpunosti)
–podržan Windowsima
•BMP -Microsoft Windows Bitmap
–ovisanoplatformi
–ipak,većinom ga podržavajuidrugi operacijski sustavi
–najčešćenije komprimiran
•TGA -Truevision Targa
–jedan od prvih koji je podržavao više od256boja
–prihvaćen na većini platformi
Formati za vektorsku grafiku
•DominiraPostScript format -razviliuAdobaSystem sredinom80-tih
–programski jezik opisuje koji su grafički elementiikako su postavljeni na stranici
–PostScriptje predviđen kaopage layoutjezik-slikaseukomponiraustranicu sa tekstom
•EPS -encapsulated PostScript
–slika je samostalnaimože biti ubačenaudrugi dokument
–za prikaz slika.eps potreban je puniPostScript interpreter
•SVG -Scalable Vector Graphics format (1999)
–definiranu XMLjeziku(zaWeb)
–izvedenica PostScripta sa manjim brojem operacija-prilagođen prijenosu preko mreže
26
•SWF-originalno napravljen za vektorsku animacijuuMacromediaFlash programu
–sada predstavlja otvorenistandardza vektorsku grafiku
–često korištenipodržan preglednicima
•WMF -Microsoft Windows metafile
•PICT -Macintosh format
•DXF -formatza AutoCad datoteke
16. Karakteristike JPEG norme, elementi JPEG kodera. (zašto se radi blok-DCT)
Predavanje: 7_jpeg_jpeg2000_web
• Joint Photographic Expert Group - radna grupa zajedničkog ISO/IEC komiteta (JTC1)
• JPEG standard za kompresiju mirnih slika- ISO/IEC 10918-1 (takođe ITU-T Rec.
T.81) 1993.
• JPEG koder
• komprimirana_slika.JPEG
• Standard za kompresiju
• slika u nijansama sivog
• slika u boji
• korisnik određuje kvalitetu slike
• primjenjiv na slike različitih dimenzija
• dobri rezultati za slike kontinuiranih prijelaza, slabiji za računalom generirane slike
• podržava nekoliko načina rada:
• sekvencijalni ( baseline koder)
• progresivni (slika se prikazuje kroz nekoliko prolaza sa sve više detalja)
• bez gubitaka (lossless)
Prikaz digitalne slike • slika je predstavljena dvodimenzionalnom matricom (bitmap)
– svaki element matrice predstavlja jednu točku na slici; element slike - pixel (od picture
element)
– broj bita za jedan element slike određuje raspon boja na slici - dubinu (pixel depth,
picture depth)
• 8 bita za slike u nijansama sive (256 nijansi)
• 3 x 8 bita za slike u boji
– 3 komponente boje (R GB, YUV, YIQ,..)
27
– neke komponente mogu biti poduzorkovane (npr. krominantne komponente U i V u
YUV sustavu - oko je manje osjetljivo na prijelaze boja)
JPEG koder
8x8 blok
JPEG
Zašto se koristi DCT?
• DCT prebacuje sadržaj slike u frekvencijsko područje
• Ljudski vizualni sustav manje je osjetljiv (slabije razaznaje) detalje - što odgovara
visokim frekvencijama, najosjetljiviji je na srednje frekvencije, te ima nešto smanjenu
osjetljivost na niskim frekvencijama
• Slike iz prirode većinom imaju izraženije niskofrekvencijske komponente (vrijednosti
susjednih elemenata slike imaju približne vrijednosti na većem dijelu slike)
17. Blok shema JPEG2000 kodera. Karakterisike JPEG2000 (kako je ugrađeno
kodiranje bez gubitaka, što je ROI, objasniti skalabilne modove)
Predavanje: 7_jpeg_jpeg2000_web
• Novi standard za kompresiju mirne slike
• JPEG2000 je komplementaran starom JPEG standardu bez namjere da ga zamjeni
• Razvijen u okviru ISO/IEC JTC1
• Temelji se na DWT - Diskretnoj Wavelet Transformaciji, a ne na DCT
Značajke JPEG2000
• Visoka efikasnost kompresije
• Transformacija boje bez gubitaka
• Lossy i lossless kodiranje u jednom algoritmu
• ugrađeno lossy u lossless kodiranje
DCT bloka
Kvantizator Entropijski koder
Originalna slika
Komprimirana
slika
Kvantizacijska tablica
Specifikacijska tablica
28
• progresivni prijenos po rezoluciji, kvaliteti,
• Statičko i dinamičko Region-of-Interest (ROI) kodiranje
• otpornost na pogreške
• kodiranje prema percepcijskoj kvaliteti
• višekomponentno kodiranje slike
• dijeljenje slike u “pločice” (tiling)
• kodiranje slika sa paletama
ROI – područje za koje bitovi idu na početku bitstreama
18. Osnovne značajke analognih TV sustava (brzine okvira, broj linija, sustav boja,
analiziranje s proredom)
Predavanje: 9_video_1
• NTSC (National Television System Committee)-1953
• koristi se u Sjevernoj Americi, Japanu, Tajvanu i dijelu Južne Amerike
• PAL (Phase Alternating Line) - 1963.
KvantizacijPodjela u
blokove za kodiranje
DWslik
Entropijsko kodiranje
bez
Tiling
Alokacija bitova
Tiling
• slika se dijeli u “pločice” jednake veličine
– od 64x64 do 256x256 piksela
• na svakoj “pločici” radi se DWT
• smanjuje se procesorsko vrijeme
• omogućava jednstavno izdvajanja pojedinog područja slike
• “pločice” mogu biti transformirane sa različitim brojem DWT razina
29
• koristi se u većini Zapadnoevropskih zemalja, Australiji, Novom Zelandu, Kini, dijelu Južne
Amerike
• postoje lokalne varijacije osnovnog standarda
• SECAM (Sequential Couleur avec Memoire)
• koristi se u Francuskoj, bivšem Sovjetskom Savezu i Istočnoj Europi
• Osnovna razlika između standarda je u načinu na koji se dva signala boje ukomponiraju sa
signalom luminacije u isti frekvencijski pojas.
• Razlika postoji i u ostalim karakteristikama, kao što je broj okvira u sekundi, te broj linija u
okviru
• Za ostvarivanje dojma kontinuiranog pokreta potrebno je najmanje 24 okvira u sekundi.
• PAL radi sa 25 okvira u sekundi
• NTSC radi sa 29.97 okvira u sekundi
• film za kino projekciju ima 24 okvira u sekundi
• Za sliku koja ne titra potrebno je najmanje 40 okvira (slika) u sekundi.
– primjenjuje se princip razlaganja slike na dvije poluslike (interlacing ili interleaving) –
analiziranje s proredom
• PAL 50 poluslika u sekundi
• NTSC 59.94 poluslika u sekundi ( 30 x1000/10001 - sa 60 poluslika pojavila se
interferencija boje sa zvukom)
– za film se koristi prikaz svakog okvira dva puta
• Princip razlaganja okvira na poluslike – analiziranje s proredom
• Broj linija
– NTSC: 525 linija, od toga 480 aktivnih
– PAL: 625 linija, od toga 576 aktivnih
• pasivne linije služe za povrat elektronskog mlaza sa kraja okvira (desni donji ugao) na
početak sljedećeg okvira (gornji lijevi ugao slike) - signal je u naponskom području “crnje od
crnoga”
19. Digitalizacija videa (BT.601,poduzorkovanje komponenata boje (4:2:2, 4:2:0,
4:1:1))
Predavanje: 9_video_1
• Koristi se YUV signal
• Iskorištava se manja osjetljivost ljudskog vizualnog sustava na promjenu boje u
odnosu na promjenu svjetline
– poduzorkovanje komponenata boje
– različite kvantizacijske tablice za boju
30
• Poduzorkovanje (subsampling)
• Preporuka ITU-R BT.601
• uzorkovanje Y sa 13.5 MHz
• uzorkovanje CR (V) i CB (U) 6.75 MHz
• odnos broja uzoraka luminacije i krominantnih komponenti kod uzorkovanja se
označava kao Y : C1 : C2
• CCIR 601 tj. ITU- R BT.601
• 720 uzoraka po liniji za luminaciju
• 360 uzoraka po liniji za svaku krominantnu komponentu
• 4:2:2 shema poduzorkovanja
– uzorci za boju uzimaju se za svaki drugi piksel u svakoj liniji
• uz 8 bita po uzorku ovakvo uzorkovanje daje
720 +360 +360 =1440 elemenata/liniji
1440 x 576 x 8x25 = 160 Mb/s (20 MB/s)
PPoodduuzzoorrkkoovvaannjjee kkoommppoonneennaattaa bboojjee
31
20. Područje primjene MPEG 1, MPEG 2, MPEG 4, MPEG 7 i MPEG 21
norme.Intraframe kodiranje prema MPEG 2 normi
Predavanje: 9_video_2
• MPEG-1 (1993.)
• ISO 11172
• VCR kvaliteta i CD-ROM
• CIF (288 x 352) ili SIF (240 x 352) na 1.2 Mbps
• MPEG-2 (1994.)
• ISO 13818
• Namjenjen za digitalnu televiziju standardne kvalitete, više audio kanala,
pogodan i za HDTV
• obično iznad 10 Mbps
• MPEG-3
• Napušten
• MPEG-4 (1998./1999.)
• ISO 14496
• interaktivna multimedija (WWW), interaktivne grafičke aplikacije
• tri moda rada:
– niska brzina (< 64 kbit/s)
– srednja (64 do 384 kbit/s)
32
– visoka (384 kbit/s do 4 Mbit/s)
• MPEG-7 (2001.)
• započet u listopadu 1996.
• sučelje za opis multimedijskoh sadržaja
• MPEG-21
• multimedijski sustavi
• Za neke primjene koristi se samo unutarokvirna kompresija (“intra-frame”)
– motion JPEG, motion JPEG2000
– neosjetljiv na gubitak okvira tijekom prijenosa
– malo kašnjenje okvira (compression delay)
– 8 - 10 Mbps
• U većini slučajeva koristi se unutarokvirna (“intra-frame”) i međuokvirna
(“inter-frame”) kompresija
– postižu se viši stupnjevi kompresije
– nedostatak je značajno kašnjenje zbog proračuna i redosljeda okvira
22. Interframe kodiranje prema MPEG 2 normi (vektori pokreta, predikcija
pokreta)
Predavanje: 9_video_2
33
prostorna kompresija - intra-frame
• redundancija u horizontalnoj i vertikalnoj dimenziji slike-sličnost piksela
• kompresija unutar jednog okvira
• slična JPEG-u
• Iskorištava se temporalna redundancija
– veći dio slike je isti u nizu okvira
– neki objekti se miču
– manji dio je novih podataka
• Pokret se istražuje na makroblokovima 16 x 16 piksela tehnikama korelacije
– proračunava se vektor pokreta - smjer translacije makrobloka
• za P okvire iz prethodnog okvira
• za B okvire iz prethodnog i slijedećeg okvira
– manje se bitova troši na slanje vektora pokreta nego za komprimirani
makroblok
Predikcija makrobloka kompenzacijom pokreta
• U MPEG-2 normi makroblok je dio okvira veličine 16 x 16 piksela, i predstavlja
osnovnu jedinicu za predikciju pokreta kompenzacijom.
• Makroblok sadrži
– za svjetlinu16 x 16 piksela (4 bloka)
– za boju (s poduzorkovanjem) dva bloka s 8 x 8 elemenata (Cb i Cr)
Makroblok
• Predikcija pokreta makrobloka uključuje pronalaženje sličnih područja veličine 16 x
16 u referentnom okviru
• Referentni okvir je prethodno kodirani okvir i može biti prije ili poslije u redoslijedu
prikazivanja u sekvenci.
• U referentnom okviru traži se makroblok najsličniji makrobloku u trenutnom okviru i
proračunava se VEKTOR POKRETA
34
Predikcija pokreta i kompenzacija temeljena na blokovima
• Postupak predikcije pokreta
• Pretraži područje u referentnom okviru (prijašnji ili budući okvir, prethodno kodiran i poslan) kako bi se našlo odgovarajuće polje – najsličniji trenutnom makrobloku s 16x16 elemenata slike (piksela)
• Odabrano područje postaje prediktor za trenutni 16x16 blok te se oduzima od trenutnog makrobloka kako bi stvorio rezidualni 16x16 makroblok
• Rezidualni blok se kodira i prenosi. Također se prenosi i razlika između položaja trenutnog bloka i položaja odabranog područja (prediktora) kao vektor pokreta.
• Ako se predikcija radi samo na temelju prethodnog okvira tada rezidualni blok i vektori pokrate čine P okvir, a ako se predikcija radi na temelju prethodnog i sljedećeg okvira radi se o B okviru
23. I, P, B okviri, GOP struktura (osnovne karakteristike pojedine vrste okvira, kako
se slažu u GOP strukturu i kako utječu na brzinu)
Predavanje: 9_video_2
B okvir • B okvir - bidirectionally predicted okvir
• predviđaju se iz I-okvira i/ili P-okvira
• iz prethodnog i budućeg okvira
– to osigurava dobru predikciju dijelova okvira koji ne postoje još u prethodnom
okviru
• povećavaju količinu proračuna
• ali značajno povećavaju kvalitetu videa
Intracoded frame (I-frame) (independant frame) -ne nastaje iz drugog okvira
Predicted frame (P-frame) • je okvir koji nastaje samo iz (nekog od) prethodnih okvira
• uvijek nastaje od I-okvira
35
GOP – Group of Pictures
Slijed izmjene okvira
• I-frame
• najslabije komprimiran
• služi za sinkronizaciju
• mora se pojavljivati svakih 300 do 400 msec
36
• za VCR svakih 150 P-okvira ili I-okvira
• B-frame
• najbolje komprimiran
• ali ovisi i unatrag i unaprijed
• PAL: n=9, m=3
• IBBPBBPBBI
• NTSC: n=12, m=3
• IBBPBBPBBPBBI
36
24. Profili i razine kod MPEG 2 norme
Predavanje: 9_video_2
Profili:
Profile Level
Simple Main SNR Spatial High
Low
4:2:0 352 x 288
4 Mb/s I,P,B
30 okvira/s
4:2:0 352 x 288
4 Mb/s I,P,B
30 okvira/s
Main
4:2:0 720 x 576 15 Mb/s
I,P 30 okvira/s
4:2:0 720 x 576 15 Mb/s
I,P,B 30 okvira/s
4:2:0 720 x 576 15 Mb/s
I,P,B 30 okvira/s
4:2:0, 4:2:2 720 x 576 15 Mb/s
I,P,B 30 okvira/s
High-1440
4:2:0 1440 x 1152
60 Mb/s I,P,B
60 okvira/s
4:2:0 1440 x 1152
60 Mb/s I,P,B
60 okvira/s
4:2:0, 4:2:2 1440 x 1152
60 Mb/s I,P,B
60 okvira/s High
4:2:0 1920 x 1152
80 Mb/s I,P,B
60 okvira/s
4:2:0, 4:2:2 1920 x 1152
100 Mb/s I,P,B
60 okvira/s
• osnovni (SP = Simple Profile) – daje najnižu kvalitetu signala, ne podržava slojevito
kodiranje, ne uključuje dvosmjerno predviđanje, shema uzorkovanja 4:2:0;
• glavni (MP = Main Profile) – ne podržava slojevito kodiranje, ali postoji dvosmjerno
predviđanje; shema uzorkovanja 4:2:0;
• profil sa slojevitošću u odnosu na omjer signal/šum (SNR) – omogućava različite
kvalitete slike s obzirom na odnos signala i šuma;
• profil s prostornom slojevitošću (Spatial) – podržava različite prostorne rezolucije
slike;
• visoki profil (HP = High Profile) – podržava potpunu slojevitost i najvišu kvalitetu
slike
37
Razine:
• niska (LL = Low Level) – SIF format slike
• glavna (ML = Main Level) – BT 601 formati TV slike
• visoka 1440 (High-1440) – videosignal s 1440 uzoraka po liniji
• visoka (HL = High Level) – videosignal s 1920 uzoraka po liniji
25. Osnovne karakteristike MPEG 4 norme (područje primjene,brzine, postavke,
karakteristike MPEG-4 Visual, VOP i VO))
Predavanje: 10_video_3x
• postaje međunarodna norma početkom 1999.
• drastično smanjenje bitne brzine
• 4.8 do 64 Kbps uz još uvijek prihvatljivu kvalitetu
• podržava i veće brzine prijenosa
– srednja (64 do 384 kbit/s)
- visoka (384 kbit/s do 4 Mbit/s) (u nekim profilima ide i na više brzine)
• od sub-QCIF veličine okvira do “studio veličine” 4k x4k
• namijenjena za
– interaktivnu multimediju (web)
– interaktivne grafičke aplikacije
– digitalnu televiziju
• s mogućnošću korištenja za
– video konferencije
– video telefoniju
• Osnovne postavke nove norme
– Univerzalne mogućnosti i robusnost u okolini osjetljivoj na pogreške
Multimedijski audio-vizualni podaci moraju se prenositi i moraju biti pristupačni u
heterogenoj umreženoj okolini, posebice u teškim uvjetima.
– Velika interaktivna funkcionalnost
Velika važnost daje se interaktivnom pristupu i upravljanju audio-vizualnim
podacima.
– Kodiranje stvarnih i sintetiziranih podataka
– Učinkovita kompresija
Za pohranjivanje i prijenos audio-vizualnih podataka potrebna je velika efikasnost
kodiranja uz dobru kvalitetu rekonstruiranih podataka.
38
Ovisnost brzine prijenosa i funkcionalnosti
64 kbit/s do 2 Mbit/s
5- 64 kbit/s
MPEG-4 Part 2. Visual
• MPEG-4 Part 2. Visual definira algoritme za rad s različitim tipovima vizualnih objekata
– pokretni video (pravokutni okviri)
– video objekti (proizvoljno oblikovana područja videa)
– 2-D i 3-D “mrežasti” animirani objekti
– animirano ljudsko lice i tijelo
– statične (mirne) slike
• Uvodi nove alate za kompresiju ovih objekata
– Osnovno kodiranje je blok-DCT + entropijsko kodiranje – ali su dodani napredni alati
• uveden je koncept VOP-a (Video Object Plane).
– Svaki se okvir ulazne sekvence segmentira u nekoliko proizvoljno oblikovanih
područja odnosno VOP-ova: svako područje pokriva jedan dio scene i na taj način
opisuje objekt unutar jednog okvira.
• Uzastopni VOP-ovi koji pripadaju istom objektu definirani su kao VO (Video
Object).
– Svi VO-i imaju svoja prostorna i vremenska obilježja tj. sadrže lokalne
koordinate koje utvrđuju fiksni položaj danog objekta, a smješteni su unutar scene
39
transformacijama lokalnog koordinatnog sustava u opći, scenski koordinatni
sustav.
• Sve informacije o VOP-ovima koji pripadaju jednom VO kodiraju se unutar zasebnog
VOL-a (Video Object Layer),
– informacije nužne za identifikaciju svakog VOL-a, te kako se VOL-ovi
sastavljaju i rekonstruiraju na prijemnoj strani uključeni su u sloj toka bitova
(bitstream layer).
26. Napredni alati u MPEG 4 Visual (4 vektora pokreta, neograničeni vektori
pokreta, …)
Predavanje: 10_video_3x
• Osnovno kodiranje videa u MPEG-4 temelji se na blok DCT –u te predikciji pokreta
(vektori pokreta)
• Poboljšanje kvalitete komprimiranog videa ostvaruje se korištenjem naprednih alata
– 4 vektora pokreta po makrobloku
– Unrestricted MV – neograničeni vektori pokreta
– Intra- prediction
– Globalna kompenzacija pokreta
– Kompenzacija pokreta na ¼ piksela
– H.263 / MPEG-2 kvantizator
• 4 vektora pokreta po makrobloku
– makroblokovi 16x16 ili 8x8 elemenata okvira(bira koder za svaki makroblok)
• bolja predikcija uz rubove pokretnog objekta i kod brzih pokreta
• 1 ili 4 vektora pokreta
40
• Unrestricted MV – neograničeni vektori pokreta
– koristi se kada je područje “matching” makrobloka dijelom izvan granica
referentnog okvira
• Intra- prediction
– DC koeficijenti 8x8 blokova se predviđaju iz susjednih prethodno kodiranih
blokova
– opcionalna je predikcija i prvog reda i prvog stupca matrice AC koeficijenata
DCT
27. Profili i razine kod MPEG 4 standarda
Predavanje: 10_video_3x
Profili za prirodne video sadržaje
1. Simple Visual Profile
• za male brzine i rezolucije, s visokom otpornosti na šum – mobilne
aplikacije, pravokutni okviri
2. Simple Scalable Visual Profile
• uključuje opciju skalabilnosti za primjene s mogućnošću promjene
parametara kvalitete (Internet, programski dekoderi), pravokutni okviri
3. Core Visual Profile
• podržava kodiranje objekata proizvoljnog oblika s mogućnošću
skalabilnosti, uključuje i jednostavnu interaktivnost (Internetske multimedijske
aplikacije)
4. Main Visual Profile
• podržava kodiranje interlaced videa, sprite objekata i transparentnih
objekata – za interaktivni video za DVD i difuziju
5. N-bit Visual Profile
• kodiranje objekata sa dubinom bita od 4 do 12 – za video nadzorne
sustave
SSiimmppllee VViissuuaall PPrrooffiillee • VLBV Core model kodeka
– Kodiranje pravokutnih okvira, male brzine
• Osnovna struktura kodiranja sastoji se od blok DCT kodiranje i predikcije pokreta
– I-VOP
41
• 8x8 blok DCT, kvantizacija, cik-cak skeniranje i run-length i variable-length kodiranje
– P-VOP
• standardna estimacija i kompenzacija pokreta na makroblokovima 16x16 elemenata
okvira, razlučivost ½ piksela
• Dodatni alati povećavaju učinkovitost kodiranja i prijenosa
– 4 vektora pokreta po makrobloku, neograničeni vektori pokreta, intra predikcija
– Video paketi, dijeljnje podataka, reverzibilni kodovi promjenjive duljine, kratko zaglavlje s
GOB-ovima
Profili za prirodne video sadržaje
(dodani u verziji 2)
7. Advanced Real-Time Simple (ARTS)
• napredne tehnike zaštite od pogreške za pravokutne video objekte, korištenje
povratnog kanala, mogućnost korištenja proizvoljnog referentnog okvira (tj. VOP-a),
mogućnost smanjenja rezolucije kod loših uvjeta prijenosa, malo kašnjenje –
videotelefonija, videokonferencije, daljinski nadzor
8. Core Scalable Profile
• kodiranje objekata sa opcijom temporalne, rezolucijske i SNR skalabilnosti - za
Internet, mobilne i broadcast primjene
9. Advance Coding Efficiency (ACE)
• unaprijeđena efikasnost kodiranja i za blok kodiranje i za objektno kodiranje –
primjene za mobilnu TV difuziju, kamere
Profili za prirodne video sadržaje (dodani u sljedećim verzijama standarda)
8. Advaced Simple Profile
• Za pravokutne objekte, s dodatnim alatima: B okviri, kompenzacija pokreta na ¼
piksela, globalna kompenzacija pokreta, dodatne kvantizacijske tablice, interlaced
alati
10. Fine Granularity Scalability Profile
• Za sloj poboljšanja dozvoljava prekid bitnog niza na bilo kojoj poziciji – kao
osnovni sloj može koristiti Simple ili Advance Simple profil
11. Simple Studio Profile
• Profil za visoko kvalitetni video za studijske aplikacije. Koristi samo I okvire, ali i
objekte proizvoljnog oblika i višestruke alfa kanale – brzine do 2 Gb/s
12. Core Studio Profile
• Dodaje P okvire na Simple Studio
Profili za sintetičke i hibridne sadržaje
42
13. Simple Facial Animation Visual Profile
• animacija lica – primjena kod prezentacija za gluhe osobe
14. Scalable Texture Visual Profile
• skalabilno kodiranje za mirne slike
15. Basic Animated 2-D Texture Visual Profile
• osigurava prostornu i SNR skalabilnost, animaciju na osnovi mrežaste strukture i
jednostavnu animaciju lica
16. Hybrid Visual Profil
• dekodiranje objekata proizvoljna oblika i temporalne skalabilnosti s mogućnošću
dekodiranja nekoliko sintetičkih i hibridnih objekata uključujući animirano lice i
animirane mirne slike
Profili za sintetičke i hibridne sadržaje (verzija 2)
17. Advanced Scalable Texture Profile
– dekodiranje objekata i mirnih slika sa skalabilnošću, uz wavelete tiling i otpornost
na pogreške- omogućava slučajan pristup – primjena kod pretraživanja Interneta
18. Advanced Core Profile
– dekodiranje video objekata + dekodiranje skalabilnih objekata kod mirnih slika –
primjena kod interaktivnog streaminga multimedije preko Interneta
19. Simple Face and Body Animation Profile
– animacija lica + animacija tijela
28. H.261, H.263 standard
Predavanje: 11_video_4
H.261 standard • Standard za videokonferencije i videotelefoniju – tip videa “glava koja govori”
• započet 1984., odobren u prosincu 1990.
• Predviđen za male brzine p x 64 kb/s, p je cijeli broj od 1 do 30
• Broj okvira 29,97 okvira/s
• Formati okvira CIF (352 x 288), QCIF (176 x 144) za video i 4 CIF (704 x 576) za
mirnu sliku
• 4:2:0 poduzorkovanje boje
• Blok DCT kodiranje -blokovi 8x8 piksela
• Predikcija pokreta – makroblokovi 4 bloka Y, 1 blok Cr i 1 blok Cb
43
• Računaju se vektori pokreta i matrica razlike za svaki makroblok
– opcionalno se koristi niskopropusni filtar u petlji za proračun kompenzacije
pokreta
• 33 makro bloka čini grupu blokova (GOB)
H.263 standard • Cilj razvoja novog standarda je dizajniranje postupka kodiranja videa za brzine ispod
64 kb/s (specifikacija za 33.4 kb/s – V.34 modem)
• Rad na standardu započeo je u studenom 1993. a završen u ožujku 1996.
• Temelji se na H.261 uz poboljšanje algoritama i širi raspon parametara videa
• U odnosu na MPEG-1 daje do 30% veću kompresiju uz istu kvalitetu
29. H.264 standard (karakteristike, unutarokvirna predikcija, kompenzacija
pokreta, transformacijsko kodiranje, adaptivni deblokirajući filtar, entropijsko
kodiranjeVSL i NAL sloj, profili)
Predavanje: 11_video_4
• AVC – Advanced Video Coding
• U prosincu 2001. od MPEG i VCEG grupe formiran JVC (Joint Video Team)
• standardi u ITU-T i ISO/IEC završeni 2003.
• u srpnju 2004. završen FRExt – Fidelity Range Extension
• Siječanj 2005. – skalabilno video kodiranje
Zahtjevi na novi standard • značajno poboljšanje efikasnosti kodiranja
• visoka otpornost na pogreške i gubitke (paketa)
• dobre osobine u prijenosu mrežama
• podržavanje sustava koji zahtjevaju malo kašnjenje
• dekodiranje s točnim podudaranjem
Karakteristike H.264 • poboljšano kodiranje za interaktivne aplikacije (videotelefonija, videokonferencije)
• poboljšana svojstva u mrežama podložnim smetnjama (mobilne UMTS i GSM) i
gubitcima paketa (Internet)
• drugačija rješenje u odnosu na prethodne standarde
– predikcija za unutarokvirno kodiranje
– filtri za deblokiranje u predikcijskoj petlji za proračun vektora pokreta
44
– proračun vektora pokreta u odnosu na više referentnih okvira
– ne koristi DCT nego cjelobrojnu transformaciju
Unutarokvirna predikcija
(Intra Prediction) • Unutarokvirna predikcija se koristi za kodiranje I slika (okvira)
• Za predikciju se koriste blokovi 4x4 i 16x16 elemenata slike za svjetlinu, i 8x8 za
kromatske komponente
• za 4x4 blok 9 modova predikcije
– koeficijenti unutar bloka se računaju iz već dekodiranih okolnih elemenata
– mod 0: vertikalna predikcija
– mod 1: horizontalna predikcija
– mod 2: DC predikcija (srednja vrijednost)
– ...
• Razlika između predviđenih i stvarnih vrijednosti se kodira – prvo se koristi
cjelobrojna transformacija, a zatim entropijsko kodiranje
Kompenzacija pokreta • Makroblokovi svjetline mogu biti 16x16, 16x8, 8x16, 8x8 elemenata slike
• Daljnje dijeljenje je u 8x8 pod-makroblokove veličine 8x8, 8x4, 4x8 ili 4x4
• Više referentnih slika se može koristiti za predikciju
• Točnost predikcije je na ¼ piksela
• Kod B slika predikcija se temelji na prethodnom i budućem okviru s mogućnošću
korištenja različitih težina
• Predikcija se temelji na B-slice (odsječku B slike) koji može biti i referentna slika
Transformacijsko kodiranje • Koristi cjelobrojnu transformaciju (ne DCT, ali baziranu na DCT) primjenjenu na 4x4
blokove
– Koristi se i za I i za P, odnosno B okvire za rezidualne podatke nakon
oduzimanja predviđeog od stvarnog okvira
– Cjelobrojna transformacija jednostavnija je za proračun i zahtjeva samo
pomak, zbrajanje i oduzimanje
• DC koeficijenti se ponovno transformiraju Hadamard transformacijskim matricama
– 4x4 veličine za DC koeficijente bloka luminacije
– 2x2 veličine za DC koeficijente blokova krominacije
• Koristi se skalarna kvantizacija
45
Adaptivni deblokirajući filtar • Podjela u blokove potrebna za efikasnu primjenu algoritama (kao i u svim prethodnim
standardima) uzrokuje pojavu vidljive pogreške oko rubova blokova
• U dekoderu je moguće napraviti post-procesiranje filtriranjem ovih efekata
• Postavljanjem deblokirajućih filtara u koder popravlja se predikcija vektora pokreta i
povećava kvaliteta
• Filtar je adaptivan na tri razine
– na razini odsječka (slice)
– na razini ruba bloka
– na razini uzorka (za očuvanje rubova objekata)
Entropijsko kodiranje • Dvije tehnike
– set varijabilnih kodova niske kompleksnosti adaptivno korištenih ovisno o
sadržaju videa – CAVLC (Context Adaptive Variable Length Coding)
– binarno aritmetičko kodiranje adaptivno sadržaju – CABAC (Context Adaptive
Binary Arithmetic Coding)
Robusnost na pogreške i prilagodljivost mrežnom okruženju • Uvedena su dva sloja
– Video Coding Layer – VCL
– Network Adaptation Layer – NAL
• Oba sloja sadrže određene mehanizme za zaštitu od pogreške i gubitaka paketa
– ispuštanje ne-referentnih okvira
– switching-predictive (SP) pictures i switching-intra (SI) pictures –
omogućavaju prebacivanje između različiti tokova podataka kodiranih
različitim brzinama
– korištenje više referentnih slika omogućava izbor referentne slike kada je neka
od njih korumpirana
– unaprijedna zaštita s nejednakom zaštitom ovisno o važnosti bita
– dijeljenje slike u odsječke koji se neovisno kodiraju – smanjuje se propagacija
pogreške
– NAL slaže podatke u pakete koji najbolje odgovaraju MTU (maximum transfer
unit) za pojedinu mrežu
– fleksibilno slaganje makroblokova (FMO)
– ubacivanje intra kodiranih makroblokova korištenjem informacije o kanalu
putem povratnog kanala
46
Profili H.264 standarda • Baseline profile
– Videotelefonija, videokonferencije, bežične mreže
• Main profile
– Televizijska difuzija, pohranjivanje video sadržaja
• Extended profile
– Streaming aplikacije
30. Karakteristike govornog signala, model vokalnog trakta
Predavanje: 12_govorx
• audio signal
• govor
• glazba (i ostalo)
• svojstva audio signala važna za multimediju ovise o karakteristikama izvora, kao i o
ljudskom sluhu
• zvuk stvara titranje molekula zraka određenom frekvencijom. Ono pobuđuje na
titranje bubnjić u ljudskom uhu što se preko mehanizama unutarnjeg uha prenosi
impulsima neurona u mozak koji to inerpretira kao zvuk
• kod percepcije zvuka postoje limiti amplitude, frekvencije, vremena unutar kojih
postoji percepcija zvuka;
• Spektralne komponente mijenjaju se u vremenu po frekvencijama i po amplitudama -
audio signal je nestacionaran slučajni signal
• govor
– 50 Hz do 10 000 Hz
– za razumljivost najznačajniji dio 300 Hz do 3400 Hz
• čujni spektar
– 20 Hz do 20 kHz
– gonja granica je češće između 15 i 18 kHz i pada sa godinama
– ograničenje spektra na 15 kHz neznatno smanjuje kvalitetu - koristi se u
radiodifuziji
47
Pojednostavljeni model vokalnog trakta
Pobuda Vokalni trakt Izlaz - govor
- za zvučne glasove pod utjecajem pritiska zraka iz pluća glasnice trepere i proizvode
varijacije zračnog tlaka s0(t), koji ima oblik impulsa (glotalni puls) osnovne
frekvencije f0
- f0 ovisi o govorniku 35 – 450 Hz
- prosječno 120 Hz za muškarce, 200 Hz za žene
31. Statistička svojstva govora, digitalizacija govora (spektar, amplitudna dinamika,
frekvencija uzorkovanja, brzina)
Predavanje: 12_govorx
• Funkcija gustoće vjerojatnosti trenutnih vrijednosti govornog signala može se
aproksimirati Laplaceovom raspodjelom
• vrh raspodjele odgovara malim amplitudama bezvučnih glasova i šumu sustava
• standardna devijacija govornog signala odgovara njegovoj efektivnoj vrijednosti
0
0
( )( , )
s tS j tω
( )( , )h t
H j tωs(t)
S(jω)
• Srednja snaga za jednog govornika
• Srednja snaga prosječnog govornika
21lim ( )2
T
TT
P s t dtT −→∞
= ∫
• Spektralna gustoća snage
21lim ( )2
T
TT
P s t dtT −→∞
= ∫
( ) dPfdf
ϕ =
21( )2
s
f s e σ
σ
−≈
2 , 0s sσ = =
48
Digitalizacija govora
V0+ 2.35 σV
V0PROSJEcNIH amplitudna dinamika
ukupno 62 dB V0-2.35 σV
• u mikrofonu se tlak zraka na membrani pretvara u električki signal
• analogno-digitalno pretvorbom kontinuirani električki signal se pretvara u niz brojeva
• dvije faze
– uzorkovanje
• za telefonski signal koristi se spektar od 300 Hz do 3.4 kHz
• 8 kHz (125 μsec) uzorkovanje (Nyquistov kriterij)
– Kvantizacija
• dinamika određena dinamikom govornika
– 98% amplituda unutar 62 dB – 1:1260
– može se ostvariti s 12 bitnom linearnom kvantizacijom
• koristi se 8 bitno kodiranje – logaritamsko
– osigurava podjednaki odnos snage signala i snage šuma kvantizacije, S/Nq,
kroz cijelo amplitudno područje
–
32. Razlika između linearne i nelinearne kvantizacije (primjena kod govora) (A
zakon)
Predavanje: 12_govorx
⎪⎪
⎩
⎪⎪
⎨
⎧
⎟⎠⎞
⎜⎝⎛ ≤≤
+⋅+
⎟⎠⎞
⎜⎝⎛ ≤≤
+⋅
=
11ln1
)ln(1
10ln1
sAA
sA
As
AsA
x• μ-law (US) i A-law (EU) nelinearna kompresija
• različite tablice pretvorbe
49
• za nekomprimirani govor protok 64 kb/s
Normirana A-87.6 karakteristika
33. Standardi ITU-T za kodiranje govora (G.711, G.722, …)
Predavanje: 12_govorx
• ITU-TS G.721
• 64 kbps pretvara u 32 kbps
• ADPCM tehnika - 4 bita
• 8 kHz uzorkovanje
• ITU-TS G.723
• bit rate 24 kbps
• ADPCM tehnika - 3 bita
• G. 723.1 standard – 6.3 kb/s (ACELP – Algebraic Code Excited Linear
Prediction) i 5.3 kb/s (MP-MLQ- Multi Pulse-Maximum Likehood
Quantization), vrlo dobre kvalitete
• ITU-TS G.726
• zamjenjuje G.721 i G.723
• ADPCM kodiranje sa
– 16 kb/s - kodiranje razlike sa 2 bita
– 24 kb/s - kodiranje razlike sa 3 bita
– 40 kb/s -kodiranje razlike sa 5 bita
– 32 kb/s -kodiranje razlike sa 4 bita
50
• ITU-TS G.722
• standard za audio kodiranje
• koristi se za visoko kvalitetno kodiranje govora
• kodira signal širine spektra 50Hz do 7kHz
• sub-band ADPCM (SB-ADPCM)
– signal se dijeli na dva frekvencijska pojasa (viši i niži)
– za svaki pojas primjenjuje se ADPCM
• 16 kHz uzorkovanje i 14 bita razlučivost
• proizvodi 48, 56 ili 64 kbps
34. LPC koder govora (digitalni model govornog trakta, koji se parametri prenose)
Predavanje: 12_govorx
• LPC (Linear Predictive Coding)
– koristi matematički model govornog trakta
– umjesto uzoraka šalje parametre modela
– bit rate 2.4 kbps
– mehanički govor
LPC metoda kao digitalni model • Brzina prijenosa 2.4 kb/s
• Velika kompresija izvornog govornog signala
• Sintetički (strojni) zvuk
• 1984. FS1015 – LPC-10 DoD (Department of Defense)
– koristi se filtar sa 10 koeficijenata
Digitalni model vokalnog trakta
51
( )∑=
−+= p
k
kk za
zH
1
1
1 ωτjez =
Vokalni trakt H(z)
Zrak u(n)
Titranje glasnica V (voiced/zvučni glasovi)
Frekvencija/vrijeme
titranja glasnica
T (pitch period)
Opuštenost glasnica UV (unvoiced/bezvučni
glasovi)
Pritisak zraka G (gain/pojačanje)
Vremenska domena → Frekvencijska domena
( )∑=
−+== p
k
kk zazU
zSzH
11
1)()(
ωτjez = n → pobuda u(n) → U(z) izlaz s(n) → S(z) impulsni odziv filtra h(n) → H(z)
pp zzSazzSazzSazSzU −−− −−−= )()()()()( 2
21
1
)()2()1()()( 21 pnsansansansnu p− −−−−= −
1
( ) ( ) ( )p
kk
n a s n k u n=
= − +∑s
52
LPC analiza
Izlaz iz filtra odgovarat će sumi prethodna p uzorka uzetih s različitim težinama
35. CELP koder govora
Predavanje: 12_govorx
( ) ( )1
ˆp
kk
s n a s n k=
= −∑Koeficijenti filtra ak određuju se tako da se minimizira srednja kvadratna pogreška. e(n) – razlika originalnog signala i signala predviđenog modelom
( ) ( ) ( ) ( ) ( )1
ˆp
kk
e n s n s n s n a s n k=
= − = − −∑
Pri tome se koeficijenti ak određuju se iz kratkog segmenta u okolini signala s(n) (koriste se segmenti duljine 20 ms odnosno 160 uzoraka)
( ) ( )ns m s m n= +
53
• hibridni koder – temelji se na LPC-u
• za 4.8 kbps govor se analizira po okvirima duljine 30 ms (240 uzorka)
• okvir se dijeli na 4 podokvira
– za svaki podokvir kodni rječnik sadrži 512 kodnih vektora (valnih oblika)
• stohastički vektori – fiksni ( FS-1016 rječnik – 60 uzoraka po vektoru)
• prilagodljivi vektori (iz prethodnih uzoraka govora)
– pojačanje se kodira sa 5 bitova za svaki podokvir
• LPC parametri se definiraju na razini okvira i kodiraju sa 34 bita u frekvencijskoj
domeni
• Filter za predikciju perioda T
Vizualno težinski filtar
1( )1 TH z
bz−=+
2
1
1 2
( / )( )( / )
0.9, 0.5
H zW zH z
γγ
γ γ
=
= =
LD-CELP
• Standard G.728
– 320 bita po okviru, okvir 20 ms, 16 kb/s Parametri bitovi po parametru bitovi po okviru
veličine 20ms 12 LPC koeficijenata ,a1...a12 12 144 pojačanje,G 13 52 koeficijent pitch filtera,b 13 52 lag pitch filtera,T 8 32 indeks knjige kodiranja,k 10 40 ------------- Ukupno: 320
54
36. Karakteristike audio signala(spektar, dinamika, maskiranje)
Predavanje: 13_audio
Spektar audio signala • Spektralne komponente mijenjaju se u vremenu po frekvencijama i po amplitudama -
audio signal je nestacionaran slučajni signal
• govor
– 50 Hz do 10 000 Hz
– za razumljivost najznačajniji dio 300 Hz do 3400 Hz
• čujni spektar
– 20 Hz do 20 kHz
– gonja granica je češće između 15 i 18 kHz i pada sa godinama
– ograničenje spektra na 15 kHz neznatno smanjuje kvalitetu - koristi se u
radiodifuziji
Dinamički raspon ljudskog sluha • Određen je
– donjom granicom čujnosti
• za sinusoidu frekvencije 1 kHz to je zvučni tlak od 2.10-5 N/m2
– gornjom granicom bola (oštećenja)
• na 1 kHz granica bola je na 120 dB iznad granice čujnosti
– zbog šuma prostorije dinamički opseg audio signala uzima se oko 96 dB
• Doživljaj glasnoće je subjektivan (daje se u fonima) i ovisi o frekvenciji
• Povećanje glasnoće doživljavamo logaritamski ne linearno - koristimo dB
Maskiranje • Prisustvo jednog zvuka može maskirati drugi zvuk ili promjeniti čujnost drugog zvuka
– frekvencijsko maskiranje
– temporalno maskiranje
• FREKVENCIJSKO MASKIRANJE
• efekt maskiranja ovisi o razlici frekvencija pojedinih zvukova kao i o njihovoj
amplitudi
• niske frekvencije bolje maskiraju one višlje
55
37. CD audio zapis, DVD audio zapis
Predavanje: 13_audio
CD audio • pojavio se 1982. ne samo za govor već i glazbu
• linearno PCM kodiranje sa 16 bita
• dinamičko područje 96 dB
• frekvencijski odziv 0 do 20 kHz
• uzorkovanje 44.1 kHz (23 μsec)
• stereofonija - dva kanala
• 1.411 Mbps data rate
• Reed-Solomon zaštitni kod
• trajanje 74 min
DVD audio • 16-, 20-, 24- bitno LPCM kodiranje
• uzorkovanje sa 44.1, 48, 88.2, 96, 176.4 ili 192 kHz
• 1 do 6 kanala
• Meridian Lossless Packing (MLP) kompresija – bez gubitaka
• trajanje zapisa od 86 min (96 kHz uzorkovanje sa 24 bita i sa 6 kanala) do 25 h (44.1
kHz uzorkovanje sa 16 bita i 1 kanal)
• granična brzina 9.6 Mb/s
• frekvencijski odziv 0 do max 96 kHz
• dinamičko područje do 144 dB
• zaštita od kopiranja – CPPM (content protection for prerecorded media)
DVD audio – MLP kompresija • razvili u Meridian Audio Ltd. u suradnji s Dolby Labaratories Inc.
• kompresija bez gubitaka
– točnost rekonstrukcije na razini bita bez obzira na broj prekodiranja
• u audio zapisu se traže
– kanali bez informacije
– kanali koji ne iskorištavaju u potpunosti frekvencijski pojas
• uklanja se međukanalna korelacija matricama bez gubitaka
– npr. mono signal prezentiran kao stereo, blisko postavljeni mikrofoni za
različite kanale, stereo signal (uklanjanje korelacije korištenjem sume i razlike
L i D kanala)
56
38. MPEG 1 audio kodiranje (MUSICAM, razlike u slojevima)
Predavanje: 13_audio
MPEG-1 Audio • tri algoritma (“downward compatible”)
• Layer-1, 2 i 3
• brzina 1.5 Mb/s za video + audio, od toga 0.3 Mb/s za audio
• podržava 4 moda rada
– mono
– dual-mono (npr.dva jezika)
– stereo
– udruženi stereo (iskorištava korelaciju u stereo kanalima)
• radi na 32 do 448 kpbs po kanalu
• uzorkovanje 32, 44.1, 48 kHz
• stupanj kompresije od 2.7 do 24
• rade s gubitkom, ali ne osjetilnim (perceptivnim)
– koristi pojavu frekvencijskog i temporalnog maskiranja
– s kompresijom 6:1 (za 16 bitni stereo s uzorkovanjem s 48 kHz to je 256 kb/s)
eksperti ne razlikuju kodirani od originalnog audia
MPEG 1 audio kompresija • metoda
• ulaz je podijeljen u 32 frekvencijska podpojasa
• na temelju psihoakustičkog modela definira se količina maskiranja u
pojedinom pojasu
• ako je snaga pojasa ispod praga maskiranja ne kodiraju se uzorci
• ako je snaga pojasa iznad praga maskiranja određuje se potreban broj
bitova tako da kvantizacijski šum pada ispod praga maskiranja
MUSICAM
(Masking pattern adapted Universal Subband Integrated Coding and Masking)
• audio okvir se razlaže na 32 frekvencijska podpojasa – 12 uzoraka u svakom pojasu –
ukupno 384 uzorka u okviru
• 12 uzoraka čini blok
• vršna vrijednost bloka kodira se sa 6 bitnim faktorom skale koji
određuje dinamički opseg kvantizatiora
57
• primjenom psihoakustičkog modela određuje se alokacija bitova
• paralelna FFT analiza svakog podpojasa s rezolucijom fs/256
• za svaki podpojas računa se prag maskiranja u vremenskoj i
frekvencijskoj domeni
• uklanjaju se podpojasevi ispod apsolutne granice čujnosti
• kvantizacija svakog podpojasa određena je trenutnim odnosom signala i
maskiranja - dinamička alokacija bitova
MPEG 1 Audio Layer-1 • uzorkovanje 32 kHz, 44.1 kHz, 48 kHz
• koristi QMF za filtriranje u 32 podpojasa jednake širine
• kod kodiranja koristi samo jedan okvir od 12 uzoraka
• psihoakustički model koristi samo frekvencijsko maskiranje
MPEG 1 Audio Layer-2 • koristi QMF za filtriranje u 32 podpojasa
• kod kodiranja koristi tri okvira (prijašnji, trenutni i budući) – ukupno 1152 uzorka
• psihoakustički model koristi uz frekvencijsko maskiranje i temporalno maskiranje u
određenoj mjeri
MPEG 1 Audio Layer-3 (mp3 format) • 1987. Fraunhofer institut započeo rad na audio koderu u okviru EUREKA projektu
EU147 za Digital Audio Broadcasting (DAB)
• koristi filtre koji bolje pokrivaju kritične pojaseve (nejednake širine pojasa)
– dijeli signal u 576 pojaseva – prvo u 32 glavna pojasa (kao u layer 1 i 2), a
zatim primjenom MDCT svaki pojas dijeli u 18 podpojaseva (za 48 kHz
uzorkovanje to čini širinu pojasa od oko 41.67 Hz u odnosu na 750 Hz za
Layer 1 i 2)
• uključuje temporalno maskiranje
• koristi Huffmanovo kodiranje
– komplementarno maskiranju
• signali slični šumu male su redundancije ali dobro maskiraju, signali sa
izraženim formantima slabije maskiraju, ali velike su redundancije
– kvantizacija nelinearna – veće amplitude se kodiraju sa većim korakom
kvantizacije
– kvantizirane vrijednosti se kodiraju Huffmanovim koderom
58
Usporedba MPEG-1 Layer I, II i III
MPEG-1 Layer I Layer II Layer III
Analysis/synthesis 32 subbands 32 subbands Subband+MDCT
Output bit-rate 32-448kbps 32-384kbps 32-320kbps
Effcient bit-rate 160-224kbps 96-128kbps 64-96kbps
Sampling freq. 32,44.1,48kHz32,44.1,48kHz 32,44.1,48kHz
Intensity stereo Yes Yes Yes
Quantization Uniform Uniform Non-uniform
Window Fixed Fixed Dynamic
Entropy coding No No Yes
Frame size 384 samples 1152 samples 1152 samples
Bit-allocation
representation
Explicit Indexing Indexing
Frame self-
decodable
Yes Yes No
Suggested
psychoacoustic
model
Model 1 Model 1 Model 2
39. MPEG 2 audio, MPEG 4 audio (razlike u odnosu na MPEG 1 audio, AAC)
Predavanje: 13_audio
MPEG-2 Advanced Audio Coding – AAC • veća frekvencijska rezolucija
• ukupno 1024 pojasa (max. rezolucija 23 Hz za 48 kHz uzorkovanje)
– poboljšano stereo kodiranje
– poboljšano Huffmanovo kodiranje
– koristi samo MDCT (Modified Discrete Cosine transformation)
• kraći odziv (5.3 ms) u odnosu na layer 3 filtre (19.6 ms) –
bolja prezentacija brzih promjena
59
– Temporal Noise Shaping (TNS) tehnika – koristi predikciju u frekvencijskoj
domeni–
• otklanja pojavu proširenja pogreške kvantizacije u područje ispred
signala s naglim porastom -poboljšanje kvalitete kod malih brzina
• do 48 glavnih audio kanala
• do 16 niskofrekvencijskih kanala za efekte
• do 16 višejezičnih kanala
• 3 profila
– main profil (AAC)
• za primjene kada nema restrikcija na procesor i memoriju
– Low Complexity (LC) profil
– Scalable Sampling Rate (SSR) profil
• obuhvaća više načina kodiranja za različite brzine i za različite vrste audio signala
– MPEG- 2 AAC s vektorskom kvantizacijom
– CELP + CELP kompresija tišine
– kodiranje sintetičkog i hibridnog zvuka
• skalabilno kodiranje
– od 2 kbps do 64 kbps
• otpornost na pogreške
Digitalni zvuk - primjene • telefonija
• preko IP
• integracija
• bežični sustavi
• audio broadcasting (radio)
• audio on demand
• audio conferencing
• CD i DVD pohrana
• video + pripadajući audio
60
40. Problemi kod prijenosa multimedije mrežom
Predavanje:
PPaakkeettnnii pprriijjeennooss ggoovvoorraa • Problemi paketnog prijenosa
– varijabilno kašnjenje paketa
• kod stvarnovremenskih aplikacija zahtjeva se malo srednje kašnjenje i
mala varijabilnost kašnjenja
• Govor podnosi određenu količinu gubitaka i distorzije, ali je jako osjetljiv na kašnjenje
• Općenito je prihvaćeno 100 do 600 ms za maksimalno kašnjenje
• Kako bi se minimiziralo kašnjenje preporučene su male veličine paketa – od 200 do
700 bita, i trebaju sadržavati manje od 10 do 50 ms govora
– 64 kb/s PCM – za 10 ms govora = 640 bita
– LD-CELP – 16 kb/s – okviri 20 ms = 320 bita
• Mrežni protokoli trebaju osigurati manja zaglavlja (4 do 8 byta)
• U mrežama s malom vjerojatnošću pogreške nije neophodno koristiti zaštitne kodove
ili zahtjeve za transmisiju
• Ipak kod povećanja prometa može doći do odbacivanja nekih paketa, pa je potrebno
osigurati kodiranje takvo da je smanjenje kvalitete postupno
• Dekoder koristi dodatno kašnjenje paketa kako bi se ujednačila kašnjenja – mora se
postići kompromis jer duže dodatno kašnjenje povećava ukupno kašnjenje govora, a
kraće povećava vjerojatnost izgubljenih paketa
• Povećanje efikasnosti i kvalitete prijenosa osigurava kodiranje govora s različitim
prioritetima za podatke različitih važnosti za kvalitetu
• U čvorovima mreže u slučaju prometnog zagušenja prvo se odbacuju paketi s manjim
prioritetom
– Podaci o prioritetima moraju se nalaziti u mrežnom dijelu zaglavlja, dok se
podaci o klasifikaciji kao i parametri kodiranja nalaze u aplikacijskom dijelu
zaglavlja
61
62
A šta
sad????????????
Vrati se na
početak!!!!
Sale, d_inženjer