ms_odgovori_na_pitanja_za_ispit_2008_2009_03-06-2009

MULTIMEDIJSKI SUSTAVI

Odgovori za ispit 2008./2009.

1. Huffmanovo kodiranje (značajke i primjer)

Predavanje: 2_kompresija_1

Za dani niz podataka računa se frekvencija ponavljanja

Huffmanovim algoritmom računa se minimalni broj bitova za svaki znak ovisno o

frekvenciji ponavljanja

kodovi se pohranjuju u rječnik koji se šalje dekoderu

kod ima tzv. svojstvo prefiksa – nijedna kodna riječ nije prefiks neke druge –

omogućava dekodiranje

Huffmanov kod je optimalni kod koji osigurava najmanji izlazni broj bitova kada se

kodiraju znakovi iste duljine

Primjer 1:

Kodirat ćemo sekvencu go go gophers

Svakom znaku pridijelimo broj ponavljanja

Pravimo stablo spajajući po dvije grane sa najmanjim brojem ponavljanja

Nastavljamo postupak

1

To daje tablicu

‘g’ 00

‘o’ 01

‘p’ 1110

‘h’ 1101

‘r’ 1111

‘s’ 1100

‘ ‘ 100

0

0 10 1

10 1 0

0 10 1

ukupan broj bitova potreban za kodiranje je

(2x2 + 2x2+2x3+4x4+1x3) za kodiranje + 26 za kodnu tablicu = 33 + 26 =59 bitova

za originalni niz uz 8 znakova treba 3 bita za kodiranje znaka x 13 = 39

za efikasnu kompresiju trebamo dužu sekvencu

2

Primjer 2:

- Slika je kodirana s 1 bitom

po pikselu (bi-level)

480 x 903 x 1 bit = 433 440 bita

Huffmanovo kodiranje: 406 888

Stupanj kompresije:

433440 : 406 888 = 1.065

Rezultat ukazuje na problem koji se javlja kod Huffmanova kodiranja kada se jedan znak

pojavljuje s velikom vjerojatnošću – kod ne može biti kraći od 1-og bita

2. Aritmetičko kodiranje (značajke i primjer)


temelji se na statistici simbola

ne kodira svaki simbol zasebno, već u ovisnosti o prethodnim podacima

nije moguć slučajan pristup

daje bolje rezultate od Huffmanovog kodiranja kod digitalne grafike jer sa manje

bitova kodira simbole koji se uzastopce ponavljaju – prosječan broj bitova ovdje je

manji od jedan

za sekvencu koju kodira daje realni broj između 0 i 1

Primjer:

kodirat ćemo sekvencu BILL GATES

izračunat ćemo frekvenciju ponavljanja svakog znaka

3

ZNAK VJEROJATNOST

razmak

A

B

E

G

I

L

S

T

1/10

1/10

1/10

1/10

1/10

1/10

2/10

1/10

1/10

rezultat kodiranja će biti broj koji se određuje na temelju statistike

za svaki znak moramo odrediti njegovo “područje vjerojatnosti”

ZNAK VJEROJATNOST PODRUČJE

razmak

A

B

E

G

I

L

S

T

1/10

1/10

1/10

1/10

1/10

1/10

2/10

1/10

1/10

0.00 – 0.10

0.10 – 0.20

0.20 – 0.30

0.30 – 0.40

0.40 – 0.50

0.50 – 0.60

0.60 – 0.80

0.80 – 0.90

0.90 – 1.00

4

prvu decimalu određuje prvo slovo u sekvenci - B, što znači da će konačni broj biti u području od 0.20 do 0.30

sljedeću decimalu određuje drugo slovo na način da konačni broj mora biti od 0.50 do 0.60 područja od 0.20 do 0.30 (Δ = 0.1)

dalje se kodira prema algoritmu

Set low to 0.0 Set high to 1.0 While there are still input symbols do get an input symbol code_range = high - low. high = low + range*high_range(symbol) low = low + range*low_range(symbol) End of While output low

zadnja donja granica 0.2572167752 predstavlja će kod ulazne sekvence BILL GATES

Poznavajući vjerojatnost pojavljivanja pojedinog znaka dekoder može iz ovog broja

dekodirati poruku

Iz broja 0.2572167752 dekoder zna da je prvi znak onaj kojem pripada granica 0.2 do

0.3, odnosno B

Od ulaznog broja oduzima donju granicu i i to dijeli s Δ=0.1 za taj znak

Dobijeni broj 0.572167752 je u području znaka I

Dalje se dekodira na isti način

Primjer 2:

nekomprimirana slika

403 x 353 piksela x 8 bita =

1 138 072 bita

komprimirana 694 419

stupanj kompresije 1.64 : 1

3. LZW kodiranje (značajke i primjer)


Postavlja se inicijalna kodna tablica (rječnik), a ostatak se stvara dinamički

Ograničava se duljina tablice iz praktičnih razloga – veća tablica znači duže vrijeme

pretrage, ali i veću moć kompresije

Dekodiranje brže i jednostavnije, dinamički se gradi tablica

5

Primjer 1:

koristimo znakove (A,B,C,D)

kodiramo sekvencu ABACABADABACAB

početna tablica

#1 = A

#2 = B

#3 = C

#4 = D

čitamo string i popunjavamo tablicu:

A je u tablici kao #1 ,

A se upisuje u izlazni tok podataka sa #1

AB nije u tablici, upisuje se kao #5 u tablicu , a u izlazni tok podataka

se upisuje #2

slijedi BA koji nije u tablici, upisuje se kao #6 u tablicu, a u izlazni tok

podataka #1, itd.

IZLAZ KODNA TABLICA

#1

#2

#1

#3

#5

#1

#4

#9

#8

#2

AB = 5

BA = 6

AC = 7

CA = 8

ABA = 9

AD = 10

DA = 11

ABAC = 12

Primjer 2:

nekomprimirana slika

480 x 903 x 1 bit = 433 440 bita

komprimirana s LZW algoritmom ( u Corel-u)

83 560 bita

stupanj kompresije 5.19 : 1

6

Može li bolje?

WinZip kodira s 48 936 bita

kompresija 8,86: 1

4. Vektorska kvantizacija (značajke i primjer)


• Vektorska kvantizacija (VQ) je metoda kompresije s gubitcima

• temelji se na zamjeni bloka podataka kodnom riječi (radi se aproksimacija)

• izbor i optimizacija kodnog rječnika predstavlja složeni problem višedimenzionalne

integracije

• 1980.Linde, Buzo i Gray (LBG) predstavili su algoritam za VQ primjenom probne

sekvence (LBG-VQ)

• Vektorski kvantizator preslikava k-dimenzionalni prostor Rk u konačni set vektora

C={ci: i=1,2,3,...,N}

• Svaki vektor ci je k-dimenzionalan i predstavlja jednu kodnu riječ, a C predstavlja

riječnik.

1 2( , ,..., )i i i ikc c c c=

• Uz svaki kodni vektor pridruženo je kodno područje - područje najbližih susjeda

(Voronoi područje) definirano kao

gdje su x ulazni vektori koje kodiramo

{ }22: 1, 2,...ki i jV x R x c x c j N= ∈ − ≤ − ∀ =

• Cijeli prostor kodiranja Rk je unija kodnih područja

{ }..., NV1 2

1 1

0 , ,N N

ki i j

i ii j

V R VV P V V= =

≠

= = =∪ ∩

Primjer:

• originalna slika

– 403 x 353 piksela x 8 bita= 1 138 072 bita

• kompresija

– N = 256

– k = 16

– kodni rječnik

• 256 x 16 x 8 bita = 32 768

7

– kodirana slika

• (403 x 353)/16 x 8 bita=70 400

– ukupno 103 168

– stupanj kompresije 11.03:1

– S/N = 27.064 dB

5. Diskretna Fourierova transformacija (periodična vs. neperiodična fja., diskretna

vs. kontinuirana F. transf., odnos broja uzoraka, frekvencije uzorkovanja i perioda

promatranja)

Predavanje: 4_transformacije

Za neperiodične signale koristimo Fourierovu transformaciju:

2( ) ( ) j ftf x t e dtπ∞

−

−∞

= ∫X

2( ) ( ) j ftt X f e dfπ∞

−∞

= ∫x

Vrijedi Parsevalova jednakost energije signala u vremenskoj i frekvencijskoj domeni

2 2( ) ( )xE x t dt X f df∞ ∞

−∞ −∞

= =∫ ∫

• Zašto govorimo o Fourierovoj transformaciji?

– Koeficijenti dobijeni Fourierovom transformacijom predstavljaju frekvencijski

sadržaj signala – možemo raditi spektralnu analizu signala

– Moramo razmotriti što je s F. transformacijom neperiodičnog signala i k tome

još diskretnog (s kakvim se susrećemo u multimediji)

8

Fourierova transformacija diskretnog signala

• Diskretni signal možemo iskazati kao umnožak kontinuirane funkcije x(t) i impulsnog niza δT

• Dobijena diskretna funkcija xS(t) može se napisati u obliku

( ) ( ) ( )n

Sn

t x nT t nTδ=∞

=−∞

= −∑x

• Niz δT je periodičan s periodom T=1/fs pa ga možemo iskazati preko Fourierova reda

2

0

1 1( ) s

Tjk f t

kc t e dtT T

πδ −= =∫

2 21( ) j s skf t j kf tk

k kt c e e

Tπ πδ

∞ ∞

=−∞ =−∞

= =∑ ∑

f

Sad možemo naći Fourierovu tansformaciju diskretnog niza xS(t)

22 21( ) ( ) ( ) sj kf tj ft j ftS S

k

f x t e dt x t e e dtT

ππ π∞ ∞ ∞

− −

=−∞−∞ −∞

⎡ ⎤= = ⎢ ⎥⎣ ⎦∑∫ ∫X

9

kontinuirani signal

t

kontinuirani spektar

f

diskretni signal

kontinuirani spektar

10

Fourieova transformacija diskretnog periodičnog signala

• Realni diskretni signali su konačni, i želimo ih prikazati konačnim brojem frekvencijskih komponenti

• Način da to postignemo je da od signala duljine N uzoraka umjetno napravimo periodični tako da ga ponavljamo

• Diskretni signal x(n) ima PERIODIČAN SPEKTAR (zbog diskretnosti signala u vremenskoj domeni) koji se ponavlja svakih 2π (područje frekvencija se može iskazati kao (- π, π) ili (0, 2π)

• Diskretni periodični signal x(n) ima PERIODIČAN I DISKRETAN SPEKTAR (diskretan zbog periodičnosti u vremenskoj domeni) – razmak između komponenti je 2π/N

Periodični signal se može iskazati preko Fourierovog reda

21

0( ) 0,1, 2,..., 1

N j k nN

kk

x n c e n Nπ−

=

= = −∑

Gdje ck predstavljaju amplitude spektralnih komponenata signala

21

0

1 ( ) 0,1,2,..., 1N j nk

Nk

nc x n e k N

N

π− −

=

= = −∑

•U slučaju diskretnog periodičnog signala govorimo o Diskretnoj Fourierovoj Transformaciji – DFT

•DFT možemo računati brzim postupkom – FFT

6. DCT (princip, karakteristike, primjena)


• Kod DCT bazne funkcije transformacije su kosinusne (realne) funkcije. Diskretni signal z(n) možemo predočiti kao sumu kosinusnih funkcija

• DCT se koristi u transformacijskom kodiranju mirnih i pokretnih slika u većini standarda

(JPEG, MPEG-1, MPEG-2, MPEG-4)

1

0

2 cos (2 1) ( )2

N

k fn

kd c n x nN N

π−

=

⎡ ⎤= + ⋅⎢ ⎥⎣ ⎦∑

Gdje se amplitude cosinusnih funkcija (DCT koeficijenti) računaju kao:

1 02

1k

za kc

za ostale k

⎧ =⎪= ⎨⎪⎩

1

0

2( ) cos (2 1)2

N

k kk

kn c n dN N

π−

=

⎡ ⎤= + ⋅⎢ ⎥⎣ ⎦∑x

11

• prednost nad fft je u boljoj aproksimaciji linija s manje koeficijenata

7. DWT (karakteristike baznih fja, DWT kao digitalno filtriranje, primjena na

slikama)


Bazne funkcije DCT

12

Wavelet transformacija

• Waveleti su lokalizirane oscilirajuće funkcije definirane kao dilatacije i translacije osnovne wavelet funkcije ili “mother wavelet” ψ(t)

• Waveleti su bazne funkcije wavelet transformacije tako da funkciju f(t) možemo prikazati kao sumu waveleta s određenom amplitudom xj,k

• Analiza funkcije f(t)

∑∑ ⋅=j

kjk

kj tftf )(,)( ,, ψψkjkjkj wdtttff ,,, )()(, =⋅= ∫

∞

∞−

ψψ

)kt2(2)t( j2/jk,j −ψ=ψ

• Sinteza funkcije f(t)

Waveleti kao digitalni filtri

• primjenom konvolucije računaju se koeficijenti cj-m i dj-m

1( ) ( ) ( 2 )j jk

c n c k h k n− = ⋅ −∑•koeficijenti cj-m predstavljaju aproksimaciju signala na razini m a koeficijenti dj-m predstavljaju detalje na toj razini (rezoluciji)

•Primjer: wavelet 5/3 koji se koristi u JPEG 2000 za kompresiju mirnih slika ima filtere analize definirane preko koeficijenata

⎥⎦⎤

⎢⎣⎡ −−=

81,

86,

86,

86,

81

Ah⎥⎦⎤

⎢⎣⎡ −−=

21,1,

21

Ag

1( ) ( ) ( 2 )j jk

d n c k g k n− = ⋅ −∑

Zahtjevi na wavelete za kompresiju slike

• dobra prostorna i frekvencijska lokalizacija

• primjena FIR filtera

• simetrija

• ortogonalnost – biortogonalnost

• poželjno svojstvo –određena glatkoća wavelet funkcija sinteze

13

Wavelet filtri

Wavelet koeficijenti u piramidalnom algoritmu proračunavaju se preko konvolucije, tako

da se ovaj postupak može predstaviti digitalnim filtriranjem uz decimaciju

(poduzorkovanje).

Koeficijenti h(k) i g(k) definiraju wavelet filtre sa frekvencijskim karakteristikama H(f) i

G(f)

fk2jK

0ke

2)k(h)f(H π−

=

⋅=∑ fk2jK

0ke

2)k(g)f(G π−

=

⋅=∑

Wavelet filtar sa karakteristikom H(f) predstavlja niskopropusni pojasni filtar, dok wavelet

filtar sa karakteristikom G(f) predstavlja viskopropusni pojasni filtar.

DCT

x(n)

n

DWT

14

8. Svojstva ljudskog vizualnog sustava (građa ljudskog oka, receptori)

Predavanje: 5_slike_1r

• Ljudsko oko je sfera promjera oko 20 mm – cornea – rožnica – retina – mrežnica – iris – šarenica – lens – leća

• Mrežnica – prekrivena receptorima – cones – čunjići

• ima ih 6 –7 miliona • smješteni u središnjem dijelu mrežnice • svaki povezan s jednim živcem – raspoznavanje detalja • osjetljivi na boju • zaduženi za vid pri dobrom osvjetljenju (photopic vision)

– rods – štapići

• ima ih 75-150 miliona

• više ih je vezano na isti živac

• nisu osjetljivi na boje

• osjetljivi pri niskom intezitetu svjetla (scotopic vision)

• Fovea – u središtu žute pjege

– velične 1.5 mm x 1.5 mm

– gustoće oko 150 000 receptora po mm2

– u području fovee centralis oko 307 000 receptora

9. Što je prostorna frekvencija (definicija, osjetljivost oka na prostorne frekvencije)


R rezolucija (piksela/cm) x D udaljenost u cm

monitorD

10

x=D tan ( 10) 10

x. R je maks. broj piksela unutar 10 vizualnog kuta

)180

tan(2max ⋅⋅

=DRf π

[ perioda/10]

017455.0)180

tan( =π

15

Osjetljivost ljudskog vizualnog sustava na prostorne frekvencije

0 5 10 15 20 25

0,0

0,2

0,4

0,6

0,8

1,0

Mannos-SakrisonNill

HVS

sen

sitiv

ity

Spatial frequancies [cycle/1o)

10. Percepcija boje i sustavi za prikaz boje u slici


• Boja je složeni fenomen sa svojim objektivnim i subjektivnim aspektima;

• nije uvijek neophodna u slikama

– slike bez boje:

• zahtjevaju manje memorije

• imune su na razlike u prikazu boje na različitim monitorima

• neki ljudi ne raspoznaju boje

• ipak

– ljudi očekuju boju

– nekad je informacija koju nosi boja od vitalnog značaja

• boju moramo efikasno koristiti, svjesni ograničenja

Boja kao fizikalni fenomen • Boja je subjektivna senzacija stvorena u mozgu.

• Za elektroničku produkciju i manipulaciju bojom trebamo matematički model koji

povezuje subjektivni doživljaj boje sa mjerljivim i ponovljivim fizikalnim fenomenom.

• Vidljivo svjetlo je elektromagnetski val valnih duljina između 380 nm i 730 nm,

određenog inteziteta.

16

• Distribucija spektralne snage svjetlosnog izvora definira intezitet pojedine spektralne

komponente

Ljudski vid i doživljaj boje • ljudska mrežnica sastoji se od dvije vrste receptorskih stanica

– štapići

• neosjetljivi na boju

• omogućavaju vid kod niskih inteziteta svjetlosti

– čunjići

• postoje 3 vrste - svaka osjetljiva na drugu grupu valnih duljina

• to vodi do tzv. tristimulus teorije: svaka boja se može definirati sa samo

3 komponente različitih težina

• aditivne primarne boje : crvena (R - red), zelena (G - green), plava (B -blue)

Prikaz boje • CRT (Cathod Ray Tube) TV zasloni i računalni monitori izvedeni su od 3 vrste zrnaca

fosfora različite vrste, koji zrače dominantne valne duljine crvene, zelene i plave boje.

– za prikaz određene boje odabire se prikladan intezitet elektronskog snopa

katodne cijevi koji udara u određenu vrstu fosfora, pa se time regulira intezitet

svjetlosti koju emitira ta vrsta zrnaca

– optičko mješanje svjetlosti koju emitiraju fosforna zrnca za svaki element slike

daje doživljaj boje za dani piksel

• LCD (Liquid Christal Display) zasloni sadrže kolor filtre koji propuštaju svjetlost

crvene, zelene ili plave boje. Napon na ćeliji s tekućim kristalima određuje zakretanje

kristala, a time količinu polarizirane svjetlosti koja prolazi do kolor filtara, odosno na

zaslon.

RGB model boja • Primari RGB: crvena, plava i zelena, koriste se za dobijanje boja aditivnim

mješanjem.

• za računalne monitore ne postoji standard koji određuje boje (valne duljine) koje

odgovaraju ovim primarima, ali najčešće se koristi preporuka za HDTV (High

Definition TV - televiziju visoke kvalitete) - ITU-R BT.709

• Red = 700 nm

• Green = 546 nm

• Blue = 436 nm

17

• nepostojanje standarda rezultira u velikim razlikama u prikazu boja na različitim

monitorima

• RGB primarima nije moguće prikazati sve valne duljine koje oko vidi

11. Manipulacija slikom – operacije na pojedinačnom pikselu (promjena svjetline,

kontrasta, gamma korekcija, manipilacija histogramom)

Predavanje: 6_manipulacija_slikom

• radi se promjena inteziteta (ili razine sivog)

– selekcija - primjena maske ili filtra na selektiranom dijelu slike

• pravokutna, eliptička, laso, Bezier, magični štap (označava područje iste ili

slične boje) ...

– maska - različite razine prozirnosti

– obično se naziva alfa kanal (8-bitni)

– svjetlina slike (brightness)

• linearno mjenjamo sve vrijednosti na skali sivog

– kontrast

• povećavamo ili smanjujemo razliku između najsvjetlijeg i najtamnijeg

– manipulacija histogramom

• nelinearna promjena kontrasta

18

19

Promjena svjetline

original

g( , ) ( , )x y k f x y= ⋅

k=1.2 k=0.5

Promjena kontrasta

• intezitete u području (low_in, high_in) ulazne slike transformira u područje (low_out, high_out) u izlaznoj slici

• može biti linearna ili nelinearna transformacija

• kod nelinearne transformacije funkciju pretvorbe opisuje parametar gama

• ovakve transformacije se rade za potrebe poboljšanja slike, ali i zbog nelinearnih karakteristika prikaza slike na zaslonu katodne cijevi

– Ei = k(Eu)1/γ

γ

γ

γ

/1

/1

/1

'''

BBGGRR

=

=

=

γ

γ

γ

'''

BBGGRR

=

=

=γ

kamera ekran

19

Gama korekcija

Manipulacija histogramom

• Histogram slike s L mogućih razina intenziteta u području [0, G] je diskretna funkcija h(rk)=nk

– rk je k-ta razina intenziteta, a nk je broj piksela koji imaju tu razinu intenziteta

• Često se koristi normalizirani histogram

( )( ) k kr k

k

h r np rn n

= =∑

- gdje je n ukupan broj piksela

12. Filtriranje slike (niskopropusno, visokopropusno)


Filtriranje

• Ako je x(n) ulazni diskretni signal, a y(n) izlazni signal nakon filtriranja, vrijedi konvolucija:

)()()()(

)()(

)( ωω

ω

ω

ω

jXjHeknxkh

enyjY

n

knkj

k

n

nj

⋅=⋅−⋅=

=⋅=

∑ ∑

∑∞

−∞=

−+−∞

−∞=

∞

−∞=

−

∑−

=

−=1

0)()()(

K

kknxkhny

• U frekvencijskoj domeni to odgovara izrazu

• gdje su Y(jω) i X(j ω) dobijeni Fourierovom transformacijom y(n), odnosno x(n)

20

Niskopropusno filtriranje • omekšava oštre rubove (blur)

• Gaussov niskopropusni filtar

– konvolucijska maska u obliku Gaussove krivulje

– moguće je mjenjati promjer širine maske (praktično to znače mjenjanje standardne devijacije Gaussove krivulje)

• promjer od 4 do 8 piksela omekšava rubove • maksimalni promjer maske, 250 piksela, daje srednju vrijednost u

području na kojem je primjenjen filtar

– često se koristi za pravljenje sjene na objektima

Blur sa Gaussovom maskom Original radijusa 29 piksela

• Gaussov niskopropusni filtar proračunava se iz formule

2 21 2

2

1 2

( )2

1 2

1 21 2

( , )

( , )( , )

n n

g

g

gn n

h n n e

h n nh n n

h

σ− +

=

=∑∑

• primjer uz σ=4

0.0587 0.0624 0.0624 0.05870.0624 0.0665 0.0665 0.06240.0624 0.0665 0.0665 0.06240.0587 0.0624 0.0624 0.0587

h

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

21

Visokopropusno filtriranje • Visokopropusno filtriranje koristi se za izoštravanje slike

• Ovakvo filtriranje obično je preoštro

• Bolji se rezultati dobiju ako se od originala oduzme njegova niskopropusna verzija, tzv. unsharp masking

13. Geometrijske operacije na slici Predavanje: 6_manipulacija_slikom

• definirane su kao funkcije položaja piksela, a ne njihova inteziteta

• skaliranje, translacija, refleksija, rotacija, rezanje

• često se zahtjeva interpolacija piksela

– interpolacija najbližim susjedom

• više piksela u novoj slici ima isti izvor u originalu - nedostatak je što se obično

vide blokovi piksela

– bi-linearna interpolacija

• koristi 4 najbliža piksela originala sa težinama proporcionalno površini koju

zauzima novi piksel na njima

– bi-kubična interpolacija

• koriste se kubični splineovi, ostvaruju se meki prijelazi

22

• Translacija slike ),(),( byaxfyxg − −=

)cossin,sincos(),(

• translacija za a u horizonatalnom smjeru, i za b u vertikalnom smjeru

• Rotacija slike za kut θ

14. Detekcija objekata na slici (detekcija rubova)


• Postupak detekcije ruba odnosi se na proces identifikacije i lociranja naglih

diskontinuiteta na slici.

• Detekcija ruba u prostornoj domeni uključuje konvoluciju pomoću operatora (2-D

filtri) koji su osjetljivi na velike promjene gradijenta intenziteta elemenata slike

• Gradijent se računa konvolucijom sa odgovarajućim dvodimenzionalnim filtrima

θθθθ yxyxfyxg = − +

• kod rotacije izazna slika često nije u području ulazne slike, pa se primjenjuje

Zumiranje slike

• smanjivanje ili povećavanje slike gdje vrijedi

)/,/(),( dydxfyxg =

))5.0(),5.0((),(

• uz d ≥ 1 sliku ćemo uvećati

• uz d < 1 sliku ćemo smanjiti

• potrebna je interpolacija

Interpolacija

• Interpolacija najbližim susjedom

+= yINTxINTfyxg +

• INT(z) označava cjeli broj manji ili jednak z • Interpolacija najbližim susjedom daje za više piksela u izlaznoj slici vrijednost

jednog piksela ulazne slike • smanjena rezolucija – blokovi u slici

23

- I je originalna slika, K je konvolucijska maska (impulsni odziv dvodimenzionalnog

filtra)

),()1,1(),(1 1

lkKljkijim

k

n

l∑∑= =

−+−+Ι=Ο

• Operatori su definirani prema sljedećim zahtjevima:

– orijentacija ruba

• geometrija operatora ukazuje na smjer ruba

– utjecaj šuma

• detektiranje ruba je otežano ukoliko je šum jako izražen. Pokušaji smanjenja šuma

izazivaju iskrivljene rubove. Operatori koji mogu zanemariti utjecaj šuma mogu raditi s

većom količinom podataka izuzimajući pritom one elemente slike gdje je šum jako

izražen, ali se u tom slučaju znatno smanjuje ukupna točnost detekcije rubova

– struktura rubova

• ne uključuju svi rubovi stepenastu promjenu intenziteta. Efekti kao što je npr. refrakcija

na objektu rezultira rubom koji je definiran postupnom promjenom intenziteta elemenata

slike, a operator koji koristimo mora biti prilagođen takvoj promjeni

Detekcija rubova objekta

• PREWITT-ov OPERATOR

– koristi centralnu derivaciju i konvolucijsku masku veličine 3x3

IGy ∗⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−−=

111000111

IGx ∗⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−−

=101101101

• SOBEL-ov OPERATOR

– koristi centralnu derivaciju i konvolucijsku masku veličine 3x3, ali propuštenu kroz niskopropusni filtar [1 2 1]

IGx ∗

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−−

=101202101

IGy ∗⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−−=

121000121

24

• CANNY-jev OPERATOR

– prvo se primjenjuje Gaussov filtar za smanjenje šuma

– koriste se 4 matrice za detekciju horizontalnih, vertikalnih i dijagonalnih rubova

– radi se mapa položaja rubova i njihove orijentacije

– Canny operator koristi metodu praga s histerezom koja postavlja dvije vrijednosti

praga: gornji i donji.

– Korištenjem gornjeg praga određuju se oni rubovi koji će sigurno biti ispravno

detektirani.

– Zatim se promatraju susjedni elementi slike (oko označenog ruba) i ukoliko je njihova

vrijednost između gornjeg i donjeg praga, također se proglašava rubom

– Točnost rubova izdvojenih Canny detektorom je ± 1 element slike.

15. Formati za bitmap slike, formati za vektorsku grafiku, glavne značajke (s

obzirom na kompresiju i prikaz boje)

Predavanje: 8_formati_1_web

•Bitmapslike(piksel mape)

–slike modelirane kao polje elemenata slike(piksela)

–na monitoru slikese uvijek prikazuju kao polje piksela

•Vektorska grafika

–slika je spremljenauobliku matematičkog opisa skupine individualnih linija,krivuljairazličitih

oblika

–slika je spremljenaugrafičkom jeziku kao što jePostScriptiliPDF

–prikaz zahtjeva određeni proračun za generiranje polja piksela

•Encyclopedia of Graphic File Formats (J.D. Murray, W.vanRyper, 1996)definira

preko100različitih formata

•zabitmapslike glavna razlikauformatima jeunačinu na koji je slika komprimirana

–GIF -razviliu Computer Serve -uobičajeniformatza razmjenubitmapslika između različitih

platformi

•kompresija bez gubitakaLZW (Lampel,Ziv, Welch)

•256boja

•1bojasemože definirati kao transparentna

•najboljiformatza jednostavne slike kao što su crtići ili računalne sintetičke slike

•lošiji razultati za fotografije

25

•JPEG standardmože biti ukomponiranudatoteke različitih formata

–zabitmapslike sa kontinuiranim tonovimaivelikim brojem boja

–JFIF -JPEG File Interchange Format

–SPIFF -Still Picture Interchange File Format

–JPEG standardje ugrađeni u TIFF i EPS format

•PNG -Portable Network Graphics -(čitase ping)novijiformat,razvijen za razmjenu naWeb-u

–bez gubitaka-LZ77algoritam(ne plaćase)

–nije ograničen na256boja

–transparentnost je ugrađenausofisticiranoj formi

–razvijen premaW3C (WWW Consortiumosnovan1994)preporuci1996.

IzvanWeb-auobičajeni formati su

•TIFF -Tag Image File Format

–podržava više kompresija uključujućii JPEG

–256*256*256boja

–podržava ga većinapaintingprograma(ponekad neupotpunosti)

–podržan Windowsima

•BMP -Microsoft Windows Bitmap

–ovisanoplatformi

–ipak,većinom ga podržavajuidrugi operacijski sustavi

–najčešćenije komprimiran

•TGA -Truevision Targa

–jedan od prvih koji je podržavao više od256boja

–prihvaćen na većini platformi

Formati za vektorsku grafiku

•DominiraPostScript format -razviliuAdobaSystem sredinom80-tih

–programski jezik opisuje koji su grafički elementiikako su postavljeni na stranici

–PostScriptje predviđen kaopage layoutjezik-slikaseukomponiraustranicu sa tekstom

•EPS -encapsulated PostScript

–slika je samostalnaimože biti ubačenaudrugi dokument

–za prikaz slika.eps potreban je puniPostScript interpreter

•SVG -Scalable Vector Graphics format (1999)

–definiranu XMLjeziku(zaWeb)

–izvedenica PostScripta sa manjim brojem operacija-prilagođen prijenosu preko mreže

26

•SWF-originalno napravljen za vektorsku animacijuuMacromediaFlash programu

–sada predstavlja otvorenistandardza vektorsku grafiku

–često korištenipodržan preglednicima

•WMF -Microsoft Windows metafile

•PICT -Macintosh format

•DXF -formatza AutoCad datoteke

16. Karakteristike JPEG norme, elementi JPEG kodera. (zašto se radi blok-DCT)

Predavanje: 7_jpeg_jpeg2000_web

• Joint Photographic Expert Group - radna grupa zajedničkog ISO/IEC komiteta (JTC1)

• JPEG standard za kompresiju mirnih slika- ISO/IEC 10918-1 (takođe ITU-T Rec.

T.81) 1993.

• JPEG koder

• komprimirana_slika.JPEG

• Standard za kompresiju

• slika u nijansama sivog

• slika u boji

• korisnik određuje kvalitetu slike

• primjenjiv na slike različitih dimenzija

• dobri rezultati za slike kontinuiranih prijelaza, slabiji za računalom generirane slike

• podržava nekoliko načina rada:

• sekvencijalni ( baseline koder)

• progresivni (slika se prikazuje kroz nekoliko prolaza sa sve više detalja)

• bez gubitaka (lossless)

Prikaz digitalne slike • slika je predstavljena dvodimenzionalnom matricom (bitmap)

– svaki element matrice predstavlja jednu točku na slici; element slike - pixel (od picture

element)

– broj bita za jedan element slike određuje raspon boja na slici - dubinu (pixel depth,

picture depth)

• 8 bita za slike u nijansama sive (256 nijansi)

• 3 x 8 bita za slike u boji

– 3 komponente boje (R GB, YUV, YIQ,..)

27

– neke komponente mogu biti poduzorkovane (npr. krominantne komponente U i V u

YUV sustavu - oko je manje osjetljivo na prijelaze boja)

JPEG koder

8x8 blok

JPEG

Zašto se koristi DCT?

• DCT prebacuje sadržaj slike u frekvencijsko područje

• Ljudski vizualni sustav manje je osjetljiv (slabije razaznaje) detalje - što odgovara

visokim frekvencijama, najosjetljiviji je na srednje frekvencije, te ima nešto smanjenu

osjetljivost na niskim frekvencijama

• Slike iz prirode većinom imaju izraženije niskofrekvencijske komponente (vrijednosti

susjednih elemenata slike imaju približne vrijednosti na većem dijelu slike)

17. Blok shema JPEG2000 kodera. Karakterisike JPEG2000 (kako je ugrađeno

kodiranje bez gubitaka, što je ROI, objasniti skalabilne modove)

Predavanje: 7_jpeg_jpeg2000_web

• Novi standard za kompresiju mirne slike

• JPEG2000 je komplementaran starom JPEG standardu bez namjere da ga zamjeni

• Razvijen u okviru ISO/IEC JTC1

• Temelji se na DWT - Diskretnoj Wavelet Transformaciji, a ne na DCT

Značajke JPEG2000

• Visoka efikasnost kompresije

• Transformacija boje bez gubitaka

• Lossy i lossless kodiranje u jednom algoritmu

• ugrađeno lossy u lossless kodiranje

DCT bloka

Kvantizator Entropijski koder

Originalna slika

Komprimirana

slika

Kvantizacijska tablica

Specifikacijska tablica

28

• progresivni prijenos po rezoluciji, kvaliteti,

• Statičko i dinamičko Region-of-Interest (ROI) kodiranje

• otpornost na pogreške

• kodiranje prema percepcijskoj kvaliteti

• višekomponentno kodiranje slike

• dijeljenje slike u “pločice” (tiling)

• kodiranje slika sa paletama

ROI – područje za koje bitovi idu na početku bitstreama

18. Osnovne značajke analognih TV sustava (brzine okvira, broj linija, sustav boja,

analiziranje s proredom)

Predavanje: 9_video_1

• NTSC (National Television System Committee)-1953

• koristi se u Sjevernoj Americi, Japanu, Tajvanu i dijelu Južne Amerike

• PAL (Phase Alternating Line) - 1963.

KvantizacijPodjela u

blokove za kodiranje

DWslik

Entropijsko kodiranje

bez

Tiling

Alokacija bitova

Tiling

• slika se dijeli u “pločice” jednake veličine

– od 64x64 do 256x256 piksela

• na svakoj “pločici” radi se DWT

• smanjuje se procesorsko vrijeme

• omogućava jednstavno izdvajanja pojedinog područja slike

• “pločice” mogu biti transformirane sa različitim brojem DWT razina

29

• koristi se u većini Zapadnoevropskih zemalja, Australiji, Novom Zelandu, Kini, dijelu Južne

Amerike

• postoje lokalne varijacije osnovnog standarda

• SECAM (Sequential Couleur avec Memoire)

• koristi se u Francuskoj, bivšem Sovjetskom Savezu i Istočnoj Europi

• Osnovna razlika između standarda je u načinu na koji se dva signala boje ukomponiraju sa

signalom luminacije u isti frekvencijski pojas.

• Razlika postoji i u ostalim karakteristikama, kao što je broj okvira u sekundi, te broj linija u

okviru

• Za ostvarivanje dojma kontinuiranog pokreta potrebno je najmanje 24 okvira u sekundi.

• PAL radi sa 25 okvira u sekundi

• NTSC radi sa 29.97 okvira u sekundi

• film za kino projekciju ima 24 okvira u sekundi

• Za sliku koja ne titra potrebno je najmanje 40 okvira (slika) u sekundi.

– primjenjuje se princip razlaganja slike na dvije poluslike (interlacing ili interleaving) –

analiziranje s proredom

• PAL 50 poluslika u sekundi

• NTSC 59.94 poluslika u sekundi ( 30 x1000/10001 - sa 60 poluslika pojavila se

interferencija boje sa zvukom)

– za film se koristi prikaz svakog okvira dva puta

• Princip razlaganja okvira na poluslike – analiziranje s proredom

• Broj linija

– NTSC: 525 linija, od toga 480 aktivnih

– PAL: 625 linija, od toga 576 aktivnih

• pasivne linije služe za povrat elektronskog mlaza sa kraja okvira (desni donji ugao) na

početak sljedećeg okvira (gornji lijevi ugao slike) - signal je u naponskom području “crnje od

crnoga”

19. Digitalizacija videa (BT.601,poduzorkovanje komponenata boje (4:2:2, 4:2:0,

4:1:1))


• Koristi se YUV signal

• Iskorištava se manja osjetljivost ljudskog vizualnog sustava na promjenu boje u

odnosu na promjenu svjetline

– poduzorkovanje komponenata boje

– različite kvantizacijske tablice za boju

30

• Poduzorkovanje (subsampling)

• Preporuka ITU-R BT.601

• uzorkovanje Y sa 13.5 MHz

• uzorkovanje CR (V) i CB (U) 6.75 MHz

• odnos broja uzoraka luminacije i krominantnih komponenti kod uzorkovanja se

označava kao Y : C1 : C2

• CCIR 601 tj. ITU- R BT.601

• 720 uzoraka po liniji za luminaciju

• 360 uzoraka po liniji za svaku krominantnu komponentu

• 4:2:2 shema poduzorkovanja

– uzorci za boju uzimaju se za svaki drugi piksel u svakoj liniji

• uz 8 bita po uzorku ovakvo uzorkovanje daje

720 +360 +360 =1440 elemenata/liniji

1440 x 576 x 8x25 = 160 Mb/s (20 MB/s)

PPoodduuzzoorrkkoovvaannjjee kkoommppoonneennaattaa bboojjee

31

20. Područje primjene MPEG 1, MPEG 2, MPEG 4, MPEG 7 i MPEG 21

norme.Intraframe kodiranje prema MPEG 2 normi


• MPEG-1 (1993.)

• ISO 11172

• VCR kvaliteta i CD-ROM

• CIF (288 x 352) ili SIF (240 x 352) na 1.2 Mbps

• MPEG-2 (1994.)

• ISO 13818

• Namjenjen za digitalnu televiziju standardne kvalitete, više audio kanala,

pogodan i za HDTV

• obično iznad 10 Mbps

• MPEG-3

• Napušten

• MPEG-4 (1998./1999.)

• ISO 14496

• interaktivna multimedija (WWW), interaktivne grafičke aplikacije

• tri moda rada:

– niska brzina (< 64 kbit/s)

– srednja (64 do 384 kbit/s)

32

– visoka (384 kbit/s do 4 Mbit/s)

• MPEG-7 (2001.)

• započet u listopadu 1996.

• sučelje za opis multimedijskoh sadržaja

• MPEG-21

• multimedijski sustavi

• Za neke primjene koristi se samo unutarokvirna kompresija (“intra-frame”)

– motion JPEG, motion JPEG2000

– neosjetljiv na gubitak okvira tijekom prijenosa

– malo kašnjenje okvira (compression delay)

– 8 - 10 Mbps

• U većini slučajeva koristi se unutarokvirna (“intra-frame”) i međuokvirna

(“inter-frame”) kompresija

– postižu se viši stupnjevi kompresije

– nedostatak je značajno kašnjenje zbog proračuna i redosljeda okvira

22. Interframe kodiranje prema MPEG 2 normi (vektori pokreta, predikcija

pokreta)


33

prostorna kompresija - intra-frame

• redundancija u horizontalnoj i vertikalnoj dimenziji slike-sličnost piksela

• kompresija unutar jednog okvira

• slična JPEG-u

• Iskorištava se temporalna redundancija

– veći dio slike je isti u nizu okvira

– neki objekti se miču

– manji dio je novih podataka

• Pokret se istražuje na makroblokovima 16 x 16 piksela tehnikama korelacije

– proračunava se vektor pokreta - smjer translacije makrobloka

• za P okvire iz prethodnog okvira

• za B okvire iz prethodnog i slijedećeg okvira

– manje se bitova troši na slanje vektora pokreta nego za komprimirani

makroblok

Predikcija makrobloka kompenzacijom pokreta

• U MPEG-2 normi makroblok je dio okvira veličine 16 x 16 piksela, i predstavlja

osnovnu jedinicu za predikciju pokreta kompenzacijom.

• Makroblok sadrži

– za svjetlinu16 x 16 piksela (4 bloka)

– za boju (s poduzorkovanjem) dva bloka s 8 x 8 elemenata (Cb i Cr)

Makroblok

• Predikcija pokreta makrobloka uključuje pronalaženje sličnih područja veličine 16 x

16 u referentnom okviru

• Referentni okvir je prethodno kodirani okvir i može biti prije ili poslije u redoslijedu

prikazivanja u sekvenci.

• U referentnom okviru traži se makroblok najsličniji makrobloku u trenutnom okviru i

proračunava se VEKTOR POKRETA

34

Predikcija pokreta i kompenzacija temeljena na blokovima

• Postupak predikcije pokreta

• Pretraži područje u referentnom okviru (prijašnji ili budući okvir, prethodno kodiran i poslan) kako bi se našlo odgovarajuće polje – najsličniji trenutnom makrobloku s 16x16 elemenata slike (piksela)

• Odabrano područje postaje prediktor za trenutni 16x16 blok te se oduzima od trenutnog makrobloka kako bi stvorio rezidualni 16x16 makroblok

• Rezidualni blok se kodira i prenosi. Također se prenosi i razlika između položaja trenutnog bloka i položaja odabranog područja (prediktora) kao vektor pokreta.

• Ako se predikcija radi samo na temelju prethodnog okvira tada rezidualni blok i vektori pokrate čine P okvir, a ako se predikcija radi na temelju prethodnog i sljedećeg okvira radi se o B okviru

23. I, P, B okviri, GOP struktura (osnovne karakteristike pojedine vrste okvira, kako

se slažu u GOP strukturu i kako utječu na brzinu)


B okvir • B okvir - bidirectionally predicted okvir

• predviđaju se iz I-okvira i/ili P-okvira

• iz prethodnog i budućeg okvira

– to osigurava dobru predikciju dijelova okvira koji ne postoje još u prethodnom

okviru

• povećavaju količinu proračuna

• ali značajno povećavaju kvalitetu videa

Intracoded frame (I-frame) (independant frame) -ne nastaje iz drugog okvira

Predicted frame (P-frame) • je okvir koji nastaje samo iz (nekog od) prethodnih okvira

• uvijek nastaje od I-okvira

35

GOP – Group of Pictures

Slijed izmjene okvira

• I-frame

• najslabije komprimiran

• služi za sinkronizaciju

• mora se pojavljivati svakih 300 do 400 msec

36

• za VCR svakih 150 P-okvira ili I-okvira

• B-frame

• najbolje komprimiran

• ali ovisi i unatrag i unaprijed

• PAL: n=9, m=3

• IBBPBBPBBI

• NTSC: n=12, m=3

• IBBPBBPBBPBBI

36

24. Profili i razine kod MPEG 2 norme


Profili:

Profile Level

Simple Main SNR Spatial High

Low

4:2:0 352 x 288

4 Mb/s I,P,B

30 okvira/s

4:2:0 352 x 288

4 Mb/s I,P,B

30 okvira/s

Main

4:2:0 720 x 576 15 Mb/s

I,P 30 okvira/s

4:2:0 720 x 576 15 Mb/s

I,P,B 30 okvira/s

4:2:0 720 x 576 15 Mb/s

I,P,B 30 okvira/s

4:2:0, 4:2:2 720 x 576 15 Mb/s

I,P,B 30 okvira/s

High-1440

4:2:0 1440 x 1152

60 Mb/s I,P,B

60 okvira/s

4:2:0 1440 x 1152

60 Mb/s I,P,B

60 okvira/s

4:2:0, 4:2:2 1440 x 1152

60 Mb/s I,P,B

60 okvira/s High

4:2:0 1920 x 1152

80 Mb/s I,P,B

60 okvira/s

4:2:0, 4:2:2 1920 x 1152

100 Mb/s I,P,B

60 okvira/s

• osnovni (SP = Simple Profile) – daje najnižu kvalitetu signala, ne podržava slojevito

kodiranje, ne uključuje dvosmjerno predviđanje, shema uzorkovanja 4:2:0;

• glavni (MP = Main Profile) – ne podržava slojevito kodiranje, ali postoji dvosmjerno

predviđanje; shema uzorkovanja 4:2:0;

• profil sa slojevitošću u odnosu na omjer signal/šum (SNR) – omogućava različite

kvalitete slike s obzirom na odnos signala i šuma;

• profil s prostornom slojevitošću (Spatial) – podržava različite prostorne rezolucije

slike;

• visoki profil (HP = High Profile) – podržava potpunu slojevitost i najvišu kvalitetu

slike

37

Razine:

• niska (LL = Low Level) – SIF format slike

• glavna (ML = Main Level) – BT 601 formati TV slike

• visoka 1440 (High-1440) – videosignal s 1440 uzoraka po liniji

• visoka (HL = High Level) – videosignal s 1920 uzoraka po liniji

25. Osnovne karakteristike MPEG 4 norme (područje primjene,brzine, postavke,

karakteristike MPEG-4 Visual, VOP i VO))

Predavanje: 10_video_3x

• postaje međunarodna norma početkom 1999.

• drastično smanjenje bitne brzine

• 4.8 do 64 Kbps uz još uvijek prihvatljivu kvalitetu

• podržava i veće brzine prijenosa

– srednja (64 do 384 kbit/s)

- visoka (384 kbit/s do 4 Mbit/s) (u nekim profilima ide i na više brzine)

• od sub-QCIF veličine okvira do “studio veličine” 4k x4k

• namijenjena za

– interaktivnu multimediju (web)

– interaktivne grafičke aplikacije

– digitalnu televiziju

• s mogućnošću korištenja za

– video konferencije

– video telefoniju

• Osnovne postavke nove norme

– Univerzalne mogućnosti i robusnost u okolini osjetljivoj na pogreške

Multimedijski audio-vizualni podaci moraju se prenositi i moraju biti pristupačni u

heterogenoj umreženoj okolini, posebice u teškim uvjetima.

– Velika interaktivna funkcionalnost

Velika važnost daje se interaktivnom pristupu i upravljanju audio-vizualnim

podacima.

– Kodiranje stvarnih i sintetiziranih podataka

– Učinkovita kompresija

Za pohranjivanje i prijenos audio-vizualnih podataka potrebna je velika efikasnost

kodiranja uz dobru kvalitetu rekonstruiranih podataka.

38

Ovisnost brzine prijenosa i funkcionalnosti

64 kbit/s do 2 Mbit/s

5- 64 kbit/s

MPEG-4 Part 2. Visual

• MPEG-4 Part 2. Visual definira algoritme za rad s različitim tipovima vizualnih objekata

– pokretni video (pravokutni okviri)

– video objekti (proizvoljno oblikovana područja videa)

– 2-D i 3-D “mrežasti” animirani objekti

– animirano ljudsko lice i tijelo

– statične (mirne) slike

• Uvodi nove alate za kompresiju ovih objekata

– Osnovno kodiranje je blok-DCT + entropijsko kodiranje – ali su dodani napredni alati

• uveden je koncept VOP-a (Video Object Plane).

– Svaki se okvir ulazne sekvence segmentira u nekoliko proizvoljno oblikovanih

područja odnosno VOP-ova: svako područje pokriva jedan dio scene i na taj način

opisuje objekt unutar jednog okvira.

• Uzastopni VOP-ovi koji pripadaju istom objektu definirani su kao VO (Video

Object).

– Svi VO-i imaju svoja prostorna i vremenska obilježja tj. sadrže lokalne

koordinate koje utvrđuju fiksni položaj danog objekta, a smješteni su unutar scene

39

transformacijama lokalnog koordinatnog sustava u opći, scenski koordinatni

sustav.

• Sve informacije o VOP-ovima koji pripadaju jednom VO kodiraju se unutar zasebnog

VOL-a (Video Object Layer),

– informacije nužne za identifikaciju svakog VOL-a, te kako se VOL-ovi

sastavljaju i rekonstruiraju na prijemnoj strani uključeni su u sloj toka bitova

(bitstream layer).

26. Napredni alati u MPEG 4 Visual (4 vektora pokreta, neograničeni vektori

pokreta, …)


• Osnovno kodiranje videa u MPEG-4 temelji se na blok DCT –u te predikciji pokreta

(vektori pokreta)

• Poboljšanje kvalitete komprimiranog videa ostvaruje se korištenjem naprednih alata

– 4 vektora pokreta po makrobloku

– Unrestricted MV – neograničeni vektori pokreta

– Intra- prediction

– Globalna kompenzacija pokreta

– Kompenzacija pokreta na ¼ piksela

– H.263 / MPEG-2 kvantizator

• 4 vektora pokreta po makrobloku

– makroblokovi 16x16 ili 8x8 elemenata okvira(bira koder za svaki makroblok)

• bolja predikcija uz rubove pokretnog objekta i kod brzih pokreta

• 1 ili 4 vektora pokreta

40

• Unrestricted MV – neograničeni vektori pokreta

– koristi se kada je područje “matching” makrobloka dijelom izvan granica

referentnog okvira

• Intra- prediction

– DC koeficijenti 8x8 blokova se predviđaju iz susjednih prethodno kodiranih

blokova

– opcionalna je predikcija i prvog reda i prvog stupca matrice AC koeficijenata

DCT

27. Profili i razine kod MPEG 4 standarda


Profili za prirodne video sadržaje

1. Simple Visual Profile

• za male brzine i rezolucije, s visokom otpornosti na šum – mobilne

aplikacije, pravokutni okviri

2. Simple Scalable Visual Profile

• uključuje opciju skalabilnosti za primjene s mogućnošću promjene

parametara kvalitete (Internet, programski dekoderi), pravokutni okviri

3. Core Visual Profile

• podržava kodiranje objekata proizvoljnog oblika s mogućnošću

skalabilnosti, uključuje i jednostavnu interaktivnost (Internetske multimedijske

aplikacije)

4. Main Visual Profile

• podržava kodiranje interlaced videa, sprite objekata i transparentnih

objekata – za interaktivni video za DVD i difuziju

5. N-bit Visual Profile

• kodiranje objekata sa dubinom bita od 4 do 12 – za video nadzorne

sustave

SSiimmppllee VViissuuaall PPrrooffiillee • VLBV Core model kodeka

– Kodiranje pravokutnih okvira, male brzine

• Osnovna struktura kodiranja sastoji se od blok DCT kodiranje i predikcije pokreta

– I-VOP

41

• 8x8 blok DCT, kvantizacija, cik-cak skeniranje i run-length i variable-length kodiranje

– P-VOP

• standardna estimacija i kompenzacija pokreta na makroblokovima 16x16 elemenata

okvira, razlučivost ½ piksela

• Dodatni alati povećavaju učinkovitost kodiranja i prijenosa

– 4 vektora pokreta po makrobloku, neograničeni vektori pokreta, intra predikcija

– Video paketi, dijeljnje podataka, reverzibilni kodovi promjenjive duljine, kratko zaglavlje s

GOB-ovima

Profili za prirodne video sadržaje

(dodani u verziji 2)

7. Advanced Real-Time Simple (ARTS)

• napredne tehnike zaštite od pogreške za pravokutne video objekte, korištenje

povratnog kanala, mogućnost korištenja proizvoljnog referentnog okvira (tj. VOP-a),

mogućnost smanjenja rezolucije kod loših uvjeta prijenosa, malo kašnjenje –

videotelefonija, videokonferencije, daljinski nadzor

8. Core Scalable Profile

• kodiranje objekata sa opcijom temporalne, rezolucijske i SNR skalabilnosti - za

Internet, mobilne i broadcast primjene

9. Advance Coding Efficiency (ACE)

• unaprijeđena efikasnost kodiranja i za blok kodiranje i za objektno kodiranje –

primjene za mobilnu TV difuziju, kamere

Profili za prirodne video sadržaje (dodani u sljedećim verzijama standarda)

8. Advaced Simple Profile

• Za pravokutne objekte, s dodatnim alatima: B okviri, kompenzacija pokreta na ¼

piksela, globalna kompenzacija pokreta, dodatne kvantizacijske tablice, interlaced

alati

10. Fine Granularity Scalability Profile

• Za sloj poboljšanja dozvoljava prekid bitnog niza na bilo kojoj poziciji – kao

osnovni sloj može koristiti Simple ili Advance Simple profil

11. Simple Studio Profile

• Profil za visoko kvalitetni video za studijske aplikacije. Koristi samo I okvire, ali i

objekte proizvoljnog oblika i višestruke alfa kanale – brzine do 2 Gb/s

12. Core Studio Profile

• Dodaje P okvire na Simple Studio

Profili za sintetičke i hibridne sadržaje

42

13. Simple Facial Animation Visual Profile

• animacija lica – primjena kod prezentacija za gluhe osobe

14. Scalable Texture Visual Profile

• skalabilno kodiranje za mirne slike

15. Basic Animated 2-D Texture Visual Profile

• osigurava prostornu i SNR skalabilnost, animaciju na osnovi mrežaste strukture i

jednostavnu animaciju lica

16. Hybrid Visual Profil

• dekodiranje objekata proizvoljna oblika i temporalne skalabilnosti s mogućnošću

dekodiranja nekoliko sintetičkih i hibridnih objekata uključujući animirano lice i

animirane mirne slike

Profili za sintetičke i hibridne sadržaje (verzija 2)

17. Advanced Scalable Texture Profile

– dekodiranje objekata i mirnih slika sa skalabilnošću, uz wavelete tiling i otpornost

na pogreške- omogućava slučajan pristup – primjena kod pretraživanja Interneta

18. Advanced Core Profile

– dekodiranje video objekata + dekodiranje skalabilnih objekata kod mirnih slika –

primjena kod interaktivnog streaminga multimedije preko Interneta

19. Simple Face and Body Animation Profile

– animacija lica + animacija tijela

28. H.261, H.263 standard


H.261 standard • Standard za videokonferencije i videotelefoniju – tip videa “glava koja govori”

• započet 1984., odobren u prosincu 1990.

• Predviđen za male brzine p x 64 kb/s, p je cijeli broj od 1 do 30

• Broj okvira 29,97 okvira/s

• Formati okvira CIF (352 x 288), QCIF (176 x 144) za video i 4 CIF (704 x 576) za

mirnu sliku

• 4:2:0 poduzorkovanje boje

• Blok DCT kodiranje -blokovi 8x8 piksela

• Predikcija pokreta – makroblokovi 4 bloka Y, 1 blok Cr i 1 blok Cb

43

• Računaju se vektori pokreta i matrica razlike za svaki makroblok

– opcionalno se koristi niskopropusni filtar u petlji za proračun kompenzacije

pokreta

• 33 makro bloka čini grupu blokova (GOB)

H.263 standard • Cilj razvoja novog standarda je dizajniranje postupka kodiranja videa za brzine ispod

64 kb/s (specifikacija za 33.4 kb/s – V.34 modem)

• Rad na standardu započeo je u studenom 1993. a završen u ožujku 1996.

• Temelji se na H.261 uz poboljšanje algoritama i širi raspon parametara videa

• U odnosu na MPEG-1 daje do 30% veću kompresiju uz istu kvalitetu

29. H.264 standard (karakteristike, unutarokvirna predikcija, kompenzacija

pokreta, transformacijsko kodiranje, adaptivni deblokirajući filtar, entropijsko

kodiranjeVSL i NAL sloj, profili)


• AVC – Advanced Video Coding

• U prosincu 2001. od MPEG i VCEG grupe formiran JVC (Joint Video Team)

• standardi u ITU-T i ISO/IEC završeni 2003.

• u srpnju 2004. završen FRExt – Fidelity Range Extension

• Siječanj 2005. – skalabilno video kodiranje

Zahtjevi na novi standard • značajno poboljšanje efikasnosti kodiranja

• visoka otpornost na pogreške i gubitke (paketa)

• dobre osobine u prijenosu mrežama

• podržavanje sustava koji zahtjevaju malo kašnjenje

• dekodiranje s točnim podudaranjem

Karakteristike H.264 • poboljšano kodiranje za interaktivne aplikacije (videotelefonija, videokonferencije)

• poboljšana svojstva u mrežama podložnim smetnjama (mobilne UMTS i GSM) i

gubitcima paketa (Internet)

• drugačija rješenje u odnosu na prethodne standarde

– predikcija za unutarokvirno kodiranje

– filtri za deblokiranje u predikcijskoj petlji za proračun vektora pokreta

44

– proračun vektora pokreta u odnosu na više referentnih okvira

– ne koristi DCT nego cjelobrojnu transformaciju

Unutarokvirna predikcija

(Intra Prediction) • Unutarokvirna predikcija se koristi za kodiranje I slika (okvira)

• Za predikciju se koriste blokovi 4x4 i 16x16 elemenata slike za svjetlinu, i 8x8 za

kromatske komponente

• za 4x4 blok 9 modova predikcije

– koeficijenti unutar bloka se računaju iz već dekodiranih okolnih elemenata

– mod 0: vertikalna predikcija

– mod 1: horizontalna predikcija

– mod 2: DC predikcija (srednja vrijednost)

– ...

• Razlika između predviđenih i stvarnih vrijednosti se kodira – prvo se koristi

cjelobrojna transformacija, a zatim entropijsko kodiranje

Kompenzacija pokreta • Makroblokovi svjetline mogu biti 16x16, 16x8, 8x16, 8x8 elemenata slike

• Daljnje dijeljenje je u 8x8 pod-makroblokove veličine 8x8, 8x4, 4x8 ili 4x4

• Više referentnih slika se može koristiti za predikciju

• Točnost predikcije je na ¼ piksela

• Kod B slika predikcija se temelji na prethodnom i budućem okviru s mogućnošću

korištenja različitih težina

• Predikcija se temelji na B-slice (odsječku B slike) koji može biti i referentna slika

Transformacijsko kodiranje • Koristi cjelobrojnu transformaciju (ne DCT, ali baziranu na DCT) primjenjenu na 4x4

blokove

– Koristi se i za I i za P, odnosno B okvire za rezidualne podatke nakon

oduzimanja predviđeog od stvarnog okvira

– Cjelobrojna transformacija jednostavnija je za proračun i zahtjeva samo

pomak, zbrajanje i oduzimanje

• DC koeficijenti se ponovno transformiraju Hadamard transformacijskim matricama

– 4x4 veličine za DC koeficijente bloka luminacije

– 2x2 veličine za DC koeficijente blokova krominacije

• Koristi se skalarna kvantizacija

45

Adaptivni deblokirajući filtar • Podjela u blokove potrebna za efikasnu primjenu algoritama (kao i u svim prethodnim

standardima) uzrokuje pojavu vidljive pogreške oko rubova blokova

• U dekoderu je moguće napraviti post-procesiranje filtriranjem ovih efekata

• Postavljanjem deblokirajućih filtara u koder popravlja se predikcija vektora pokreta i

povećava kvaliteta

• Filtar je adaptivan na tri razine

– na razini odsječka (slice)

– na razini ruba bloka

– na razini uzorka (za očuvanje rubova objekata)

Entropijsko kodiranje • Dvije tehnike

– set varijabilnih kodova niske kompleksnosti adaptivno korištenih ovisno o

sadržaju videa – CAVLC (Context Adaptive Variable Length Coding)

– binarno aritmetičko kodiranje adaptivno sadržaju – CABAC (Context Adaptive

Binary Arithmetic Coding)

Robusnost na pogreške i prilagodljivost mrežnom okruženju • Uvedena su dva sloja

– Video Coding Layer – VCL

– Network Adaptation Layer – NAL

• Oba sloja sadrže određene mehanizme za zaštitu od pogreške i gubitaka paketa

– ispuštanje ne-referentnih okvira

– switching-predictive (SP) pictures i switching-intra (SI) pictures –

omogućavaju prebacivanje između različiti tokova podataka kodiranih

različitim brzinama

– korištenje više referentnih slika omogućava izbor referentne slike kada je neka

od njih korumpirana

– unaprijedna zaštita s nejednakom zaštitom ovisno o važnosti bita

– dijeljenje slike u odsječke koji se neovisno kodiraju – smanjuje se propagacija

pogreške

– NAL slaže podatke u pakete koji najbolje odgovaraju MTU (maximum transfer

unit) za pojedinu mrežu

– fleksibilno slaganje makroblokova (FMO)

– ubacivanje intra kodiranih makroblokova korištenjem informacije o kanalu

putem povratnog kanala

46

Profili H.264 standarda • Baseline profile

– Videotelefonija, videokonferencije, bežične mreže

• Main profile

– Televizijska difuzija, pohranjivanje video sadržaja

• Extended profile

– Streaming aplikacije

30. Karakteristike govornog signala, model vokalnog trakta

Predavanje: 12_govorx

• audio signal

• govor

• glazba (i ostalo)

• svojstva audio signala važna za multimediju ovise o karakteristikama izvora, kao i o

ljudskom sluhu

• zvuk stvara titranje molekula zraka određenom frekvencijom. Ono pobuđuje na

titranje bubnjić u ljudskom uhu što se preko mehanizama unutarnjeg uha prenosi

impulsima neurona u mozak koji to inerpretira kao zvuk

• kod percepcije zvuka postoje limiti amplitude, frekvencije, vremena unutar kojih

postoji percepcija zvuka;

• Spektralne komponente mijenjaju se u vremenu po frekvencijama i po amplitudama -

audio signal je nestacionaran slučajni signal

• govor

– 50 Hz do 10 000 Hz

– za razumljivost najznačajniji dio 300 Hz do 3400 Hz

• čujni spektar

– 20 Hz do 20 kHz

– gonja granica je češće između 15 i 18 kHz i pada sa godinama

– ograničenje spektra na 15 kHz neznatno smanjuje kvalitetu - koristi se u

radiodifuziji

47

Pojednostavljeni model vokalnog trakta

Pobuda Vokalni trakt Izlaz - govor

- za zvučne glasove pod utjecajem pritiska zraka iz pluća glasnice trepere i proizvode

varijacije zračnog tlaka s0(t), koji ima oblik impulsa (glotalni puls) osnovne

frekvencije f0

- f0 ovisi o govorniku 35 – 450 Hz

- prosječno 120 Hz za muškarce, 200 Hz za žene

31. Statistička svojstva govora, digitalizacija govora (spektar, amplitudna dinamika,

frekvencija uzorkovanja, brzina)


• Funkcija gustoće vjerojatnosti trenutnih vrijednosti govornog signala može se

aproksimirati Laplaceovom raspodjelom

• vrh raspodjele odgovara malim amplitudama bezvučnih glasova i šumu sustava

• standardna devijacija govornog signala odgovara njegovoj efektivnoj vrijednosti

0

0

( )( , )

s tS j tω

( )( , )h t

H j tωs(t)

S(jω)

• Srednja snaga za jednog govornika

• Srednja snaga prosječnog govornika

21lim ( )2

T

TT

P s t dtT −→∞

= ∫

• Spektralna gustoća snage

21lim ( )2

T

TT

P s t dtT −→∞

= ∫

( ) dPfdf

ϕ =

21( )2

s

f s e σ

σ

−≈

2 , 0s sσ = =

48

Digitalizacija govora

V0+ 2.35 σV

V0PROSJEcNIH amplitudna dinamika

ukupno 62 dB V0-2.35 σV

• u mikrofonu se tlak zraka na membrani pretvara u električki signal

• analogno-digitalno pretvorbom kontinuirani električki signal se pretvara u niz brojeva

• dvije faze

– uzorkovanje

• za telefonski signal koristi se spektar od 300 Hz do 3.4 kHz

• 8 kHz (125 μsec) uzorkovanje (Nyquistov kriterij)

– Kvantizacija

• dinamika određena dinamikom govornika

– 98% amplituda unutar 62 dB – 1:1260

– može se ostvariti s 12 bitnom linearnom kvantizacijom

• koristi se 8 bitno kodiranje – logaritamsko

– osigurava podjednaki odnos snage signala i snage šuma kvantizacije, S/Nq,

kroz cijelo amplitudno područje

–

32. Razlika između linearne i nelinearne kvantizacije (primjena kod govora) (A

zakon)


⎪⎪

⎩

⎪⎪

⎨

⎧

⎟⎠⎞

⎜⎝⎛ ≤≤

+⋅+

⎟⎠⎞

⎜⎝⎛ ≤≤

+⋅

=

11ln1

)ln(1

10ln1

sAA

sA

As

AsA

x• μ-law (US) i A-law (EU) nelinearna kompresija

• različite tablice pretvorbe

49

• za nekomprimirani govor protok 64 kb/s

Normirana A-87.6 karakteristika

33. Standardi ITU-T za kodiranje govora (G.711, G.722, …)


• ITU-TS G.721

• 64 kbps pretvara u 32 kbps

• ADPCM tehnika - 4 bita

• 8 kHz uzorkovanje

• ITU-TS G.723

• bit rate 24 kbps

• ADPCM tehnika - 3 bita

• G. 723.1 standard – 6.3 kb/s (ACELP – Algebraic Code Excited Linear

Prediction) i 5.3 kb/s (MP-MLQ- Multi Pulse-Maximum Likehood

Quantization), vrlo dobre kvalitete

• ITU-TS G.726

• zamjenjuje G.721 i G.723

• ADPCM kodiranje sa

– 16 kb/s - kodiranje razlike sa 2 bita

– 24 kb/s - kodiranje razlike sa 3 bita

– 40 kb/s -kodiranje razlike sa 5 bita

– 32 kb/s -kodiranje razlike sa 4 bita

50

• ITU-TS G.722

• standard za audio kodiranje

• koristi se za visoko kvalitetno kodiranje govora

• kodira signal širine spektra 50Hz do 7kHz

• sub-band ADPCM (SB-ADPCM)

– signal se dijeli na dva frekvencijska pojasa (viši i niži)

– za svaki pojas primjenjuje se ADPCM

• 16 kHz uzorkovanje i 14 bita razlučivost

• proizvodi 48, 56 ili 64 kbps

34. LPC koder govora (digitalni model govornog trakta, koji se parametri prenose)


• LPC (Linear Predictive Coding)

– koristi matematički model govornog trakta

– umjesto uzoraka šalje parametre modela

– bit rate 2.4 kbps

– mehanički govor

LPC metoda kao digitalni model • Brzina prijenosa 2.4 kb/s

• Velika kompresija izvornog govornog signala

• Sintetički (strojni) zvuk

• 1984. FS1015 – LPC-10 DoD (Department of Defense)

– koristi se filtar sa 10 koeficijenata

Digitalni model vokalnog trakta

51

( )∑=

−+= p

k

kk za

zH

1

1

1 ωτjez =

Vokalni trakt H(z)

Zrak u(n)

Titranje glasnica V (voiced/zvučni glasovi)

Frekvencija/vrijeme

titranja glasnica

T (pitch period)

Opuštenost glasnica UV (unvoiced/bezvučni

glasovi)

Pritisak zraka G (gain/pojačanje)

Vremenska domena → Frekvencijska domena

( )∑=

−+== p

k

kk zazU

zSzH

11

1)()(

ωτjez = n → pobuda u(n) → U(z) izlaz s(n) → S(z) impulsni odziv filtra h(n) → H(z)

pp zzSazzSazzSazSzU −−− −−−= )()()()()( 2

21

1

)()2()1()()( 21 pnsansansansnu p− −−−−= −

1

( ) ( ) ( )p

kk

n a s n k u n=

= − +∑s

52

LPC analiza

Izlaz iz filtra odgovarat će sumi prethodna p uzorka uzetih s različitim težinama

35. CELP koder govora


( ) ( )1

ˆp

kk

s n a s n k=

= −∑Koeficijenti filtra ak određuju se tako da se minimizira srednja kvadratna pogreška. e(n) – razlika originalnog signala i signala predviđenog modelom

( ) ( ) ( ) ( ) ( )1

ˆp

kk

e n s n s n s n a s n k=

= − = − −∑

Pri tome se koeficijenti ak određuju se iz kratkog segmenta u okolini signala s(n) (koriste se segmenti duljine 20 ms odnosno 160 uzoraka)

( ) ( )ns m s m n= +

53

• hibridni koder – temelji se na LPC-u

• za 4.8 kbps govor se analizira po okvirima duljine 30 ms (240 uzorka)

• okvir se dijeli na 4 podokvira

– za svaki podokvir kodni rječnik sadrži 512 kodnih vektora (valnih oblika)

• stohastički vektori – fiksni ( FS-1016 rječnik – 60 uzoraka po vektoru)

• prilagodljivi vektori (iz prethodnih uzoraka govora)

– pojačanje se kodira sa 5 bitova za svaki podokvir

• LPC parametri se definiraju na razini okvira i kodiraju sa 34 bita u frekvencijskoj

domeni

• Filter za predikciju perioda T

Vizualno težinski filtar

1( )1 TH z

bz−=+

2

1

1 2

( / )( )( / )

0.9, 0.5

H zW zH z

γγ

γ γ

=

= =

LD-CELP

• Standard G.728

– 320 bita po okviru, okvir 20 ms, 16 kb/s Parametri bitovi po parametru bitovi po okviru

veličine 20ms 12 LPC koeficijenata ,a1...a12 12 144 pojačanje,G 13 52 koeficijent pitch filtera,b 13 52 lag pitch filtera,T 8 32 indeks knjige kodiranja,k 10 40 ------------- Ukupno: 320

54

36. Karakteristike audio signala(spektar, dinamika, maskiranje)

Predavanje: 13_audio

Spektar audio signala • Spektralne komponente mijenjaju se u vremenu po frekvencijama i po amplitudama -

audio signal je nestacionaran slučajni signal

• govor

– 50 Hz do 10 000 Hz

– za razumljivost najznačajniji dio 300 Hz do 3400 Hz

• čujni spektar

– 20 Hz do 20 kHz

– gonja granica je češće između 15 i 18 kHz i pada sa godinama

– ograničenje spektra na 15 kHz neznatno smanjuje kvalitetu - koristi se u

radiodifuziji

Dinamički raspon ljudskog sluha • Određen je

– donjom granicom čujnosti

• za sinusoidu frekvencije 1 kHz to je zvučni tlak od 2.10-5 N/m2

– gornjom granicom bola (oštećenja)

• na 1 kHz granica bola je na 120 dB iznad granice čujnosti

– zbog šuma prostorije dinamički opseg audio signala uzima se oko 96 dB

• Doživljaj glasnoće je subjektivan (daje se u fonima) i ovisi o frekvenciji

• Povećanje glasnoće doživljavamo logaritamski ne linearno - koristimo dB

Maskiranje • Prisustvo jednog zvuka može maskirati drugi zvuk ili promjeniti čujnost drugog zvuka

– frekvencijsko maskiranje

– temporalno maskiranje

• FREKVENCIJSKO MASKIRANJE

• efekt maskiranja ovisi o razlici frekvencija pojedinih zvukova kao i o njihovoj

amplitudi

• niske frekvencije bolje maskiraju one višlje

55

37. CD audio zapis, DVD audio zapis


CD audio • pojavio se 1982. ne samo za govor već i glazbu

• linearno PCM kodiranje sa 16 bita

• dinamičko područje 96 dB

• frekvencijski odziv 0 do 20 kHz

• uzorkovanje 44.1 kHz (23 μsec)

• stereofonija - dva kanala

• 1.411 Mbps data rate

• Reed-Solomon zaštitni kod

• trajanje 74 min

DVD audio • 16-, 20-, 24- bitno LPCM kodiranje

• uzorkovanje sa 44.1, 48, 88.2, 96, 176.4 ili 192 kHz

• 1 do 6 kanala

• Meridian Lossless Packing (MLP) kompresija – bez gubitaka

• trajanje zapisa od 86 min (96 kHz uzorkovanje sa 24 bita i sa 6 kanala) do 25 h (44.1

kHz uzorkovanje sa 16 bita i 1 kanal)

• granična brzina 9.6 Mb/s

• frekvencijski odziv 0 do max 96 kHz

• dinamičko područje do 144 dB

• zaštita od kopiranja – CPPM (content protection for prerecorded media)

DVD audio – MLP kompresija • razvili u Meridian Audio Ltd. u suradnji s Dolby Labaratories Inc.

• kompresija bez gubitaka

– točnost rekonstrukcije na razini bita bez obzira na broj prekodiranja

• u audio zapisu se traže

– kanali bez informacije

– kanali koji ne iskorištavaju u potpunosti frekvencijski pojas

• uklanja se međukanalna korelacija matricama bez gubitaka

– npr. mono signal prezentiran kao stereo, blisko postavljeni mikrofoni za

različite kanale, stereo signal (uklanjanje korelacije korištenjem sume i razlike

L i D kanala)

56

38. MPEG 1 audio kodiranje (MUSICAM, razlike u slojevima)


MPEG-1 Audio • tri algoritma (“downward compatible”)

• Layer-1, 2 i 3

• brzina 1.5 Mb/s za video + audio, od toga 0.3 Mb/s za audio

• podržava 4 moda rada

– mono

– dual-mono (npr.dva jezika)

– stereo

– udruženi stereo (iskorištava korelaciju u stereo kanalima)

• radi na 32 do 448 kpbs po kanalu

• uzorkovanje 32, 44.1, 48 kHz

• stupanj kompresije od 2.7 do 24

• rade s gubitkom, ali ne osjetilnim (perceptivnim)

– koristi pojavu frekvencijskog i temporalnog maskiranja

– s kompresijom 6:1 (za 16 bitni stereo s uzorkovanjem s 48 kHz to je 256 kb/s)

eksperti ne razlikuju kodirani od originalnog audia

MPEG 1 audio kompresija • metoda

• ulaz je podijeljen u 32 frekvencijska podpojasa

• na temelju psihoakustičkog modela definira se količina maskiranja u

pojedinom pojasu

• ako je snaga pojasa ispod praga maskiranja ne kodiraju se uzorci

• ako je snaga pojasa iznad praga maskiranja određuje se potreban broj

bitova tako da kvantizacijski šum pada ispod praga maskiranja

MUSICAM

(Masking pattern adapted Universal Subband Integrated Coding and Masking)

• audio okvir se razlaže na 32 frekvencijska podpojasa – 12 uzoraka u svakom pojasu –

ukupno 384 uzorka u okviru

• 12 uzoraka čini blok

• vršna vrijednost bloka kodira se sa 6 bitnim faktorom skale koji

određuje dinamički opseg kvantizatiora

57

• primjenom psihoakustičkog modela određuje se alokacija bitova

• paralelna FFT analiza svakog podpojasa s rezolucijom fs/256

• za svaki podpojas računa se prag maskiranja u vremenskoj i

frekvencijskoj domeni

• uklanjaju se podpojasevi ispod apsolutne granice čujnosti

• kvantizacija svakog podpojasa određena je trenutnim odnosom signala i

maskiranja - dinamička alokacija bitova

MPEG 1 Audio Layer-1 • uzorkovanje 32 kHz, 44.1 kHz, 48 kHz

• koristi QMF za filtriranje u 32 podpojasa jednake širine

• kod kodiranja koristi samo jedan okvir od 12 uzoraka

• psihoakustički model koristi samo frekvencijsko maskiranje

MPEG 1 Audio Layer-2 • koristi QMF za filtriranje u 32 podpojasa

• kod kodiranja koristi tri okvira (prijašnji, trenutni i budući) – ukupno 1152 uzorka

• psihoakustički model koristi uz frekvencijsko maskiranje i temporalno maskiranje u

određenoj mjeri

MPEG 1 Audio Layer-3 (mp3 format) • 1987. Fraunhofer institut započeo rad na audio koderu u okviru EUREKA projektu

EU147 za Digital Audio Broadcasting (DAB)

• koristi filtre koji bolje pokrivaju kritične pojaseve (nejednake širine pojasa)

– dijeli signal u 576 pojaseva – prvo u 32 glavna pojasa (kao u layer 1 i 2), a

zatim primjenom MDCT svaki pojas dijeli u 18 podpojaseva (za 48 kHz

uzorkovanje to čini širinu pojasa od oko 41.67 Hz u odnosu na 750 Hz za

Layer 1 i 2)

• uključuje temporalno maskiranje

• koristi Huffmanovo kodiranje

– komplementarno maskiranju

• signali slični šumu male su redundancije ali dobro maskiraju, signali sa

izraženim formantima slabije maskiraju, ali velike su redundancije

– kvantizacija nelinearna – veće amplitude se kodiraju sa većim korakom

kvantizacije

– kvantizirane vrijednosti se kodiraju Huffmanovim koderom

58

Usporedba MPEG-1 Layer I, II i III

MPEG-1 Layer I Layer II Layer III

Analysis/synthesis 32 subbands 32 subbands Subband+MDCT

Output bit-rate 32-448kbps 32-384kbps 32-320kbps

Effcient bit-rate 160-224kbps 96-128kbps 64-96kbps

Sampling freq. 32,44.1,48kHz32,44.1,48kHz 32,44.1,48kHz

Intensity stereo Yes Yes Yes

Quantization Uniform Uniform Non-uniform

Window Fixed Fixed Dynamic

Entropy coding No No Yes

Frame size 384 samples 1152 samples 1152 samples

Bit-allocation

representation

Explicit Indexing Indexing

Frame self-

decodable

Yes Yes No

Suggested

psychoacoustic

model

Model 1 Model 1 Model 2

39. MPEG 2 audio, MPEG 4 audio (razlike u odnosu na MPEG 1 audio, AAC)


MPEG-2 Advanced Audio Coding – AAC • veća frekvencijska rezolucija

• ukupno 1024 pojasa (max. rezolucija 23 Hz za 48 kHz uzorkovanje)

– poboljšano stereo kodiranje

– poboljšano Huffmanovo kodiranje

– koristi samo MDCT (Modified Discrete Cosine transformation)

• kraći odziv (5.3 ms) u odnosu na layer 3 filtre (19.6 ms) –

bolja prezentacija brzih promjena

59

– Temporal Noise Shaping (TNS) tehnika – koristi predikciju u frekvencijskoj

domeni–

• otklanja pojavu proširenja pogreške kvantizacije u područje ispred

signala s naglim porastom -poboljšanje kvalitete kod malih brzina

• do 48 glavnih audio kanala

• do 16 niskofrekvencijskih kanala za efekte

• do 16 višejezičnih kanala

• 3 profila

– main profil (AAC)

• za primjene kada nema restrikcija na procesor i memoriju

– Low Complexity (LC) profil

– Scalable Sampling Rate (SSR) profil

• obuhvaća više načina kodiranja za različite brzine i za različite vrste audio signala

– MPEG- 2 AAC s vektorskom kvantizacijom

– CELP + CELP kompresija tišine

– kodiranje sintetičkog i hibridnog zvuka

• skalabilno kodiranje

– od 2 kbps do 64 kbps

• otpornost na pogreške

Digitalni zvuk - primjene • telefonija

• preko IP

• integracija

• bežični sustavi

• audio broadcasting (radio)

• audio on demand

• audio conferencing

• CD i DVD pohrana

• video + pripadajući audio

60

40. Problemi kod prijenosa multimedije mrežom

Predavanje:

PPaakkeettnnii pprriijjeennooss ggoovvoorraa • Problemi paketnog prijenosa

– varijabilno kašnjenje paketa

• kod stvarnovremenskih aplikacija zahtjeva se malo srednje kašnjenje i

mala varijabilnost kašnjenja

• Govor podnosi određenu količinu gubitaka i distorzije, ali je jako osjetljiv na kašnjenje

• Općenito je prihvaćeno 100 do 600 ms za maksimalno kašnjenje

• Kako bi se minimiziralo kašnjenje preporučene su male veličine paketa – od 200 do

700 bita, i trebaju sadržavati manje od 10 do 50 ms govora

– 64 kb/s PCM – za 10 ms govora = 640 bita

– LD-CELP – 16 kb/s – okviri 20 ms = 320 bita

• Mrežni protokoli trebaju osigurati manja zaglavlja (4 do 8 byta)

• U mrežama s malom vjerojatnošću pogreške nije neophodno koristiti zaštitne kodove

ili zahtjeve za transmisiju

• Ipak kod povećanja prometa može doći do odbacivanja nekih paketa, pa je potrebno

osigurati kodiranje takvo da je smanjenje kvalitete postupno

• Dekoder koristi dodatno kašnjenje paketa kako bi se ujednačila kašnjenja – mora se

postići kompromis jer duže dodatno kašnjenje povećava ukupno kašnjenje govora, a

kraće povećava vjerojatnost izgubljenih paketa

• Povećanje efikasnosti i kvalitete prijenosa osigurava kodiranje govora s različitim

prioritetima za podatke različitih važnosti za kvalitetu

• U čvorovima mreže u slučaju prometnog zagušenja prvo se odbacuju paketi s manjim

prioritetom

– Podaci o prioritetima moraju se nalaziti u mrežnom dijelu zaglavlja, dok se

podaci o klasifikaciji kao i parametri kodiranja nalaze u aplikacijskom dijelu

zaglavlja

61

62

A šta

sad????????????

Vrati se na

početak!!!!

Sale, d_inženjer

ms_odgovori_na_pitanja_za_ispit_2008_2009_03-06-2009

Documents