digitális hang, kép és videóállományok
DESCRIPTION
Digitális hang, kép és videóállományok. Kiss Attila Információs Rendszerek Tanszék [email protected]. Digitális médiaállományok. A számítógép számára a hang, kép, videó ugyanolyan állomány mint egy közönséges szöveges állomány. Általában az állomány kiterjesztése utal a média típusára. - PowerPoint PPT PresentationTRANSCRIPT
1
Digitális hang, kép és videóállományok
Kiss AttilaInformációs Rendszerek Tanszék
2
Digitális médiaállományok A számítógép számára a hang, kép, videó
ugyanolyan állomány mint egy közönséges szöveges állomány. Általában az állomány kiterjesztése utal a média típusára.
Képek nevének kiterjesztése:– BMP, JPG, GIF, TIF, PNG, PPM, …
Hanganyagok nevének kiterjesztése– WAV, MP3, …
Viedók nevének kiterjesztése:– AVI, MOV, …
3
Egy képállomány tartalma Szövegszerkesztővel megnyitva egy képállományt értelmes és
értelmetlen sorozatokat kapunk:
P6: (Portable Pixel Map - ppm kép)
Felbontás: 512x512Színek száma: 255
4
A képállomány tartalma hexadecimálisan
Általában egy fejlécben leíró információkat találunk.
5
Multimédia állományok forrásai Multimédia állományok sokféle eszköz használatával
keletkezhetnek:– digitális fényképezőgép, képolvasó, – digitális hang, vagy filmfelvevő, – digitális kamera.
Ezeknek a következő feladatokat kell végrehajtaniuk:– Mintavételezés: A folytonos jelekből véges sok mintát
választunk ki. – Digitalizálás: A folytonos mintát véges számsorozattá
alakítják.– Tömörítjük a számsorozatot.
6
Egy hang audiójele
A hang audiójele megjeleníthető, nagyítható,szerkeszthető, transzformálható (erősíthető, halkítható, lemezkattogás eltávolítható, stb.)
7
A folytonos audiójelből szabályos időközönként mintákat veszünk
0 10 20 30 40 50 60 70 80 90 100-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
t
Am
plit
ud
e
Mintaperiódus Ts,fs =1/Ts
Jelperiódus: T, f = 1/T
T >= 2Ts kell, hogy legyen.
8
fs = 2.5f
fs = 1.67f
0 10 20 30 40 50 60 70 80 90 100-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
t
Am
plit
ud
e
Eredeti jel
Egy másik jel
A minta alapján nem különböztet-hetők meg.Torzítást eredményez.
0 10 20 30 40 50 60 70 80 90 100-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
t
Am
plitu
de
9
0 10 20 30 40 50 60 70 80 90 100-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
t
Am
plit
ude
0 10 20 30 40 50 60 70 80 90 100-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
t
Am
plit
ude
fs = 2f
Végtelen sok szinuszhullámot lehet a pontokra illeszteni.
10
A frekvencia felbontása A folytonos jelet véges vagy végtelen sok
szinusz hullám összegeként lehet előállítani.
A szinusz komponenseket “Fourier-transz-formációval” lehet előállítani.
A felbontást és a továbbiakat tetszőleges jelre (nem csak audióra, hanem képekre, videóra) lehet alkalmazni.
Ha a jel frekvenciakomponensei
{f1 < f2 < f3 … < fn}, akkor milyen minimális mintafrekvenciát kell használni?
11
Nyquist tétele
Nyquist tétel – Ahhoz, hogy a folytonos jel visszaállítható legyen a
mintából, teljesülnie kell a következőnek fs > 2fmax
ahol fmax a jel komponensei közül a legnagyobb frekvenciájú jel frekvenciája.
– Ha a jel komponenseinek frekvenciái [f1, f2] intervallumba esnek, akkor a visszaállíthatósághoz annak kell teljesülnie, hogy
fs >2 (f2-f1).
12
Képek mintavételezése
A mintavételezési tétel 2D jelekre (képekre) is alkalmazható.
Mintavételezés rácspontokon.
Milyen sűrű legyen a rács?
13
Az eredeti kép
14
A rossz mintavételezés miatt torzulás keletkezik
Homályosabb a kép, és a kendő és nadrág csíkjaiban furcsa interferálás látható.
15
Digitalizálás A mintavételezéssel kapott jel még folytonos, végtelen
sok lehetséges értéket tartalmazhat.
A digitalizálás sorám ezt a végtelen sok értéket akarjuk fix számú számmal leírni, közelíteni.
N szám leírásához log2N bitre van szükségünk.
Mi határozza meg, hogy egy hang vagy kép esetén hány bittel kódoljuk a mintát?
16
Audiójelek digitalizálása Mit jelent, hogy egy audiójel 16bites és 44kHz-es?
A 44KHz a mintavételezési frekvencia. A zenékben általában magasabb frekvenciakomponensek fordulnak elő mint a beszédben. A 8kHz mintavételezés a telefonminőségű beszéd rögzítéséhez szükséges mintavételezés.
16bit azt jelenti, hogy minden mintát 16bites egészként ábrázolunk.
Arra is gondolni, kell, hogy a digitális audiójelek több csatornát is tartalmazhatnak.
17
Digitális képek
Egy kép mintavételezése pixelenként történik. A pixelek mátrixot alkotnak.
18
A digitális képek típusai Szürkeárnyalatos
(Grayscale) kép– Általában 256 szintje
lehet a pixeleknek. Így minden pixelt 8 bittel tudunk megadni.
– Az MRI orvosi képek 16 bittel írnak le egy pixelt.
19
Bináris kép
A bináris kép csak 1 bitet használ pixelenként (0 vagy 1).
A bináris képeknek fontos szerepük van a képelemzésekben, objektumok felismerésében.
20
Bitsíkok
[ b7 b6 b5 b4 b3 b2 b1 b0]
MSB LSB
A 8 bit komponensei alapján 8 bináris képet (bitsíkot) kapunk.
MSB – legszignifikánsabb bit az első
LSB – legkevésbé szignifikáns bit az utolsó
21
Összemosás (Dithering)
Szürkeárnyalatos képet bináris képpel is reprezentálhatunk.
0 1
2 3
Maredékos osztással a 256 érték 4 értékre konvertáljuk:I’ = floor(I/64)
22
Dithering mátrix
Egy Dithering mátrixszal reprezentáljuk a 4 szintet. Kevesebb színnel érjük el az eredeti hatást.
0 1
2 3
0 12 3
A mátrix ebben az esetben:
Hasonlóan csak piros és kék váltakozása lila színt eredményez, ha elég kicsik a pontok.
23
A színes képek felbontása
r
g
b
RGB – piros, zöld, kékMás színsémák: YUV, HSV.
24 bit image
3 színkomponensre bontjuk a képet. Mindegyik szín intenzitása egy szürkeárnyalatos képet definiál.
24
Színtábla
256 színt használó kép
r
g
b
Színklaszterek
Kevesebb szín használata is elég, ha klaszterezéssel meghatározzuk a képen az azonos színű csoportokat.
25
Az emberi szem érzékeléseA szemben kétféle fényérzékelő sejt működik: a csapok és pálcikák.
A pálcikák a fekete-fehér látványt érzékelik.
A csapok a színeket érzékelik.Háromféle csap érzékeli a háromféle színt.
Színinger-összetevők előállítása színinger-megfeleltető függvények és E sugárzáseloszlás alapján:R = s E() Sr()dG = s E() Sg()dB = s E() Sb()d
26
A színek
A színösszetevők meghatározása kísérlettel.
ö s s z e h a s o n l í t óf é n y f o r r á s o k
v i z s g á l a n d ó f é n y f o r r á s
i n t e n z i t á s t s z a b á l y o z óf é n y r e k e s z
27
A Gamma korrekció
A képernyők fényessége I’ nem lineáris az input kép I fényességéhez viszonyítva.
I’ = I
Hatványozással korrigáljuk a fényességet: (I’)1/ = I
Például CRT esetén a 2.2 körüli érték.
0,5 fényességű képet csak 0,218 fényességűnek mutat a képernyő.
28
A Gamma korrekció
Lineárisan változó fényességGamma korrekció nélkülnem lesz egyenletes.
Lineárisan változó fényességGamma korrekcióval már egyenletes lesz.
29
Videójelek Analóg videójelek
Páros framePáratlan frame
52.7us
10.9us
0v
fehér
fekete
30
Digitalális videó
N. Frame
0. Frame
idő
A digitális videó egy 3D függvénnyel írható le: f(x,y,t)
31
Színes videók (PAL)
YUV színsémát használ a PAL rendszer. Az YUV és RGB közti transzformáció a
következő: Y a fényességi komponens Y = 0.299 R + 0.587 G + 0.144 B U és V
két színkomponens. U = B – Y V = R - Y
Y U V
32
Színes videók (NTSC)
YIQ az NTSC sémája
YCbCr: A JPEG-ben használt színséma
I Q