topi santakivi objektiivinen kuvan laadun arviointi santakivi.pdf · ensin tutkittavasta kuvasta...
TRANSCRIPT
TOPI SANTAKIVI OBJEKTIIVINEN KUVAN LAADUN ARVIOINTI Kandidaatintyö
Tarkastaja: Lehtori Heikki Huttunen
Jätetty tarkastettavaksi 19.01.2008
I
TAMPEREEN TEKNILLINEN YLIOPISTO
Automaatiotekniikan koulutusohjelma
SANTAKIVI, TOPI: Objektiivinen kuvan laadun arviointi
Tekniikan kandidaatintyö, 16 sivua, 5 sivua liitteitä
Tammikuu 2008
Pääaine: Signaalinkäsittely
Työn tarkastaja: Lehtori Heikki Huttunen
Avainsanat: kuvan laatu, objektiiviset menetelmät
Tämän kirjallisuusselvityksen tarkoituksena on antaa lukijalle yleiskuva objektiivisesta
kuvan laadun arvioinnista, sitä suorittavista menetelmistä, niiden taustalla olevasta teo-
riasta ja mahdollisista sovelluskohteista. Esitettävien asioiden pohjana on käytetty muu-
tamaa aihetta käsittelevää yleisteosta ja yksittäisistä menetelmistä kertovia tieteellisiä
julkaisuja.
Objektiivisia kuvan laadun arviointimenetelmiä on olemassa paljon. Ne pohjautuvat
erityyppisiin näkökulmiin ja tarvitsevat arviointiin vaihtelevan määrän informaatiota.
Suurin osa niistä pyrkii antamaan tutkittavasta kuvasta yksittäisen luvun, joka kuvaa sen
laatua.
Menetelmien välillä suoritettu testaus tukee kirjoittajan intuitiivista käsitystä siitä,
että objektiivisilla menetelmillä ei voida syrjäyttää ihmistä kuvan laadun arvioinnin asi-
antuntijana. Objektiivinen kuvan laadun arviointi onkin tehokkaimmillaan, kun mene-
telmät räätälöidään tarkoin määriteltyjä sovelluksia, kuten kuvanpakkauksen optimoin-
tia varten.
II
ALKUSANAT
Tämä tekniikan kandidaatintyö on tehty Tampereen teknillisen yliopiston signaalinkäsit-
telyn laitokselle. Kiitokset työnantajalleni PacketVideo Finland Oy:lle, jossa kesällä
2007 työskennellessäni sain idean alkaa tutustua tämän työn käsittelemään aiheeseen.
Haluan kiittää myös kandidaatintyöseminaarin vetäjiä Konsta Koppista ja Heikki Hut-
tusta, jotka avustivat työn etenemisessä antamalla lukuisia hyödyllisiä neuvoja, sekä
isääni Pekka Santakiveä, joka parinkymmenen vuoden äidinkielenopettajan kokemuk-
sella tarjoutui oikolukemaan työni. Suurimmat kiitokseni kuuluvat kuitenkin rakkaalle
avovaimolleni Lindalle, jonka avulla jaksoin läpi kiireisen syksyn.
Tampereella, 17. tammikuuta 2008
Topi Santakivi
III
SISÄLLYS
1. Johdanto................................................................................................................ 1
2. Puuttuvan ja osittaisen referenssin menetelmät...................................................... 3
3. Täyden referenssin menetelmät ............................................................................. 4
3.1. Vastinpikselien vertailu ................................................................................. 4
3.2. Näköjärjestelmän mallintaminen ................................................................... 5
3.2.1. Ihmisen näköjärjestelmä ja sen mallintaminen................................ 5
3.2.2. Menetelmien esittelyä .................................................................... 7
3.3. Rakenteellinen samankaltaisuus..................................................................... 9
3.4. Tilastollinen mallintaminen ......................................................................... 10
4. Menetelmien vertailu .......................................................................................... 12
4.1. Yleiset metriikat .......................................................................................... 12
4.2. Testaus ........................................................................................................ 12
5. Pohdintaa ............................................................................................................ 16
Lähteet........................................................................................................................ 17
Liite 1 ......................................................................................................................... 20
IV
LYHENTEET JA MERKINNÄT
(a, b) reaalilukuväli
h(X) differentiaalinen entropia
x vektori
σx keskihajonta
σ2
x varianssi
σxy kovarianssi
µx keskiarvo
ACR Absolute Category Rating
ANSI American National Standards Institute
DCT Diskreetti kosinimuunnos (Discrete Cosine Transform)
DSIS Double Stimulus Impairment Scale
GSM Gaussian Scale Mixtures
MSE Keskineliövirhe (Mean Squared Error)
MSSIM Mean Structural Similarity Index
MOS Mean Opinion Score
NTIA National Telecommunications and Information Administration
PSNR Peak signal-to-noise ratio
SSIM Structural Similarity Index
UQI Universal Quality Index
VDP Visible Differences Predictor
VIF Visual Information Fidelity
VQEG Video Quality Experts Group
WVDP Wavelet Visible Differences Predictor
1
1. JOHDANTO
Digitaalista kuvaa käsittelevien järjestelmien yleistyminen analogisten ratkaisujen vähe-
tessä on nostanut esiin uusia haasteita: kuinka vertailla niitä keskenään sekä mitata ja
optimoida niiden suorituskykyä? Järjestelmät on luotu ihmisiä varten, joten luotetta-
vimmat tulokset saadaan subjektiivisilla kokeilla. Näissä kokeissa esimerkiksi arvioi-
daan jonkin järjestelmän, vaikkapa digitaalisen kameran, tuottaman kuvamateriaalin laa-
tua näyttämällä sitä joukolle ihmisiä ja keräämällä heidän mielipiteensä. Jotta tulokset
olisivat mahdollisimman luotettavat, pyritään kokeet suorittamaan vakio-olosuhteissa,
kuten esittämällä kuvia ennalta määrätyltä katseluetäisyydeltä ja tietyssä valaistuksessa.
Tavallisimmin käytettyjä subjektiivisia koemenettelyitä ovat muun muassa Absolute
Category Rating (ACR) ja Double Stimulus Impairment Scale (DSIS). ACR:ssa koe-
henkilölle näytetään yksittäisiä kuvia ja hänen tehtävänään on antaa jokaiselle kuvalle
arvosana viisiportaiselta asteikolta. DSIS:ssa koehenkilön tehtävänä arvioida erilaisia
häiriöitä sisältäviä kuvia antamalla arvosana ACR:n tapaan viisiportaiselta asteikolta,
mutta vertaamalla niitä referenssinä toimivaan kuvaan. Jokaisella portaalla on molem-
missa menetelmissä oma kielellinen merkityksensä vaihdellen virheettömästä kuvasta
laadultaan todella häiritsevään. Subjektiivisten kokeiden jälkeen voidaan kullekin testi-
kuvalle laskea yksittäinen arvosana ottamalla tuloksista keskiarvo eli Mean Opinion
Score (MOS). [1.]
Vaikka subjektiivisilla kokeilla saatuja tuloksia voidaankin pitää luotettavimpina, on
subjektiivinen testaaminen käytännössä työlästä ja hintavaa. Lisäksi digitaalinen signaa-
li on pakattua ja se tuo mukanaan kuviin uudentyyppisiä häiriöitä. On siis olemassa tar-
ve kehittää tapoja arvioida digitaalisten kuvien häiriöitä ja laatua objektiivisesti. Objek-
tiiviset kuvanlaadun mittausmenetelmät ovat matemaattisia algoritmeja, joiden tavoit-
teena on jäljitellä ihmisen kykyä arvioida kuvien laatua. Ne voidaan jakaa arviointitavan
perusteella kolmeen ryhmään: puuttuvan, osittaisen ja täyden referenssin menetelmiin.
Kappaleessa 2 esitellään lyhyesti puuttuvan ja osittaisen referenssin käytön toimin-
taperiaate. Pääaiheena ovat kappaleessa 3 käsiteltävät täyden referenssin menetelmät,
joita lähestytään eri näkökulmista. Ensimmäisenä esitellään yksinkertaisten vastinpikse-
limenetelmien, kuten keskineliövirheen idea ja osoitetaan näiden soveltumattomuus ih-
misen havaitseman kuvan laadun arviointiin. Vastinpikselimenetelmien jälkeen tarkas-
tellaan menetelmiä, jotka pyrkivät luotettavampaan kuvan laadun arviointiin näköjärjes-
telmää mallintamalla. Niille esitellään yhteinen perusrakenne ja käydään läpi muutaman
toiminta. Kappaleessa ”Rakenteellinen samankaltaisuus” tarkastellaan näköjärjestelmän
mallintamiselle vastakkaista ajattelutapaa ja siihen perustuvaa toteutusta. Viimeisenä
käydään läpi kuvien tilastolliseen mallintamiseen perustuva menetelmä.
2
Kappaleessa 4 esitellään muutama yleinen metriikka, joilla vertaillaan objektiivisten
menetelmien paremmuutta. Lisäksi testataan täyttä referenssiä käyttävien toteutusten
soveltuvuutta yleiseen kuvan laadun arviointiin luomalla joukko testikuvia ja vertaile-
malla eri menetelmien niille antamia laatuarvioita keskenään. Lopuksi pohditaan objek-
tiivisen kuvan laadun arvioinnin soveltuvuutta eri tehtäviin.
3
2. PUUTTUVAN JA OSITTAISEN REFERENSSIN MENETELMÄT
Kuvan laatua arvioitaessa ei aina tarvitse olla saatavilla referenssiä, johon vertaamalla
arviointi suoritetaan. Puuttuvan referenssin menetelmät mittaavat laatua tekemällä ole-
tuksia kuvissa esiintyvistä häiriöistä ja tutkittavien kuvien ominaisuuksista. Ne mittaa-
vat tavallisesti kuvista vain tiettyjä häiriötyyppejä, kuten pikselöitymistä (engl. blocking
effect) ja sumeutta. Vaikka referenssi puuttuukin, voivat ne tiettyyn tehtävään räätälöi-
tynä toimia usein sovellusalueellaan paremmin kuin jotkin yleiseen kuvan laadun arvi-
ointiin luodut, referenssiä käyttävät menetelmät. Osittaisen referenssin käyttäminen si-
joittuu puuttuvan ja täyden referenssin käytön välimaastoon. Puuttuvan referenssin me-
netelmien tapaan ne voivat hyödyntää tietoja tutkittavista häiriöistä. Referenssikuvaa ei
sellaisenaan käytetä, vaan siitä voidaan ottaa kuvan laadun tarkastelua varten talteen
vain olennaisimpia ominaisuuksia. [2.]
Marziliano et al. kehittivät vuonna 2002 puuttuvan referenssin menetelmän, jolla
mitataan kuvan sumeutta [3]. Menetelmä on laskennallisesti kevyt ja sitä voidaan hyö-
dyntää esimerkiksi kameran automaattisessa tarkentamisessa. Julkaisussa kuvataan su-
meuden mittaaminen pystyreunoille ja se toimii vaakasuunnassa samalla periaatteella.
Ensin tutkittavasta kuvasta etsitään reunat Sobel-operaattorilla. Sumeuden mittaaminen
perustuu siihen, että kuvan sumentuessa sen reunat leviävät, ja menetelmä määrittää ku-
van sumeuden reunojen leveyden perusteella. Mittaaminen tapahtuu tutkimalla kuvan
kullakin vaakarivillä Sobel-operaattorin avulla löydettyjen reunojen paikkoja ja pikse-
liarvojen vaihtelua niiden ympäristössä. Levinneen reunan rajoina pidetään paikallisia
ääriarvoja, joiden välisestä etäisyydestä saadaan arvio sumeudesta (kuva 2.1). Koko ku-
van sumeus lasketaan paikallisten arvioiden keskiarvona.
Kuva 2.1. Sumean reunan tutkiminen. a) on Sobel-operaattorilla löydetyn sumentuneen
pystyreunan keskikohta, b) ja c) paikalliset ääriarvot ja d) sumentuneen reunan leveys
eli paikallinen arvio sumeudesta.
4
3. TÄYDEN REFERENSSIN MENETELMÄT
Täyden referenssin menetelmät arvioivat laatua käyttämällä kahta kuvaa. Alkuperäinen,
virheettömäksi oletettu kuva toimii referenssinä, johon verrataan arvioitavana olevaa,
häiriöitä sisältävää kuvaa. Täyden referenssin käyttäminen voidaan jakaa lähestymista-
van mukaan neljään ryhmään: vastinpikselien erotuksen mittaamiseen, näköjärjestelmän
mallintamiseen, rakenteellisen samankaltaisuuden mittaamiseen ja tilastolliseen mallin-
tamiseen. Osa menetelmistä pyrkii yleiseen kuvan laadun arviointiin ja osa hyödyntää
puuttuvan ja osittaisen referenssin menetelmien tapaan tietoja kuvissa esiintyvistä häiri-
öistä.
3.1. Vastinpikselien vertailu
Yleisimpiä kuvien vertailussa käytettäviä objektiivisia menetelmiä ovat yksinkertaiset
matemaattiset laskukaavat, kuten keskineliövirhe ja PSNR (Peak Signal-to-Noise Ra-
tio). Niitä käytetään paljon, sillä niiden laskeminen on nopeaa ja esimerkiksi neliövir-
heen minimointiin on olemassa runsaasti valmiita työkaluja. Kahden kuvan välinen kes-
kineliövirhe (MSE, Mean Squared Error) määritetään laskemalla kuvien vastinpikselien
erotukset, korottamalla ne toiseen potenssiin ja ottamalla niistä keskiarvo:
[ ] )1.3(),(),(1 1
0
21
0∑∑
−
=
−
=
−=N
n
M
m
nmJnmIMN
MSE
I(m,n) ja J(m,n) ovat kahden kuvan vastinpikselit, M kuvan korkeus ja N leveys. Mitä
pienempi on keskineliövirhe, sitä paremmin alkuperäinen ja häiriöitä sisältävä kuva vas-
taavat toisiaan. PSNR on kuvan suurimman intensiteettiarvon ja keskineliövirheen suh-
de desibeleinä:
)2.3()(
log102
10
=
MSE
IMAXPSNR
PSNR:n arvo on sitä suurempi, mitä parempana se pitää tutkittavan kuvan laatua. Koska
PSNR riippuu keskineliövirheestä, siihen pätevät samat heikkoudet kuin keskineliövir-
heeseenkin. Jos esimerkiksi otetaan kaksi identtistä kuvaa, siirretään toista pikselin ver-
ran oikealle, kuvien välinen keskineliövirhe kasvaa ja PSNR pienenee. Ihmissilmä puo-
lestaan havainnoi suurempia kokonaisuuksia eikä tämän vuoksi havaitse kuvien välillä
mitään eroa. On myös yksinkertaista luoda kuvia, joiden keskineliövirhe alkuperäiseen
kuvaan verrattuna on sama, mutta ihmissilmä havaitsee niiden välillä selviä laatueroja
(kuva 3.1). [1.]
5
Kuva 3.1. Keskineliövirheen soveltumattomuus ihmisen havaitseman kuvan laadun ar-
viointiin. a) Alkuperäinen kuva, b) Keskiarvosuodatettu kuva, MSE = 188.61, c) Kuvaan
lisätty suola-pippuri -kohinaa, MSE = 188.88, d) Kuvaan lisätty normaalijakautunutta
kohinaa, MSE = 188.69. Esimerkiksi kappaleessa 4.3 käsiteltävän, rakenteellista sa-
mankaltaisuutta mittaavan SSIM:n kuville antamat laatuarvot olivat 0.95 b:lle, 0.82
c:lle ja 0.45 d:lle arvosanan yksi tarkoittaessa laadultaan alkuperäisen veroista kuvaa.
3.2. Näköjärjestelmän mallintaminen
Koska pelkkiä pikseliarvojen erotuksia laskemalla ei voida arvioida subjektiivista laatua
kovinkaan luotettavasti, on asiaan otettu edistyneempi näkökulma tutkimalla tarkemmin
näköjärjestelmän ominaisuuksia ja käyttämällä niitä uusien menetelmien perustana.
Tässä kappaleessa esitetyt näköjärjestelmän ominaisuudet ja niiden mallintamiseen liit-
tyvät periaatteet pohjautuvat lähteisiin [1], [2], [4] ja [5].
3.2.1. Ihmisen näköjärjestelmä ja sen mallintaminen
Näköjärjestelmää mallintavat kuvan laadun mittausmenetelmät pyrkivät simuloimaan
ihmisen arviointikykyä hyödyntämällä näköaistin toiminnasta luotuja matemaattisia
malleja ja tietoja näköhavaintoa eri olosuhteissa rajoittavista tekijöistä. Ne noudattavat
pääosin toimintarakennetta, joka voidaan jakaa viiteen vaiheeseen: esikäsittely, kuvien
jako taajuuskanaviin, kontrastiherkkyysfunktion soveltaminen, peittoilmiöiden huomi-
ointi ja virheiden yhdistäminen.
6
Alkuperäinen ja arvioitava kuva täytyy esikäsitellä ennen varsinaisen mallin sovel-
tamista. Kuvien tulee olla kohdistettuja keskenään, jotta varmistutaan siitä, että mallia
tullaan soveltamaan vastinpikseleihin. Jos menetelmä vertailee värikuvia, kuvat voidaan
muuntaa väriavaruuteen, jonka väriskaala kuvaa paremmin ihmisen eri olosuhteissa nä-
kemiä värejä.
Eri tutkimuksissa on esitetty (varhaisimpana Campbell ja Robson vuonna 1968 [6]),
että näköärsykkeiden käsittely aivoissa tapahtuu osissa eri taajuuksille ja orientaatioille
herkillä kanavilla. Tässä työssä taajuudella tarkoitetaan kuvissa esiintyvää taajuutta eli
pikseliarvojen vaihtelunopeutta. Käsitystä kanavarakenteesta mallinnetaan jakamalla
alkuperäinen ja häiriöinen kuva taajuuskanaviin menetelmästä riippuen sopivalla muun-
noksella (kuva 3.2), kuten wavelet-muunnoksella, diskreetillä kosinimuunnoksella
(DCT) tai cortex-muunnoksella ja suorittamalla laadun arviointi jokaisella kanavalla
erikseen. DCT jakaa taajuusalueen keskenään samankokoisiin kanaviin. Wavelet-
muunnoksessa puolestaan yksittäinen kanava käsittää sitä enemmän taajuuksia, mitä
korkeampia taajuuksia sisältävää aluetta jaetaan osiin. Cortex-muunnoksessa taajuus-
kanavan koko riippuu taajuusalueesta samalla tavalla kuin wavelet-muunnoksessa, mut-
ta taajuusalue jaetaan osittamalla se sisäkkäisiin ympyröihin ja paloittelemalla ympyrät
sektoreilla kanaviksi.
Kuva 3.2. Taajuuskanaviin jakamisessa käytettyjä muunnoksia kaksiulotteisessa taa-
juustasossa. Nollataajuus sijaitsee muunnosten keskipisteissä. Vasemmalla wavelet-
muunnos, keskellä DCT-muunnos ja oikealla cortex-muunnos. [3, kuva 41.4]
Taajuuskanaviin jaon jälkeen kunkin kanavan sisältämään informaatioon sovelletaan
kontrastiherkkyysfunktiota. Kontrastiherkkyysfunktio kuvaa ihmisen kykyä havaita in-
tensiteetin muutoksia eri taajuuksilla. Sen avulla määritetään kullekin taajuuskanavalle
peruskynnysarvo, joka kertoo, kuinka suuri intensiteetin vaihtelun ärsykkeessä täytyy
olla, jotta se voitaisiin havaita. Kontrastiherkkyysfunktio muistuttaa muodoltaan kais-
tanpäästösuodinta, ja jotkin mallit (esimerkiksi [7]) ottavatkin sen huomioon suoda-
tusoperaationa. Kontrastiherkkyyttä sovelletaan tavallisesti harmaasävyarvoille, mutta
siitä on luotu malleja myös värikanaville [8].
Kontrastipeitto tarkoittaa, että kuvassa lähekkäin olevat yksityiskohdat vaikuttavat
toistensa näkyvyyteen (kuva 3.3). Yleensä ilmiö esiintyy niin päin, että yksityiskohdan
7
havaitseminen vaikeutuu toisen vaikutuksesta. Kuvan laadun tarkkailun kannalta kont-
rastipeiton merkitys on se, että kuvassa esiintyvät häiriöt erottuvat paremmin tasaisilla
kuin epätasaisilla alueilla. Mallinnuksessa kontrastipeitto otetaan tavallisesti huomioon
muokkaamalla, yleensä siis nostamalla, virheen näkyvyyden peruskynnysarvoja. Kont-
rastipeiton lisäksi voidaan käyttää myös luminanssipeittoa. Luminanssipeiton idea on
samanlainen kuin kontrastipeitossa, mutta siinä yksityiskohdan näkyvyyteen vaikuttaa
taustan kirkkaus.
Kuva 3.3. Kontrastipeitto. Molempiin kuviin on lisätty samanlainen pintakuvio. Vasem-
manpuoleisen kuvan yläosassa taivaan päällä oleva kuvio näkyy selvästi, kun taas oike-
anpuoleisessa alareunaan lisättynä sama kuvio peittyy nurmikon ja metsän yksityiskoh-
tien sekaan. [1 s.29, kuva 2.16]
Lopuksi virheet normalisoidaan esimerkiksi välille (0, 1) ja muodostetaan niistä yk-
sittäinen luku kuvan laadusta. Yleisesti käytössä on esimerkiksi paikallisten arvioiden
keskiarvottaminen tai Minkowskin metriikka:
Kaavassa (3.3) ei,j on virhesignaalin j:s kerroin taajuuskanavalla i ja β yleensä väliltä
(1, 4) valittava vakiotermi, jonka avulla voidaan säätää virheiden keskinäistä vaikutusta
metriikkaan. Esimerkiksi β:n arvolla 4 suurempien virheiden merkitys korostuu enem-
män, ja arvolla 1 kaikki virheet vaikuttavat metriikkaan suhteessa yhtä paljon, koska
niitä ei koroteta potenssiin.
3.2.2. Menetelmien esittelyä
Bradleyn Wavelet Visible Differences Predictor (WVDP) [9] on yksinkertaistettu versio
Scott Dalyn vuonna 1993 kehittämästä Visible Differences Predictorista (VDP) [10,
s.47-49]. Dalyn VDP laskee kahden kuvan perusteella kartan, joka on arvio virheiden
havaitsemisen todennäköisyydestä häiriöisen kuvan paikallisilla alueilla. VDP:ssä kuvat
esikäsitellään ja otetaan huomioon luminanssipeitto pisteoperaationa muokkaamalla
pikseliarvoja paikallisen taustan kirkkauden mukaan. Ennen taajuuskanaviin jakamista
kuviin sovelletaan kontrastiherkkyysfunktiota, minkä jälkeen taajuuskanaviksi jako teh-
)3.3(
1
,
ββ
= ∑∑
i j
jieE
8
dään cortex-muunnoksella. Varsinainen häiriöiden arviointi suoritetaan jokaisella taa-
juuskanavalla erikseen, mutta muuntamalla kukin taajuuskanava ensin takaisin tila-
tasoon. Tilatasossa huomioidaan kontrastipeittoilmiön vaikutus ja tämän jälkeen laske-
taan todennäköisyyskartta. Kynnysarvona on todennäköisyys 0.75, jota suuremmat to-
dennäköisyydet virheen näkymiselle tulkitaan näkyviksi virheiksi. Yksittäinen lukuarvo
kuvan laadusta saadaan laskemalla näkyvien virhepikselien osuus koko kuvassa.
WVDP:ssä on tehty yksinkertaistuksia VDP:hen verrattuna. Se ei ota huomioon lumi-
nanssipeittoa ja cortex-muunnos on vaihdettu wavelet-muunnokseen. Lisäksi kontrasti-
herkkyysfunktiota sovelletaan taajuuskanavilla wavelet-kertoimiin sen sijaan, että se
tehtäisiin ennen kanaviin jakoa. Huonona puolena WVDP:ssä on, että mallin yksinker-
taistaminen heikentää sen arviointikykyä.
Ponomarenkon et al. PSNR-HVS [11] on PSNR:n muunneltu versio, jossa otetaan
huomioon näköjärjestelmän ominaisuuksia virheiden havaitsemiselle. Erona PSNR:ään
on, että keskineliövirheestä käytetään muokattua versiota:
)4.3(255
log102
=
H
HVSMSE
PSNR
MSEH määritetään laskemalla alkuperäisen ja häiriöisen kuvan DCT-
vastinkomponenttien väliset erotukset ja painottamalla niitä korjausmatriisin perusteella.
Korjausmatriisi määrittää ärsykkeiden näkyvyyden peruskynnysarvot eri taajuuksilla eli
se toimii kontrastiherkkyysfunktion toteutuksena. Korjausmatriisina on käytetty JPEG-
standardissa ehdotettua kvantisointimatriisia [11, katso [5] ]. Egiazarianin et al. PSNR-
HVS-M [12] on PSNR-HVS:sta kehitetty versio, joka kontrastiherkkyysfunktion huo-
mioimisen lisäksi sisältää mallin kontrastipeittoilmiöstä. Mallia sovelletaan DCT-
vastinkomponentteihin, minkä jälkeen määritetään MSEH ja lasketaan PSNR-HVS ku-
ten edellä.
Watsonin 1993 kehittämä DCTune [13] otti kantaa JPEG-standardista puuttuneeseen
kvantisointimatriisin määrittelyyn. Ihmisen näkemä informaatio kuvissa keskittyy mata-
lammille taajuuksille ja kvantisointimatriisin avulla määritetään, kuinka suurella pak-
kauskertoimella kuvan eri taajuuskomponentit pakataan. Ennen DCTunea pakkauksessa
käytettiin samoja kvantisointimatriiseja kaikille kuville esimerkiksi määrittämällä niitä
subjektiivisten kokeiden perusteella. DCTunessa jokaiselle kuvalle muodostetaan oma
kvantisointimatriisi kuvan sisällön perusteella ottamalla huomioon luminanssi- ja kont-
rastipeiton vaikutukset yksityiskohtien näkyvyyteen eri taajuuskanavilla. Tällä pyritään
saavuttamaan optimaalinen kuvan laatu käytetyllä bittinopeudella. Optimaalisen kvan-
tisointimatriisin määrittämisen lisäksi DCTunea voidaan käyttää laadun arviointimene-
telmänä. Se antaa hyvälaatuisille kuville pieniä ja huonolaatuisille suurempia arvoja.
Karunasekeran ja Kingsburyn vuonna 1995 kehittämä menetelmä [14] mittaa kuvis-
ta pikselöitymistä. Julkaisussa kuvataan pystysuuntaisilla reunoilla olevien pikselöity-
misvirheiden arviointi ja vaakasuuntaisilla reunoilla se suoritetaan vastaavalla tavalla.
Pystysuuntainen reuna vastaa korkeaa taajuutta vaakasuunnassa ja matalaa taajuutta
pystysuunnassa. Ensin pystysuuntaiset reunat korostetaan ylipäästösuodattamalla virhe-
9
kuva vaakasuunnassa ja tämän jälkeen vähennetään satunnaisten virheiden osuutta ali-
päästösuodattamalla se pystysuunnassa. Suodatuksen tulokselle lasketaan paikallisesti
peittoilmiöiden vaikutus. Huomioon otetaan sekä luminanssi- että kontrastipeitto. Kos-
ka näköjärjestelmä on epälineaarinen, suoritetaan lopuksi muunnos
0p
mt ee = (3.5)
jossa muuttuja em on peittoilmiöiden mukaan muokattu virhesignaali ja p0 valitaan siten,
että muunnoksen vaikutus approksimoi näköjärjestelmän epälineaarisuutta. Muunnok-
sen jälkeen lopullinen virhearvio lasketaan ottamalla keskiarvo virhesignaalien et it-
seisarvoista.
3.3. Rakenteellinen samankaltaisuus
Wang et al. ovat esittäneet objektiiviseen kuvan laadun arviointiin näköjärjestelmän
mallintamisesta poikkeavan näkökulman [15]. Heidän mukaansa näköjärjestelmää mal-
lintavissa menetelmissä on ominaisuuksia, jotka eivät välttämättä edistä niiden luotetta-
vuutta. Niiden sisältämät näköjärjestelmän mallit mittaavat laatua usein määrittämällä
näkyvyyskynnyksiä, joiden yläpuolella olevat ärsykkeet kyetään juuri ja juuri havaitse-
maan. Ei kuitenkaan ole varmuutta siitä, että näköjärjestelmä käsittelee selvemmin nä-
kyviä ärsykkeitä samalla tavalla. Toiseksi, menetelmät toimivat yleensä synteettisillä
kuvilla hyvin, mutta luonnollisia kuvia arvioitaessa niiden suorituskyky laskee. Myös-
kään Minkowskin metriikka ei ole ihanteellinen tapa yhdistää virheitä, sillä se ei säilytä
virheiden rakennetta [4]. Lisäksi Wang et al. esittävät, että referenssikuvan ja häiriöisen
kuvan vastinpikselien välillä esiintyviä eroja ei voida selvästi rinnastaa kuvan laadun
puutteeseen.
Uuden lähestymistavan idea on, että ihmisen näköjärjestelmä on erikoistunut erotte-
lemaan kuvista rakenteellista informaatiota, joten alkuperäisen ja häiriöisen kuvan välil-
lä olevien rakenteellisten erojen mittaaminen antaa hyvän arvion subjektiivisesta laadus-
ta. Tämän lähestymistavan pohjalta luotiin ensin matemaattisesti yksinkertainen Univer-
sal Quality Index (UQI) [16]. UQI:ssa mallinnetaan kuvissa esiintyviä rakenteellisia
eroja korrelaation puutteen sekä luminanssi- ja kontrastierojen perusteella. UQI kahden
samankokoisen signaalin x ja y välillä lasketaan kaavalla
jossa σx ja σy ovat signaalien keskihajonnat, σ2x ja σ2
y vastaavat varianssit, µx ja µy kes-
kiarvot ja σxy on kovarianssi.
Kaavasta (3.6) nähdään, että UQI koostuu kolmen komponentin tulosta. Komponen-
teista ensimmäinen mittaa x:n ja y:n välistä korrelaatiota ja se saa arvoja välillä (-1, 1).
Toinen komponentti mittaa x:n ja y:n luminanssikeskiarvojen eroa toisistaan. Sen arvot
ovat välillä (0, 1) ja se saa arvon 1 vain, jos luminanssien keskiarvot ovat samat. Signaa-
lien keskihajonnat rinnastetaan arvioiksi niiden kontrasteista. Välillä (0, 1) vaihteleva
kolmas komponentti mittaa kontrastieroja ja saa luminanssikomponentin tavoin arvon 1
[ ] )6.3()(
42222222222yxyx
yxxy
yx
yx
yx
yx
yx
xyUQI
µµσσ
µµσ
σσ
σσ
µµ
µµ
σσ
σ
++=
+⋅
+⋅=
10
vain, jos kontrastit ovat samat. Kaavaa (3.6) sovelletaan ensin paikallisesti käyttämällä
NxN –kokoista ikkunaa. Tästä saadaan laatukartta, jonka keskiarvona voidaan laskea
UQI:n antama laatuarvio, joka on luku väliltä (-1,1).
UQI:n pohjalta rakennettiin yleistetty versio, Structural Similarity Index (SSIM)
[17], joka koostuu UQI:n tavoin luminanssi-, kontrasti- ja korrelaatiokomponentista:
( )
( ) ( ) ( )
( )( )( )( )2
221
22
21
3
3
222
2
22
1
22
,,,
22,
CC
CC
yxsyxcyxl
C
C
C
CCyxSSIM
yxyx
xyyx
yx
xy
yx
yx
yx
yx
++++
++=
⋅⋅=
+
+⋅
++
+⋅
+
+=
σσµµ
σµµ
σσ
σ
σσ
σσ
µµ
µµ
γβα
γβα
(3.7)
(3.8)
(3.9)
Parametreilla α, β, ja γ voidaan säätää komponenttien keskinäistä vaikutusta SSIM:n
antamaan arvioon. Yksinkertaistuksen vuoksi näille parametreille on annettu arvo yksi.
Vakiotermit Ci ovat mukana tasapainottamassa menetelmän toimintaa nollan
läheisyydessä.
SSIM lasketaan ensin paikallisesti NxN-kokoisessa ikkunassa. Ottamalla
paikallisten arvioiden keskiarvo saadaan yhtenä lukuna kuvan laatua kuvaava MSSIM
(Mean Structural Similarity Index). MSSIM:n arvot vaihtelevat UQI:n tavoin välillä (-1,
1) arvon 1 tarkoittaessa parhaimmanlaatuista kuvaa.
3.4. Tilastollinen mallintaminen
Sheikhin ja Bovikin lähestymistapa eroaa näköjärjestelmän mallintamisesta ja
rakenteellisesta samankaltaisuudesta siten, että siinä pyritään mallintamaan kuvia
hyödyntämällä niiden tilastollisia ominaisuuksia. Tilastolliseen mallintamiseen
pohjautuva Visual Information Fidelity (VIF) [18] on monimutkainen täyden
referenssin menetelmä, joka käsitellään tässä yhteydessä vain pintapuolisesti. Perustana
kuvien vertailulle on ajatus siitä, että referenssikuva menee sellaisenaan
näköjärjestelmän läpi ja aivot erottelevat siitä oleellisen informaation. Häiriöinen kuva
on kuin referenssikuva, mutta se sisältää myös tietynlaisen häiriömallin vaikutuksen,
joka vähentää kuvasta saatavaa informaatiota. VIF:n tarkoituksena on verrata, kuinka
paljon häiriöisen kuvan informaatiota jää jäljelle verrattuna referenssistä saatavaan
informaatioon.
VIF käyttää kuvien mallintamiseen normaalijakautuneista Gaussian Scale
Mixtures(GSM) –satunnaisvektoreista rakennettuja satunnaiskenttiä, joita
yhdistelemällä voidaan mallintaa luonnollisia kuvia wavelet-tasossa [19]. Kuvan
häiriöiden mittaamiseen käytetään mallia
Di = giCi + Vi (3.10)
11
jossa Di on häiriöisen ja Ci referenssikuvan yksittäistä wavelet-kanavaa kuvaava satun-
naiskenttä. Vi on satunaiskenttä, joka sisältää valkoista normaalijakautunutta kohinaa ja
g painovektori, jolla tutkitaan häiriöisen kuvan sumeutta ja kontrastin muutoksia. Sovit-
tamalla painovektorin ja kohinamallin parametrit häiriöisen ja referenssikuvan perus-
teella saadaan arvio kuvan sisältämistä häiriöistä. Sheikh ja Bovik perustelevat mallin
(3.10) valintaa sillä, että vaikka kaikkia todellisissa järjestelmissä esiintyviä virheitä ei
voidakaan sitä käyttämällä mallintaa täysin, sumeus- ja kohinakomponenttien avulla
niiden häiritsevyyttä voidaan paikallisesti approksimoida.
Häiriömallin lisäksi VIF käyttää yksinkertaista kohinamallia kuvaamaan
näköjärjestelmän vaikutusta kuvista saatavan informaation vähenemiseen:
Ei = Ci + Ni (3.11)
Fi = Di + Ni (3.12)
Kaavassa (3.11) Ei on näköjärjestelmän läpi menneen referenssikuvan yksittäistä
wavelet-kanavaa kuvaava satunnaiskenttä, (3.12):ssa Fi on näköjärjestelmän läpi
menneen häiriöisen kuvan vastaavaa wavelet-kanavaa kuvaava satunnaiskenttä ja Ni
satunnaiskenttä, joka sisältää normaalijakautunutta valkoista kohinaa.
Kuvista saatava informaatio lasketaan käyttämällä differentiaalista entropiaa ja
edellä esiteltyjä malleja. Entropia on tilastollinen muuttuja, jonka avulla kuvataan
satunnaismuuttujien epäjärjestystä. Kun signaalin entropia on suuri, sen satunnaisuus
kasvaa ja siitä saatavan informaation määrä pienenee. Differentiaalinen entropia on
suure, joka laajentaa entropian käsitteen todennäköisyysjakaumille. [20]
Referenssikuvasta saatava informaatio lasketaan referenssikuvan wavelet-kanavia
esittävien satunnaiskenttien Ci, näköjärjestelmää kuvaavan kohinamallin
satunnaiskenttien Ni sekä differentiaalisen entropian h(X) avulla:
)13.3()()(1
i
M
i
iireferenssi NhNChI ∑=
−+=
Häiriöisen kuvan informaatio lasketaan vastaavalla tavalla, mutta käyttämällä
häiriömallia (3.10):
)14.3()()(1
ii
M
i
iiiihäiriöinen NVhNVCghI +−++=∑=
Häiriöisestä kuvasta saatavan informaation suhde referenssistä saatavaan informaatioon
on VIF:in arvio kuvan laadusta. VIF:ssä voidaan laskea yksi luku koko kuvalle tai
ikkunoida, jolloin saadaan laatukartta häiriöisen kuvan laadusta. VIF on alhaalta
rajoitettu nollalla. Jos alkuperäinen kuva ja häiriöinen kuva ovat identtiset, VIF saa
arvon yksi.
12
4. MENETELMIEN VERTAILU
4.1. Yleiset metriikat
Objektiivisten kuvan laadun mittausmenetelmien paremmuutta mitataan vertaamalla
niiden antamia tuloksia subjektiivisista kokeista saatuihin tuloksiin. Mitä paremmin
objektiiviset tulokset korreloivat subjektiivisten kanssa, sitä paremmin menetelmä osaa
ennustaa subjektiivista laatua. Korrelaatiokertoimilla mitataan menetelmien tarkkuutta
ja monotonisuutta. Lisäksi mitataan johdonmukaisuutta.
Tarkkuus tarkoittaa menetelmän kykyä ennustaa subjektiivisia koetuloksia pienellä
virheellä ja sitä mitataan Pearsonin korrelaatiokertoimella. Pearsonin korrelaatio
vektorien x ja y välillä saadaan kaavasta
( )( )( ) ( )
)1.4(22
yixi
yixi
p
yx
yxr
µµ
µµ
−∑−∑
−−∑=
jossa xi ja yi ovat subjektiivisilla kokeilla ja jollakin objektiivisella menetelmällä
yksittäiselle kuvalle saadut arvot sekä µx ja µy kaikkien arvioiden keskiarvot.
Monotonisuutta mitataan Spearmanin korrelaatiokertoimella, joka kertoo, kuinka hyvin
menetelmä osaa asettaa kuvat laadun mukaan samaan järjestykseen kuin subjektiivisissa
kokeissa. Spearmanin korrelaatio lasketaan niin ikään kaavasta
( )( )
( ) ( ))2.4(
22tisi
tisis
ts
tsr
µµ
µµ
−∑−∑
−−∑=
jossa si ja ti ovat subjektiivisten kokeiden ja jonkin objektiivisen menetelmän
yksittäiselle kuvalle antamat järjestysluvut ja µs sekä µt ovat keskiarvoja. Menetelmän
johdonmukaisuutta mitataan outlier ratiolla, joka kertoo, kuinka suuri osa sen
laatuarvioista on tilastollisesti merkityksettömiä. Tilastollisesti merkityksettömänä
pidetään tulosta, joka sijoittuu yleisen vaihteluvälin ulkopuolelle. Rajana voidaan
esimerkiksi käyttää Video Quality Experts Groupin ehdottamaa 2xsubjektiivisten
tulosten keskihajontaa [21]. [1; 2.]
4.2. Testaus
Sen sijaan, että menetelmien vertailua varten olisi kerätty subjektiivista referenssidataa,
tässä yhteydessä rajoitutaan tarkastelemaan objektiivisia laatuarvioita keskenään ja
pyritään osoittamaan, että jo melko yksinkertaisella järjestelyllä saadaan aikaan
tilanteita, joista kaikki menetelmät eivät suoriudu.
13
Testausta varten referenssinä toimineesta 512x512 pikselin kokoisesta kuvasta (kuva
4.1) luotiin 16 kappaletta 512x512 –kokoisia testikuvia, jotka sisälsivät eri tyyppisiä
häiriöitä: normaalijakautunutta, Poisson-jakautunutta ja suola-pippuri –kohinaa,
keskiarvosuodatuksella sumennetun ja liikesuodatetun kuvan sekä viisi JPEG-kuvaa
pakattuna eri laatuparametrin arvoilla. Testatut menetelmät olivat DCTune, PSNR-
HVS-M, SSIM ja VIF. Kuville laskettiin myös keskineliövirheet, mutta
keskineliövirheen antamiin tuloksiin ei oteta kantaa, sillä sen soveltumattomuus
subjektiivisen laadun ennustamiseen osoitettiin jo kappaleessa 3.1. Menetelmistä tehdyt
toteutukset, joita voidaan käyttää oppimis- ja tutkimustarkoituksiin, löytyvät lähteistä
[22]-[25]. VIF:n toteutus tarvitsee toimiakseen myös Steerable Pyramid Toolboxin [26].
Kuva 4.1. Testauksen referenssikuva skaalattuna noin
70 prosenttiin alkuperäisestä koosta.
Testikuvat, kuvaukset niiden ominaisuuksista ja menetelmien testikuville antamat
laatuarviot ovat liitteessä 1. Seuraavaksi esitellään testituloksista muutama
esimerkkitapaus, jossa objektiiviset arviot ovat ristiriidassa ihmisen havaitseman laadun
kanssa. Kussakin tapauksessa tarkastellaan menetelmien kykyä luokitella kuvia
paremmuusjärjestykseen vertaamalla kahdelle testikuvalle annettuja arvioita.
Esimerkeissä esitettävät kuvat on skaalattu noin neljäsosaan niiden todellisesta koosta.
Ensimmäisenä on tilanne, jossa PSNR-HVS-M ja DCTune eivät täysin onnistu
arvioinnissa. Vertailtavana ovat kuvat 8 ja 12 (kuva 4.2). Kuva 8 simuloi ylivalottunutta
kuvaa ja kuva 12 on pakattu JPEG:llä käyttäen laatuparametria nolla. PSNR-HVS-M
antaa kuvalle 8 arvon 9.68 ja kuvalle 12 arvon 19.40, DCTune puolestaan kuvalle 8
arvon 161.83 ja kuvalle 12 arvon 56.54. PSNR-HVS-M ja DCTune siis pitävät kuvaa 12
parempilaatuisena. SSIM:n ja VIF:n mukaan kuva 8 on parempilaatuinen.
14
Kuva 4.2. Kuvat, joiden vertailussa PSNR-HVS-M ja DCTune eivät onnistu.
Toisena esimerkkinä vertaillaan kuvia 2 ja 12 (kuva 4.3). Kuva 2 sisältää
normaalijakautunutta kohinaa keskiarvolla nolla ja varianssilla 0.01 ja kuva 12 on sama
kuin edellisessä esimerkissä. SSIM:n antamat arvot ovat 0.35 kuvalle 2 ja 0.55 kuvalle
12. Se pitää siis kuvaa 12 parempilaatuisena. Muut vertailussa käytetyt menetelmät
pitävät kuvaa 2 parempana.
Kuva 4.3. Kuvat, joiden vertailussa SSIM ei onnistu.
Kolmannessa esimerkissä vertaillaan jo edellä ollutta kuvaa 8, sekä kuvaa 1, joka
sisältää normaalijakautunutta kohinaa keskiarvolla nolla ja varianssilla 0.01 (kuva 4.4).
SSIM antaa kuvalle 1 arvon 0.76 ja kuvalle 8 arvon 0.80, eli se pitää ylivalottunutta
kuvaa parempilaatuisena. Samoin tekee myös VIF, joka antaa kuvalle 1 arvon 0.59 ja
kuvalle 8 arvon 0.85. DCTunen ja PSNR-HVS-M:n perusteella kuva 1 on
parempilaatuinen.
15
Kuva 4.4. Kuvat, joiden vertailussa SSIM ja VIF eivät onnistu.
Viimeisessä esimerkissä tarkasteltavana ovat kuvat 6 ja 7 (kuva 4.5). Kuvan 6 yläosa ja
kuvan 7 alaosa sisältävät Poisson-jakautunutta kohinaa. DCTune ja VIF pitävät kuvaa 6
parempilaatuisena. DCTunen arvot kuville 6 ja 7 ovat 15.92 ja 27.04. VIF antaa kuville
arvot 0.80 ja 0.72. PSNR-HVS-M ja SSIM pitävät kuvaa 7 parempilaatuisena.
Kuva 4.5. Kuvat, joiden vertailussa DCTune ja VIF eivät onnistu.
16
5. POHDINTAA
Edellä esitettyjen yksinkertaisten esimerkkien valossa voidaan olettaa, ettei ole
olemassa objektiivista menetelmää, joka kaikissa mahdollisissa tilanteissa arvioisi
kuvan laatua ihmisen tavoin. Näköjärjestelmän mallintaminen rajoittuu näköhavainnon
hyvin tunnettujen, varhaisten prosessien tarkasteluun. Rakenteellinen samankaltaisuus
on käytännössä vain teoreettinen hypoteesi siitä, että korrelaation, luminanssin ja
kontrastin avulla saataisiin arvio ihmisen havaitsemasta laadusta. Ja siitä huolimatta,
että tilastollisen mallintamisen avulla käsitellään luonnollisten kuvien ominaisuuksia, on
sekin vain approksimointia.
Objektiivisten menetelmien sisältämien oletusten ja rajoitusten vuoksi ei niiden
paikka välttämättä ole subjektiivisten kokeiden korvaajina. Yleisessä kuvan laadun
arvioinnissa niitä voidaan käyttää, jos tarkkuusvaatimus ei ole liian korkea. Erityisesti
SSIM vaikuttaa sopivan hyvin keskineliövirheen kaltaisten menetelmien korvaajiksi,
sillä se ei ole juurikaan näitä monimutkaisempi, mutta toimii paremmin. Koska monet
menetelmät ovat erikoistuneet etsimään tiettyjä digitaalisissa kuvissa esiintyviä
häiriöitä, voidaan niitä hyödyntää luokittelemaan kuvia yksittäisten ominaisuuksien
perusteella. Suurin osa sovellusalueista on kuitenkin yleistä arviointia rajatumpia ja
usein sellaisia, joihin ei edes voi soveltaa subjektiivista arviointia. Hyvä esimerkki tästä
on kuvanpakkausalgoritmien optimointi, jossa objektiivisten menetelmien sisältämillä
tiedoilla saadaan aikaan toimivia tuloksia.
Objektiivista arviointia on laajennettu myös videoille soveltamalla sitä yksittäisille
videoruuduille ja huomioimalla peräkkäisten ruutujen välillä esiintyviä ilmiöitä. Näin
luoduilla menetelmillä voidaan esimerkiksi valvoa siirrettävän videokuvan, kuten
digitaalisen televisiolähetyksen laatua ja ehkäistä vaikkapa siirtotekniikoista johtuvia
häiriöitä. Muun muassa Wang et al. ovat tehneet SSIM:istä version videoita varten [27].
Koska objektiivisten menetelmien kirjo on niin laaja ja yksittäiset menetelmät
luodaan usein tiettyjä sovelluskohteita varten, menetelmien mahdollinen standardointi
on vaikeaa. Hyödyllisiä tuloksia luo kuitenkin vuonna 1997 perustettu Video Quality
Experts Group (VQEG). VQEG on asiantuntijaryhmä, jonka tehtävänä on evaluoida eri
järjestelmien, kuten teräväpiirtotelevision testaamiseen parhaiten soveltuvia
objektiivisia menetelmiä. Vuosina 2000 ja 2003 se testasi joukon objektiivisesti videon
laatua mittaavia menetelmiä. Tulokset ovat saatavilla VQEG:n kotisivuilta [28]
valitsemalla Projects ja FRTV Phase I sekä FRTV Phase II. Testien perusteella
American National Standards Institute (ANSI) valitsi National Telecommunications and
Information Administrationin (NTIA) kehittämän menetelmän standardoitavaksi vuonna
2004 [29].
17
LÄHTEET
[1] Winkler, S., Digital Video Quality - Vision Models and Metrics, John
Wiley & Sons, January 2005.
[2] Wu, H.R., Rao, K.R., Digital Video Image Quality and Perceptual Cod-
ing, CRC Press, 2006
[3] Marziliano, P., Dufaux, F., Winkler, S., Ebrahimi, T., “A no-reference
perceptual blur metric”, Proceedings on IEEE International Conference
on Image Processing, vol. 3, pp. 57-60, 2002
[4] Wang, Z., Sheikh, H.R., Bovik, A.C., "Objective video quality assess-
ment”, Handbook of Video Databases: Design and Applications, pp.
1041-1078, CRC Press, September 2003
[5] Pappas, T.N., Safranek, R.J., "Perceptual Criteria for Image Quality
Evaluation", Handbook of Image and Video Processing, pp. 669-684,
Academic Press, San Diego, 2000
[6] Campbell, F.W., Robson, J.G., “Application of fourier analysis to the visibility of gratings”, Journal of Physiology, vol. 197, pp. 551-566, 1968
[7] Mannos, J., Sakrison, D., “The effects of a visual fidelity criterion of the
encoding of images”, IEEE Transactions on Information Theory, vol. 20,
no. 4, pp. 525-536.
[8] Faugeras, O.D., "Digital Color Image Processing Within the Framework
of a Human Visual Model", IEEE Transactions on Acoustics, Speech,
and Signal Processing, vol. 27, No. 4, pp. 380-393, August 1979
[9] Bradley, A.P., "A wavelet visible difference predictor", IEEE Transac-
tions on Image Processing, vol. 8, no.5, pp.717-730, May 1999
[10] Chalmers, A., McNamara, A., Daly, S., Myszkowski, K., Troscianko, T.,
“Image Quality Metrics”, ACM SIGGRAPH, July 2000 [WWW][viitattu
28.10.2007]. Saatavissa:
http://www.cs.bris.ac.uk/Publications/Papers/1000473.pdf
18
[11] Egiazarian, K., Astola, J., Ponomarenko, N., Lukin, V., Battisti, F., Carli,
M., “New full-reference quality metrics based on HVS”, CD-ROM Pro-
ceedings of the Second International Workshop on Video Processing and
Quality Metrics, Scottsdale, USA, 2006, 4 p.
[12] Ponomarenko, N., Silvestri, F., Egiazarian, K., Carli, M., Lukin, V., “On
Between-Coefficient Contrast Masking of DCT Basis Functions”, CD-
ROM proceedings of Third International Workshop on Video Processing
and Quality Metrics for Consumer Electronics, VPQM-07, January,
2007, 4p.
[13] Watson, A.B., ”DCTune: A technique for visual optimization of DCT
quantization matrices for individual images”, Society for Information
Display Digest of Technical Papers XXIV, pp. 946-949, 1993
[14] Karunasekera, S.A, Kingsbury, N.G., “A distortion measure for blocking
artifacts in images based on human visual sensitivity”, IEEE Transac-
tions on Image Processing, vol. 4, no. 6, pp. 713-724, June 1995.
[15] Wang, Z., Bovik, A.C., Lu, L., "Why is image quality assessment so dif-
ficult?", IEEE International Conference on Acoustics, Speech, & Signal
Processing, vol, 4, pp. 3313-3316, May 2002.
[16] Wang, Z., Bovik, A.C., "A universal image quality index," IEEE Signal
Processing Letters, vol. 9, no. 3, pp. 81-84, March 2002.
[17] Wang, Z., Bovik, A.C., Sheikh, H.R., Simoncelli, E.P., "Image quality
assessment: From error visibility to structural similarity", IEEE Transac-
tions on Image Processing, vol. 13, no. 4, pp. 600-612, April 2004.
[18] Sheikh, H.R., Bovik, A.C., "Image Information and Visual Quality",
IEEE Transactions on Image Processing, vol. 15, no. 2, pp. 430-444,
February 2006
[19] Wainwright, M.J., Simoncelli, E.P., Wilsky, A.S., “Random cascades on
wavelet trees and their use in analyzing and modeling natural images,”
Applied and Computational Harmonic Analysis, vol. 11, pp. 89–123,
2001.
[20] Cover, T.M., Thomas, J.A., Elements of Information Theory, Wiley-Interscience, New York, 1991.
19
[21] ITU-T, “Objective perceptual assessment of video quality: Full reference
television”, 2004 [WWW]. [viitattu 16.11.2007] Saatavissa:
http://www.itu.int/dms_pub/itu-t/opb/tut/T-TUT-OPAVQ.04-2004-PDF-
E.pdf
[22] Watson, A.B., DCTunen toteutus [WWW]. [viitattu 24.11.2007]. Saata-
vissa:
http://vision.arc.nasa.gov/dctune/dctune2.0.install.exe,
http://vision.arc.nasa.gov/dctune/dctune2.0.sea.hqx,
http://vision.arc.nasa.gov/dctune/dctune2.0.tar.gz
[23] Ponomarenko, N., PSNR-HVS-M:n Matlab-toteutus [WWW]. [viitattu
24.11.2007]. Saatavissa: http://www.cs.tut.fi/~ponom/psnrhvsm.m
[24] Wang, Z., SSIM:n Matlab-toteutus [WWW]. [viitattu 24.11.2007]. Saa-
tavissa:
http://www.ece.uwaterloo.ca/~z70wang/research/ssim/ssim_index.m
[25] Sheikh, H.R., Bovik, A.C., VIF:n Matlab-toteutus [WWW]. [viitattu
24.11.2007]. Saatavissa:
http://live.ece.utexas.edu/research/Quality/vifvec_release.zip.
[26] Simoncelli, E.P., Steerable Pyramid Toolbox [WWW]. [viitattu
24.11.2007]. Saatavissa:
http://www.cns.nyu.edu/pub/eero/matlabPyrTools.tar.gz,
http://www.cns.nyu.edu/pub/eero/matlabPyrTools.sea.hqx
[27] Wang, Z., Lu, L., Bovik, A.C., ”Video quality assessment based on struc-
tural distortion measurement”, Signal Processing: Image Communica-
tion, vol. 19, no. 2, pp. 121-132, February 2004. [WWW] [viitattu
5.1.2008]. Saatavissa:
http://www.cns.nyu.edu/~zwang/files/papers/vssim.pdf
[28] Video Quality Experts Group [WWW]. [viitattu 6.1.2008].
Saatavissa: http://www.its.bldrdoc.gov/vqeg/
[29] Pinson, M.H., Wolf, S., “A new standardized method for objectively
measuring video quality”, IEEE Transactions on Broadcasting, vol. 50,
no. 3, pp. 312-322, September 2004. [WWW] [viitattu 13.1.2008].
Saatavissa: http://www.its.bldrdoc.gov/pub/n3/video/ieee04.pdf
20
LIITE 1
Kuvissa L1-L4 ovat testausta varten luodut 512x512 –kokoiset kuvat, jotka on pienen-
netty sivuille sopiviksi. Tarkempi kuvaus niiden ominaisuuksista löytyy taulukosta 1 ja
menetelmien antamat arviot kuville taulukosta 2.
Kuva L1. Testikuvat 1-4
21
Kuva L2. Testikuvat 5-8
22
Kuva L3. Testikuvat 9-12
23
Kuva L4. Testikuvat 13-16
24
Taulukko 1. Testikuvien ominaisuudet
Kuva Kuvan muokkaustapa
1 Normaalijakautunutta kohinaa, µ = 0, σ = 0.001
2 Normaalijakautunutta kohinaa, µ = 0, σ = 0.01
3 Normaalijakautunutta kohinaa, µ = , σ = ’localvar’
4 Suola-pippuri –kohinaa, tiheys = 0.02
5 Suola-pippuri –kohinaa, tiheys = 0.1
6 Kuvan yläosassa Poisson-jakautunutta kohinaa
7 Kuvan alaosassa Poisson-jakautunutta kohinaa
8 ’Ylivalottunut’ kuva, pikseliarvot kerrottu 1.5:llä
9 ’Alivalottunut’ kuva, pikseliarvot kerrottu 0.6:lla
10 Keskiarvosuodatettu kuva, ikkunan koko 5x5
11 Liikesuodatettu kuva, Matlab: fspecial (’motion’, 20, 20)
12 JPEG-pakattu kuva, laatuparametri 0
13 JPEG-pakattu kuva, laatuparametri 15
14 JPEG-pakattu kuva, laatuparametri 25
15 JPEG-pakattu kuva, laatuparametri 40
16 JPEG-pakattu kuva, laatuparametri 75
Taulukko 2. Menetelmien testikuville antamat arviot järjestyksessä parhaimmasta huonompaan.
MSE DCTune PSNR-HVS-M SSIM VIF
Kuva Arvio Kuva Arvio Kuva Arvio Kuva Arvio Kuva Arvio
16 25.30 16 4.19 16 49.97 16 0.94 8 0.85
7 34.10 15 7.66 15 41.31 7 0.93 16 0.83
15 51.00 14 9.85 7 37.54 15 0.89 6 0.80
1 62.00 1 12.49 14 36.46 14 0.86 9 0.73
14 67.50 13 13.17 1 33.86 9 0.83 7 0.72
6 79.50 6 15.92 13 31.43 13 0.82 15 0.63
13 92.50 10 24.19 6 31.31 8 0.80 1 0.59
10 164.80 7 27.04 10 24.50 1 0.76 14 0.51
12 313.20 3 35.87 4 24.26 6 0.74 13 0.39
11 354.40 2 36.30 2 22.75 10 0.73 4 0.32
4 427.00 4 43.76 3 22.72 4 0.66 10 0.28
2 577.00 12 56.54 12 19.40 11 0.61 2 0.26
3 577.70 11 61.84 11 18.28 12 0.55 3 0.26
5 2201.00 5 93.14 5 16.55 2 0.35 5 0.14
8 2713.30 9 149.14 8 9.68 3 0.35 11 0.10
9 3468.40 8 161.83 9 8.60 5 0.21 12 0.07