topi santakivi objektiivinen kuvan laadun arviointi santakivi.pdf · ensin tutkittavasta kuvasta...

TOPI SANTAKIVI OBJEKTIIVINEN KUVAN LAADUN ARVIOINTI Kandidaatintyö

Tarkastaja: Lehtori Heikki Huttunen

Jätetty tarkastettavaksi 19.01.2008

I

TAMPEREEN TEKNILLINEN YLIOPISTO

Automaatiotekniikan koulutusohjelma

SANTAKIVI, TOPI: Objektiivinen kuvan laadun arviointi

Tekniikan kandidaatintyö, 16 sivua, 5 sivua liitteitä

Tammikuu 2008

Pääaine: Signaalinkäsittely

Työn tarkastaja: Lehtori Heikki Huttunen

Avainsanat: kuvan laatu, objektiiviset menetelmät

Tämän kirjallisuusselvityksen tarkoituksena on antaa lukijalle yleiskuva objektiivisesta

kuvan laadun arvioinnista, sitä suorittavista menetelmistä, niiden taustalla olevasta teo-

riasta ja mahdollisista sovelluskohteista. Esitettävien asioiden pohjana on käytetty muu-

tamaa aihetta käsittelevää yleisteosta ja yksittäisistä menetelmistä kertovia tieteellisiä

julkaisuja.

Objektiivisia kuvan laadun arviointimenetelmiä on olemassa paljon. Ne pohjautuvat

erityyppisiin näkökulmiin ja tarvitsevat arviointiin vaihtelevan määrän informaatiota.

Suurin osa niistä pyrkii antamaan tutkittavasta kuvasta yksittäisen luvun, joka kuvaa sen

laatua.

Menetelmien välillä suoritettu testaus tukee kirjoittajan intuitiivista käsitystä siitä,

että objektiivisilla menetelmillä ei voida syrjäyttää ihmistä kuvan laadun arvioinnin asi-

antuntijana. Objektiivinen kuvan laadun arviointi onkin tehokkaimmillaan, kun mene-

telmät räätälöidään tarkoin määriteltyjä sovelluksia, kuten kuvanpakkauksen optimoin-

tia varten.

II

ALKUSANAT

Tämä tekniikan kandidaatintyö on tehty Tampereen teknillisen yliopiston signaalinkäsit-

telyn laitokselle. Kiitokset työnantajalleni PacketVideo Finland Oy:lle, jossa kesällä

2007 työskennellessäni sain idean alkaa tutustua tämän työn käsittelemään aiheeseen.

Haluan kiittää myös kandidaatintyöseminaarin vetäjiä Konsta Koppista ja Heikki Hut-

tusta, jotka avustivat työn etenemisessä antamalla lukuisia hyödyllisiä neuvoja, sekä

isääni Pekka Santakiveä, joka parinkymmenen vuoden äidinkielenopettajan kokemuk-

sella tarjoutui oikolukemaan työni. Suurimmat kiitokseni kuuluvat kuitenkin rakkaalle

avovaimolleni Lindalle, jonka avulla jaksoin läpi kiireisen syksyn.

Tampereella, 17. tammikuuta 2008

Topi Santakivi

III

SISÄLLYS

1. Johdanto................................................................................................................ 1

2. Puuttuvan ja osittaisen referenssin menetelmät...................................................... 3

3. Täyden referenssin menetelmät ............................................................................. 4

3.1. Vastinpikselien vertailu ................................................................................. 4

3.2. Näköjärjestelmän mallintaminen ................................................................... 5

3.2.1. Ihmisen näköjärjestelmä ja sen mallintaminen................................ 5

3.2.2. Menetelmien esittelyä .................................................................... 7

3.3. Rakenteellinen samankaltaisuus..................................................................... 9

3.4. Tilastollinen mallintaminen ......................................................................... 10

4. Menetelmien vertailu .......................................................................................... 12

4.1. Yleiset metriikat .......................................................................................... 12

4.2. Testaus ........................................................................................................ 12

5. Pohdintaa ............................................................................................................ 16

Lähteet........................................................................................................................ 17

Liite 1 ......................................................................................................................... 20

IV

LYHENTEET JA MERKINNÄT

(a, b) reaalilukuväli

h(X) differentiaalinen entropia

x vektori

σx keskihajonta

σ2

x varianssi

σxy kovarianssi

µx keskiarvo

ACR Absolute Category Rating

ANSI American National Standards Institute

DCT Diskreetti kosinimuunnos (Discrete Cosine Transform)

DSIS Double Stimulus Impairment Scale

GSM Gaussian Scale Mixtures

MSE Keskineliövirhe (Mean Squared Error)

MSSIM Mean Structural Similarity Index

MOS Mean Opinion Score

NTIA National Telecommunications and Information Administration

PSNR Peak signal-to-noise ratio

SSIM Structural Similarity Index

UQI Universal Quality Index

VDP Visible Differences Predictor

VIF Visual Information Fidelity

VQEG Video Quality Experts Group

WVDP Wavelet Visible Differences Predictor

1

1. JOHDANTO

Digitaalista kuvaa käsittelevien järjestelmien yleistyminen analogisten ratkaisujen vähe-

tessä on nostanut esiin uusia haasteita: kuinka vertailla niitä keskenään sekä mitata ja

optimoida niiden suorituskykyä? Järjestelmät on luotu ihmisiä varten, joten luotetta-

vimmat tulokset saadaan subjektiivisilla kokeilla. Näissä kokeissa esimerkiksi arvioi-

daan jonkin järjestelmän, vaikkapa digitaalisen kameran, tuottaman kuvamateriaalin laa-

tua näyttämällä sitä joukolle ihmisiä ja keräämällä heidän mielipiteensä. Jotta tulokset

olisivat mahdollisimman luotettavat, pyritään kokeet suorittamaan vakio-olosuhteissa,

kuten esittämällä kuvia ennalta määrätyltä katseluetäisyydeltä ja tietyssä valaistuksessa.

Tavallisimmin käytettyjä subjektiivisia koemenettelyitä ovat muun muassa Absolute

Category Rating (ACR) ja Double Stimulus Impairment Scale (DSIS). ACR:ssa koe-

henkilölle näytetään yksittäisiä kuvia ja hänen tehtävänään on antaa jokaiselle kuvalle

arvosana viisiportaiselta asteikolta. DSIS:ssa koehenkilön tehtävänä arvioida erilaisia

häiriöitä sisältäviä kuvia antamalla arvosana ACR:n tapaan viisiportaiselta asteikolta,

mutta vertaamalla niitä referenssinä toimivaan kuvaan. Jokaisella portaalla on molem-

missa menetelmissä oma kielellinen merkityksensä vaihdellen virheettömästä kuvasta

laadultaan todella häiritsevään. Subjektiivisten kokeiden jälkeen voidaan kullekin testi-

kuvalle laskea yksittäinen arvosana ottamalla tuloksista keskiarvo eli Mean Opinion

Score (MOS). [1.]

Vaikka subjektiivisilla kokeilla saatuja tuloksia voidaankin pitää luotettavimpina, on

subjektiivinen testaaminen käytännössä työlästä ja hintavaa. Lisäksi digitaalinen signaa-

li on pakattua ja se tuo mukanaan kuviin uudentyyppisiä häiriöitä. On siis olemassa tar-

ve kehittää tapoja arvioida digitaalisten kuvien häiriöitä ja laatua objektiivisesti. Objek-

tiiviset kuvanlaadun mittausmenetelmät ovat matemaattisia algoritmeja, joiden tavoit-

teena on jäljitellä ihmisen kykyä arvioida kuvien laatua. Ne voidaan jakaa arviointitavan

perusteella kolmeen ryhmään: puuttuvan, osittaisen ja täyden referenssin menetelmiin.

Kappaleessa 2 esitellään lyhyesti puuttuvan ja osittaisen referenssin käytön toimin-

taperiaate. Pääaiheena ovat kappaleessa 3 käsiteltävät täyden referenssin menetelmät,

joita lähestytään eri näkökulmista. Ensimmäisenä esitellään yksinkertaisten vastinpikse-

limenetelmien, kuten keskineliövirheen idea ja osoitetaan näiden soveltumattomuus ih-

misen havaitseman kuvan laadun arviointiin. Vastinpikselimenetelmien jälkeen tarkas-

tellaan menetelmiä, jotka pyrkivät luotettavampaan kuvan laadun arviointiin näköjärjes-

telmää mallintamalla. Niille esitellään yhteinen perusrakenne ja käydään läpi muutaman

toiminta. Kappaleessa ”Rakenteellinen samankaltaisuus” tarkastellaan näköjärjestelmän

mallintamiselle vastakkaista ajattelutapaa ja siihen perustuvaa toteutusta. Viimeisenä

käydään läpi kuvien tilastolliseen mallintamiseen perustuva menetelmä.

2

Kappaleessa 4 esitellään muutama yleinen metriikka, joilla vertaillaan objektiivisten

menetelmien paremmuutta. Lisäksi testataan täyttä referenssiä käyttävien toteutusten

soveltuvuutta yleiseen kuvan laadun arviointiin luomalla joukko testikuvia ja vertaile-

malla eri menetelmien niille antamia laatuarvioita keskenään. Lopuksi pohditaan objek-

tiivisen kuvan laadun arvioinnin soveltuvuutta eri tehtäviin.

3

2. PUUTTUVAN JA OSITTAISEN REFERENSSIN MENETELMÄT

Kuvan laatua arvioitaessa ei aina tarvitse olla saatavilla referenssiä, johon vertaamalla

arviointi suoritetaan. Puuttuvan referenssin menetelmät mittaavat laatua tekemällä ole-

tuksia kuvissa esiintyvistä häiriöistä ja tutkittavien kuvien ominaisuuksista. Ne mittaa-

vat tavallisesti kuvista vain tiettyjä häiriötyyppejä, kuten pikselöitymistä (engl. blocking

effect) ja sumeutta. Vaikka referenssi puuttuukin, voivat ne tiettyyn tehtävään räätälöi-

tynä toimia usein sovellusalueellaan paremmin kuin jotkin yleiseen kuvan laadun arvi-

ointiin luodut, referenssiä käyttävät menetelmät. Osittaisen referenssin käyttäminen si-

joittuu puuttuvan ja täyden referenssin käytön välimaastoon. Puuttuvan referenssin me-

netelmien tapaan ne voivat hyödyntää tietoja tutkittavista häiriöistä. Referenssikuvaa ei

sellaisenaan käytetä, vaan siitä voidaan ottaa kuvan laadun tarkastelua varten talteen

vain olennaisimpia ominaisuuksia. [2.]

Marziliano et al. kehittivät vuonna 2002 puuttuvan referenssin menetelmän, jolla

mitataan kuvan sumeutta [3]. Menetelmä on laskennallisesti kevyt ja sitä voidaan hyö-

dyntää esimerkiksi kameran automaattisessa tarkentamisessa. Julkaisussa kuvataan su-

meuden mittaaminen pystyreunoille ja se toimii vaakasuunnassa samalla periaatteella.

Ensin tutkittavasta kuvasta etsitään reunat Sobel-operaattorilla. Sumeuden mittaaminen

perustuu siihen, että kuvan sumentuessa sen reunat leviävät, ja menetelmä määrittää ku-

van sumeuden reunojen leveyden perusteella. Mittaaminen tapahtuu tutkimalla kuvan

kullakin vaakarivillä Sobel-operaattorin avulla löydettyjen reunojen paikkoja ja pikse-

liarvojen vaihtelua niiden ympäristössä. Levinneen reunan rajoina pidetään paikallisia

ääriarvoja, joiden välisestä etäisyydestä saadaan arvio sumeudesta (kuva 2.1). Koko ku-

van sumeus lasketaan paikallisten arvioiden keskiarvona.

Kuva 2.1. Sumean reunan tutkiminen. a) on Sobel-operaattorilla löydetyn sumentuneen

pystyreunan keskikohta, b) ja c) paikalliset ääriarvot ja d) sumentuneen reunan leveys

eli paikallinen arvio sumeudesta.

4

3. TÄYDEN REFERENSSIN MENETELMÄT

Täyden referenssin menetelmät arvioivat laatua käyttämällä kahta kuvaa. Alkuperäinen,

virheettömäksi oletettu kuva toimii referenssinä, johon verrataan arvioitavana olevaa,

häiriöitä sisältävää kuvaa. Täyden referenssin käyttäminen voidaan jakaa lähestymista-

van mukaan neljään ryhmään: vastinpikselien erotuksen mittaamiseen, näköjärjestelmän

mallintamiseen, rakenteellisen samankaltaisuuden mittaamiseen ja tilastolliseen mallin-

tamiseen. Osa menetelmistä pyrkii yleiseen kuvan laadun arviointiin ja osa hyödyntää

puuttuvan ja osittaisen referenssin menetelmien tapaan tietoja kuvissa esiintyvistä häiri-

öistä.

3.1. Vastinpikselien vertailu

Yleisimpiä kuvien vertailussa käytettäviä objektiivisia menetelmiä ovat yksinkertaiset

matemaattiset laskukaavat, kuten keskineliövirhe ja PSNR (Peak Signal-to-Noise Ra-

tio). Niitä käytetään paljon, sillä niiden laskeminen on nopeaa ja esimerkiksi neliövir-

heen minimointiin on olemassa runsaasti valmiita työkaluja. Kahden kuvan välinen kes-

kineliövirhe (MSE, Mean Squared Error) määritetään laskemalla kuvien vastinpikselien

erotukset, korottamalla ne toiseen potenssiin ja ottamalla niistä keskiarvo:

[ ] )1.3(),(),(1 1

0

21

0∑∑

−

=

−

=

−=N

n

M

m

nmJnmIMN

MSE

I(m,n) ja J(m,n) ovat kahden kuvan vastinpikselit, M kuvan korkeus ja N leveys. Mitä

pienempi on keskineliövirhe, sitä paremmin alkuperäinen ja häiriöitä sisältävä kuva vas-

taavat toisiaan. PSNR on kuvan suurimman intensiteettiarvon ja keskineliövirheen suh-

de desibeleinä:

)2.3()(

log102

10

=

MSE

IMAXPSNR

PSNR:n arvo on sitä suurempi, mitä parempana se pitää tutkittavan kuvan laatua. Koska

PSNR riippuu keskineliövirheestä, siihen pätevät samat heikkoudet kuin keskineliövir-

heeseenkin. Jos esimerkiksi otetaan kaksi identtistä kuvaa, siirretään toista pikselin ver-

ran oikealle, kuvien välinen keskineliövirhe kasvaa ja PSNR pienenee. Ihmissilmä puo-

lestaan havainnoi suurempia kokonaisuuksia eikä tämän vuoksi havaitse kuvien välillä

mitään eroa. On myös yksinkertaista luoda kuvia, joiden keskineliövirhe alkuperäiseen

kuvaan verrattuna on sama, mutta ihmissilmä havaitsee niiden välillä selviä laatueroja

(kuva 3.1). [1.]

5

Kuva 3.1. Keskineliövirheen soveltumattomuus ihmisen havaitseman kuvan laadun ar-

viointiin. a) Alkuperäinen kuva, b) Keskiarvosuodatettu kuva, MSE = 188.61, c) Kuvaan

lisätty suola-pippuri -kohinaa, MSE = 188.88, d) Kuvaan lisätty normaalijakautunutta

kohinaa, MSE = 188.69. Esimerkiksi kappaleessa 4.3 käsiteltävän, rakenteellista sa-

mankaltaisuutta mittaavan SSIM:n kuville antamat laatuarvot olivat 0.95 b:lle, 0.82

c:lle ja 0.45 d:lle arvosanan yksi tarkoittaessa laadultaan alkuperäisen veroista kuvaa.

3.2. Näköjärjestelmän mallintaminen

Koska pelkkiä pikseliarvojen erotuksia laskemalla ei voida arvioida subjektiivista laatua

kovinkaan luotettavasti, on asiaan otettu edistyneempi näkökulma tutkimalla tarkemmin

näköjärjestelmän ominaisuuksia ja käyttämällä niitä uusien menetelmien perustana.

Tässä kappaleessa esitetyt näköjärjestelmän ominaisuudet ja niiden mallintamiseen liit-

tyvät periaatteet pohjautuvat lähteisiin [1], [2], [4] ja [5].

3.2.1. Ihmisen näköjärjestelmä ja sen mallintaminen

Näköjärjestelmää mallintavat kuvan laadun mittausmenetelmät pyrkivät simuloimaan

ihmisen arviointikykyä hyödyntämällä näköaistin toiminnasta luotuja matemaattisia

malleja ja tietoja näköhavaintoa eri olosuhteissa rajoittavista tekijöistä. Ne noudattavat

pääosin toimintarakennetta, joka voidaan jakaa viiteen vaiheeseen: esikäsittely, kuvien

jako taajuuskanaviin, kontrastiherkkyysfunktion soveltaminen, peittoilmiöiden huomi-

ointi ja virheiden yhdistäminen.

6

Alkuperäinen ja arvioitava kuva täytyy esikäsitellä ennen varsinaisen mallin sovel-

tamista. Kuvien tulee olla kohdistettuja keskenään, jotta varmistutaan siitä, että mallia

tullaan soveltamaan vastinpikseleihin. Jos menetelmä vertailee värikuvia, kuvat voidaan

muuntaa väriavaruuteen, jonka väriskaala kuvaa paremmin ihmisen eri olosuhteissa nä-

kemiä värejä.

Eri tutkimuksissa on esitetty (varhaisimpana Campbell ja Robson vuonna 1968 [6]),

että näköärsykkeiden käsittely aivoissa tapahtuu osissa eri taajuuksille ja orientaatioille

herkillä kanavilla. Tässä työssä taajuudella tarkoitetaan kuvissa esiintyvää taajuutta eli

pikseliarvojen vaihtelunopeutta. Käsitystä kanavarakenteesta mallinnetaan jakamalla

alkuperäinen ja häiriöinen kuva taajuuskanaviin menetelmästä riippuen sopivalla muun-

noksella (kuva 3.2), kuten wavelet-muunnoksella, diskreetillä kosinimuunnoksella

(DCT) tai cortex-muunnoksella ja suorittamalla laadun arviointi jokaisella kanavalla

erikseen. DCT jakaa taajuusalueen keskenään samankokoisiin kanaviin. Wavelet-

muunnoksessa puolestaan yksittäinen kanava käsittää sitä enemmän taajuuksia, mitä

korkeampia taajuuksia sisältävää aluetta jaetaan osiin. Cortex-muunnoksessa taajuus-

kanavan koko riippuu taajuusalueesta samalla tavalla kuin wavelet-muunnoksessa, mut-

ta taajuusalue jaetaan osittamalla se sisäkkäisiin ympyröihin ja paloittelemalla ympyrät

sektoreilla kanaviksi.

Kuva 3.2. Taajuuskanaviin jakamisessa käytettyjä muunnoksia kaksiulotteisessa taa-

juustasossa. Nollataajuus sijaitsee muunnosten keskipisteissä. Vasemmalla wavelet-

muunnos, keskellä DCT-muunnos ja oikealla cortex-muunnos. [3, kuva 41.4]

Taajuuskanaviin jaon jälkeen kunkin kanavan sisältämään informaatioon sovelletaan

kontrastiherkkyysfunktiota. Kontrastiherkkyysfunktio kuvaa ihmisen kykyä havaita in-

tensiteetin muutoksia eri taajuuksilla. Sen avulla määritetään kullekin taajuuskanavalle

peruskynnysarvo, joka kertoo, kuinka suuri intensiteetin vaihtelun ärsykkeessä täytyy

olla, jotta se voitaisiin havaita. Kontrastiherkkyysfunktio muistuttaa muodoltaan kais-

tanpäästösuodinta, ja jotkin mallit (esimerkiksi [7]) ottavatkin sen huomioon suoda-

tusoperaationa. Kontrastiherkkyyttä sovelletaan tavallisesti harmaasävyarvoille, mutta

siitä on luotu malleja myös värikanaville [8].

Kontrastipeitto tarkoittaa, että kuvassa lähekkäin olevat yksityiskohdat vaikuttavat

toistensa näkyvyyteen (kuva 3.3). Yleensä ilmiö esiintyy niin päin, että yksityiskohdan

7

havaitseminen vaikeutuu toisen vaikutuksesta. Kuvan laadun tarkkailun kannalta kont-

rastipeiton merkitys on se, että kuvassa esiintyvät häiriöt erottuvat paremmin tasaisilla

kuin epätasaisilla alueilla. Mallinnuksessa kontrastipeitto otetaan tavallisesti huomioon

muokkaamalla, yleensä siis nostamalla, virheen näkyvyyden peruskynnysarvoja. Kont-

rastipeiton lisäksi voidaan käyttää myös luminanssipeittoa. Luminanssipeiton idea on

samanlainen kuin kontrastipeitossa, mutta siinä yksityiskohdan näkyvyyteen vaikuttaa

taustan kirkkaus.

Kuva 3.3. Kontrastipeitto. Molempiin kuviin on lisätty samanlainen pintakuvio. Vasem-

manpuoleisen kuvan yläosassa taivaan päällä oleva kuvio näkyy selvästi, kun taas oike-

anpuoleisessa alareunaan lisättynä sama kuvio peittyy nurmikon ja metsän yksityiskoh-

tien sekaan. [1 s.29, kuva 2.16]

Lopuksi virheet normalisoidaan esimerkiksi välille (0, 1) ja muodostetaan niistä yk-

sittäinen luku kuvan laadusta. Yleisesti käytössä on esimerkiksi paikallisten arvioiden

keskiarvottaminen tai Minkowskin metriikka:

Kaavassa (3.3) ei,j on virhesignaalin j:s kerroin taajuuskanavalla i ja β yleensä väliltä

(1, 4) valittava vakiotermi, jonka avulla voidaan säätää virheiden keskinäistä vaikutusta

metriikkaan. Esimerkiksi β:n arvolla 4 suurempien virheiden merkitys korostuu enem-

män, ja arvolla 1 kaikki virheet vaikuttavat metriikkaan suhteessa yhtä paljon, koska

niitä ei koroteta potenssiin.

3.2.2. Menetelmien esittelyä

Bradleyn Wavelet Visible Differences Predictor (WVDP) [9] on yksinkertaistettu versio

Scott Dalyn vuonna 1993 kehittämästä Visible Differences Predictorista (VDP) [10,

s.47-49]. Dalyn VDP laskee kahden kuvan perusteella kartan, joka on arvio virheiden

havaitsemisen todennäköisyydestä häiriöisen kuvan paikallisilla alueilla. VDP:ssä kuvat

esikäsitellään ja otetaan huomioon luminanssipeitto pisteoperaationa muokkaamalla

pikseliarvoja paikallisen taustan kirkkauden mukaan. Ennen taajuuskanaviin jakamista

kuviin sovelletaan kontrastiherkkyysfunktiota, minkä jälkeen taajuuskanaviksi jako teh-

)3.3(

1

,

ββ

= ∑∑

i j

jieE

8

dään cortex-muunnoksella. Varsinainen häiriöiden arviointi suoritetaan jokaisella taa-

juuskanavalla erikseen, mutta muuntamalla kukin taajuuskanava ensin takaisin tila-

tasoon. Tilatasossa huomioidaan kontrastipeittoilmiön vaikutus ja tämän jälkeen laske-

taan todennäköisyyskartta. Kynnysarvona on todennäköisyys 0.75, jota suuremmat to-

dennäköisyydet virheen näkymiselle tulkitaan näkyviksi virheiksi. Yksittäinen lukuarvo

kuvan laadusta saadaan laskemalla näkyvien virhepikselien osuus koko kuvassa.

WVDP:ssä on tehty yksinkertaistuksia VDP:hen verrattuna. Se ei ota huomioon lumi-

nanssipeittoa ja cortex-muunnos on vaihdettu wavelet-muunnokseen. Lisäksi kontrasti-

herkkyysfunktiota sovelletaan taajuuskanavilla wavelet-kertoimiin sen sijaan, että se

tehtäisiin ennen kanaviin jakoa. Huonona puolena WVDP:ssä on, että mallin yksinker-

taistaminen heikentää sen arviointikykyä.

Ponomarenkon et al. PSNR-HVS [11] on PSNR:n muunneltu versio, jossa otetaan

huomioon näköjärjestelmän ominaisuuksia virheiden havaitsemiselle. Erona PSNR:ään

on, että keskineliövirheestä käytetään muokattua versiota:

)4.3(255

log102

=

H

HVSMSE

PSNR

MSEH määritetään laskemalla alkuperäisen ja häiriöisen kuvan DCT-

vastinkomponenttien väliset erotukset ja painottamalla niitä korjausmatriisin perusteella.

Korjausmatriisi määrittää ärsykkeiden näkyvyyden peruskynnysarvot eri taajuuksilla eli

se toimii kontrastiherkkyysfunktion toteutuksena. Korjausmatriisina on käytetty JPEG-

standardissa ehdotettua kvantisointimatriisia [11, katso [5] ]. Egiazarianin et al. PSNR-

HVS-M [12] on PSNR-HVS:sta kehitetty versio, joka kontrastiherkkyysfunktion huo-

mioimisen lisäksi sisältää mallin kontrastipeittoilmiöstä. Mallia sovelletaan DCT-

vastinkomponentteihin, minkä jälkeen määritetään MSEH ja lasketaan PSNR-HVS ku-

ten edellä.

Watsonin 1993 kehittämä DCTune [13] otti kantaa JPEG-standardista puuttuneeseen

kvantisointimatriisin määrittelyyn. Ihmisen näkemä informaatio kuvissa keskittyy mata-

lammille taajuuksille ja kvantisointimatriisin avulla määritetään, kuinka suurella pak-

kauskertoimella kuvan eri taajuuskomponentit pakataan. Ennen DCTunea pakkauksessa

käytettiin samoja kvantisointimatriiseja kaikille kuville esimerkiksi määrittämällä niitä

subjektiivisten kokeiden perusteella. DCTunessa jokaiselle kuvalle muodostetaan oma

kvantisointimatriisi kuvan sisällön perusteella ottamalla huomioon luminanssi- ja kont-

rastipeiton vaikutukset yksityiskohtien näkyvyyteen eri taajuuskanavilla. Tällä pyritään

saavuttamaan optimaalinen kuvan laatu käytetyllä bittinopeudella. Optimaalisen kvan-

tisointimatriisin määrittämisen lisäksi DCTunea voidaan käyttää laadun arviointimene-

telmänä. Se antaa hyvälaatuisille kuville pieniä ja huonolaatuisille suurempia arvoja.

Karunasekeran ja Kingsburyn vuonna 1995 kehittämä menetelmä [14] mittaa kuvis-

ta pikselöitymistä. Julkaisussa kuvataan pystysuuntaisilla reunoilla olevien pikselöity-

misvirheiden arviointi ja vaakasuuntaisilla reunoilla se suoritetaan vastaavalla tavalla.

Pystysuuntainen reuna vastaa korkeaa taajuutta vaakasuunnassa ja matalaa taajuutta

pystysuunnassa. Ensin pystysuuntaiset reunat korostetaan ylipäästösuodattamalla virhe-

9

kuva vaakasuunnassa ja tämän jälkeen vähennetään satunnaisten virheiden osuutta ali-

päästösuodattamalla se pystysuunnassa. Suodatuksen tulokselle lasketaan paikallisesti

peittoilmiöiden vaikutus. Huomioon otetaan sekä luminanssi- että kontrastipeitto. Kos-

ka näköjärjestelmä on epälineaarinen, suoritetaan lopuksi muunnos

0p

mt ee = (3.5)

jossa muuttuja em on peittoilmiöiden mukaan muokattu virhesignaali ja p0 valitaan siten,

että muunnoksen vaikutus approksimoi näköjärjestelmän epälineaarisuutta. Muunnok-

sen jälkeen lopullinen virhearvio lasketaan ottamalla keskiarvo virhesignaalien et it-

seisarvoista.

3.3. Rakenteellinen samankaltaisuus

Wang et al. ovat esittäneet objektiiviseen kuvan laadun arviointiin näköjärjestelmän

mallintamisesta poikkeavan näkökulman [15]. Heidän mukaansa näköjärjestelmää mal-

lintavissa menetelmissä on ominaisuuksia, jotka eivät välttämättä edistä niiden luotetta-

vuutta. Niiden sisältämät näköjärjestelmän mallit mittaavat laatua usein määrittämällä

näkyvyyskynnyksiä, joiden yläpuolella olevat ärsykkeet kyetään juuri ja juuri havaitse-

maan. Ei kuitenkaan ole varmuutta siitä, että näköjärjestelmä käsittelee selvemmin nä-

kyviä ärsykkeitä samalla tavalla. Toiseksi, menetelmät toimivat yleensä synteettisillä

kuvilla hyvin, mutta luonnollisia kuvia arvioitaessa niiden suorituskyky laskee. Myös-

kään Minkowskin metriikka ei ole ihanteellinen tapa yhdistää virheitä, sillä se ei säilytä

virheiden rakennetta [4]. Lisäksi Wang et al. esittävät, että referenssikuvan ja häiriöisen

kuvan vastinpikselien välillä esiintyviä eroja ei voida selvästi rinnastaa kuvan laadun

puutteeseen.

Uuden lähestymistavan idea on, että ihmisen näköjärjestelmä on erikoistunut erotte-

lemaan kuvista rakenteellista informaatiota, joten alkuperäisen ja häiriöisen kuvan välil-

lä olevien rakenteellisten erojen mittaaminen antaa hyvän arvion subjektiivisesta laadus-

ta. Tämän lähestymistavan pohjalta luotiin ensin matemaattisesti yksinkertainen Univer-

sal Quality Index (UQI) [16]. UQI:ssa mallinnetaan kuvissa esiintyviä rakenteellisia

eroja korrelaation puutteen sekä luminanssi- ja kontrastierojen perusteella. UQI kahden

samankokoisen signaalin x ja y välillä lasketaan kaavalla

jossa σx ja σy ovat signaalien keskihajonnat, σ2x ja σ2

y vastaavat varianssit, µx ja µy kes-

kiarvot ja σxy on kovarianssi.

Kaavasta (3.6) nähdään, että UQI koostuu kolmen komponentin tulosta. Komponen-

teista ensimmäinen mittaa x:n ja y:n välistä korrelaatiota ja se saa arvoja välillä (-1, 1).

Toinen komponentti mittaa x:n ja y:n luminanssikeskiarvojen eroa toisistaan. Sen arvot

ovat välillä (0, 1) ja se saa arvon 1 vain, jos luminanssien keskiarvot ovat samat. Signaa-

lien keskihajonnat rinnastetaan arvioiksi niiden kontrasteista. Välillä (0, 1) vaihteleva

kolmas komponentti mittaa kontrastieroja ja saa luminanssikomponentin tavoin arvon 1

[ ] )6.3()(

42222222222yxyx

yxxy

yx

yx

yx

yx

yx

xyUQI

µµσσ

µµσ

σσ

σσ

µµ

µµ

σσ

σ

++=

+⋅

+⋅=

10

vain, jos kontrastit ovat samat. Kaavaa (3.6) sovelletaan ensin paikallisesti käyttämällä

NxN –kokoista ikkunaa. Tästä saadaan laatukartta, jonka keskiarvona voidaan laskea

UQI:n antama laatuarvio, joka on luku väliltä (-1,1).

UQI:n pohjalta rakennettiin yleistetty versio, Structural Similarity Index (SSIM)

[17], joka koostuu UQI:n tavoin luminanssi-, kontrasti- ja korrelaatiokomponentista:

( )

( ) ( ) ( )

( )( )( )( )2

221

22

21

3

3

222

2

22

1

22

,,,

22,

CC

CC

yxsyxcyxl

C

C

C

CCyxSSIM

yxyx

xyyx

yx

xy

yx

yx

yx

yx

++++

++=

⋅⋅=

+

+⋅

++

+⋅

+

+=

σσµµ

σµµ

σσ

σ

σσ

σσ

µµ

µµ

γβα

γβα

(3.7)

(3.8)

(3.9)

Parametreilla α, β, ja γ voidaan säätää komponenttien keskinäistä vaikutusta SSIM:n

antamaan arvioon. Yksinkertaistuksen vuoksi näille parametreille on annettu arvo yksi.

Vakiotermit Ci ovat mukana tasapainottamassa menetelmän toimintaa nollan

läheisyydessä.

SSIM lasketaan ensin paikallisesti NxN-kokoisessa ikkunassa. Ottamalla

paikallisten arvioiden keskiarvo saadaan yhtenä lukuna kuvan laatua kuvaava MSSIM

(Mean Structural Similarity Index). MSSIM:n arvot vaihtelevat UQI:n tavoin välillä (-1,

1) arvon 1 tarkoittaessa parhaimmanlaatuista kuvaa.

3.4. Tilastollinen mallintaminen

Sheikhin ja Bovikin lähestymistapa eroaa näköjärjestelmän mallintamisesta ja

rakenteellisesta samankaltaisuudesta siten, että siinä pyritään mallintamaan kuvia

hyödyntämällä niiden tilastollisia ominaisuuksia. Tilastolliseen mallintamiseen

pohjautuva Visual Information Fidelity (VIF) [18] on monimutkainen täyden

referenssin menetelmä, joka käsitellään tässä yhteydessä vain pintapuolisesti. Perustana

kuvien vertailulle on ajatus siitä, että referenssikuva menee sellaisenaan

näköjärjestelmän läpi ja aivot erottelevat siitä oleellisen informaation. Häiriöinen kuva

on kuin referenssikuva, mutta se sisältää myös tietynlaisen häiriömallin vaikutuksen,

joka vähentää kuvasta saatavaa informaatiota. VIF:n tarkoituksena on verrata, kuinka

paljon häiriöisen kuvan informaatiota jää jäljelle verrattuna referenssistä saatavaan

informaatioon.

VIF käyttää kuvien mallintamiseen normaalijakautuneista Gaussian Scale

Mixtures(GSM) –satunnaisvektoreista rakennettuja satunnaiskenttiä, joita

yhdistelemällä voidaan mallintaa luonnollisia kuvia wavelet-tasossa [19]. Kuvan

häiriöiden mittaamiseen käytetään mallia

Di = giCi + Vi (3.10)

11

jossa Di on häiriöisen ja Ci referenssikuvan yksittäistä wavelet-kanavaa kuvaava satun-

naiskenttä. Vi on satunaiskenttä, joka sisältää valkoista normaalijakautunutta kohinaa ja

g painovektori, jolla tutkitaan häiriöisen kuvan sumeutta ja kontrastin muutoksia. Sovit-

tamalla painovektorin ja kohinamallin parametrit häiriöisen ja referenssikuvan perus-

teella saadaan arvio kuvan sisältämistä häiriöistä. Sheikh ja Bovik perustelevat mallin

(3.10) valintaa sillä, että vaikka kaikkia todellisissa järjestelmissä esiintyviä virheitä ei

voidakaan sitä käyttämällä mallintaa täysin, sumeus- ja kohinakomponenttien avulla

niiden häiritsevyyttä voidaan paikallisesti approksimoida.

Häiriömallin lisäksi VIF käyttää yksinkertaista kohinamallia kuvaamaan

näköjärjestelmän vaikutusta kuvista saatavan informaation vähenemiseen:

Ei = Ci + Ni (3.11)

Fi = Di + Ni (3.12)

Kaavassa (3.11) Ei on näköjärjestelmän läpi menneen referenssikuvan yksittäistä

wavelet-kanavaa kuvaava satunnaiskenttä, (3.12):ssa Fi on näköjärjestelmän läpi

menneen häiriöisen kuvan vastaavaa wavelet-kanavaa kuvaava satunnaiskenttä ja Ni

satunnaiskenttä, joka sisältää normaalijakautunutta valkoista kohinaa.

Kuvista saatava informaatio lasketaan käyttämällä differentiaalista entropiaa ja

edellä esiteltyjä malleja. Entropia on tilastollinen muuttuja, jonka avulla kuvataan

satunnaismuuttujien epäjärjestystä. Kun signaalin entropia on suuri, sen satunnaisuus

kasvaa ja siitä saatavan informaation määrä pienenee. Differentiaalinen entropia on

suure, joka laajentaa entropian käsitteen todennäköisyysjakaumille. [20]

Referenssikuvasta saatava informaatio lasketaan referenssikuvan wavelet-kanavia

esittävien satunnaiskenttien Ci, näköjärjestelmää kuvaavan kohinamallin

satunnaiskenttien Ni sekä differentiaalisen entropian h(X) avulla:

)13.3()()(1

i

M

i

iireferenssi NhNChI ∑=

−+=

Häiriöisen kuvan informaatio lasketaan vastaavalla tavalla, mutta käyttämällä

häiriömallia (3.10):

)14.3()()(1

ii

M

i

iiiihäiriöinen NVhNVCghI +−++=∑=

Häiriöisestä kuvasta saatavan informaation suhde referenssistä saatavaan informaatioon

on VIF:in arvio kuvan laadusta. VIF:ssä voidaan laskea yksi luku koko kuvalle tai

ikkunoida, jolloin saadaan laatukartta häiriöisen kuvan laadusta. VIF on alhaalta

rajoitettu nollalla. Jos alkuperäinen kuva ja häiriöinen kuva ovat identtiset, VIF saa

arvon yksi.

12

4. MENETELMIEN VERTAILU

4.1. Yleiset metriikat

Objektiivisten kuvan laadun mittausmenetelmien paremmuutta mitataan vertaamalla

niiden antamia tuloksia subjektiivisista kokeista saatuihin tuloksiin. Mitä paremmin

objektiiviset tulokset korreloivat subjektiivisten kanssa, sitä paremmin menetelmä osaa

ennustaa subjektiivista laatua. Korrelaatiokertoimilla mitataan menetelmien tarkkuutta

ja monotonisuutta. Lisäksi mitataan johdonmukaisuutta.

Tarkkuus tarkoittaa menetelmän kykyä ennustaa subjektiivisia koetuloksia pienellä

virheellä ja sitä mitataan Pearsonin korrelaatiokertoimella. Pearsonin korrelaatio

vektorien x ja y välillä saadaan kaavasta

( )( )( ) ( )

)1.4(22

yixi

yixi

p

yx

yxr

µµ

µµ

−∑−∑

−−∑=

jossa xi ja yi ovat subjektiivisilla kokeilla ja jollakin objektiivisella menetelmällä

yksittäiselle kuvalle saadut arvot sekä µx ja µy kaikkien arvioiden keskiarvot.

Monotonisuutta mitataan Spearmanin korrelaatiokertoimella, joka kertoo, kuinka hyvin

menetelmä osaa asettaa kuvat laadun mukaan samaan järjestykseen kuin subjektiivisissa

kokeissa. Spearmanin korrelaatio lasketaan niin ikään kaavasta

( )( )

( ) ( ))2.4(

22tisi

tisis

ts

tsr

µµ

µµ

−∑−∑

−−∑=

jossa si ja ti ovat subjektiivisten kokeiden ja jonkin objektiivisen menetelmän

yksittäiselle kuvalle antamat järjestysluvut ja µs sekä µt ovat keskiarvoja. Menetelmän

johdonmukaisuutta mitataan outlier ratiolla, joka kertoo, kuinka suuri osa sen

laatuarvioista on tilastollisesti merkityksettömiä. Tilastollisesti merkityksettömänä

pidetään tulosta, joka sijoittuu yleisen vaihteluvälin ulkopuolelle. Rajana voidaan

esimerkiksi käyttää Video Quality Experts Groupin ehdottamaa 2xsubjektiivisten

tulosten keskihajontaa [21]. [1; 2.]

4.2. Testaus

Sen sijaan, että menetelmien vertailua varten olisi kerätty subjektiivista referenssidataa,

tässä yhteydessä rajoitutaan tarkastelemaan objektiivisia laatuarvioita keskenään ja

pyritään osoittamaan, että jo melko yksinkertaisella järjestelyllä saadaan aikaan

tilanteita, joista kaikki menetelmät eivät suoriudu.

13

Testausta varten referenssinä toimineesta 512x512 pikselin kokoisesta kuvasta (kuva

4.1) luotiin 16 kappaletta 512x512 –kokoisia testikuvia, jotka sisälsivät eri tyyppisiä

häiriöitä: normaalijakautunutta, Poisson-jakautunutta ja suola-pippuri –kohinaa,

keskiarvosuodatuksella sumennetun ja liikesuodatetun kuvan sekä viisi JPEG-kuvaa

pakattuna eri laatuparametrin arvoilla. Testatut menetelmät olivat DCTune, PSNR-

HVS-M, SSIM ja VIF. Kuville laskettiin myös keskineliövirheet, mutta

keskineliövirheen antamiin tuloksiin ei oteta kantaa, sillä sen soveltumattomuus

subjektiivisen laadun ennustamiseen osoitettiin jo kappaleessa 3.1. Menetelmistä tehdyt

toteutukset, joita voidaan käyttää oppimis- ja tutkimustarkoituksiin, löytyvät lähteistä

[22]-[25]. VIF:n toteutus tarvitsee toimiakseen myös Steerable Pyramid Toolboxin [26].

Kuva 4.1. Testauksen referenssikuva skaalattuna noin

70 prosenttiin alkuperäisestä koosta.

Testikuvat, kuvaukset niiden ominaisuuksista ja menetelmien testikuville antamat

laatuarviot ovat liitteessä 1. Seuraavaksi esitellään testituloksista muutama

esimerkkitapaus, jossa objektiiviset arviot ovat ristiriidassa ihmisen havaitseman laadun

kanssa. Kussakin tapauksessa tarkastellaan menetelmien kykyä luokitella kuvia

paremmuusjärjestykseen vertaamalla kahdelle testikuvalle annettuja arvioita.

Esimerkeissä esitettävät kuvat on skaalattu noin neljäsosaan niiden todellisesta koosta.

Ensimmäisenä on tilanne, jossa PSNR-HVS-M ja DCTune eivät täysin onnistu

arvioinnissa. Vertailtavana ovat kuvat 8 ja 12 (kuva 4.2). Kuva 8 simuloi ylivalottunutta

kuvaa ja kuva 12 on pakattu JPEG:llä käyttäen laatuparametria nolla. PSNR-HVS-M

antaa kuvalle 8 arvon 9.68 ja kuvalle 12 arvon 19.40, DCTune puolestaan kuvalle 8

arvon 161.83 ja kuvalle 12 arvon 56.54. PSNR-HVS-M ja DCTune siis pitävät kuvaa 12

parempilaatuisena. SSIM:n ja VIF:n mukaan kuva 8 on parempilaatuinen.

14

Kuva 4.2. Kuvat, joiden vertailussa PSNR-HVS-M ja DCTune eivät onnistu.

Toisena esimerkkinä vertaillaan kuvia 2 ja 12 (kuva 4.3). Kuva 2 sisältää

normaalijakautunutta kohinaa keskiarvolla nolla ja varianssilla 0.01 ja kuva 12 on sama

kuin edellisessä esimerkissä. SSIM:n antamat arvot ovat 0.35 kuvalle 2 ja 0.55 kuvalle

12. Se pitää siis kuvaa 12 parempilaatuisena. Muut vertailussa käytetyt menetelmät

pitävät kuvaa 2 parempana.

Kuva 4.3. Kuvat, joiden vertailussa SSIM ei onnistu.

Kolmannessa esimerkissä vertaillaan jo edellä ollutta kuvaa 8, sekä kuvaa 1, joka

sisältää normaalijakautunutta kohinaa keskiarvolla nolla ja varianssilla 0.01 (kuva 4.4).

SSIM antaa kuvalle 1 arvon 0.76 ja kuvalle 8 arvon 0.80, eli se pitää ylivalottunutta

kuvaa parempilaatuisena. Samoin tekee myös VIF, joka antaa kuvalle 1 arvon 0.59 ja

kuvalle 8 arvon 0.85. DCTunen ja PSNR-HVS-M:n perusteella kuva 1 on

parempilaatuinen.

15

Kuva 4.4. Kuvat, joiden vertailussa SSIM ja VIF eivät onnistu.

Viimeisessä esimerkissä tarkasteltavana ovat kuvat 6 ja 7 (kuva 4.5). Kuvan 6 yläosa ja

kuvan 7 alaosa sisältävät Poisson-jakautunutta kohinaa. DCTune ja VIF pitävät kuvaa 6

parempilaatuisena. DCTunen arvot kuville 6 ja 7 ovat 15.92 ja 27.04. VIF antaa kuville

arvot 0.80 ja 0.72. PSNR-HVS-M ja SSIM pitävät kuvaa 7 parempilaatuisena.

Kuva 4.5. Kuvat, joiden vertailussa DCTune ja VIF eivät onnistu.

16

5. POHDINTAA

Edellä esitettyjen yksinkertaisten esimerkkien valossa voidaan olettaa, ettei ole

olemassa objektiivista menetelmää, joka kaikissa mahdollisissa tilanteissa arvioisi

kuvan laatua ihmisen tavoin. Näköjärjestelmän mallintaminen rajoittuu näköhavainnon

hyvin tunnettujen, varhaisten prosessien tarkasteluun. Rakenteellinen samankaltaisuus

on käytännössä vain teoreettinen hypoteesi siitä, että korrelaation, luminanssin ja

kontrastin avulla saataisiin arvio ihmisen havaitsemasta laadusta. Ja siitä huolimatta,

että tilastollisen mallintamisen avulla käsitellään luonnollisten kuvien ominaisuuksia, on

sekin vain approksimointia.

Objektiivisten menetelmien sisältämien oletusten ja rajoitusten vuoksi ei niiden

paikka välttämättä ole subjektiivisten kokeiden korvaajina. Yleisessä kuvan laadun

arvioinnissa niitä voidaan käyttää, jos tarkkuusvaatimus ei ole liian korkea. Erityisesti

SSIM vaikuttaa sopivan hyvin keskineliövirheen kaltaisten menetelmien korvaajiksi,

sillä se ei ole juurikaan näitä monimutkaisempi, mutta toimii paremmin. Koska monet

menetelmät ovat erikoistuneet etsimään tiettyjä digitaalisissa kuvissa esiintyviä

häiriöitä, voidaan niitä hyödyntää luokittelemaan kuvia yksittäisten ominaisuuksien

perusteella. Suurin osa sovellusalueista on kuitenkin yleistä arviointia rajatumpia ja

usein sellaisia, joihin ei edes voi soveltaa subjektiivista arviointia. Hyvä esimerkki tästä

on kuvanpakkausalgoritmien optimointi, jossa objektiivisten menetelmien sisältämillä

tiedoilla saadaan aikaan toimivia tuloksia.

Objektiivista arviointia on laajennettu myös videoille soveltamalla sitä yksittäisille

videoruuduille ja huomioimalla peräkkäisten ruutujen välillä esiintyviä ilmiöitä. Näin

luoduilla menetelmillä voidaan esimerkiksi valvoa siirrettävän videokuvan, kuten

digitaalisen televisiolähetyksen laatua ja ehkäistä vaikkapa siirtotekniikoista johtuvia

häiriöitä. Muun muassa Wang et al. ovat tehneet SSIM:istä version videoita varten [27].

Koska objektiivisten menetelmien kirjo on niin laaja ja yksittäiset menetelmät

luodaan usein tiettyjä sovelluskohteita varten, menetelmien mahdollinen standardointi

on vaikeaa. Hyödyllisiä tuloksia luo kuitenkin vuonna 1997 perustettu Video Quality

Experts Group (VQEG). VQEG on asiantuntijaryhmä, jonka tehtävänä on evaluoida eri

järjestelmien, kuten teräväpiirtotelevision testaamiseen parhaiten soveltuvia

objektiivisia menetelmiä. Vuosina 2000 ja 2003 se testasi joukon objektiivisesti videon

laatua mittaavia menetelmiä. Tulokset ovat saatavilla VQEG:n kotisivuilta [28]

valitsemalla Projects ja FRTV Phase I sekä FRTV Phase II. Testien perusteella

American National Standards Institute (ANSI) valitsi National Telecommunications and

Information Administrationin (NTIA) kehittämän menetelmän standardoitavaksi vuonna

2004 [29].

17

LÄHTEET

[1] Winkler, S., Digital Video Quality - Vision Models and Metrics, John

Wiley & Sons, January 2005.

[2] Wu, H.R., Rao, K.R., Digital Video Image Quality and Perceptual Cod-

ing, CRC Press, 2006

[3] Marziliano, P., Dufaux, F., Winkler, S., Ebrahimi, T., “A no-reference

perceptual blur metric”, Proceedings on IEEE International Conference

on Image Processing, vol. 3, pp. 57-60, 2002

[4] Wang, Z., Sheikh, H.R., Bovik, A.C., "Objective video quality assess-

ment”, Handbook of Video Databases: Design and Applications, pp.

1041-1078, CRC Press, September 2003

[5] Pappas, T.N., Safranek, R.J., "Perceptual Criteria for Image Quality

Evaluation", Handbook of Image and Video Processing, pp. 669-684,

Academic Press, San Diego, 2000

[6] Campbell, F.W., Robson, J.G., “Application of fourier analysis to the visibility of gratings”, Journal of Physiology, vol. 197, pp. 551-566, 1968

[7] Mannos, J., Sakrison, D., “The effects of a visual fidelity criterion of the

encoding of images”, IEEE Transactions on Information Theory, vol. 20,

no. 4, pp. 525-536.

[8] Faugeras, O.D., "Digital Color Image Processing Within the Framework

of a Human Visual Model", IEEE Transactions on Acoustics, Speech,

and Signal Processing, vol. 27, No. 4, pp. 380-393, August 1979

[9] Bradley, A.P., "A wavelet visible difference predictor", IEEE Transac-

tions on Image Processing, vol. 8, no.5, pp.717-730, May 1999

[10] Chalmers, A., McNamara, A., Daly, S., Myszkowski, K., Troscianko, T.,

“Image Quality Metrics”, ACM SIGGRAPH, July 2000 [WWW][viitattu

28.10.2007]. Saatavissa:

http://www.cs.bris.ac.uk/Publications/Papers/1000473.pdf

18

[11] Egiazarian, K., Astola, J., Ponomarenko, N., Lukin, V., Battisti, F., Carli,

M., “New full-reference quality metrics based on HVS”, CD-ROM Pro-

ceedings of the Second International Workshop on Video Processing and

Quality Metrics, Scottsdale, USA, 2006, 4 p.

[12] Ponomarenko, N., Silvestri, F., Egiazarian, K., Carli, M., Lukin, V., “On

Between-Coefficient Contrast Masking of DCT Basis Functions”, CD-

ROM proceedings of Third International Workshop on Video Processing

and Quality Metrics for Consumer Electronics, VPQM-07, January,

2007, 4p.

[13] Watson, A.B., ”DCTune: A technique for visual optimization of DCT

quantization matrices for individual images”, Society for Information

Display Digest of Technical Papers XXIV, pp. 946-949, 1993

[14] Karunasekera, S.A, Kingsbury, N.G., “A distortion measure for blocking

artifacts in images based on human visual sensitivity”, IEEE Transac-

tions on Image Processing, vol. 4, no. 6, pp. 713-724, June 1995.

[15] Wang, Z., Bovik, A.C., Lu, L., "Why is image quality assessment so dif-

ficult?", IEEE International Conference on Acoustics, Speech, & Signal

Processing, vol, 4, pp. 3313-3316, May 2002.

[16] Wang, Z., Bovik, A.C., "A universal image quality index," IEEE Signal

Processing Letters, vol. 9, no. 3, pp. 81-84, March 2002.

[17] Wang, Z., Bovik, A.C., Sheikh, H.R., Simoncelli, E.P., "Image quality

assessment: From error visibility to structural similarity", IEEE Transac-

tions on Image Processing, vol. 13, no. 4, pp. 600-612, April 2004.

[18] Sheikh, H.R., Bovik, A.C., "Image Information and Visual Quality",

IEEE Transactions on Image Processing, vol. 15, no. 2, pp. 430-444,

February 2006

[19] Wainwright, M.J., Simoncelli, E.P., Wilsky, A.S., “Random cascades on

wavelet trees and their use in analyzing and modeling natural images,”

Applied and Computational Harmonic Analysis, vol. 11, pp. 89–123,

2001.

[20] Cover, T.M., Thomas, J.A., Elements of Information Theory, Wiley-Interscience, New York, 1991.

19

[21] ITU-T, “Objective perceptual assessment of video quality: Full reference

television”, 2004 [WWW]. [viitattu 16.11.2007] Saatavissa:

http://www.itu.int/dms_pub/itu-t/opb/tut/T-TUT-OPAVQ.04-2004-PDF-

E.pdf

[22] Watson, A.B., DCTunen toteutus [WWW]. [viitattu 24.11.2007]. Saata-

vissa:

http://vision.arc.nasa.gov/dctune/dctune2.0.install.exe,

http://vision.arc.nasa.gov/dctune/dctune2.0.sea.hqx,

http://vision.arc.nasa.gov/dctune/dctune2.0.tar.gz

[23] Ponomarenko, N., PSNR-HVS-M:n Matlab-toteutus [WWW]. [viitattu

24.11.2007]. Saatavissa: http://www.cs.tut.fi/~ponom/psnrhvsm.m

[24] Wang, Z., SSIM:n Matlab-toteutus [WWW]. [viitattu 24.11.2007]. Saa-

tavissa:

http://www.ece.uwaterloo.ca/~z70wang/research/ssim/ssim_index.m

[25] Sheikh, H.R., Bovik, A.C., VIF:n Matlab-toteutus [WWW]. [viitattu


http://live.ece.utexas.edu/research/Quality/vifvec_release.zip.

[26] Simoncelli, E.P., Steerable Pyramid Toolbox [WWW]. [viitattu


http://www.cns.nyu.edu/pub/eero/matlabPyrTools.tar.gz,

http://www.cns.nyu.edu/pub/eero/matlabPyrTools.sea.hqx

[27] Wang, Z., Lu, L., Bovik, A.C., ”Video quality assessment based on struc-

tural distortion measurement”, Signal Processing: Image Communica-

tion, vol. 19, no. 2, pp. 121-132, February 2004. [WWW] [viitattu


http://www.cns.nyu.edu/~zwang/files/papers/vssim.pdf

[28] Video Quality Experts Group [WWW]. [viitattu 6.1.2008].

Saatavissa: http://www.its.bldrdoc.gov/vqeg/

[29] Pinson, M.H., Wolf, S., “A new standardized method for objectively

measuring video quality”, IEEE Transactions on Broadcasting, vol. 50,

no. 3, pp. 312-322, September 2004. [WWW] [viitattu 13.1.2008].

Saatavissa: http://www.its.bldrdoc.gov/pub/n3/video/ieee04.pdf

20

LIITE 1

Kuvissa L1-L4 ovat testausta varten luodut 512x512 –kokoiset kuvat, jotka on pienen-

netty sivuille sopiviksi. Tarkempi kuvaus niiden ominaisuuksista löytyy taulukosta 1 ja

menetelmien antamat arviot kuville taulukosta 2.

Kuva L1. Testikuvat 1-4

21


22


23


24

Taulukko 1. Testikuvien ominaisuudet

Kuva Kuvan muokkaustapa

1 Normaalijakautunutta kohinaa, µ = 0, σ = 0.001

2 Normaalijakautunutta kohinaa, µ = 0, σ = 0.01

3 Normaalijakautunutta kohinaa, µ = , σ = ’localvar’

4 Suola-pippuri –kohinaa, tiheys = 0.02

5 Suola-pippuri –kohinaa, tiheys = 0.1

6 Kuvan yläosassa Poisson-jakautunutta kohinaa

7 Kuvan alaosassa Poisson-jakautunutta kohinaa

8 ’Ylivalottunut’ kuva, pikseliarvot kerrottu 1.5:llä

9 ’Alivalottunut’ kuva, pikseliarvot kerrottu 0.6:lla

10 Keskiarvosuodatettu kuva, ikkunan koko 5x5

11 Liikesuodatettu kuva, Matlab: fspecial (’motion’, 20, 20)

12 JPEG-pakattu kuva, laatuparametri 0





Taulukko 2. Menetelmien testikuville antamat arviot järjestyksessä parhaimmasta huonompaan.

MSE DCTune PSNR-HVS-M SSIM VIF

Kuva Arvio Kuva Arvio Kuva Arvio Kuva Arvio Kuva Arvio

16 25.30 16 4.19 16 49.97 16 0.94 8 0.85

7 34.10 15 7.66 15 41.31 7 0.93 16 0.83

15 51.00 14 9.85 7 37.54 15 0.89 6 0.80

1 62.00 1 12.49 14 36.46 14 0.86 9 0.73

14 67.50 13 13.17 1 33.86 9 0.83 7 0.72

6 79.50 6 15.92 13 31.43 13 0.82 15 0.63

13 92.50 10 24.19 6 31.31 8 0.80 1 0.59

10 164.80 7 27.04 10 24.50 1 0.76 14 0.51

12 313.20 3 35.87 4 24.26 6 0.74 13 0.39

11 354.40 2 36.30 2 22.75 10 0.73 4 0.32

4 427.00 4 43.76 3 22.72 4 0.66 10 0.28

2 577.00 12 56.54 12 19.40 11 0.61 2 0.26

3 577.70 11 61.84 11 18.28 12 0.55 3 0.26

5 2201.00 5 93.14 5 16.55 2 0.35 5 0.14

8 2713.30 9 149.14 8 9.68 3 0.35 11 0.10

9 3468.40 8 161.83 9 8.60 5 0.21 12 0.07

topi santakivi objektiivinen kuvan laadun arviointi santakivi.pdf · ensin tutkittavasta kuvasta...

Documents