evaluering af punktfindere ved indholdsbaseret billedsøgning
DESCRIPTION
Evaluering af punktfindere ved indholdsbaseret billedsøgning. Speciale – Jacob Rohde. Plan. Hvad er indholdsbaseret billedsøgning? De 4 punktfindere Beskrivelse af lokale gradientretninger med SIFT deskriptoren Segmentering ved K-means Resultat/Konklusion. - PowerPoint PPT PresentationTRANSCRIPT
Evaluering af Evaluering af punktfindere ved punktfindere ved indholdsbaseret indholdsbaseret billedsøgningbilledsøgning
Speciale – Jacob RohdeSpeciale – Jacob Rohde
PlanPlan Hvad er indholdsbaseret Hvad er indholdsbaseret
billedsøgning?billedsøgning? De 4 punktfindereDe 4 punktfindere Beskrivelse af lokale Beskrivelse af lokale
gradientretninger med SIFT gradientretninger med SIFT deskriptorendeskriptoren
Segmentering ved K-meansSegmentering ved K-means Resultat/KonklusionResultat/Konklusion
Indholdsbaseret Indholdsbaseret billedsøgning (IBBS)billedsøgning (IBBS)
IBBS: indeksere og finde billeder på IBBS: indeksere og finde billeder på baggrund af deres visuelle indhold.baggrund af deres visuelle indhold.
Forskningsområde siden 1979.Forskningsområde siden 1979. Ordinær tekstbaseret søgning ikke Ordinær tekstbaseret søgning ikke
altid nok:altid nok: Billedmængden eksploderet, især siden Billedmængden eksploderet, især siden
Internettets kommen.Internettets kommen. Tekstuel annotation præget af Tekstuel annotation præget af
menneskelig subjektivitet.menneskelig subjektivitet.
Indholdsbaseret Indholdsbaseret billedsøgningbilledsøgning
Forespørgelsesbillede:Forespørgelsesbillede:
Resultatbilleder:Resultatbilleder:
Indholdsbaseret Indholdsbaseret billedsøgningbilledsøgning
IBBSer kan kategoriseres: målsøgning, IBBSer kan kategoriseres: målsøgning, kategorisøgning eller associativ søgning.kategorisøgning eller associativ søgning.
Målsøgning: Søgning efter et specifik Målsøgning: Søgning efter et specifik objekt/billede, f.eks. i kunstkatalog.objekt/billede, f.eks. i kunstkatalog.
Kategorisøgning: Billeder Kategorisøgning: Billeder repræsentative for en specifik kategori.repræsentative for en specifik kategori.
Associativ søgning: Simpel ”browsing”, Associativ søgning: Simpel ”browsing”, tit interaktivt.tit interaktivt.
Indholdsbaseret Indholdsbaseret billedsøgningbilledsøgning
Et billede repræsenteres ved dets Et billede repræsenteres ved dets egenskaber:egenskaber: Farve.Farve. Tekstur.Tekstur. Form.Form. Etc.Etc.
Søgning: Sammenlign input-billedets Søgning: Sammenlign input-billedets egenskaber med egenskaber fra egenskaber med egenskaber fra basens billeder.basens billeder.
Indholdsbaseret Indholdsbaseret billedsøgningbilledsøgning
En eller flere egenskabsvektor(er) konstrueres. En eller flere egenskabsvektor(er) konstrueres. Repræsenterer billedets egenskaber kvantitativt.Repræsenterer billedets egenskaber kvantitativt.
Egenskabsvektoren kan være lokal eller global.Egenskabsvektoren kan være lokal eller global. Egenskaber: farve, tekstur, form, etc.Egenskaber: farve, tekstur, form, etc.
Indholdsbaseret Indholdsbaseret billedsøgningbilledsøgning
Mål: Sammenlign fire punktfindere i Mål: Sammenlign fire punktfindere i et setup: IBBS.et setup: IBBS.
Anvend dokumenterede og Anvend dokumenterede og anerkendte metoder.anerkendte metoder.
Harris
Hessian
SIFT Pedersen
SIFT deskriptor
Hessian
K-Means
Punktfindere:
Egenskabsvektor:
Indeksering:
PunktfinderePunktfindere Finder interessante punkter:Finder interessante punkter:
Punkter med en klar, gerne matematisk, Punkter med en klar, gerne matematisk, definition.definition. Oprindeligt brugt ved objekt tracking og til at Oprindeligt brugt ved objekt tracking og til at
finde interessante områder (blob detektion).finde interessante områder (blob detektion). Nu også billede-matching og udsyns-baseret Nu også billede-matching og udsyns-baseret
objekt genkendelse.objekt genkendelse.
Vi ser også gerne at et sådanne punkt Vi ser også gerne at et sådanne punkt detekteres med en tilknyttet skala.detekteres med en tilknyttet skala.
Skala?Skala? Ting i den virkelige verden består af Ting i den virkelige verden består af
forskellige strukturer ved forskellige skalaer.forskellige strukturer ved forskellige skalaer. Skalarumsteori gør det muligt at håndtere Skalarumsteori gør det muligt at håndtere
repræsentationer af billeder ved flere repræsentationer af billeder ved flere skalaer, og derved anvende skala-invariante skalaer, og derved anvende skala-invariante metoder.metoder.
Skalaen repræsenteres ved en parameter: Skalaen repræsenteres ved en parameter: σσ.. Detaljer ”undertrykkes” ved højere skalaer.Detaljer ”undertrykkes” ved højere skalaer. Et billedes skalarepræsentation findes ved Et billedes skalarepræsentation findes ved
foldning med en Gauss:foldning med en Gauss: ),(),,(),,( yxfyxgyxL
Punktfindere – HarrisPunktfindere – Harris Harris klassiske hjørne- og kantfinder. Vi holder os til Harris klassiske hjørne- og kantfinder. Vi holder os til
hjørnerne.hjørnerne. Vi betragter et vindue omkring en pixel og sammenligner Vi betragter et vindue omkring en pixel og sammenligner
dette vindue med omkringliggende vinduer.dette vindue med omkringliggende vinduer. Ved at udregne summen af kvadraterne af Ved at udregne summen af kvadraterne af
intensitetsændringerne (SSD) kan vi udtale os om intensitetsændringerne (SSD) kan vi udtale os om ligheden mellem vinduerne.ligheden mellem vinduerne. Høj SSD i alle retninger: hjørnepunkt.Høj SSD i alle retninger: hjørnepunkt.
Auto-korellations matricen beskriver første ordens Auto-korellations matricen beskriver første ordens intensitetsstruktur i et lokalt område:intensitetsstruktur i et lokalt område:
To høje egenværdier = hjørnepunkt.To høje egenværdier = hjørnepunkt.
Punktfindere - PedersenPunktfindere - Pedersen Anvender en statistisk model for et billede: Anvender en statistisk model for et billede:
billederne udfald i en stokastisk generisk billederne udfald i en stokastisk generisk model for billeder. Interessante punkter er model for billeder. Interessante punkter er punkter der er usandsynlige under modellen.punkter der er usandsynlige under modellen.
Anvender skalarumsteori: punkter skala-Anvender skalarumsteori: punkter skala-invariante.invariante.
Finder normaliserede skalarums afledte og Finder normaliserede skalarums afledte og konstruerer et 2-jet i hvert punkt:konstruerer et 2-jet i hvert punkt:
Find punkter og deres skala, der minimerer Find punkter og deres skala, der minimerer modellens sandsynlighedsfunktion:modellens sandsynlighedsfunktion:
);,(),,,,(),( yxLLLLLyxj Txyyyxxyx
)),(( yxjp
Punktfindere - LowePunktfindere - Lowe Bruger også skalarumsteori.Bruger også skalarumsteori. Difference-of-Gaussian:Difference-of-Gaussian:
Lowe konstruerer en pyramide af DoG billeder. Lowe konstruerer en pyramide af DoG billeder. Pyramideformen fremkommer ved jævnligt at Pyramideformen fremkommer ved jævnligt at ”downsample” billedet.”downsample” billedet.
Punkterne i DoG billederne sammenlignes med Punkterne i DoG billederne sammenlignes med dens naboer i et 3x3x3 område. Detekteres som et dens naboer i et 3x3x3 område. Detekteres som et interessant punkt hvis det er højere/lavere end de interessant punkt hvis det er højere/lavere end de andre punkter.andre punkter.
Lowe ”forfiner” punkterne ved at ”fitte” dem til en Lowe ”forfiner” punkterne ved at ”fitte” dem til en 3D kvadratisk funktion, og ved at fjerne 3D kvadratisk funktion, og ved at fjerne kantpunkter.kantpunkter.
);,();,();,( yxLkyxLyxD
Punktfindere - HessianPunktfindere - Hessian En Hessian matrix er en kvadratisk matrix En Hessian matrix er en kvadratisk matrix
af alle andenordens partielt afledte af en af alle andenordens partielt afledte af en funktion af flere variabler.funktion af flere variabler.
I vores tilfælde en 2x2 matrix:I vores tilfælde en 2x2 matrix:
Interessante punkter detekteres som Interessante punkter detekteres som lokale maksima i matricens determinant:lokale maksima i matricens determinant:
))
))
;,(;,(;,(;,(
DyyDxy
DxyDxx
yxfyxfyxfyxf
H
2xyyyxx fffD
Hvad med skala i Harris og Hvad med skala i Harris og Hessian?Hessian?
Harris og Hessian har ikke Harris og Hessian har ikke skalaselektion ”indbygget” som i Lowe skalaselektion ”indbygget” som i Lowe og Pedersen.og Pedersen.
Vi skal derfor udføre en ”ekstern” Vi skal derfor udføre en ”ekstern” skalaselektion.skalaselektion.
Til det benyttet Laplace operatoren:Til det benyttet Laplace operatoren:
For hvert punkt finder vi Laplace For hvert punkt finder vi Laplace operatorens maksima.operatorens maksima.
));,();,((2 yxLyxL yyxx
SIFT deskriptorSIFT deskriptor Beskriver den lokale struktur omkring et punkt. Beskriver den lokale struktur omkring et punkt.
Baseret på gradient data.Baseret på gradient data. 128-dimensionel vektor!128-dimensionel vektor! Invariant overfor visse billedtransformation, Invariant overfor visse billedtransformation,
herunder skala.herunder skala. Rotationsinvarians opnås ved at beregne Rotationsinvarians opnås ved at beregne
deskriptoren i forhold til punktets (gradient) deskriptoren i forhold til punktets (gradient) retning, så hvert punkt tildeles først en retning.retning, så hvert punkt tildeles først en retning.
Skalainvarians opnås ved at benytte Skalainvarians opnås ved at benytte skalarumsbilleder.skalarumsbilleder.
Indeksering/SøgningIndeksering/Søgning Vi segmenterer egenskabsvektorerne i homogene Vi segmenterer egenskabsvektorerne i homogene
klynger.klynger. K-means:K-means:
Vælger klyngernes centrum.Vælger klyngernes centrum. Tildeler objekterne til de nærmeste klyngerTildeler objekterne til de nærmeste klynger Udregner nyt centrumUdregner nyt centrum Færdig? Færdig?
Problemer med K-means:Problemer med K-means: Stærkt afhængig af den første ”seedning” af Stærkt afhængig af den første ”seedning” af
klyngecentrumerne.klyngecentrumerne. At vælge et fornuftigt klyngeantal kan være svært.At vælge et fornuftigt klyngeantal kan være svært.
Resultatet skrevet til en ”inverted” fil.Resultatet skrevet til en ”inverted” fil. Ved søgning:Ved søgning:
Find punkter, udregn egenskabsvektorer, find nærmeste Find punkter, udregn egenskabsvektorer, find nærmeste klyngecentrum. klyngecentrum.
Find billeder fra basen med fælles klynger.Find billeder fra basen med fælles klynger.
ResultaterResultater Anvender en ”ground-truth” billedsamling.Anvender en ”ground-truth” billedsamling. Følgende mål evalueres: Følgende mål evalueres:
Rangen af første relevante billede.Rangen af første relevante billede. Præcision (forholdet mellem antallet af relevante Præcision (forholdet mellem antallet af relevante
returnerede billeder og det totale antal returnerede returnerede billeder og det totale antal returnerede billeder); siger noget om støjen.billeder); siger noget om støjen.
””Recall” (forholdet mellem antallet af relevante Recall” (forholdet mellem antallet af relevante returnerede billeder og det totale antal relevante returnerede billeder og det totale antal relevante billeder); siger noget om hvor meget vi gik glip af.billeder); siger noget om hvor meget vi gik glip af.
Normaliserede rang: gennemsnitlige rang af Normaliserede rang: gennemsnitlige rang af relevante billeder (en værdi på 0 betyder at alle relevante billeder (en værdi på 0 betyder at alle relevante billeder blev returneret først mens en relevante billeder blev returneret først mens en værdi på ½ betyder tilfældig returnering).værdi på ½ betyder tilfældig returnering).
ResultaterResultater Selvom om Harris detektoren er overlegen Selvom om Harris detektoren er overlegen
hvad angår rangen af første relevante hvad angår rangen af første relevante billeder, og Pedersen detektoren har en billeder, og Pedersen detektoren har en generelt bedre normaliseret rang af alle generelt bedre normaliseret rang af alle punktfinderne. Så punktfinderne. Så står ingen af detektorerne står ingen af detektorerne frem som markant bedre end resten!frem som markant bedre end resten!
Variationen i den normaliseret rang var større Variationen i den normaliseret rang var større ved anvendelse af forskellige klyngestørresler ved anvendelse af forskellige klyngestørresler ved indekseringen end den var anvendelsen af ved indekseringen end den var anvendelsen af de forskellige punktfindere!de forskellige punktfindere!
KonklusionKonklusion Ingen af punktfinderne synes at være Ingen af punktfinderne synes at være
markant bedre end resten.markant bedre end resten. Noget kunne Noget kunne tydetyde på at elementer som på at elementer som
indekseringen kan have en større indekseringen kan have en større indflydelse på en endelige ”performance”.indflydelse på en endelige ”performance”.
Masser af muligheder for forbedringer:Masser af muligheder for forbedringer: Bedre indeksering (ny metode, bedre Bedre indeksering (ny metode, bedre
parameterestimation).parameterestimation). Prøv flere billeddatabaser.Prøv flere billeddatabaser. Eksperimenter med vægtene.Eksperimenter med vægtene. Eksperimenter med stop-lister.Eksperimenter med stop-lister.