multimedia information retrieval. problematica materiale multimediale: non solo testo, ma audio...
TRANSCRIPT
Multimedia information retrieval
Problematica• Materiale multimediale: non solo testo, ma audio (speech, musica..)
immagini, video• Retrieval basato su criteri meno precisi del “keyword match”:
– la somiglianza,l’approssimazione,i rapporti di misure e valori (es. face recognition)
• Utilizzando quali chiavi di ricerca e recupero:– figure geometriche – strutture
contorni colori suoni
– Ma anche rappresentazioni semantiche
Architettura di un sistema MIR
Feature extraction
Feature extraction
Multimedia retrieval
• Estrazione di caratteristiche– Caratteristiche proprie del media: pixel,
contorni, segnale audio..– Annotazioni testuali: “legenda” delle figure,
speech, annotazioni fatte da umani
• Funzione di matching– Dal “bag of words”al “bag of features”
Features diverse possono essere combinate
I. Image retrieval
• Caratteristiche:1. geometriche2. spettrali3. semantiche
1.Features geometriche
• Distanze (es. face recognition, OCR)
• Archi (forme d’onda)
• Linee (arterie stradali)
• Forme complesse (triangoli, rettangoli..)
011001010010101…011010100100110…001100010010010...
Esempio di estrazione di features basata su “geometria”: face
recognition• scanning dell’iride• impronte digitali• distanza fra occhi, naso, bocca• segnale vocale
Misure: Geometria facciale
Misure: Face recognition
• La rappresentazione può essere più complessa di un vettore di features
• Rappresentazione strutturata (ad es. i templates, come per IE)
Sistema di registrazione
Biometricreader
FeatureExtractor
Enroll:
1010010…
”templateimmagine
Applicazione : riconoscitore di identità
foto“sorgente”(query)
foto recuperata
2.Features spettrali
2.1 Analisi di dati raster– Segmentazione e clustering di dati raster
(immagini rappresentate mediante matrici di celle con informazioni su colore, intensità, luminosità, elevazione..)
2.2 Texture (tessellatura) analysis– Riconoscimento di aree caratterizzate da
comuni caratteristiche di intensità e struttura
2.2 Dati raster. Es: un’immagine..
QuickTime™ and aTIFF (Uncompressed) decompressor
are needed to see this picture.
.. I suoi pixels
QuickTime™ and aTIFF (Uncompressed) decompressor
are needed to see this picture.
Features più complesse si ottengono “raggruppando” i pixels sulla base di una
caratteristica (es. colore)
Celle adiacenti omogenee o simili rispetto ad un descrittore (es. il colore) vengono raggruppate. Problema:features più “compatte” ma in numero variabile.
Image Retrieval basato su immagini raster
• Le immagini sono memorizzate ad esempio in formato JPEG compresso
• Viene calcolato il coefficiente DC dell’immagine e si crea un istogramma
• DC coefficient: il valore medio della forma d’onda associata all’immagine spettrale
• L’utente sottomette una query “grafica”• Viene paragonato l’istogramma DC della
query con quello del database di immagini
Es: istogramma dell’immagine di un elefante
Applicazione : “retrieval” di opere d’arte
La query èun particolare
“best matching”
Notate che query e particolare possono non essere identici.Ad es. la query puòessere scelta da un’immagine prima di un restautro
Esistono decine di misure di similarità, es. distanza eucliidea
.. E si possono avere varie risposte ordinate per “rank”
query
2.2 Texture analysis (tessellatura)
Texture analysis
• Metodi statistici (ogni tessello è caratterizzato da un vettore delle caratteristiche)
• Strutturali (i tesselli sono visti come aree con un significato, es: centri abitati)
• Sintattici (i tesselli vengono “combinati” mediante una grammatica, es. graph grammars )
field
residential vegetation(circondato da case)
3.Features semantiche: shape recognition
• Riconoscere forme (shapes) che rappresentano oggetti di un certo tipo
• Per “imparare” a identificare le forme è necessario addestrare i sistemi con un insieme di immagini di “apprendimento”
Shape recognition
Problemi: variazione punti di osservazione
Occlusioni parziali
Metodi di shape recognition: shock graphs
Esempio
Shape boundary
Shocks
Luogo dei centri delle circonferenze massime bitangenti ai confini dellafigura
Features di basso e alto livelloImmagine di partenza
Features di “bassolivello”: colori,contorni, luminosità
Features di alto livello: forme, qualipersone, edifici, cielo, torri, gru..
Idealmente, descrizione semantica: “immagine di un porto, con alcune persone e nello sfondo gru e faro”
..may be later..
II. Video retrieval
• Un video è semplicemente una sequenza di molte immagini
• Ogni immagine viene detta frame
Analisi dei video
• “Parsing” del video: si analizza l’intero video e lo si frammenta in:– Scena: un insieme di immagini correlate (gli elementi che
appaiono sono simili)– Shot: Un sequenza ripresa da una singola telecamera– Frame: una singola immagine
• Indexing: ai frames vengono assegnate delle features e si genera un sistema di indici (come per IR tradizionale)
• L’informazione viene compressa, calcolando le differenze di ogni frame rispetto a “key frames” (quelli che sono caratterizzati da discontinuità, es. cambio di scena o shot)
• Retrieval and browsing: si accede ai vari video con chiavi di ricerca testuali o immagini
Architettura di un sistema di VR
I “key frames” sono quelli che segnalano delle discontinuità
Nei video si sfruttano anche features testuali
• Metadata: titolo, autore, produttore, data..
• Sottotitoli e trascrizioni degli autori
Architettura di un sistema di video indexing: astrazione temporale e spaziale
III. Audio retrievalVari tipi di audio:
Features audio
Features audio (2)
Audio retrieval: tecniche