wien,17. november 2000
DESCRIPTION
Auf der Suche nach der Semantik - Inhaltsbasierte Indizierung von Bildern und Video. Wien,17. November 2000. Umfeld der Arbeit. Praktikum 1996 mit Ingeborg Tastl: Suche in Bilddatenbanken mit color adjacency graphen. - PowerPoint PPT PresentationTRANSCRIPT
Christian Wolf
Wien,17. November 2000
Auf der Suche nach der Semantik-
Inhaltsbasierte Indizierung von
Bildern und Video
Christian Wolf
Umfeld der Arbeit
Praktikum 1996 mit Ingeborg Tastl:Suche in Bilddatenbanken mit color adjacency graphen
Dissertation 2000-?? mit Jean-Michel Jolion:Suche in Bild- und Videodatenbanken mittels Text und sub-konzeptuellen Informationen
Diplomarbeit 1999-2000 mit Horst Bischof und Jean-Michel Jolion:Suche in Bilddatenbanken mit interest points und Gabor features
Christian Wolf
Themengebiet
Die Suche nach Informationen in einer Datenbank von Bildern und Videoclips, basierend auf Inhalt, d.h. “query by example”.
Abfrage
Vergleich
Indizierung
Ergebnis
Indizes
Christian Wolf
Attentive: Systeme mit „Bewußtsein“, benutzen Schlußfolgerungen auf hohem Niveau um Information zu suchen.
Teile der Abbildung nach Etienne Loupias:« Indexation d’images: aide au télé-enseignement et similarités pré-attentives » (Dissertation, Nov. 2000)
Pre-Attentive: Systeme ohne Bewußtsein. Für den Vergleich werden Bildverarbeitungsmethoden herangezogen, die Informationen auf niedrigem Niveau extrahieren (Farbe, Textur, Kontur usw.)
„Pre-attentive“ Systeme
Christian Wolf
Aufgaben
1. Definition einer Beschreibung für Bilder oder Videos
Vergleich Distanz
2. Definition einer (Pseudo)-Metrik, die die Distanz zweier Bilder anhand der Beschreibungen ermitteln kann.
Christian Wolf
Ansätze
• Hybrider Ansatz:
Keine Einschränkung des Arbeitsbereichs. Detektion des Bildtypes und Benutzung spezieller Features für diesen Typ.
• Spezialisierter Ansatz von Bilddatenbanken:
Der Arbeitsbereich ist eingeschränkt (Medizinische Bildverarbeitung, Personen usw.). Die Features werden auf den Arbeitsbereich zugeschnitten.
• Allgemeiner Ansatz:
Keine Einschränkung des Arbeitsbereichs, alle Arten von Bildern/Videos sind erlaubt.
Christian Wolf
Zwei Methoden
Farbbasierte Distanz mittels Farbnachbar-schaftsgraphen
Texturbasierte Distanz mittels Gaborfiltern
Christian Wolf
Farb Graphen
Repräsentation eines Bildes durch einen Graphen
Schwarz
GrünRot
Blau
Gelb
Christian Wolf
Farbclustering
Graphen theoretisches Clustern
Eintragen der Farben in ein 3D Histogram, erzeugen von Graphen.
34 13 9
17 5 18
12 23 21
37 83 65
6
8
33
44
Christian Wolf
Knoten: Die Farbe des Clusterrepräsentanten
Kanten: Die Nachbarschaftsbeziehungen, die durch „walks“ von den Zusammenhangs-komponenten aus ermittelt werden.
Aufbau und Vergleich
Vergleich zweier Graphen: Greedy search in der Distanzmatrix der Farben
ii
color ES
wCAG 2
121size
sizesizesizewi
Christian Wolf
Farb Graphen
Die Ergebnisse sind von der Segmentierung abhängig.
Liefert durch die Nachbarschaftsbeziehungen mehr Informationen als ein Farbhistogramm
Durch das Löschen von kleinen Regionen werden die wichtigeren Informationen hervorgehoben. Die Regionen werden nach ihrer Größe gewichtet.
Das Regionenmodell ist nicht für alle Bilder vorteilhaft
Christian Wolf
Gabor FeaturesSelektion von Punkten mit Interest point Detektoren
IP2
Scale 1
Scale 2
Scale 3
1 2 3 4
IP1
IP3 IP4
Scale
Gabor Filterbank
Christian Wolf
2 verschiedene Beschreibungen
Level 1
Level 2
Level 3
Beschreibung als Menge von Feature Vektoren
Beschreibung als Menge von Histogrammen
Christian Wolf
0º 45º
Histogramme
Nachbarsuche
Christian Wolf
Distanz - Vektoren
Suche der korres-pondierenden Vektoren durch Greedy search in der Distanz-matrix
)()(
points ingcorrespond ofnumber *2),(
BNANBAd
)()(
)(*2
),(BNAN
s
BAd C
Christian Wolf
Distanz - Histogramme
i
BABA ixHiHHHd )()(ln),(
Die Distanz der Histogramrepräsentation wird über eine Standard Histogrammdistanzfunktion ermittelt.
Die Battacharyya distanz:
Christian Wolf
Rotationsunabhängigkeit
A) Feature vektoren (N pro Bild)
B) Histogram vektoren (1 pro Bild)
Kompensation von Bildrotationen durch Rotation der Feature-vektoren bzw. Histogramvektoren
Christian Wolf
Evaluierung der Algorithmen
Wie kann die Qualität einer Suchantwort bewertet werden?
Christian Wolf
10 11 14 15 15 19 32 36 86 156 174
Datenbank 1: 609 Bilder aus dem Fernsehen. 568 werden als Abfragebilder verwendet. Die Datenbank wird in 11 Klassen eingeteilt:
Datenbank 2: 179 Bilder aus der Datenbank von Jean-Michel Jolion. 105 werden als Abfragebilder verwendet, die DB wird in 6 Klassen eingeteilt
10 12 14 15 26 28
c
rcP )(
d
rcR )(
r ... Relevante Bilder in der Rückgabemenge
d ... Relevante Bilder in er DB
c ... Größe der Rückgabemenge
Test Datenbanken
Christian WolfDB 1
Christian WolfDB 2
Christian Wolf
Ergebnisse
DB2
Christian WolfDB1
Interestpoint Detektoren
Christian Wolf
Ergebnisse für Interestoperatoren
% für die besten 15 Bilder
Nach Etienne Loupias:« Indexation d’images: aide au télé-enseignement et similarités pré-attentives » (Dissertation, Nov. 2000)
Salient points(Haar)
Harris ZufälligePunkte
Tiger 26.7 25.6 11.7Löwen 47.8 25.0 26.3
Gebäude 33.9 28.9 32.3
Sonnenuntergänge 20.4 20.0 25.6
ObjektgebundeneKlassen
Christian Wolf
Schlußfolgerung - Gabor features
Gute Charakterisierung der Bilder durch lokale Deskriptoren
Gute Resultate für verschiedene Arten von Bildern (Fotos, Zeichnungen).
Gute Klassifizierung nach Aufnahmen von den gleichen natürlichen Szenen (z.Bsp. Fernsehsendungen).
Die Histogrammethoden werden aus Effizienzgründen empfohlen (ca. 20x schneller als die feature vector Methode)
Texturähnlichkeit ist für den Menschen sehr schwer nachvollziehbar (Interface?)
Christian Wolf
KIWI
Christian Wolf
Christian Wolf
SemantikLarousse: “Wissenschaft der Bedeutung von Wörtern”
Sensordaten(Features)
Subkonzept Sprache
Abbildung nach
A.Chella, M.Frixione, S.GaglioUnderstanding dynamic scenes
Konzept
VIR: Semantik durch Feedback
Christian Wolf
Semantik
Subkonzepte:
• Himmel• Wald• Wasser
Konzepte:
• Die Art der Information (Spielfilm)• Ort und Zeitpunkt des Geschehens
(Frankreich im Mittelalter)• Handlung !!• Bezüge zwischen den einzelnen Shots
usw.
Christian Wolf
Ansätze
Shot/Regionen basierte Klassifizierung und semantische Wahrscheinlichkeitsnetze
VogelFallschirm Explosion
UnterwasserWasserfall
+
+
--
M.R.Naphade and T.S.Huang. Semantic Video Indexing using a probalisitic framework - [17]
Extrahierter Text
Textboxen Position
GesichterGröße
• Location shot• Personal - Interview• Personal - Reporter
R.Ranford, Christophe Garcia and Jean Carrivé. Conceptual Indexing of Television Images Based on Face and Caption Sizes and Locations - [19]
Christian Wolf
Indizierung basierend auf TextScheitert momentan noch an der mangelnden Verfügbarkeit von zuverlässiger Video OCR.
Mögliche Features:
• Position und Anzahl von Textfeldern
• Größe
• Klassifizierung des Textes (Ortsnamen, Personennamen, Sportresultate, fixe Strings wie „Interview“, „Live aus“ usw.)
• Stichwortsuche über den Text
Text muss mit anderen Features kombiniert werden (Gesichter, Motion, Audio)
Christian Wolf
• Anti-Aliasing Effekte durch die Reduzierung der Auflösung (Tiefpaßfilter + Downsampling)
• Kompressionsartifakte durch JPEG + MPEG Komprimierung
Künstliche Kontrasterhöhung bei überlegtem Text (Lesbarkeit über komplexem Hintergrund)
Extraktion von Text: Wo ist das Problem?
Christian Wolf
Extraktion von Text
Komplexer Hintergrund macht die Segmentierung des Textes schwierig
Verschiedene Textgrößen machen einen Multiresolutionsansatz erforderlich.
Christian Wolf
Ergebnisse der Detektion
Christian Wolf
Was ist noch zu tun?
Extraktion des Textes:
• Einarbeiten von temporellen Aspekten in den Detektionsalgorithmus. Integration von mehreren Frames
• Tracking des Textes
• Qualitätsverbesserung der Textboxen, wenn möglich Erhöhen der Auflösung
• Segmentieren von Vordergrund und Hintergrund
• OCR (Kommerzielle Tools??)
Christian Wolf
SchlußfolgerungVisual Information Retrieval ist noch sehr weit davon entfernt, semantische Informationen zu erkennen und zu benutzen.
In der Zwischenweit liefern Methoden basierend auf Farb- und Texturfeatures wertvolle Resultate, deren Einschrän-kungen den Benutzern bewußt sein sollten.
Christian Wolf
Danke für Ihre Aufmerksamkeit!
Christian Wolf
[1] J.Matas, R.Marik and J.Kittler, The Color Adjacency Graph Representation of multicolored Objects, Technical Report VSSP-TR-1/95, Department of Electronic & Electrical Engineering, University of Surrey, Guildford.
[2] Markus Stricker and Alexander Dimai, Color Indexing with Weak Spatial Constraints, SPIE Vol. 2670/29 (0-8194-2044-1/96)
[3] Shapiro L.G., Haralick R.M.: Decomposition of two-dimensional shapes by graph theoretical clustering. IEEE trans. On Pattern Analysis and Machine Intelligence 1979, 1(1), 10-20
Farbgraphen
Referenzen
Christian Wolf
Interest points und Gabor features
Referenzen
[4] B. Huet and E.R. Hancock. Cartographic indexing into a database of remotely sensed images. In Third IEEE Workshop on Applications of Computer Vision
(WACV96), pages 8-14, Sarasota, Dec 1996.
[5] C. Schmidt and R. Mohr. Local gray value invariants for image retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(5), May 1997.
[6] S. Bres and J.M. Jolion. Detection of interest points for image indexing. In 3rd Int. Conf. on Visual Inf. Systems, Visual 99, pages 427-434. Springer, Lecture Notes in Computer Science, 1614, June 1999.
[7] H.G. Feichtinger and T. Strohmer. Gabor Analysis and Algorithms. Birkhäuser, 1998.
[8] C. Harris and M. Stephens. A combined corner and edge detector. In Proceedings
4th Alvey Visual Conference. Plessey Research Roke Manor, UK, 1988.
[9] A.K. Jain and F. Farrokhina. Unsupervised texture segmentation using gabor filters. Pattern Recognition, 24(12):1167-1186, 1991.
[10] E. Loupias, N. Sebe S. Bres, and J.M. Jolion. Wavelet-based salient points for image retrieval. In International Conference on Image Processing, Vancouver, Canada, 2000.
Christian Wolf
Detektion und Extraktion von Text
Referenzen
[11] F. LeBourgeois. Robust Multifont OCR System from Gray Level Images. Proceedings of the 4th Int. Conf. on Document Analysis and Recognition, pages 1-
5. 8/1997. [12] H. Li and D. Doermann and O. Kia. Automatic Text Detection and Tracking in Digital
Video. Technical report, LAMP-TR-028, Language and Media Processing Laboratory, Institute for Advanced Computer Studies, University of Maryland,
College Park, MD 20742, 12/1998. [13] R. Lienhart and W. Effelsberg. Automatic Text Segmentation and Text Recognition
for Video Indexing. Technical report, University of Mannheim, Praktische Informatik IV, 1998.
[14] T. Sato and Takeo Kanade and E.K. Hughes and M.A. Smith and S. Satoh. Video OCR: Indexing digtal news libraries by recognition of superimposed captions.
Multimedia Systems. [15] V. Wu and R. Manmatha and E.M. Riseman. Finding Text In Images. In ACM,
editor, Proc. 2nd ACM Int. Conference on Digital Libraries. 7/1997. [16] Y. Zhong and H. Zhang and A.K.Jain. Automatic Caption Localizatio in Compressed
Video. IEEE Transactions on Pattern Analysis and Machine Intelligence,
22(4):385-392, 4/2000.
Christian Wolf
Semantische Indizierung
Referenzen
[17] M.R.Naphade and T.S.Huang. Semantic Video Indexing using a probalisitic framework. In Proceedings of the ICPR 2000, Barcelona,Spain, Sept.2000, pp 83-88.
[18] A. Del Bimbo. Issues and Directions in Visual Information Retrieval. In Proceedings of the ICPR 2000, Barcelona,Spain, Sept.2000, pp 83-88.
[19] R.Ranford, Christophe Garcia and Jean Carrivé. Conceptual Indexing of Television Images Based on Face and Caption Sizes and Locations. In Proceedings of the VISUAL 2000, Lyon, France, Nov. 2000, pp. 349-359.
[20] J.Z.Wang, J.Li and G.Wiederhold. SIMPLICITY: Semantics-sensitive Integrated Matching. In Proceedings of the VISUAL 2000, Lyon, France, Nov. 2000, pp. 349-359.
Christian Wolf
i
BABA ixHiHHHd )()(ln),(
Bhattacharyya Distanz:
Appendix
)()(
points ingcorrespond ofnumber *2),(
BNANBAd
)()(
)(*2
),(BNAN
s
BAd C
t
ds
),(1)(
C ),(
Distanz zweier Mengen von Feature vektoren:
1.
2.X ... Menge der Paare von
korrespondierenden Vektoren
t ..... Threshold t = max. Distanz zweier Vektoren
Christian Wolf
Appendix
Indizierung:
• Definition der Features
• Definition der Information, die abgeleitet werden kann (Klassen).
• Interaktion mit den nicht text-orientierten Features (Motion: Rémi Megret)