presentación de powerpoint - consorcio mavir · 2014-11-18 · - resultados monomodales (tbir,...

23
Fusión de Anotaciones de Información Multimedia: Recuperación de Texto e Imágenes VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" Rubén Granados [email protected]

Upload: others

Post on 21-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

Fusión de Anotaciones de Información Multimedia: Recuperación de Texto e Imágenes

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

Rubén Granados [email protected]

Page 2: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 2 de 23

Contenidos

1. Presentación Información Multimedia Recuperación Multimedia de Imágenes Multimedia Semantic Gap Fusión Multimedia

2. Propuesta Prefiltrado Textual Late Semantic Multimedia Fusion Contribución

3. Evaluación de la propuesta Marco de experimentación Experimentos monomodales Experimentos multimedia Ejemplos

4. Conclusiones

Page 3: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 3 de 23

- Repositorios tradicionales o modernas aplicaciones (ej. médicas) - Muy presente en Internet

- sitios Web: Youtube (vídeos) o Picassa y Flicker (imágenes) - redes sociales: Facebook, Twitter, Instagram o Pinterest

- Colecciones personales

Información Multimedia

Page 4: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 4 de 23

- TBIR (Text Based Image Retrieval) - anotaciones, metadatos, etiquetas, enlaces,... - más utilizadas y con mejores resultados - métodos de IR clásica (modelos, similitud, rankings,...)

- CBIR (Content Based Image Retrieval)

- descriptores visuales (color, forma, textura,...) - peores resultados

- Recuperación Multimedia

- combinación de TBIR y CBIR

Recuperación Multimedia de Imágenes (modos Textual y Visual)

Page 5: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 5 de 23

+ buceador, sumergido, mar, persona en

bañador, azul, primer plano, etc.

Multimedia Semantic Gap

Page 6: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

Escala semántica en Multimedia Baeza-Yates, R., & Ribeiro-Neto, B. (2011). Modern Information Retrieval (second edition). Addison-Wesley.

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 6 de 23

Page 7: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 7 de 23

- Ejemplo tomado de ImageCLEF 2011 - La búsqueda CBIR está dirigida por el color, la textura, etc.

Consulta (parte visual)

Multimedia Semantic Gap (ejemplos)

CBIR

Page 8: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 8 de 23

- Ejemplo tomado de Google Images (2012)

Multimedia Semantic Gap (ejemplos)

Page 9: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

Multimedia Semantic Gap

9 de 23

Consulta (parte textual): “diver underwater”

Consulta (parte visual)

- Ejemplo tomado de ImageCLEF 2011 - La búsqueda es “confundida” por el texto

TBIR

Page 10: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

¿Multimedia Semantic Gap?

10 de 23

¿Combinación multimedia? • Combinar información textual y visual • Combinar resultados monomodales • Otros tipos de combinación

Page 11: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

Combinación multimedia

11 de 23

- Estado del arte - Resultados TBIR > Resultados CBIR

• Benavent, J., Benavent, X., Granados, R., & Garcia-Serrano, A. (2010). Experiences at ImageCLEF 2010 using CBIR and TBIR Mixing Information Approaches. In CLEF 2010 Working Notes.

• Clinchant, S., Csurka, G., & Ah-Pine, J. (2011). Semantic Combination of Textual and Visual Information in Multimedia Retrieval. ACM International Conference on Multimedia Retrieval. Trento, Italy: ACM.

- Beneficios potenciales colaboración Multimedia (MM)

• Granados, R., Benavent, J., Benavent, X., de Ves, E., & Garcia-Serrano, A. (2011). Multimodal information approaches for the Wikipedia collection at Image-CLEF 2011. In CLEF 2011 Working Notes

• Chatzichristofis, S., Zagoris, K., Boutalis, Y., & Papamarkos, N. (2010). Accurate Image Retrieval based on Compact Composite Descriptors and Relevance Feedback Information. IJPRAI, 24(2), 207-244.

• Atrey, P., Hossain, M., & Kankanhalli, M. (2010). Multimodal fusion for multimedia analysis: a survey. Multimedia Systems, 345-379.

- Hasta 2010: aproximaciones TBIR globalmente mejor que MM

• ImageCLEF2010 Evaluation Objectives (http://imageclef.org/2010/wiki)

- Reto actual: aprovechar complementariedad entre modos (textual y visual) mediante nuevas aproximaciones de Fusión Multimedia

Page 12: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

Fusión multimedia

- Definición: “integración de diversos modos de información y sus características asociadas con el objetivo de llevar a cabo una determinada tarea”

Atrey, P., Hossain, M., & Kankanhalli, M. (2010). Multimodal fusion for multimedia analysis: a survey. Multimedia Systems, 345-379.

- Características (de las modalidades involucradas) a tener en cuenta en

una tarea de fusión multimedia: • Heterogeneidad de formatos • Asincronía • Niveles de confianza variables • Costes y complejidad de captura y procesamiento

- Planteamiento: niveles de fusión • a nivel de características (early fusion) • a nivel de decisiones (late fusion) • híbrida

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 12 de 23

Page 13: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

Ventajas: - Solo una fase de decisión - Correlación

Desventajas: - Dimensionalidad - Sincronización - Heterogeneidad

Fusión multimedia: early fusion

- Nivel de características (early fusion): las características extraídas de los datos de entrada son combinadas y, posteriormente, enviadas como entrada para llevar a cabo la tarea de análisis

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 13 de 23

Fusión temprana

Decisión

C1

C2

Cn

...

C1,n D

Page 14: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

Fusión multimedia: late fusion

- Nivel de características (late fusion): inicialmente se toman decisiones locales basadas en características individuales y, posteriormente, dichas decisiones son combinadas para obtener la decisión final

Ventajas: - Representación - Escalabilidad - Flexibilidad

Desventajas: - Sin correlación - Fase de decisión independiente

para cada modalidad

Fusión tardía

Decisión C1

C2

Cn

...

D1,n D Decisión

Decisión

...

Decisión

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 14 de 23

Page 15: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

Contribución

15 de 23

Propuesta combinación multimedia para evitar el Semantic Gap, se propone

una combinación asimétrica: Late Semantic Multimedia Fusion Prefiltro Textual Fusión Tardía

Combinación asimétrica:

1. Fase inicial de prefiltrado textual - similar a la técnica “image reranking” - restringe semánticamente la colección de búsqueda para CBIR - evaluado en ImageCLEF 2010

2. Prefiltrado textual + Fusión tardía textual y visual: Late Semantic

Multimedia Fusion

Resultado: la fusión MM supera a la textual y a la visual Granados, R., Benavent, J., Benavent, X., de Ves, E., & Garcia-Serrano, A. (2011). Multimodal information approaches for the Wikipedia collection at Image-CLEF 2011. In CLEF 2011 Working Notes

Page 16: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

Propuesta: Fusión Semántica Tardía

16 de 23

1. Prefiltrado Textual (≠ image reranking) • reducción de la colección • mejora de resultados de CBIR • mantiene cobertura • contraejemplos visuales

Page 17: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

Prefiltrado Textual. Ejemplo

17 de 23

Page 18: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 18 de 23

Algoritmo Scores Ranks Combinación

Lineal Balanceado Normalización

Product Si No No Si Si

OWA Si No Si No Si

Enrich Si Si No No Si

FilterN No Si Si No No

MaxMerge Si No Si Si Si

Scores: fusión basada en los valores de relevancia Ranks: tiene en cuenta las posiciones en las listas de resultados Combinación Lineal: fusión basada en una combinación lineal Balanceado: misma importancia para todas las entradas Normalización: necesidad de normalización

Propuesta: Fusión Semántica Tardía

2. Fusión tardía (a nivel de decisiones): combina resultados TBIR y

CBIR (tras prefiltro textual) • análisis, evaluación e implementación de algoritmos de fusión

(Product, OWA, Enrich, MaxMerge, FilterN) • selección dependiente de la colección, la tarea y el objetivo

Page 19: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

Experimentación. Arquitectura

19 de 23

IDRA (Granados Muñoz, R., García Serrano, A., Goñi Menoyo, J. 2009. La herramienta IDRA (Indexing and Retrieving

Automatically). Procesamiento de Lenguaje Natural, vol. 1, nº 43)

Lucene http://lucene.apache.org/

CBIR-UV Departamento de Informática Universidad de Valencia

Page 20: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia" 20 de 23

Experimentación. Resultados monomodales

- Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora CBIR con Prefiltro Textual (pero lejos de TBIR)

Experimento Mode MAP P@10 P@20

TBIR

TXT

0.3044 0.5060 0.4040

media2011 0.2169 0.3973 0.3228

mejor2011 0.3141 0.5160 0.4270

CBIR

IMG

0.0014 0.0060 0.0040

CBIR (prefiltro) 0.0618 0.0880 0.0910

media2011 0.0039 0.0270 0.0245

mejor2011 0.0044 0.0340 0.0280

Page 21: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

Experimentación. Resultados Multimedia

21 de 23

Experimento MAP P@5 P@10 P@20 TBIR 0.3044 0.5600 0.5060 0.4040

CBIR (Prefiltro) 0.0618 0.0880 0.0880 0.0910 Product (2º) 0.3400 0.6600 0.5540 0.4550

OWA 0.3369 0.6600 0.5660 0.4450

FilterN 0.3066 0.5640 0.5100 0.4040

Enrich 0.3079 0.5640 0.5080 0.4050

MaxMerge 0.2933 0.5600 0.5000 0.3980

Media2011 (11,110) 0.2558 - 0.4542 0.3678

Mejor2011 (Xerox) 0.3880 - 0.6320 0.5100

Experimento MAP P@10 P@20 Product (1º) 0.3111 0.5929 0.5479

media (127,9) 0.1387 0.3701 0.3293

mejor (Xerox) 0.2765 0.5814 0.5193

Experimento MAP P@10 P@20 Product (1º) 0.3231 0.5767 0.5092

media 0,1875 0.4051 0.3453

mejor (Xerox) 0.3230 0.6025 0.5154

ImageCLEF 2011

ImageCLEF 2010 ImageCLEF (2010+2011)

Page 22: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

Comentarios finales

22 de 23

TBIR Late Semantic Multimedia Fusion

Experimento MAP P@5 P@10 P@20 MAP P@5 P@10 P@20

Consultas 2010 Consultas 2011

TBIR 0.2885 0.5429 0.5414 0.4971 0.3044 0.5600 0.5060 0.4040

CBIR (prefiltro) 0.0779 0.1971 0.1971 0.1993 0.0618 0.0880 0.0880 0.0910

Propuesta LSMF 0.3111 0.6086 0.5929 0.5479 0.3400 0.6600 0.5540 0.4550

Mejora 7.83% 12.10% 9.51% 10.22% 11.70% 17.86% 9.49% 12.62%

Page 23: Presentación de PowerPoint - Consorcio MAVIR · 2014-11-18 · - Resultados monomodales (TBIR, CBIR, CBIR tras prefiltro) - Escenario: ImageCLEF (consultas 2011) - Interesante mejora

Fusión de Anotaciones de Información Multimedia: Recuperación de Texto e Imágenes

VII Jornadas MAVIR: "Avances en Tecnologías de la Lengua y Acceso a la Información Multimedia"

Rubén Granados [email protected]