marco de trabajo para indexación, clasificación y recopilación automática de documentos...

34
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Upload: carmelo-iglesias-segura

Post on 25-Jan-2016

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales

Javier Caicedo Espinoza

Gonzalo Parra Chico

Page 2: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Introducción Internet es el recurso más valioso

para el desarrollo de investigaciones Gran cantidad de información actualizada

disponible Su tamaño dificulta la tarea de obtener

información relevante No existe administración centralizada

Solución actual: motores de búsqueda Basan su funcionamiento en palabras

clave Desempeño disminuye en búsquedas

específicas

Page 3: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Introducción Nuevos enfoques gracias a la

inteligencia artificial (IA) Análisis estadísticos y matemáticos sobre

el contenido de los documentos Tomar en cuenta las áreas de interés del

usuario

Este trabajo busca la integración de herramientas de IA dentro de un marco único 3 tareas específicas: exploración,

clasificación e indexación de documentos Facilitando desarrollar aplicaciones

posteriores

Page 4: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Objetivos Analizar los diferentes enfoques de

solución para las tareas clasificación, indexación y recopilación automática de documentos digitales en línea

Experimentar y luego escoger qué tipo de técnicas basadas en IA pueden ser utilizadas en dichas tareas

Diseñar e implementar un marco de trabajo (framework), cumpliendo los requerimientos definidos en el análisis Se emplearán herramientas de código

abierto

Page 5: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Objetivos

Diseñar e implementar una aplicación que utilice las capacidades del marco de trabajo

Comprobar el grado de efectividad del marco de trabajo

Page 6: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Exploración Agente explorador

Diseñado para explorar el Internet en una forma metódica y organizada

Aprovecha la estructura del Internet para moverse de una página a otra

Varias estrategias para escoger el siguiente vínculo a analizar Primer vínculo

encontrado Evaluar vínculos de

acuerdo a algún criterio y tomar el mejor

Inicio

Inicializar frontera con

semillas

Añadir nuevos vínculos a la

frontera

Obtener página

Escoger vínculo de la frontera

Ha terminado?

Analizar página

No

FinSi

Frontera vacía

Iteración del agente

Page 7: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Clasificación Es asignar o ubicar documentos en

categorías previamente definidas, basándose en el contenido del mismo Facilita el manejo de grandes cantidades

de información

Una máquina no puede entender documentos en lenguaje natural Se requiere un procesamiento para

obtener una representación estructurada del documento

Page 8: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Clasificación Una vez obtenida una

representación, se puede proceder a clasificar el documento Generalmente se

requiere un entrenamiento del clasificador

Algoritmos basados en estadística y matemáticas

Inicio

Quitar stopwords

Evaluación

Construir modelo del documento

Reducir palabras a su

raíz

Valor numérico

Fin

documento

Entrenamiento

Modelo de

clasificación

Page 9: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Indexación Un índice es cualquier

estructura de datos que mejora el proceso de búsqueda de un documento

Puede ser generado a partir de: Texto completo del

documento Campos descriptivos del

documento Autor, fecha, palabras clave

Una combinación de ambos

Inicio

Quitar stopwords

Construir índice

Reducir palabras a su

raíz

Fin

documento

Obtener metadatos

Page 10: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Diseño General del Marco de Trabajo

Manejo de Configuración

Clasificación

IndexaciónExploración

Representación de tópicos

Almacenamiento permanente

Archivos XML

Internet

Estadísticas

Page 11: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Exploración Automática de Páginas Web

Exploración

Frontera de vínculos

Recolección de

estadísticas

Caché de recursos visitados

Extracción y evaluación de

contenido

Extracción de vínculos

Obtención de semillas

Clasificación

Internet

Page 12: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Exploración Automática de Páginas Web

Aplicación Cliente

Extracción de vínculos

Extracción y evaluación de

contenido

Frontera de vínculos

vínculos(calif)

resultados(ord)

Recolección de estadísticas

Caché de recursos visitados

Almacenamiento

vínculo

doc(calif) doc(calif)

doc(calif)

Obtención de semillas

Palabras clave

semillas

Page 13: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Clasificación de Documentos

Clasificación

Preparación de texto

Evaluación de documentos

Entrenamiento

Administración de documentos

Exploración

Page 14: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Clasificación de Documentos

Aplicación Cliente

Preparación de texto

Administración de Documentos

Evaluación

Almacenamiento

documento

calificación

texto*texto*

texto texto

Doc ejemplo*(+/-)

Modelo de evaluación

Tópico a Clasificar

Entrenamiento

Page 15: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Indexación de Documentos

Indexación

Administración de Repositorio

Local

Extracción de Metadatos

Búsqueda Local

Page 16: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Indexación de Documentos

Aplicación Cliente

Administración de RepositorioBúsqueda Local

Repositorio

documento

Resultados(ord)

Parámetros de búsqueda

Extracción de Metadatos

documentometadatos

Page 17: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Implementación Plataforma Java

Portabilidad Gran popularidad dentro de la

comunidad de código abierto Numerosas librerías disponibles

Se desarrollaron: Componentes del marco de trabajo Aplicación de ejemplo

Prueba las capacidades del marco No pensada para un usuario final

Page 18: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Pruebas

Se evaluó la capacidad del marco de trabajo para obtener resultados relevantes

Dos mecanismos de evaluación: Usuarios reales Automática, basada en métricas

Pruebas realizadas en el idioma inglés

Page 19: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Usuarios reales Se escogieron tres tópicos

relacionados con el área de computación Gráficos por computadora Aprendizaje automatizado Computación distribuida

Se pidió a usuarios con conocimiento en la materia evaluar los 10 primeros resultados (vínculos) de cada proceso

Page 20: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Usuarios realesComputer Graphics

0

2

4

6

8

10

12

Usuarios

Vínc

ulos

rele

vant

es Usuario 1

Usuario 2

Usuario 3

Machine Learning

0

2

4

6

8

10

12

Usuarios

Vínc

ulos

rele

vant

es Usuario 1

Usuario 2

Usuario 3

Distributed Computing

0

1

2

3

4

5

6

7

8

9

Usuarios

Vínc

ulos

rele

vant

es Usuario 1

Usuario 2

Usuario 3

Page 21: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Evaluación automática Dos métricas de evaluación

Precisión: R ∩ S / S Retentiva: R ∩ S / R

Dado que en Internet no se puede conocer el total de R, se usará T como una aproximación

S(Explorados)

R(Documentos relevantes)

T(Documentos

objetivo)

R ∩ S

T ∩ S

Page 22: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Evaluación automática

Se evaluará la capacidad del marco de trabajo para encontrar estos documentos objetivo, partiendo de un conjunto al azar de sus ancestros Distancia = 0

(documentos Objetivo)

Distancia = N (semillas)

Distancia = N - 1Distancia = 1

Page 23: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Evaluación automática

Dos algoritmos de exploración Best First (El mejor vínculo) Breadth First (Primer vínculo

encontrado)

Aplicando las fórmulas anteriores, obtenemos un gráfico Métrica vs. Tiempo (medido en número de páginas exploradas)

Page 24: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Evaluación automática

Precisión

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

1 201 401 601 801

Páginas exploradas

Índ

ice

de

Pre

cisi

ón

Best First

Breadth First

Page 25: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Evaluación automática

Retentiva

00.020.040.060.080.1

0.120.140.160.18

1 201 401 601 801

Páginas Exploradas

Índ

ice

de

Ret

enti

va

Best First

Breadth First

Page 26: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Evaluación automática

Precisión vs. Retentiva

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0 0.05 0.1 0.15 0.2

Retentiva

Pre

cisi

ón

Best First

Breadth First

Page 27: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Conclusiones

Trabajos previos en las áreas de la inteligencia artificial relacionadas, facilitaron el análisis de las soluciones

El poder añadir nuevas funcionalidades al marco de trabajo, permitió modificar y desarrollar diferentes enfoques de solución

Page 28: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Conclusiones

Se obtienen mejores resultados al aplicar esta herramienta dentro de un campo específico

Para la búsqueda de documentos digitales en línea, se decidió escoger la estrategia de “primero el mejor”

Enfoque más general

Page 29: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Conclusiones Para la tarea de clasificación de

documentos digitales, se escogió el algoritmo “Naive Bayes”

Tiempo requerido para su utilización es menor comparado con otras opciones existentes

Soporta el aprendizaje activo

Se decidió incorporar la técnica de índices invertidos como solución a la indexación de documentos

Desempeño adecuado en un gran número de situaciones

Page 30: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Conclusiones

La calidad de los documentos de ejemplo utilizados para entrenar al clasificador bayesiano, afecta directamente al proceso de exploración

Los parámetros de la exploración pueden afectar el rendimiento del algoritmo a utilizar

Page 31: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Recomendaciones

Estar atento a nuevos enfoques y proyectos en el área, a fin de implementar nuevas características dentro del marco

Considerar a futuro la búsqueda de otro mecanismo independiente del URL para tener un identificador único

Evitar resultados repetidos.

Page 32: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Recomendaciones

Las herramientas que brinda el marco de trabajo pueden ser integradas en sistemas de manejo de contenidos

Soporte para otros idiomas dentro del marco de trabajo

Page 33: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Recomendaciones

Promover entre la comunidad científica de ESPOL el uso de herramientas alternativas para la búsqueda de documentos digitales en Internet

Page 34: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Gracias por su atención