completeness of information sources maría josé Álvarez flavia serra

23
Completeness of Information Sources María José Álvarez Flavia Serra

Upload: domingo-joaquin

Post on 26-Jan-2015

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Completeness of Information Sources María José Álvarez Flavia Serra

Completeness of Information Sources

María José Álvarez

Flavia Serra

Page 2: Completeness of Information Sources María José Álvarez Flavia Serra

Agenda

Introducción Modelo de información Unión de resultados Definición de los factores de calidad, Cobertura

y Densidad Definición de la dimensión de calidad

Completitud Conclusiones Puntos fuertes y débiles

Page 3: Completeness of Information Sources María José Álvarez Flavia Serra

Introducción

Se describe un framework para medir la calidad de la información proporcionada por una fuente de datos o por un conjunto de fuentes de datos.

Considera los valores de los factores de calidad cobertura y densidad.

Page 4: Completeness of Information Sources María José Álvarez Flavia Serra

Introducción

Funciones de combinación– Estiman el valor de la calidad de la información

cuando los datos de diferentes fuentes son integrados.

Completitud– Se combinan los valores de los factores cobertura

y densidad

Page 5: Completeness of Information Sources María José Álvarez Flavia Serra

Modelo de información

Esquema– Consiste en un identificador (ID) y la unión de

todos los atributos que proveen las fuentes

IDs consistentes– Cada objeto tiene un único identificador que esta

asociado a las fuentes

Page 6: Completeness of Information Sources María José Álvarez Flavia Serra

Modelo de información

Superposición– Disjunción

Las fuentes no proveen IDs comunes.

– Contención Los IDs de una fuente son un subconjunto de los IDs de

otra fuente. Aunque los objetos sean los mismos, los atributos

podrían diferir.

– Independencia Cuando no se sabe si existe contención o disjunción, se

asume que existe independencia.

Page 7: Completeness of Information Sources María José Álvarez Flavia Serra

Ejemplo

Se presenta un meta servicio de información de stock (MSIS)

Es un sistema que provee información de cotización de acciones

A diferencia de un sistema de información de stock (SIS) común, un MSIS combina información de varios sistemas

El MSIS envía una solicitud a un conjunto de SISs para luego unir los resultados y presentarlos al usuario

Page 8: Completeness of Information Sources María José Álvarez Flavia Serra

Ejemplo

Se consideran los siguientes SIS:

Page 9: Completeness of Information Sources María José Álvarez Flavia Serra

Ejemplo

Consulta para IBM en un típico SIS

ID

Nombre de la compañía

Provisto por todos los SIS

Proveen información adicional y estadísticaNo están disponibles en los 7 SIS

Page 10: Completeness of Information Sources María José Álvarez Flavia Serra

Unión de resultados

Un sistema de información distribuye una consulta de usuario a múltiples fuentes.

Cuando recibe los resultados individuales, los mismos deben unirse en una respuesta común para el usuario.

Page 11: Completeness of Information Sources María José Álvarez Flavia Serra

Unión de resultados

Unión de resultados de múltiples fuentes contiene objetos donde:– Algunos atributos no son provistos – Algunos atributos son provistos por una fuente– Algunos atributos son provistos por más de fuente

Función de resolución

Page 12: Completeness of Information Sources María José Álvarez Flavia Serra

Unión de resultados

Para presentar la unión de los resultados como una respuesta completa a una consulta y no como simples atributos se definen operadores relacionales.

join-merge union-merge

Page 13: Completeness of Information Sources María José Álvarez Flavia Serra

Porción del mundo real que es cubierto por la fuente para un dominio determinado.

Cobertura de una fuente:

Cobertura

cantidad de objetos de la fuente

cantidad de objetos del mundo real

Page 14: Completeness of Information Sources María José Álvarez Flavia Serra

Cobertura de un conjunto de fuentes

Fuente disjuntas

Fuentes contenidas

Fuentes independientes

Page 15: Completeness of Information Sources María José Álvarez Flavia Serra

Porción de valores no nulos que contiene la fuente.

Densidad de un atributo

Densidad de una fuente

Densidad

Page 16: Completeness of Information Sources María José Álvarez Flavia Serra

Densidad

Densidad de una fuente

– Vector de densidad

Densidad de un conjunto de fuentes– Considera la cobertura para cada fuente

Page 17: Completeness of Information Sources María José Álvarez Flavia Serra

Completitud de una fuente de información es la relación de su información y la cantidad total de información del mundo real.

Completitud de una fuente

Completitud de una fuente utilizando cobertura y densidad

Completitud

Page 18: Completeness of Information Sources María José Álvarez Flavia Serra

Completitud

Cantidad de atributos no nulos =12

|W| = 40000, |A| = 9

|W||A|=40000*9 = 360000 y 12/360000 = 1/30000

c(yahoo) = 2/4000 = 1/2000

D(yahoo) = (1,0,1,1,1,1,1,0,0)

C(yahoo) = c(yahoo).d(yahoo) = 1/2000*2/3 = 1/30000

Page 19: Completeness of Information Sources María José Álvarez Flavia Serra

Conclusiones

Cuando se intenta decidir que fuentes o conjuntos de fuentes consultar este modelo ofrece una buena guía de selección del mejor conjunto de fuentes basándose en la calidad de la información esperada.

La medida de la completitud es útil para seleccionar el mejor plan de ejecución de la consulta sobre varias fuentes.

Page 20: Completeness of Information Sources María José Álvarez Flavia Serra

Conclusiones

Valores de cobertura y densidad altos parecen ser buenos, pero muchas veces aparece el problema de information overflow causado por el enorme tamaño de la Web.

Se busca reducir las respuestas a las consultas a un número razonable de objetos, devolviéndole al usuario los objetos más útiles y relevantes.

Page 21: Completeness of Information Sources María José Álvarez Flavia Serra

Cumple objetivos planteados Autocontenido Fácil de comprender y tiene ejemplos claros Plantea una solución aplicable Las definiciones y conceptos son reiterados

a lo largo del documento, lo que permite finalizar la lectura con una buena asimilación de los mismos.

Puntos fuertes

Page 22: Completeness of Information Sources María José Álvarez Flavia Serra

Puntos débiles

Referencia una cantidad de lemas, corolarios y teoremas que lo hacen engorroso

En algunos casos los ejemplos consideran valores que son traídos de otras secciones sin indicar las secciones de referencia.

Page 23: Completeness of Information Sources María José Álvarez Flavia Serra

¿Preguntas?

Muchas gracias!