parte1

15
Descubrimiento de Conocimiento en Bases de Datos “Proceso no trivial de identificación de patrones válidos , novedosos , potencialmente útiles y deseablemente entendibles a partir de datos” proces o : KDD es iterativo, al encontrar información útil en los datos, se realizan mejores preguntas v á lid o : generalizable para el futuro nov edoso : desconocido con anterioridad útil : aplicable, útil para nuestra meta entendible : nos lleva a comprensión

Upload: mabel-yadira-cogollo

Post on 28-Jun-2015

359 views

Category:

Technology


5 download

TRANSCRIPT

Page 1: Parte1

Descubrimiento de Conocimiento en Bases de Datos

“Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y deseablemente entendibles a partir de datos”

proceso: KDD es iterativo, al encontrar información útil en los datos, se realizan mejores preguntas

válido: generalizable para el futuro novedoso: desconocido con anterioridad útil: aplicable, útil para nuestra meta entendible: nos lleva a comprensión

Page 2: Parte1

Descubrimiento de Conocimiento en Bases de datos Implícitamente existe una medida

(definida por el usuario), que determina qué tan interesantes pueden ser los patrones.

Existe un pre- y post-procesamiento significativo de datos

La extracción de patrones (minería) de los datos ocupa solo el 15%-20% del esfuerzo total del proceso de KDD

Page 3: Parte1

Metas

Procesar automáticamente grandes cantidades de datos crudos,

Identificar los patrones más significativos y relevantes, y

Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.

Page 4: Parte1

Areas Relacionadas

KDD es un nuevo campo multidisciplinario

Recono. de patrones

Softcomputing

Aprend.Computa.

EstadísticaBase de datos

Cómputo de altodesempeño

Visualización

KDD

Page 5: Parte1

Areas Relacionadas

Tecno. BD y Bodegas de Datos: maneras eficientes de almacenar, accesar y manipular datos

Aprend., estadística, soft computing*: desarrollo de técnicas para extraer conocimiento de datos

Reconocimiento de patrones: desarrollo de herramientas de clasificación

Visualización: interfaz entre humanos y datos/patrones Cómputo de alto desempeño: mejora de desempeño de

algoritmos debido a su complejidad y cantidad de datos

(*) redes neuronales, lógica difusa, algoritmos genéticos, razonamiento probabilístico

Page 6: Parte1

Componentes:

InterfaceEvaluación

Extracc.Patrones

BD

ConocimientoDel dominio

InterfaceBD

Control

Foco deAtención

Page 7: Parte1

Proceso de KDD

Proceso general de descubrimiento de conocimiento útil a partir de datos

=> KDD involucra interacciones complejas con herramientas heterogéneas.

Page 8: Parte1

Proceso de KDD

Proceso general de descubrimiento de conocimiento útil a partir de datos

Tradicionalmente una simple tabla en ASCII Tendencia a Bodegas de Datos que están optimizadas para

proceso analítico Herramientas de KDD pueden incluir mecanismos para

almacenar y accesar datos

Page 9: Parte1

Proceso de KDD

Proceso general de descubrimiento de conocimiento útil a partir de datos

Selección de conjunto o subconjunto de bases de datos Selección de subconjunto de variables a usar en DM Seleccción de muestras de datos (instancias)

Page 10: Parte1

Proceso de KDD

Proceso general de descubrimiento de conocimiento útil a partir de datos

Limpieza de datos y preprocesamiento Eliminación de ruido y casos extremos (si apropiado y

necesario) Manejo de datos faltantes y desconocidos

Page 11: Parte1

Proceso de KDD

Proceso general de descubrimiento de conocimiento útil a partir de datos

Transformación al formato requerido por el algoritmo específico de minería de datos

Page 12: Parte1

Proceso de KDD

Proceso general de descubrimiento de conocimiento útil a partir de datos

Búsqueda de patrones de interés en una forma particular de representación

– Pueden expresarse como un modelo, o – Como un patrón que expresa cierta dependencia entre datos

Incluye clasificación, regresión, clustering, r. neuronales...

Page 13: Parte1

Proceso de KDD

Proceso general de descubrimiento de conocimiento útil a partir de datos

El modelo:– Su función (clasificación, regresión, clustering, …)– Forma de representarlo (función lineal, conjunto de reglas, …)

Criterio de preferencia– Qué modelo dentro de un conjunto de modelos es el mejor?– Qué conjunto de parámetros del modelo?

Estrategia de búsqueda

Page 14: Parte1

Proceso de KDD

Proceso general de descubrimiento de conocimiento útil a partir de datos

Proceso de KDD

Crucial! Interpretación de los patrones descubiertos, puede beneficiarse

grandemente usando visualización Puede borrar patrones redundantes o irrelevantes Los patrones pueden compararse con conocimiento

previamente almacenado (o extraido)

Page 15: Parte1

Proceso de KDD

Proceso general de descubrimiento de conocimiento útil a partir de datos

Realizar acciones Incorporar el conocimiento descubierto en un sistema de

desempeño Documentar el conocimiento y reportarlo a personas

interesadas