proceso kdd msc. carlos alberto cobos lozada [email protected] ccobos grupo de i+d en...
TRANSCRIPT
![Page 1: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/1.jpg)
Proceso KDD
MSc. Carlos Alberto Cobos Lozada
http://www.unicauca.edu.co/~ccobos
Grupo de I+D en Tecnologías de la Información
Departamento de Sistemas
Facultad de Ingeniería Electrónica y Telecomunicaciones
Universidad del Cauca
![Page 2: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/2.jpg)
Resumen Previo
¿Qué es minería de datos? ¿Por qué la minería de datos? ¿La minería de datos es totalmente automática? ¿Cómo se desarrolla un proyecto de minería de datos? Falacias de la minería de datos Tareas de la minería de datos
Descripción Clasificación – Estimación – Predicción Agrupamiento por similitud (Clustering) Reglas de Asociación
Aplicaciones
![Page 3: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/3.jpg)
Proceso de Minería de Datos
Los algoritmos son sólo una parte de un proceso llamado Descubrimiento de Conocimiento por los Científicos de la Computación, y Minería de Datos por los estadísticos
El proceso comienza con el reconocimiento de un problema y termina con el control de una solución implementada
Todo el proceso debe ser soportado por una metodología exitosa
![Page 4: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/4.jpg)
Metodologías para la Minería de Datos Fayyad et al. (Ciencias de la Computación)
WEKA SEMMA (SAS) (Estadísticos)
SAS Enterprise Miner CRISP-DM (SPSS, OHRA, …) (Negocios)
SPSS Clementine
http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm
Abril de 2004
![Page 5: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/5.jpg)
Metodología de Fayyad
Datos
Datos Objetivo
Datos Procesados
Datos Transformados
Patrones
Conocimiento
Selección
Pre procesamiento y limpieza
Transformación y selección de características
Minería de datos
Interpretación y evaluación
![Page 6: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/6.jpg)
Metodología SEMMA
Soportado por SAS Enterprise Mining
SAMPLE
Datos de entrada, Muestreo, Partición de datos
EXPLORE
Explorar distribuciones, Visualizar, Entender,Asociar,
Selección de variables
MODEL
Regresiones,Árboles de Decisión,Redes Neuronales,Inducción de reglas
MODIFY
Transformación de variables, Filtrar valores extremos (anómalos),
Agrupación, SOM / Kohonen
ASSESS
Evaluación,Puntuación,
Reporte
![Page 7: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/7.jpg)
Metodología CRISP-DM
CRoss-Industry Standard Process for Data Mining Desarrollada por compañías de minería de datos (SPSS,
NCR, OHRA, ChryslerDaimler) y fundada por la Comisión Europea
Independiente de herramientas Independiente de la industria Modelo de proceso jerárquico
Fases Tareas genéricas Tareas específicas Instancias del proceso
Modelo de proceso CRISP Mapeo Proceso CRISP
![Page 8: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/8.jpg)
Metodología CRISP-DM
Mapeo de modelos generales a especializados El Dominio de aplicación- área específica en la que se
desarrolla el proyecto El Tipo de Problema de minería de datos Aspectos Técnicos de cada proyecto (valores faltantes,
anómalos, otros) Las Herramientas y técnicas de minería de datos del
proyecto Existen dos tipos de mapeos:
Mapeando para el presente: Para un solo Proyecto, denominado sencillo
Mapeando para el Futuro: Para un contexto predefinido teniendo como base experiencias pasadas. Sirve para orientar proyectos de contextos similares
![Page 9: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/9.jpg)
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Determinar objetivos del negocioBackgroundObjetivos del negocioCriterios de éxito del negocio
Evaluar la situaciónInventario de recursosRequerimientos, supuestos y restriccionesRiesgos y contingenciasTerminologíaCostos y beneficio
Determinar objetivos de la minería de datosObjetivos de la minería de datosCriterios de éxito de la minería de datos
Construir plan del proyectoPlan del proyecto Evaluación inicial de herramientas y técnicas.
![Page 10: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/10.jpg)
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Recolección inicial de datosReporte de la recolección Inicial de datos.
Descripción de datosReporte de descripción de datos
Exploración de datosReporte de exploración de datos
Verificar la calidad de los datosReporte de calidad de los datos
![Page 11: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/11.jpg)
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Selección de datosRazón para inclusión/exclusión
Limpieza de datosReporte de limpieza de datos
Construcción de datosAtributos derivadosRegistros generados
Integración de datosIntegración de datos
Formato de datosReformateo de datos
![Page 12: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/12.jpg)
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Seleccionar la técnica de modeladoTécnica de modeladoSupuestos del modelado
Generar el diseño de testDiseño del test
Construir el modeloConfiguración de parámetrosModeloDescripción del modelo.
Evaluación del modeloEvaluación del modeloRevisión de la configuración de parámetros
![Page 13: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/13.jpg)
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Evaluar los resultadosEvaluar los resultados de minería de datos Vs. los criterios de éxito del negocio.Aprobar modelos
Revisar el procesoRevisión del proceso
Determinar el siguiente pasoLista de posibles accionesDecisión
![Page 14: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/14.jpg)
Metodología CRISP-DM
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
Plan de desplieguePlan de despliegue
Plan de monitoreo y mantenimientoPlan de monitoreo y mantenimiento
Producir los reportes finalesReportes finalesPresentación final
Revisión del proyectoDocumentación de experiencias
![Page 15: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/15.jpg)
Breve Comparación de Metodologías
Datos
Datos Objetivo
Datos Procesados
Datos Transformados
Patrones
Conocimiento
Selección
Pre procesamiento y limpieza
Transformación y selección de características
Minería de datos
Interpretación y evaluación
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
SAMPLE
Datos de entrada, Muestreo, Partición de datos
EXPLORE
Explorar distribuciones, Visualizar, Entender,Asociar,
Selección de variables
MODEL
Regresiones,Árboles de Decisión,Redes Neuronales,Inducción de reglas
MODIFY
Transformación de variables, Filtrar valores extremos (anómalos),
Agrupación, SOM / Kohonen
ASSESS
Evaluación,Puntuación,
Reporte
![Page 16: Proceso KDD MSc. Carlos Alberto Cobos Lozada ccobos@unicauca.edu.co ccobos Grupo de I+D en Tecnologías de la Información Departamento](https://reader035.vdocuments.pub/reader035/viewer/2022062500/5665b4711a28abb57c917d69/html5/thumbnails/16.jpg)
Referencias
1. Discovering knowledge in Data: An Introduction to Data Mining. Daniel T. Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2
2. Pete Chapman, Julian Clinton, Randy Kerber and other. CRISP-DM 1.0. Step-by-step data mining guide, 1999-2000. SPSS Inc.
3. Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Departamento de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia. http://www.dsic.upv.es/~jorallo/cursoDWDM.
4. Wang, John (Editor). Data Mining: Opportunities and Challenges. Hershey, PA, USA: Idea Group Inc., 2003.