Download - Mineria de Datos Parte I
Introducción a la Minería de Datos
LUIS PAULO VIEIRA BRAGA
LUIS IVÁN ORTIZ VALENCIA
Page 2
Indice
Introducción
KDD y Minería de Datos
Base de datos para minería de datos – Data Warehouse,Data Mart y Data Webhouse
Tratamiento de datos para DM
Métodos para Modelaje
Validación del Modelo
Estudios de Casos
Introducción a la Minería de Datos
Page 3
Introducción
Herramientas
Introducción a la Minería de Datos
http://introduccionmineriadedatos.blogspot.com/
Libro texto
http://www.r-project.org/index.html
Page 4
Introducción
MODELOS PREDITIVOS pretendem estimar valores futuros o desconocidos de variables de interés (target).
Introducción a la Minería de Datos
Page 5
Introducción
Los modelos de clasificación (supervisada) serán identificados como modelos de predicción com argumento categórico.
Introducción a la Minería de Datos
Page 6
Introducción
Los restantes modelos de predicción poseen argumentos numericos.
Introducción a la Minería de Datos
Page 7
Introducción
MODELOS DESCRITIVOS identifican patrones que explican o resumen los datos.
Introducción a la Minería de Datos
Page 8
Introducción
La classificación no supervisada a partir de una tabla de casos-variables, trata de situar todos los casos em grupos homogéneos (conglomerados o clusters) no conocidos de antemano. La classificación no supervisionada es la creación de conglomerados.
Introducción a la Minería de Datos
Page 9
Introducción
El Analise de Asociación expresa las combinaciones de valores de los atributos nominales que suceden más frecuentemente.
Introducción a la Minería de Datos
Page 10
Introducción
La “minería de datos” provee un método automático para descubrir patrones en datos, sin la tendenciosidad y la limitación de un análisis sustentado meramente en la intuición humana.
Introducción a la Minería de Datos
Page 11
Introducción
La “minería de datos” comprende un conjunto de técnicas para la “descripción” y “predicción” a partir de grandes masas de datos. Por este motivo ella está generalmente asociada a bases de datos especiales denominadas data wharehouse. Estas bases de datos permiten la integración rápida de datos oriundos de diferentes fuentes.
Introducción a la Minería de Datos
Page 12
La construcción de modelos en el proceso KDD/DM
La sigla KDD – Knowledge Discovery in Databases fue creado en 1995 para designar el conjunto de procesos, técnicas y abordajes que propician el contexto en el cual la minería de datos tendrá lugar.
Introducción a la Minería de Datos
Page 13
La construcción de modelos en el proceso KDD/DM
La minería de datos está incluida en un proceso mayor denominado Descubrimiento de Conocimientos en Base de Datos, Knowledge Discovery in Database (KDD). Rigurosamente el DM se restringe a la obtención de modelos, restando las etapas anteriores y el propio DM como instancias del KDD.
Datos Datos Dados Objetos Process./Transf.
Previsión
Classes
Introducción a la Minería de Datos
Page 14
La construcción de modelos en el proceso KDD/DM
Buscando establecer una secuencia genérica de etapas para un proyecto de “Minería de Datos” tendremos:
Definición del problema
Adquisición y evaluación de los datos
Plan de prototipaje y desarrollo del modelo
Evaluación del modelo
Implementación
Evaluación del retorno de la inversión
Extracción de características y realce
Introducción a la Minería de Datos
Page 15
La construcción de modelos en el proceso KDD/DM
1. Problema: identificar clientes que se interesarían en comprar CDB’s.
2. Datos: muestra de 150 mil clientes de quienes se midieron diversos atributos.
3. Extracción de características: considerar únicamente los atributos relacionados a la recencia, frecuencia y factor monetario.
4. Modelo: Árbol de clasificación.5. Evaluación: el árbol explicó 80% del comportamiento de losclientes.6. Implementación: basado en el árbol fueron enviadas invitaciones para una parte del total de los clientes del banco proponiendo la aplicación en CDB’s.
7. Retorno de la inversión: se gastó 30% menos en difusión porque al contrario de otras divulgaciones el contacto sólo fue hecho con parte de los clientes. La respuesta fue 50% mejor que en divulgaciones anteriores.
Ejemplo de las siete etapas en una aplicación destinada a unacampaña de ventas deCertificados de Depósitos Bancarios (CDB)de un banco que tiene 1,400,000 clientes (personas físicas):
Introducción a la Minería de Datos
Page 16
Base de datos para minería de datos: Data Warehouse, Data Mart y Data Webhouse
Introducción a la Minería de Datos
Page 17
Base de datos para minería de datos: Data Warehouse, Data Mart y Data Webhouse
Tipo de herramienta
Cuestión básica Ejemplo de respuesta
Data Mining ¿ Qué és interessante ?¿ Qué puede
suceder ?
Tipos de clientesPredicción de ventas
OLAP ¿ Qué sucedió y por qué ?
Ventas mensuales versus variaciones de precios de los
competidores
EIS/DSS ¿ Qué necesito saber ahora ?
Cotizaciones diversas
Estudios yinformes
¿ Qué sucedió ? Ventas del último mes
Introducción a la Minería de Datos
Page 18
Base de datos para minería de datos: Data Warehouse, Data Mart y Data Webhousey
Los datos se organizan em torno a los hechos, que tienen unos atributos o medidas que pueden verse em mayor o menor detalle según ciertas dimensiones.
Introducción a la Minería de Datos
Page 19
Base de datos para minería de datos: Data Warehouse, Data Mart y Data Webhouse
Introducción a la Minería de Datos
Page 20
Base de datos para minería de datos: Data Warehouse, Data Mart y Data Webhousey Data ebhouse
Data Warehouse, o almacén de datos es um conjunto de datos históricos, internos o externos, y descriptivos de um contexto o área de estudio, que están integrados y organizados de tal forma que permiten aplicar eficientemente herramientas para resumir, describir y analisar los datos com el fin de ayudar em la toma de decisiones estratégicas..
Introducción a la Minería de Datos
Page 21
Base de datos para minería de datos: Data Warehouse, Data Mart y Data Webhousey
www.jeunesse.com.br
Introducción a la Minería de Datos
Page 22
Base de datos para minería de datos: Data Warehouse, Data Mart y Data Webhousey
Introducción a la Minería de Datos
Banco Relational versus Multidimensional
Page 23
La construcción de modelos en el proceso KDD/DM
Introducción a la Minería de Datos
La sigla KDD – Knowledge Discovery in Databases fue creado em 1995 para designar el conjunto de procesos, técnicas y abordajes que propician el contexto en el cual la minería de datos tendrá lugar. En suma, es la aplicación del método científico moderno a los problemas del mundo de los negocios.
Page 24
La construcción de modelos en el proceso KDD/DM
Introducción a la Minería de Datos
Cuando usamos las técnicas de minería de datos para analizar problemas del mundo de los negocios, es necesario estar atento al cambio de paradigma que está ocurriendo. En el antiguo paradigma, un negocio estaba organizado en áreas funcionales – marketing, finanzas, ingeniería – y un comando dedicado para la producción.
Page 25
La construcción de modelos en el proceso KDD/DM
Introducción a la Minería de Datos
Este paradigma está cambiando para algo dirigido al clientealrededor de quien se establece una red de procesos controlables retroactivamente. Los modelos de minería de datos deben evidenciar este nuevo paradigma bajo pena de incrementar nada.
Page 26
La construcción de modelos en el proceso KDD/DM
Introducción a la Minería de Datos
La primera ola de este cambio de paradigma fue sustentado en el concepto de lealtad/asiduidad medidas por la métrica RFM (recencia – tiempo transcurrido desde la última compra; frecuencia valor monetario), un ejemplo es el programa de millas presente en muchas compañías aéreas.
Page 27
La construcción de modelos en el proceso KDD/DM
Introducción a la Minería de Datos
La segunda ola se sustentó en la optimización del valor del cliente, buscando la oferta de productos y servicios en nichos definidos por segmentos de clientes.
Page 28
La construcción de modelos en el proceso KDD/DM
Introducción a la Minería de Datos
La tercera ola va más allá – busca la personalización en masa, proceso radical en el cual el consumidor puede alterar estructuralmente el producto/servicio de acuerdo con su pedido. Es el caso de la Toyota en el Japón, Domino en los EUA, y otras.
Page 29
La construcción de modelos en el proceso KDD/DM
Introducción a la Minería de Datos
Un modelo predictivo calcula algún valor que representa un nivel de actividad futura, un modelo descriptivo descubre reglas que son usadas para agrupar ítems en categorías. Dentro de las aplicaciones de los modelos predictivos tenemos: los modelos de respuesta, riesgo, cross-sell, upsell, competencia, valor presente líquido y ciclo de vida. En relación a los modelos descriptivos las aplicaciones más comunes son: análisis de perfil de cliente y carro de compras.
Page 30
La construcción de modelos en el proceso KDD/DM
Introducción a la Minería de Datos
Como un ejercicio formule un problema en su organización que pueda ser tratado usando minería de datos. Recuerde, el trabajo o el producto disponible es personalizado. O sea, usted sabe quien es el cliente o el usuario. No es necesario limitarse a negocios lucrativos, por ejemplo, en una industria a partir de datos de accidentes construir un modelo predictivo a partir del cual se pueda evaluar la propensión de un funcionario a accidentarse.