minería de datos con clementine lic. miguel cospin 16/abril/2008

43
Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

Upload: therasia-salvas

Post on 27-Jan-2016

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

Minería de Datos con Clementine

Lic. Miguel Cospin16/Abril/2008

Page 2: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 2

Es descubrir información que se encuentra oculta adentro de las bases de datos de manera inteligente pero automatizada.

Data Mining, en su proceso de análisis y exploración de datos utiliza tecnicas estadísticas y modelos matematicos para encontrar patrones, relaciones

y tendencias con USO PREDICTIVO

Minería de Datos (o Data Mining)

Page 3: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 3

Proceso de fuerza bruta sobre los datos crudos.

Aplicación “ciega” de algoritmos para análisis/modelaje.

Encontrar relaciones en donde no existen.

Magia.

NO!NO!

CREENCIAS FALSAS SOBRE LO QUE ES DATA MINING

Page 4: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 4

EVOLUCIÓN DEL ANÁLISIS DE DATOS

Page 5: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 5

Tres clases de algoritmos de Data Mining:

“Diferencias” en los grupos o

clusters

Predecir “Relaciones”

Asociar “Patrones”

Data Mining

Que eventos ocurren juntos?

Dada una serie de acciones o eventos; cual acción es la que probablemente ocurra después?

Agrupar casos que presentan características similares.

Predecir quién es más probable en demostrar un comportamiento específico en el futuro

Page 6: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 6

¿Que es lo que hace la Minería de Datos?

Data mining utiliza los datos existentes para : Predecir

La pertenencia a una categoría Un Valor numérico

Agrupar Descubrir grupos de clientes

homogéneos basados en sus características

Asociar Encontrar eventos que ocurren

simultáneamente o en una secuencia

Identificar Identificar casos que no siguen

un comportamiento esperado

Page 7: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 7

En donde encaja el Modelado de En donde encaja el Modelado de Clementine?Clementine?

Datos existentes PREDICCION OPERACIONES

• Datos Históricos• Datos Presentes• Procesos• Casos

Crear Modelos • Reporte• Casos• Scoring• Actividad de campo

Retroalimentación

•Examinar la data en su entera dimensión

•Aprender interacciones de tendencias en las relaciones

•Descubrir cambios en el comportamiento

Page 8: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 8

ModeladoModeladoPredicción y Clasificación Clustering y Segmentación

Asociación Reducción de datos

Los modelos son Los modelos son conocimientoconocimiento reusable reusable

Page 9: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 9

Aplicaciones

Servicios FinancierosServicios Financieros

Sector PúblicoSector Público

Data Data miningminingData Data

miningmining

Impuestos,

Satisfacción de usuarios,

Finanzas públicas

Impuestos,

Satisfacción de usuarios,

Finanzas públicas

Telecom

Telecom

Utilización de Recursos,

Detección de Fraudes,

Control de Calidad

Utilización de Recursos,

Detección de Fraudes,

Control de Calidad

Adquisición y Retención

Ventas cruzadas

Detección de Fraude

CRM

Adquisición y Retención

Ventas cruzadas

Detección de Fraude

CRM

Salud

y S

egur

os

Salud

y S

egur

os

Vent

as a

l Det

alle

Vent

as a

l Det

alleEntretenim

iento

Entretenimiento

Ventas Cruzadas,

Correo Directo,

Lealtad

Ventas Cruzadas,

Correo Directo,

Lealtad

Lealtad, Correo Directo

Basket Analysis

CRM

Lealtad, Correo Directo

Basket Analysis

CRM

Ventas Cruzadas,

Lealtad, Churn

Ventas Cruzadas,

Lealtad, Churn

Page 10: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 10

Encontrar segmentos con Cluster Analysis

OPORTUNIDADES DE DATA MINING EN SEGMENTACIÓN

Page 11: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 11

Detectar efectivamente fraudes en el uso de servicios.

OPORTUNIDADES DE DATA MINING EN DETECCIÓN DE FRAUDE

Page 12: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 12

Realizar ventas cruzadas de manera más efectiva.

OPORTUNIDADES DE DATA MINING EN VENTA CRUZADA

Page 13: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 13

Atraer los clientes mas rentables.

OPORTUNIDADES DE DATA MINING EN CORREO DIRECTO

Page 14: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 14

Page 15: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 15

SPSS Clementine

Clementine es la más avanzada herramienta de Data Mining del mercado.

Combina modernas técnicas de modelamiento con poderosas herramientas de acceso, manipulación y exploración de datos en una interfaz simple e intuitiva.

Page 16: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 16

Clementine 36 %

Page 17: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 17

Características de Clementine Fácil entendimiento de los datos

Visualización Interactiva

Poderosa Preparación de los datos Accesa y combina datos de múltiples fuentes Especifica valores perdidos Deriva nuevas variables Produce información resumida

Incrementa la productividad con su enfoque visual de la manipulación de datos

Page 18: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 18

Características de Clementine

Técnicas de Modelado Técnicas Supervisadas

C&RT, Redes Neuronales, C5.0,Quest, CHAID, Regresión Lineal y Regresión Logística

Técnicas No Supervisadas K-medias, Kohonen, Bi-etápico Apriori, GRI, Sequence, Carma, Detección de Anomalías

Técnicas de Evaluación Tablas Estadísticas, Gráficos de Ganancia y ROI

Técnicas de Publicación de modelos Punteo o Scoring de Bases de Datos Scoring en tiempo real

Page 19: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 19

Capacidad Extendida de Clementine

Cubre todos los aspectos de las interacciones de clientes Minería de Textos (Text Mining) Web Mining

Predictive Enterprise Services (PES) Administrador de Modelost Administrador de Procesos

Traslada los resultados a la acción Interactúa con aplicaciones

Predictivas Publica los modelos con Solution

Publisher

Page 20: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 20

Muestreo y validación de modelos

Tradicional en minería de datos : 2 muestras de datos. (Grande para entrenamiento y Pequeña de evaluación provenientes de la misma fuente)

Con Clementine se puede contar con tres muestras: entrenamiento, prueba y evaluación. (Tiene un nodo que automáticamente crea las particiones que se necesitan para el análisis).

Page 21: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 21

Reglas de Asociación A PRIORI y CARMA :

Clementine permite analizar grandes bases de datos transaccionales o registros de programas de puntos y obtener reglas significativas que describan hábitos específicos de consumo. Los métodos de reglas de asociación permiten descubrir que valores de dos o más variables (que pueden ser predictores y objetivo en distintas reglas) generalmente ocurren conjuntamente (o no ocurren conjuntamente).

Page 22: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 22

Reglas de Inducción

Los algoritmos de reglas de inducción y de asociación son las herramientas de análisis más frecuentes en el modelado de: Hábitos de compra Análisis de secuencias de compra Patrones de consumo Análisis de Ventas cruzadas o cross-selling

Clementine cuenta con los modelos GRI (Generalizad Rule Induction) que permiten generar reglas que sintetizan patrones en los datos utilizando una medida del interés de la regla para jerarquizar las reglas.

Page 23: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 23

Detección de Secuencias

Estas técnicas permiten detectar reglas de asociación en donde el tiempo es importante dado que las variables están cronológicamente ordenadas.

Análisis muy útil en el área de Ventas al Detalle o Retail para detectar patrones de consumo

Y en el área de e-commerce en la detección de compra conjunta y patrones de navegación.

Page 24: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 24

Árboles de decisiónUn algoritmo de árbol de decisión divide sucesivamente un

conjunto de registros obteniendo grupos en donde la distribución de la variable objetivo es más homogénea que al considerar todos los registros. Las divisiones se realizan seleccionando el predictor que mejor agrupa a los registros desde el punto de vista de homogeneizar la variable objetivo. Los algoritmos disponibles son:

C5.0 C&RT CHAID QUEST CHAID Exhaustivo

Util para Segmentar Consumidores y se dispone de muchas variables que se quieren priorizar.

Page 25: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 25

Redes neuronales

Clementine cuenta con los métodos de redes neuronales de mayor uso (Kohonen, Prune, Radial Basis, etc.).

Las redes neuronales son, junto a los árboles de decisión, las más importantes herramientas de data mining disponibles actualmente debido a su capacidad para encontrar relaciones ocultas entre las variables y su flexibilidad para enfrentar distintos tipos de problemas de negocios.

Page 26: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 26

Redes neuronales

Una red neuronal es básicamente un modelo simplificado de la forma en que el cerebro humano procesa información. La red aprende examinando los registros individuales, haciendo una predicción para cada registro de acuerdo a su semejanza con patrones vistos anteriormente, evaluando la predicción con el valor real de la variable objetivo en el registro y corrigiendo los patrones de acuerdo al acierto o fracaso en la predicción. Este proceso continúa repetidamente hasta que, básicamente, la red no puede mejorar más su eficiencia predictiva, generándose en ese momento el modelo.

Page 27: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 27

Redes neuronales

Las redes neuronales son una herramienta ideal para enfrentar problemas complejos como ¿por qué un empleado abandona su trabajo ? ¿ Qué nivel de logro puede alcanzar una campaña que inicia? Fenómenos que son afectados por muchas variables cuya interrelación no es necesariamente lineal.

Clementine dispone de redes neuronales de Kohonen para desarrollar modelos de segmentación no dirigida conocidos como mapas auto-organizados. Este tipo de relaciones son las más frecuentes cuando se analizan datos de clientes con el propósito de detectar segmentos según hábitos de compra, consumos, nivel de cross-selling, etc.

Page 28: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 28

Visualización gráfica

Muchas fases del proceso de minería utilizan gráficos y diagramas para explorar los datos.

La visualización gráfica de Clementine se puede clasificar en 4 tipos :

1. Gráficos para comprender mejor los tipos de datos y las distribuciones

2. Gráficos para manipular registros y campos previo a las operaciones de modelado

3. Gráficos para comprobar la distribución y las relaciones entre campos recién derivados.

4. Gráficos de apoyo al modelado

Page 29: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 29

Gráfico de puntos

Muestran la relación entre los campos numéricos.

Page 30: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 30

Gráficos de Distribución

Muestran la ocurrencia de valores simbólicos (no numéricos), como un género o un tipo de hipoteca, en un conjunto de datos. El uso habitual del nodo de distribución consiste en mostrar los desequilibrios de los datos que pueden rectificarse mediante el nodo Equilibrar antes de crear un modelo.

Page 31: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 31

Histograma

Muestran la ocurrencia de valores de los campos numéricos. Se suelen utilizar para explorar los datos antes de las manipulaciones y la generación de modelos. Los nodos de histogramas se utilizan para detectar desequilibrios en los datos.

Page 32: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 32

Gráficos de Colección

Muestran la distribución de los valores de un campo numérico relativo a los valores de otro, en lugar de la ocurrencia de los valores de un solo campo. Las colecciones son útiles para ilustrar una variable o un campo cuyos valores cambian con el tiempo.

Page 33: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 33

Gráficos de Mallas direccionales

Muestran la fuerza de las relaciones entre variables categóricas. Son conexiones de una sola dirección.

Page 34: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 34

Gráfico de Evaluación

Es una forma sencilla de evaluar y comparar modelos predictivos para elegir el mejor modelo para su aplicación. Muestran el comportamiento de los modelos pronosticando determinados resultados.

Page 35: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 35

Análisis de conglomerados

Para interpretar los clusters

Page 36: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 36

Diagramas de Cajas

Muestran la mediana, rango intercuartil, valores extremos y casos extremos de campos individuales.

Page 37: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 37

Gráfica de Links

Muestra nodos y las conexiones entre nodos. Por ejemplo, puede examinar las rutas que los usuarios toman a través de un sitio Web, mediante el rastreo de cuántas veces los usuarios van de una página a la siguiente.

Page 38: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 38

CAT’s (Templates)

Son modelos ya probados para Incrementar la retención de clientes , atraer utilidades de los clientes y crear ventas cruzadas eficientes y estrategias de venta.

Disponibles : CRM (Bancos y Retail) CreditScoring (Riesgo financiero en Bancos) Reducción Churn (Telecomunicaciones)

Page 39: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 39

Minería de textos

Un 80% o más en promedio de la información de las empresas no está estructurada o está en formatos de textos, comparado con el 20% o menos que está estructurada en tablas y bases de datos usadas en minería de datos tradicional. Información de notas de los operadores de call centers, formas llenadas en la página web, correos electrónicos de clientes y algunas otras fuentes valiosas de información en texto de la empresa, a menudo no son utilizadas.

Text Mining para Clementine permite extraer conceptos claves, impresiones y relaciones de una base de datos no estructurada, los convierte en un formato estructurado para un modelo predictivo con Clementine. De esta forma se basan las decisiones críticas en el 100% de la información disponible de los datos, no sólo en el 20%.

Page 40: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 40

Metodología para Data Mining (CRISP)

Page 41: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 41

Soluciones SPSS para Data Mining

Page 42: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 42

Algunos clientes

TelecomunicacionesTecnología

Entretenimiento

Servicios Financieros

Retail/Bienes de consumo Industria Farmacéutica

Lealtad

Page 43: Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 43

Muchas gracias !