diplomado "gestión de negocios con data warehouse y data mining". clase 3 proceso kdd...

22
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A.

Upload: emelina-piedra

Post on 23-Jan-2016

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Diplomado "Gestión de Negocios con Data Warehouse y Data

Mining".

Clase 3Proceso KDD

José Antonio Lipari A.

Page 2: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Proceso KDD Knowledge Discovery in Databases

“KDD es el proceso no-trivial de identificar patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos“

Transformación

DatosDatos se-leccionados

Preprocesamiento

Datos pre-procesados

Datos transformados

Data Mining

Patrones

Interpretación yEvaluación

Selección

Page 3: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Novedoso: que sea un aporte para el sistema o para el usuario

Valido: que sea repetible a futuro con nuevos datos

Útil:que pueda traducirse en acciones concretas

Comprensible: que se entienda es básico para cumplir las 3 características anteriores.

Proceso KDD Knowledge Discovery in Databases

KDD

Page 4: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Proceso KDD Knowledge Discovery in Databases

Selección:

Elección de bases de datos a utilizar y variables relevantes

Evaluar creación de Data Mart o Flat table y acumulación de información histórica

Exploración de datos a fin de chequear bondad de la información (datos erróneos, faltantes, sin consolidar)

Acordar objetivo del proyecto KDD y acordar con usuario variables relevantes para cumplir con el objetivo

Page 5: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Proceso KDD Knowledge Discovery in Databases

Preprocesamiento:

Identificar datos que se utilizarán y tienen problemas (erróneos, faltantes o fuera de rango)

Decidir modo de enfrentar datos con problemas: Eliminar registros, imputar registros

Desarrollo de modelos de imputación de registros con problemas

Page 6: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Proceso KDD Knowledge Discovery in Databases

Transformación:

Creación de nuevas variables e indicadores que podrían ser útiles para lograr el objetivo del proyecto KDD

Reuniones con los entendidos en el negocio, para discutir correlaciones encontradas

Analizar correlación entre variables (en general variables muy correlacionadas no aportan información)

Page 7: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Proceso KDD Knowledge Discovery in Databases

Data Mining:

Desarrollo de modelos predictivos utilizando variadas técnicas y definiendo parámetros del algoritmo de acuerdo a los conocimientos del modelador

Generación de muestreos aleatorios de ser necesario

División de datos en Entrenamiento Validación y Testeo

Page 8: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Proceso de KDD Knowledge Discovery in

Databases

Interpretación y evaluación:Se utiliza la base de testeo para verificar que el modelo es capaz de hacer una predicción

Se interpretan los resultados en conjunto con expertos del negocio

Se evalúa el nivel de la predicción con una visión clara de gestión que se realizará

Page 9: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

• El primer paso, implícito necesario en el proceso KDD es definir el objetivo final

• El objetivo es identificar dentro de la base de Cuenta correntistas un conjunto de clientes interesados en adquirir una crédito de consumo

• Definir este objetivo es importante porque el proyecto debiera ser evaluado en función de este objetivo.

• Por ejemplo, aumentar las colocaciones del banco en 10% respecto a igual período del año pasado.

INICIO

Page 10: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

SELECCIÓN

¿Preguntarse cuales de los datos disponibles por el banco podrían ser útiles para predecir la compra o adquisición de un crédito de consumo, y aún más importante, que datos relevantes no están disponibles y hay que solicitar?

Responder a esto probablemente requiera de algo de visión de negocio y experiencia en construcción de otros modelos

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

Page 11: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Campo Estado

Edad OK

Monto credito OK

Uso Línea C OK

Comuna donde Vive Solo hay un string con dirección

Saldo Promedio CC OK

Renta Está desactualizada alto%

Endeudamiento en Sbif OK, considerar no están incluidas casas comerciales

Fecha última solicitud de Crédito NO está disponible

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

SELECCIÓN

Page 12: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

0% Datos Missing

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

SELECCIÓN

Page 13: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

20% Datos Missing

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

SELECCIÓN

Page 14: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Campo Estado Acción

Edad Problemas carga Solicitar corrección de datos a administrador

Monto Crédito OK Nada

Uso Línea C Indefinición Dar coherencia, agregar campo posesión de productos

Comuna donde Vive

Solo hay un string con dirección Solicitar extracción campo Comuna

Saldo Promedio CC

OK Nada

Renta Está desactualizada alto% Solicitar renta estimada Riesgo

Endeudamiento en Sbif

OK, considerar no están incluidas casas comerciales

Solicitar Infor casas Comerciales

Fecha última solicitud de Crédito

NO está disponible Solicitar carga en sistemas de datos

Adicionalmente, si se pretende utilizar esta información períodicamente se requerirá la construcción de Un flat table con las modificaciones solicitadas y que se cargue períodicamente a través de ETL (extraction tranformation, load) que acumule información con historia.

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

SELECCIÓN

Page 15: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

MES 1

MES 2

MES 3

MES N Historia acumulada de N meses en formato y contenido apropiado para análisis

ETLDW

Actualización periódica de el último tablón

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

SELECCIÓN

Page 16: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

PREPROCESAMIENTOSe analizan las respuestas frente a solicitudes de cambio de datos y se procede a modificar los datos deacuerdo a los objetivos planteados por el proyecto.

Campo Respuesta de responsable de datos

Acción Data Mining

Edad Problema corregido Nada

Monto Credito OK Nada

Uso Línea C No es posible corregir Se imputan missisng con “NA”

Comuna donde Vive

No es posible corregir en corto plazo

Se programa identificador de comuna dentro de glosa

Saldo Promedio CC

OK Nada

Renta Se entrega estimación de Riesgo Nada

Endeudamiento en Sbif

La información de casas comerciales no está disponible

Nada, se renuncia a esa información

Fecha última solicitud de Crédito

Se cargará a partir del próximo mes

Se considera se existecia para análisis futuros

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

Page 17: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

TRANSFORMACIONSe analizan los Datos corregidos y se buscan relaciones “interesantes” que según experiencia de gente de negocios y data mining podrían mejorar las correlaciones.

Por ejemplo: Construcción de variables derivadas

RAZON_ ENDEUDAMIENTO = ENDEUDAMIENTO/ RENTA

MONTO_CREDITO VS RAZON DE ENDEUDAMIENTO

0

200

400

600

800

1000

1200

1400

1600

1800

2000

0 2 4 6 8 10 12

RAZON_ENDEUDAMIENTO

MO

NT

O C

RE

DIT

O E

N M

ILE

S$

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

Page 18: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

DATA MINING

Se construye una base orientada a conseguir el objetivo definido, esto implica definir la variable objetivo, una vez definida ésta, se aplican técnicas como sobremuestreo , muestreo aletorio etc para optimizar el manejo de datos. En este caso, es un modelo supervisado de clasificación

Variable ObjetivoIdentificador

Eliminar

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

Variables predictoras

Page 19: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Se construye una base orientada a conseguir el objetivo definido, esto implica definir la Variable objetivo, una vez definida ésta, se aplican técnicas como sobremuestreo , muestreo aletorio etc para optimizar el manejo de datos. En este caso, es un modelo supervisado de clasificación

10.000

Base Total Validación

5.000

Entrenamiento

5.000

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

DATA MINING

Page 20: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

Se construye un modelo predictivo utilizando variadas técnicas de Data Mining, en la práctica el modelo buscará separar las bases en el perfil de los que compran vs el perfil de los que no compran utilizando las variables contenidas en la base de entrenamiento

Validación

Entrenamiento

Modelo Predictivo

Variadas técnicas:

•Árboles de decisión

•Redes neuronales

•Regresiones

•SVM

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

DATA MINING

Page 21: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

INTERPRETACION DE RESULTADOS

Compra 50%

No compra 50%

Compra 30%

No compra 70%

Compra 75%

No compra 25%

Razon _endeudamiento >7

Compra 40%

No compra 60%

Compra 90%

No compra 10%

Edad <38 años

Una interpretación de este modelo podría llevar a la conclusión de que el perfil del cliente que se endeuda es alguien con tendencia a endeudarse y mas bien joven.

Hace sentido el resultado

Aplicación de proceso KDD. Caso Práctico. Predicción de Compra

Nota: Las tendencias aquí presentadas son únicamente referenciales, creadas a modo de ejemplo para la clase.

Page 22: Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A

FIN