Download - UNIVERSIDAD DE CHILE - Repositorio Académicorepositorio.uchile.cl/tesis/uchile/2006/deluca_m/sources/deluca_m.pdfconsumo, tarjetas y líneas de crédito de un Banco pequeño que carece

UNIVERSIDAD DE CHILE

FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS

ESCUELA DE POSTGRADO

PLAN PARA ENFOCAR LAS CAMPAÑAS BANCARIAS UTILIZANDO DATAMINING

MAURICIO PASCUAL DE LUCA VENEGAS

MIEMBROS DE LA COMISIÓN EVALUADORA

SR. LUIS ZAVIEZO SCHWARTZMAN : PROFESOR GUÍA SR. DANIEL ESPARZA CARRASCO SR. MANUEL VERGARA TRINCADO

TESIS PARA OPTAR AL GRADO DE MAGISTER EN GESTIÓN Y DIRECCIÓN DE EMPRESAS

SANTIAGO DE CHILE JULIO, 2006

RESUMEN El objetivo último de la tesis consiste en demostrar que mediante datamining es posible

elaborar un plan para enfocar la estrategia comercial en los productos de créditos de

consumo, tarjetas y líneas de crédito de un Banco pequeño que carece de un

datawarehouse. La hipótesis consiste en el supuesto de que el conjunto de bases de

datos operacionales que forzosamente cualquier Banco debe poseer proveen

información suficiente para elaborar un plan de datamining como el que se desea

construir. El desarrollo de la tesis, en tanto, consiste en detallar paso a paso con una

metodología de datamining (CRISP-DM) como formular un plan para enfocar las

campañas bancarias mediante una segmentación de riesgo y rentabilidad basada en

modelos predictivos generados a partir de los datos de las bases operacionales antes

mencionadas. Finalmente, la principal conclusión que se obtiene como resultado de la

investigación consiste en que la tesis planteada en un comienzo es válida, por cuanto

es posible construir un plan como el deseado.

La investigación desarrollada no ha pretendido elaborar modelos predictivos

específicos, puesto que para ello hubiese sido necesario disponer de datos concretos

de un conjunto masivo de clientes, información cuyo acceso está severamente

restringido por la ley de secreto bancario. Por lo tanto, las indicaciones que se entregan

en este informe son genéricas, puramente conceptuales, no están dirigidas a ningún

Banco específico y no se basan en ningún conjunto de datos de ningún grupo de

personas.

Se ha empleado la metodología CRISP-DM para la elaboración del plan de datamining

por corresponder a un estándar ampliamente utilizado en proyectos de minería de

datos. Por otro lado, dado que hubiese sido imposible ilustrar el plan de datamining sin

recurrir a alguna herramienta de datamining específica, se ha usado Clementine de

SPSS por hacer posible la representación de flujos de datos de manera gráfica y por su

gran capacidad para trabajar con una amplia gama de bases de datos operacionales de

distintos proveedores.

AGRADECIMIENTOS

Quisiera dedicar este trabajo a mi madre, Isolina Venegas, quien a través de su ejemplo

de enorme generosidad hacia sus hijos me enseñó a enfrentar la vida con esfuerzo,

bondad y sencillez. Quisiera también agradecer al MBA de la Universidad de Chile por

transmitirme un deseo genuino de contribuir a la sociedad con todo mi talento,

creatividad y energía, puesto que en dicho deseo he encontrado la fuente de un

liderazgo auténtico y orientador en mi vida profesional.

INDICE

1 INTRODUCCIÓN......................................................................................................14

2 DIAGNÓSTICO DEL PROBLEMA...........................................................................17

2.1 Los productos ................................................................................................17

2.1.1 Créditos de consumo....................................................................................18

2.1.2 Tarjetas de crédito........................................................................................18

2.1.3 Líneas de crédito ..........................................................................................19

2.2 El mercado......................................................................................................19

2.3 La industria.....................................................................................................20

2.4 La tecnología..................................................................................................35

2.5 Enfoques de las campañas bancarias .........................................................35

2.5.1 Orientación operacional................................................................................36

2.5.2 Orientación estratégica.................................................................................40

3 OBJETIVOS DE LA INVESTIGACIÓN....................................................................42

4 DEFINICIONES PREVIAS .......................................................................................44

4.1 El término “datamining” o “minería de datos”............................................44

4.2 El término “modelo” ......................................................................................45

4.3 Definición del concepto de técnica de modelamiento................................46

4.4 Definición del concepto de proyecto de datamining ..................................46

4.5 Definición del concepto de plan de datamining..........................................47

5 HIPÓTESIS DE TRABAJO ......................................................................................48

5.1 Supuestos sobre disponibilidad de información ........................................48

5.2 Supuestos tecnológicos................................................................................49

5.3 Supuestos sobre el marco regulatorio.........................................................49

5.4 Supuestos de negocios.................................................................................50

5.5 Supuestos operacionales..............................................................................51

6 METODOLOGÍA DE TRABAJO ..............................................................................53

6.1 Metodologías de datamining.........................................................................53

6.1.1 Metodología SEMMA....................................................................................53

6.1.2 Metodología CRISP-DM ...............................................................................54

6.2 Razones para utilizar CRISP-DM...................................................................57

7 PRIMERA FASE DEL PLAN: COMPRENSIÓN DEL NEGOCIO ............................59

7.1 Determinar los objetivos de negocios (tarea 1a).........................................61

7.1.1 Background (output 1a.1) .............................................................................61

7.1.2 Objetivos de negocios: focalizarse en nichos y crecer sujeto a un nivel

mínimo de riesgo (output 1a.2) ....................................................................63

7.1.3 Criterios de éxito de negocios: porcentaje de aumento en los montos

ofrecidos en las campañas y monto de pérdida esperada de éstas

(output 1a.3).................................................................................................64

7.2 Evaluar la situación (tarea 1b) ......................................................................65

7.2.1 Inventario de recursos (output 1b.1).............................................................65

7.2.2 Requerimientos, suposiciones y restricciones (output 1b.2).........................66

7.2.3 Riesgos y contingencias (output 1b.3)..........................................................67

7.2.4 Terminología (output 1b.4) ...........................................................................69

7.2.4.1 Definición de cliente malo desde un punto de vista crediticio ...............70

7.2.4.2 Definición de rentabilidad potencial de un cliente..................................71

7.2.4.3 Definición de cliente sin gran rentabilidad potencial..............................72

7.2.4.4 Definición de carga financiera ...............................................................74

7.2.5 Costos y beneficios (output 1b.5) .................................................................74

7.3 Determinar los objetivos de datamining (tarea 1c) .....................................75

7.3.1 Objetivos de datamining: estimar el riesgo crediticio y la rentabilidad

potencial de los clientes (output 1c.1) ..........................................................75

7.3.2 Criterios de éxito de datamining: errores tipo I y tipo II (output 1c.2)............77

7.4 Producir el plan del proyecto (tarea 1d).......................................................78

7.4.1 Plan del proyecto (output 1d.1).....................................................................78

7.4.2 Evaluación inicial de herramientas y técnicas (output 1d.2) .........................79

8 SEGUNDA FASE DEL PLAN: COMPRENSIÓN DE LOS DATOS .........................81

8.1 Recolectar datos iniciales (tarea 2a) ............................................................82

8.1.1 Reporte de recolección de datos iniciales (output 2a.1) ...............................82

8.1.2 Datos necesarios para el proyecto: lista de atributos de los clientes............83

8.1.2.1 Grupo de variables demográficas (A)....................................................84

8.1.2.2 Grupo de variables de renta (B) ............................................................85

8.1.2.3 Grupo de variables de vínculo con el cliente (C) ...................................85

8.1.2.4 Grupo de variables de ingresos contables generados por cliente (D) ...85

8.1.2.5 Grupo de variables de comportamiento (E)...........................................86

8.1.2.6 Grupo de variables de deudas (F).........................................................87

8.1.3 Fuentes de datos disponibles y suficientes para el proyecto........................88

8.2 Describir los datos (tarea 2b)........................................................................91

8.2.1 Reporte de descripción de datos (output 2b.1).............................................91

8.3 Explorar los datos (tarea 2c).........................................................................92

8.3.1 Reporte de exploración de datos (output 2c.1).............................................93

8.4 Verificar la calidad de los datos (tarea 2d) ..................................................93

8.4.1 Reporte de calidad de los datos (output 2d.1)..............................................94

9 TERCERA FASE DEL PLAN: PREPARACIÓN DE LOS DATOS ..........................95

9.1 Conjunto de datos (output 3z.1) ...................................................................96

9.1.1 Obtención automatizada del conjunto de datos en Clementine....................97

9.1.1.1 Símbolos usados en Clementine para procesar datos ........................100

9.1.1.2 Flujo de datos que obtiene base de variables predictivas ...................103

9.2 Descripción del conjunto de datos (output 3z.2) ......................................115

9.3 Seleccionar los datos (tarea 3a) .................................................................115

9.3.1 Razones para la inclusión o exclusión de datos (output 3a.1)....................115

9.4 Limpiar los datos (tarea 3b) ........................................................................117

9.4.1 Reporte de limpieza de los datos (output 3b.1) ..........................................117

9.5 Construir datos (tarea 3c) ...........................................................................118

9.5.1 Atributos derivados (output 3c.1)................................................................118

9.5.1.1 Estimación de las deudas con otras instituciones financieras .............119

9.5.2 Registros generados (output 3c.2) .............................................................119

9.6 Integrar los datos (tarea 3d)........................................................................120

9.6.1 Datos mezclados (output 3d.1)...................................................................120

9.7 Formatear los datos (tarea 3e) ....................................................................121

9.7.1 Datos reformateados (output 3e.1).............................................................121

10 CUARTA FASE DEL PLAN: MODELAMIENTO ................................................122

10.1 Seleccionar la técnica de modelamiento (tarea 4a) ..................................123

10.1.1 Técnica de modelamiento (output 4a.1)..................................................123

10.1.2 Regresión logística .................................................................................124

10.1.2.1 Representación de modelos mediante regresión logística ..............129

10.1.2.2 Refinamiento iterativo de los modelos de regresión logística ..........131

10.1.3 Redes neuronales...................................................................................132

10.1.3.1 Representación de modelos mediante redes neuronales................136

10.1.3.2 Refinamiento iterativo de los modelos de redes neuronales ...........139

10.1.3.3 Cálculo con red neuronal de probabilidad de que un cliente sea

malo.................................................................................................145

10.1.4 Árboles de decisión.................................................................................148

10.1.4.1 Representación de modelos mediante árboles de decisión.............150

10.1.4.2 Refinamiento de los modelos de árboles de decisión......................158

10.1.5 Comparación de las técnicas de modelamiento......................................160

10.1.6 Supuestos de modelamiento (output 4a.2) .............................................161

10.2 Generar el diseño de las pruebas (tarea 4b)..............................................161

10.2.1 Diseño de las pruebas (output 4b.1) .......................................................161

10.3 Construir un modelo (tarea 4c) ...................................................................163

10.3.1 Establecer los parámetros (output 4c.1) .................................................163

10.3.2 Modelos (output 4c.2) .............................................................................163

10.3.3 Generación automatizada de modelos en Clementine ...........................163

10.3.3.1 Símbolos usados en Clementine para generar modelos .................164

10.3.3.2 Descripción del diagrama en Clementine que genera un modelo....166

10.3.4 Descripción del modelo (output 4c.3)......................................................168

10.3.4.1 Modelo de riesgo especificado usando regresión logística..............169

10.3.4.2 Modelo de rentabilidad especificado usando regresión logística .....171

10.3.4.3 Modelo de riesgo especificado usando redes neuronales ...............172

10.3.4.4 Modelo de rentabilidad especificado usando redes neuronales ......173

10.3.4.5 Modelo de riesgo especificado usando árboles de decisión............174

10.3.4.6 Modelo de rentabilidad especificado usando árboles de decisión ...177

10.3.4.7 Variables válidas en los tres tipos de modelos antes explicados.....177

10.4 Evaluar el modelo técnicamente (tarea 4d) ...............................................181

10.4.1 Evaluación técnica del modelo y de los objetivos de datamining de

estimar el riesgo crediticio y la rentabilidad potencial de los clientes

(output 4d.1) ...........................................................................................181

10.4.2 Principales medidas estadísticas para evaluar modelos técnicamente ..182

10.4.2.1 Divergencia......................................................................................183

10.4.2.2 Estadístico de Kolmogorov-Smirnov (K-S).......................................184

10.4.2.3 Curva ROC o de Trade-off...............................................................185

10.4.2.4 Receiver Operating Characteristic (ROC)........................................186

10.4.2.5 Razón Odds/Score ..........................................................................187

10.4.3 Evaluación técnica automatizada de modelos utilizando Clementine .....188

10.4.4 Establecer los parámetros revisados (output 4d.2).................................190

11 QUINTA FASE DEL PLAN: EVALUACIÓN DE NEGOCIOS .............................191

11.1 Evaluar los resultados de negocios (tarea 5a) ..........................................192

11.1.1 Evaluación de negocios de resultados de datamining y de los

objetivos de negocios de focalizarse en nichos y crecer sujeto a un

nivel mínimo de riesgo (output 5a.1).......................................................192

11.1.2 Modelos aprobados (output 5a.2) ...........................................................200

11.2 Revisar el proceso de datamining (tarea 5b).............................................200

11.2.1 Revisión del proceso de datamining (output 5b.1) ..................................201

11.3 Determinar los próximos pasos (tarea 5c).................................................201

11.3.1 Lista de las acciones posibles (output 5c.1) ...........................................201

11.3.2 Decisión (output 5c.2) .............................................................................202

12 SEXTA FASE DEL PLAN: DESPLIEGUE DE LOS RESULTADOS..................203

12.1 Planificar el despliegue (tarea 6a) ..............................................................204

12.1.1 Plan de despliegue (output 6a.1) ............................................................204

12.1.2 Automatización de la fase de despliegue utilizando Clementine.............205

12.2 Planificar el monitoreo y la mantención (tarea 6b) ...................................206

12.2.1 Plan de monitoreo y mantención (output 6b.1) .......................................206

12.3 Producir el reporte final (tarea 6c)..............................................................207

12.3.1 Reporte final (output 6c.1) ......................................................................207

12.3.2 Presentación final (output 6c.2) ..............................................................208

12.4 Revisar el proyecto (tarea 6d).....................................................................208

12.4.1 Documentación de la experiencia (output 6d.1)......................................208

13 CONCLUSIÓN ....................................................................................................209

14 BIBLIOGRAFÍA...................................................................................................212

INDICE DE FIGURAS

Figura 1.1 Tema de tesis planteado en forma redonda en cuanto a objetivo,

desarrollo y conclusiones........................................................................15

Figura 2.1 Crecimiento de los productos de consumo bancarios, 1998-2004..........17

Figura 2.2 Porcentaje de participación de las colocaciones de los distintos

Bancos del sistema financiero chileno, Julio del 2005 ............................21

Figura 2.3 Comparación entre Bancos grandes y pequeños de la razón de

eficiencia (gastos de apoyo oper. / resultado oper.), 2000-2005.............21

Figura 2.4 Comparación entre Bancos medianos y pequeños de la razón de

eficiencia (gastos de apoyo oper. / resultado oper.), 2000-2005............22

Figura 2.5 Evolución del margen de intereses del sistema financiero chileno

como un todo, periodo 2000-2005 ..........................................................23

Figura 2.6 Comparación entre Bancos grandes y pequeños de la razón de

margen de intereses / colocaciones, periodo 2000-2005........................24

Figura 2.7 Comparación entre Bancos medianos y pequeños de la razón de

margen de intereses / colocaciones, periodo 2000-2005........................25

Figura 2.8 Comparación del margen de intereses sobre colocaciones entre

Bancos de clientes preferenciales y Bancos pequeños, periodo

2000-2005...............................................................................................26

Figura 2.9 Comparación de la rentabilidad sobre patrimonio de Bancos

grandes y pequeños, periodo 2000-2005................................................27

Figura 2.10 Comparación de la rentabilidad sobre patrimonio de Bancos

medianos y pequeños, periodo 2000-2005 .............................................27

Figura 2.11 Evolución de las colocaciones totales del sistema financiero

chileno, desglosadas por tipo, periodo 2000-2004.................................28

Figura 2.12 Comparación del crecimiento anual de colocaciones de los Bancos

medianos y pequeños, periodo 2000-2005 .............................................29

Figura 2.13 Matriz de crecimiento-participación de las colocaciones de los

distintos Bancos en Chile, Julio 2004-Julio 2005 ....................................30

Figura 2.14 Tasas de créditos de consumo, hipotecarios y comerciales, periodo

2002-2005...............................................................................................31

Figura 2.15 Composición del margen operacional bruto de los distintos Bancos,

Julio 2005................................................................................................32

Figura 2.16 Porcentaje de los distintos tipos de créditos sobre el total de

colocaciones de cada Banco, Febrero 2005 ...........................................33

Figura 2.17 Ranking de Bancos por colocaciones de consumo, Febrero 2005 .........34

Figura 2.18 Enfoque operacional de comunicación en un proyecto de

datamining...............................................................................................39

Figura 6.1 Fases y Tareas del Modelo CRISP-DM ..................................................55

Figura 7.1 Tareas y outputs de la fase de comprensión del negocio, primera

fase del proyecto de datamining según metodología CRISP-DM ...........59

Figura 7.2 Ganancias extras obtenidas por cada transacción de la tarjeta de

crédito de un cliente, cuando éste tiene varios años de antigüedad .......71

Figura 8.1 Tareas y outputs de la fase de comprensión de los datos, segunda


Figura 8.2 Seis grupos de variables candidatas a ser consideradas en los

modelos (nótese que sólo un grupo corresponde a variables de

deudas) ...................................................................................................84

Figura 9.1 Tareas y outputs de la fase de preparación de los datos, tercera


Figura 9.2 Flujo de datos en Clementine que obtiene la base de datos final

para construir un modelo predictivo ........................................................99

Figura 9.3 Gran flujo de datos de Clementine mostrando la obtención de una

base de variables predictivas a partir de distintas fuentes de datos .....102

Figura 9.4 Flujo de datos en Clementine que obtiene las deudas de los

clientes con el Banco y que fueron informadas a la SBIF hace dos

meses ...................................................................................................104

Figura 9.5 Flujo de datos en Clementine que estima las deudas de un cliente

con terceros ..........................................................................................105

Figura 9.6 Flujo de datos en Clementine que obtiene los saldos actuales de

las cuentas, tanto antes como después del envío del D01 hace dos

meses ...................................................................................................106

Figura 9.7 Flujo de datos en Clementine que obtiene los saldos actualizados

de las cuentas reportadas hace dos meses en el D01 enviado a la

SBIF ......................................................................................................107

Figura 9.8 Flujo de datos en Clementine que obtiene las deudas actualizadas

de los clientes con el Banco..................................................................108

Figura 9.9 Flujo de datos en Clementine que separa los clientes “nuevos” (de

hace menos de dos meses) de los clientes antiguos ............................110

Figura 9.10 Flujo de datos en Clementine que estima las deudas con terceros

de los clientes “nuevos” (de menos de dos meses de antigüedad).......111

Figura 9.11 Flujo de datos en Clementine que obtiene las deudas de los

clientes tanto con el Banco como con terceros .....................................112

Figura 9.12 Flujo de datos en Clementine que mezcla los datos de las deudas

de los clientes, de su renta y de sus características demográficas.......113

Figura 9.13 Flujo de datos en Clementine que obtiene la base de variables

predictivas .............................................................................................114

Figura 10.1 Tareas y outputs de la fase de modelamiento, cuarta fase del

proyecto de datamining según metodología CRISP-DM.......................122

Figura 10.2 Clientes buenos y malos versus carga financiera .................................125

Figura 10.3 Proporción de clientes malos por clase de carga financiera .................125

Figura 10.4 Un modelo matemático simple para una neurona.................................132

Figura 10.5 Funciones de activación de una neurona: función escalonada (a) y

función sigmoidal (b) .............................................................................133

Figura 10.6 Unidades con una función de activación escalonada que pueden

representar distintas puertas lógicas.....................................................134

Figura 10.7 Una red neuronal con dos inputs, un nivel oculto de dos unidades y

una salida..............................................................................................135

Figura 10.8 Gráfico del output de un perceptrón con dos unidades de entrada y

una función de activación sigmoidal......................................................137

Figura 10.9 El resultado de combinar dos funciones sigmoidales para obtener

una cordillera.........................................................................................138

Figura 10.10 El resultado de combinar dos cordilleras para producir un cerro ..........139

Figura 10.11 Perceptrón con una unidad de salida....................................................140

Figura 10.12 Red neuronal con un nivel oculto y dos unidades de salida..................142

Figura 10.13 Ejemplo de árbol de decisión que permite clasificar a los clientes en

buenos y malos .....................................................................................149

Figura 10.14 Ejemplos de clientes clasificados como buenos o malos......................152

Figura 10.15 Clasificación de conjunto de datos de entrenamiento mediante el

atributo de comuna ...............................................................................153

Figura 10.16 Clasificación de conjunto de datos de entrenamiento mediante

atributos de renta y rotación de empleo ................................................154

Figura 10.17 Árbol de decisión generado por algoritmo a partir de los ejemplos

del conjunto de datos de entrenamiento ...............................................155

Figura 10.18 Función información y promedio geométrico entre la proporción de

ejemplos positivos y negativos en un conjunto de datos.......................157

Figura 10.19 Flujo de datos en Clementine que genera modelos y predicciones a

partir de una base final para alimentar el modelo predictivo .................164

Figura 10.20 Flujo de datos en Clementine que obtiene un conjunto de datos de

entrenamiento .......................................................................................166

Figura 10.21 Flujo de Datos en Clementine que genera modelos a partir de un

conjunto de datos de entrenamiento .....................................................167

Figura 10.22 Factores considerados en la divergencia de un modelo de puntaje:

cuanto se separan y se superponen las distribuciones de buenos y

malos ....................................................................................................183

Figura 10.23 Estadígrafo K-S, calculado como la máxima distancia entre las

distribuciones de buenos y malos de un modelo de puntaje.................184

Figura 10.24 Curvas de trade-off de dos modelos de puntaje....................................185

Figura 10.25 Estadígrafo ROC de un modelo de puntaje, calculado como el área

bajo la curva de trade-off ......................................................................186

Figura 10.26 Razón de Odds/Score de un modelo de puntaje...................................187

Figura 10.27 Flujo de datos en Clementine que obtiene un conjunto de datos de

prueba para validar un modelo..............................................................188

Figura 10.28 Flujo de datos en Clementine que entrega notas y predicciones de

de riesgo y rentabilidad potencial para un conjunto de clientes ............189

Figura 11.1 Tareas y outputs de la fase de evaluación de negocios, quinta fase

del proyecto de datamining según metodología CRISP-DM .................191

Figura 11.2 Segmentos de riesgo y rentabilidad ......................................................194

Figura 11.3 Orientación operacional de las campañas bancarias............................195

Figura 11.4 Funciones continua y escalonada que describen el aumento del

riesgo de los clientes al aumentar su carga financiera..........................197

Figura 12.1 Tareas y outputs de la fase de despliegue, sexta y última fase del

proyecto de datamining según metodología CRISP-DM.......................203

Figura 12.2 Flujo de datos en Clementine que obtiene una base de clientes con

notas de riesgo y rentabilidad a partir de una base de variables

predictivas .............................................................................................205

Figura 12.3 Flujo de datos en Clementine que obtiene una base de ofertas

comerciales a partir de una base con notas de riesgo y rentabilidad....206

14

1 INTRODUCCIÓN

El presente documento describe como mediante datamining es posible enfocar las

campañas de un Banco pequeño que no cuenta con un datawarehouse. Todo ello para

los productos de créditos de consumo, tarjetas y líneas de crédito. Se describe cómo a

partir de ciertas bases operacionales de un Banco es posible construir modelos de

datamining capaces de calcular puntajes de riesgo y rentabilidad de sus clientes, y

cómo a partir de tales puntajes pueden identificarse distintos segmentos susceptibles

de ser atacados con ofertas diferenciadas.

El objetivo del autor del presente trabajo1 no ha sido elaborar modelos predictivos de la

rentabilidad de los clientes ni de su desempeño crediticio, puesto que para ello hubiese

sido necesario disponer de los datos de los clientes de algún Banco, cosa que ha

escapado totalmente al ámbito de definición de la investigación. El objetivo, en cambio,

ha sido relatar cómo es posible elaborar un plan para que un Banco pequeño construya

e implemente modelos de datamining que le ayuden a enfocarse en nichos de mercado

específicos. Por ende, el foco de la tesis no se encuentra en la descripción de modelos

predictivos específicos, sino que en la forma de elaborar un plan para construir tales

modelos. Por lo tanto, las indicaciones que se entregan en este informe son genéricas,

puramente conceptuales, no están dirigidas a ningún Banco específico y no se basan

en ningún conjunto de datos de ningún grupo de personas. En consecuencia no se ha

pedido ni obtenido autorización de ninguna institución ni persona para utilizar en este

informe datos confidenciales, tales como información sujeta a secreto bancario.

El presente informe se ha planteado en forma “redonda” en cuanto a objetivos,

desarrollo y conclusiones, en el sentido de cerrar un ciclo que parte de un objetivo,

consistente en demostrar la validez de una tesis, para finalmente arribar a la conclusión

de que la tesis es válida. En efecto, en forma similar a la demostración de un teorema

geométrico la investigación se ha dividido en cuatro pasos, como se ilustran en la figura

1.1 dada abajo: formulación de la tesis a demostrar, formulación de las hipótesis que se

emplearán en la demostración, desarrollo de la demostración propiamente dicha, y

finalmente la conclusión con respecto a la validez de la tesis. Por lo tanto, el desarrollo

apunta específicamente a alcanzar el objetivo planteado en la tesis. Las conclusiones, 1 Mauricio De Luca, ingeniero civil de industrias y diploma académico en la especialidad de ingeniería en computación de la Pontificia Universidad Católica de Chile ([email protected])

15

por su parte, establecen si la tesis es válida o falsa, y se derivan directamente del

desarrollo de la demostración.

Figura 1.1 Tema de tesis planteado en forma redonda en cuanto a objetivo, desarrollo y conclusiones2

La tesis que se pretende demostrar es la siguiente: mediante herramientas de

datamining puede elaborarse un plan para enfocar las campañas en un Banco pequeño

que carece de un datawarehouse, de manera de permitir a la institución segmentar a

sus clientes y crecer. El objetivo último y principal de esta investigación no es otro que

demostrar dicha tesis. El capítulo 3 entrega objetivos secundarios que permiten

alcanzar dicho objetivo principal.

La principal hipótesis de trabajo, por su parte, consiste en el supuesto de que existe un

conjunto de bases de datos operacionales que forzosamente cualquier Banco debe

2 Fuente: elaboración propia

16

poseer y que proveen información necesaria y suficiente para realizar estudios de

datamining. Existen también otras hipótesis de trabajo que son necesarias para poder

satisfacer el objetivo de la tesis y las cuales se detallan en el capítulo 5.

El desarrollo de la tesis, en tanto, consiste en detallar paso a paso con una metodología

de datamining (CRISP-DM) como formular un plan para enfocar las campañas,

construyendo modelos predictivos de riesgo y rentabilidad a partir de datos de bases

operacionales. El desarrollo de la tesis es dividido en los capítulos 7 al 12,

correspondiendo cada uno a las distintas fases en las que se divide un proyecto de

datamining en la metodología CRISP-DM.

La principal conclusión, por lo tanto, consiste en que la tesis planteada en un comienzo

de la investigación es válida, por cuanto en el desarrollo se demuestra que es

efectivamente posible construir un plan para enfocar las campañas bancarias mediante

herramientas de datamining. El capítulo 13 entrega también otras conclusiones

importantes que se deducen de la investigación.

El resto del documento está dividido como sigue: el capítulo 2 ofrece un diagnóstico del

problema de las campañas bancarias, el capítulo 3 define los objetivos de la

investigación (lo cual calza con la primera etapa de formulación de la tesis dada en la

figura 1.1). El capítulo 4 entrega definiciones previas que se utilizarán en el resto del

documento. El capítulo 5 detalla las hipótesis de trabajo (lo cual corresponde a la

segunda etapa de la tesis dada en la figura 1.1). El capítulo 6 se refiere a la

metodología que se utiliza en la formulación del plan de datamining, junto a las razones

para su elección. El desarrollo de la tesis, tercera etapa en el esquema entregado en la

figura 1.1, se entrega en los capítulos 7 al 12. El capítulo 13 corresponde a la cuarta y

última etapa de la figura 1.1 y resume las conclusiones de la investigación. Finalmente

el capítulo 14 entrega la bibliografía.

17

2 DIAGNÓSTICO DEL PROBLEMA

A continuación se entrega la descripción del negocio de las campañas bancarias en los

productos de líneas de crédito, tarjetas de crédito y créditos de consumo.

2.1 Los productos

Las campañas de consumo bancarias contemplan la promoción de múltiples productos

dirigidos a distintos tipos de mercado. Tres de dichos productos serán abordados en el

presente estudio: los créditos de consumo, las tarjetas de crédito y las líneas de crédito.

Los análisis se enfocarán solamente en el mercado de las personas naturales sin giro, y

los créditos no incluirán préstamos para prepagar otras deudas.

El siguiente gráfico muestra el crecimiento de los mencionados productos durante los

últimos años. Puede observarse como las cuentas corrientes y los créditos de consumo

han mostrado un sostenido crecimiento, en tanto que el número de las tarjetas de

crédito ha caído:

Figura 2.1 Crecimiento de los productos de consumo bancarios, 1998-20043

A continuación se describe el panorama de cada producto.

3 Fuente: EL DIARIO FINANCIERO, Bancos Salen a la Caza de Nuevos Segmentos para Rentabilizar su Negocio, 28/03/2005

18

2.1.1 Créditos de consumo Los Bancos utilizan para colocar sus créditos de consumo canales tales como el

contacto telefónico y el marketing directo, al mismo tiempo que medios de publicidad

como los avisos en diarios, radio y televisión. Algunos Bancos, invitan a sus clientes a

retirar en sucursales un préstamo que ya está autorizado. Otros, en cambio, han

llegado incluso a hacer uso de las llamadas “preaprobaciones automáticas”, en virtud

de las cuales los ejecutivos llaman a sus clientes para ofrecerles depositar en su cuenta

corriente un crédito que ya está aprobado. Las campañas de créditos de consumo

incluyen tasas preferenciales, premios y beneficios.

2.1.2 Tarjetas de crédito Las tarjetas de crédito bancarias han enfrentado una creciente y dura competencia por

parte de las tarjetas de retail. Ello queda de manifiesto por el hecho de que el número

total de tarjetas bancarias es menos de un tercio de los ocho millones de tarjetas

emitidas por las multitiendas y cadenas de supermercados. Como resultado de dicha

competencia el número de tarjetas de crédito se ha estancado desde el 2003 y los

Bancos en respuesta se han visto obligados a realizar agresivas campañas. Las

colocaciones por tarjetas de crédito en junio del 2004 representaban un nada

despreciable 23% de los préstamos de consumo totales del sistema financiero4.

El objetivo fundamental de los Bancos detrás de las campañas de tarjetas es el de

fidelizar al cliente. La idea que subyace al concepto de fidelización es que el cliente

utilice en forma más intensiva las tarjetas, a la vez que el resto de los productos

bancarios. Como consecuencia de las campañas de fidelización entre 1999 y el 2004 el

número promedio de transacciones anuales por tarjeta pasó de 16 a 195.

Las tarjetas bancarias generan ingresos por múltiples conceptos, entre ellos la tarifa

mensual por mantención que debe pagar el cliente, al igual que las comisiones que

debe pagar el comerciante por cada transacción. Generan también el cobro de

intereses por dos causas: los montos utilizados de la tarjeta, y los montos de las líneas

de crédito que son empleadas con el propósito de pagar las tarjetas. Ello explica por

qué existe tanto interés por parte de los Bancos en ofrecer rebajas de intereses o de

4 Fuente: EL DIARIO FINANCIERO, La Nueva Ofensiva de los Bancos por Fidelizar y Captar Clientes, 20/01/2005 5 Fuente: Informe de Estabilidad Financiera, Banco Central, primer semestre 2006

19

precios con tal de fomentar el uso de las tarjetas. Al fin de cuentas los ingresos

generados por mantenciones, comisiones e intereses superan las rebajas.

2.1.3 Líneas de crédito Son un producto estrechamente ligado a las cuentas corrientes, las cuales constituyen

el principal “gancho” para ofrecer otros productos bancarios, como las tarjetas de

crédito o los créditos de consumo.

El sistema financiero aumentó su número de cuentas corrientes sólo 5,25% durante el

20046, crecimiento provocado en su mayor parte por la reactivación en el consumo de la

economía. La participación que cada Banco posee sobre el número total de cuentas

corrientes ha sufrido pocas variaciones los últimos años debido al escaso crecimiento

del número de cuentas corrientes y a la fuerte competencia en los segmentos de

mercado bancarizados El 24% de las cuentas corrientes las posee el Banco de Chile,

posición seguida muy de cerca por el Banco Santander y por el BCI, que detentan un

16%. Bastante más atrás les siguen el Banco Estado, con un 10% y el BBVA, con un

5,5%7.

2.2 El mercado

En Chile existe un gran número de personas no bancarizadas. De los siete millones de

personas que componen la fuerza laboral en Chile, sólo 1,3 millones tienen cuenta

corriente8. Chile es uno de los países menos bancarizados de Latinoamérica. Es así

como mientras en el país existen 0,1 cuentas corrientes por habitante, en México ellas

superan las 0,28 y en Brasil las 0,459. Chile presenta 0,38 tarjetas de débito y crédito

por habitante, mientras que Argentina tiene un índice el doble mayor, al tiempo que

Brasil alcanza un índice de 0,810. En este panorama los Bancos se han esforzado por

crecer hacia los segmentos de menores ingresos y por competir en ellos con las casas

comerciales. Con ese propósito han abierto divisiones especializadas, como es el caso

del Santander, el BCI, el BBVA, el Chile, Corpbanca, Citibank y el Banco del Desarrollo.

Adicionalmente los Bancos han hecho alianzas con casas comerciales. Tal es el caso 6 Fuente: EL DIARIO FINANCIERO, La Nueva Ofensiva de los Bancos por Fidelizar y Captar Clientes, 20/01/2005 7 Fuente: idem. a la anterior 8 Fuente: idem. a la anterior 9 Fuente: idem. a la anterior 10 Fuente: idem. a la anterior

20

del Santander con el Banco Paris, del BancoEstado con D&S, del BCI con Falabella y

del Banco Chile con Falabella y Ripley.

Es posible distinguir varios mercados objetivo a los que pueden dirigirse las campañas

de créditos de consumo, tarjetas o líneas de crédito. El primero es el conjunto de

clientes que poseen créditos de consumo con el Banco próximos a expirar, o que han

sido pagados en su mayor parte. El segundo mercado está conformado por los clientes

que son deudores del Banco en algún producto, pero que carecen de alguno de los

otros productos considerados en este estudio. El tercer mercado está constituido por las

personas que no son clientes del Banco y que no poseen créditos de consumo, tarjetas

ni líneas de éste. Existen, no obstante, muchas distinciones que es posible percibir en

los clientes y que los diferencian profundamente del resto. Existen, por ejemplo, clientes

que tienen sólo depósitos a plazo en el Banco, otros que tienen créditos hipotecarios,

otros que son empresas o personas con giro, profesionales jóvenes, etc.

El presente estudio se ha enfocado sólo en los clientes que son deudores del Banco en

algún producto y que son personas naturales sin giro. Por otro lado, se supondrá que

las campañas a las cuales se aplique el plan descrito en este documento no

contemplarán créditos destinados a prepagar otras deudas. Por lo tanto, el estudio se

concentrará sólo en los clientes con capacidad para adquirir deudas adicionales a

aquellas que ya poseen.

2.3 La industria

Existen tres grandes Bancos que concentran más de la mitad del total de las

colocaciones del sistema: el Santander, el Chile y el Estado. Los siguen tres Bancos

medianos: el BCI, el BBVA y Corpbanca, que en conjunto tienen más de la cuarta parte

de las colocaciones totales. El resto de los Bancos, que pueden con propiedad

clasificarse como pequeños, tienen en total una cuarta parte de las colocaciones. Como

se mostrará a continuación, los gastos operacionales, las rentabilidades y las tasas de

crecimiento de los Bancos dependen fuertemente de su tamaño.

El siguiente gráfico muestra la participación de mercado sobre las colocaciones totales

de los distintos Bancos que componen el sistema financiero nacional:

21

Figura 2.2 Porcentaje de participación de las colocaciones de los distintos Bancos del sistema financiero chileno, Julio del 200511

La siguiente figura compara los gastos operacionales de Bancos grandes y pequeños:

Figura 2.3 Comparación entre Bancos grandes y pequeños de la razón de eficiencia (gastos de apoyo oper. / resultado oper.), 2000-200512

11 Fuente: tabla del anexo A, la cual contiene datos extraídos de los volúmenes de Julio de los años 2004 y 2005 de la revista Información Financiera de la SBIF 12 Fuente: tabla del anexo B, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF

22

El gráfico anterior ha mostrado cómo los Bancos grandes, a excepción del Banco del

Estado, obtienen gastos operacionales permanentemente por debajo del promedio de la

industria, en tanto que los Bancos pequeños tienen gastos muy superiores. Ello se

explica por las fuertes economías de escala presentes en el negocio Bancario, lo cual

queda reafirmado por el hecho de que aun los Bancos medianos presentan gastos

operacionales consistentemente por debajo de los bancos pequeños, como puede

apreciarse en el siguiente gráfico:

Figura 2.4 Comparación entre Bancos medianos y pequeños de la razón de eficiencia (gastos de apoyo oper. / resultado oper.), 2000-200513

Tal vez el BBVA escapa un poco a la tendencia de los Bancos medianos, sin embargo

ello puede explicarse por una orientación particular hacia el negocio hipotecario.

Por otro lado, en la industria bancaria nacional los márgenes de intereses, que se

generan por la diferencia entre los intereses que los Bancos cobran por las

colocaciones y los intereses que pagan por las captaciones, han caído debido a la

fuerte competencia, como se revela en el siguiente gráfico:

13 Fuente: tabla del anexo B, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF

23

Figura 2.5 Evolución del margen de intereses del sistema financiero chileno como un todo, periodo 2000-200514

Entre julio del 2000 y julio del 2005 el margen de intereses sobre el resultado

operacional bruto bajó desde 80,8% a 73,8%15 , presentando, por lo tanto, una

reducción de un 7% del resultado operacional bruto. Ello fue más que compensado por

la disminución en los gastos operacionales, que bajaron de un 60,2% a un 51,7% del

resultado operacional bruto (vale decir un 8,5% del resultado operacional bruto)16. Esto

se ha traducido en un aumento de la rentabilidad para el sistema financiero como un

todo. No obstante, mientras los Bancos grandes y medianos han bajado sus gastos

operacionales, ese no ha sido el caso de los Bancos pequeños.

La disminución de los márgenes de intereses tampoco ha afectado a todos los Bancos

por igual. El siguiente gráfico muestra como los Bancos grandes han bajado en forma

constante sus márgenes de intereses, convergiendo hacia los márgenes de intereses

de los Bancos pequeños, que no han variado significativamente:

14 Fuente: tabla del anexo C, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF 15 Fuente: Revista Información Financiera, SBIF, julio del 2000 y julio del 2005 16 Fuente: Revista Información Financiera, SBIF, julio del 2000 y julio del 2005

24

Figura 2.6 Comparación entre Bancos grandes y pequeños de la razón de margen de intereses / colocaciones, periodo 2000-200517

El nivel consistentemente inferior de los márgenes de intereses de los Bancos

pequeños hace pensar que éstos no son capaces de competir sino ofreciendo tasas

inferiores. Ello es estratégicamente preocupante para los Bancos pequeños por dos

motivos:

1.- Claramente los Bancos pequeños no pueden competir por precio (margen de

intereses) con los Bancos grandes, que disponen de mayores economías de escala.

2.- Los Bancos grandes muestran una tendencia creciente a disminuir sus márgenes de

intereses, acercándose a aquellos de los Bancos pequeños, lo que puede interpretarse

como una disminución generalizada de los precios de la industria. De esa forma, la

diferenciación por precio de los Bancos pequeños es algo que está en vías de

desaparecer.

Contrastando los márgenes de intereses de los Bancos pequeños y medianos es

posible observar las mismas tendencias anteriores, como se ilustra en la figura 2.7:

17 Fuente: tabla del anexo D, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF

25

Figura 2.7 Comparación entre Bancos medianos y pequeños de la razón de margen de intereses / colocaciones, periodo 2000-200518

Una clave para sobrevivir pueden darla el BankBoston y el Citibank, que a pesar de

tener un tamaño reducido cuentan con márgenes de intereses muy por sobre aquellos

que presentan el resto de los Bancos pequeños. Los altos márgenes de intereses de los

dos Bancos antes mencionados pueden explicarse por su orientación a un segmento de

clientes preferenciales que están dispuestos a pagar un precio mayor al de mercado por

recibir un servicio diferenciado. De ahí surge un argumento presente en las hipótesis de

trabajo sobre las que se basa esta investigación: los Bancos pequeños para poder

competir se ven enfrentados a dos posibilidades, una de las cuales calza con lo que

han logrado el BankBoston y el Citibank, y que consiste en focalizarse en un nicho de

mercado específico donde es posible alcanzar márgenes de intereses (precios) por

sobre los de un mercado competitivo. La otra posibilidad para competir es bastante

obvia y consiste en crecer y alcanzar por esa vía mayores economías de escala.

La siguiente figura permite contrastar los márgenes de intereses del Citibank y del

BankBoston con los del resto de los bancos pequeños:


26

Figura 2.8 Comparación del margen de intereses sobre colocaciones entre Bancos de clientes preferenciales y Bancos pequeños, periodo 2000-200519

Las economías de escala parecen afectar no sólo gastos operacionales y márgenes de

intereses, sino que también las rentabilidades de las instituciones. En efecto, los

grandes Bancos, a excepción del Banco del Estado, obtienen permanentemente en el

tiempo rentabilidades sobre capital y reservas muy superiores a aquellas que consiguen

los Bancos pequeños. El caso del Banco del Estado, sin embargo, es enteramente

explicable por su rol social, por lo que sus resultados no invalidan la observación antes

realizada. En efecto, la baja rentabilidad del BancoEstado puede explicarse debido a

una masiva participación en el negocio hipotecario para la vivienda social, y en una

enorme cartera de clientes de bajos ingresos, entre otras características.

Si se compara la rentabilidad sobre capital y reservas de los Bancos grandes y

pequeños, por un lado, y de los Bancos medianos y pequeños, por otro, es posible

observar un patrón similar que refuerza la convicción de que existen fuertes economías

de escala en el negocio. Los siguientes gráficos comparan las rentabilidades sobre

capital y reservas de los Bancos pequeños con las de los Bancos grandes y medianos.


27

Figura 2.9 Comparación de la rentabilidad sobre patrimonio de Bancos grandes y pequeños, periodo 2000-200520

Figura 2.10 Comparación de la rentabilidad sobre patrimonio de Bancos medianos y pequeños, periodo 2000-200521

20 Fuente: tabla del anexo E, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF 21 Fuente: idem. a la anterior

28

Por otro lado, es preciso notar que el sistema financiero chileno como un todo ha

crecido durante el periodo 2000-2004, y ello tanto en los productos hipotecarios, como

en las colocaciones para empresas o de consumo, como lo muestra la siguiente figura:

Figura 2.11 Evolución de las colocaciones totales del sistema financiero chileno, desglosadas por tipo, periodo 2000-200422

No obstante, dicho crecimiento no ha sido homogéneo. No es posible verificar, sin

embargo, que los Bancos grandes crecieran más que los pequeños debido al

aprovechamiento de sus fuertes economías de escala, por cuanto su crecimiento fue

impactado por las grandes fusiones entre el Banco Edwards y el Chile, por un lado, y el

Banco Santander y el Santiago, por otro. A pesar de ello, es posible deducir tal

aprovechamiento de las economías de escala al comparar los Bancos medianos con los

pequeños, puesto que el crecimiento de los medianos fue mayor durante el periodo

1999-2004. En efecto, exceptuando el Security, todos los demás Bancos pequeños

mostraron un comportamiento errático en el crecimiento de sus colocaciones, frente a 22 Fuente: tabla del anexo G, la cual contiene datos extraídos del volumen de Febrero del 2005 de la revista Información Financiera de la SBIF

29

un avance sostenido de los Bancos medianos que finalizó el periodo 1999-2005 con

tasas por sobre el 10% anual. El crecimiento, por lo tanto, también muestra evidencias

de la existencia de fuertes economías de escala. La figura 2.12 permite constatar este

hecho:

Figura 2.12 Comparación del crecimiento anual de colocaciones de los Bancos medianos y pequeños, periodo 2000-200523

Es posible observar el vínculo que existe entre tamaño y crecimiento utilizando una

matriz del Boston Consulting Group, en la cual los Bancos se clasifican en cuatro

grupos de acuerdo a su participación de mercado y a su porcentaje de crecimiento.

Todos los Bancos grandes pueden clasificarse como “vacas lecheras”, por cuanto

presentan una alta participación de mercado, superior al 6%, y un bajo crecimiento,

inferior al 15% anual. La totalidad de los Bancos medianos, en tanto, pueden

clasificarse como “estrellas”, con un crecimiento por sobre el 15% y un porcentaje de

participación sobre el total de las colocaciones superior al 6%. Los Bancos pequeños,

por su parte, pueden ser divididos en dos grupos: los poco atractivos (BICE, Citibank y

Scotiabank), con tasas de crecimiento inferiores al 15% al año; y las incógnitas 23 Fuente: tabla del anexo F, la cual contiene datos extraídos de los volúmenes de Julio de los años 1999 al 2005 de la revista Información Financiera de la SBIF

30

(Security, BankBoston y Bco. del Desarrollo), con tasas de crecimiento sobre el 15%. El

siguiente gráfico ilustra la matriz:

Figura 2.13 Matriz de crecimiento-participación de las colocaciones de los distintos Bancos en Chile, Julio 2004-Julio 200524

Hasta el momento se había podido constatar que los Bancos pequeños eran

consistentemente menos atractivos que los Bancos medianos o grandes, no obstante

ha surgido una nueva distinción entre los Bancos pequeños: las incógnitas y los poco

atractivos. Para poder explicar las diferencias en el desempeño entre estos dos grupos

de Bancos es preciso notar que estas instituciones no sólo difieren por su tamaño, sino

que también por sus orientaciones a distintos tipos de negocios, mercados y productos.

Dichas orientaciones juegan un papel fundamental en las diferencias de crecimiento y

de rentabilidad observadas entre los Bancos pequeños.

Algunos Bancos están orientados preferentemente a las pequeñas y medianas

empresas, otros, a las colocaciones de consumo para personas, y aun otros a los

créditos hipotecarios para la vivienda. Dichas diferencias de orientación se traducen

24 Fuente: tabla del anexo A, la cual contiene datos extraídos de los volúmenes de Julio de los años 2004 y 2005 de la revista Información Financiera de la SBIF

31

directamente en diferencias en ingresos, por cuanto cada negocio opera con tasas de

interés muy distintas. Por otro lado, para la mayoría de los Bancos nacionales el

margen de intereses contribuye al resultado operacional bruto en más de un 70%25.

El siguiente gráfico ilustra como las tasas de interés de las colocaciones de consumo

para personas naturales (tarjetas de crédito, líneas de crédito y créditos de consumo)

superan en mucho a las tasas hipotecarias y a las tasas de los créditos comerciales.

Figura 2.14 Tasas de créditos de consumo, hipotecarios y comerciales, periodo 2002-200526

Es por esta razón que las colocaciones de consumo, que representan menos del 25%

del total de las colocaciones del sistema financiero27, contribuyen a los ingresos

bancarios en un porcentaje mucho mayor.

Es posible clasificar también a los Bancos de acuerdo a los porcentajes de los ingresos

operacionales que son generados por intereses, por comisiones o por otros ingresos

operacionales. El siguiente diagrama ilustra esa clasificación, pudiendo observarse

como los Bancos que muestran los mayores ingresos porcentuales por concepto de

intereses son aquellos con orientación a clientes preferenciales (vale decir el

25 Fuente: Revista Información Financiera, SBIF, Julio 2005 26 Fuente: tabla del anexo H, la cual contiene datos extraídos de los volúmenes del 2005 del Informe de las Tasas de los Principales Productos de Consumo de la SBIF y del Informe de Mutuos Hipotecarios Endosables de la SBIF 27 Fuente: Revista Información Financiera, SBIF, Julio 2005

32

BankBoston y el Citibank). Por otro lado, los Bancos más orientados a los créditos

hipotecarios, vale decir el BBVA y el BancoEstado, son aquellos con menores

contribuciones de los intereses al resultado operacional.

Figura 2.15 Composición del margen operacional bruto de los distintos Bancos, Julio 200528

En la figura 2.16 dada más adelante se grafican los porcentajes que representan los

diversos tipos de crédito sobre el total de colocaciones de cada Banco. Los Bancos

pueden clasificarse en cuatro grupos en base a dicha figura: A, B, C y D. Las

instituciones del grupo A, que no son otras que los Bancos de las casas comerciales, se

orientan preferentemente a las colocaciones de consumo. El grupo B, en tanto, aglutina

fundamentalmente a los Bancos grandes y medianos, y en él las colocaciones de

consumo representan menos del 25% del total, al tiempo que las colocaciones para

empresas se ubican entre el 50% y el 70%. El grupo C incluye a pequeños Bancos 28 Fuente: tabla del anexo I, la cual contiene datos extraídos del volumen de Julio del 2005 de la revista Información Financiera de la SBIF

33

orientados a las colocaciones de consumo, que superan el 25% del total. El grupo D

incluye a la mayoría de los Bancos pequeños, los cuales se enfocan fundamentalmente

en ofrecer créditos a las empresas.

Figura 2.16 Porcentaje de los distintos tipos de créditos sobre el total de colocaciones de cada Banco, Febrero 200529

Cabe notar que los Bancos del grupo C calzan casi perfectamente con los Bancos poco

atractivos de la matriz de crecimiento/participación. Ello debiera ser particularmente

preocupante, puesto que los Bancos de las casas comerciales son especialistas en

créditos de consumo, y su importancia y participación en el negocio se incrementa día a

día. Ante tal escenario el futuro para los Bancos del grupo C se augura poco

auspicioso, a menos que se enfoquen en nichos de mercado específicos, como lo ha

hecho el Citibank.

29 Fuente: tabla del anexo J, la cual contiene datos extraídos del volumen de febrero del 2005 del Informe de Colocaciones por Actividad Económica de la SBIF, y del volumen del 2005 del Informe de Mutuos Hipotecarios Endosables de la SBIF

34

Como la siguiente figura lo consigna, la orientación de ciertos Bancos los hace aparecer

entre los Bancos medianos en el ranking de colocaciones de consumo, a pesar de

tratarse sólo de Bancos pequeños en términos de colocaciones totales. Tal es el caso

del Scotiabank y del Citibank. Resulta notoria también la presencia en el ranking de los

Bancos de las casas comerciales, que ya superan a muchos Bancos pequeños en

cuanto a colocaciones de consumo. Claramente se avecinan días difíciles para los

Bancos del grupo C que no consigan diferenciarse, producto de una previsible dura

competencia por parte de los Bancos de las casas comerciales.

Figura 2.17 Ranking de Bancos por colocaciones de consumo, Febrero 200530

Las diferencias entre los Bancos grandes y pequeños muestran que el negocio bancario

está dominado por fuertes economías de escala. Ante dicho escenario resulta

30 Fuente: volumen de febrero del 2005 del Informe de Colocaciones por Actividad Económica de la SBIF

35

imprescindible para los Bancos pequeños crecer o enfocarse en nichos de mercado

susceptibles de ser atacados con servicios diferenciados.

2.4 La tecnología

Frente a la dura competencia los Bancos nacionales están invirtiendo millones de

dólares en sistemas computacionales capaces de identificar las necesidades de los

clientes y elaborar lo que se conoce como “segmentación inteligente”. El objetivo de la

segmentación inteligente no es el de entregar más productos y servicios, sino que de

entregar lo que necesita cada cliente.

El Banco de Chile ha invertido US$ 50 millones en el proyecto Plan Neos, plataforma

tecnológica que compatibilizará mayores ritmos de crecimiento con mejor calidad de

servicio, además de mayor rapidez para crear productos nuevos y disminuciones en los

costos. La segmentación inteligente permitirá aumentar la productividad para enfrentar

la caída de los márgenes de intereses en la industria. Los Bancos BBVA y Santander ya

cambiaron sus plataformas tecnológicas para entrar a la “smart customization”, mientras

que el Security y el Citibank están trabajando en ello. Prácticamente ningún banco

chileno sigue segmentando a sus clientes bajo el criterio de renta y promedio de

operaciones sin atender a las reales necesidades financieras de las personas.

Existen disponibles en el mercado herramientas de datamining ofrecidas por grandes

proveedores de software, como son el IBM DB2 Intelligent Miner, el Oracle Data Mining,

y el Computer Associates CleverPath Predictive Analysis Server 3.0. No obstante, las

herramientas líderes de datamining son el Enterprise Miner 5.1 de SASS y Clementine

8.5 de SPSS31 . En el presente estudio se ilustra cómo es posible construir modelos de

datamining utilizando Clementine.

2.5 Enfoques de las campañas bancarias

La alta competencia entre los bancos nacionales los ha impulsado a implementar CRMs

analíticos capaces de orientar las campañas de consumo en forma altamente

sofisticada hacia las necesidades de los clientes. Al mismo tiempo, sistemas de

información conectados a datawarehouses han hecho posible determinar hasta qué

punto pueden extenderse en forma rentable las condiciones de las ofertas. Ello ha dado 31 Fuente: Data Mining Tools, METAspectrum Market Summary, META Group, September 2004, www.metagroup.com

36

lugar a campañas bancarias concebidas como una herramienta estratégica clave, y

puede hablarse con propiedad de que en su diseño existe una orientación o un enfoque

“estratégico”. No obstante, dicho enfoque convive con otros que poseen Bancos

carentes de foco y liderazgo, instituciones abocadas principalmente a cumplir los

compromisos del día a día. Los enfoques asociados a tales instituciones pueden

denominarse “operacionales”.

La entrada al mercado bancario de las multitiendas, con la consiguiente masificación de

los servicios bancarios hacia el segmento socio-económico C3 ha transformado el

negocio financiero en una actividad donde las economías de escala son claves para

establecer una ventaja competitiva sostenible en el tiempo. A pesar de lo antes

mencionado, junto a los grandes Bancos conviven en la industria nacional instituciones

que poseen una pequeña participación de mercado, y que por su tamaño no pueden

competir en el negocio masivo. Como se ha mencionado al final de la sección 2.3, es

imprescindible para dichos Bancos crecer o escoger un nicho de mercado particular. No

obstante, y paradójicamente, el tamaño de tales instituciones no justifica una inversión

en un datawarehouse, ni en costosos CRMs analíticos. Como resultado, el Área

Comercial de tales empresas al intentar focalizarse no se ve apoyada por sistemas

informáticos, y ante la presión por cumplir metas debe renunciar por completo a cumplir

dicho objetivo. Adicionalmente, un tamaño limitado en el negocio bancario obliga a

reducir los costos al máximo, destinando los recursos preferentemente a las actividades

esenciales en el corto plazo, vale decir, las actividades operacionales de otorgamiento

de crédito. Es así como surge en los bancos pequeños el peligro de abordar su gestión

con un enfoque más operacional que estratégico.

A continuación se dan mayores detalles sobre ambos enfoques u orientaciones, el

estratégico y el operacional:

2.5.1 Orientación operacional

El enfoque operacional juega en contra de la definición e implementación de una

estrategia comercial focalizada, en la medida que hace que la organización se estanque

en la resolución de operaciones del día a día y en la discusión de pequeños temas que

consumen todo su tiempo. Por otro lado, un esquema de comunicación con un enfoque

operacional está diseñado para evitar fraudes, por lo que establece un gran número de

37

niveles jerárquicos, cada uno con atribuciones de otorgamiento de montos de crédito

mayores. Bajo tal esquema la comunicación entre personas de diferentes niveles

jerárquicos es difícil o inexistente. Dicha forma de trabajar, ideal para controlar el

préstamo de dinero, dificulta la comunicación entre áreas y la innovación,

imprescindibles para implementar campañas eficaces.

Es posible que un Banco pequeño caiga en la trampa de realizar sus campañas con un

enfoque operacional, en cuyo caso el Área Comercial y el Área de Riesgo de Crédito

realizarán su labor descoordinadamente. Es probable que el Área Comercial defina su

propio plan para orientar las campañas, sin tener presente consideraciones de riesgo. A

su vez, es también probable que el Área de Riesgo de Crédito defina criterios de riesgo

aceptables, pero sin mezclarlos con los criterios del Área Comercial.

Bajo un enfoque operacional es probable que las campañas operen de una forma

descrita por los siguientes puntos:

1.- El Área Comercial define parámetros comerciales para cada uno de los productos

(como la edad de los clientes que serán considerados, los montos mínimos y máximos

de las ofertas, el segmento socioeconómico y en general el perfil de los cliente-objetivo

desde un punto de vista comercial).

2.- Luego de definidos dichos parámetros, el Área Comercial solicita al Área de Riesgo

de Crédito la generación de una base de campañas con montos preaprobados.

3.- La labor del Área de Riesgo de Crédito es la de aplicar filtros sobre los clientes

potenciales de manera de descartar aquellos que no cumplen con ciertas políticas de

riesgo (tales como edad mayor a 70 años; poseer deuda morosa, vencida o castigada

en el registro de deudas de la SBIF; poseer cheques u otros documentos protestados

en el Boletín de Informes Comerciales; poseer un ingreso inferior a un valor

determinado; tener un Dicom score inferior a un mínimo; tener índices de

endeudamiento hipotecario y no hipotecario acordes con los límites máximos definidos,

etc.).

4.- El Área de Riesgo de Crédito calcula para cada cliente el monto que es posible

ofrecer en conformidad a las políticas de crédito. En dicho cálculo en ningún momento

se considera la pérdida esperada asociada al préstamo ofrecido a cada cliente, por

38

cuanto bajo un esquema operacional no existen formas de calcular la probabilidad de

pérdida de los préstamos dirigidos a cada cliente individual.

Como resultado de los cuatro puntos anteriores, y de la descoordinación existente entre

el Área Comercial y el Área de Riesgo de Crédito, las campañas bancarias se

realizarían sin segmentar a los clientes por criterios de riesgo y rentabilidad potencial.

Así, se entregaría una oferta estándar a todos los clientes que cumpliesen con los

criterios de riesgo definidos por el Área de Riesgo de Crédito.

Se ha mencionado que un Banco que realiza sus campañas con un enfoque

operacional no dispone de formas de estimar la probabilidad de pérdida de los

préstamos asociados a cada cliente. Ello obedece a que normalmente los Bancos

utilizan las provisiones para estimar dichas probabilidades. No obstante, las provisiones

se calculan a partir de las pérdidas esperadas de grupos en verdad muy grandes de

clientes, y en consecuencia constituyen malas estimaciones de las probabilidades de

pérdida vinculadas a cada cliente individual. De esa forma, un Banco que realiza sus

campañas con un enfoque operacional no puede calcular apropiadamente la pérdida

total esperada de una campaña, y en consecuencia tampoco puede calcular el nivel de

riesgo que asume al realizar una. Sin disponer de una forma de medir en forma certera

el nivel de riesgo de una campaña, malamente un Banco podrá aumentar los montos

ofrecidos a sus clientes sujeto todo ello a la satisfacción de un cierto nivel de riesgo.

Un enfoque operacional constituye una forma pensar, de enfrentar los problemas y de

tomar decisiones, y surge como consecuencia de años de experiencia en el manejo de

operaciones que deben ser resueltas en cuestión de minutos. Dicho enfoque ofrece una

visión bastante limitada de los problemas, al intentar encontrar soluciones inmediatas,

sin asignar tiempo a descubrir y resolver las causas de fondo.

Bajo un enfoque operacional existe una división del trabajo en la cual hay quienes

toman las decisiones y definen la estrategia, y quienes son simples entes ejecutores de

dichas decisiones y estrategias. En tal escenario un profesional que trate de realizar

datamining puede verse del todo incapacitado, si no se le hace partícipe de las

decisiones, ni de los motivos de dichas decisiones. La siguiente figura muestra como un

esquema de comunicación operacional, ideal para controlar el préstamo de dinero, se

vuelve inapropiado en un proyecto de datamining, al impedir a un profesional que

39

intenta desarrollar minería de datos el acceder a la información necesaria para dicha

labor:

Figura 2.18 Enfoque operacional de comunicación en un proyecto de datamining32

La labor comercial y de marketing es intrínsecamente no operacional, puesto que exige

conocer las necesidades de los clientes, pronosticar su comportamiento futuro y

detectar oportunidades de negocios a partir de señales. Todo ese conocimiento, valioso

en extremo, es difícil de ser transmitido de otra forma que mediante la interacción cara a

cara del profesional que trata de realizar datamining con los profesionales del Área

Comercial. No obstante, el esquema de comunicación del enfoque operacional impide

dicha interacción.

Al vivir en un ambiente de rápidos cambios tecnológicos la forma de resolver problemas

no necesariamente debe ser la misma que en el pasado. No obstante, la costumbre

adquirida a lo largo de años de tratar temas operacionales de una determinada forma


40

constituye una fuente importante de inercia. Es posible incluso argumentar que las

cosas deben hacerse de un modo particular porque la experiencia dice que deben

hacerse así, sin atender a mayor razonamiento ni análisis. El enfoque operacional

conduce a una cierta forma de arrogancia en materias de conocimiento. En efecto, al no

ser capaz de ver más allá de los problemas inmediatos, las causas inmediatas y las

soluciones inmediatas, existe la tendencia a creer que todo lo que se ve es todo lo que

es necesario saber. Dicha creencia de “saberlo todo” constituye una enorme barrera al

aprendizaje, a la innovación y al espíritu crítico, aptitudes que son todas fundamentales

para poder mejorar cualquier proceso de negocios.

El enfoque operacional nace del trabajo con procedimientos definidos, con estándares

de respuesta claros, como en una cadena de ensamblaje donde cada operario sabe

bien qué debe hacer y le corresponde hacer exactamente eso, ni un ápice más ni un

ápice menos. El enfoque operacional no se ajusta bien a procesos que viven una etapa

de grandes cambios, donde los estándares del pasado ya no son válidos, o dónde los

pasos a seguir no están claros y deben ser redefinidos.

Efectos anexos del enfoque operacional son el concentrar un número excesivo de

funciones en unas pocas personas, al crear incentivos para que algunos acumulen

conocimiento clave del negocio sin compartirlo con otros, y sin que nadie pueda

ejecutar dichas funciones salvo ellos.

El enfoque operacional, ideal para evitar fraudes y para controlar el riesgo de los

préstamos de dinero, puede impedir la realización de datamining y con ello puede

dificultar a un Banco crecer y realizar buenos negocios.

2.5.2 Orientación estratégica Bajo un enfoque estratégico debiera ser posible dirigir ofertas distintas a diferentes

segmentos de riesgo y rentabilidad potencial. Con una orientación estratégica también

debiera observarse coordinación y comunicación fluida entre el Área Comercial y el

Área de Riesgo de Crédito, por lo que ambas áreas debieran trabajar unidas en la

definición conjunta de una segmentación de los clientes en base a criterios de riesgo y

rentabilidad. Para implementar dicha segmentación sería necesario contar con formas

de estimar el nivel de riesgo de los clientes y su rentabilidad potencial. Dichas

estimaciones claramente no debieran basarse en definiciones arbitrarias de puntajes,

41

sino que en probabilidades de que los clientes se transformaran en el futuro en malos

en términos crediticios, o en personas sin gran rentabilidad potencial. Una

segmentación semejante utilizaría el conocimiento que el Banco posee sobre las

características de sus clientes en mejor forma que el enfoque operacional.

42

3 OBJETIVOS DE LA INVESTIGACIÓN

El objetivo principal de la investigación es dar un ejemplo de cómo mediante

herramientas de datamining puede elaborarse un plan para enfocar las campañas en un

Banco pequeño que carece de un datawarehouse, de manera de permitir a la institución

segmentar a sus clientes y crecer.

Se pretende mostrar como a partir de bases de datos operacionales de un Banco es

posible construir modelos predictivos del comportamiento de riesgo de los clientes y de

su rentabilidad potencial, y cómo dichos modelos pueden calcular puntajes de riesgo y

de rentabilidad para los distintos clientes. Se desea mostrar cómo es posible a partir de

dichos puntajes clasificar a los clientes en distintos segmentos de riesgo y rentabilidad y

cómo es posible enfocar las campañas bancarias dirigiendo ofertas diferenciadas a

cada uno de aquellos segmentos. Del mismo modo, se desea ilustrar como mediante

los modelos predictivos antes mencionados un Banco puede crecer satisfaciendo un

nivel mínimo de riesgo.

Por lo tanto, objetivos secundarios de la investigación son los siguientes:

Objetivo s1: Mostrar como a partir de bases de datos operacionales de un Banco es

posible construir un modelo predictivo del riesgo crediticio de sus clientes, el cual debe

calcular un puntaje de riesgo para cada individuo.

Objetivo s2: Mostrar como a partir de bases de datos operacionales de un Banco es

posible construir un modelo predictivo de la rentabilidad potencial de sus clientes, el

cual debe calcular un puntaje de rentabilidad para cada individuo.

Objetivo s3: Mostrar cómo es posible clasificar a los clientes en distintos segmentos de

riesgo y rentabilidad potencial, y cómo es posible dirigir una oferta diferenciada para

cada uno de esos segmentos.

Objetivo s4: Mostrar cómo un Banco puede crecer satisfaciendo un nivel mínimo de

riesgo, utilizando para ello puntajes calculados por modelos predictivos de riesgo de

crédito y de rentabilidad potencial de los clientes.

El objetivo del presente trabajo no consiste en elaborar modelos predictivos específicos

de la rentabilidad de los clientes ni de su desempeño crediticio. El objetivo, en cambio,

se centra en la descripción genérica de cómo es posible elaborar un plan para que un

43

Banco pequeño construya e implemente modelos de datamining que le ayuden a

enfocarse en nichos de mercado. Por ello, las indicaciones que se entregan son

genéricas, puramente conceptuales, no están dirigidas a ningún Banco específico y no

se basan en ningún conjunto de datos de ningún grupo de personas.

44

4 DEFINICIONES PREVIAS

Dado que el tema de esta tesis gira en torno a la utilización de datamining en las

campañas bancarias y a un plan para construir modelos, es preciso primero que nada

dar una definición de los términos datamining y modelo.

4.1 El término “datamining” o “minería de datos”

A continuación se entregan algunas definiciones tomadas de la literatura:

“Data Mining – (1) The process of utilizing the results of data exploration to adjust or

enhance business strategies. It builds on the patterns, trends, and exceptions found

through data exploration to support the business. It is also known as data harvesting. (2)

A technique using software tools geared for the user who typically does not know

exactly what he’s searching for, but is looking for particular patterns or trends. Data

mining is the process of sifting through large amounts of data to produce data content

relationships. This is also known as data surfing”33.

“Data Mining, as we use the term, is the exploration and analysis, by automatic or

semiautomatic means, of large quantities of data in order to discover meaningful

patterns and rules”34.

“Using advanced techniques in mathematics and artificial intelligence, data mining

uncovers complex patterns or models in data. Those models are then used to help solve

business problems that come up in direct marketing, credit-risk evaluation, fraud

detection and other areas”35.

“Data mining uses sophisticated statistical analysis and modeling techniques to uncover

patterns and relationships hidden in organizational databases – patterns that ordinary

methods might miss”36.

33 Fuente: Data Warehousing Technology Glossary, Applied Technology Group, 1997 34 Fuente: BERRY, M. J. A., LINOFF, G., Data Mining Techniques for Marketing, Sales, and Customer Support, John Wiley & Sons, Inc., 1997 35 Fuente: WILSON, L., Canadian Bank Mines for Gold, Computerworld, 1997 36 Fuente: Introduction to Data Mining and Knowledge Discovery, Two Cross Corporation, 1998

45

“Data Mining [is] the process of efficient discovery of nonobvious valuable information

from a large collection of data”37.

El común denominador en todas las definiciones es el descubrimiento de relaciones

útiles en grandes conjuntos de datos. La definición del concepto de datamining que se

utilizará en este documento es la de un conjunto de técnicas aplicadas al proceso de

extracción y presentación de conocimiento que yace implícito en grandes conjuntos de

datos, que es desconocido y útil en términos de negocios, y que permite predecir en

forma automatizada el comportamiento de los clientes.

En una de las referencias se ha utilizado el término “modelo” en el sentido de un

complejo patrón de relaciones presentes en los datos, al tiempo que se ha mencionado

que el propósito del datamining sería descubrir tales patrones. En otra definición se ha

mencionado que para descubrir dichos patrones se utilizan “técnicas de modelamiento”.

A continuación se entregarán definiciones de los mencionados conceptos de “modelo” y

de “técnicas de modelamiento”.

4.2 El término “modelo”

Se entiende por modelo de datamining, o simplemente por modelo, a un algoritmo

construido a partir de una muestra de datos y que permite realizar estimaciones o

predicciones sobre otros datos, distintos de aquellos de la muestra antes mencionada,

pero similares. Un modelo, como todo algoritmo, puede por lo tanto ser implementado

mediante un sistema informático o un programa computacional. No obstante, un modelo

puede también ser visto como una función matemática que describe la relación entre un

conjunto de campos o variables presentes en los datos. Las estimaciones o

predicciones sobre otros datos son obtenidas mediante la mencionada función. Sin

embargo, dado que una función matemática no siempre puede ser expresada en forma

explícita, es más apropiado concebir a un modelo como el algoritmo que permite

calcular dicha función. Mediante dicho algoritmo un modelo permite representar

cualquier complejo patrón de relaciones presentes en los datos. En el presente informe

los modelos tendrán por propósito predecir si un cliente bueno se transformará en malo

en un horizonte determinado de tiempo, y si un cliente en el futuro se transformará en

alguien con sin rentabilidad potencial o no. 37 Fuente: BERSON, A., SMITH S. J., Data Warehousing, Data Mining, and OLAP, McGraw-Hill, 1997

46

4.3 Definición del concepto de técnica de modelamiento

Se entiende por técnica de modelamiento a una forma particular de especificar un

modelo, incluyendo el conjunto de supuestos asociados a dicha forma de

especificación. Así, algunas técnicas de modelamiento corresponden a una ecuación

matemática entre un conjunto de variables, más un conjunto de supuestos sobre dichas

variables. Tal es el caso de técnicas de modelamiento como la regresión lineal y la

regresión logística. Otras técnicas de modelamiento, en cambio, corresponden más bien

a algoritmos que calculan un resultado a partir de los valores de un conjunto de

variables. Tal es el caso de técnicas de modelamiento como las redes neuronales y los

árboles de decisión. Las redes neuronales obtienen dicho resultado a partir de

funciones no lineales, ya sea escalonadas o sigmoidales, aplicadas sobre los valores de

las variables. Los árboles de decisión obtienen el resultado mediante funciones lógicas

del tipo “if … then … else”.

Clementine permite construir modelos con una amplia gama de técnicas de

modelamiento, incluyendo las mencionadas. La sección 10.1 describe las tres técnicas

de modelamiento que más se ajustan al problema de enfocar las campañas bancarias

(regresión logística, redes neuronales y árboles de decisión).

4.4 Definición del concepto de proyecto de datamining

Un proyecto de datamining corresponde al conjunto de actividades concretas que se

realizan por parte de una institución determinada con el fin de elaborar modelos que

pretenden descubrir patrones en un conjunto de datos específicos. Un proyecto de

datamining para enfocar las campañas bancarias, por lo tanto, debe ser llevado a cabo

por un Banco, debe realizarse sobre el conjunto de datos específicos de los clientes de

ese Banco, y debe constar de actividades que efectivamente tengan lugar dentro de las

labores de dicho Banco. Un proyecto de datamining, por lo tanto, es algo real, tangible

en términos de plazos incurridos, costos en dinero involucrados, recursos

computacionales específicos utilizados y personas que han participado o participan en

él. A diferencia de un plan de datamining, un proyecto de datamining no es una simple

elaboración conceptual, puesto que se refiere a algo que ha ocurrido, o que tiene lugar

efectivamente en la historia cotidiana de una empresa.

47

4.5 Definición del concepto de plan de datamining

En contraposición al concepto dado previamente, un plan de datamining es un conjunto

de actividades conceptuales diseñadas para guiar un proyecto de datamining. Si bien

un plan de datamining debe contemplar plazos, presupuesto y personas asignadas,

dichos elementos no corresponden a algo que tiene o ha tenido lugar, sino que

simplemente son estimaciones de lo que debiera ocurrir en un proyecto de datamining.

Mientras un proyecto de datamining tiene vida en la historia real, cotidiana de una

empresa, un plan de datamining no existe más que en el papel.

El presente documento describe cómo construir un plan de datamining para enfocar las

campañas de un Banco en los productos de créditos de consumo, tarjetas y líneas de

crédito. Las indicaciones de este documento pueden traducirse en un plan de

datamining concreto para un Banco específico, no obstante para ello es preciso definir

plazos, presupuesto, personas y recursos a utilizar. La implementación de dicho plan

puede a su vez traducirse en un proyecto de datamining, mediante la ejecución de cada

una de las actividades establecidas en el plan.

48

5 HIPÓTESIS DE TRABAJO

Como se ha mencionado en el capítulo que versa sobre los objetivos de esta

investigación, el presente documento elabora un plan de datamining que no está

dirigido a ningún Banco específico y que, por lo tanto, no se basa en ningún conjunto de

datos de ningún grupo de personas. En ausencia de datos específicos sobre los cuales

basarse, el presente trabajo se fundamenta en un conjunto de supuestos, los cuales se

detallan en este capítulo. Es preciso considerar, por ende, que las conclusiones de esta

investigación serán válidas sólo en la medida que se cumplan dichos supuestos.

5.1 Supuestos sobre disponibilidad de información

El plan de datamining planteado supone que el Banco no posee un datawarehouse y no

puede por lo tanto disponer de información histórica masiva sobre sus clientes que se

remonte a varios años. De esa forma los modelos de datamining sólo pueden

alimentarse de bases de datos operacionales y de sus respaldos en cintas. Es por ello

que la principal hipótesis de trabajo que se emplea en la presente investigación consiste

en dar por hecho el que existe un conjunto de bases operacionales que cualquier Banco

debe poseer y que proveen de información necesaria y suficiente para realizar los

estudios de datamining planteados. El capítulo 8 describe la información que contienen

dichas bases operacionales, a las cual se denomina “fuentes de datos” y que

corresponden a las siguientes: “Informe de la SBIF”, “Informe D01 enviado a la SBIF”,

“Saldos el día de envío del D01”, “Productos”, “Saldos actuales”, “Rentas de clientes”,

“Características demográficas”, “Factores estimados de carga” y finalmente “Ingresos

contables por cliente”. Todos esas bases de datos proveen de información actualizada

sobre las operaciones y los clientes del Banco, a excepción de la fuente de datos

“Saldos el día de envío del D01”, la cual corresponde a una foto de las bases de datos

operacionales el día de envío del informe D01 a la SBIF hace dos meses.

A parte de la información provista por todas las bases operacionales antes

mencionadas, y que contiene todas las variables necesarias para predecir en el

momento el comportamiento de riesgo y de rentabilidad futuros de los clientes, es

preciso también poseer la misma información pero de un periodo de un año atrás. Ello

es necesario no con el fin de utilizar los modelos predictivos, sino que con el fin de

elaborarlos. A tal respecto, una hipótesis de trabajo consiste en dar por hecho el que es

49

posible rescatar los respaldos de cintas con la información de un año atrás de todas las

fuentes de datos.

Los supuestos sobre disponibilidad de información son utilizados en el capítulo 9, al

momento de describir la obtención del conjunto de datos necesario para construir

modelos de datamining de riesgo y rentabilidad (output 3z.1). Dichos supuestos son

utilizados también en el capítulo 10, al derivar la especificación de los modelos

propuestos y comentar el conjunto de variables empleadas en ellos (output 4c.3).

5.2 Supuestos tecnológicos

No se realizan supuestos con respecto a los proveedores de las bases de datos

operacionales, puesto que la herramienta de datamining usada en esta investigación

(Clementine) se ajusta por igual a una amplia gama de bases de datos (Sybase, Oracle,

DB2, SQL Server, Access, Fox Pro, bases de texto, bases de datos en COBOL, etc.),

las cuales pueden residir en una amplia variedad de plataformas (Windows NT, Unix,

Linux, AS400, etc.).

Un supuesto importante, en cambio, se realiza con respecto a la disponibilidad de

Clementine en la Institución financiera, lo cual significa un costo de unos US$ 75.000

por licencia.

5.3 Supuestos sobre el marco regulatorio

Se supone que existe un conjunto mínimo de bases de datos que cualquier banco debe

forzosamente poseer y cuya utilización no viola el secreto bancario y está en

conformidad con las leyes y reglamentos que rigen a la Banca. Muy en particular se

supone que la base de datos con las deudas consolidadas de 4.500.000 de chilenos

que elabora mensualmente la SBIF puede ser usada por los Bancos sin necesidad de

pedir la autorización a ninguna persona (dicha base de datos corresponde a la fuente

de datos denominada “Informe de la SBIF”, descrita en el capítulo 8).

Se supone que no existe una legislación antidiscriminación que rija el otorgamiento de

crédito, y que impida basar la toma de decisiones en características de los clientes tales

como el sexo, la edad, la profesión, la comuna de residencia, u otras. A tal respecto es

preciso señalar que la legislación americana contempla leyes antidiscriminación de ese

tipo, por lo que en los Estados Unidos los modelos predictivos de comportamiento de

50

crédito no pueden incluir características como el sexo o el grupo étnico. Se supondrá no

sólo que dicha legislación no existe en Chile, sino que tampoco existirá en el mediano

plazo.

5.4 Supuestos de negocios

En esta investigación se supondrá que un Banco pequeño en el ambiente competitivo

actual vigente en Chile tiene sólo dos alternativas para sobrevivir: enfocarse en nichos

de mercado específicos o crecer. Dicho supuesto se fundamenta, en primer término, en

el hecho de que el mercado bancario chileno es una industria con fuertes economías de

escala, como ha quedado demostrado en el capítulo 2 al comparar los márgenes de

intereses, gastos operacionales, tasas de crecimiento y rentabilidades de los Bancos

grandes, medianos y pequeños. En segundo lugar, dicho supuesto se fundamenta en la

persistente tendencia a la baja que muestran los márgenes de intereses de los Bancos

grandes y medianos, unido todo ello al hecho de que la mayoría de los Bancos

pequeños cuentan con márgenes de intereses por debajo de aquellos de sus

competidores. Ello puede ser interpretado como una disminución generalizada de

precios por parte de los Bancos grandes y medianos en un ambiente en donde la

mayoría de los Bancos pequeños compiten por precio. Claramente no es posible para

los Bancos pequeños competir por precio con instituciones que poseen mayores

economías de escala, y por lo tanto surgen dos posibilidades para ellos: adquirir

mayores economías de escala mediante crecimiento o aumentar los precios mediante

un servicio diferenciado dirigido a nichos de mercado específicos. En tercer lugar, el

supuesto de que un Banco pequeño tenga como únicas alternativas para sobrevivir el

enfocarse en nichos o crecer encuentra sustento en la observación de que las

instituciones focalizadas en clientes preferenciales puedan mantener márgenes de

intereses consistentemente por sobre los del resto de la industria (como es el caso del

Citibank y del BankBoston).

Los supuestos antes descritos son utilizados en el capítulo 7, al momento de definir los

objetivos de negocios del proyecto de datamining (output 1a.2), y que son precisamente

focalizarse en nichos de mercado y crecer sujeto a un nivel mínimo de riesgo. A la luz

de los supuestos realizados, los objetivos de negocios planteados para el proyecto

adquieren sentido estratégico y no son simplemente metas arbitrarias.

51

Por otro lado, un supuesto de negocios adicional lo constituye el que el presente

estudio se enfoque sólo en los clientes deudores del Banco en algún producto y sólo en

las personas naturales sin giro. Del mismo modo, se da por hecho que las campañas a

las cuales se aplique el plan descrito en este documento no contemplarán créditos

destinados a prepagar otras deudas. No se considerarán, en consecuencia, ofertas

para los productos denominados “créditos de reciclaje” ni “créditos grúa”, y que están

destinados respectivamente a prepagar créditos de la propia institución o de otras

instituciones. Por lo tanto, como se ha mencionado en la sección 2.2, el estudio se

concentrará sólo en los clientes con capacidad para adquirir deudas adicionales a

aquellas que ya poseen. Estos supuestos son utilizados en el capítulo 7, al momento de

definir los conceptos de cliente “malo” desde un punto de vista crediticio y de cliente “sin

gran rentabilidad potencial”. Muy en particular, el hecho de dejar fuera de las campañas

a las personas sin capacidad de adquirir nuevas deudas se usa para clasificar como

“sin rentabilidad potencial” a ese tipo de clientes.

5.5 Supuestos operacionales

Se supone que el presente plan de datamining se elabora para un Banco pequeño que

realiza sus campañas con un enfoque operacional similar al descrito en el capítulo 2. Se

supondrá que el Área Comercial y el Área de Riesgo de Crédito ejecutan su labor

descoordinadamente: definiendo la primera su propio plan para orientar las campañas,

pero sin tener presente consideraciones de riesgo, y estableciendo la segunda criterios

de riesgo aceptables, pero sin mezclarlos con aspectos comerciales. En consecuencia

se supondrá que las campañas bancarias se realizan entregando una oferta estándar a

todos los clientes que cumplen con ciertos criterios de riesgo, sin segmentar por riesgo

y rentabilidad potencial.

Se supondrá también que bajo un esquema operacional no existen modelos capaces de

calcular la probabilidad de pérdida de los préstamos dirigidos a cada cliente, o en el

mejor de los casos dicha probabilidad se estima a partir de las provisiones asignadas a

cada cartera de clientes. No obstante, dado que las provisiones se calculan a partir de

las pérdidas estimadas de grandes carteras de clientes, ellas no constituyen, por lo

tanto, una buena estimación de la probabilidad de pérdida asociada a cada cliente

individual. En consecuencia, las provisiones no permiten calcular en forma precisa la

52

probabilidad de pérdida asociada al monto total ofrecido en una campaña. En ausencia

de un modelo capaz de medir adecuadamente el nivel de riesgo de una campaña por la

vía de estimar la pérdida asociada al monto ofrecido en ésta, un Banco no podrá

aumentar los montos ofrecidos sujeto todo ello a la satisfacción de un cierto nivel de

riesgo.

En la sección 11.1 se mostrará como los supuestos operacionales antes descritos

hacen posible concluir que el plan de datamining planteado en este documento permite

efectivamente que un Banco pueda crecer. Ello se debe a que un Banco al realizar sus

campañas con un enfoque operacional limita sus posibilidades de crecimiento. Como se

verá en la misma sección 11.1, el plan de datamining planteado en este documento

permite a un Banco pequeño superar esas limitaciones.

53

6 METODOLOGÍA DE TRABAJO

Un proyecto de datamining, como todo proyecto, requiere de la aplicación de una cierta

metodología estructurada para obtener resultados exitosos. La utilización de una

metodología facilita la planificación y dirección del proyecto, permitiendo realizar un

mejor seguimiento del mismo. A continuación se describen las principales metodologías

que se pueden emplear en la elaboración del presente plan para enfocar las campañas

bancarias, mencionando sus fortalezas y debilidades, para luego detallar las razones

por las que se escogió CRISP-DM en esta investigación.

6.1 Metodologías de datamining

Las principales metodologías de planificación de proyectos de datamining son SEMMA

y CRISP-DM, y se basan en la división del proyecto de datamining en fases. Son en

cierta forma similares al modelo espiral del ciclo de vida de desarrollo de software.

6.1.1 Metodología SEMMA Es una metodología de datamining desarrollada por SAS. Su nombre corresponde a las

iniciales de sus cinco fases principales (Sample, Explore, Modify, Model, Assess), las

cuales se detallan a continuación:

Fase de muestreo: La primera fase extrae una muestra representativa de la población

que se pretende estudiar y sobre la cual se realizará el análisis. La representatividad de

la muestra es fundamental en este método, ya que de no cumplirse invalida todos los

resultados del modelo de datamining. La metodología SEMMA exige calcular el nivel de

confianza de cada muestra considerada en el estudio de datamining.

Fase de exploración de los datos: luego de escoger las muestras representativas en

esta fase se debe proceder a una exploración de la información con el propósito de

simplificar al máximo el problema. La simplificación se consigue mediante herramientas

gráficas de despliegue de los datos, y mediante técnicas estadísticas que establecen

las correlaciones entre las variables. De esa labor de simplificación se espera optimizar

la eficiencia del modelo de datamining que se construya, al incluir en él sólo las

variables que son realmente explicativas.

54

Fase de manipulación de los datos: luego de finalizada la exploración de los datos se

procede a darles el formato adecuado para poder alimentar el modelo que se desarrolle

en la fase siguiente.

Fase de modelado: esta fase se alimenta de las variables explicativas definidas y

formateadas en las fases anteriores, y persigue encontrar una relación entre dichas

variables y aquellas que se espera predecir. Mediante esa relación se espera realizar

inferencias que tengan un cierto nivel de confianza. Las técnicas utilizadas para

establecer la relación entre las variables incluyen métodos estadísticos tradicionales

tales como el análisis discriminante, métodos de agrupamiento y análisis de regresión,

como así también métodos de inteligencia artificial como las redes neuronales, las

técnicas adaptativas, la lógica difusa, los árboles de decisión o las reglas de asociación,

entre otras.

Fase de evaluación de los resultados: en esta fase se evalúa la validez de los

resultados obtenidos en la fase anterior. Para ello se utilizan tests de bondad de ajuste,

al igual que otros métodos estadísticos que contrastan los resultados obtenidos en la

muestra usada en las fases anteriores con los resultados que se obtienen luego con

otras muestras distintas.

6.1.2 Metodología CRISP-DM Esta metodología contiene un conjunto de actividades seleccionadas en base a la

experiencia de ensayo y error recogida a través de numerosos proyectos por

profesionales de DaimlerChrysler, SPSS y NCR. Dichas actividades están ordenadas

en primer lugar horizontalmente en seis fases sucesivas que recorren toda la vida del

proyecto de datamining, desde la definición de los objetivos del negocio que se

pretende obtener hasta la vigilancia y el mantenimiento del modelo que se proponga e

implemente. Cada una de esas fases se ha subdividido a su vez en tareas ordenadas

en un esquema jerárquico, desde un mayor a un menor nivel de detalle.

Las tareas generales se componen a su vez de actividades específicas, y de un

conjunto de resultados concretos. La metodología CRISP-DM constituye, por lo tanto,

un mapa de ruta que permite determinar qué actividades desarrollar en qué etapa de

manera de alcanzar los objetivos finales del proyecto. A continuación se entrega una

55

figura con las fases de esta metodología y sus correspondientes tareas, para luego

describirlas en mayor detalle.

Figura 6.1 Fases y Tareas del Modelo CRISP-DM38

Fase de comprensión del negocio: se centra en la comprensión de los objetivos del

proyecto de datamining desde un punto de vista de negocios. Esta fase es equivalente,

por lo tanto, a una fase de análisis de requerimientos de un proyecto de desarrollo de

software, y es importante, puesto que el cliente puede no tener claro qué es lo que

quiere. Las tareas a realizar en esta fase incluyen determinar los objetivos de negocios,

evaluar la situación del proyecto en términos de recursos, restricciones y suposiciones,

38 Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

56

determinar objetivos de datamining que traduzcan a criterios técnicos los objetivos de

negocios, y finalmente producir el plan del proyecto.

Fase de comprensión de los datos: comprende la recolección inicial de datos,

identificando la calidad de éstos y estableciendo las relaciones más evidentes entre

ellos. Incluye la tarea de recolección de datos iniciales, en la cual deben describirse los

datos en términos de número de registros, número de campos por registro y significado

de cada campo. Incluye también la tarea de descripción de los datos en términos de

tipo, distribución, tablas de frecuencia y estadígrafos. Tareas adicionales de esta fase

son la exploración de los datos mediante gráficos y tablas, y la verificación de la calidad

de los mismos. Los chequeos sobre la calidad de los datos deben efectuarse para

asegurar la consistencia de información proveniente de bases de datos distintas,

proporcionadas por entidades distintas y con fechas de proceso distintas.

Fase de preparación de los datos: en esta fase debe construirse una base de datos, la

cual debe contener todas las características consideradas candidatas para estimar el

valor de una variable que se espera predecir. Esta fase incluye la tarea de selección de

los datos a los que se va a aplicar la técnica de modelamiento, la tarea de limpieza de

los mismos de manera de alcanzar el nivel de calidad requerido por las técnicas de

datamining que se seleccionen, la tarea de construir datos adicionales, la tarea de

integrar diferentes bases de datos, y la tarea de formatear los datos. La fase de

preparación de los datos debe entregar datos que estén en un formato adecuado para

la técnica de modelamiento que se empleará en la fase siguiente. Por ello, la fase de

modelamiento puede requerir volver a la fase de preparación de datos una o más

veces.

Fase de modelamiento: esta es la fase medular del proyecto de datamining y consiste

en descubrir una relación entre un conjunto de variables y una variable que se espera

predecir. Contempla la selección de una técnica de modelamiento, entre las cuales

pueden mencionarse las redes de Kohonen o modelos K-Mean para clustering, árboles

C5 o árboles C&R para segmentación, redes neuronales o regresión logística para

predicción, inducción de reglas generalizada para descubrimiento de patrones y análisis

de factores para reducir la complejidad de los datos, entre otras. Entre sus tareas se

encuentran la selección de la técnica de modelamiento, la generación del diseño de las

57

pruebas del modelo, la construcción del mismo, y finalmente, la evaluación técnica a la

que debe someterse el modelo a través de criterios estadísticos.

Fase de evaluación de negocios: en la fase de modelamiento se evalúa el modelo en

forma técnica en relación a factores tales como su precisión y generalidad. En esta

fase, en cambio, debe evaluarse el nivel de satisfacción de los objetivos de negocios

perseguidos por el proyecto de datamining. Incluye la tarea de evaluar los resultados, la

tarea de revisar el proceso de datamining y finalmente la tarea de determinar los

próximos pasos a seguir (momento en el que debe decidirse si debe darse por

terminado el proyecto de datamining y entrar a la fase de despliegue, si deben iniciarse

iteraciones adicionales, o si debe iniciarse un nuevo proyecto de minería de datos).

Fase de despliegue del modelo: en esta fase deberá definirse una estrategia para

implementar los resultados de la minería de datos. Incluye las tareas de planificar el

despliegue del modelo, de planificar el monitoreo y la mantención de los modelos, de

generar el reporte final del proyecto, y de revisar el proyecto en relación a evaluar lo

que ocurrió correctamente y lo que necesita ser mejorado.

6.2 Razones para utilizar CRISP-DM

La metodología SEMMA se centra más en las características estadísticas del desarrollo

de un modelo de datamining, mientras que la metodología CRISP-DM posee una visión

más amplia respecto a los objetivos de negocios del proyecto. Para aquellos que han

trabajado en proyectos informáticos, la metodología CRISP-DM parecerá más familiar y

con mayores posibilidades de éxito. De hecho, en un proyecto informático es norma

básica de análisis estructurado el realizar una fase de análisis de requerimientos que

tenga en consideración los objetivos de negocio que se pretenden alcanzar. La omisión

de una buena fase de análisis de requerimientos puede provocar que se desarrollen

sistemas de información excelentes en los aspectos técnicos, pero que no resuelvan los

problemas reales de los usuarios. En ese sentido la metodología SEMMA parece haber

sido desarrollada como un agregado de un paquete de software estadístico SAS, en

cambio la metodología CRISP-DM, por no estar vinculada a ninguna herramienta

específica, parece haber sido diseñada con el real propósito de ayudar a guiar la labor

de datamining. Esta diferencia surge desde la primera fase del proyecto de datamining,

puesto que la metodología SEMMA comienza realizando un muestreo de datos,

58

mientras que la metodología CRISP-DM se inicia efectuando un análisis del problema

desde un punto de vista de negocios. La metodología CRISP-DM es más próxima a una

metodología de gestión de proyectos, pudiendo por ello integrarse en mejor forma a

proyectos cuyo ámbito dentro de la empresa sea más amplio que el simple manejo

estadístico.

La metodología SEMMA está muy ligada a los productos SAS, donde se encuentra

implementada, en tanto que la metodología CRISP-DM ha sido diseñada como una

metodología no vinculada a ningún proveedor de software, siendo su distribución

gratuita, por lo que es posible utilizarla con múltiples herramientas de business

intelligence, entre ellas Clementine de SPSS.

A todas las razones dadas anteriormente para justificar la elección de CRISP-DM debe

agregarse que es uno de los estándares más ampliamente utilizados en minería de

datos hoy en día.

59

7 PRIMERA FASE DEL PLAN: COMPRENSIÓN DEL NEGOCIO

El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase

de comprensión del negocio de la metodología CRISP-DM, junto a los resultados o

outputs que deben obtenerse de la ejecución de cada una de ellas:

Figura 7.1 Tareas y outputs de la fase de comprensión del negocio, primera fase del proyecto de datamining según metodología CRISP-DM39

Pasar por alto esta fase traería como consecuencia el que se invertiría gran esfuerzo y

tiempo en responder las preguntas de negocios equivocadas. Algunos ejemplos de


60

posibles interrogantes de negocios que pueden motivar un estudio de datamining

referido a las campañas bancarias son las siguientes:

- ¿Es posible focalizar las campañas en determinados segmentos en términos de

riesgo de crédito y de rentabilidad potencial?.

- ¿Cómo es posible crecer en los segmentos de mercado ya definidos?.

- ¿Es posible determinar el máximo de deuda que pueden contraer los clientes de un

Banco sin sobrepasar un nivel aceptable de riesgo de crédito?.

Las preguntas anteriores definen un problema de negocios, susceptible de ser resuelto

de diversas formas, al entregar distintas respuestas a las interrogantes planteadas. Los

supuestos operacionales, dados en el capítulo 5, dan por hecho que el Banco al cual se

aplica el presente plan responderá a las preguntas anteriores con un rotundo “no es

posible con el enfoque operacional vigente”. Sin embargo, mediante la elaboración de

un plan de datamining es posible dar una solución distinta al problema, al entregar

mecanismos para responder afirmativamente a las preguntas antes presentadas. El

presente documento se aboca precisamente a dar indicaciones sobre como construir un

plan de datamining.

A continuación se describen las tareas de esta fase y sus resultados, entregando

consejos y recomendaciones que han sido tomados conjuntamente de la experiencia y

reflexión del autor de este documento y de los conceptos presentados en la guía de

usuario CRISP-DM40. Adicionalmente, se desarrollan en este capítulo con particular

detalle aquellos resultados que son más importantes para un plan de datamining

dirigido a las campañas bancarias y que corresponden a aspectos específicos de éstas.

Tal es el caso del background del proyecto de datamining (output 1a.1), de los objetivos

de negocios que debieran perseguirse con dicho proyecto (output 1a.2), de los criterios

de éxito de negocios (output 1a.3), de los principales riesgos que podrían amenazar

semejante proyecto (output 1b.3), de la terminología más relevante para el mismo

(output 1b.4), de sus costos y beneficios (output 1b.5), de los objetivos de datamining

(output 1c.1) y de los criterios de éxito de datamining asociados (output 1c.2). Por otro

lado, dado que el plan de datamining que se elabora en el presente documento es 40 Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

61

genérico y no se basa en el caso de ningún Banco específico, sólo es posible dar una

descripción también conceptual y genérica de los resultados que se refieren al

inventario de recursos del proyecto (output 1b.1), a los requisitos, supuestos y

restricciones del mismo (output 1b.2), al plan detallado del proyecto (output 1d.1) y a la

evaluación inicial de las herramientas y técnicas disponibles (output 1d.2).

7.1 Determinar los objetivos de negocios (tarea 1a)

Esta tarea corresponde a una labor de comprensión de qué es lo que el cliente del

proyecto de datamining quiere conseguir desde una perspectiva de negocios. Por

clientes de datamining se hace referencia a aquellos altos ejecutivos bancarios que

están interesados en que el proyecto de minería de datos sirva para algo (ya sea

aumentar la rentabilidad, la tasa de crecimiento del Banco o cualquier objetivo que se

espere conseguir a través del proyecto). Esta fase es equivalente, por lo tanto, a la

etapa de análisis de requerimientos de un proyecto de desarrollo de un sistema de

información y es importante, puesto que el cliente puede no tener claro qué es lo que

quiere.

Las descripciones de los resultados que se deben obtener como fruto de esta tarea se

entregan a continuación:

7.1.1 Background (output 1a.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado debe

documentar el conocimiento que se posea sobre la situación de negocios de la

organización al comienzo del proyecto de datamining. Entre las actividades que es

preciso desarrollar para obtener este output se encuentran las siguientes:

- Conseguir o elaborar diagramas organizacionales que permitan identificar las

principales divisiones, departamentos y equipos de trabajo que se verían de algún

modo vinculados al proyecto de datamining. Es preciso recolectar y actualizar dichos

diagramas con los nombres y las dependencias jerárquicas de los responsables de

cada una de las unidades. Cabe señalar que en un ambiente de negocios en

permanente cambio los diagramas organizacionales disponibles en una empresa

frecuentemente se encontrarán desactualizados.

- Identificar las personas claves en el negocio y sus roles.

62

- Identificar un auspiciador interno (un auspiciador financiero y usuario principal).

- Identificar las unidades de negocios que se verían impactadas por el proyecto de

datamining (por ejemplo: Marketing, Área Comercial, Área de Riesgo de Crédito, Área

de Operaciones).

- Identificar el área funcional del problema.

- Describir el problema en términos generales. En este caso, el problema consiste en

orientar las campañas en tarjetas, líneas y créditos, de manera tal de permitir a un

Banco pequeño focalizarse en nichos de mercado y crecer.

- Determinar si existe conocimiento dentro de las unidades de negocios respecto al

hecho de que se va a realizar un proyecto de datamining, y si es necesario publicitar la

minería de datos como una tecnología clave.

- Clarificar los prerrequisitos del proyecto.

- Identificar grupos objetivo para presentar el resultado del proyecto (por ejemplo,

determinar si se espera un reporte escrito para la alta gerencia o un sistema en

ejecución que sea utilizado por usuarios finales).

- Identificar las necesidades del usuario y sus expectativas.

- Describir la solución que se emplee para resolver el problema. A tal respecto, en el

capítulo 5 se ha mencionado que se supone que el Banco realiza sus campañas con un

enfoque operacional. Como se ha señalado en el mismo capítulo, bajo tal enfoque las

campañas se orientan a los clientes sin distinguir segmentos de riesgo y rentabilidad

potencial, y sin poder medir adecuadamente las pérdidas esperadas.

- Describir las ventajas y desventajas de la solución al problema que esté siendo

utilizada. En este punto es preciso mencionar que el Banco, al orientar sus campañas

con un enfoque operacional, asumirá desventajas que incluirán el desaprovechar

oportunidades de negocios e incurrir en operaciones no rentables. No obstante, la

desventaja más grave del enfoque operacional la constituye el que no permite disponer

de un modelo capaz de medir adecuadamente el nivel de riesgo de una campaña (por

la vía de estimar la pérdida asociada al monto ofrecido en ésta). Con dicha falencia un

Banco no podrá aumentar los montos ofrecidos sujeto todo ello a la satisfacción de un

cierto nivel de riesgo, y en consecuencia limitará sus posibilidades de crecimiento.

63

De todas las actividades antes mencionadas, la selección de un patrocinador es

fundamental. Si bien de acuerdo a la metodología CRISP-DM el éxito de un proyecto de

datamining dependerá de que se satisfagan objetivos de negocios y sus

correspondientes criterios de éxito, ello puede ser en gran parte secundario. En efecto,

si bien un Banco se beneficia como un todo al alcanzar determinados objetivos de

negocios, ello puede ser total y absolutamente indiferente para el patrocinador de un

proyecto de datamining. La pregunta no debiera ser tanto cómo un proyecto puede

beneficiar a la empresa, sino que cómo puede beneficiar los intereses de su

patrocinador. Un proyecto puede ser excelente en términos de alcanzar objetivos de

negocios de un Banco, no obstante sin un buen patrocinador puede estar de cualquier

modo condenado al fracaso. Los Bancos son instituciones enormes, y el beneficio

general para la institución se traducirá en éxito para un proyecto sólo en la medida que

los objetivos de negocios que éste permita alcanzar se traduzcan en un beneficio

tangible para el patrocinador del proyecto y sus intereses.

7.1.2 Objetivos de negocios: focalizarse en nichos y crecer sujeto a un nivel mínimo de riesgo (output 1a.2) Este resultado es el segundo de la tarea de determinar los objetivos de negocios (tarea

1a). Debe describir el objetivo principal del cliente desde una perspectiva de negocios.

Entre las actividades que es preciso desarrollar para obtener este output se encuentran:

- Describir informalmente el problema que se intenta resolver a través del proyecto de

datamining. A este respecto puede decirse que el problema consiste, en virtud de los

supuestos de negocios realizados en el capítulo 5, en que un Banco pequeño se ve

enfrentado a dos únicas posibilidades para competir: focalizarse en nichos de mercado

o crecer.

- Especificar en forma tan precisa como sea posible todas las interrogantes de negocios

que se pretenden responder mediante el proyecto de datamining. Dichas interrogantes

son aquellas planteadas a inicios del capítulo, las cuales pueden expresarse como los

objetivos de negocios de focalizarse en nichos de mercado y crecer sujeto a un nivel

mínimo de riesgo.

- Especificar cualquier otro requerimiento de negocios que se espere satisfacer

mediante el proyecto de datamining. A tal respecto es preciso señalar que el objetivo de

64

negocios de focalización corresponde a la meta de identificar segmentos de riesgo y

rentabilidad con características distintas a las de los clientes promedio. El objetivo de

negocios de crecimiento, por su parte, corresponde a la meta de aumentar tanto los

montos ofrecidos de créditos de consumo, como los montos ofrecidos en cupos en las

tarjetas y líneas de crédito, sujeto todo ello a satisfacer un nivel mínimo de riesgo.

- Especificar los beneficios de negocios esperados que se obtendrían de los resultados

del proyecto de datamining. Dichos beneficios debieran ser alcanzables y realistas. En

relación con este punto conviene indicar que el objetivo de crecer se ha traducido en la

meta específica de aumentar los montos ofrecidos y no en incrementar las ventas, por

cuanto éstas en un periodo determinado dependerán de muchos factores que son

exógenos a un modelo de datamining (tales como el monto invertido en publicidad, la

eficacia de la fuerza de ventas, la receptividad de los clientes, etc.). En cambio, el

modelo de datamining si puede determinar los montos ofrecidos en los créditos de

consumo, como así también los aumentos de cupos de las tarjetas y líneas de crédito.

No obstante, se espera que, ceteris paribus, el aumento de los montos ofrecidos en las

campañas bajo la restricción de satisfacer un cierto nivel mínimo de riesgo se traduzca

en el beneficio indirecto para el Banco de crecer en sus colocaciones.

7.1.3 Criterios de éxito de negocios: porcentaje de aumento en los montos ofrecidos en las campañas y monto de pérdida esperada de éstas (output 1a.3) Este resultado es el tercero de la tarea de determinar los objetivos de negocios (tarea

1a). Describe los criterios que serán utilizados para calificar como exitoso el resultado

del proyecto de datamining desde un punto de vista de negocios. Los objetivos pueden

ser específicos y fácilmente medibles, tales como el aumento de los montos ofrecidos

en las campañas, o generales y subjetivos, como la focalización en determinados

segmentos de mercado. Entre las actividades que es preciso desarrollar para obtener

este resultado se encuentran las siguientes:

- Especificar los criterios de éxito de negocios. Cada uno de los criterios de éxito debe

estar relacionado con al menos uno de los objetivos de negocios. En relación al objetivo

de crecer, debe definirse un porcentaje de aumento en los montos ofrecidos a través de

créditos de consumo, como así también en los montos de los aumentos de los cupos de

las tarjetas y de las líneas de crédito. Relacionado también al objetivo de crecer

65

satisfaciendo un nivel mínimo de riesgo, debe definirse un nivel de riesgo en la forma de

una pérdida esperada para una campaña (calculada como monto en deuda vencida o

castigada luego de transcurrido cierto tiempo).

- Identificar quien evalúa los criterios de éxito. Ello es importante para evaluar el

cumplimiento del objetivo de identificar segmentos de riesgo y rentabilidad con

características distintas a las de los clientes promedio, puesto que es difícil expresar tal

objetivo en términos numéricos.

7.2 Evaluar la situación (tarea 1b)

Esta tarea consiste en realizar una investigación exhaustiva sobre los recursos,

restricciones y suposiciones que debieran ser considerados al momento de elaborar el

plan del proyecto de datamining. Las descripciones de los resultados que se deben

obtener como fruto de esta tarea se entregan a continuación:

7.2.1 Inventario de recursos (output 1b.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste

en una lista de todos recursos disponibles para el proyecto, incluyendo los siguientes:

- Recursos de personal (tales como expertos del negocio y de los datos, disponibilidad

de soporte técnico y de personal de datamining)

- Recursos de datos (tales como accesos a datamarts, a bases de datos operacionales

o al rescate de información operacional respaldada en cinta)

- Recursos computacionales (tales como servidores en los cuales pueden correr los

procesos de datamining, capacidad de almacenamiento en disco para guardar muestras

de datos necesarias para los estudios de datamining y acceso a redes de alta velocidad

para comunicar equipos servidores y clientes involucrados en el procesamiento de

datamining)

- Recursos de software (tales como herramientas de datamining, y otro software

relevante). En el presente documento se utiliza Clementine de SPSS para ilustrar la

construcción del plan de datamining.

Entre las actividades que es preciso desarrollar para obtener este resultado se

encuentran las siguientes:

66

- Identificar el hardware que se utilizará.

- Establecer la disponibilidad de dicho hardware para el proyecto de datamining. Es

preciso tener presente que muchos servidores y bases de datos no se encuentran

disponibles durante la jornada laboral por estar destinados 100% a funciones

operacionales. No obstante, tal vez sea posible tener acceso a ellos durante la noche o

los fines de semana.

- Evaluar si el programa de mantenimiento de sistemas entra en conflicto con la

disponibilidad del hardware para el proyecto de datamining. A tal respecto es preciso

considerar que los procesos de mantenimiento y respaldo se ejecutan normalmente

durante la noche, o los fines de semana, que son precisamente los horarios más

probables en los que se otorgará acceso al hardware.

- Identificar el hardware disponible para la herramienta de datamining a ser utilizada.

- Identificar las fuentes de datos.

- Identificar los tipos de fuentes de datos (si se trata de fuentes online, expertos,

documentación escrita, etc.).

- Identificar a los administradores de sistemas, a los administradores de las bases de

datos y al staff de soporte técnico para eventuales consultas.

- Identificar a los analistas de mercado, a los expertos en datamining y a los estadísticos

que puedan colaborar en el proyecto, y chequear su disponibilidad. Ello es importante

pues el proyecto puede necesitar staff técnico en momentos imprevisibles.

7.2.2 Requerimientos, suposiciones y restricciones (output 1b.2) Este resultado es el segundo de la tarea de evaluar la situación (tarea 1b). De acuerdo

a la guía de usuario de la metodología CRISP-DM, este output incluye una lista de

todos los requerimientos del proyecto, incluyendo el cronograma de término, la calidad

y completitud de los resultados, la seguridad de la información y los aspectos legales.

En este punto es de vital importancia asegurarse que está permitido utilizar los datos

que se pretenden ocupar. El resultado incluye también una lista de todas las

suposiciones realizadas por el proyecto, las cuales pueden corresponder tanto a

suposiciones sobre los datos, sujetas a verificación, como suposiciones no verificables

realizadas sobre el negocio. Es particularmente importante detallar las suposiciones si

67

ellas establecen condiciones sobre la validez de los resultados del proyecto. Asimismo,

el resultado debe incluir todas las restricciones establecidas en el proyecto, y que

pueden involucrar la no disponibilidad de recursos para llevar a cabo algunas tareas.


encuentran:

- Identificar todos los requerimientos sobre plazos que deben cumplirse en el proyecto

de datamining.

- Identificar todos los requerimientos sobre completitud, precisión y mantención de los

modelos de datamining resultantes.

- Identificar los requerimientos sobre seguridad, restricciones legales, privacidad y

generación de reportes del proyecto.

- Clarificar y explicitar todas las suposiciones del proyecto de datamining, incluyendo

aquellas implícitas.

- Elaborar una lista de suposiciones realizadas sobre la calidad de los datos (por

ejemplo, precisión y disponibilidad).

- Elaborar una lista de suposiciones sobre los factores externos al proyecto de

datamining que podrían afectar su éxito (por ejemplo: asuntos económicos, productos

competitivos, avances técnicos).

- Elaborar una lista de todas las suposiciones realizadas sobre la necesidad de explicar

el modelo a sus usuarios (por ejemplo: las suposiciones que dicen relación a cómo

debiera ser presentado el modelo y sus resultados a la alta gerencia y a su

patrocinador).

- Identificar las restricciones de acceso a las fuentes de datos.

- Identificar las restricciones presupuestarias del proyecto de datamining (costos fijos,

costos de implementación, etc.).

7.2.3 Riesgos y contingencias (output 1b.3) Este resultado es el tercero de la tarea de evaluar la situación (tarea 1b). De acuerdo a

la guía de usuario de la metodología CRISP-DM, este output incluye un listado de los

riesgos que pueden afectar el proyecto, impactando sus plazos, sus costos o su

68

resultado final. Incluye también un listado de los correspondientes planes de

contingencia diseñados para mitigar dichos riesgos. Entre las actividades que es

preciso desarrollar para obtener este resultado se encuentran:

- Identificar los riesgos de negocios (tales como fusiones, adquisiciones, entrada de

nuevos competidores al mercado).

- Identificar riesgos organizacionales.

- Identificar riesgos financieros.

- Identificar riesgos técnicos.

- Identificar riesgos que dependan de los datos y de las fuentes de datos (por ejemplo,

baja calidad de los datos).

- Determinar las condiciones bajo las cuales cada uno de los riesgos puede ocurrir.

- Desarrollar planes de contingencia.

Con respecto a los riesgos organizacionales es preciso tener en consideración el poder

de las “cofradías” dentro de los departamentos de crédito de un Banco pequeño. Se

entiende por “cofradía” a un conjunto de ejecutivos unidos por estrechos vínculos de

confianza y que actúan tratando de acaparar todas las responsabilidades y todo el

conocimiento necesario para el funcionamiento bancario. El éxito de las cofradías

radica en primer lugar en su capacidad para enquistarse profundamente en los

procesos operacionales bancarios, de manera de no permitir el reemplazo de sus

miembros sin afectar severamente la continuidad de las operaciones de la empresa. En

segundo lugar, su éxito depende de su habilidad para asfixiar el surgimiento de

cualquier rival al dominio absoluto que ejercen sobre el conocimiento y el manejo de las

operaciones bancarias. Los proyectos de datamining, por el hecho de automatizar la

toma de decisiones, y prescindir de ese modo de la experiencia humana, pueden

encontrar oposición por parte de tales grupos. Para neutralizar su oposición es preciso

contar con el firme respaldo de un líder bancario.

La cultura de negocios puede presentar también riesgos concretos a la realización de

un proyecto de datamining. Así, por ejemplo, el desprecio de cualquier actividad de

carácter técnico puede provocar que un proyecto de datamining sea equiparado a la

simple manipulación de datos, y por lo tanto sea catalogado como una actividad de

69

segundo orden. La creencia de que es atributo privativo de los jefes el pensar y de los

subordinados simplemente ejecutar puede también frustrar las iniciativas de un

profesional que intente desarrollar datamining, al verse éste imposibilitado de realizar

cualquier labor por iniciativa propia. La importancia que se da a las relaciones

personales de confianza por sobre el profesionalismo puede también ir en contra de

quien intenta realizar datamining, si ésta persona no cuenta con el firme respaldo de

patrocinadores dentro de la organización.

Existe el riesgo de que un proyecto de datamining deje de ser auspiciado por su

patrocinador, al considerar que se ha invertido demasiado tiempo trabajando con los

datos sin conseguir nada tangible. Dicha decisión puede encontrar respaldo en el

consejo y la opinión de profesionales que, habiendo trabajado con Access o Excel en

otras instituciones, están acostumbrados a realizar manipulación de datos de manera

no estructurada y rápida. El problema surge debido a que normalmente en los

proyectos de datamining más del 90% del esfuerzo se realiza en las primeras fases del

mismo41, en particular en la preparación de los datos. Ello provoca que este tipo de

proyectos sea en general subestimado en cuanto a coste y tiempo. El problema se

agrava en el caso de una institución financiera que carece de un datawarehouse, por

cuanto el nivel de esfuerzo que es preciso realizar para integrar datos provenientes de

bases de datos distintas, residentes en plataformas distintas, y con datos referidos a

periodos distintos, supera en mucho al que correspondería llevar a cabo en otras

circunstancias.

7.2.4 Terminología (output 1b.4) Este resultado es el cuarto de la tarea de evaluar la situación (tarea 1b). De acuerdo a

la guía de usuario de la metodología CRISP-DM, este output consiste en un glosario de

términos relevantes para el proyecto, y debe incluir al menos dos componentes: un

glosario de terminología relevante del negocio, y un glosario de terminología de

datamining. Entre las actividades que es preciso desarrollar para obtener este resultado

se encuentran:

41 Fuente: Jumpstart Clementine Training Brochure, Data Mining Jumpstart, Data Mining Projects Clementine, SPSS, 2004

70

- Chequear la disponibilidad de glosarios existentes, o de lo contrario comenzar su

bosquejo.

- Conversar con expertos en la materia para comprender su terminología.

- Familiarizarse con la terminología de negocios.

A continuación se entregan las definiciones de mayor relevancia para el plan de

datamining de las campañas bancarias.

7.2.4.1 Definición de cliente malo desde un punto de vista crediticio Para construir un modelo del nivel de riesgo de un cliente debe calcularse la

probabilidad de que éste se transforme en un cliente “malo” dentro de un determinado

periodo de tiempo. Es importante, por lo tanto, arribar a una definición de qué se

entiende por “cliente malo”. En la presente investigación se considerará “malo” en

términos crediticios a toda persona que cumpla alguna de las siguientes características:

- Haber presentado deuda directa vencida o deuda directa castigada en los últimos 12

meses de los informes de la SBIF.

- Presentar saldo de capital castigado con el Banco.

- Presentar monto de cartera vencida con el Banco.

- Presentar una deuda renegociada con el Banco que provenga con certeza de créditos

vencidos o castigados.

- Figurar con alguna cuenta “varios deudores” en el Banco, la cual con certeza

provenga de más de 60 días de mora en alguna tarjeta de crédito.

- Figurar en el denominado “file negativo” del Banco, que reúne al conjunto de clientes

con los que éste no desea operar.

- Figurar en el listado de los clientes cuyas cuentas hayan sido cerradas en el pasado

por el Banco.

A la lista dada anteriormente pueden agregarse condiciones adicionales, las cuales

pueden aprovechar la experiencia que el Banco posea para identificar a personas que

efectivamente correspondan a clientes “malos” desde un punto de vista crediticio.

Dichas condiciones pueden reflejar también diferentes expectativas del Banco con

respecto a qué clientes esté dispuesto a considerar como demasiado riesgosos.

71

7.2.4.2 Definición de rentabilidad potencial de un cliente La rentabilidad potencial corresponde al valor actual neto de los flujos de efectivo que

generaría un cliente para el Banco, en el caso de que dicha institución fuese capaz de

vender a dicha persona el máximo de los servicios que eventualmente aquel estaría

dispuesto a contratar en el futuro.

La rentabilidad potencial trata de ser explotada por lo que se conoce como fidelización.

Detrás del concepto de fidelización se encuentra la idea de ofrecer productos que

constituyan un “gancho” para atraer a los clientes, a los cuales brindar a futuro otros

servicios financieros, hasta agotar su rentabilidad potencial. Por lo tanto, principalmente

la fidelización intenta provocar la conservación de los clientes por muchos años.

Figura 7.2 Ganancias extras obtenidas por cada transacción de la tarjeta de crédito de un cliente, cuando éste tiene varios años de antigüedad42

La figura 7.2 muestra la importancia que tiene conservar a los clientes, por cuanto los

flujos de efectivo que genera un cliente antiguo de una tarjeta de crédito bancaria son

42 Fuente: REICCHELD, SASSER, Zero Defections Come to Quality, HBR, 1990

72

mucho mayores que aquellos que genera un cliente nuevo. El gráfico muestra que los

clientes entregan sólo ganancias básicas el primer año (constituidas por cobros de

mantención y por un nivel de utilización reducido de las tarjetas). A partir del segundo

año los clientes comienzan a generar ganancias adicionales por distintos conceptos:

aumento de la utilización de los cupos de las tarjetas, aumento de las transacciones con

ellas, uso más eficiente de los servicios bancarios, entrega de recomendaciones de los

servicios del Banco a otras personas, o pago de sobreprecios por determinados

servicios. Mientras las ganancias básicas son las mismas, independientemente de la

antigüedad del cliente, las ganancias extra que se producen son mucho mayores en los

clientes más antiguos.

Las ganancias no básicas surgen precisamente de la utilización por parte del Banco de

la rentabilidad potencial de los clientes. Mientras mayor sea la rentabilidad potencial de

éstos, mayores serán las ganancias no básicas que podrían obtenerse. Un Banco que

sea incapaz de conservar a sus clientes, no podrá tampoco aprovechar su rentabilidad

potencial. Concentrando los esfuerzos de las campañas en los clientes con mayor

rentabilidad potencial será posible conservar a éstos por muchos años y de esa forma

será posible también aprovechar efectivamente su rentabilidad potencial.

7.2.4.3 Definición de cliente sin gran rentabilidad potencial Para construir un modelo de rentabilidad potencial es preciso calcular la probabilidad de

que un cliente se transforme en alguien “sin una gran rentabilidad potencial” dentro de

un determinado periodo de tiempo. Es preciso, por lo tanto, llegar a una definición de

qué se entiende por alguien “sin una gran rentabilidad potencial”. Nótese que para

construir un modelo de rentabilidad potencial no es necesario calcular la rentabilidad

potencial de los clientes, pues basta simplemente identificar aquellas condiciones en las

cuales un cliente puede clasificarse como “sin gran rentabilidad potencial”.

Dado que la rentabilidad potencial corresponde al valor actual neto de los flujos de

efectivo que generaría un cliente para el Banco, un cliente “sin gran rentabilidad

potencial” será alguien que sin lugar a dudas posea un valor actual neto muy bajo para

el Banco.

En la presente investigación se entenderá por cliente sin una gran rentabilidad potencial

a toda persona que cumpla alguna de las condiciones siguientes, cada una de las

73

cuales va indisolublemente ligada a un valor presente del cliente que es claramente

muy bajo para el Banco:

- La conjunción de las siguientes características: no ser profesional, poseer un ingreso

mensual inferior a un monto determinado (por ejemplo: $500.000) y no ser lo

suficientemente joven para cambiar de actividad (presentar una edad superior a, por

ejemplo, 40 años).

- La conjunción de las siguientes características: ser profesional, poseer un ingreso

mensual inferior a un monto determinado (por ejemplo: $300.000) y no ser profesional

joven (presentar una edad superior a un número determinado de años, por ejemplo: 30

años).

- Ejercer determinadas profesiones y oficios que son mal remunerados, que tampoco

permiten a las personas aumentar sus ingresos significativamente en el futuro, y en los

cuales las personas tradicionalmente tienden a desempeñarse durante toda su vida (por

ejemplo: personal de orden y seguridad).

- La conjunción de las siguientes características: no poseer patrimonio, ser mayor a una

edad determinada (por ejemplo: 40 años) y poseer un ingreso inferior a un monto

determinado (por ejemplo: $300.000).

- La conjunción de las siguientes características: ser hombre y ser una persona mayor

(con una edad por sobre los 70 años, por ejemplo).

- La conjunción de las siguientes características: ser mujer y ser una persona mayor

(con una edad por sobre los 65 años, por ejemplo).

- Ser un cliente “malo” en términos de riesgo de crédito.

- Poseer una capacidad residual de endeudamiento menor a un millón de pesos.

A la lista dada anteriormente pueden agregarse condiciones adicionales, las cuales

pueden aprovechar la experiencia que el Banco posea para identificar a personas que

efectivamente correspondan a clientes “sin gran rentabilidad potencial” desde su

perspectiva. Dichas condiciones pueden reflejar también diferentes expectativas del

Banco con respecto a qué clientes esté dispuesto a considerar como personas sin

atractivo.

74

7.2.4.4 Definición de carga financiera La carga financiera corresponde al porcentaje de los ingresos que una persona debe

destinar a solventar sus deudas, y constituye información fundamental tanto para

evaluar el nivel de riesgo del cliente como su rentabilidad potencial. En la medida que

una persona contrae progresivamente más deudas, el monto que debe reservar al pago

de éstas aumenta, al mismo tiempo que disminuye la proporción de su salario que

puede destinar al pago de otros servicios. Claramente en la medida que la carga

financiera de un cliente aumenta, mayor es también su riesgo de crédito y menor es su

rentabilidad potencial.

7.2.5 Costos y beneficios (output 1b.5) Este resultado es el quinto de la tarea de evaluar la situación (tarea 1b). De acuerdo a

la guía de usuario de la metodología CRISP-DM, este output consiste en un análisis de

costo-beneficio, el cual debe comparar los costos del proyecto de datamining con el

beneficio potencial que reportaría para el negocio en el caso de ser exitoso. Entre las

actividades que es preciso desarrollar para obtener este resultado se encuentran:

- Estimar los costos de la recolección de datos.

- Estimar los costos de desarrollar e implementar una solución de datamining.

- Identificar los beneficios que se obtendrían por la realización del proyecto de

datamining.

Antes de mencionar el principal beneficio del proyecto de datamining es preciso

considerar que los modelos que se elaboren deben estimar el riesgo crediticio y la

rentabilidad potencial de los clientes. Como se describe en la sección 7.3, ello proviene

del hecho que los objetivos de negocios del proyecto de datamining definidos en la

sección 7.1, y que consisten en enfocarse en nichos de mercado y crecer, se traducen

en objetivos de datamining de estimar el riesgo y la rentabilidad de los clientes.

El mayor beneficio aportado por el plan de datamining de las campañas bancarias es

estratégico y consiste en permitir a un Banco focalizarse en nichos de mercado y crecer

mediante la clasificación de sus clientes por criterios de riesgo y rentabilidad. Dicha

clasificación es fundamental para un Banco pequeño, si se aceptan los supuestos de

negocios dados en la sección 5.4, y según los cuales las dos opciones para sobrevivir

75

de una institución semejante son enfocarse en nichos de mercado o crecer. En efecto,

los puntajes de riesgo y rentabilidad que los modelos de datamining permiten asignar a

los clientes son útiles en ambos casos, tanto para enfocarse en nichos como para

crecer. En primer lugar, es posible identificar distintos segmentos de mercado a partir

de los puntajes de riesgo y rentabilidad. En segundo lugar, como se demuestra en la

sección 11.1, los mencionados puntajes permiten aumentar el dinero que es posible

ofrecer a los clientes en condiciones ventajosas para el Banco, al mismo tiempo que se

satisface un nivel mínimo de riesgo. De esa forma, los puntajes permiten también a un

Banco crecer por la vía de aumentar los montos ofrecidos en las campañas.

7.3 Determinar los objetivos de datamining (tarea 1c)

Esta tarea corresponde a la traducción a términos técnico-estadísticos de los objetivos

de negocios que se pretende alcanzar con el proyecto de datamining. Las descripciones

de los resultados que se deben obtener como fruto de esta tarea se entregan a

continuación:

7.3.1 Objetivos de datamining: estimar el riesgo crediticio y la rentabilidad potencial de los clientes (output 1c.1) Este output consiste en una descripción de los objetivos de datamining que hacen

posible alcanzar los objetivos de negocios perseguidos por el proyecto. Entre las

actividades que es preciso desarrollar para obtener este output se encuentran:

- Traducir los objetivos de negocios a objetivos de datamining

- Especificar el tipo de problema de datamining. En este caso los modelos de riesgo de

crédito y de rentabilidad potencial que se plantean son netamente modelos predictivos.

El primer objetivo de negocios perseguido por el proyecto de datamining, y que no es

otro que focalizarse en nichos de mercado, puede implementarse identificando distintos

segmentos de mercado que diferencien entre si por el riesgo y la rentabilidad de sus

clientes. Así, el objetivo de negocios de focalización puede traducirse en los objetivos

de datamining de estimar el riesgo crediticio y la rentabilidad potencial de los clientes.

El segundo objetivo de negocios perseguido por el proyecto de datamining, que

consiste en crecer sujeto a un nivel mínimo de riesgo, requiere de los siguientes

cálculos previos:

76

1. Especificar el nivel de riesgo asociado a los montos ofrecidos en una campaña.

2. Determinar el monto de dinero a ofrecer en las campañas sujeto a un nivel mínimo

de riesgo (especificado usando el cálculo del punto anterior).

Como se explica a continuación, el primer cálculo puede traducirse en los objetivos de

datamining de estimar el riesgo crediticio y la rentabilidad potencial de los clientes.

Como se ha detallado en la sección 7.1 al describir los criterios de éxito de negocios

(output 1a.3), la satisfacción de un nivel mínimo de riesgo para las campañas se

especifica en la forma de una pérdida esperada (calculada como monto en deuda

vencida o castigada luego de transcurrido cierto tiempo). La pérdida esperada para un

monto ofrecido a un cliente puede calcularse como el producto del monto ofrecido y de

la probabilidad de que dicho cliente se transforme en “malo” dentro de un determinado

horizonte de tiempo. No obstante, dicha probabilidad depende tanto del monto ofrecido

como de la rentabilidad potencial del cliente. Mientras mayor sea el monto ofrecido a un

cliente, mayor será la probabilidad de que se transforme en “malo”, puesto que el

cliente estará más endeudado en el caso de aceptar la oferta y en consecuencia será

más riesgoso. Por otro lado, mientras mayor rentabilidad potencial posea un cliente,

mayor será su capacidad de seguirse endeudando sin volverse más riesgoso, y en

consecuencia menor será el aumento de la probabilidad de que él se transforme en

“malo” al aumentar su nivel de endeudamiento. Por todo lo antes mencionado, para

especificar el nivel de riesgo asociado a los montos ofrecidos en una campaña es

preciso estimar el riesgo crediticio y la rentabilidad potencial de los clientes.

El segundo cálculo antes mencionado, que consiste en determinar el monto de dinero a

ofrecer en las campañas sujeto a un nivel de mínimo riesgo, también puede traducirse

en los objetivos de datamining de estimar el riesgo crediticio y la rentabilidad potencial

de los clientes. En efecto, mediante un modelo de programación no lineal es posible

especificar el problema. Se desea maximizar el monto total a ofrecer en la campaña

sujeto a la restricción de que las pérdidas totales sean iguales a un monto determinado.

La función objetivo puede especificarse simplemente como la sumatoria de los montos

a ofrecer a cada cliente. La pérdida de la campaña puede escribirse como la sumatoria

del monto a ofrecer a cada cliente multiplicado por la probabilidad de que dicho cliente

se transforme en “malo” luego de aceptar el monto ofrecido. Dado que la mencionada

probabilidad dependerá de la rentabilidad potencial y del nivel de riesgo de cada cliente

77

antes de aceptar la oferta, se tendrá que la solución del modelo de programación

requerirá de estimaciones del nivel de riesgo y de la rentabilidad potencial de los

clientes. Restricciones adicionales de tal modelo son que los montos deben ser

positivos y que la carga financiera de cada cliente no puede exceder el 100% de sus

ingresos luego de aceptar la oferta. La especificación detallada de tal modelo de

programación se entrega en la sección 11.1, al mostrar como los puntajes calculados

con los modelos de riesgo y rentabilidad potencial permiten alcanzar los objetivos de

negocios del plan de datamining. No obstante, con lo que se ha mencionado es

evidente que el problema de determinar los montos de dinero a ofrecer en las

campañas sujeto a un nivel mínimo de riesgo requiere necesariamente estimar el riesgo

y la rentabilidad de los clientes.

En resumen, los dos objetivos de negocios del proyecto de datamining pueden

traducirse en los objetivos de datamining de estimar el riesgo crediticio y la rentabilidad

potencial de los clientes.

7.3.2 Criterios de éxito de datamining: errores tipo I y tipo II (output 1c.2) Este resultado es el segundo de la tarea de determinar los objetivos de datamining

(tarea 1c). De acuerdo a la guía de usuario de la metodología CRISP-DM, este output

corresponde a un conjunto de criterios técnicos para considerar exitoso un proyecto de

datamining (por ejemplo, un cierto nivel de precisión en las predicciones de los modelos

desarrollados). Entre las actividades que es preciso desarrollar para obtener este

resultado se encuentran:

- Especificar los criterios para la evaluación de los modelos (por ejemplo, precisión de

los modelos, desempeño de éstos y nivel de complejidad).

- Definir benchmarks para los criterios de evaluación.

Los criterios de éxito de datamining pueden incluir cualquiera de las medidas

estadísticas usadas para evaluar los modelos técnicamente y detalladas en el capítulo

10. No obstante, criterios de éxito razonables para los modelos de datamining de las

campañas bancarias deben incluir cotas para dos tipos de error. En un modelo de

riesgo el primero de ellos, o error tipo I, proviene de clasificar como bueno a un cliente

que será malo. El segundo, o error tipo II, surge al clasificar como malo a un cliente que

será bueno. Análogamente, en los modelos de rentabilidad el error tipo I se comete al

78

calificar como cliente con gran rentabilidad potencial a un cliente sin ella, en tanto que el

error tipo II ocurre al clasificar como cliente sin gran rentabilidad potencial a un cliente

que si poseerá una gran rentabilidad potencial.

Los modelos de riesgo calcularán notas o puntajes de riesgo, que corresponderán a

probabilidades de que los clientes se transformen en malos en un cierto horizonte de

tiempo. Para calificar como bueno a un cliente se utilizará una nota o probabilidad

mínima, denominada “puntaje de corte”. Al fijar un “puntaje de corte” para un modelo de

riesgo determinado, y aplicar dicho modelo a un conjunto de datos de prueba se

obtendrán errores tipo I y tipo II en la forma de porcentajes sobre el total de los clientes

de la muestra. Los criterios de éxito de datamining a tal respecto permitirán determinar

si los resultados de un modelo de riesgo son aceptables o no. Conclusiones análogas

se obtienen para los modelos de rentabilidad potencial. En efecto, los modelos de

rentabilidad potencial calcularán notas o puntajes de rentabilidad, que corresponderán a

probabilidades de que los clientes se transformen en personas “sin gran rentabilidad

potencial” en el futuro. Para calificar como “sin gran rentabilidad potencial” a un cliente

se utilizará una nota o probabilidad mínima, denominada también “puntaje de corte”. Al

fijar un “puntaje de corte” para un modelo de rentabilidad potencial, y aplicar dicho

modelo a un conjunto de datos de prueba se obtendrán errores tipo I y tipo II en la

forma de porcentajes sobre el total de los clientes de la muestra.

7.4 Producir el plan del proyecto (tarea 1d)

Esta tarea corresponde a la realización de una carta Gantt del proyecto de minería de

datos, junto a la cual debe describirse el plan con el que se espera alcanzar los

objetivos de datamining y los objetivos de negocios.



7.4.1 Plan del proyecto (output 1d.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado

corresponde a una lista de todas las etapas a ser ejecutadas en el proyecto, junto a su

duración, recursos requeridos, inputs, outputs y dependencias. Debe hacerse explícita

la repetición y el retroceso a la etapa anterior propias de las fases de modelamiento y

79

de evaluación de negocios. Como parte del plan de datamining es también importante

analizar las dependencias entre los plazos y los riesgos. Es preciso detallar los

resultados de los análisis de riesgos en términos de acciones y recomendaciones sobre

los pasos a seguir en caso de contingencia. Entre las actividades que es preciso

desarrollar para obtener este resultado se encuentran:

- Definir el plan inicial del proyecto de datamining y discutir la factibilidad con todo el

personal involucrado en el proyecto.

- Reunir en un proceso coherente todos los objetivos identificados y todas las técnicas

de datamining seleccionadas, de manera de responder las preguntas de negocios y de

satisfacer los criterios de éxito del proyecto.

- Estimar el esfuerzo y los recursos necesarios para alcanzar y generar la solución del

proyecto de datamining. Se postula que entre un 50% y un 70% del tiempo en un

proyecto de datamining debiera destinarse a la fase de preparación de los datos,

mientras que tan solo un porcentaje ubicado entre un 10% y un 20% debiera dirigirse a

las fases de Modelamiento, Evaluación y Comprensión del Negocio. El porcentaje

asignado a la fase de Despliegue debiera encontrarse entre un 5% y un 10% del tiempo

total del proyecto.

- Identificar los pasos críticos.

- Resaltar los puntos de toma de decisiones.

- Resaltar los puntos de revisión de los resultados del proyecto.

- Identificar las principales iteraciones dentro del flujo de fases y tareas de datamining.

7.4.2 Evaluación inicial de herramientas y técnicas (output 1d.2) Este resultado es el segundo de la tarea de producir el plan del proyecto (tarea 1d). De

acuerdo a la guía de usuario de la metodología CRISP-DM, este output consiste en una

evaluación inicial de las herramientas y técnicas de datamining que es posible utilizar.

Debe seleccionarse una herramienta de datamining que soporte varios métodos para

diferentes etapas del proyecto. Es importante evaluar las herramientas y técnicas

tempranamente en el proyecto, puesto que la elección de las herramientas y técnicas

influenciará todo el proyecto. Entre las actividades que es preciso desarrollar para

obtener este resultado se encuentran:

80

- Crear una lista de criterios para seleccionar las herramientas y técnicas de datamining.

- Escoger las herramientas y técnicas de datamining.

- Evaluar qué tan apropiadas son las técnicas de datamining.

- Revisar y priorizar técnicas de datamining aplicables de acuerdo a la evaluación de

soluciones alternativas.

En la presente investigación se ha escogido Clementine de SPSS como herramienta de

datamining para ilustrar la elaboración de un plan de minería de datos, la cual soporta

una amplia variedad de técnicas de datamining. Entre aquellas técnicas que se ajustan

mejor a la construcción de modelos predictivos de riesgo y rentabilidad se encuentran la

regresión logística, las redes neuronales y los árboles de decisión, las cuales se

explican en detalle en la sección 10.1, incluyendo una tabla con sus ventajas y

desventajas.

81

8 SEGUNDA FASE DEL PLAN: COMPRENSIÓN DE LOS DATOS


de comprensión de los datos de la metodología CRISP-DM, junto a los resultados o

outputs que deben obtenerse de la ejecución de cada una:

Figura 8.1 Tareas y outputs de la fase de comprensión de los datos, segunda fase del proyecto de datamining según metodología CRISP-DM43


consejos y recomendaciones elaborados a partir de la reflexión del autor de este


82

documento y de la guía de usuario de CRISP-DM44. Como se ha señalado en el

capitulo 3, esta tesis no se basa en ningún conjunto de datos de ningún grupo de

personas. Por ello no pueden entregarse indicaciones específicas sobre los reportes de

descripción, de exploración, o de calidad de los datos (outputs 2b.1, 2c.1 y 2d.1). Sin

embargo, en virtud de los supuestos dados en el capítulo que versa sobre las hipótesis

de trabajo es posible dar una descripción de las fuentes de datos que todo Banco debe

poseer y que proveen de información necesaria y suficiente para la realización de

estudios de datamining sobre las campañas bancarias. En consecuencia, como parte

de la explicación del reporte de recolección de los datos iniciales (output 2a.1), se

entregan en este capítulo las descripciones de todas las variables necesarias para

construir los modelos de datamining planteados en esta investigación, de igual modo

que todas las fuentes de datos que se utilizarán.

8.1 Recolectar datos iniciales (tarea 2a)

Esta tarea consiste en la realización de una recopilación de los datos necesarios para el

proyecto de datamining, utilizando para ello la lista de recursos disponibles elaborada

en la tarea 1b de la fase de comprensión del negocio. La recolección debe incluir la

carga de los datos en la herramienta de datamining, si ello ayuda a comprender la

información (como puede ser el caso de no existir un diccionario de datos que entregue

el significado de cada campo de una base de datos).



8.1.1 Reporte de recolección de datos iniciales (output 2a.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste

en una lista de los datos que serán utilizados en el proyecto. Asimismo dicha lista debe

incluir los requerimientos de selección de datos que sea preciso realizar para obtener

información más detallada que la disponible. El reporte de recolección de datos debe

definir también si algunos atributos son más importantes que otros, al mismo tiempo

44 Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

83

que esbozar una evaluación sobre la calidad de los datos. Entre las actividades que es

preciso desarrollar para obtener este resultado se encuentran:

- Planificar qué información se necesitará (por ejemplo: solo atributos disponibles o

información adicional).

- Chequear si toda la información que se necesita para alcanzar los objetivos de

datamining está actualmente disponible.

- Especificar los criterios de selección de datos (determinar qué atributos son

necesarios para alcanzar los objetivos de datamining y qué atributos han sido

identificados como irrelevantes). Es preciso tener presente que los datos recolectados

de diferentes fuentes pueden provocar problemas de calidad cuando son mezclados

debido a inconsistencias de formatos o a la presencia de datos inválidos.

- Seleccionar las tablas o archivos de interés para el proyecto de datamining.

- Seleccionar datos dentro de cada tabla o archivo de interés para el proyecto.

- Determinar el número de meses pasados que debieran ser usados para seleccionar

los datos del proyecto de datamining (por ejemplo: aun si hay información disponible de

36 meses puede que sólo 18 meses de historia sean relevantes para la investigación).

- Determinar cómo se pueden obtener los atributos que faltan y que son relevantes para

el proyecto de datamining.

- Describir cómo extraer los datos (por ejemplo, vía un muestreo aleatorio simple).

El conjunto de atributos de los clientes que son necesarios para construir modelos

predictivos se entrega a continuación:

8.1.2 Datos necesarios para el proyecto: lista de atributos de los clientes

En base a la experiencia y al conocimiento del negocio de otorgamiento de crédito a

personas es posible identificar variables que, independientemente de qué grupo de

clientes se trate, son relevantes para construir modelos predictivos de riesgo y

rentabilidad. El modelo de datamining que se persigue construir corresponde a un

sistema experto que pretende simular el razonamiento de los ejecutivos comerciales y

de crédito. Por lo tanto, se han incluido en este punto sólo las variables que son

relevantes para dichos ejecutivos y que pueden encontrarse con facilidad en las bases

84

de datos operacionales de cualquier Banco. A continuación se entregará el conjunto de

88 variables candidatas a integrar los modelos predictivos de riesgo y rentabilidad

potencial, clasificadas en distintos grupos de acuerdo al tipo de característica del cliente

al que se refieren. El siguiente diagrama muestra dichas 88 variables clasificadas en

seis grupos:

Figura 8.2 Seis grupos de variables candidatas a ser consideradas en los modelos (nótese que sólo un grupo corresponde a variables de deudas)45

8.1.2.1 Grupo de variables demográficas (A)

- Región. - Cantidad de hijos. - Universidad.

- Provincia. - Cantidad de cargas. - Régimen conyugal.

- Comuna. - Nivel educacional. - ¿Tiene datos de edad?.

- Sexo. - Actividad económica. - Edad.

- Estado civil. - Profesión.


85

8.1.2.2 Grupo de variables de renta (B)

- Patrimonio. - Renta. - ¿Es independiente?.

- ¿Tiene un bien raíz?. - Tipo de renta (fija/var.).l

- ¿Tiene datos de renta?. - Antigüedad de la renta. L

8.1.2.3 Grupo de variables de vínculo con el cliente (C) Variables de tipo de relación del cliente con el Banco

- Tipo de cliente (cliente en convenio, cliente estándar, etc.).

- Antigüedad del cliente.

Servicios contratados con el Banco

- ¿Tiene líneas de crédito del Banco?.

- Fecha más remota de apertura de línea de crédito hoy vigente con el Banco.

- ¿Tiene tarjetas del Banco?.

- Fecha más remota de otorgamiento de tarjeta de crédito hoy vigente con el Banco.

- Monto original de las tarjetas de crédito del Banco que el cliente posee.

- ¿Tiene créditos no hipotecarios en el Banco?.

- Fecha más remota de otorgamiento de crédito no hipotecario vigente con el Banco.

- Monto original adeudado en créditos no hipotecarios del Banco.

- Plazo máximo de créditos no hipotecarios hoy vigentes con el Banco.

- ¿Tiene créditos hipotecarios del Banco?.

- Fecha más remota de otorgamiento de crédito hipotecario hoy vigente con el Banco.

- Monto original adeudado en créditos hipotecarios hoy vigentes con el Banco.

- Plazo máximo de créditos hipotecarios hoy vigentes con el Banco.

8.1.2.4 Grupo de variables de ingresos contables generados por cliente (D) - Ingresos contables generados por el cliente por concepto de mantención, spread de

intereses, comisiones y otros ingresos en líneas de crédito.

- Ingresos contables generados por el cliente por concepto de mantención, spread de

intereses, comisiones y otros ingresos en tarjetas de crédito.

- Ingresos contables generados por el cliente por concepto de spread de intereses,

comisiones y otros ingresos en créditos no hipotecarios.

- Ingresos contables generados por el cliente por concepto de spread de intereses,

comisiones y otros ingresos en créditos hipotecarios.

86

8.1.2.5 Grupo de variables de comportamiento (E) Variables de comportamiento del cliente con el Banco

- En qué tramo de morosidad se encuentra el cliente con el Banco (menos de treinta

días de mora, entre 30 y 60 días, entre 60 y 90 días o más de 90 días).

- Monto en mora.

- ¿Presenta deuda vencida con el Banco?.

- ¿Presenta capital castigado con el Banco?.

- Máximo de días de mora en los productos del Banco.

- ¿Cliente está en "file negativo"?.

- ¿Cliente presenta cuenta cerrada por el Banco?.

- Cliente presenta créditos renegociados que provienen de incapacidad de pago.

- Cliente presenta créditos repactados que no provienen de incapacidad de pago.

- Cliente presenta deuda de varios deudores proveniente de una tarjeta caída.

- Cliente presenta deuda de varios deudores proveniente de una línea caída.

Variables históricas de comportamiento en el sistema financiero

Los siguientes campos se han obtenido del informe SBIF y de las bases del Banco:

- Promedio de la deuda directa morosa en el sistema financiero los últimos 3 meses.

- Promedio de la deuda directa vencida en el sistema financiero los últimos 3 meses.

- Promedio de la deuda indirecta vencida en el sistema financiero los últimos 3 meses.

- Promedio del saldo de la deuda directa castigada en el sistema financiero los

últimos 3 meses.

- Promedio del saldo de la deuda indirecta castigada en el sistema financiero los

últimos 3 meses.

- Promedio de la deuda directa morosa en el sistema financiero en un periodo

comprendido entre 6 meses atrás y los últimos 3 meses.

- Promedio de la deuda directa vencida en el sistema financiero en un periodo


- Promedio de la deuda indirecta vencida en el sistema financiero en un periodo


- Promedio del saldo de la deuda directa castigada en el sistema financiero en un

periodo comprendido entre 6 meses atrás y los últimos 3 meses.

87

- Promedio del saldo de la deuda indirecta castigada en el sistema financiero en un


- Promedio de la deuda directa morosa en el sistema financiero en un periodo


- Promedio de la deuda directa vencida en el sistema financiero en un periodo


- Promedio de la deuda indirecta vencida en el sistema financiero en un periodo


- Promedio del saldo de la deuda directa castigada en el sistema financiero en un


- Promedio del saldo de la deuda indirecta castigada en el sistema financiero en un


Variables de comportamiento del cliente en boletines

- Cheques protestados.

- Otros documentos protestados en el Boletín Comercial.

- Morosidades informadas al Boletín Comercial.

8.1.2.6 Grupo de variables de deudas (F) Deudas del cliente con el Banco

- Saldo vigente en las líneas de crédito del Banco.

- Cupo disponible en las líneas de crédito del Banco.

- Saldo vigente en las tarjetas de crédito del Banco.

- Cupo disponible en las tarjetas de crédito del Banco.

- Saldo vigente en créditos no hipotecarios del Banco.

- Saldo vigente en créditos hipotecarios del Banco.

Deudas del cliente con otras instituciones

- Deuda comercial en otros bancos.

- Deuda de consumo en otros bancos.

- Deuda hipotecaria en otros bancos.

- Cupo disponible en líneas y tarjetas de crédito de otros bancos.

88

Variables de las deudas históricas en el sistema financiero

Los siguientes campos han sido obtenidos del informe SBIF

- Deuda directa vigente en el último mes del último informe de la SBIF.

- Monto de línea de crédito disponible en el último mes del último informe SBIF.

- Promedio de la deuda directa vigente en un periodo comprendido entre 6 meses

atrás y los últimos 3 meses.

- Promedio del monto de línea de crédito disponible en un periodo comprendido entre

6 meses atrás y los últimos 3 meses.

- Promedio de la deuda directa vigente en un periodo comprendido entre 15 meses

atrás y los últimos 6 meses.

- Promedio del monto de línea de crédito disponible en un periodo comprendido entre

15 meses atrás y los últimos 6 meses.

Variables de leverage y de carga financiera

Estas variables son sólo para aquellos clientes que poseen renta

- Nivel de leverage hipotecario total del cliente. El leverage hipotecario se calcula

como la deuda hipotecaria dividida por la renta.

- Nivel de leverage no hipotecario total del cliente. El leverage no hipotecario se

calcula como la deuda no hipotecaria dividida por la renta.

- Estimación de la carga financiera del cliente.

A continuación se detalla el contenido de cada una de las fuentes de datos utilizadas en

la presente investigación y que necesariamente deben estar disponibles en las bases

operacionales de cualquier Banco.

8.1.3 Fuentes de datos disponibles y suficientes para el proyecto

Un supuesto fundamental de las hipótesis de trabajo ha consistido en que existen bases

de datos operacionales que cualquier Banco debe poseer y que proveen información

suficiente para realizar los estudios de datamining contemplados en esta investigación.

La descripción de la información contenida en dichas fuentes de datos se entrega a

continuación:

Informe de la SBIF: corresponde al informe de deudas de cada cliente en el sistema

financiero chileno. Es un archivo que entrega mensualmente la SBIF a los Bancos y el

89

cual incluye las deudas consolidadas de 4,5 millones de personas. Dicho informe

reporta la deuda castigada, vencida, morosa y vigente, junto al cupo disponible en

líneas y en tarjetas de cada persona. Se proveen todos esos datos para 13 meses

distintos y consecutivos, con un desfase de dos meses entre el último mes y el

presente.

Informe D01 enviado a la SBIF: corresponde a un informe que mensualmente todos los

Bancos están obligados a enviar a la SBIF, y que detalla las deudas que cada uno de

sus clientes mantiene con ellos, clasificadas en deudas de consumo, comerciales e

hipotecarias, cada una dividida en deuda vigente o vencida y subdividida en cuentas de

activo y de orden. Se reporta además en este informe la deuda castigada del cliente

con el Banco. Adicionalmente, para poder identificar qué deudas del archivo de

operaciones fueron reportadas a la SBIF y bajo qué criterio, esta fuente de datos debe

además incorporar información que detalla para cada cuenta asociada a una operación

(intereses, capital, etc.) el monto que es reportado a la SBIF en el D01 bajo una de las

categorías siguientes:

- Deuda directa vigente por créditos comerciales en cuentas de activo

- Deuda directa vencida por créditos comerciales en cuentas de activo

- Deuda directa vigente por créditos comerciales en cuentas de orden

- Deuda directa vencida por créditos comerciales en cuenta de orden

- Deuda directa vigente por créditos de consumo en cuentas de activo

- Deuda directa vencida por créditos de consumo en cuentas de activo

- Deuda directa vigente por créditos de consumo en cuentas de orden

- Deuda directa vencida por créditos de consumo en cuentas de orden

- Deuda directa vigente por créditos hipotecarios para la vivienda en ctas. de activo

- Deuda directa vencida por créditos hipotecarios para la vivienda en ctas. de activo

- Deuda directa vigente por créditos hipotecarios para la vivienda en ctas. de orden

- Deuda directa vencida por créditos hipotecarios para la vivienda en ctas. de orden

Saldos el día de envío del D01: corresponde a una base de datos operacional con la

información, el día del envío del informe D01 a la SBIF hace dos meses, de cada uno

de los productos que tiene vigente cada cliente con el Banco. Debe contener la fecha

de otorgamiento del producto, su fecha de extinción, el monto original en pesos de los

90

créditos otorgados, el saldo operacional, el monto impago en los distintos tramos de

morosidad, el monto del capital vencido, el monto del capital castigado, el saldo

disponible en pesos de las líneas y tarjetas, la tasa de interés anual del producto, el

plazo en meses de éste y el tipo de producto al que se refiere.

Productos: corresponde a un archivo que contiene una lista de códigos de productos en

los que el Banco asume una posición acreedora y que son clasificados en créditos de

consumo, créditos comerciales, créditos hipotecarios, líneas o tarjetas de crédito. En

este archivo se identifican también los créditos que provienen de incapacidad de pago

de los clientes (como es el caso de los créditos “varios deudores” entregados a clientes

que no pudieron pagar tarjetas o líneas de crédito vencidas). Es preciso señalar que

otras fuentes de datos contienen información sobre los productos, como es el caso de

los “Saldos el día de envío del D01” y de los “Saldos actuales”, no obstante los archivos

operacionales de los Bancos pueden ser inmensamente complejos, por lo que es de

cualquier forma necesario disponer de una tabla de clasificación de los productos a

partir de su código. Esta fuente de datos denominada “Productos” constituye

precisamente dicha tabla de clasificación.

Saldos actuales: corresponde a una base de datos operacional con la información, el

día presente, de cada uno de los productos que tiene vigente cada cliente con el Banco.

Al igual que los “Saldos el día de envío del D01” debe contener la fecha de

otorgamiento del producto, su fecha de extinción, el monto original en pesos, el saldo

operacional, el monto impago en los distintos tramos de morosidad, el monto del capital

vencido, el monto del capital castigado, el saldo disponible en pesos de las líneas y

tarjetas, la tasa de interés anual del producto, el plazo en meses de éste y el tipo de

producto del que se trate.

Rentas de clientes: corresponde a una base de datos con la información financiera de

cada cliente, incluyendo la fecha de su último estado financiero declarado, su

patrimonio, si posee un bien raíz, su renta, el tipo de renta (fija o variable) y si se trata

de un trabajador dependiente o independiente.

Características demográficas: corresponde a la integración de múltiples archivos y

bases de datos operacionales del Banco. Contiene información demográfica tal como el

estado civil, el número de hijos, el nivel educacional, la profesión, el tipo de cliente, la

91

Universidad y el régimen conyugal. Los campos fundamentales que debe incluir esta

fuente de datos son las fechas de nacimiento, las naturalezas jurídicas de las personas,

el campo que indica si se trata de un cliente que presenta alguna cuenta cerrada por el

Banco, y el campo que señala si éste se encuentra en el denominado “File Negativo”.

Factores estimados de carga: corresponde a un archivo de parámetros que contiene los

porcentajes estimados de carga financiera a asignar a la deuda de los clientes con otras

instituciones en las categorías hipotecaria y no hipotecaria.

Ingresos contables por cliente: corresponde generalmente a un datamart que registra

los ingresos que percibe el Banco anualmente por cada cliente en cada producto por

concepto de cobro de mantención, spread de la tasa de interés sobre el costo de fondo,

comisiones por uso de Redbank, cheques y otras transacciones, seguros asociados a

las cuentas y otros ingresos.

8.2 Describir los datos (tarea 2b)

En esta tarea deberán describirse los datos en términos de tipo, distribución, tablas de

frecuencia, valores máximo y mínimo, y estadígrafos tales como el promedio, la

varianza, la asimetría y la curtosis, entre otros.



8.2.1 Reporte de descripción de datos (output 2b.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado describe

los datos que han sido obtenidos, incluyendo su formato y cantidad en términos de

número de registros y de campos de cada tabla. Entre las actividades que es preciso


- Analizar el volumen de los datos.

- Identificar los datos y el método de captura.

- Accesar las fuentes de datos.

- Utilizar análisis estadísticos de ser éstos necesarios para describir los datos.

92

- Realizar un reporte de las tablas que se utilizarán en el proyecto junto a sus

relaciones.

- Chequear la consistencia del volumen de los datos, su multiplicidad y complejidad.

- Verificar que los datos contengan datos consistentes en texto libre.

- Verificar la accesibilidad y la disponibilidad de los atributos o campos de las tablas.

- Verificar los tipos de atributos o campos (numéricos, simbólicos, etc.).

- Chequear los rangos de valores de los atributos o campos.

- Analizar las correlaciones entre los atributos.

- Comprender el significado en términos de negocios de cada atributo y de sus valores.

- Para cada atributo, calcular los estadísticos básicos (promedio, máximo, mínimo,

desviación estándar, varianza, asimetría, curtosis).

- Analizar los estadísticos básicos y relacionar los resultados con un significado en

términos de negocios.

- Determinar si es relevante cada atributo para los distintos objetivos de datamining.

- Entrevistar a expertos en la materia para recoger su opinión respecto de la relevancia

de cada atributo o campo a ser utilizado en el proyecto. Verificar si es necesario

balancear los datos, dependiendo de la técnica de modelamiento utilizada.

- Analizar las relaciones entre las distintas llaves de las tablas de datos a usar en el

proyecto.

- Revisar los supuestos y los objetivos del proyecto.

- Actualizar la lista de supuestos si es necesario.

8.3 Explorar los datos (tarea 2c)

Esta tarea corresponde a un conjunto de análisis de los datos realizados mediante el

empleo de gráficos y tablas. A partir de dichos análisis puede obtenerse información

valiosa sobre la composición de la cartera de clientes de un Banco, sobre tendencias

interesantes y sobre oportunidades de negocios no visualizadas previamente. Dichos

análisis pueden también estar dirigidos directamente al cumplimiento de los objetivos de

93

datamining, como así también al refinamiento de la descripción de los datos o a la

verificación de la calidad de los mismos.



8.3.1 Reporte de exploración de datos (output 2c.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este output consiste en

una descripción de los resultados de la tarea de exploración de los datos, incluyendo

los primeros descubrimientos o las hipótesis iniciales y su impacto sobre el resto del

proyecto. El reporte puede también incluir gráficos que indiquen las características de

los datos o que conduzcan a la obtención de subconjuntos de datos interesantes para

exámenes ulteriores. Entre las actividades que es preciso desarrollar para obtener este

resultado se encuentran:

- Analizar en detalle las propiedades de aquellos atributos que sean particularmente

interesantes.

- Identificar las características de las subpoblaciones.

- Formar supuestos para futuros análisis.

- Evaluar la información y los descubrimientos que se han elaborado previamente en el

reporte de descripción de los datos (output 2b.1).

- Armar hipótesis sobre los datos.

- Transformar las hipótesis en objetivos de datamining, si es posible.

- Clarificar los objetivos de datamining o hacerlos más precisos.

- Ejecutar análisis básicos para verificar las hipótesis sobre los datos.

8.4 Verificar la calidad de los datos (tarea 2d)

Esta tarea consiste en examinar la calidad de los datos, chequeando que éstos estén

completos, que no tengan valores faltantes y que cubran todos los casos requeridos. Si

los datos contienen errores, debe determinarse qué tan frecuentes son éstos, y si hay

valores faltantes es preciso investigar cómo están representados, dónde ocurren, y qué

94

tan comunes son. Las descripciones de los resultados que deben obtenerse como fruto

de esta tarea se entregan a continuación:

8.4.1 Reporte de calidad de los datos (output 2d.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado

corresponde a una lista de chequeos sobre la calidad de los datos. Si en los datos hay

problemas de calidad, este output debe contener una lista de las posibles soluciones.



- Identificar valores especiales que pueden asumir los campos de los datos y realizar un

catálogo de su significado.

- Revisar las llaves y los atributos de las tablas de los datos.

- Chequear cobertura de los datos (todos los valores que pueden estar representados).

- Chequear si calzan los significados de los atributos con los valores que contienen.

- Identificar los atributos faltantes y los campos en blanco.

- Revisar atributos con un mismo significado, pero que presentan valores distintos.

- Chequear las desviaciones que se producen con respecto al grueso de valores de un

conjunto de datos, y decidir si una desviación particular corresponde o no a un “ruido”.

- Chequear qué tan plausibles son los valores que presentan los campos de los datos

(por ejemplo: todos los campos no pueden tener los mismos o casi los mismos valores).

- Revisar todos los atributos que permiten elaborar conclusiones que caen en conflicto

con el sentido común (por ejemplo: carga financiera superior a un 100%).

- Usar distintos tipos de gráficos para mostrar las inconsistencias en los datos.

- Si los datos están almacenados en archivos de texto plano, chequear qué delimitador

es utilizado y si es usado en forma consistente en todos los atributos. Chequear el

número de campos en cada registro y ver si coinciden.

- Chequear consistencias y redundancias entre diferentes fuentes de datos.

- Planificar cómo manejar el ruido en los datos. Excluir, si es necesario, algunos datos.

- Detectar el tipo de ruido que se presenta en los datos y qué atributos son afectados.

95

9 TERCERA FASE DEL PLAN: PREPARACIÓN DE LOS DATOS


de preparación de los datos de la metodología CRISP-DM, junto a los resultados o

outputs que deben obtenerse de la ejecución de cada una de ellas:

Figura 9.1 Tareas y outputs de la fase de preparación de los datos, tercera fase del proyecto de datamining según metodología CRISP-DM46


96

El conjunto de tareas de la fase de preparación de los datos, junto a sus

correspondientes resultados se describen a continuación. Se entregan consejos y

recomendaciones que recogen conceptos de la guía de usuario CRISP-DM47 a la vez

que aportes extraídos de la experiencia y reflexión del autor de este documento.

Esta investigación, como se ha señalado antes, no emplea ningún conjunto de datos,

por lo que sólo podrán entregarse indicaciones conceptuales y generales sobre los

resultados que requieren manipulación de datos concretos. Tal es el caso de las

razones para la inclusión o exclusión de datos en el estudio (output 3a.1), del reporte de

limpieza de datos (output 3b.1), de los registros generados (output 3c.2) y de los datos

reformateados (output 3e.1). En cambio, el supuesto sobre la existencia de fuentes de

datos con información suficiente para ésta investigación permite entregar indicaciones

detalladas sobre cómo generar el output 3z.1, a la vez que sobre la descripción de ese

resultado (output 3z.2). De igual modo, mediante el empleo de atributos derivados

(output 3c.1) y de datos mezclados (output 3d.1) es posible también en este capítulo

mostrar cómo pueden estimarse las deudas de los clientes con otras instituciones

financieras a partir de la información disponible en las fuentes de datos.

Dos de los resultados de esta fase no están vinculados a ninguna tarea específica y se

describen en primer lugar (output 3z.1 y 3z.2).

9.1 Conjunto de datos (output 3z.1)

De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste

en el conjunto de datos que son usados para el modelamiento y para la mayor parte del

trabajo de análisis del proyecto de datamining. En la obtención de este resultado es

preciso realizar un esfuerzo considerable al no disponer de un datawarehouse que

almacene toda la información histórica necesaria para construir modelos predictivos de

riesgo y rentabilidad. Tal esfuerzo debe concentrarse en la integración de datos

provenientes de sistemas computacionales distintos y que presentan necesariamente

inconsistencias debido a que contienen información obtenida en fechas distintas.


97

9.1.1 Obtención automatizada del conjunto de datos en Clementine

En esta sección se ilustrará como en un Banco carente de un datawarehouse es posible

construir una base de datos con toda la información necesaria para elaborar modelos

predictivos de riesgo o rentabilidad. Dicha base de datos, que corresponde al output

3z.1 del modelo CRISP-DM, será denominada “base final para construir modelo

predictivo” y constará de las siguientes componentes:

a.- Los valores observados hoy de las variables que se esperaba predecir hace un año.

b.- El conjunto de valores de las variables predictivas en igual periodo.

La idea de la presente investigación es desarrollar modelos que a partir de las variables

predictivas hace un año (punto “b” del output 3z.1), sean capaces de estimar el valor

que tendrían en la actualidad las variables a predecir. Dichas estimaciones pueden

contrastarse con los valores observados hoy de aquellas variables (punto “a” del output

3z.1). Se espera construir modelos a partir de las variables del punto “b” cuyas

estimaciones no difieran mucho de las observaciones del punto “a”.

Las variables a predecir son dos: la condición del cliente de ser “malo” en términos de

crédito, y la condición del cliente de ser alguien “sin gran rentabilidad potencial”. El

conjunto de valores de las variables predictivas observables cuando todas las fuentes

de datos tienen fecha de un año atrás se denominará “base de variables predictivas

hace un año”. Por el contrario, el conjunto de valores de las variables predictivas

observables cuando todas las fuentes de datos tienen fecha de hoy se denominará

“base de variables predictivas hoy”. Mientras la “base de variables predictivas hace un

año” permite estimar el valor que tendrían hoy las variables a predecir, la “base de

variables predictivas hoy”, permite estimar el valor que ellas tendrían dentro de un año.

Por la forma como se han definido en la sección 7.2.4 los conceptos de cliente “malo” y

de cliente “sin gran rentabilidad potencial”, los valores de las variables del punto “a” del

output 3z.1 pueden determinarse a partir de la “base de variables predictivas hoy”. En

efecto, cada una de las características que debe poseer un cliente para ser clasificado

como “malo”, o “sin gran rentabilidad potencial” puede determinarse mediante simple

observación de grupos de variables presentes en la “base de variables predictivas hoy”,

sin mediar estimación ni predicción alguna, como se muestra a continuación:

98

Las características de un cliente “malo”, las cuales se detallan a continuación, pueden

todas observarse a partir del grupo de variables de comportamiento:

- Haber presentado deuda directa vencida o deuda directa castigada en los últimos 12

meses de los informes de la SBIF.

- Presentar saldo de capital castigado con el Banco.

- Presentar monto de cartera vencida con el Banco.

- Presentar una deuda renegociada con el Banco que provenga con certeza de créditos

vencidos o castigados.

- Figurar con alguna cuenta “varios deudores” en el Banco, la cual con certeza

provenga de más de 60 días de mora en alguna tarjeta de crédito.

- Figurar en el denominado “file negativo” del Banco, que reúne al conjunto de clientes

con los que éste no desea operar.

- Figurar en el listado de clientes cuyas cuentas han sido cerradas por el Banco.

En cambio, las características de un cliente “sin gran rentabilidad potencial”, y que se

detallan a continuación, pueden observarse a partir de grupos de variables

demográficas, de renta, de comportamiento y de deudas:

- La conjunción de no ser profesional, poseer un ingreso mensual inferior a un monto

determinado y no ser lo suficientemente joven para cambiar de actividad.

- La conjunción de ser profesional, poseer un ingreso mensual inferior a un monto

determinado y no ser profesional joven.

- Ejercer determinadas profesiones y oficios que son mal remunerados, que no permiten

a las personas aumentar sus ingresos significativamente en el futuro, y en los cuales los

sujetos tienden a desempeñarse durante toda su vida.

- La conjunción de no poseer patrimonio, ser mayor a una edad determinada y poseer

un ingreso inferior a un monto determinado.

- Ser hombre y ser una persona mayor.

- Ser mujer y ser una persona mayor.

- Ser un cliente “malo” en términos de riesgo de crédito.

99

- Poseer una capacidad residual de endeudamiento menor a un millón de pesos.

La figura 9.2 muestra como es posible elaborar en Clementine el output 3z.1 a partir de

la “base de variables predictivas hace un año” y de la “base de variables predictivas

hoy”. El flujo de datos, a parte de servir como un diagrama explicativo, constituye un

programa computacional de procesamiento de datos.

Figura 9.2 Flujo de datos en Clementine que obtiene la base de datos final para construir un modelo predictivo48

El nodo etiquetado “Valor hoy de variables que se esperaba predecir hace un año” es

utilizado para calcular los valores de las variables que establecen la condición del

cliente de ser “malo” y de ser alguien “sin gran rentabilidad potencial”. Dichos valores

son calculados a partir de los registros del nodo etiquetado “Base de variables

predictivas hoy”. Luego, de los registros obtenidos se seleccionan solamente los

campos adicionales recién calculados, lo cual se efectúa en el nodo etiquetado

“Selecciona sólo variables que se esperaba predecir hace un año”. Se obtiene de esa

manera lo que corresponde a la parte “a” del output 3z.1, la cual se mezcla con los

registros del nodo “Base de variables predictivas hace un año”, que aporta la parte “b”

del output 3z.1. Se obtiene finalmente una “Base final para construir modelo predictivo”,

que corresponde al output 3z.1

A continuación se entrega el significado de los distintos símbolos utilizados en los flujos

en Clementine, para luego describir el funcionamiento completo del flujo de datos que

obtiene una base de variables predictivas. 48 Fuente: elaboración propia

100

9.1.1.1 Símbolos usados en Clementine para procesar datos Los distintos símbolos usados en los diagramas en Clementine se explican agrupados

en conjuntos con características similares. Los símbolos que se entregan a la derecha

de cada par de íconos se utilizan en este documento para resaltar nodos al momento

de ser explicados en los diagramas.

Supernodos definidos por el usuario:

Los siguientes íconos con forma de estrella, denominados “supernodos”, representan

nodos definidos por el usuario en Clementine y resumen por sí solos flujos de datos

completos. Pueden procesar, depurar, reemplazar o mezclar datos, cambiar su formato

o calcular campos. Si bien pueden llegar a ser arbitrariamente complejos, es posible

concebirlos como simples cajas negras que reciben datos en un input, realizan alguna

labor sobre ellos, y arrojan datos en un output.

Estos íconos reciben como input un flujo de datos online proveniente

de otro nodo en Clementine y luego de procesarlo entregan como

output otro conjunto de datos online, para que éste sea usado a su

vez por otros nodos.

Éstos iconos no reciben sus inputs vía online de otros nodos de

Clementine, sino que directamente de bases de datos. Constituyen,

por lo tanto, los nodos de input de un flujo de datos en Clementine.

Estos íconos reciben online un input de datos proveniente de otros

nodos en Clementine, y luego de procesarlo guardan sus resultados

directamente en bases de datos. Constituyen, por lo tanto, los nodos

de output de un flujo de datos en Clementine.

Flujos de datos:

Estas flechas representan datos que fluyen online en Clementine

desde el output de un nodo hasta el input de otro nodo. Para facilitar

la comprensión de los diagramas en este documento los flujos de

datos casi siempre van de izquierda a derecha.

101

Archivos de parámetros:

Estos íconos representan archivos de que no contienen información

de las bases de datos operacionales propiamente tales, sino tan sólo

parámetros (como la clasificación de los productos, los factores

estimados de carga financiera a asignar a los distintos tipos de

clientes, etc.). Corresponden a pequeños archivos de texto.

Nodos de operaciones sobre los registros o campos:

Los siguientes íconos con forma de hexágono vienen predefinidos en Clementine y

tienen en común el realizar operaciones ya sea sobre los registros de los flujos de

datos, o sobre sus campos (atributos). Dichas operaciones pueden corresponder a la

selección de algunos campos o registros, o a distintas formas de mezclar los datos:

Este icono recibe como input un flujo de datos con un conjunto de

campos (atributos) para cada cliente y entrega como output el mismo

conjunto de datos, sin agregar ni eliminar ningún cliente, pero

habiendo eliminado algunos campos.

Este icono recibe como input un flujo de datos con un conjunto de

campos para cada cliente y entrega como output el mismo conjunto de

datos, pero habiendo eliminado algunos clientes.

Este icono representa la mezcla de dos flujos de datos recibidos como

input, entregando en el output los campos que aporta para cada

cliente tanto el primer como el segundo flujo. En la modalidad “anti-

join” permite seleccionar los registros de clientes del primer flujo que

no están presentes en los registros del segundo flujo.

Este icono representa también la mezcla de dos flujos de datos

recibidos como input, con la diferencia de que en este caso cada flujo

provee exactamente los mismos campos, pero referidos a conjuntos

completamente distintos de clientes. Este icono entrega en el output

los registros de los clientes que recibe en ambos inputs, sin agregar ni

eliminar ningún campo a ningún cliente.

102

En la figura 9.2 se ha hecho referencia a bases de variables predictivas con datos

actuales y con datos válidos hace un año. Ambas bases pueden obtenerse con el flujo

de datos de la figura 9.3 dada abajo, alimentando apropiadamente dicho diagrama con

fuentes de datos con información vigente hoy, o por el contrario vigente hace un año.

Las fuentes de datos con información hace un año pueden obtenerse a partir los

respaldos en cinta de las bases operacionales. El diagrama 9.3 ilustra cómo obtener

una de tales “bases de variables predictivas” a partir de la mezcla, procesamiento y

depuración de las fuentes de datos que cualquier Banco debe necesariamente poseer,

y que se resaltan a la izquierda de la figura. La “base de variables predictivas”, en tanto,

se obtiene en la esquina inferior derecha luego de un largo procesamiento.

Figura 9.3 Gran flujo de datos de Clementine mostrando la obtención de una base de variables predictivas a partir de distintas fuentes de datos49


103

9.1.1.2 Flujo de datos que obtiene base de variables predictivas En primer lugar, el flujo de datos trata de determinar las deudas que el cliente tiene con

otras instituciones financieras, para lo cual se requiere conocer las deudas del cliente

con el Banco y que fueron informadas a la SBIF hace dos meses. La idea fundamental

que se utiliza para estimar las deudas del cliente con otras instituciones es que no es

posible conocer dichas deudas hoy, pero si es posible conocer las obligaciones que

hace dos meses tenía el cliente en el sistema financiero. Ello se debe a que el informe

que elabora la SBIF, y que contiene las deudas consolidadas en el sistema financiero

de 4,5 millones de chilenos, es entregado a los Bancos con un desfase de dos meses.

Restando a las deudas que hace dos meses tenía el cliente en el sistema financiero

aquellas deudas que en igual periodo tenía el cliente con el propio Banco es posible

obtener con exactitud las deudas de los clientes con otras instituciones hace dos

meses. A falta de mayor información esa es la mejor estimación para las deudas que

una persona tiene con terceros hoy.

La figura 9.4, dada abajo, muestra como se obtienen las deudas del cliente con el

Banco y que fueron informadas a la SBIF hace dos meses. El diagrama es el mismo

antes entregado en la figura 9.3, con la salvedad de que en la figura la porción del

diagrama que se está analizando es resaltada en un pequeño recuadro en la esquina

superior izquierda. Dicho recuadro es ampliado en un cuadro de detalle en la esquina

inferior derecha. Los registros de la fuente de datos etiquetada “Saldos el día de envío

del D01” se mezclan con el archivo de parámetros titulado “Productos”, de manera tal

de considerar sólo los saldos de cuentas que corresponden efectivamente a productos

de créditos y no a otro tipo de productos o cuentas. Además, el cruce con el nodo

“Productos” permite clasificar los saldos en créditos comerciales, hipotecarios, de

consumo o cupos de líneas o tarjetas. El resultado de dicha mezcla se cruza a su vez

con el “Informe D01 enviado a la SBIF”, de manera que cada ítem reportado a la SBIF

(ya sea como interés, capital o monto en mora), pueda ser atribuido a un producto que

el cliente tenía vigente con el Banco hace dos meses. Así, se arriba al nodo “Deudas de

cliente con el Banco informadas a la SBIF”, cuyos registros almacenan entre sus

campos a una porción de las deudas que presentaban los clientes en el sistema

financiero hace dos meses, porción que corresponde efectivamente a deudas con el

propio Banco.

104

Figura 9.4 Flujo de datos en Clementine que obtiene las deudas de los clientes con el Banco y que fueron informadas a la SBIF hace dos meses50

De acuerdo al plan para estimar las deudas de los clientes con otras instituciones se

mezcla el flujo de datos conseguido hasta este momento y titulado “Deudas de cliente

con el Banco informadas a la SBIF” con la fuente de datos etiquetada “Informe de la

SBIF” y que contiene las deudas consolidadas de los clientes en el sistema financiero

hace 2 meses. Restando a dichas deudas consolidadas las obligaciones de los clientes

con el propio Banco hace dos meses, se obtiene una estimación para las deudas de los

clientes con otras instituciones en el nodo “Deudas de clientes con terceros”, como se

muestra abajo en la figura 9.5. Es preciso notar, sin embargo, que dicho nodo no

contiene las deudas con terceros de aquellos clientes que nunca figuraron en el informe


105

D01 enviado a la SBIF hace dos meses. Dicha falencia se solucionará más adelante

(concretamente en el diagrama descrito en la figura 9.9).

Figura 9.5 Flujo de datos en Clementine que estima las deudas de un cliente con terceros51

Se ha obtenido hasta este momento una estimación de las deudas de los clientes con

terceros a partir de las deudas informadas a la SBIF hace dos meses. Sin embargo, en

el caso de las deudas que mantienen los clientes con el propio Banco puede conocerse

el saldo actualizado de dichas obligaciones. Los siguientes diagramas tienen por

propósito precisamente obtener las deudas actualizadas de los clientes con el Banco.

En el diagrama 9.6 se mezclan en primer término los “Saldos actuales” de las cuentas

con los “Productos”, con el fin de clasificar las deudas en créditos comerciales, deudas


106

hipotecarias, créditos de consumo, cupos de tarjetas o líneas. Luego dichas deudas son

divididas entre aquellas que corresponden a deudas de cuentas que existían antes del

envío del archivo D01 a la SBIF hace dos meses, y aquellas que son obligaciones

contraídas por los clientes con el Banco hace menos de dos meses, y que por lo tanto

no fueron enviadas en el D01. Ambas bifurcaciones corresponden a los nodos

etiquetados “Saldos de cuentas creadas antes del envío del D01” y “Saldos de cuentas

creadas después del envío del D01”, como se muestra a continuación:

Figura 9.6 Flujo de datos en Clementine que obtiene los saldos actuales de las cuentas, tanto antes como después del envío del D01 hace dos meses52

Los datos del nodo “Saldos de cuentas creadas antes del envío del D01” servirán para

actualizar las obligaciones que tenían los clientes con el Banco hace dos meses y que


107

por lo tanto aparecen entre las deudas consolidadas de los clientes en el último informe

de la SBIF. El diagrama 9.7 muestra esa actualización, mezclando el flujo “Saldos de

cuentas creadas antes del envío del D01” con los registros provenientes del nodo que

cruza “Informe D01 enviado a la SBIF” y la mezcla de “Saldos el día de envío del D01” y

“Productos”. El resultado es etiquetado “Saldos actualizados de cuentas reportadas en

el D01 enviado a la SBIF”.

Figura 9.7 Flujo de datos en Clementine que obtiene los saldos actualizados de las cuentas reportadas hace dos meses en el D01 enviado a la SBIF53

El siguiente diagrama muestra como se consolidan la totalidad de deudas de los

clientes con el Banco, tanto aquellas que se refieren a cuentas informadas a la SBIF

hace dos meses como aquellas que el cliente contrajo posteriormente. Ello se obtiene


108

mediante la mezcla del resultado del nodo “Saldo de cuentas creadas después del

envío del D01” y del nodo “Saldos actualizados de cuentas reportadas en el D01

enviado a la SBIF”. El resultado es denominado “Deudas de clientes con el Banco”.

Figura 9.8 Flujo de datos en Clementine que obtiene las deudas actualizadas de los clientes con el Banco54

El lector habrá podido observar que el nodo “Saldos actuales” ya contenía las deudas

actualizadas de los clientes con el Banco. No parece muy inteligente separar los

registros de dicho nodo en “Saldos de cuentas creadas antes del envío del D01 y

“Saldos de cuentas creadas después del envío del D01”, para luego volver a unir ambos

conjuntos de registros en el nodo “Deudas de clientes con el Banco”. La separación y

posterior unión de registros se realiza con el propósito de descartar errores en los


109

archivos operacionales. En efecto, si una cuenta fue creada antes de la fecha de envío

del D01 hace dos meses, entonces necesariamente debiera aparecer entre los registros

del nodo “Informe D01 enviado a la SBIF”, o de lo contrario correspondería a un error

en los archivos operacionales, y debiera por lo tanto ser descartada. En este caso se

supone que los registros del nodo “Informe D01 enviado a la SBIF” no presentan los

errores que se observan en los datos operacionales del nodo “Saldos actuales”. Ello se

fundamenta en el hecho de que la información provista a la SBIF debe pasar por

exhaustivos procesos de depuración previos.

Si bien el número de errores en los datos puede ser muy reducido, es preciso

considerar que mecanismos como el antes descrito son vitales en datamining para

limitar su impacto. En efecto, aun cuando los datos puedan contener un 2% de datos

erróneos, ello puede ser totalmente inaceptable para construir modelos que traten de

detectar a clientes malos en una cartera (debe tenerse en consideración que los

clientes “malos” representarán generalmente un porcentaje inferior a un 2% de la

cartera55). La reducción de los errores presentes en la muestra que se empleará para

construir un modelo es uno de los medios para mejorar la predictibilidad de dicho

modelo.

Siguiendo con la explicación del flujo de datos que genera el output 3z.1, es preciso

notar que hasta este momento se han obtenido dos cosas importantes con los

diagramas de Clementine:

- Las deudas actualizadas del cliente con el Banco

- Una estimación de las deudas con terceros de los clientes que figuraron en el D01

enviado a la SBIF hace dos meses.

Falta, no obstante, un tercer elemento para obtener las deudas totales de los clientes,

tanto con el Banco como con terceros: el conjunto de deudas con terceros de aquellos

clientes recientes que nunca figuraron en el D01 enviado a la SBIF hace dos meses.

Dichos clientes recientes se denominarán “nuevos” de aquí en adelante. El siguiente

diagrama muestra la mezcla de los nodos “Deudas de clientes con terceros” y “Deudas

de clientes con el Banco”, para luego clasificar los resultados en “clientes nuevos” (con

menos de dos meses en el Banco) y “clientes antiguos”:

55 El autor del presente documento sugiere limitar los errores en los datos a niveles inferiores a 0,1%.

110

Figura 9.9 Flujo de datos en Clementine que separa los clientes “nuevos” (de hace menos de dos meses) de los clientes antiguos56

El flujo explicado hasta este punto nunca ha rescatado las deudas del informe SBIF de

aquellos clientes que son “nuevos”. En efecto, en el flujo de datos se han obtenido

únicamente los registros del informe de la SBIF que corresponden a clientes que

figuraron en el informe D01 enviado hace dos meses, en circunstancias que los clientes

“nuevos” nunca estuvieron en dicho informe. Para obtener una estimación de las

deudas con terceros de esos clientes será preciso cruzar el nodo “clientes nuevos” con

el nodo “Informe de la SBIF”. Las estimaciones de las deudas de los clientes “nuevos”

con terceros no será otra cosa que la totalidad de las deudas de dichos clientes en el

último informe de la SBIF. Dichas estimaciones se muestran en el siguiente diagrama a

través del nodo denominado “Deuda con terceros de clientes nuevos”: 56 Fuente: elaboración propia

111

Figura 9.10 Flujo de datos en Clementine que estima las deudas con terceros de los clientes “nuevos” (de menos de dos meses de antigüedad)57

En la figura 9.10 el recuadro superior que se utiliza para explicar el flujo de datos está

constituido por dos áreas disjuntas con borde sinusoidal, las cuales luego de ser

ampliadas aparecen en la parte inferior del diagrama en un cuadro de detalle. Dicha

representación no tiene otro propósito que mostrar el cuadro de detalle con un nivel de

aumento que facilite la lectura. Una representación análoga para el área a ser explicada

se utiliza en la figura 9.11, la cual muestra como se obtiene una base general de

clientes a partir de la unión de los registros del nodo “clientes antiguos” y del nodo

“Deudas con terceros de clientes nuevos”. El resultado es etiquetado “Deudas de

clientes con el Banco y terceros”.


112

Figura 9.11 Flujo de datos en Clementine que obtiene las deudas de los clientes tanto con el Banco como con terceros58

Hasta el momento pareciera que el diagrama en Clementine tuviese por propósito

simplemente estimar adecuadamente las deudas de los clientes y en verdad ese ha

sido principalmente el foco hasta ahora. No obstante, es preciso indicar que junto con

los flujos de datos descritos hasta este momento deben necesariamente viajar campos

que no corresponden a deudas y que son vitales para construir la base de variables

predictivas. Entre esos campos se encuentran las variables del tipo de relación del

cliente con el Banco (antigüedad, tipo de cliente, etc.), los servicios contratados con el

Banco y las variables de comportamiento histórico (morosidades, deudas vencidas,

etc.). A parte de esos campos es preciso también enriquecer el flujo de datos con


113

variables demográficas y de renta, lo cual se realiza a través del flujo de datos descrito

en la figura 9.12 dada abajo:

Figura 9.12 Flujo de datos en Clementine que mezcla los datos de las deudas de los clientes, de su renta y de sus características demográficas59

El diagrama 9.12 muestra la mezcla del nodo “Deudas de clientes con el Banco y

terceros” con la fuente de datos “Rentas de clientes”. El resultado de la mezcla anterior

aparece en la figura bajo la etiqueta “¿Existe renta?”, y es mezclado a su vez con la

fuente de datos “Características demográficas”. El resultado final es denominado “¿Está

en file negativo?” por permitir, entre otras cosas, identificar a los clientes impedidos de

operar con el Banco. El siguiente diagrama, en tanto, muestra la obtención de la base

de variables predictivas a partir del flujo de datos antes descrito.


114

Figura 9.13 Flujo de datos en Clementine que obtiene la base de variables predictivas60

El conjunto de datos recibido de las etapas anteriores a través del nodo “¿Está en file

negativo” es mezclado con los registros de la fuente de datos denominada “Factores

estimados de carga”. Dicha fuente de datos contiene, para distintos tramos de renta,

una estimación de la carga financiera que un cliente promedio tendría por cada 100

pesos de deuda en el sistema financiero, distinguiendo la deuda en categorías

“hipotecaria” y “no hipotecaria”. El resultado de la mezcla permite calcular el nivel de

carga financiera de cada cliente, lo cual es realizado en el nodo que aparece en el

diagrama bajo la etiqueta “Carga financiera”. Finalmente, la mezcla del nodo “Carga

financiera” con la fuente de datos “Ingresos contables por cliente” genera la “Base de

variables predictivas” final, como indica la figura en el margen inferior derecho. 60 Fuente: elaboración propia

115

En las secciones previas se ha discutido ampliamente cómo es posible obtener el

conjunto de datos correspondiente al output 3z.1 de la fase de preparación de los datos,

sirviéndose para ello de la herramienta de datamining utilizada en el presente

documento (Clementine). En las secciones siguientes continuarán describiéndose los

distintos resultados que deben obtenerse y las distintas tareas que deben realizarse

como parte de la fase de preparación de los datos del proyecto de datamining.

9.2 Descripción del conjunto de datos (output 3z.2)

Este resultado es el segundo de esta fase del proyecto de datamining que no está

vinculado directamente a ninguna tarea, y corresponde a la descripción del output 3z.1,

denominado en este documento “Base final para construir modelo predictivo”.

El output 3z.1 debe contener toda la información que a priori se considera relevante

para elaborar un modelo capaz de predecir el comportamiento futuro del cliente en

términos de riesgo y de rentabilidad potencial. El output 3z.1 debe poseer, por lo tanto,

90 campos, incluyendo un campo para cada una de las 88 variables descritas en el

capítulo 8. Además debe incluir dos campos adicionales para las variables que se

espera predecir, y que son la condición de ser “malo” en términos de riesgo y de ser un

cliente “sin gran rentabilidad potencial”.

9.3 Seleccionar los datos (tarea 3a)

Esta tarea consiste en escoger los datos que serán utilizados en el proyecto de

datamining. Los criterios de selección deberán incluir tanto la relevancia para los

objetivos de datamining, como las restricciones técnicas y de calidad (tales como los

límites en la capacidad de almacenamiento de los datos).



9.3.1 Razones para la inclusión o exclusión de datos (output 3a.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste

en una lista de todos los datos a ser usados o a ser excluidos en el proyecto de

datamining, junto a las razones que justifican dichas decisiones. Entre las actividades

que es preciso desarrollar para obtener este resultado se encuentran las siguientes:

116

- Recolectar datos adicionales de diferentes fuentes, tanto internas como externas a la

institución.

- Ejecutar tests de significancia y de correlación para decidir si los distintos campos

debieran ser incluidos o no.

- Reconsiderar los criterios de selección de los datos a la luz de la experiencia que se

haya tenido sobre la calidad de éstos. Decidir si se deben incluir o excluir otros

conjuntos de datos.

- Reconsiderar los criterios de selección de los datos a la luz de la experiencia que se

haya tenido en una fase de modelamiento posterior (por ejemplo: pueden requerirse

conjuntos de datos adicionales para aumentar la capacidad predictiva del modelo de

datamining).

- Seleccionar diferentes subconjuntos de datos (por ejemplo: sólo datos que reúnan

ciertas condiciones).

- Considerar el uso de técnicas de muestreo, lo cual puede ser necesario si una

solución involucra la reducción del tamaño del conjunto de datos de prueba, o si la

herramienta de datamining es incapaz de manejar el conjunto de datos completo.

- A partir de los criterios de selección de datos, decidir si uno o más atributos son más

importantes que otros y ponderarlos de acuerdo a ello. Basar la ponderación en el

contexto del problema (por ejemplo: en base a la utilización que se haga de los

atributos). Puede también ser útil tener muestras ponderadas para dar distinta

importancia a diferentes atributos o a diferentes valores del mismo atributo. Más

adelante, en el capítulo 10, se describe cómo puede ser deseable tener conjuntos de

datos de entrenamiento con una proporción de clientes “malos” mayor a la proporción

de clientes “buenos”, aun cuando en la realidad los clientes malos representen menos

de un 2% de la cartera.

- Documentar las razones para la inclusión o exclusión de atributos.

- Chequear las técnicas disponibles para el muestreo de datos.

Es importante señalar que en esta etapa del proyecto es preciso disminuir al máximo el

número de variables con que se alimentarán los modelos de datamining a desarrollar en

la fase siguiente. Si bien los modelos de regresión logística pueden ser refinados

117

iterativamente de manera de considerar sólo las variables realmente relevantes, y los

árboles de decisión permiten descartar los atributos irrelevantes mediante la “poda 2χ ”,

los modelos de redes neuronales no otorgan igual ventaja. Por otro lado, aun cuando

las técnicas de modelamiento permitan descartar atributos, puede simplificarse

enormemente el trabajo de generación de un modelo disminuyendo en esta fase el

número de las variables a considerar. Además existe un fenómeno, conocido como

“sobreajuste”, que puede afectar por igual a cualquier técnica de modelamiento, y en

virtud del cual los modelos tratan de replicar errores o ruidos aleatorios de los datos, de

manera de imitar lo más posible una muestra de datos particular. El sobreajuste

incorpora a los modelos variables que son irrelevantes, y que perjudican su

predictibilidad. Para evitar el fenómeno deben realizarse análisis de manera de

considerar en los modelos sólo las variables que son realmente relevantes.

9.4 Limpiar los datos (tarea 3b)

Esta tarea pretende mejorar la calidad de los datos, de manera de alcanzar el nivel de

calidad requerido por las técnicas de datamining que se seleccionen en la fase

siguiente del proyecto. Esta tarea puede involucrar la selección de subconjuntos de

datos que no presenten errores, como así también la inserción de valores por omisión

en el caso de existir datos faltantes.

La descripción de los resultados que se deben obtener como fruto de esta tarea se

entrega a continuación:

9.4.1 Reporte de limpieza de los datos (output 3b.1) De acuerdo a la guía de usuario CRISP-DM este resultado describe las acciones

tomadas para enfrentar los problemas de calidad de datos y que fueron reportados

durante la ejecución de la tarea 2d de la fase anterior del proyecto. Este output debe

también identificar los problemas de calidad de los datos que están aun vigentes. En

este punto se debe determinar también si los datos con errores serán utilizados en el

proyecto y deben describirse las posibles consecuencias que ello podría traer sobre los

resultados de datamining. Entre las actividades que es preciso desarrollar para obtener

este resultado se encuentran las siguientes:

118

- Reconsiderar el tratamiento que se dará a los distintos tipos de ruido que se hayan

observado en los datos

- Corregir, resolver o ignorar el ruido presente en los datos

- Determinar cómo manejar valores especiales, y qué significado atribuirles. Los valores

especiales pueden conducir a muchos resultados extraños y deben ser examinados

cuidadosamente. Ejemplos de valores especiales pueden surgir de información que no

fue preguntada a los clientes o que no fue respondida por éstos. También pueden

encontrarse valores especiales cuando los datos son truncados (por ejemplo 00 para la

edad de 100 años).

- Reconsiderar los criterios de selección de datos a la luz de la experiencia que se haya

tenido con respecto a la limpieza de datos. Decidir si se deben incluir o excluir otros

conjuntos de datos.

9.5 Construir datos (tarea 3c)

Esta tarea incluye la generación de atributos derivados a partir de otros campos, como

es el caso de los promedios o de la carga financiera estimada. Incluye también el

cambio de los formatos de los campos existentes, como puede ser el caso de la

transformación de la renta y la edad en categorías de renta y de edad. La

transformación de variables numéricas en variables discretas es necesaria para permitir

a los algoritmos de modelamiento entregar resultados en tiempos razonables (como es

el caso de las redes neuronales).



9.5.1 Atributos derivados (output 3c.1) De acuerdo a la guía de usuario CRISP-DM este resultado consiste en nuevos atributos

que se han construido a partir de uno o más campos existentes en un mismo registro.

Un ejemplo de atributo derivado es la edad, calculada a partir de la fecha de

nacimiento. Entre las actividades que es preciso desarrollar para obtener este resultado

se encuentran las siguientes:

- Decidir si algún atributo debiera ser normalizado.

119

- Determinar cómo pueden ser construidos o ingresados los datos faltantes. Determinar

el tipo de construcción (por ejemplo mediante un promedio, interpolando, o a partir de

un modelo predictivo).

- Agregar nuevos atributos a los datos.

Importantes atributos derivados son las estimaciones de las deudas de los clientes con

otras instituciones financieras, las cuales se explican a continuación:

9.5.1.1 Estimación de las deudas con otras instituciones financieras Las obligaciones de un cliente con otras instituciones financieras se pueden estimar

como las deudas consolidadas de dicha persona en el último informe SBIF menos las

deudas que ésta persona mantuvo con el Banco y que debieron ser reportadas al

organismo supervisor en el mismo periodo. Si bien parece un proceso simple, se

complica porque la fecha del último informe de la SBIF está desfasada dos meses con

respecto al presente. Por otro lado, las deudas que son informadas por el Banco a la

Superintendencia no están clasificadas exactamente en la misma forma que las

obligaciones en el informe de la SBIF. Así, es difícil a priori saber con exactitud qué

porcentaje de cada deuda del informe SBIF provino de qué obligación del cliente con el

Banco. Para identificar qué deudas del archivo de operaciones fueron reportadas a la

SBIF y bajo qué criterio deberá utilizarse información empleada en la elaboración del

informe D01. Dicha información debe contener para cada cuenta asociada a una

operación (intereses, capital, etc.) el monto que es reportado a la SBIF bajo distintas

categorías de deuda vencida o vigente y de cuentas de activo o de orden. El proceso de

estimación de las deudas con otras instituciones, por lo tanto, no es inmediato, y es de

esperar que se produzcan errores. No obstante, es preciso limitar dichos errores a

niveles aceptables, menores al 1%, para asegurar que las muestras permitan elaborar

modelos confiables.

9.5.2 Registros generados (output 3c.2) Este resultado es el segundo de la tarea de construir datos (tarea 3c). De acuerdo a la

guía de usuario CRISP-DM este output corresponde a registros que incorporan nueva

información, que de otra forma no estaría presente en las muestras empleadas para

realizar datamining (por ejemplo: habiendo segmentado los datos puede ser útil

120

incorporar un registro adicional para un cliente prototipo de cada segmento). Entre las

actividades que es preciso desarrollar para obtener este resultado se encuentra:

- Chequear las técnicas disponibles para generar datos, si es que éstas se requieren

(por ejemplo: mecanismos para determinar las características de los “clientes-prototipo”

de cada segmento).

9.6 Integrar los datos (tarea 3d)

En esta tarea se combina la información de múltiples bases de datos, archivos y tablas.

Ello es necesario para obtener ciertos valores, como es el caso de las deudas

estimadas de los clientes con otras instituciones. La descripción del resultado que debe

obtenerse como fruto de esta tarea se entrega a continuación:

9.6.1 Datos mezclados (output 3d.1) Este resultado corresponde a la obtención de conjuntos de datos a partir dos o más

tablas que tienen información distinta sobre los mismos clientes, sobre los mismos

productos o sobre las mismas operaciones. Entre las actividades que es preciso

desarrollar para obtener este resultado se encuentran las siguientes:

- Chequear que las herramientas de integración sean capaces de mezclar las fuentes

de datos como se requiere.

- Integrar las fuentes de datos y almacenar el resultado.

- Reconsiderar los criterios de selección de datos a la luz de la experiencia que se haya

tenido en la integración de datos. Determinar si se deben incluir o excluir nuevos

conjuntos de datos.

Como se ha ilustrado al comienzo de este capítulo, la mezcla de datos se utiliza

intensivamente en la generación del output 3z.1, al integrar registros provenientes de

una amplia gama de fuentes de datos distintas. La mezcla de datos permite también

elaborar estimaciones de las deudas de los clientes con otras instituciones financieras,

por cuanto éstas se construyen a partir de diversas fuentes de datos (las bases

operacionales del Banco, los informes D01 enviados a la SBIF y los reportes con las

deudas consolidadas de las personas que dicho organismo supervisor entrega

mensualmente).

121

9.7 Formatear los datos (tarea 3e)

En esta tarea se realizan modificaciones sobre los datos que no alteran su significado,

pero que pueden ser necesarias para trabajar con la herramienta de datamining. Un

ejemplo puede ser el cambio de la variable RUT desde tipo texto a número, a fin de

mezclar información sobre un mismo cliente contenida en dos tablas, en una de las

cuales el RUT es numérico y en la otra, texto. La descripción del resultado que debe

obtenerse como fruto de esta tarea se entrega a continuación:

9.7.1 Datos reformateados (output 3e.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado

corresponde al conjunto de datos cuya representación computacional ha sido cambiada

sin modificar su significado. Entre las actividades que es preciso desarrollar para

obtener este resultado se encuentran las siguientes:

- Cambiar el orden de los campos de los registros.

- Ordenar los registros.

- Reformatear el almacenamiento interno de los valores (por ejemplo: de texto a

número).

122

10 CUARTA FASE DEL PLAN: MODELAMIENTO


de modelamiento de la metodología CRISP-DM, junto a sus resultados:

Figura 10.1 Tareas y outputs de la fase de modelamiento, cuarta fase del proyecto de datamining según metodología CRISP-DM61

A continuación se describen las distintas tareas que es preciso realizar en esta fase

junto a los resultados que deben obtenerse de cada una. Se entregan asimismo


123

consejos y recomendaciones extraídos de la guía de usuario CRISP-DM62 y de la

experiencia y reflexión del autor de este documento. Puesto que esta tesis no se basa

en ningún conjunto de datos, no pueden, por lo tanto, entregarse indicaciones

específicas con respecto a los resultados que requieren de la manipulación de datos

concretos. Así ocurre con los supuestos de modelamiento (output 4a.2), con la

definición de los parámetros de los modelos (output 4c.1) y con el establecimiento de

los parámetros revisados (output 4d.2). En cambio, en este capítulo se ofrece una

extensa descripción de las tres técnicas de modelamiento (output 4a.1) que se ajustan

mejor al caso de las campañas bancarias. Así mismo, al explicar el diseño de las

pruebas (output 4b.1) se dan también indicaciones prácticas referidas a las campañas

bancarias. Del mismo modo al describir el output 4c.3 se explican las formas de

especificar los modelos de riesgo y de rentabilidad con cada una de las tres técnicas de

modelamiento antes mencionadas. Posteriormente, al momento de comentar la

evaluación técnica de los modelos (output 4d.1) se detallan las principales medidas

estadísticas que es posible utilizar, a la vez que se explica cómo automatizar el proceso

de evaluación técnica mediante el empleo de Clementine.

10.1 Seleccionar la técnica de modelamiento (tarea 4a)

Como primer paso en el modelamiento es preciso seleccionar la técnica que se utilizará.

Las distintas técnicas disponibles deben evaluarse en relación a su capacidad para

alcanzar los objetivos de datamining, teniendo en cuenta las restricciones de recursos

del proyecto. No debe olvidarse que no todas las herramientas y técnicas son aplicables

a cada tarea, para ciertos problemas solo algunas técnicas son apropiadas. Puede ser

el caso que solo una herramienta o técnica esté disponible para resolver el problema, y

aun aquella puede no ser del todo técnicamente la mejor alternativa para el problema

en cuestión. La descripción de los resultados que se deben obtener como fruto de esta

tarea se entrega a continuación:

10.1.1 Técnica de modelamiento (output 4a.1) Corresponde a la descripción de la técnica de modelamiento que se utilizará en el

proyecto de datamining. Entre las actividades que es preciso desarrollar para obtener 62 Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

124

este resultado se encuentra decidir sobre las técnicas apropiadas de datamining,

teniendo en mente la herramienta de software escogida (Clementine en este caso).

Entre las técnicas de modelamiento más apropiadas para desarrollar modelos

predictivos de riesgo y rentabilidad se encuentran la regresión logística, las redes

neuronales y los árboles de decisión, y las tres son soportadas por Clementine. En las

secciones siguientes se describirán en detalle esas tres técnicas, indicando

específicamente como construir modelos predictivos de riesgo y rentabilidad, y cómo

dichos modelos pueden ser refinados a través de diversos mecanismos.

10.1.2 Regresión logística La regresión logística es un método estadístico adaptado al estudio del vínculo entre

una variable cualitativa y un conjunto de variables cuantitativas. La regresión logística

es similar a la regresión múltiple y es utilizada con frecuencia cuando la variable

dependiente es binaria, como es el caso de la clasificación de los clientes en buenos y

malos en términos crediticios, o clientes con potencial y sin potencial en términos de

rentabilidad. El método puede utilizarse también cuando las variables explicativas son

cualitativas, reemplazando los valores de cada variable cualitativa por un índice. En el

modelo más simple de regresión logística la variable dependiente Y es binaria, en tanto

que la única variable explicativa X es numérica, por ejemplo:

X : carga financiera

Y : condición de bueno o malo en términos de riesgo de crédito (0: bueno, 1: malo)

Se denotan las observaciones de las variables con letras minúsculas:

x : observación de la variable X para el caso de un cliente cualquiera

y : observación de la variable Y para el caso de un cliente cualquiera

Ahora bien, las observaciones x e y referidas a un cliente específico i se denotan

como ix e iy , respectivamente. De las variables aleatorias }{ n21 YYY ..., se obtienen

n observaciones independientes denotadas por el vector )( n21 yyyy ...,=r

, y que

corresponden a la condición de buenos o malos de n clientes distintos. El conjunto de

las variables explicativas de todos esos clientes se denomina )( n21 xxxx ...,=r

.

125

No es posible visualizar con claridad la existencia de una relación entre X e Y si las

observaciones antes obtenidas se representan contrastadas con los valores de la carga

financiera de cada cliente, como muestra el siguiente gráfico:

Figura 10.2 Clientes buenos y malos versus carga financiera63

En cambio, si se divide la variable carga financiera en clases y se calcula para cada una

la proporción de clientes malos, se obtiene una gráfica bastante más instructiva:

Figura 10.3 Proporción de clientes malos por clase de carga financiera64

63 Fuente: elaboración propia a partir del libro de TENENHAUS, Michele, Méthodes Statistiques en Gestion, Editorial Dunod, France, 1996 64 Fuente: idem. a la anterior

126

Puede estimarse la probabilidad de que un cliente sea malo dada una carga financiera

a partir de la proporción de clientes malos por clase. Por otro lado la mencionada

probabilidad condicional es igual a la esperanza ( )xYE , como lo demuestran las

siguientes ecuaciones: ( ) ( ) ( ) ( )x1YP0x0YP1x1YPxYE ** ===+==

El modelo de regresión lineal ( ) βxαxYE += no es aconsejable para representar la

condición de buenos y malos de los clientes por varias razones:

1.- El modelo de regresión lineal entrega predicciones para la variable dependiente

fuera del intervalo [0, 1].

2.- La derivada ( )( )dx

xYEd debiera tender a cero cuando x tiende a cero o a uno.

3.- Las variables dependientes binarias violan supuestos del modelo de regresión lineal,

por cuanto sus errores no son normales sino binomiales y tampoco tienen una varianza

constante (puesto que aquella es una función del valor a predecir).

El modelo de regresión logística permite representar de mejor manera ( )xYE . El

supuesto básico del modelo consiste en describir las probabilidades como una función

logística de las variables explicativas. En el caso de una única variable explicativa la

probabilidad de que un cliente i sea malo, denotada como iπ , debe cumplir:

( ) ( )

i

i

iii βxα1

βxαx1YPxYEπ

ee

++

+====

En lugar de modelar las probabilidades iπ directamente, se prefiere modelar una

transformación de ellas denominada logit, la cual se muestra en la siguiente ecuación

bajo la notación )( ixg para remarcar su dependencia de ix :

i

i

ii βxα

π-1π lnx +=

=)(g

En la jerga de los modelos automatizados de decisión de crédito se conoce como

“odds” al término i

i

ππ1−

. Puede observarse que el modelo de regresión logística es

lineal en el logaritmo de los “odds”.

127

Los parámetros α y β del modelo de regresión logística pueden estimarse mediante

el método de máxima verosimilitud. La función verosimilitud no es otra cosa que la

probabilidad de obtener valores de la variable Y , probabilidad expresada en forma tal

que las variables explicativas X se suponen fijas y los parámetros α y β se

consideran variables. Dada una muestra de n clientes, con un conjunto de valores de

las variables explicativas denotado por el vector )( n21 xxxx ...,=r

y un conjunto de

valores de las variables dependientes denotado por )( n21 yyyy ...,=r

, el método de

máxima verosimilitud obtiene los parámetros α y β que hacen que el valor de la

función verosimilitud sea máximo. Dicho de otro modo, el método obtiene los

parámetros del modelo de regresión que hacen más probable la obtención de una

muestra. Para obtener la función verosimilitud de un conjunto de variables

)( n21 yyyy ...,=r

correspondientes a la condición de buenos o malos de n clientes

distintos, es preciso notar que las probabilidades de que un cliente i sea bueno o malo

pueden ser escritas como potencias de iy , como muestran las siguientes ecuaciones:

( ) ( ) ( ) ( ) i1i

1iii

yπ-1π-1π-10yP

−====

( ) ( ) ( ) ii

1iii

yπππ1yP ====

En ambos casos pueden escribirse las probabilidades como: ( ) ( ) i1i

ii

yπ-1

yπ

−

Si las variables }{ n21 YYY ..., son independientes entre si, la probabilidad de obtener los

resultados )( n21 yyyy ...,=r

se obtiene multiplicando las probabilidades de obtener

cada iy . Por ello, la función verosimilitud de obtener )( n21 yyyy ...,=r

puede

escribirse, en tal caso, como sigue:

( ) ( ) ( )

= ∏

=

−n

1i

i1i

ii

yπ-1

yπyrL

Para determinar los parámetros que hacen que dicha función sea máxima puede

igualarse a cero el gradiente de la función verosimilitud ( )yrL con respecto al vector de

128

parámetros )( β ,αβ =r

. No obstante, normalmente se prefiere trabajar con el logaritmo

de la función verosimilitud, que se denotará como ( )yrl y que puede calcularse como lo

indica la siguiente ecuación:

( ) ( )( ) ( ) ( )

== ∏

=

−n

1i

i1i

ii

yπ-1

yπlnylny rr

Ll

Dado que la función logaritmo es monótona creciente, ( )yrL y ( )yrl son maximizadas

por los mismos valores de βr

, por lo que se maximizará ( )yrl para obtener los

estimadores )( β ,αβ ˆˆˆ=

r de los parámetros del modelo. Utilizando las propiedades de

los logaritmos es posible escribir la ecuación anterior de manera más simple:

( ) ( )

( )∑ ∑

∏

= =

∗

=

+

=

=

n

1i

n

1ii

i

ii

n

1ii

i

i

i

π-1lnπ-1πlny

π-1y

π-1πlnyrl

Luego puede expresarse ( )yrl en términos de los parámetros βr

, utilizando las

ecuaciones siguientes:

( )

βxαπ-1π ln

βxα1ln

βxα1

1lnβxα1

βxα1lnπ1ln

ii

i

i

ii

ii

eee

e

+=

++−=

+

+=

++

+−=−

Finalmente se obtiene la siguiente expresión para ( )yrl :

( ) ( )( )∑ ∑

= =

∗

++−+=

n

1i

n

1i

iii

βxα1lnβxαyy er

l

129

Calculando el gradiente de ( )yrl con respecto a los parámetros βr

, evaluando luego

dicho gradiente en los estimadores βr̂

de los parámetros del modelo e igualando las

ecuaciones resultantes a cero, se obtendrá el conjunto de ecuaciones:

0β

)β(

rr

r=∇ ˆl

Dichas ecuaciones permiten obtener los estimadores de máxima verosimilitud y pueden

escribirse en este caso como sigue:

0πxyx

βxα1

βxαxyx

βyβ

0πy

βxα1

βxαy

αyβ

n

1i

n

1iiiii

n

1i

n

1i i

iiii

n

1i

n

1iii

n

1i

n

1i i

ii

ee

ee

=−=

++

+−=

∂∂

=−=

++

+−=

∂∂

∑ ∑

∑ ∑

∑ ∑

∑ ∑

= =

= =

∗

= =

= =

)(

)(

rr

rr

l

l

Este sistema de ecuaciones no tiene solución analítica y requiere de un proceso

numérico iterativo para resolverlas. Dicho proceso puede no converger a una solución.

10.1.2.1 Representación de modelos mediante regresión logística

El modelo que se ha descrito hasta este punto puede ser generalizado para k variables

explicativas, correspondientes a distintas características de cada cliente. El conjunto de

dichas variables será resumido en una sola variable explicativa vectorial, como lo

muestra la fórmula: )( k21 XXXX ...,= . Un conjunto de observaciones de dichas

variables, referidas todas a un mismo cliente i se denotará por )( ki

2i

1ii xxxx ...,= . La

probabilidad de que un cliente i sea malo, en este caso, queda descrita por la siguiente

130

función logística: kik

1i10i xβxββx +⋅⋅⋅++=)(g , donde )( ixg es la transformación

logit. Las probabilidades iπ , por lo tanto, deberán cumplir:

)(

)(

i

i

i x1

xπ

eeg

g

+=

Al igual que en el modelo simple de regresión logística, en este caso el logaritmo de la

función verosimilitud podrá también expresarse mediante la fórmula:

( ) ( )

( )∑ ∑

∏

= =

∗

=

+

=

=

n

1i

n

1ii

i

ii

n

1ii

i

i

i

π-1lnπ-1πlny

π-1y

π-1πlnyrl

La cual puede representarse en términos de los parámetros ,

utilizando para ello las siguientes ecuaciones:

( )

xπ-1π ln

x1ln

x1

1lnx1

x1lnπ1ln

ii

i

i

ii

ii

eee

e

)(

)(

)()(

)(

g

g

gg

g

=

+−=

+=

+−=−

Finalmente se obtiene la siguiente expresión para ( )yrl :

( ) ( )∑ ∑

= =

∗

+−=

n

1i

n

1i

iii

x1lnxyy e )(

)(g

glr

Por lo que las ecuaciones

0β

)β(

rr

r=∇ ˆl se convierten en:

131

}{

)(

)(

)(

)(

1,...kj0πxyx

x1

xxyx

β)yβ(

0πy

x1

xy

β)yβ(

n

1i

n

1ii

jii

ji

n

1i

n

1i i

ij

iij

ij

n

1i

n

1iii

n

1i

n

1i i

ii

0

ee

ee

∈∀=−=

+−=

∂∂

=−=

+−=

∂∂

∑ ∑

∑ ∑

∑ ∑

∑ ∑

= =

= =

∗

= =

= =

g

gl

g

gl

rr

rr

Los estimadores de los parámetros vienen dados por: ( )k10 β... ,β ,ββ ˆˆˆˆ=

r

10.1.2.2 Refinamiento iterativo de los modelos de regresión logística Para refinar el modelo de regresión logística es importante incorporar en él solo las

variables que son realmente predictivas, por cuanto el resto sólo contribuye a aumentar

los errores entre las observaciones y las predicciones. Por ello es preciso determinar el

aporte de cada variable al modelo, para lo cual existen diversos tests, entre ellos el test

de Wald, el test de Score, y test de razón de verosimilitud, siendo éste último el más

utilizado. En el test de razón de verosimilitud se calcula el estadístico G :

−= ∗

variable la con tudVerosimilivariable la sintudVerosimililn2G

Bajo la hipótesis 0H de que el coeficiente jβ de la variable j en )(xg es igual a 0,

G sigue una distribución 2χ con un grado de libertad. Por tablas de dicha distribución

es posible rechazar la hipótesis 0H con un nivel de significancia que puede ser fijado

a partir de la realidad del negocio, por ejemplo un 5%. Ahora bien, es posible constatar

por tablas de la distribución 2χ con un grado de libertad que con un nivel de

significancia de 5% G debe ser menor a 0,0039321. Por lo tanto, con un nivel de

significancia de 5% corresponde eliminar del modelo la variable j si G es mayor a

dicho valor. De esta manera es posible refinar el modelo en forma progresiva,

132

incluyendo en él sólo las variables más significativas y descartando el resto. Una vez

eliminada la variable j vuelven a estimarse los parámetros de las variables restantes

resolviendo nuevamente el sistema de ecuaciones:

0β

)β(

rr

r=∇ ˆl

Dicho sistema deberá ser reescrito, por cuanto βr

y ix ya no tendrán coeficientes ni

términos para la variable eliminada. El proceso de eliminación continúa hasta que ya no

es posible eliminar variables con el nivel de significancia escogido.

10.1.3 Redes neuronales Desarrolladas por McCulloch y Pitts en 1943, se basan en nodos o unidades, que

corresponden a un modelo matemático del funcionamiento de una neurona.

Figura 10.4 Un modelo matemático simple para una neurona65

El diagrama 10.4 ilustra uno de tales nodos. Los nodos de las redes neuronales se

comunican mediante enlaces dirigidos. Un enlace del nodo j al nodo i propaga la

variable de activación ja desde j hasta i . Cada enlace tiene un peso ij,W asociado,

el cual sirve para determinar la intensidad y el signo de la conexión. El nodo i calcula

un promedio ponderado de las variables que recibe a través de los enlaces de entrada, 65 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003

133

utilizando los pesos ij,W como factores de ponderación. La siguiente fórmula expresa

dicho promedio, el cual se denomina iin :

( )∑=j

j*ij,i aWin

El nodo evalúa la función de activación g sobre el promedio ponderado iin antes

calculado, obteniendo el resultado ia , que será comunicado a otras unidades mediante

los enlaces de salida. La siguiente fórmula muestra el cálculo de ia :

( )

== ∑

jj*ij,ii aWina gg )(

Las flechas de la izquierda de la figura 10.4 corresponden a enlaces de entrada que

recibe el nodo i desde nodos j . El nodo recibe además una variable con un valor fijo

0a a través de una conexión especial con un peso i0,W , el cual se denomina “sesgo”.

El nodo i se “gatilla” cuando una combinación lineal de sus inputs sobrepasa cierto

umbral, el cual viene determinado por el “sesgo” i0,W .

Figura 10.5 Funciones de activación de una neurona: función escalonada (a) y función sigmoidal (b)66

66 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003

134

El diagrama 10.5 muestra dos funciones de activación de una neurona. La función de

activación permite a un nodo arrojar un resultado sólo cuando los inputs son los

correctos. A continuación se muestra como los nodos de una red neuronal pueden ser

utilizados para representar funciones booleanas a través de distintos inputs ja y

“sesgos” i0,W .

Figura 10.6 Unidades con una función de activación escalonada que pueden representar distintas puertas lógicas67

Las redes neuronales pueden servir incluso para representar funciones vectoriales,

mediante la utilización no sólo de una, sino de múltiples unidades de salida. De ese

modo los múltiples inputs de una red neuronal pueden conectarse a los resultados

arrojados por otra red neuronal cuyo output sea vectorial.

Existen dos clases de redes neuronales: las acíclicas y las cíclicas o recurrentes. Una

red acíclica entrega una función calculada exclusivamente a partir de sus inputs. Una

red cíclica, en cambio, entrega valores que además dependen del estado interno de la

red, el cual a su vez depende de los inputs previos que ésta haya recibido. Una red

cíclica, además, se retroalimenta de sus propios outputs, por lo que se comporta como

un sistema dinámico capaz de alcanzar un estado estable, de oscilar entre

determinados estados, o de funcionar como un sistema caótico. La siguiente figura


135

muestra una red neuronal acíclica con dos unidades de entrada, una unidad de salida y

dos unidades “ocultas” (vale decir, que no son unidades ni de entrada ni de salida):

Figura 10.7 Una red neuronal con dos inputs, un nivel oculto de dos unidades y una salida68

Dado un vector de input ( )21 xxx ,=r

para la red neuronal, el conjunto de valores que

entregan las unidades de entrada “1” y “2” de la red (los resultados de los nodos de

entrada) se establecen en 1a y 2a iguales a los inputs recibidos, vale decir 11 xa = y

22 xa = . Los nodos 3 y 4, denominados “unidades ocultas”, en tanto, arrojan las

salidas 3a y 4a , cuyos valores se calculan como indican las siguientes ecuaciones:

( )2a2,3W1a1,3W3a ∗+∗= g ( )2a2,4W1a1,4W4a ∗+∗= g

La salida final de la red neuronal, 5a , se calcula como sigue:

( )4a4,5W3a3,5W5a ∗+∗= g

Expresión que es también equivalente a:

( ) ( )( )2a2,4W1a1,4W4,5W2a2,3W1a1,3W3,5W5a ∗+∗∗+∗+∗∗= ggg


136

Puede observarse como el resultado de la red neuronal acíclica es una función que

depende tan solo de los inputs ( )21 xxx ,=r

y de los parámetros ij,W . Por lo tanto,

escribiendo el vector de pesos como Wr

, puede expresarse el resultado que arroja una

red neuronal como una función que depende de xr y Wr

, lo cual se denota por ( )xWrrh .

10.1.3.1 Representación de modelos mediante redes neuronales Las redes neuronales pueden representar cualquier tipo de función, incluyendo

funciones probabilísticas y lógicas, y en particular pueden ser utilizadas para clasificar

clientes y para predecir su comportamiento. Para asignar a los clientes notas de riesgo

o de rentabilidad basta dividir el output de la red neuronal en varios tramos, y asignar

una nota particular si el output se encuentra dentro de un tramo.

A continuación se explica como una red neuronal puede ser utilizada para predecir el

que un cliente se transforme en “malo” en el futuro. La idea central se encuentra en

modelar una función que asuma el valor “1” solamente cuando las variables explicativas

del comportamiento del cliente hagan posible predecir que éste no será un buen cliente.

Dado un conjunto de variables }{ k21 XXX ..., candidatas a explicar el que un cliente

se transforme en “malo” en un determinado horizonte de tiempo, se desea construir una

red neuronal cuyo resultado ( )xWrrh sea “1” en aquella región del espacio

}{ k21 XXX ..., en el que sea más probable que el cliente se vuelva efectivamente

“malo”. Por ello, a continuación se mostrará como las redes neuronales, al alimentarse

del resultado de otras redes neuronales, pueden arrojar un valor cercano a “1” en zonas

del espacio de variables que son progresivamente más complejas. Se dirá que la red

neuronal se “gatilla” en aquella región en la que arroja un resultado de “1”.

En primer lugar, en la figura 10.8 dada abajo, se muestra como mediante una red

neuronal con dos inputs 1x y 2x se puede representar un función simple que asume el

valor 1 en una mitad del plano 1x , 2x , y el valor cero en la otra mitad. Posteriormente

se mostrará como una red neuronal alimentada con dos inputs 1a y 2a , ambos

resultados de otras redes neuronales, puede “gatillarse” en regiones más complejas,

137

como son una franja intersección de dos semiplanos, o en un área finita del espacio

1x , 2x .

Figura 10.8 Gráfico del output de un perceptrón con dos unidades de entrada y una función de activación sigmoidal69

Se entiende por perceptrón a una red neuronal simple, que carece de nodos ocultos. La

figura 10.8 muestra los resultados de un perceptrón, que para valores bajos de 1x se

“gatilla” cuando 2x alcanza un valor de 4. En cambio, cuando se está en presencia de

valores más altos de 1x , el perceptrón se gatilla con valores mucho menores de 2x .

Dicho comportamiento se debe a que el perceptrón arroja un resultado “1” cuando una

combinación lineal de sus inputs sobrepasa cierto umbral. Una combinación lineal de

1x , 2x divide el espacio de los inputs en dos áreas, que en realidad son dos

semiplanos, en uno de los cuales se gatillará el perceptrón.


138

Una red neuronal que reciba como input los resultados de dos perceptrones como el

anterior puede entregar un output con forma de “cordillera”, como se ilustra en la figura:

Figura 10.9 El resultado de combinar dos funciones sigmoidales para obtener una cordillera70

Para formar la “cordillera” el primer perceptrón se “gatilla” en el espacio de los inputs

que está en rojo, mientras que el segundo perceptrón lo hace en la zona achurada en

verde. Por lo tanto, el nodo de salida de la red neuronal se gatilla en la región dada por

la intersección de los dos semiplanos anteriores, la cual es una franja que se resalta en

amarillo.

Abajo, en la figura 10.10 se muestra la salida con forma de “cerro” que es posible

obtener de una unidad que se alimenta con los resultados en forma de “cordillera” de

dos redes neuronales como la antes descrita. Alimentando una red neuronal con inputs

en forma de “cerro” es posible generar una salida con múltiples “montañas” ubicadas

sobre puntos específicos del espacio de variables de entrada.


139

Figura 10.10 El resultado de combinar dos cordilleras para producir un cerro71

Con un solo nivel de unidades ocultas y suficientes nodos en dicho nivel es posible

representar cualquier función continua con el nivel de precisión que se desee, en tanto

que con dos niveles de unidades ocultas es posible representar aun cualquier función

discontinua.

10.1.3.2 Refinamiento iterativo de los modelos de redes neuronales

Ajustando los pesos Wr

es posible cambiar la función que la red neuronal calcula. El

“aprendizaje” de la red neuronal se realiza precisamente modificando dichos

parámetros de manera de reducir progresivamente la diferencia entre el valor que se

espera obtener de la función ( )xWrrh y el valor que ésta efectivamente entrega.

A continuación se describe primero un algoritmo iterativo para ajustar los pesos de una

red neuronal acíclica sin unidades ocultas (vale decir, un perceptrón), para luego

extrapolar dicho algoritmo a una red con un nivel de unidades ocultas. Se entrega

finalmente un algoritmo para ajustar los pesos de una red neuronal acíclica con

múltiples niveles de unidades ocultas. Para facilitar la primera fase de explicación del


140

algoritmo se entrega la siguiente figura que representa un perceptrón con cuatro

unidades de entrada y una unidad de salida:

Figura 10.11 Perceptrón con una unidad de salida72

El error al cuadrado que se obtiene en un ejemplo de entrenamiento utilizado para

ajustar el perceptrón se define como sigue:

( )( )2

W2 xy

21Err

21E r

rh−≡=

Donde y representa el resultado a obtener si la red funcionara correctamente, mientras

que ( )xWrrh corresponde al resultado que el perceptrón efectivamente calcula. El input

del perceptrón viene dado por el vector xr .

Puede obtenerse el vector de pesos Wr

que minimiza el error al cuadrado mediante el

método del gradiente. Utilizando dicho método los pesos se actualizan usando la

ecuación siguiente73:

( ) 'WWWEα'W''W rrrrr

=∇+= ∗

72 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Approach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003 73 Fuente: HILLIER F., LIEBERMAN G., Investigación de Operaciones, Séptima edición, Capítulo 13, Programación no Lineal, McGraw-Hill Interamericana, 2002

141

Donde α es un parámetro conocido como tasa de aprendizaje. Los vectores ''Wr

y

'Wr

corresponden al vector de pesos Wr

ajustado en iteraciones sucesivas. En tanto

Wr

y el gradiente del error al cuadrado vienen dados por los siguientes vectores:

=

....etcW

...W

Wij,

i1,r

( )

∂∂

∂∂

=∇

....etcW

E...

WE

WE

ij,

i1,r

Cada uno de los términos del gradiente puede verse como la contribución que cada

ij,W entrega al error al cuadrado total, y es equivalente a las expresiones siguientes:

( )

( ) ji

j

j*ij,ij,

ij,ij,

xin'Err

xWyW

Err

WErrErr

WE

∗−=

−

∂∂

=

∂∂

=∂∂

∗

∗

∗

∑g

g

Donde jx corresponde a uno de los inputs que recibe el perceptrón desde sus

unidades de entrada, y forma parte, por lo tanto, del vector xr de input. En tanto 'g es

la derivada de la función de activación logística.

Si se denomina i∆ o “error modificado” al siguiente término: )(∆ ii inrrE g'∗= , puede

verse como la contribución al error al cuadrado del peso ij,W corresponde al resultado

jx del nodo j multiplicado por el error modificado del nodo i .

El algoritmo de ajuste de los pesos prosigue para cada ejemplo del conjunto de datos

de entrenamiento. Cuando se ha aplicado a todos los ejemplos se habla de que se ha

completado un “periodo”. El algoritmo continua completando “periodos” hasta que se

142

alcanza algún criterio de término (por ejemplo: cuando las variaciones consecutivas de

los pesos 'Wr

y ''Wr

son ya muy pequeñas).

Ahora se deducirá un algoritmo similar aplicado a una red neuronal que contiene

unidades ocultas. Para ello es preciso notar que en el caso de tener una red neuronal

con uno o más niveles de unidades ocultas no existe a priori una interpretación clara

para los errores de las salidas de dichas unidades debido a que no existen

observaciones que permitan realizar una comparación. Es necesario, por lo tanto,

calcular la contribución al error de la red neuronal completa que realiza la salida de una

unidad oculta. A continuación se derivará dicha contribución a partir de la minimización

de la suma de los errores al cuadrado de una red neuronal con un único nivel de

unidades ocultas y varios nodos de salida, como la red de la figura:

Figura 10.12 Red neuronal con un nivel oculto y dos unidades de salida74

El error al cuadrado observado para un ejemplo de prueba usado para entrenar la red

neuronal puede expresarse a través de la siguiente ecuación:

( )∑∑ −==i

2ii

i

2i ay

21Err

21E


143

Donde iy es el resultado a obtener si la red funcionara correctamente, mientras que ia

corresponde al resultado que la red efectivamente calcula. La suma se realiza sobre los

nodos i de las unidades de salida. La componente del gradiente de ese error al

cuadrado con respecto a un peso específico ij,W en el nivel de salida viene dado por:

( ) ( )

( )

( ) ( )

( ) ijjiii

jjij,

ij,iii

ij,

iiii

ij,

iii

ij,

iii

ij,

aain'a-y

aWW

in'a-y

Winin'a-y

Wina-y

Waa-y

WE

∆)(

)(

)(

)(

−=−=

∂∂

−=

∂∂

−=

∂∂

−=∂∂

−=∂∂

∗

∑

g

g

g

g

Para obtener la contribución al error al cuadrado de los pesos jk,W que conectan las

unidades de entrada k a las unidades ocultas j es preciso realizar la sumatoria

completa de las derivadas parciales sobre todos los nodos de salida, por cuanto cada

valor de salida ia puede verse afectado por los cambios en jk,W .

Antes, al obtener el gradiente con respecto a ij,W se utilizó que los resultados de un

nodo j del nivel oculto no dependían de los pesos ij,W en el nivel de salida i , en

otras palabras: 0Wa

ij,

j =∂

∂. Ahora bien, al calcular el gradiente con respecto a los pesos

jk,W del nivel de entrada k será preciso considerar que los resultados ja del nivel

oculto si dependerán de los pesos jk,W , o en otras palabras: 0W

inWa

jk,

j

jk,

j ≠∂

∂=

∂

∂ )(g

Con ello en mente las componentes del gradiente obtenidas al derivar el error al

cuadrado con respecto a jk,W vienen dadas por las expresiones siguientes, en las que

el gradiente se escribe finalmente en términos de los resultados de los nodos de

entrada :

144

( ) ( )

( )

( )

( )

( ) jki

kjij,i

i kkjk,

jk,jij,i

i jk,

jjij,i

i jk,

jij,i

i jk,

jij,i

i jjij,

jk,i

i jk,

iiii

i jk,

iii

i jk,

iii

jk,

aain'W

aWW

in'W

Win

in'W

Win

WWa

W

aWW

Winin'a-y

Wina-y

Waa-y

WE

∆)(∆

)(∆

)(∆

)(∆∆

∆

)(

)(

−=−=

∂∂

−=

∂

∂−=

∂

∂−=

∂

∂−=

∂∂

−=

∂∂

−=

∂∂

−=

∂∂

−=∂∂

∑

∑ ∑

∑

∑∑

∑ ∑

∑

∑∑

∗

g

g

g

g

g

g

La última ecuación muestra la contribución que realiza a la suma de los errores al

cuadrado de la red completa un peso jk,W correspondiente a un vínculo que recibe la

unidad oculta j . Dicha contribución corresponde al resultado ka del nodo k

multiplicado por un factor que es similar al error modificado antes definido, y que

corresponde a la expresión siguiente:

( )∑∗=i

i*ij,jj Win ∆)(∆ g'

Si la expresión anterior se acepta como definición de “error modificado” de los nodos

que son unidades ocultas, inductivamente puede obtenerse que la contribución de

cualquier peso ij,W a la suma de los errores al cuadrado de la red neuronal vendrá

dada por el producto del resultado del nodo j por el error modificado del nodo i .

145

Puede obtenerse el vector de pesos Wr

que minimiza el error al cuadrado mediante el

método del gradiente, actualizando los pesos a través de la ecuación:

( ) 'WWWEα'W''W rrrrr

=∇+= ∗

El algoritmo de “ajuste” de los pesos a través de la red neuronal con varios niveles de

unidades ocultas procede en forma análoga al algoritmo antes presentado.

10.1.3.3 Cálculo con red neuronal de probabilidad de que un cliente sea malo En una sección anterior se ha mostrado como las redes neuronales pueden predecir el

que un cliente se vuelva “malo” en el futuro, imitando para ello una función que asume

el valor “1” solamente cuando las variables explicativas hacen posible predecir que el

cliente no será un buen cliente. En esta sección se muestra como las redes neuronales

pueden ser usadas también para calcular la probabilidad de que un cliente sea bueno o

malo en términos crediticios o de rentabilidad en un determinado horizonte de tiempo.

La idea central radica en que al utilizar funciones de activación logísticas el resultado de

cada neurona puede interpretarse en forma probabilística. En efecto, una red neuronal

con una función de activación logística puede interpretarse como una red bayesiana.

Las redes bayesianas son grafos dirigidos acíclicos cuyos nodos representan variables

aleatorias y cuyos arcos denotan dependencia. Así, una flecha de un nodo A a un nodo

B indica que la variable aleatoria B depende directamente de la variable A. Se dice en

tal caso que A es padre de B. En una red bayesiana un nodo correspondiente a una

variable aleatoria iX tiene una probabilidad condicional de asumir el valor ix que se

denota como

ii XPadresxP , donde

iXPadres representa el conjunto de

todas las variables cuyos nodos son padres del nodo de iX . Con dichas definiciones

la probabilidad de obtener los valores ( )k21 xxx ..., de un grupo de variables aleatorias

}{ k21 XXX ..., se representa por: ( ) ∏

=

i

iik21 XPadresxPxxxP ...,

146

Un perceptrón que trata de reproducir una variable binaria puede ser visto como una

red bayesiana. Es posible apreciar esto con claridad si se piensa en el output de la

función logística como la probabilidad condicional de obtener un resultado “1” dados los

valores de los inputs. Bajo este punto de vista las redes neuronales que tratan de

modelar el que un cliente sea malo dentro de un determinado horizonte de tiempo en el

fondo no hacen sino calcular la probabilidad condicional de que dicho cliente sea malo

dado que las variables de input xr

han asumido determinados valores.

Ahora bien, si es posible interpretar el resultado de una red neuronal como una

probabilidad condicional cabe preguntarse qué tipo de estimación de dicha probabilidad

se obtiene al aplicar el algoritmo de refinamiento iterativo que se ha entregado en la

sección anterior. Como se mostrará a continuación, el algoritmo que minimiza los

errores entre las observaciones y los resultados de una red neuronal no hace otra cosa

que maximizar la función verosimilitud de las observaciones consideradas en los

ejemplos de entrenamiento. En otras palabras, las probabilidades condicionales que

entrega una red neuronal utilizan estimadores de Wr

que han sido obtenidos mediante

el método de máxima verosimilitud al aplicar el algoritmo iterativo de refinamiento de la

red sobre una base de ejemplos de entrenamiento.

A continuación se calculará el gradiente con respecto a Wr

de la función verosimilitud

del resultado y que arroja un perceptrón con una única unidad de salida al recibir los

inputs xr . Se mostrará que dicho gradiente posee una dirección contraria al gradiente

del error al cuadrado que es usado en el algoritmo de refinamiento iterativo de las redes

neuronales. Por ello, es claro que al minimizar el error al cuadrado de las observaciones

no se hace otra cosa sino maximizar la función verosimilitud del resultado y .

La función verosimilitud puede escribirse en forma diferenciable notando que

independientemente del valor de y la probabilidad condicional de observar ese

resultado dado un conjunto de valores de las variables de entrada xr vendrá dado por la

ecuación siguiente:

( ) ( )( ) ( )( ) yx

yxyP

1WW

−−=

rr rr h1h

Ello viene del hecho de poder escribir las probabilidades como sigue:

147

( ) ( ) ( )( ) ( )( )yxxx1yP W1

WWrrr rrr hhh ====

( ) ( )( ) ( )( ) ( )( ) y

xxx0yP1

W1

WW−

−=−=−==rrr rrr h1h1h1

El logaritmo de la función verosimilitud estará descrito por:

( )( ) ( )( )

−=

− yx

yxln

1WW

rr rr h1hL

En vez de maximizar la función verosimilitud se puede maximizar el logaritmo de dicha

función. El gradiente del logaritmo de la función verosimilitud vendrá dado por:

( )( ) ( )( )

( )( ) ( ) ( )( )( )

( )( )( )

( )( )

( )( )

( )( )

( )( ) ( ) ( )

( ) ( )( )( )

( )

( ) ( )( )( )

( ) ( )( )( )

ij,W

W1W

ij,W

W1W

W

ij,W

W1W

W1W1

ij,W

W1

1

ij,W

W

ij,W1

1ij,

W

W11Wij,

1W1Wij,ij,

Wx

xx

Err

Wx

xx

xy

Wx

xx

xyxy

Wx

xy

Wx

xy

Wxln

yW

xlny

xlnyxlnyW

yx

yxln

WW

∂

∂=

∂

∂=

∂

∂=

∂

∂

∂

∂=

∂

∂

∂

∂=

∂∂

=

∂∂

=∂∂

∗−

∗−

−

∗−

−−−

∗−

−−∗

−−+

−∗−+∗

−−

r

rr

r

rr

r

r

rr

rr

r

r

r

r

rr

rr

rr

r

rr

r

rr

r

r

rr

rr

r

r

r

r

rr

rr

rr

h

hh

h

hh

h

h

hh

hh

h

h

h

h

hh

hh

hhL

Esta última expresión puede simplificarse aun más considerando que ( )xWrrh

es una

función logística, y que la derivada de una función logística debe cumplir la ecuación:

148

)( ggg' −= ∗ 1 . Así se tiene que la derivada del resultado ( )xWrrh con respecto a ij,W

puede escribirse como sigue:

( ) ( ) ( )

( ) ( )( ) ( )

( ) ( )( ) jWW

j

j*ij,ij,WW

ij,i

i

Wij,

W

xxx

xWW

xx

Win

inx

Wx

∗

∗

∗

−=

∂∂

−=

∂∂

∂

∂=

∂

∂

∑rr

rr

rr

rr

rr

rr

h1h

h1h

hh

Por lo que se obtiene finalmente que: j

ij,xErr

W∗=

∂∂L

Puede verse que el gradiente obtenido tiene sentido contrario a la dirección de ajuste

de los coeficientes en la ecuación del procedimiento de minimización de los errores al

cuadrado dado en la sección anterior. Se puede concluir, por lo tanto, que el algoritmo

que minimiza la suma de los errores al cuadrado del perceptrón maximiza la

verosimilitud de las observaciones utilizadas para construir el modelo. Si bien ello no se

mostrará en esta sección, la conclusión anterior no sólo es válida para un perceptrón,

sino que también para redes neuronales con múltiples niveles de unidades ocultas.

10.1.4 Árboles de decisión

Un árbol de decisión recibe como input un conjunto de atributos y entrega una decisión,

que puede ser vista también como una predicción del output dados los inputs. Los

inputs y los outputs de un árbol de decisión pueden ser discretos o continuos, no

obstante en esta sección se supondrán inputs discretos y outputs booleanos. Un árbol

llega a una decisión luego de aplicar en cada nodo un test a un atributo. Cada rama

corresponde a uno de los valores posibles de dicho atributo. Las hojas entregan el

output del árbol.

A continuación se entrega un ejemplo de un árbol de decisión que permite clasificar a

los clientes como “buenos” o “malos” en términos de crédito. La decisión del árbol arroja

un “Si” en las hojas si un cliente es “bueno”. La lista de atributos que constituyen el

input del árbol, y que permiten tomar la decisión son los siguientes: morosidad, tiene

149

aval?, cliente antiguo?, rotación empleo, renta, profesión, dependiente?, patrimonio,

comuna, y finalmente, deuda.

Figura 10.13 Ejemplo de árbol de decisión que permite clasificar a los clientes en buenos y malos75

Cada uno de los nodos del árbol, representados en el diagrama mediante cajas, está

etiquetado con el nombre de un atributo, indicando con ello que en él se aplica un test a

los valores de dicho atributo. Así, por ejemplo, el nodo “morosidad” prueba el valor del

atributo del mismo nombre, entregando como output el resultado del subárbol que

comienza en la rama etiquetada con el valor que haya asumido dicho atributo. Si la

morosidad de un cliente es baja, el nodo “morosidad” entregará como output el

resultado del subárbol que comienza en la rama etiquetada “baja”, análogamente si la

morosidad es “alta”, el nodo entregará el resultado del subárbol que comienza con la

rama etiquetada como “alta”. El árbol que sigue la rama “baja” de uno de los nodos


150

etiquetados “morosidad” es una hoja, graficada como un círculo en el diagrama, y por lo

tanto entrega una decisión final del árbol (en este caso un “Si”).

Ejemplos específicos de clientes son procesados por el árbol partiendo de la raíz,

siguiendo luego las ramas que correspondan a los valores asumidos por los atributos

del cliente hasta llegar a una hoja. Por ejemplo, un cliente con renta media y sin deudas

será clasificado como cliente bueno (vale decir, se alcanzará un output “Si” en una

hoja). Puede notarse como el árbol de decisión no utiliza los atributos comuna y

profesión, puesto que ambos son considerados irrelevantes para clasificar a un cliente

en términos de riesgo de crédito.

10.1.4.1 Representación de modelos mediante árboles de decisión Cualquier función booleana puede ser representada mediante un árbol de decisión. Ello

puede conseguirse trivialmente haciendo corresponder cada fila de la tabla de verdad

de una función lógica con una ruta en el árbol de decisión, desde la raíz hasta una de

sus hojas. Ello da lugar a un árbol de decisión exponencialmente grande, por cuanto

una tabla de verdad tiene una cantidad exponencial de filas. No obstante lo anterior,

muchas funciones booleanas pueden ser representadas con árboles más pequeños.

Existen, de cualquier modo, funciones que requieren árboles exponencialmente

grandes, como la función paridad, que retorna “1” si un número par de inputs son “1”, y

la función mayoría, que retorna “1” si más de la mitad de los inputs son “1”. Por ello los

árboles de decisión son adecuados para representar ciertas funciones y no otras, lo

cual es importante al momento de tratar de construir árboles de decisión que sean

consistentes con conjuntos de datos.

Dados k ejemplos de inputs de una función booleana, con sus correspondientes

outputs, se desea construir un árbol de decisión que sea capaz de replicar dichos

outputs al recibir los mismos inputs que la función booleana. El problema radica en que

no existe una sola forma de generar un árbol de decisión semejante, sino muchas. En

general el número de árboles de decisión que es posible construir dado un input

booleano de n atributos es exponencialmente grande. En efecto, una tabla de verdad

con n atributos booleanos tendrá n2 filas. Para cada una de dichas filas el árbol de

decisión podrá entregar uno de dos resultados booleanos posibles, por lo tanto habrá

un total de n22 árboles de decisión distintos para un input de n atributos. Por ello los

151

algoritmos de construcción de árboles de decisión a partir de conjuntos de datos deben

ser particularmente “inteligentes”.

Una forma que parecería a primera vista “inteligente” de construir un árbol de decisión

sería el generar el árbol más pequeño y simple posible que fuese consistente con los

ejemplos de la función booleana. Sin embargo, el problema de encontrar dicho árbol es

intratable computacionalmente para cualquier definición razonable de “pequeño” o

“simple”. A continuación se describirá un algoritmo razonable y tratable

computacionalmente para construir árboles de decisión sobre n atributos que se

ajusten a los resultados de un conjunto de ejemplos. El algoritmo entregado se

denomina “algoritmo de aprendizaje de árboles de decisión”, no obstante existen

algoritmos de uso comercial que ofrecen un desempeño superior, y cuya exacta

implementación está encircuitada dentro de herramientas de software específicas. Tal

es el caso del algoritmo C5, encircuitado en Clementine entre otras herramientas.

Un ejemplo de un árbol de decisión booleano consiste de un input dado por un vector

)( k21 XXXX ...,= de atributos y un output booleano y . Un ejemplo para un cliente

específico i viene dado por el par de valores )( ki

2i

1ii xxxx ...,= e iy .

Un conjunto de 12 ejemplos de clientes clasificados utilizando el árbol de decisión de la

figura 10.13 se entrega a continuación en la figura 10.14. Los ejemplos positivos son

aquellos en los cuales el output del árbol de decisión corresponde a un “Si”, en tanto

que los ejemplos negativos son aquellos en los que corresponde a un “No”. Si se utiliza

el conjunto de ejemplos de la figura para inducir un árbol de decisión que sea

consistente con ellos, se hablará entonces de dichos ejemplos en términos de “conjunto

de datos de entrenamiento”.

Existe una forma trivial para construir un árbol de decisión que sea consistente con el

conjunto de datos de entrenamiento: asignar una hoja del árbol a cada uno de los

ejemplos, con una ruta que desde la raíz aplique un test sobre cada atributo, siguiendo

siempre las ramas correspondientes a los valores asumidos por el ejemplo.

Desafortunadamente un árbol construido así no puede decir mucho sobre otros

ejemplos distintos de los del conjunto de entrenamiento, puesto que en realidad no

hace sino memorizar las observaciones, sin extrapolar ningún patrón.

152

Figura 10.14 Ejemplos de clientes clasificados como buenos o malos76

Por el contrario, el “algoritmo de aprendizaje de árboles de decisión” es un mecanismo

razonable para construir un árbol. La idea central reside en escoger para el nodo raíz el

atributo que divida en mejor forma el conjunto de datos. Luego de escogido el primer

atributo, puede aplicarse sucesivamente el algoritmo a los atributos restantes. Con ello

se espera reducir el número de tests que es necesario realizar para clasificar los datos y

consecuentemente disminuir el nivel de complejidad del árbol resultante. La figura

siguiente muestra la división del conjunto de datos que realiza el atributo comuna.

76 Fuente: elaboración propia a partir del libro de RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 18, Learning Decision Trees, Prentice Hall, 2003

153

Figura 10.15 Clasificación de conjunto de datos de entrenamiento mediante el atributo de comuna77

Para cualquiera de los valores de comuna posibles asumidos en los ejemplos del

conjunto de entrenamiento se tiene que existen tantos ejemplos positivos como

negativos. Claramente el atributo comuna no divide de buena forma el conjunto de

datos. La figura 10.16 dada abajo, en cambio muestra la división del conjunto de datos

de entrenamiento que realiza el atributo renta. Cuando la renta es baja, todos los

ejemplos observados en el conjunto de entrenamiento son negativos, en tanto que

cuando es alta, todos los ejemplos son positivos. Por lo tanto es posible clasificar

perfectamente a los clientes cuando su renta es baja o alta, y resulta por ende claro que

el atributo renta permite clasificar de mejor forma a los clientes. No obstante, cuando los

ejemplos del conjunto de entrenamiento presentan renta media se tiene una mezcla de

resultados positivos y negativos, por lo que la información contenida en el atributo renta

no es suficiente para clasificar a los clientes, y es preciso mirar algún atributo adicional.

En la figura se muestra como clasificar a los clientes que han presentado renta media

observando su rotación en el empleo. Si ésta es baja, todos los casos corresponden a

ejemplos negativos. En cambio, si la rotación es alta se tiene nuevamente una mezcla

de resultados y se requiere, en consecuencia, mirar atributos adicionales.


154

Figura 10.16 Clasificación de conjunto de datos de entrenamiento mediante atributos de renta y rotación de empleo78

En el algoritmo recursivo de construcción del árbol se tienen los casos siguientes:

- Si existen tanto ejemplos positivos como negativos, se debe escoger el atributo que

divide en mejor forma el conjunto de ejemplos.

- Si todos los ejemplos son positivos o negativos, entonces se estará en una hoja.

- Si no quedan ejemplos, significa que no se ha observado un caso semejante en el

conjunto de datos entrenamiento. Se recomienda entregar como output un valor

calculado como la función booleana mayoría aplicada a las clasificaciones

realizadas por el nodo padre.

- Si no quedan ya más atributos para continuar con el algoritmo de construcción del

árbol, pero existe una mezcla de ejemplos negativos como positivos, ello indica que

los datos contienen errores, que los atributos no proveen suficiente información para 78 Fuente: elaboración propia

155

clasificar por completo los ejemplos, o bien que los resultados que se trata de

modelar son no determinísticos. En cualquier caso una forma de enfrentar el

problema es escoger como output la función booleana mayoría aplicada a la

clasificación de los ejemplos restantes.

El algoritmo de construcción de un árbol de decisión como se ha descrito da como

resultado la figura 10.17 cuando se aplica al caso de los ejemplos de la figura 10.14.

Figura 10.17 Árbol de decisión generado por algoritmo a partir de los ejemplos del conjunto de datos de entrenamiento79

Cabe notar que el árbol obtenido es bastante más simple que el de la figura 10.13, que

se utilizó para generar los 12 ejemplos del conjunto de entrenamiento. Con mayor

número de ejemplos en el conjunto de entrenamiento es posible arribar a un árbol de

decisión más parecido al árbol original que sirvió para generar los datos. Es preciso

decir también que el árbol de decisión generado es consistente con el conjunto de datos

de entrenamiento de la figura 10.14, pero no tiene por qué ser consistente con ejemplos

79 Fuente: elaboración propia a partir del libro de RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 18, Learning Decision Trees, Prentice Hall, 2003

156

que no hayan estado en dicho conjunto. Por ello un árbol de decisión estará sujeto a

error al enfrentarse a nuevos ejemplos.

La especificación completa del algoritmo descrito exige una forma de determinar la

capacidad que posee un atributo para dividir los ejemplos del conjunto de

entrenamiento en mejor o peor forma. Se desea encontrar una función que permita

determinar qué atributo divide en mejor forma los datos. Dos conjuntos de datos bien

divididos tendrán sólo ejemplos positivos o sólo ejemplos negativos. Por el contrario,

conjuntos mal divididos tendrán una mezcla de ejemplos positivos y negativos. Mientras

mayor sea la diferencia entre la proporción de ejemplos positivos y la proporción de

ejemplos negativos dentro de cada conjunto de datos, mejor será la división que se

haya efectuado. Una forma de enfrentar el problema es mediante la función

“información”. Si la probabilidad de obtener un ejemplo positivo dentro de un conjunto

de datos es “1”, claramente no se necesita información adicional para clasificar los

datos, análogamente si dicha probabilidad es “0”. Ahora bien, se requerirá un máximo

de información adicional para clasificar los datos cuando sea igualmente probable

obtener un ejemplo positivo o un ejemplo negativo.

Si se tiene un conjunto de n respuestas posibles iv , cada una con una probabilidad de

ocurrencia ( )ivP , la función información queda descrita por la ecuación siguiente80:

( ) ( )( ) ( ) ( )( )∑=

−=n

1ii2in1 vPlogvPvPvPI ,...

El lado derecho de la ecuación anterior puede escribirse como el logaritmo de una

cierta forma de promedio geométrico, como se muestra a continuación:

( ) ( )( ) ( )( ) ( )∏

=

−=n

1i

ii2n1vPvPlogvPvPI ,...

Ahora bien, en funciones con un output booleano, como es el caso de un árbol de

decisión que clasifica a los clientes en buenos o malos, sólo se tendrán dos resultados

posibles. Si se denota con p la cantidad de resultados positivos y con n la cantidad

de resultados negativos en un conjunto de datos, la función información queda:

80 Fuente: SHANNON, C. E., WEAVER, W., The Mathematical Theory of Communication, University of Illinois Press, 1949

157

−=

+

+

+

+++

npn

npp

2 npn

npplog

npn

nppI ,

La función información, por lo tanto, corresponderá a un logaritmo de una cierta forma

de promedio geométrico entre la proporción de ejemplos positivos y la proporción de

ejemplos negativos. La siguiente figura grafica la función información y el promedio

geométrico antes descrito en función de la proporción de ejemplos positivos:

Figura 10.18 Función información y promedio geométrico entre la proporción de ejemplos positivos y negativos en un conjunto de datos81

El promedio geométrico alcanzará su mínimo cuando ambas proporciones sean iguales,

y su máximo cuando una de dichas proporciones sea igual a cero. La función

información descrita hasta este punto permite conocer la cantidad adicional de

información necesaria para clasificar los clientes de un árbol de decisión dado que se

conoce la proporción de ejemplos positivos. No obstante, lo que se desea conocer es

cuanto contribuye un atributo a disminuir dicha información requerida. Para ello se

recurre a los conceptos de “ganancia” y de “resto” de información requerida, los cuales

se definen en los párrafos siguientes.


158

Se tiene un conjunto de datos con p resultados positivos y n resultados negativos. Un

atributo A divide un conjunto de datos en v grupos, de acuerdo al valor que asume.

Un grupo i de esos v grupos tiene ip resultados positivos y in resultados negativos.

Se tendrá que un ejemplo escogido aleatoriamente mostrará el valor i del atributo con

una probabilidad dada por: npnp ii

+

+. Por lo tanto, el valor esperado de la información

restante necesaria para clasificar un ejemplo luego de haber aplicado el test a un

atributo A vendrá dado por:

( ) ∑=

+++

+

=

v

1i ii

i

ii

iiinp

nnp

pInpnpAResto ,

La ganancia de información obtenida al aplicar el test sobre un atributo A será:

( ) ( )AResto

npn

nppIAGanancia −

=

++,

La función ganancia de información permite comparar atributos, como puede

comprobarse con la renta y comuna de los ejemplos de la figura 10.14:

( ) ( ) ( ) 541064

62

126

01124

10122

1 IIIRentaGanancia ,,,, =++−=

( ) 042

42

124

42

42

124

21

21

122

21

21

122

1 IIIIComunaGanancia =+++−=

,,,,

El atributo renta divide al conjunto de datos de entrenamiento en mejor forma que el

atributo comuna, por cuanto la ganancia de información requerida para clasificar datos

es mayor si se utiliza el atributo renta que si se usa el atributo comuna.

10.1.4.2 Refinamiento de los modelos de árboles de decisión

Es posible aplicar un algoritmo denominado “poda 2χ ” que previene el que un nodo

A del árbol de decisión sea “dividido” en subárboles a través del testeo de atributos

que no son claramente relevantes. Los árboles de decisión construidos con “poda 2χ ”

se comportan significativamente mejor que los árboles construidos sin ser podados

159

cuando los datos contienen gran cantidad de ruido. La “poda 2χ ” permite definir un

nodo del árbol como hoja, aun cuando los datos en dicho nodo no corresponden sólo a

ejemplos positivos o sólo a ejemplos negativos. Para aplicar la “poda 2χ ” es preciso

determinar cuando un atributo es irrelevante.

Si se dividiera un conjunto de ejemplos utilizando un atributo irrelevante, se esperaría

que los subconjuntos resultantes tuviesen aproximadamente la misma proporción de

ejemplos positivos y negativos que el conjunto original. Por lo tanto, la ganancia de

información sería cercana a cero. Por ello la ganancia de información permite descubrir

atributos irrelevantes. Cabe, no obstante preguntarse cuánto debiera ser la ganancia de

información mínima de un atributo para considerarlo relevante. Para ello se utiliza un

test de significancia.

Bajo la hipótesis 0H de que el atributo A es irrelevante, la ganancia de información

del atributo para un conjunto de datos de entrenamiento infinitamente grande debiera

ser cero. Es preciso calcular, bajo la hipótesis 0H , la probabilidad de que una muestra

de tamaño v exhiba una desviación con respecto a la distribución esperada de

ejemplos positivos y negativos. Puede calcularse dicha desviación comparando los

números de ejemplos positivos ip y negativos in en cada subconjunto en el cual el

atributo A asume el valor i , con los números esperados ip̂ y in̂ que se obtendrían

asumiendo irrelevancia del atributo. Dado que un ejemplo escogido aleatoriamente

mostrará el valor i del atributo A con una probabilidad dada por npnp ii

+

+, los valores

esperados de ip̂ y in̂ vendrán dados por: npnppp ii

i+

+∗=ˆ y

npnpnn ii

i+

+∗=ˆ . Una

medida conveniente para la desviación total vendrá dada por la fórmula:

( ) ( )∑=

−+

−

=

v

1i i

2ii

i

2ii

nnn

pppD

ˆˆ

ˆˆ

160

Bajo la hipótesis 0H el valor de D distribuye 2χ con 1v − grados de libertad. La

probabilidad de que el atributo sea realmente irrelevante puede ser calculada con la

ayuda de las tablas de la distribución 2χ .

10.1.5 Comparación de las técnicas de modelamiento A continuación se entregan las ventajas y desventajas de las tres técnicas descritas

previamente, de manera de facilitar la elección de alguna técnica particular:

Ventajas Desventajas

Reg

resi

ón lo

gíst

ica

- Permite identificar con claridad los atributos más relevantes que afectan la decisión de crédito y qué tan importante es cada uno.

- Mediante el test de razón de verosimilitud permite refinar en forma iterativa el modelo de manera de seleccionar sólo los atributos más relevantes.

- Permite que los atributos asuman valores continuos.

- Exige que no existan correlaciones importantes entre los atributos.

- El sistema de ecuaciones del gradiente del logaritmo de la función verosimilitud no tiene solución analítica y el algoritmo para resolverlo puede no converger.

- Sirve para representar una cierta forma de relación entre las variables de input y de output, descrita por la ecuación de regresión, pero no otro tipo de relaciones.

Red

es n

euro

nale

s

- No requiere de mayor análisis estadístico.

- Son capaces de detectar y replicar virtualmente cualquier tipo de relación entre los inputs y los outputs, por compleja que esta sea.

- No provee un mecanismo para descartar los atributos menos relevantes.

- Construye cajas negras que reciben inputs y predicen outputs, pero que no permiten observar exactamente qué pasa en su interior.

Árb

oles

de

deci

sión

- Pueden ser traducidos en términos de conjuntos de reglas fácilmente comprensibles y trasnscribibles en la forma de políticas de crédito o manuales de procedimientos.

- Entrega el mecanismo de “poda 2χ ” que permite descartar los atributos irrelevantes.

- Si bien puede predecir un valor booleano, presenta dificultad para calcular outputs continuos.

- Si los atributos son continuos el algoritmo para seleccionar el punto de división de un atributo puede requerir un enorme esfuerzo en términos de cálculo computacional.

- Sirven sólo para algunas funciones.

161

En las secciones anteriores se han detallado las principales técnicas de modelamiento

aplicables al caso de las campañas bancarias, ello como parte de la descripción del

output 4a.1 de la tarea de seleccionar la técnica de modelamiento (tarea 4a) de cuarta

fase del proyecto de datamining. En las secciones siguientes se describen los

resultados y tareas restantes de dicha fase del proyecto.

10.1.6 Supuestos de modelamiento (output 4a.2) Este resultado es el segundo de la tarea de seleccionar la técnica de modelamiento

(tarea 4a). De acuerdo a la guía de usuario de la metodología CRISP-DM, este output

corresponde al conjunto de suposiciones realizadas sobre la calidad, los valores o el

formato de los datos y que son impuestas por la técnica de modelamiento seleccionada.



- Definir cualquier supuesto sobre los datos que esté implícito en la técnica de

datamining escogida (por ejemplo: calidad, formato, distribución de las variables).

- Comparar dichos supuestos con aquellos del reporte de descripción de los datos.

- Asegurarse de que los supuestos se cumplen y retroceder a la fase de preparación de

los datos si es necesario.

10.2 Generar el diseño de las pruebas (tarea 4b)

Esta tarea consiste en una definición del procedimiento que se utilizará para probar la

calidad y validez del modelo. El diseño de las pruebas debe especificar qué datos

deberán ser separados del resto para conformar el conjunto de datos de entrenamiento

con el que se construirá el modelo. Deberá especificarse también qué datos formarán el

conjunto de datos de prueba con el que se validará el modelo antes construido.



10.2.1 Diseño de las pruebas (output 4b.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado

corresponde al plan elaborado para el entrenamiento y la evaluación de los modelos de

datamining. Una componente principal del plan consiste en decidir cómo dividir el

162

conjunto de datos disponible en un conjunto de datos de entrenamiento y un conjunto

datos de prueba. Entre las actividades que es preciso desarrollar se encuentran:

- Chequear el diseño de las pruebas separadamente para cada objetivo de datamining.

- Decidir los pasos necesarios para ejecutar cada prueba (número de iteraciones, etc.).

- Preparar los datos requeridos para las pruebas (el conjunto de datos de entrenamiento

y el conjunto de datos de prueba).

Los algoritmos generadores de modelos tratan de minimizar los errores o diferencias

entre las observaciones y las predicciones, dándole igual peso a cada observación. No

obstante, en términos crediticios es inmensamente peor cometer el error de clasificar

como bueno a un cliente malo (error tipo 1) que de clasificar como malo a un cliente

bueno (error tipo 2). Por ello el conjunto de datos de entrenamiento debe estar

adecuadamente balanceado, y sería incluso deseable tener más clientes malos que

buenos en la muestra, de manera tal de privilegiar en la generación de los modelos la

minimización del error tipo 1. Existe, no obstante, un inconveniente en la utilización de

muestras desbalanceadas que minimicen el error tipo 1, y es que los clientes malos son

en verdad escasos en una cartera de clientes (generalmente corresponde a un 1% de la

cartera). Por otro lado la experiencia señala que se necesitan al menos 1.000 clientes

malos para poder construir un modelo confiable. Si a eso se agrega que luego de ser

generado todo modelo debe ser validado en un conjunto de datos de prueba, se tiene

que son necesarios en total unos 2.000 clientes malos. Debe considerarse, además,

que un Banco pequeño tendrá tan solo 100.000 clientes o menos, de los cuales sólo

1.000 o 2.000 serán malos. Puede concluirse, por lo tanto, que no existe mucho margen

de maniobra para escoger muestras desbalanceadas y puede considerarse que un

conjunto de datos de entrenamiento balanceado (con igual número de clientes malos

que de buenos) es suficientemente apropiado para generar un modelo realista.

En este punto es importante señalar además que el conjunto de datos de prueba usado

para validar los modelos no debe tener datos en común con el conjunto de datos de

entrenamiento utilizado en la generación de dichos modelos. De lo contrario la

evaluación de los modelos pierde toda validez, tendiendo a favorecer a los modelos

sobreajustados.

163

10.3 Construir un modelo (tarea 4c)

En esta tarea debe ejecutarse la herramienta de modelamiento sobre el conjunto de

datos de entrenamiento. Se obtendrá un modelo especificado por un conjunto de

parámetros. La descripción de los resultados que se deben obtener como fruto de esta

tarea se entrega a continuación:

10.3.1 Establecer los parámetros (output 4c.1) En cualquier herramienta de modelamiento hay un gran número de parámetros que

deben ser ajustados. De acuerdo a la guía de usuario de la metodología CRISP-DM,

este resultado corresponde a una lista de los parámetros y sus valores, junto a las

razones por las que fueron elegidos dichos valores. Entre las actividades que es preciso


- Establecer los parámetros iniciales.

- Documentar las razones para escoger aquellos valores.

10.3.2 Modelos (output 4c.2) Este resultado es el segundo de la tarea de construir un modelo (tarea 4c). De acuerdo

a la guía de usuario de la metodología CRISP-DM, este output corresponde a modelos

generados luego de correr la herramienta de datamining sobre el conjunto de datos de

entrenamiento. Entre las actividades que es preciso desarrollar para obtener este

resultado se encuentran las siguientes:

- Correr la técnica seleccionada de datamining sobre el conjunto de datos de

entrenamiento, de manera tal de generar el modelo de datamining.

- Procesar los resultados de datamining arrojados por el modelo (por ejemplo: editar las

reglas en el caso de un árbol de decisión).

10.3.3 Generación automatizada de modelos en Clementine El siguiente diagrama muestra un flujo de datos en Clementine capaz de generar

modelos y apoyar el proceso de validación de los mismos. La generación de los

modelos parte de la fuente de datos denominada “Base final para construir modelo

predictivo”, que corresponde al output 3z.1 antes descrito en este documento, y que se

muestra a la izquierda en la figura 10.19. Los modelos generados se ubican en la

164

esquina superior derecha, en tanto que las predicciones conseguidas y que sirven para

validar dichos modelos se entregan en la parte inferior de la misma figura.

Figura 10.19 Flujo de datos en Clementine que genera modelos y predicciones a partir de una base final para alimentar el modelo predictivo82

10.3.3.1 Símbolos usados en Clementine para generar modelos El significado de los íconos usados en el diagrama y no explicados anteriormente se

entrega a continuación. Los íconos que aparecen a la derecha de cada par de símbolos

se utilizan en los diagramas para resaltar nodos que están siendo explicados.

Selección de muestras:

Este icono selecciona una muestra del flujo de datos que recibe

como input.


165

Nodos generadores de modelos:

Los siguientes íconos representan nodos que reciben como input un conjunto de datos

de entrenamiento, donde cada registro corresponde a una lista de valores de las

variables predictivas más un valor de la variable que se espera predecir. A partir de esa

información cada uno de éstos nodos genera un modelo predictivo, el cual es entregado

como output en la forma de nodo.

Este icono genera un modelo de regresión logística a partir de los

conjuntos de valores de las variables predictivas y de la variable a

predecir.

Este icono, en cambio, genera un modelo de red neuronal.

Este icono genera un modelo de árbol de decisión.

Nodos de modelos generados:

Los siguientes íconos representan modelos predictivos que ya han sido generados por

alguno de los nodos antes descritos. Cada uno de ellos puede ser utilizado en

Clementine de la misma forma que los nodos predefinidos por el software, sin

necesidad de programar su funcionamiento. Estos nodos al recibir como input un

conjunto de valores de las variables predictivas para un cliente en particular arrojan una

predicción para la variable a predecir.

Este icono representa un modelo de regresión logística que ha sido

generado por el usuario.

Este icono representa un modelo de red neuronal que ha sido

generado por el usuario.

Este icono representa un modelo de árbol de decisión que ha sido

generado por el usuario. C5.0 C

5.0C

5.0C

5.0C

5.0 C5.0

C5.0

C5.0

166

10.3.3.2 Descripción del diagrama en Clementine que genera un modelo El diagrama en Clementine que permite generar modelos se explica en dos fases:

primero la obtención de un conjunto de datos de entrenamiento (figura 10.20), y luego la

generación del modelo a partir de dicho conjunto de datos (figura 10.21).

Figura 10.20 Flujo de datos en Clementine que obtiene un conjunto de datos de entrenamiento83

En la figura 10.20 el nodo “Base final para construir modelo predictivo” del recuadro

contiene datos tanto de una base de variables predictivas de hace un año, como de las

clasificaciones de la base de clientes hoy. Dicha clasificación divide a los clientes en

“buenos” o “malos” y en “clientes con gran rentabilidad potencial” o “clientes sin gran

rentabilidad potencial”. Como primer paso del diagrama los distintos campos de dicha

base son transformados en variables discretas. Dicha labor, que ocurre en el nodo

denominado “Transforma en categorías”, se realiza para facilitar la iteración de los

algoritmos de generación de modelos. Los registros resultantes son divididos en


167

aquellos correspondientes a los clientes malos y a los clientes buenos (los cuales son

seleccionados en el diagrama por los nodos “Clientes malos hoy” y “Clientes buenos

hoy”, respectivamente)84. Posteriormente, el flujo de datos en Clementine procede a

construir el conjunto de datos de entrenamiento que se utilizará en la generación de los

modelos, para lo cual se selecciona el 50% de los clientes malos y el resultado se

mezcla con el nodo “1% de muestra de buenos”. Los porcentajes han sido escogidos

para asegurar la obtención de una muestra balanceada para la generación de modelos

predictivos (por cuanto el 1% de los clientes buenos es tan numeroso como el 50% de

los clientes malos). La muestra balanceada se obtiene en el diagrama en el nodo

etiquetado como “Conjunto de datos de entrenamiento”.

La figura 10.21 dada abajo, en tanto, ilustra la segunda fase de la generación de

modelos en Clementine:

Figura 10.21 Flujo de Datos en Clementine que genera modelos a partir de un conjunto de datos de entrenamiento85

84Una acción análoga es necesaria para trabajar con clientes con gran rentabilidad potencial y clientes sin gran rentabilidad potencial 85 Fuente: elaboración propia

168

La muestra antes obtenida se resalta mediante la etiqueta “Conjunto de datos de

entrenamiento” a la izquierda del diagrama. En la mitad superior de la figura, en tanto,

se resaltan los nodos generadores de modelos, bajo la etiqueta “Generación de

modelos”. Estos nodos generadores de modelos reciben como input el conjunto de

datos de entrenamiento y al momento de ser ejecutados por el usuario entregan como

output “nodos generados”. Cada “nodo generado” puede entenderse como un

programa, que puede ser utilizado en Clementine de igual forma que cualquier otro

nodo predefinido. Los “nodos generados” son depositados por los nodos generadores

en la esquina superior derecha del diagrama, donde aparecen resaltados con la

etiqueta “Modelos generados”.

10.3.4 Descripción del modelo (output 4c.3) Este resultado es el tercero de la tarea de construir un modelo (tarea 4c). De acuerdo a

la guía de usuario de la metodología CRISP-DM, este output corresponde a una

descripción del modelo resultante y a una evaluación de su precisión esperada, su

robustez y sus posibles defectos. Incluye también una descripción de la interpretación

del modelo. Entre las actividades que es preciso desarrollar para obtener este resultado

se encuentran las siguientes:

- Describir cualquier característica del modelo que pueda ser útil en el futuro.

- Registrar los valores establecidos de los parámetros que se han utilizado para producir

el modelo.

- Dar una descripción detallada del modelo.

- Para modelos basados en reglas, realizar una lista de todas las reglas producidas más

cualquier estimación del porcentaje de clientes que sería cubierto por cada regla.

- Para las redes neuronales realizar una lista de cualquier información técnica sobre el

modelo (tal como la topología) y cualquier descripción del comportamiento del modelo

obtenida durante el proceso de modelamiento (tal como la precisión o la sensibilidad

esperada del modelo).

- Describir el comportamiento del modelo y su interpretación.

- Establecer conclusiones sobre los patrones descubiertos en los datos (si es que éstos

existen).

169

A continuación se entregan las meta-especificaciones de los modelos de riesgo y de

rentabilidad perseguidos por esta investigación, utilizando para ello las tres técnicas de

modelamiento descritas previamente: regresión logística, redes neuronales y árboles de

decisión.

10.3.4.1 Modelo de riesgo especificado usando regresión logística A continuación se describe como puede especificarse el modelo de riesgo de crédito

como un modelo de regresión lineal.

Cada cliente tendrá un conjunto de características resumidas en la variable explicativa

vectorial X , definida de la forma siguiente:

)

(

F19F2F1

E29E2E1

D4D2D1

C15C2C1

B7B2B1

A14A2A1

...XX,X

,...XX,X

,...XX,X

,...XX,X

,...XX,X

,...XX,XX =

Cada una de las componentes de dicho vector es una variable que representa una

determinada característica, lo cual puede resumirse de la forma siguiente:

}{ A14A2A1 ...XX,X Variables demográficas

}{ B7B2B1 ...XX,X Variables de renta

}{ C15C2C1 ...XX,X Variables de vínculo con el cliente

}{ D4D2D1 ...XX,X Variables de ingresos contables generados por un cliente

}{ E29E2E1 ...XX,X Variables de comportamiento del cliente

}{ F19F2F1 ...XX,X Variables de deudas del cliente

170

El conjunto de observaciones de dichas variables para un cliente particular i se denota

como sigue:

)

(

F19F2F1

E29E2E1

D4D2D1

C15C2C1

B7B2B1

A14A2A1

iii

iii

iii

iii

iii

iiii

...xx,x

,...xx,x

,...xx,x

,...xx,x

,...xx,x

,...xx,xx =

La variable dependiente, denotada por Y , describe la condición de bueno o malo de un

cliente en términos de riesgo de crédito (0: bueno, 1: malo). Se denotan las

observaciones de dicha variable para un cliente i como iy .

Con estas definiciones la estimación que entrega un modelo de regresión logística para

la probabilidad de que un cliente i sea malo, dado que presenta características

descritas por el vector ix , vendrá dada por:

)(

)(

i

i

i x1

xπ

eeg

g

+=

Donde )( ixg corresponde a la ecuación ( )Tii x1βx •=

r)(g . El vector

( )Tix1 es

el vector ( )ix1 transpuesto: un vector cuyo primer elemento es el número “1” y todos

los elementos restantes son componentes del vector ix .

La razón para agregar el número “1” al vector ix se debe a que se desea incorporar el

parámetro 0β en )( ixg , a pesar de que este parámetro no vaya acompañado de

ninguna componente de ix . A continuación se entrega la definición de los vectores βr

y

( )ix1 en términos de sus componentes:

171

)

(

19F2F1F

,29D2D1D

,4D2D1D

,15C2C1C

,7B2B1B

,14A2A1A

ββββββββββββββββββββ

...,

...,

..., ..., ..., ..., 0 ,=

r

( )

)

(

F19F2F1

E29E2E1

D4D2D1

C15C2C1

B7B2B1

A14A2A1

iii

iii

iii

iii

iii

iiii

...xx,x

,...xx,x

,...xx,x

,...xx,x

,...xx,x

,...xx,x 1, x1 =

Los coeficientes βr

se obtienen de resolver numéricamente el sistema de ecuaciones:

0β

)β(

rr

r=∇ ˆl

Dicho sistema de ecuaciones se obtiene calculando el gradiente de ( )yrl con respecto

a los parámetros βr

, evaluado luego dichos parámetros en los estimadores βr̂

e

igualando finalmente las ecuaciones resultantes a cero, donde:

( ) ( )∑ ∑

= =

∗

+−=

n

1i

n

1i

iii

x1lnxyy e )(

)(g

glr

En tanto ix e iy representan observaciones de una muestra de n clientes escogidos

en el conjunto de datos de entrenamiento.

El modelo tal y como se ha descrito acá tiene 88 variables, las cuales claramente están

mutuamente correlacionadas entre si. No obstante, un modelo de regresión lineal

requiere que las variables no tengan correlaciones importantes, pues de lo contrario el

modelo tiende a tratar de replicar los “ruidos” contenidos en la muestra. Para evitar

dicho inconveniente es preciso depurar el modelo, dejando en él solamente las

variables que son más predictivas. Una forma de realizar dicho proceso consiste en

determinar el aporte de cada variable al modelo mediante el test de razón de

verosimilitud que se ha descrito antes en este documento.

10.3.4.2 Modelo de rentabilidad especificado usando regresión logística El modelo de rentabilidad potencial puede especificarse en forma análoga a como se ha

hecho en el caso del modelo de riesgo de crédito. La única diferencia radica en que la

172

variable dependiente Y describe la condición de ser o no un cliente con gran

rentabilidad potencial (0: con gran rentabilidad potencial, 1: sin gran rentabilidad

potencial). Se denotan las observaciones de dicha variable para un cliente i como iy .

La variable ix , en tanto, corresponde a una observación de la variable explicativa

vectorial X para un cliente particular i , definida del mismo modo que en el modelo de

riesgo de crédito. La estimación que entrega un modelo de regresión logística para la

probabilidad de que un cliente i no tenga una gran rentabilidad potencial dado que

posee un conjunto de características descritas por la variable ix viene dada por:

)(

)(

i

i

i x1

xπ

eeg

g

+=

Donde )( ixg se obtiene en la misma forma que en el caso del modelo de riesgo.

10.3.4.3 Modelo de riesgo especificado usando redes neuronales El conjunto de datos de entrenamiento utilizado para construir el modelo de red

neuronal de riesgo de crédito debe contener para cada cliente el conjunto de variables

predictivas (que son las mismas descritas anteriormente para especificar el modelo de

regresión logística) además de la variable a predecir Y , que describe la condición de

bueno o malo de un cliente en términos de crédito (0: bueno, 1: malo). La variable xr

corresponde a una observación para un cliente particular de la variable explicativa

vectorial X , definida como sigue:

)

(

F19F2F1

E29E2E1

D4D2D1

C15C2C1

B7B2B1

A14A2A1

...XX,X

,...XX,X

,...XX,X

,...XX,X

,...XX,X

,...XX,XX =

Cada una de las componentes de dicho vector son variables que representan una

determinada característica, y que pueden resumirse de la forma siguiente:

173

}{ A14A2A1 ...XX,X Variables demográficas

}{ B7B2B1 ...XX,X Variables de renta

}{ C15C2C1 ...XX,X Variables de vínculo con el cliente

}{ D4D2D1 ...XX,X Variables de ingresos contables generados por un cliente

}{ E29E2E1 ...XX,X Variables de comportamiento del cliente

}{ F19F2F1 ...XX,X Variables de deudas del cliente

La estimación que entrega un modelo de red neuronal para la probabilidad condicional

de que un cliente sea malo en términos de crédito dado que posee un conjunto de

características descritas por la variable xr viene dada por ( )xWrrh . Las redes

neuronales a veces son denominadas “modelos opacos” por constituir cajas negras

cuyo contenido no puede interpretarse. Se ha mencionado que ellas pueden concebirse

como redes bayesianas, en las que la función ( )xWrrh de cada unidad puede ser vista

como una probabilidad condicional de ocurrencia de un evento dados los valores de las

variables de input. No obstante, en la práctica a menos que el software de datamining

permita definir una topología exacta no es posible dar un significado claro a los

resultados de las unidades ocultas de la red. Clementine, que es la herramienta de

datamining que es utilizada en este documento, no permite definir la topología de las

redes neuronales más allá del número de niveles de las unidades ocultas. Por ello no

tiene sentido en esta sección especificar la topología para el modelo de riesgo.

Usualmente la forma de alcanzar un modelo satisfactorio con redes neuronales consiste

en realizar muchas pruebas con distintos números de niveles de unidades ocultas y

distintos parámetros alfa de aprendizaje, entre otros parámetros. No obstante, sólo es

posible especificar el modelo en términos fijos de esos parámetros disponiendo de los

datos concretos usados en la generación del modelo.

10.3.4.4 Modelo de rentabilidad especificado usando redes neuronales El conjunto de datos de entrenamiento utilizado para construir el modelo de red

neuronal de rentabilidad potencial debe contener para cada cliente el conjunto de

variables predictivas (que son las mismas descritas anteriormente para especificar el

174

modelo de regresión logística) y la variable a predecir Y , que describe la condición de

ser o no un cliente con gran rentabilidad potencial (0: con gran rentabilidad potencial, 1:

sin gran rentabilidad potencial). La variable xr corresponde a una observación para un

cliente particular de la variable explicativa vectorial X , definida en la misma forma que

para los modelos antes descritos. La estimación que entrega un modelo de red

neuronal para la probabilidad condicional de que un cliente no tenga una gran

rentabilidad potencial dado que posee un conjunto de características descritas por la

variable xr viene dada por ( )xWrrh .

10.3.4.5 Modelo de riesgo especificado usando árboles de decisión Un árbol de decisión puede ser especificado de distintas formas, una de las cuales es a

través de la descripción de sus nodos, ramas y hojas, (lo que se conoce como TREE

RESULT FORMAT en Clementine) y otra es a través de un conjunto de reglas (lo que

se conoce como RULESET RESULT FORMAT en Clementine). A continuación se

entrega la sintaxis de ambas definiciones utilizadas por Clementine en los outputs de

sus modelos de árboles de decisión C586. En cualquier caso los árboles son

especificados en un lenguaje similar, cuya sintaxis consta de los siguientes símbolos:

“<” y “>” rodean un identificador de un símbolo no terminal. Un símbolo no terminal

puede ser traducido a un conjunto de palabras claves y otros identificadores

“==” indica la definición de un identificador no terminal a su izquierda en términos de

palabras clave e identificadores a la derecha.

“|” se usa para separar elementos de una lista. Un identificador definido como una lista

de ítems separados por “|” puede ser traducido usando cualquiera de los ítems de la

lista.

“*” indica cero o más instancias del identificador ubicado a su izquierda.

Especificación utilizando TREE RESULT FORMAT:

Bajo esta especificación el árbol consiste de un número de líneas en las que cada una

contiene un test seguido de dos puntos. Cada línea corresponde a una hoja o a una

rama. Si hay cualquier cosa después de los dos puntos, la línea es un nodo hoja y el

86 Fuente: CLEMENTINE 7.0 User’s Guide, SPSS, 2002

175

ítem ubicado después de los dos puntos corresponde a una “clasificación” (output del

árbol de decisión). En el caso de un nodo rama, el test contenido en la línea se aplicará

a uno de los posibles valores de un atributo, por ejemplo del atributo A . Las líneas

siguientes a dicho nodo rama corresponderán a tests aplicados a otros atributos, o al

mismo atributo A . Dependiendo de qué atributo se trate es posible identificar si la línea

siguiente corresponde a un nodo “hijo”, “hermano” o “tío” del nodo rama de la línea

anterior. A continuación se entrega la sintaxis y un ejemplo de esta especificación.

Sintaxis TREE RESULT FORMAT: <Rama> == <Atributo> <Comparación> <Valor> :

<Hoja> == <Atributo> <Comparación> <Valor> : <Clasificación>

<Comparación> == ‘=’ | ‘>’ | ‘<=’ | ‘<’

Ejemplo dado en la figura 10.17 en el formato TREE RESULT FORMAT Renta = baja : No

Renta = media :

Rotación_empleo = baja : No

Rotación_empleo = alta :

Comuna = ‘Concepción’ : Si

Comuna = ‘Valpo.’ : No

Comuna = ‘Viña’ : Si

Comuna = ‘Stgo.’ :

Cliente_antiguo? = nuevo : No

Cliente_antiguo? = antiguo : Si

Renta = alta : Si

Especificación utilizando RULESET RESULT FORMAT:

En esta especificación un conjunto de reglas es descrito también en un lenguaje similar

a un lenguaje de programación. Dentro de cada conjunto de reglas debe haber cero o

más reglas. Cada regla consiste en una línea que empieza con la palabra reservada

“Rule”, seguida por un número de regla y por dos puntos, y luego por cero o más

condiciones. Luego de las condiciones la regla termina con la palabra reservada “class”,

a continuación de la cual se entrega una “clasificación” (output del árbol). Un conjunto

de reglas termina con la clasificación por omisión, la cual comienza con las palabras

reservadas “Default class” y luego por un output del árbol.

176

Sintaxis RULESET RESULT FORMAT: <Regla> == Rule <número de regla> : <Condición>*

class <Clasificación>

<Condición> == <Campo> <Comparación> <Valor> :

<Comparación> == ‘=’ | ‘>’ | ‘<=’ | ‘<’

Ejemplo dado en la figura 10.17 en el formato RULESET RESULT FORMAT

Rule 1 : Renta = baja

class No

Rule 2 : Renta = media

Rotación_empleo = baja

class No


Rotación_empleo = alta

Comuna = ‘Concepción’

class Si



Comuna = ‘Valpo.’

class No



Comuna = ‘Viña’

class Si



Comuna = ‘Stgo.’

Cliente_antiguo? = nuevo

class No



Comuna = ‘Stgo.’

Cliente_antiguo? = antiguo

class Si

Rule 8 : Renta = alta

class Si

Default class : No

El modelo de riesgo puede especificarse de cualquiera de las dos formas antes

presentadas. Dicho modelo para cada cliente en el conjunto de datos de entrenamiento

recibe una variable explicativa vectorial X , definida en la misma forma que para los

modelos de regresión logística o redes neuronales, más la variable Y que se espera

predecir, y la cual describe la condición de ser o no un cliente malo en términos de

crédito (0: bueno, 1: malo). Las notas de riesgo de los clientes pueden fijarse a partir de

las probabilidades estimadas de que un cliente clasificado en cada hoja sea “malo”.

Dicha información es calculada por Clementine al procesar el conjunto de datos de

177

entrenamiento, a partir de los porcentajes observados de clientes “malos” en cada nodo

sobre el total de los clientes que han sido clasificados en dicho nodo.

10.3.4.6 Modelo de rentabilidad especificado usando árboles de decisión En este caso el árbol de decisión puede ser especificado también de las dos formas

dadas anteriormente (TREE RESULT FORMAT o RULESET RESULT FORMAT). La

variable a predecir Y describe en este caso la condición de ser o no un cliente con gran

rentabilidad potencial (0: con gran rentabilidad potencial, 1: sin gran rentabilidad

potencial). Las notas de rentabilidad de los clientes pueden fijarse a partir de las

probabilidades estimadas de clasificar a clientes como “sin gran rentabilidad potencial”

en cada hoja del árbol, información que Clementine entrega con cada árbol generado.

10.3.4.7 Variables válidas en los tres tipos de modelos antes explicados A continuación se entrega la descripción completa de las variables que alimentan los

tres tipos de modelos antes especificados:

Variables demográficas:

A1X Región A8X Nivel educacional

A2X Provincia A9X Actividad económica

A3X Comuna A10X Profesión

A4X Sexo A11X Universidad

A5X Estado civil A12X Régimen conyugal

A6X Cantidad de hijos A13X ¿Tiene datos de edad?

A7X Cantidad de cargas A14X Edad

Variables de renta:

1BX Patrimonio B5X Tipo de renta (fija o variable)

B2X ¿Tiene un bien raíz? B6X Antigüedad de la renta

B3X ¿Tiene datos de renta? B7X ¿Es trabajador independiente?

B4X Renta

178

Variables de vínculo con el cliente:

C1X Tipo de cliente (cliente en convenio, cliente estándar, etc.)

C2X Antigüedad del cliente

C3X ¿Tiene líneas de crédito del Banco?

C4X Fecha más remota de apertura de línea de crédito hoy vigente con el Banco

C5X ¿Tiene tarjetas del Banco?

C6X Fecha más remota de otorgamiento de tarjeta de crédito vigente con el Banco

C7X Monto original de las tarjetas de crédito del Banco que el cliente posee

C8X ¿Tiene créditos no hipotecarios en el Banco?

C9X Fecha más remota de otorgamiento de crédito no hipot. vigente con el Banco

C10X Monto original adeudado en créditos no hipotecarios del Banco

C11X Plazo máximo de créditos no hipotecarios hoy vigentes con el Banco

C12X ¿Tiene créditos hipotecarios del Banco?

C13X Fecha más remota de otorgamiento de crédito hipot. hoy vigente con el Banco

C14X Monto original adeudado en créditos hipotecarios hoy vigentes con el Banco

C15X Plazo máximo de créditos hipotecarios hoy vigentes con el Banco

Variables de ingresos contables por cliente:

D1X Ingresos contables generados por el cliente por concepto de mantención,

spread de intereses, comisiones y otros ingresos en líneas de crédito

D2X Ingresos contables generados por el cliente por concepto de mantención,

spread de intereses, comisiones y otros ingresos en tarjetas de crédito

D3X Ingresos contables generados por el cliente por concepto de spread de

intereses, comisiones y otros ingresos en créditos no hipotecarios

D4X Ingresos contables generados por el cliente por concepto de spread de

intereses, comisiones y otros ingresos en créditos hipotecarios

179

Variables de comportamiento del cliente:

E1X En qué tramo de morosidad se encuentra el cliente con el Banco

E2X Monto en mora

E3X ¿Presenta deuda vencida con el Banco?

E4X ¿Presenta capital castigado con el Banco?

E5X Días de mora en productos del Banco

E6X ¿Cliente está en "file negativo"?

E7X ¿Cliente presenta cuenta cerrada por el Banco?

E8X Presenta créditos renegociados que provienen de incapacidad de pago

E9X Presenta créditos repactados que no provienen de incapacidad de pago

E10X Presenta deuda de varios deudores proveniente de una tarjeta caída

E11X Presenta deuda de varios deudores proveniente de una línea caída

E12X Promedio de la deuda directa morosa en el sistema financiero los últimos 3

meses

E13X Promedio de la deuda directa vencida en el sistema financiero los últimos 3

meses

E14X Promedio de la deuda indirecta vencida en el sistema financiero en los últimos

3 meses

E15X Promedio del saldo de la deuda directa castigada en el sistema financiero los

últimos 3 meses

E16X Promedio del saldo de la deuda indirecta castigada en el sistema financiero los

últimos 3 meses

E17X Promedio de la deuda directa morosa en el sistema financiero en un periodo

comprendido entre 6 meses atrás y los últimos 3 meses

E18X Promedio de la deuda directa vencida en el sistema financiero en un periodo


E19X Promedio de la deuda indirecta vencida en el sistema financiero en un periodo


180

E20X Promedio del saldo de la deuda directa castigada en el sistema financiero en un

periodo comprendido entre 6 meses atrás y los últimos 3 meses

E21X Promedio del saldo de la deuda indirecta castigada en el sistema financiero en

un periodo comprendido entre 6 meses atrás y los últimos 3 meses

E22X Promedio de la deuda directa morosa en el sistema financiero en un periodo


E23X Promedio de la deuda directa vencida en el sistema financiero en un periodo


E24X Promedio de la deuda indirecta vencida en el sistema financiero en un periodo


E25X Promedio del saldo de la deuda directa castigada en el sistema financiero en un

periodo comprendido entre 15 meses atrás y los últimos 6 meses

E26X Promedio del saldo de la deuda indirecta castigada en el sistema financiero en

un periodo comprendido entre 15 meses atrás y los últimos 6 meses

E27X Cheques protestados

E28X Otros documentos protestados en el Boletín Comercial

E29X Morosidades informadas al Boletín Comercial

Variables de deuda del cliente:

F1X Saldo vigente en las líneas de crédito del Banco

F2X Cupo disponible en las líneas de crédito del Banco

F3X Saldo vigente en las tarjetas de crédito del Banco

F4X Cupo disponible en las tarjetas de crédito del Banco

F5X Saldo vigente en créditos no hipotecarios del Banco

F6X Saldo vigente en créditos hipotecarios del Banco

F7X Deuda comercial en otros bancos

F8X Deuda de consumo en otros bancos

F9X Deuda hipotecaria en otros bancos

F10X Cupo disponible en líneas y tarjetas de crédito de otros bancos

181

F11X Deuda directa vigente en el último mes del último informe SBIF

F12X Monto de línea de crédito disponible en el último informe SBIF

F13X Promedio de la deuda directa vigente en un periodo comprendido entre 6

meses atrás y los últimos 3 meses

F14X Promedio del monto de línea de crédito disponible en un periodo comprendido

entre 6 meses atrás y los últimos 3 meses

F15X Promedio de la deuda directa vigente en un periodo comprendido entre 15

meses atrás y los últimos 6 meses

F16X Promedio del monto de línea de crédito disponible en un periodo comprendido

entre 15 meses atrás y los últimos 6 meses

F17X Nivel de leverage hipotecario total del cliente, el cual se calcula como la deuda

hipotecaria dividida por la renta

F18X Nivel de leverage no hipotecario total del cliente, el cual se calcula como la

deuda no hipotecaria dividida por la renta

F19X Estimación de la carga financiera del cliente

10.4 Evaluar el modelo técnicamente (tarea 4d)

Esta tarea se encarga de evaluar el modelo para asegurar que satisface tanto los

criterios de éxito de datamining (output 1c.2) como los criterios de las pruebas (output

4b.1). Corresponde a una evaluación puramente técnica y estadística, basada en el

resultado de las tareas de modelamiento. Difiere por tanto de la subsiguiente fase de

evaluación de negocios del modelo de datamining precisamente por su enfoque técnico.



10.4.1 Evaluación técnica del modelo y de los objetivos de datamining de estimar el riesgo crediticio y la rentabilidad potencial de los clientes (output 4d.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde

a un resumen de los resultados de la tarea de evaluar el modelo técnicamente (tarea

4d). Debe incluir listas de cualidades de los modelos generados (por ejemplo, en

términos de precisión) y rankings de calidad de los modelos generados. Entre las


182

- Evaluar los resultados del modelo con respecto a los criterios de éxito de datamining

(output 1c.2), muy en particular con respecto a los errores tipo I y tipo II definidos en la

sección 7.3, y expresados como porcentaje de un conjunto de datos de prueba. En este

punto es preciso fijar un “puntaje de corte”, o nota mínima que permite clasificar como

bueno a un cliente87, y calcular los errores tipo I y tipo II que se obtengan para un

conjunto de datos de prueba. En un modelo de riesgo el error tipo I proviene de

clasificar como bueno a un cliente que será malo, mientras que el error tipo II surge al

clasificar como malo a un cliente que será bueno88.

- Validar los resultados del modelo siguiendo la estrategia de pruebas (output 4b.1).

- Comparar e interpretar los resultados obtenidos en la validación.

- Crear rankings de resultados con respecto a los criterios de evaluación técnica.

- Seleccionar los mejores modelos.

- Obtener comentarios sobre los modelos por parte de expertos en la materia.

- Chequear que tan plausible es cada modelo.

- Verificar el impacto que tendría la implementación de un modelo para los objetivos de

datamining de estimar el riesgo crediticio y la rentabilidad de los clientes.

- Determinar si la información descubierta por cada modelo es nueva y útil.

- Verificar la confiabilidad de los resultados de los modelos.

- Si hay una descripción verbal del modelo generado, por ejemplo vía reglas, evaluar si

las reglas son lógicas o factibles, o si contrarían el sentido común.

- Comprender por qué una determinada técnica de modelamiento y ciertos valores de

los parámetros conducen a buenos o a malos resultados.

10.4.2 Principales medidas estadísticas para evaluar modelos técnicamente A continuación se da un conjunto de medidas estadísticas que pueden ser usadas para

comparar modelos predictivos, entregando para cada una sus ventajas y desventajas. 87 Análogamente un puntaje de corte es la nota mínima para calificar a un cliente como “con gran rentabilidad potencial” 88 Análogamente lo mismo es válido para los modelos de rentabilidad. El error tipo I se comete al calificar como cliente con gran rentabilidad potencial a un cliente sin ella, en tanto que el error tipo II ocurre al clasificar como cliente sin gran rentabilidad potencial a un cliente que si poseerá una gran rentabilidad potencial

183

10.4.2.1 Divergencia La divergencia puede usarse para medir la separación de la distribución de clientes

malos de la distribución de clientes buenos. Un modelo que entregue mayor divergencia

que otro será capaz de separar mejor a los clientes buenos de los malos a través de las

notas de riesgo, en otras palabras será capaz de distinguir mejor a los clientes malos de

los buenos. La distribución de clientes malos puede estimarse a partir del histograma de

frecuencia de los puntajes de riesgo de los clientes malos. La distribución de clientes

buenos puede aproximarse análogamente a partir de un histograma de los puntajes de

clientes buenos. La divergencia D de dos modelos se calcula como sigue:

( )( )2

b2m

2bm

σσ21

µµD+

−=

Donde bµ y 2bσ son la media y la varianza de la distribución de puntaje de los clientes

buenos y mµ y 2mσ son la media y la varianza de la distribución de puntaje de los

clientes malos.

Figura 10.22 Factores considerados en la divergencia de un modelo de puntaje: cuanto se separan y se superponen las distribuciones de buenos y malos89

89 Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight Series, 1999

184

Entre las ventajas de este estadístico se encuentran el que considera las distribuciones

de puntajes completas para realizar la comparación de modelos. Toma en

consideración la separación de los dos grupos de clientes, buenos y malos, al igual que

las varianzas de sus distribuciones. Entre sus desventajas están el que tal vez no

identifica el mejor modelo para una determinada “nota de corte”, entendiendo esta

última como la nota mínima aceptable para aprobar una decisión de otorgamiento de

crédito. Ello proviene del hecho de que si bien un modelo puede separar mejor a los

clientes malos de los buenos en términos generales, ello no garantiza que para una

nota específica tal modelo separe mejor que el resto a los clientes buenos de los malos.

10.4.2.2 Estadístico de Kolmogorov-Smirnov (K-S) Este estadístico mide la diferencia máxima entre las curvas de probabilidad acumulada

del puntaje de dos grupos de clientes, por ejemplo: clientes buenos y malos.

Figura 10.23 Estadígrafo K-S, calculado como la máxima distancia entre las distribuciones de buenos y malos de un modelo de puntaje90

Mientras mayor sea el estadístico K-S de un modelo, mejor será la capacidad de dicho

modelo para separar a los clientes buenos de los malos. Este estadístico tiene la

ventaja de ser fácil de interpretar. Sus desventajas incluyen el medir la separación de


185

dos distribuciones de probabilidad en un solo punto y el ser un método que depende

fuertemente de cual sea la elección de las bandas de puntaje. No obstante, la mayor

desventaja radica en que el punto de máxima separación entre las distribuciones de

buenos y malos puede estar lejos del puntaje de corte que esté siendo utilizado para

tomar decisiones de otorgamiento de crédito. Un modelo puede separar en general

mejor que el resto a los clientes buenos de los malos por tener un estadístico K-S más

elevado, no obstante ello no garantiza que dicho modelo sea mejor que el resto

distinguiendo a los clientes buenos de los malos para un puntaje de riesgo específico

(por ejemplo: un “puntaje de corte” mínimo usado para otorgar crédito).

10.4.2.3 Curva ROC o de Trade-off Los orígenes de la curva ROC o de Trade-off se remontan a 1905, cuando Max O.

Lorenz desarrolló la curva que lleva su nombre para mostrar la desigualdad en la

distribución del ingreso. Los puntos sobre la curva de Lorenz graficaban declaraciones

del tipo: “el 80% de todos los hogares percibe sólo un 20% de la riqueza”. El eje

horizontal de la curva representaba el porcentaje acumulado de hogares considerados,

ordenados de menor a mayor nivel socioeconómico, mientras que el eje vertical

ilustraba el porcentaje de la riqueza que percibían los hogares.

Figura 10.24 Curvas de trade-off de dos modelos de puntaje91


186

La curva ROC (Receiver Operating Characteristic Curve), conocida también como curva

de trade-off, es análoga a la curva de Lorenz, con la salvedad de que ordena a los

clientes de mayor a menor nota. Luego de ordenados éstos, para cada nota debe

contarse el número de clientes “P” con un puntaje igual o menor a dicha nota, a la vez

que el número de clientes malos “M” con un puntaje igual o inferior. La curva ROC se

obtiene graficando M v/s P, expresados en términos de porcentajes sobre el total de

clientes malos y sobre el total de clientes de la población, respectivamente. Entre las

ventajas de la curva ROC están el permitir comparar visualmente la efectividad de dos

modelos, del mismo modo que realizar comparaciones de distintos “puntajes de corte”.

La figura 10.24 muestra la curva ROC para dos modelos, A y B. A presenta un mejor

desempeño que B, puesto que para el X % de la población con peores notas B

identifica solamente Z % de los malos, en tanto que A logra reconocer Y %. La línea

aleatoria ordena a los clientes por puntajes con distribución uniforme de probabilidad.

10.4.2.4 Receiver Operating Characteristic (ROC) Este estadígrafo resume el área bajo una curva de trade-off. Mientras mayor sea el

área, mejor será el modelo.

Figura 10.25 Estadígrafo ROC de un modelo de puntaje, calculado como el área bajo la curva de trade-off92


187

Entre las ventajas de este estadístico están el proveer un valor cuantitativo, y el permitir

comparar curvas de trade-off completas, considerando toda la población. Cuando las

curvas de trade-off se cruzan, ayuda a indicar qué modelo es más efectivo en términos

globales. Entre sus desventajas están que no permite indicar qué modelo puede

separar en mejor forma a los clientes buenos de los malos para un puntaje de riesgo

determinado (por ejemplo: un “puntaje de corte” mínimo usado para otorgar crédito).

10.4.2.5 Razón Odds/Score Este estadístico grafica el logaritmo de los “odds” para cada puntaje. Los “odds” para un

determinado puntaje corresponden al número de clientes buenos dividido por el número

de clientes malos que se observan con ese puntaje. La gráfica obtenida es altamente

dependiente de la escala arbitraria de puntaje que calcule un modelo.

Este estadístico puede ser usado para comparar el desempeño de un mismo modelo a

lo largo del tiempo, o para comparar el desempeño de un mismo modelo sobre

segmentos de clientes distintos. Entre sus ventajas están el mostrar la capacidad de

ordenamiento por puntaje que posee un modelo. Entre sus desventajas figuran el que

no provee de información sobre la distribución subyacente (como la curva de trade-off),

y el que no permite comparar modelos distintos con escalas de puntajes distintas.

Figura 10.26 Razón de Odds/Score de un modelo de puntaje93


188

10.4.3 Evaluación técnica automatizada de modelos utilizando Clementine A continuación se muestra como Clementine ayuda a automatizar la obtención del

resultado 4d.1, correspondiente a la evaluación técnica de los modelos. En el diagrama

10.27 se ilustra como seleccionar una muestra para validar los modelos, la cual se

denomina “conjunto de datos de prueba”. En la figura Clementine toma de los nodos

etiquetados “Clientes malos hoy” y “Clientes buenos hoy” todos aquellos registros que

no fueron seleccionados para conformar el conjunto de datos de entrenamiento.

Figura 10.27 Flujo de datos en Clementine que obtiene un conjunto de datos de prueba para validar un modelo94

El nodo etiquetado “50% restante de muestra de malos” realiza una mezcla especial de

sus inputs conocida como “antijoin”, que lo que hace es seleccionar todos aquellos

registros del nodo “Clientes malos hoy” que no se encuentran entre los registros del

nodo “50% de muestra de malos” (los cuales fueron utilizados en el conjunto de datos

de entrenamiento). El nodo etiquetado “99% restante de muestra de buenos” realiza


189

una mezcla análoga empleando la modalidad “antijoin” de manera de no utilizar los

registros empleados en el conjunto de datos de entrenamiento.

Figura 10.28 Flujo de datos en Clementine que entrega notas y predicciones de de riesgo y rentabilidad potencial para un conjunto de clientes95

La figura 10.28 muestra como los modelos generados que aparecen en la esquina

superior derecha pueden ser “enchufados” al conjunto de datos de prueba. En efecto, el

conjunto de datos de prueba aparece conectado a un grupo de modelos que figuran

sobre la etiqueta “Utilización de modelos”, obteniendo notas de riesgo o rentabilidad

potencial en los nodos sobre la etiqueta “Predicciones”. Dichas notas corresponden

efectivamente a predicciones o estimaciones de las probabilidades de que los clientes

se transformen en “malos” o en personas “sin gran rentabilidad potencial”. Al clasificar

con aquellas notas de riesgo y rentabilidad potencial un conjunto de clientes contenidos

en el conjunto de datos de prueba es posible utilizar las distintas medidas estadísticas

para evaluar los modelos técnicamente (divergencia, estadístico K-S, etc., las cuales se


190

han detallado en la sección 10.4.2). Del mismo modo, a partir de los puntajes

calculados para el conjunto de datos de prueba, y habiendo definido puntajes de corte

para los modelos de riesgo y de rentabilidad potencial es posible calcular los errores

tipo I y tipo 2 definidos en la sección 7.3 (output 1c.2).

10.4.4 Establecer los parámetros revisados (output 4d.2) Este resultado es el segundo de la tarea de evaluar el modelo técnicamente (tarea 4d).

De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde

a un chequeo de los valores establecidos para los parámetros y a un afinamiento

iterativo de dichos parámetros mediante retornos sucesivos a la tarea de construcción

de modelos (tarea 4c). Entre las actividades que es preciso desarrollar para obtener

este resultado se encuentra el ajustar los parámetros para obtener el mejor modelo.

191

11 QUINTA FASE DEL PLAN: EVALUACIÓN DE NEGOCIOS


de evaluación de negocios de la metodología CRISP-DM, junto a los resultados que

deben obtenerse de la ejecución de cada una de ellas:

Figura 11.1 Tareas y outputs de la fase de evaluación de negocios, quinta fase del proyecto de datamining según metodología CRISP-DM96

A continuación se describen las tareas de esta fase y sus correspondientes resultados,

entregando consejos y recomendaciones tomados de la guía de usuario CRISP-DM97 y

de la experiencia y reflexión del autor de este documento. Dado que el plan de

datamining planteado es conceptual y no se refiere a ningún Banco en particular, son 96 Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000 97 Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000

192

también genéricas y conceptuales todas las indicaciones que se entregan con respecto

a los modelos aprobados (output 5a.2), a la revisión del proceso (output 5b.1) a la lista

de acciones posibles (output 5c.1) y a la decisión a tomar en esta fase (output 5c.2). Se

entregan, en cambio, comentarios referidos a las campañas bancarias al describir la

evaluación de negocios de los resultados de datamining (output 5a.1), por cuanto para

dichas campañas se han definido en este documento dos objetivos de negocios

concretos.

11.1 Evaluar los resultados de negocios (tarea 5a)

En las tareas previamente descritas se evaluaba el modelo de datamining en relación a

factores tales como su precisión y generalidad. En esta tarea, en cambio, debe

evaluarse el nivel de satisfacción de los objetivos de negocios perseguidos por el

proyecto de datamining. Si el modelo es deficiente en cuanto al cumplimiento de dichos

objetivos debe determinarse si existe alguna razón que lo explique. Las descripciones

de los resultados que se deben obtener como fruto de esta tarea se entregan a

continuación:

11.1.1 Evaluación de negocios de resultados de datamining y de los objetivos de negocios de focalizarse en nichos y crecer sujeto a un nivel mínimo de riesgo (output 5a.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde

a un resumen de los resultados de la evaluación de negocios en términos de criterios

de éxito, incluyendo una declaración final sobre si el proyecto satisfizo los objetivos de

negocios iniciales. Entre las actividades que es preciso desarrollar para obtener este


- Comprender los resultados de los modelos.

- Interpretar los resultados de los modelos en términos de la aplicación que se les dará.

- Evaluar el impacto de los resultados de datamining para los objetivos de negocios.

- Evaluar los resultados de datamining con respecto a los criterios de éxito de negocios,

vale decir, verificar si el proyecto consiguió los objetivos de negocios originales. Muy en

especial es preciso chequear el cumplimiento de los criterios de éxito de negocios

193

(output 1a.3) de aumentar los montos ofrecidos en las campañas en un porcentaje

determinado y de acotar las pérdidas esperadas de éstas en una cifra determinada.

- Rankear resultados de datamining con respecto a los criterios de éxito de negocios.

- Verificar si hay nuevos objetivos a ser tratados en el proyecto o en nuevos proyectos.

- Establecer conclusiones para futuros proyectos de minería de datos.

En los supuestos de negocios de la investigación se ha mencionado que se aceptan

sólo dos formas para competir para un Banco pequeño en el competitivo ambiente

bancario actual: alcanzar economías de escala mediante crecimiento o focalizarse en

nichos de mercado específicos. Dos han sido por lo tanto los objetivos de negocios que

se han definido para este proyecto de datamining en el capítulo de comprensión del

negocio: la labor de focalización propiamente tal, y el crecimiento sujeto a un nivel

mínimo de riesgo. En este punto deben evaluarse los resultados de los modelos de

datamining con respecto a dichos objetivos.

En primer término, en la evaluación de negocios deberá determinarse si los modelos

predictivos permiten efectivamente identificar segmentos de riesgo y rentabilidad con

características distintas a las de los clientes promedio. Ello será posible en la medida

que los clientes estén esparcidos en distintos segmentos, y no aglutinados en uno solo.

No obstante, como se menciona en el capítulo 7, es difícil expresar el objetivo de

focalización en términos numéricos, por lo que debe identificarse a algún profesional

que evalúe los criterios de éxito a ese respecto, y entregue un juicio sobre su nivel de

cumplimiento. La figura 11.2 ilustra cómo es posible clasificar a los clientes en distintos

segmentos en base a sus puntajes de riesgo y rentabilidad.

Es claro que identificando segmentos como los de la figura 11.2 puede dirigirse una

oferta diferenciada a cada segmento (por ejemplo: créditos de consumo con tasas

preferenciales sólo para el segmento “riesgo bajo, alta rentabilidad”).

Por otro lado, un esquema multisegmentos como el dado en la figura 11.2 permite

apoyar la implementación de una orientación estratégica de las campañas, entendida

como se ha descrito en el capítulo 2.

194

Figura 11.2 Segmentos de riesgo y rentabilidad98

En segundo término, en la evaluación de negocios debe determinarse si los modelos

predictivos permiten a un Banco crecer satisfaciendo un nivel mínimo de riesgo. Con tal

propósito, es preciso recurrir a los supuestos operacionales dados en las hipótesis de

trabajo, y de acuerdo a los cuales el Banco realiza sus campañas con una orientación

operacional. Como se ha mencionado en la sección 5.5, bajo un enfoque operacional

no existen modelos capaces de calcular la probabilidad de pérdida de los préstamos

dirigidos a cada cliente, y en consecuencia no es posible estimar la probabilidad de

pérdida asociada al monto total ofrecido en una campaña. Como ya se mencionó en la

misma sección, en ausencia de un modelo capaz de medir en forma certera el nivel de

riesgo de una campaña (vale decir, la pérdida asociada al monto ofrecido en ésta), un

Banco no podrá maximizar los montos ofrecidos a sus clientes sujeto todo ello a la

satisfacción de un cierto nivel de riesgo. En esta sección se mostrará como un esquema

multisegmentos de riesgo y rentabilidad permite alcanzar un mejor desempeño, al hacer

posible maximizar los montos ofrecidos para un cierto nivel de riesgo.

Bajo un enfoque operacional las campañas bancarias se realizan sin segmentar a los

clientes por criterios de riesgo y rentabilidad potencial, entregando una oferta estándar

a todos quienes cumplan ciertos criterios de riesgo. La siguiente figura ilustra una

segmentación semejante:


195

Figura 11.3 Orientación operacional de las campañas bancarias99

La utilización de un esquema multisegmentos como el ilustrado en la figura 11.2 permite

que un Banco con el enfoque operacional dado en la figura 11.3 crezca por tres razones

distintas:

1. Existe un segmento de la figura 11.2 que no recibe oferta alguna en la figura 11.3, y

que puede ser objeto de una oferta diferenciada.

2. El esquema multisegmentos hace posible identificar el potencial de negocios de los

clientes vía las notas de rentabilidad, lo que facilita orientar los esfuerzos de las

campañas hacia los clientes con mayor potencial.

3. El esquema multisegmentos permite aumentar los montos ofrecidos a los clientes

satisfaciendo un nivel mínimo de riesgo. Como se ha explicado en la sección 7.1 al

describir los criterios de éxito de negocios (output 1a.3), dicho nivel mínimo de

riesgo puede establecerse como un monto esperado de pérdidas en cada campaña.

Para cada cliente el monto de pérdida esperada se calcula como el monto ofrecido a

dicho cliente multiplicado por la probabilidad de que dicho cliente se transforme en

“malo” en el futuro (la cual corresponde en forma biunívoca a un puntaje de riesgo).

Dicha probabilidad aumentará al incrementarse la carga financiera del cliente, en el

caso de que éste acepte el monto ofrecido. Por lo tanto, la maximización de los

montos ofrecidos sujeta a satisfacer un determinado nivel de riesgo corresponderá a 99 Fuente: elaboración propia

196

un problema de programación no lineal, en la medida que la restricción contempla la

multiplicación de las variables por probabilidades que dependen de las mismas

variables. A continuación se entregará una especificación de un modelo de

programación no lineal que permite estimar los montos a ofrecer en las campañas, a

la vez que se dan algunas indicaciones sobre como resolverlo. De cualquier forma la

resolución de semejante problema escapa a los objetivos de esta investigación. En

esta sección simplemente se desea mostrar como los puntajes de riesgo y

rentabilidad permiten especificar matemáticamente el problema de determinar los

montos a ofrecer en una campaña, satisfaciendo un determinado nivel de riesgo. Si

bien el problema especificado puede ser difícil de resolver en forma exacta, su sola

especificación ya permite comparar distintas soluciones posibles, por lo que hace

posible escoger la mejor solución entre ellas. Por lo tanto, la especificación del

problema permite por si sola cumplir el objetivo de aumentar los montos ofrecidos en

una campaña sujeto a satisfacer un cierto nivel de riesgo.

Sea ix el monto ofrecido en una campaña a un cliente i . Sea 2ip la probabilidad de

que un cliente se transforme en “malo” en el futuro (la cual corresponde en forma

biunívoca a un puntaje de riesgo). La mencionada probabilidad 2ip deberá calcularse

teniendo en consideración el aumento en el endeudamiento del cliente al aceptar el

monto ofrecido. Mientras mayor sea el aumento de la carga financiera de un cliente,

mayor será el aumento de su nivel de riesgo. Por otro lado, mientras mayor sea la

rentabilidad potencial de un cliente, mayor será también su capacidad para incrementar

su nivel de endeudamiento sin deteriorar su nivel de riesgo. Por lo tanto, el aumento del

nivel de riesgo de un cliente será función no lineal del cambio en su nivel de carga

financiera, al mismo tiempo que función no lineal de su rentabilidad potencial, como lo

muestra la figura 11.4.

El aumento de riesgo de los clientes producto de la aceptación de una oferta se

denomina ip∆ , el cual se define como la razón entre el cambio en la probabilidad de

que el cliente i se transforme en “malo” y el máximo cambio que podría verificarse en

dicha probabilidad. Por lo tanto, los valores posibles para ip∆ se encuentran entre 0%

y 100%.

197

Figura 11.4 Funciones continua y escalonada que describen el aumento del riesgo de los clientes al aumentar su carga financiera100

Si se denota como 1ip la probabilidad de que el cliente i se transforme en “malo” antes

de aceptar la oferta realizada en la campaña, entonces ip∆ vendrá dado por la fórmula

siguiente:

1

12

i

iii p-1

p-pp =∆

La función ip∆ puede obtenerse a partir de los datos de un conjunto de clientes. La

forma más simple de describir dicha función es a través de un conjunto de tablas, las

cuales deben entregar una estimación de ip∆ para cada par de valores de rentabilidad

potencial y de aumento de la carga financiera.

El puntaje de rentabilidad potencial del cliente i se denota ir en la figura 11.4, en tanto

que el aumento en la carga financiera de los clientes al aceptar el monto ofrecido en

una campaña se denomina iq∆ . Denotando como iI el ingreso mensual de un cliente


198

i y como )( ixCuota la cuota que correspondería pagar mensualmente a dicho cliente

por un monto ofrecido ix , se tendrá que iq∆ vendrá dado por la siguiente relación:

ii

i IxCuotaq )(∆ =

Claramente iq∆ debe ser mayor que 0. Por otro lado, denotando como iq la carga

financiera del cliente i antes de aceptar el monto ofrecido en la campaña, debe tenerse

que la suma entre iq y iq∆ deberá ser menor a 1 (puesto que no puede superar el

100% de los ingresos de un cliente).

Con las definiciones dadas previamente es posible expresar como un modelo de

programación no lineal el problema de determinar los montos a ofrecer en las

campañas, satisfaciendo al mismo tiempo un nivel de riesgo dado por una pérdida

esperada de P :

( )

( )( )

}{}{

}{

∆

∆

∆)(

1,...ni qq

1,...ni x

1,...niIxCuotaq

p-1ppp

Ppx

as

xx

Max

1ii

0i

i

ii

iiii

n

1iii

n

1ii

i

112

2

∈∀

∈∀

∈∀

=

=

≤+

≥

=

+

=

∗

=

∑

∑..

Denotando por 1-Cuota la función inversa de la función )( ixCuota , es posible escribir

el problema anterior de manera que las variables sean los aumentos iq∆ de las cargas

financieras de los clientes al aceptar los montos ofrecidos. En efecto, se tendrá

)(∆ ii-

i IqCuotax 1 ∗= , por lo que el problema de optimización podrá expresarse como

se muestra a continuación:

199

( )( )

}{}{

∆∆

∆)(∆

)(∆∆

1,...ni qq1,...ni q

Pp-1ppIqCuota

as

IqCuotaq

Max

1ii

i0

n

1iiiiii

-

n

1iii

-

i

111

1

∈∀

∈∀

=

≤+

≤

=

+∗∗

=

∗

∑

∑..

Algunas formas de de resolver el modelo anterior, como son el método del gradiente y

las condiciones de Karush-Kuhn-Tucker, requerirán que la función ip∆ esté expresada

en forma continua y diferenciable. No obstante, es posible entregar una forma ingenua y

fácilmente comprensible de resolver el modelo anterior si iq∆ puede asumir

únicamente valores discretos, y si ip∆ es una función escalonada. Dicha solución

consiste en probar todas las posibles combinaciones de valores para el conjunto de

variables iq∆ . Si los valores que iq∆ puede asumir se limitan a tan solo 11 números

posibles (0%, 10%... 100%), entonces se tendrán n11 combinaciones posibles, un

número en verdad enorme. Si bien tal solución ingenua es impracticable

computacionalmente para cualquier conjunto de clientes, puede implementarse para un

conjunto de segmentos de clientes limitado, (10 segmentos, o 10n = , por ejemplo)101.

La optimización antes ilustrada no puede ser implementada con un enfoque operacional

de las campañas, sin distinción de segmentos de riesgo/rentabilidad. Un esquema

operacional de las campañas puede filtrar clientes que no cumplen con determinados

criterios de riesgo, pero no puede determinar la probabilidad de pérdida asociada a

cada cliente, por lo que tampoco puede obtener la pérdida esperada para una

campaña, y en consecuencia no puede obtener el máximo monto a ofrecer a los

clientes satisfaciendo un nivel mínimo de riesgo.

101 En efecto, si un computador puede realizar millones de operaciones por segundo, podrá realizar 1011 operaciones en unas 7 horas.

200

Bajo un esquema operacional la máxima cuota que puede pagar un cliente se

determina a partir de las políticas de crédito del Banco, lo cual no necesariamente debe

ser lo más adecuado, en particular porque en ningún momento se utiliza el nivel de

rentabilidad potencial de los clientes.

En resumen, puede observarse, por lo tanto, que mediante modelos predictivos que

calculan puntajes de riesgo y rentabilidad pueden construirse segmentaciones que

ayuden a que un Banco crezca y controle un nivel mínimo de riesgo.

El objetivo de aumentar los montos ofrecidos en las campañas puede medirse

directamente de los resultados del modelo de datamining. No obstante, es preciso

esperar mínimo un año y medio para verificar si el nivel de riesgo de los clientes

considerados en las campañas satisfizo efectivamente el nivel mínimo estipulado en los

criterios de éxito de negocios (output 1a.3). Ello se debe a que la experiencia señala

que los clientes pueden tardar años en transformarse en “malos”. En efecto, los clientes

que reciben un crédito de consumo y que dejan de pagarlo sólo lo harán luego de

transcurrido un mínimo de dos años. Por ello el objetivo de crecimiento debe medirse no

sólo en el corto plazo, sino que también en el largo plazo.

11.1.2 Modelos aprobados (output 5a.2) Este resultado es el segundo de la tarea de evaluar los resultados de negocios (tarea

5a). Después de evaluar un modelo con respecto a los criterios de éxito de negocios

eventualmente se obtendrán modelos aprobados (si se da el caso que los modelos

generados cumplan con los criterios requeridos).

11.2 Revisar el proceso de datamining (tarea 5b)

En esta tarea es preciso revisar en forma acuciosa si algún factor o actividad

importantes del proyecto de datamining fueron pasados por alto. Constituye una

revisión de calidad realizada no sobre los datos, sino que sobre el proceso que generó

los resultados de datamining.



201

11.2.1 Revisión del proceso de datamining (output 5b.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado

corresponde a un resumen de la revisión del proceso de datamining. Es un documento

que contiene pistas para descubrir actividades que han sido olvidadas o que debieran

ser repetidas. Entre las actividades que es preciso desarrollar para obtener este


- Dar una visión general del proceso de datamining utilizado.

- Analizar el proceso de datamining, respondiendo en retrospectiva si fue o no

necesaria cada fase del proyecto y si se ejecutó óptimamente.

- Determinar de qué forma podría ser mejorado el proceso de datamining.

- Identificar posibles fallas en el proceso de datamining.

- Identificar pasos del proceso de datamining que podrían conducir a error.

- Identificar posibles acciones alternativas en el proceso de datamining.

11.3 Determinar los próximos pasos (tarea 5c)

De acuerdo a lo obtenido a través de la evaluación de negocios de los resultados de

datamining y de la revisión del proceso de datamining, en este punto debe decidirse si

debe darse por terminado el proyecto y entrar a la fase de despliegue, si deben iniciarse

iteraciones adicionales, o bien si debe iniciarse un nuevo proyecto de minería de datos.



11.3.1 Lista de las acciones posibles (output 5c.1) Para conseguir este resultado deben realizarse las siguientes actividades:

- Realizar una lista de las acciones ulteriores a emprender en el proyecto de datamining

junto a las razones a favor y en contra de cada opción asociada.

- Analizar el potencial de despliegue de cada resultado de datamining.

- Estimar el potencial de mejoramiento del actual proceso de datamining.

- Verificar si los recursos restantes permiten iteraciones adicionales del proceso de

datamining, o si por el contrario deben obtenerse recursos adicionales.

202

- Recomendar alternativas de continuación del proyecto de datamining.

- Refinar el plan del proceso de datamining.

11.3.2 Decisión (output 5c.2) Este resultado es el segundo de la tarea de determinar los próximos pasos (tarea 5c).

De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde

a una descripción de la decisión en términos de cómo proceder a continuación, junto a

las razones que justifican tal medida. Entre las actividades que es preciso desarrollar

para obtener este resultado se encuentran las siguientes:

- Realizar un ranking de las acciones posibles.

- Seleccionar una de las acciones posibles.

- Documentar las razones que justifican la elección.

203

12 SEXTA FASE DEL PLAN: DESPLIEGUE DE LOS RESULTADOS


de despliegue de la metodología CRISP-DM, junto a los resultados que deben

obtenerse de la ejecución de cada una de ellas:

Figura 12.1 Tareas y outputs de la fase de despliegue, sexta y última fase del proyecto de datamining según metodología CRISP-DM102


consejos y recomendaciones dados en la guía de usuario CRISP-DM103 y tomados de


204

la experiencia y reflexión del autor de este documento. En virtud de que el plan de

datamining que se ha elaborado en el presente documento es conceptual y no se basa

en ningún caso específico de ningún Banco, son también conceptuales las

recomendaciones entregadas para el plan de monitoreo y mantención (output 6b.1),

para el reporte y la presentación finales (outputs 6c.1 y 6c.2) y para la documentación

de la experiencia (output 6d.1). Un caso distinto corresponde al plan de despliegue

(output 6a.1), que se describe en este capítulo aportando antecedentes sobre cómo es

posible automatizar la implementación de los modelos de las campañas dentro de los

sistemas informáticos de un Banco sin incurrir en costos de desarrollo de software.

12.1 Planificar el despliegue (tarea 6a)

Esta tarea toma los resultados de la evaluación del modelo de datamining y elabora una

estrategia para desplegar el modelo en el negocio. Se debe determinar cómo propagar

a los usuarios la información generada por el modelo, y cómo desplegar los resultados

de éste dentro de los sistemas informáticos de la empresa. Deben también identificarse

problemas que pudiesen surgir al desplegar los resultados de datamining. Las

descripciones de los resultados que se deben obtener como fruto de esta tarea se


12.1.1 Plan de despliegue (output 6a.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado es un

resumen de la estrategia de despliegue del modelo de datamining. Dicho resumen debe

incluir los distintos pasos a seguir en el despliegue y señalar cómo ejecutarlos. Entre las


- Resumir los resultados desplegables.

- Desarrollar planes alternativos de despliegue de los resultados de datamining.

- Para cada modelo obtenido decidir qué plan de despliegue aplicar.

- Determinar cómo se propagará a los usuarios el nuevo conocimiento descubierto.

- Determinar cómo se desplegarán los resultados de los modelos dentro de los

sistemas informáticos de la organización.


205

- Determinar cómo se monitoreará la utilización de los resultados de los modelos y

cómo se medirán sus beneficios.

- Identificar posibles problemas que podrían surgir al desplegar los resultados.

12.1.2 Automatización de la fase de despliegue utilizando Clementine En la fase de despliegue del modelo debe implementarse éste. Gracias a las facilidades

proporcionadas por Clementine ello no implica un costo adicional en términos de

desarrollo de software. De hecho, los modelos generados en la fase de modelamiento

son almacenados en “nodos”, que no son otra cosa sino programas computacionales

listos para usar. La figura 12.2 muestra cómo utilizar esos programas:

Figura 12.2 Flujo de datos en Clementine que obtiene una base de clientes con notas de riesgo y rentabilidad a partir de una base de variables predictivas104


206

La figura 12.2 contiene el mismo diagrama que se ha utilizado en el capítulo 9 para

obtener una base de variables predictivas, con la salvedad que se ha agregado uno de

los mencionados “nodo-programa” en la esquina inferior derecha bajo la etiqueta

“Modelo”. Al “enchufar” a la base de variables predictivas uno de esos nodos-programa

se obtienen notas de riesgo o de rentabilidad de los clientes. Dichas “notas” de riesgo y

de rentabilidad potencial permiten a su vez generar ofertas automáticamente a través

de Clementine, como se ilustra abajo en la figura 12.3:

Figura 12.3 Flujo de datos en Clementine que obtiene una base de ofertas comerciales a partir de una base con notas de riesgo y rentabilidad105

12.2 Planificar el monitoreo y la mantención (tarea 6b)

En esta tarea debe determinarse cómo se monitoreará la precisión del modelo y sus

resultados, y cuándo deben dejar de utilizarse éstos. El monitoreo y la mantención son

en extremo importantes en el caso de las campañas bancarias, puesto que los

resultados de datamining se vuelven parte del trabajo operacional cotidiano de un

Banco. Un buen plan de mantención ayuda a evitar el peligro del uso incorrecto de los

resultados de datamining. Las descripciones de los resultados que se deben obtener

como fruto de esta tarea se entregan a continuación:

12.2.1 Plan de monitoreo y mantención (output 6b.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado

corresponde a un resumen de la estrategia de monitoreo y mantención, y debe incluir


207

los pasos necesarios y cómo ejecutarlos. Entre las actividades que es preciso


- Chequear qué podría cambiar en el ambiente en el mediano y largo plazo.

- Verificar cómo se monitoreará la precisión del modelo y sus resultados.

- Establecer cuándo debe dejarse de utilizar un modelo de datamining. Identificar los

criterios para ello. Establecer qué debiera pasar si un modelo o resultado de datamining

ya no pudiese ser utilizado (actualizar el modelo, comenzar un nuevo proyecto de

datamining, etc.).

- Determinar si cambiarán en el tiempo los objetivos de negocios que se persiguen con

la utilización del modelo. Documentar completamente el problema inicial que el modelo

intentaba resolver.

Como se ha visto en el capítulo sobre la evaluación de negocios, sólo en el largo plazo

es posible verificar el cumplimiento del objetivo de negocios de crecimiento sujeto a un

nivel mínimo de riesgo. Por ello el éxito y aceptación de los modelos de datamining

planteados en este documento sólo podrán visualizarse en el largo plazo. Es vital, por lo

tanto, contar no sólo con el firme compromiso de la institución financiera y de su

auspiciador para implementar, monitorear y mantener los modelos de datamining de las

campañas bancarias, sino que también es preciso que dicho compromiso sea de largo

aliento.

12.3 Producir el reporte final (tarea 6c)

Esta tarea corresponde a la elaboración de un reporte final con un resumen del

proyecto y sus experiencias. Las descripciones de los resultados que se deben obtener

como fruto de esta tarea se entregan a continuación:

12.3.1 Reporte final (output 6c.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado

corresponde al informe final escrito del proyecto de datamining e incluye todos los

entregables previos, a la vez que resume y organiza sus resultados.

208

12.3.2 Presentación final (output 6c.2) Este resultado es el segundo de la tarea de producir el reporte final (tarea 6c). De

acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde a

una reunión al final del proyecto en la cual los resultados del proyecto de datamining

son presentados a su auspiciador.

12.4 Revisar el proyecto (tarea 6d)

En esta tarea corresponde evaluar lo que ocurrió correctamente y lo que ocurrió mal en

el proyecto de minería de datos, lo que se hizo bien y lo que necesita ser mejorado. La

descripción del resultado que se debe obtener como fruto de esta tarea se entrega a

continuación:

12.4.1 Documentación de la experiencia (output 6d.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado

corresponde a un resumen de las experiencias más importantes adquiridas durante el

proyecto (por ejemplo: defectos, enfoques conducentes a error, o pistas para

seleccionar técnicas de datamining en situaciones similares).

209

13 CONCLUSIÓN

De la investigación completa puede concluirse que mediante herramientas de

datamining puede elaborarse un plan para enfocar las campañas en un Banco pequeño

que carece de un datawarehouse, de manera de permitir a la institución segmentar a

sus clientes y crecer. Ello ha quedado demostrado al detallar cómo elaborar un plan

semejante a partir de las hipótesis de trabajo. Por lo tanto, la tesis que se pretendía

demostrar en un comienzo es válida, si se aceptan los supuestos realizados en materia

de disponibilidad de información, de tecnología, de marco regulatorio, de negocios y de

operaciones. De este modo el objetivo principal de la investigación se ha cumplido.

Se han extraído también conclusiones relevantes de cada una de las seis fases en las

que se ha dividido el desarrollo de la tesis. Dichas conclusiones se detallan a

continuación:

1. De la fase de comprensión del negocio puede concluirse que es importante

identificar los objetivos de negocios que se espera conseguir con el proyecto de

datamining, de manera tal de hacer posible la validación de sus resultados contra

dichos objetivos. Ello está pensado para garantizar que los resultados de la minería

de datos no sólo sean técnicamente válidos, sino que además tengan significado

desde un punto de vista de negocios. Así también de la fase de comprensión del

negocio puede concluirse que no es posible realizar estudios de datamining sin

contar con el respaldo decidido de alguna gerencia, como única forma de neutralizar

los riesgos organizacionales y de timing del proyecto. En directa relación con lo

antes mencionado se encuentra una conclusión aun más fundamental, y que

establece que el éxito de un proyecto de datamining depende no sólo de que se

satisfagan ciertos objetivos de negocios del Banco, sino que en mucho mayor

medida de que se logren beneficios tangibles para el patrocinador del proyecto y sus

intereses.

2. De la fase de comprensión de los datos puede concluirse que a priori las

características más relevantes para predecir el nivel de riesgo crediticio de los

clientes y su rentabilidad potencial incluyen aspectos demográficos, renta, nivel de

vínculo entre el cliente y el Banco, los ingresos contables generados por el cliente,

su comportamiento crediticio pasado, y su nivel de deudas. Todas esas

210

características aparecen como las más importantes en opinión de las personas que

han trabajado como ejecutivos de crédito, y es información que está disponible en

las bases operacionales de cualquier Banco (aceptando los supuestos dados en las

hipótesis de trabajo).

3. De la fase de preparación de los datos se concluye que puede ser inmenso el

esfuerzo destinado a integrar los datos necesarios para el estudio y a eliminar sus

inconsistencias, por cuanto al no existir un datawarehouse es preciso mezclar datos

provenientes de bases de datos operacionales residentes en sistemas distintos y

con información de fechas distintas. La literatura establece que más del 90% del

tiempo empleado en un proyecto de datamining debe utilizarse en las fases previas

al modelamiento, principalmente en las fases de comprensión y preparación de los

datos. Como consecuencia de ello es posible que los riesgos organizacionales y de

timing del proyecto, detectados en la fase de comprensión del negocio, se

materialicen en la forma de un boicot al proyecto de minería de datos.

4. De la fase de modelamiento puede concluirse que es posible elaborar modelos

predictivos del riesgo de crédito y de la rentabilidad potencial de los clientes, usando

para ello técnicas de datamining como la regresión logística, las redes neuronales o

los árboles de decisión. Se ha mostrado que dichos modelos pueden calcular

puntajes de riesgo y de rentabilidad para los clientes. Por lo tanto, se han satisfecho

los dos objetivos secundarios s1 y s2 descritos en el capítulo 3, que versa sobre los

objetivos de la investigación.

5. En la fase de evaluación de negocios se ha mostrado que es posible clasificar a los

clientes en distintos segmentos en base a sus puntajes de riesgo y rentabilidad, y

que puede dirigirse una oferta diferenciada a cada uno de esos segmentos. Por lo

tanto, se ha cumplido el objetivo secundario s3 descrito en el capítulo 3. En la misma

fase se ha mostrado que un Banco puede utilizar los puntajes de riesgo y

rentabilidad para crecer, satisfaciendo al mismo tiempo un nivel mínimo de riesgo.

Dicho crecimiento puede verificarse mediante una oferta a segmentos sin ella,

mediante la orientación de los esfuerzos de las campañas hacia los clientes con

mayor rentabilidad potencial, y a través del aumento de los montos ofrecidos a los

clientes. Por lo tanto, se ha cumplido también el objetivo secundario s4 descrito en

el capítulo 3. Se concluye entonces de la fase de evaluación de negocios que

211

mediante datamining un Banco puede focalizarse en segmentos de clientes

clasificados por riesgo y rentabilidad, y que puede crecer satisfaciendo un nivel

mínimo de riesgo.

6. De la fase de despliegue puede concluirse que el éxito de los modelos de

datamining de las campañas bancarias y el logro de sus objetivos de negocios sólo

podrán visualizarse en el largo plazo, por lo que es vital contar no sólo con el firme

compromiso de la institución financiera para implementar y monitorear un modelo de

datamining, sino que también es preciso que dicho compromiso sea de largo aliento.

Ello se debe a que la experiencia señala que los clientes pueden tardar años en

presentar problemas de pago, por lo que sólo es posible en el largo plazo verificar

que el objetivo de crecimiento sujeto a un nivel mínimo de riesgo satisfaga

efectivamente dicho nivel de riesgo.

Entre las recomendaciones que pueden entregarse a partir de los resultados de esta

investigación destacan el buscar un apoyo firme y decidido de la gerencia de un Banco

antes de comenzar un proyecto de datamining. En particular ello debe traducirse en dos

resultados concretos. En primer lugar un presupuesto relevante para la investigación, lo

suficientemente cuantioso para brindar estatus al proyecto y para comprometer al

Banco en su éxito. En segundo lugar es preciso recibir el nombramiento de un cargo

dentro de la estructura organizacional del Banco para garantizar el éxito del proyecto de

datamining. Ello obedece al hecho de que los Bancos son instituciones altamente

jerarquizadas, en las que para realizar cualquier tipo de proyecto es preciso disponer de

un nivel jerárquico adecuado. Aun en el caso de tratarse de un proyecto realizado por

consultores externos, éstos deben recibir el respaldo de la organización en la forma de

un nombramiento de jefes o gerentes de proyecto. Se recomienda en todo caso realizar

los estudios de datamining a través de consultorías externas, de manera tal de tratar de

evitar los ataques que pudiesen provenir desde dentro de la institución.

212

14 BIBLIOGRAFÍA

1. ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac

Insight Series, 1999.

2. B ERRY, M. J. A., LINOFF, G., Data Mining Techniques for Marketing, Sales, and

Customer Support, John Wiley & Sons, Inc., 1997.

3. BERSON, A., SMITH S. J., Data Warehousing, Data Mining, and OLAP, McGraw-

Hill, 1997.

4. CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas,

REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step

Data Mining Guide, SPSS Inc., 2000.

5. CLEMENTINE 7.0 User’s Guide, SPSS, 2002

6. Data Mining with Confidence, SPSS Inc., 1999.

7. Data Mining Tools, METAspectrum Market Summary, META Group, September

2004, www.metagroup.com

8. Data Warehousing Technology Glossary, Applied Technology Group, 1997.

9. EL DIARIO FINANCIERO, La Nueva Ofensiva de los Bancos por Fidelizar y Captar

Clientes, 20/01/2005.

10. EL DIARIO FINANCIERO, Bancos Deben Construir Economías de Escala,

28/01/2005.

11. EL DIARIO FINANCIERO, Banco de Chile Lidera Mercado de Cuentas Corrientes

con 24%, 29/03/2005.

12. EL DIARIO FINANCIERO, Bancos Salen a la Caza de Nuevos Segmentos para

Rentabilizar su Negocio, 28/03/2005.

13. EL DIARIO FINANCIERO, BBVA va tras Segmentos que no están Bancarizados,

17/03/2005.

14. EL DIARIO FINANCIERO, Banco del Desarrollo Lanza Área de Consumo,

28/04/2005.

15. EL DIARIO FINANCIERO, Las Fusiones de los Bancos Elevaron Eficiencia del

Sistema, 19/04/2005.

16. EL DIARIO FINANCIERO, La Alternativa de Bancos a la Baja de los Spreads,

02/05/2005.

213

17. EL DIARIO FINANCIERO, Filiales de Bancos Arremeten en Competencia por

Clientes, 11/05/2005.

18. EL DIARIO FINANCIERO, Los Bancos Extranjeros han Inyectado Mayor

Competencia al Mercado, 05/06/2005.

19. EL DIARIO FINANCIERO, Bancos y Multitiendas Olvidan sus Diferencias por

Conveniencia Mutua, 06/06/2005.

20. EL DIARIO FINANCIERO, Bancos en Alerta por Posible Regulación de Tarjetas

del Comercio, 16/06/2005.

21. EL DIARIO FINANCIERO, Bank of America, Reportaje, 12/05/2006

22. HALLBERG, Garth, OGILVY, David, Todos Los Consumidores No Son Iguales,

Capítulo 3: Por qué no Todos los Consumidores Han Sido Creados Iguales, Deusto,

1999.

23. HILLIER F., LIEBERMAN G., Investigación de Operaciones, Séptima edición,

McGraw-Hill Interamericana, 2002

24. Informe de Colocaciones por Actividad Económica, SBIF, febrero 2005.

25. Informe de Estabilidad Financiera, Banco Central, primer semestre 2006

26. Informe Tasas Principales Productos de Consumo, SBIF, 2005.

27. Informe Mutuos Hipotecarios Endosables, SBIF, 2005.

28. Introduction to Data Mining and Knowledge Discovery, Two Cross Corporation,

1998.

29. Jumpstart Clementine Training Brochure, Data Mining Jumpstart, Data Mining

Projects Clementine, SPSS, 2004.

30. KOTLER, Philip, Dirección de Marketing, Décima Edición, Capítulo 9: Identificación

de Segmentos de Mercado y Selección de Mercados Meta, Pearson Educación, 2001.

31. KRAFT, Holger, KROISANDT, Gerald, MÜLLER, Marlene, Redesigning Ratings:

Assessing the Discriminatory Power of Credit Scores under Censoring, Fraunhofer

Institut für Techno und Wirtschaftsmathematik (ITWM), June, 2004.

32. LAMBIN, Jean-Jacques, Marketing Estratégico, Capítulo 6: El Análisis de las

Necesidades a través de la Segmentación, McGraw-Hill Interamericana, 1996.

33. PÉREZ, Cesar, Técnicas Estadísticas con SPSS, Prentice Hall, 2001.

34. REICHHELD, Frederick, El Efecto de la Lealtad del Cliente, Capítulo 2: Economía

de la Lealtad del Cliente, Editorial Norma, 1996.

35. REICCHELD, SASSER, Zero Defections Come to Quality, HBR, 1990.

214

36. REVISTA INFORMACIÓN FINANCIERA, SBIF, julio 1999, julio 2000, julio 2001,

julio 2002, julio 2003, julio 2004, julio 2005.

37. RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Approach,

Second Edition, Prentice Hall, 2003.

38. RUST, Roland, ZEITHAML, Valerie, LEMON, Katherine, Driving Customer Equity :

How Customer Lifetime Value is Reshaping Corporate Strategy, The Free Press, June

2000.

39. SHANNON, C.E., WEAVER, W., The Mathematical Theory of Communication,

University of Illinois Press, 1949

40. TENENHAUS, Michele, Méthodes Statistiques en Gestion, Editorial Dunod,

France, 1996.

41. WILSON, L., Canadian Bank Mines for Gold, Computerworld, 1997.

ANEXOS

Anexo A Colocaciones totales de los Bancos del sistema financiero chileno, Julio del 2005106

Bancos 2004 2005 Participación Crecimiento

Banco de Chile 6.350 7.275 17,7 14,6

Banco Santander 8.568 9.467 23,0 10,5

Banco del Estado 4.704 5.390 13,1 14,6

BCI 4.099 4.938 12,0 20,5

Corpbanca 2.241 2.724 6,6 21,6

BBVA 2.736 3.171 7,7 15,9

BICE 954 1.048 2,6 9,8

Security 1.017 1.307 3,2 28,6

Citibank 800 848 2,1 6,0

BankBoston 796 967 2,4 21,5

Scotiabank 1.142 1.188 2,9 4,0

B. del Desarrollo 1.324 1.582 3,9 19,5

Otros 1.286 1.221 3,0 -5,1

36.016 41.126 100 14,2

Pequ

eños

Sistema financiero

Valores en %Colocaciones totales(en miles de millones

de pesos)

Gra

ndes

Med

iano

s

106 Fuente: volúmenes de Julio de los años 2004 y 2005 de la revista Información Financiera de la SBIF

Anexo B Comparación entre Bancos de la razón de eficiencia (gastos de apoyo operacional / resultado operacional bruto), periodo 2000-2005107

Jul-00

Jul-01

Jul-02

Jul-03

Jul-04

Jul-05

Bco. de Chile 52,1 49,3 56,6 51,6 44,5 48,2

Santander 49,0 45,1 43,2 44,6 44,5 41,0

Bco. Estado 70,3 66,6 65,2 63,9 61,0 58,9

BCI 65,0 54,9 55,2 48,5 50,7 51,4

Corpbanca 64,3 46,6 43,1 39,2 37,6 40,7

BBVA 67,6 59,6 61,0 55,1 57,9 56,7

BICE 56,0 50,1 58,0 57,7 64,2 60,8

Bco. Security 56,9 57,7 60,2 49,6 50,2 48,2

Citibank 74,0 59,3 56,9 60,9 66,0 85,3

BankBoston 71,6 53,1 68,5 68,2 70,7 69,2

Scotiabank 73,8 68,6 73,0 67,9 68,8 68,3

B. del Desarrollo 61,2 55,9 54,6 52,4 47,7 51,3

60,2 52,2 54,6 52,5 50,7 51,7

Pequ

eños

Sistema financiero

Valores en %

Bancos

Gra

ndes

Med

iano

s

107 Fuente: volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF

Anexo C Evolución del margen de intereses del sistema financiero, periodo 2000-2005108

Jul-00

Jul-01

Jul-02

Jul-03

Jul-04

Jul-05

Margen de intereses 833 1.037 1.064 940 1.118 1.091

Comisiones netas 157 193 204 254 254 274

Resultado operacional bruto 1.031 1.280 1.302 1.338 1.426 1.479

Resultado operacional neto 128 373 327 397 455 502

Margen de intereses / Resultado oper. bruto 80,8 81,1 81,7 70,2 78,4 73,8

Margen de intereses / Resultado oper. neto 651,2 278,3 325,5 236,9 245,8 217,3

Gastos apoyo oper. / Resultado oper. bruto 60,2 52,2 54,6 52,5 50,7 51,7

Cifr

as e

n m

iles

dem

illon

es d

e pe

sos

Valo

res

en %


Anexo D Comparación entre Bancos de la razón de margen de intereses sobre colocaciones, periodo 2000-2005109

833

1.03

7

1.06

4

940

1.11

8

1.09

1

26.3

20

29.4

89

31.0

68

32.8

01

36.0

16

41.1

26 3,2

3,5

3,4

2,9

3,1

2,7

B. del Desarrollo

21 27 28 31 35 38

1.00

3

1.01

5

1.12

3

1.25

9

1.32

4

1.58

2

2,1

2,6

2,5

2,4

2,6

2,4

Scotiabank26 24 24 22 24 24 967

1.01

6

1.13

8

1.18

2

1.14

2

1.18

8

2,7

2,4

2,1

1,8

2,1

2,0

BankBoston

14 31 25 21 32 31 382

481

654

745

796

967

3,7

6,4

3,8

2,9

4,0

3,2

Citibank

54 70 59 50 64 52

1.01

1

1.09

4

1.05

1

988

800

848

5,4

6,4

5,6

5,1

8,0

6,1

Banco Security

12 15 18 19 20 25 664

786

776

932

1.01

7

1.30

7

1,7

2,0

2,4

2,1

2,0

1,9

BICE

16 20 18 16 19 18 722

784

785

819

954

1.04

8

2,2

2,6

2,3

1,9

2,0

1,8

BBVA

39 53 63 50 60 54

1.38

1

1.70

5

1.90

7

2.27

7

2.73

6

3.17

1

2,8

3,1

3,3

2,2

2,2

1,7

Corpbanca

46 53 51 54 62 60

1.09

9

1.31

5

1.53

8

1.94

0

2.24

1

2.72

4

4,1

4,1

3,3

2,8

2,8

2,2

BCI

72 85 86 98 107

116

2.23

9

2.54

5

3.07

2

3.50

8

4.09

9

4.93

8

3,2

3,3

2,8

2,8

2,6

2,3

Banco del Estado 112

117

140

111

138

137

3.27

0

3.66

4

3.87

5

4.25

8

4.70

4

5.39

0

3,4

3,2

3,6

2,6

2,9

2,5

Banco Santander

99 141

140

232

275

280

3.11

3

3.42

0

3.54

1

7.72

2

8.56

8

9.46

7

3,2

4,1

4,0

3,0

3,2

3,0

Banco de Chile 102

116

188

164

192

189

3.30

9

3.64

4

5.77

6

5.98

0

6.35

0

7.27

5

3,1

3,2

3,3

2,7

3,0

2,6

Jul-0

0

Jul-0

1

Jul-0

2

Jul-0

3

Jul-0

4

Jul-0

5

Jul-0

0

Jul-0

1

Jul-0

2

Jul-0

3

Jul-0

4

Jul-0

5

Jul-0

0

Jul-0

1

Jul-0

2

Jul-0

3

Jul-0

4

Jul-0

5

Mar

gen

de

inte

rese

s /

Col

ocac

ione

s(v

alor

esen

%)

Mar

gen

de

inte

rese

s(e

n m

iles

dem

illon

es d

epe

sos)

Col

ocac

ione

s(e

n m

iles

dem

illon

es d

epe

sos)

Sistema financiero

Pequ

eños

Med

iano

sG

rand

es


Anexo E Comparación de la razón utilidad del ejercicio sobre capital y reservas de los distintos Bancos, periodo 2000-2005110

Bancos

Jul-00

Jul-01

Jul-02

Jul-03

Jul-04

Jul-05

Banco de Chile 27,8 28,6 10,5 24,2 32,0 35,2

Banco Santander 24,0 26,7 31,5 22,1 22,6 28,0

Banco del Estado 8,7 9,8 7,4 8,6 9,7 10,8

BCI 11,6 21,6 18,5 27,3 27,6 27,2

Corpbanca 8,0 21,0 21,2 16,7 16,4 14,3

BBVA 9,5 7,5 9,1 12,8 13,0 14,0

BICE 9,0 25,1 15,9 18,1 13,9 17,2

Banco Security 12,1 10,9 9,5 15,9 17,0 16,2

Citibank 1,8 12,9 18,0 16,0 10,8 5,0

BankBoston 5,7 18,0 6,9 10,8 9,7 7,9

Scotiabank 3,9 6,3 9,7 11,5 10,4 8,6

B. del Desarrollo 10,0 10,6 7,7 7,5 12,8 12,2

11,1 19,3 17,1 17,3 18,6 18,8Sistema financiero

Valores en %

Gra

ndes

Med

iano

sPe

queñ

os


Anexo F Comparación del crecimiento anual de las colocaciones de los Bancos, periodo 2000-2005111

Jul-00

Jul-01

Jul-02

Jul-03

Jul-04

Jul-05

Bco. de Chile 9,9 10,1 58,5 3,5 6,2 14,6

Santander 3,3 9,9 3,5 118,1 11,0 10,5

Bco. Estado 4,9 12,0 5,8 9,9 10,5 14,6

BCI 6,6 13,7 20,7 14,2 16,8 20,5

Corpbanca 4,2 19,7 17,0 26,2 15,5 21,6

BBVA 11,4 23,5 11,9 19,4 20,1 15,9

BICE 23,6 8,7 0,1 4,3 16,5 9,8

Bco. Security 25,2 18,5 -1,3 20,1 9,1 28,6

Citibank -3,7 8,2 -3,9 -6,0 -19,1 6,0

BankBoston 22,8 25,8 36,1 13,9 6,8 21,5

Scotiabank -9,6 5,1 12,0 3,9 -3,4 4,0

B. del Desarrollo 5,9 1,3 10,6 12,1 5,2 19,5

6,5 12,0 5,4 5,6 9,8 14,2

Bancos

Sistema financiero

Valores en %

Gra

ndes

Med

iano

sPe

queñ

os


Anexo G Evolución de las colocaciones totales del sistema financiero desglosadas por tipo, periodo 2000-2004112

Nov-00

Nov-01

Nov-02

Nov-03

Nov-04

Créditos de consumo (a) 2.617 2.705 3.193 3.499 5.198

Créditos hipotecarios para la vivienda (b) 4.935 5.320 5.870 6.386 7.139

Colocaciones de empresas (estimado como (c ) - (a) - (b) ) 17.676 20.645 20.726 21.302 22.601

Total (c) 25.228 28.671 29.789 31.187 34.939

Créditos de consumo 10,4 9,4 10,7 11,2 14,9

Créditos hipotecarios para la vivienda 19,6 18,6 19,7 20,5 20,4

Colocaciones de empresas 70,1 72,0 69,6 68,3 64,7

Total 100 100 100 100 100

Cifr

as e

n m

iles

de

mill

ones

de

peso

sVa

lore

s en

%

112 Fuente: volumen de Febrero del 2005 de la revista Información Financiera de la SBIF

Anexo H Tasas de créditos de consumo, hipotecarios y comerciales, periodo 2002-2005113

Mutuos

1 a 8 años

Mutuos

8 a 12 años

Mutuos

12 a 20 años

Mutuos

más de

20 años

Jul-02 27,0 34,1 26,9 16,7 6,5 7,4 7,0 6,7Ago-02 26,2 33,4 26,0 15,6 6,5 7,0 6,9 6,8Sep-02 26,0 33,4 25,0 14,9 6,3 6,9 6,9 6,8Oct-02 26,0 33,0 25,1 16,0 6,0 7,0 7,0 7,0Nov-02 26,3 32,8 25,6 15,3 6,2 6,9 7,0 7,4Dic-02 27,0 32,8 23,7 14,2 6,2 6,8 7,0 6,8Ene-03 26,8 33,9 25,6 17,2 6,2 6,8 7,0 7,0Feb-03 26,8 33,4 25,6 17,1 6,1 6,6 6,8 7,0Mar-03 25,3 33,2 23,2 13,0 5,9 6,6 6,7 7,2Abr-03 25,4 32,3 24,2 14,2 5,7 6,5 6,8 7,1May-03 25,9 31,6 23,8 13,5 5,7 6,7 6,8 7,0Jun-03 26,2 30,9 24,0 14,3 5,7 6,2 6,7 7,0Jul-03 28,7 31,9 23,1 13,8 6,1 6,3 6,7 7,1Ago-03 28,0 32,6 22,4 13,6 5,7 5,9 6,6 7,2Sep-03 28,0 33,0 21,7 13,2 5,4 6,0 6,7 7,1Oct-03 27,9 33,0 21,5 13,3 5,6 6,0 6,5 6,8Nov-03 27,9 33,0 22,3 13,6 5,5 5,6 6,3 6,4Dic-03 28,6 33,3 21,9 12,7 7,0 5,2 6,4 6,5Ene-04 26,2 33,6 22,9 14,0 5,4 5,6 6,1 6,5Feb-04 27,7 33,6 23,5 12,0 5,2 5,4 5,4 6,3Mar-04 27,6 34,0 20,8 11,0 5,1 5,4 5,5 6,3Abr-04 28,1 33,9 21,3 11,4 4,9 5,3 5,9 6,2May-04 28,3 33,4 22,2 11,6 4,2 5,0 5,5 6,1Jun-04 28,3 33,3 22,3 12,0 4,0 4,5 4,9 5,4Jul-04 28,7 33,3 21,3 11,9 4,1 4,5 4,6 5,2Ago-04 28,7 33,5 21,1 11,5 4,3 4,5 4,7 5,0Sep-04 28,4 33,6 20,0 11,3 4,1 4,6 4,7 4,6Oct-04 28,2 33,9 20,3 11,6 4,1 4,8 4,9 5,1Nov-04 28,6 33,5 21,2 12,1 4,4 4,5 4,9 4,9Dic-04 28,5 31,8 21,0 12,1 4,2 4,5 4,9 4,9Ene-05 29,3 32,5 20,5 13,0 4,6 4,8 5,1 4,7Feb-05 30,2 32,4 21,8 13,3 4,4 5,1 5,2 5,3Mar-05 30,2 32,9 21,1 12,4 4,5 4,8 5,2 5,3Abr-05 31,1 33,6 21,7 13,1 4,3 4,9 5,2 5,1May-05 31,7 34,2 22,2 13,9 4,4 4,7 5,4 6,0Jun-05 31,9 35,0 22,3 14,0 4,6 5,0 5,4 5,3Jul-05 31,8 35,2 21,9 14,0 4,4 4,8 5,3 5,2Ago-05 31,7 35,5 21,8 13,9 4,0 4,7 5,3 5,0 (*) Tasas de los créditos de consumo entre 2000 y 5000 UF

Mutuos hipotecarios

Líneas decrédito

Tarjetas decrédito

Créditos de

consumo

hata 200 UF

Créditos

comerciales

(*)

113 Fuente: volúmenes del 2005 del Informe de las Tasas de los Principales Productos de Consumo de la SBIF y del Informe de Mutuos Hipotecarios Endosables de la SBIF

Anexo I Composición del margen operacional bruto de los distintos Bancos, Julio 2005114

114 Fuente: volumen de Julio del 2005 de la revista Información Financiera de la SBIF

Margen de intereses

Comisiones netas

Diferencias de precio netas (a)

Diferencias de cambio netas (b)

Recuperación decolocaciones castigadas (c)

Otros ingresosde operación netos (d)

Correcciónmonetaria neta (e)

Otros ingresos (f)

Total otros ingresos oper.(a) + (b) + (c ) + (d) + (e) + (f)

Resultado operacional bruto

Margen de intereses /Resultado operacional bruto

Comisiones netas /Resultado operacional bruto

Otros ingresos operacionales /Resultado operacional bruto

Bco

. de

Chi

le18

955

6-5

20-5

-313

2625

773

,521

,45,

1

Sant

ande

r28

064

124

22-1

3-4

2141

366

76,7

17,6

5,7

Bco

. Est

ado

137

3912

213

2-4

2549

201

68,1

19,6

12,3

BC

I11

632

1-1

72

-27

1515

674

,520

,84,

7

Cor

pban

ca60

97

05

-2-4

612

7579

,712

,57,

7

BB

VA54

180

312

0-2

1326

8564

,021

,015

,0

BIC

E18

42

00

0-1

12

2477

,717

,64,

8

Bco

. Sec

urity

254

21

10

-13

632

78,3

12,4

9,3

Citi

bank

5210

20

3-1

-32

464

81,1

15,9

3,1

Ban

kBos

ton

316

1-3

10

-1-2

-335

88,2

16,7

-4,9

Scot

iaba

nk24

71

11

-1-1

01

3275

,922

,61,

5

B. d

el D

esar

rollo

3811

01

30

-13

652

73,2

20,7

6,1

1.09

127

463

1689

-23

-32

114

227

1.47

973

,818

,57,

7

Cifr

as e

n m

iles

de m

illon

es d

e pe

sos

Valo

res

en %

Grandes Medianos Pequeños Sist

ema

finan

cier

o

Ban

cos

Anexo J Porcentaje de los distintos tipos de créditos sobre el total de colocaciones de cada Banco, Febrero 2005115

Bancos

Créditos de consum

o (a)

Créditos hipotecarios para

la vivienda (b)

Colocaciones de em

presas (estim

ado como (c ) - (a) - (b) )

Total (c)

Créditos de consum

o

Créditos hipotecarios para

la vivienda

Colocaciones de em

presas

Total

Banco de Chile 1.422 749 4.051 6.222 22,9 12,0 65,1 100

Banco Santander 1.134 1.848 5.059 8.042 14,1 23,0 62,9 100

Banco del Estado 541 2.202 2.236 4.978 10,9 44,2 44,9 100

BCI 380 741 3.017 4.139 12,6 17,2 70,2 100

Corpbanca 292 180 1.821 2.293 12,7 7,8 79,4 100

BBVA 249 790 1.711 2.750 9,1 28,7 62,2 100

BICE 29 35 793 857 3,4 4,0 92,5 100

Banco Security 20 38 1.090 1.148 1,8 3,3 94,9 100

Citibank 264 61 478 803 32,9 7,6 59,5 100

BankBoston 158 198 443 799 19,8 24,8 55,4 100

Scotiabank 343 106 668 1.117 30,7 9,5 59,8 100

Banco del Desarrollo 35 241 1.109 1.384 2,5 17,4 80,1 100

Banco Ripley 83 14 8 105 79,1 13,7 7,2 100

Banco Falabella 216 52 1 270 80,2 19,4 0,5 100

Banco Paris 103 0 8 111 93,1 0,0 6,9 100

5.435 7.262 23.092 35.788 15,2 20,3 64,5 100

Med

iano

sPe

queñ

os

Sistema financiero

Valores en %

Gra

ndes

Cifras en miles demillones de pesos

115 Fuente: volumen de febrero del 2005 del Informe de Colocaciones por Actividad Económica de la SBIF, y volumen del 2005 del Informe de Mutuos Hipotecarios Endosables de la SBIF

Download - UNIVERSIDAD DE CHILE - Repositorio Académicorepositorio.uchile.cl/tesis/uchile/2006/deluca_m/sources/deluca_m.pdfconsumo, tarjetas y líneas de crédito de un Banco pequeño que carece

Top Related