UNIVERSIDAD DE CHILE
FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS
ESCUELA DE POSTGRADO
PLAN PARA ENFOCAR LAS CAMPAÑAS BANCARIAS UTILIZANDO DATAMINING
MAURICIO PASCUAL DE LUCA VENEGAS
MIEMBROS DE LA COMISIÓN EVALUADORA
SR. LUIS ZAVIEZO SCHWARTZMAN : PROFESOR GUÍA SR. DANIEL ESPARZA CARRASCO SR. MANUEL VERGARA TRINCADO
TESIS PARA OPTAR AL GRADO DE MAGISTER EN GESTIÓN Y DIRECCIÓN DE EMPRESAS
SANTIAGO DE CHILE JULIO, 2006
RESUMEN El objetivo último de la tesis consiste en demostrar que mediante datamining es posible
elaborar un plan para enfocar la estrategia comercial en los productos de créditos de
consumo, tarjetas y líneas de crédito de un Banco pequeño que carece de un
datawarehouse. La hipótesis consiste en el supuesto de que el conjunto de bases de
datos operacionales que forzosamente cualquier Banco debe poseer proveen
información suficiente para elaborar un plan de datamining como el que se desea
construir. El desarrollo de la tesis, en tanto, consiste en detallar paso a paso con una
metodología de datamining (CRISP-DM) como formular un plan para enfocar las
campañas bancarias mediante una segmentación de riesgo y rentabilidad basada en
modelos predictivos generados a partir de los datos de las bases operacionales antes
mencionadas. Finalmente, la principal conclusión que se obtiene como resultado de la
investigación consiste en que la tesis planteada en un comienzo es válida, por cuanto
es posible construir un plan como el deseado.
La investigación desarrollada no ha pretendido elaborar modelos predictivos
específicos, puesto que para ello hubiese sido necesario disponer de datos concretos
de un conjunto masivo de clientes, información cuyo acceso está severamente
restringido por la ley de secreto bancario. Por lo tanto, las indicaciones que se entregan
en este informe son genéricas, puramente conceptuales, no están dirigidas a ningún
Banco específico y no se basan en ningún conjunto de datos de ningún grupo de
personas.
Se ha empleado la metodología CRISP-DM para la elaboración del plan de datamining
por corresponder a un estándar ampliamente utilizado en proyectos de minería de
datos. Por otro lado, dado que hubiese sido imposible ilustrar el plan de datamining sin
recurrir a alguna herramienta de datamining específica, se ha usado Clementine de
SPSS por hacer posible la representación de flujos de datos de manera gráfica y por su
gran capacidad para trabajar con una amplia gama de bases de datos operacionales de
distintos proveedores.
AGRADECIMIENTOS
Quisiera dedicar este trabajo a mi madre, Isolina Venegas, quien a través de su ejemplo
de enorme generosidad hacia sus hijos me enseñó a enfrentar la vida con esfuerzo,
bondad y sencillez. Quisiera también agradecer al MBA de la Universidad de Chile por
transmitirme un deseo genuino de contribuir a la sociedad con todo mi talento,
creatividad y energía, puesto que en dicho deseo he encontrado la fuente de un
liderazgo auténtico y orientador en mi vida profesional.
INDICE
1 INTRODUCCIÓN......................................................................................................14
2 DIAGNÓSTICO DEL PROBLEMA...........................................................................17
2.1 Los productos ................................................................................................17
2.1.1 Créditos de consumo....................................................................................18
2.1.2 Tarjetas de crédito........................................................................................18
2.1.3 Líneas de crédito ..........................................................................................19
2.2 El mercado......................................................................................................19
2.3 La industria.....................................................................................................20
2.4 La tecnología..................................................................................................35
2.5 Enfoques de las campañas bancarias .........................................................35
2.5.1 Orientación operacional................................................................................36
2.5.2 Orientación estratégica.................................................................................40
3 OBJETIVOS DE LA INVESTIGACIÓN....................................................................42
4 DEFINICIONES PREVIAS .......................................................................................44
4.1 El término “datamining” o “minería de datos”............................................44
4.2 El término “modelo” ......................................................................................45
4.3 Definición del concepto de técnica de modelamiento................................46
4.4 Definición del concepto de proyecto de datamining ..................................46
4.5 Definición del concepto de plan de datamining..........................................47
5 HIPÓTESIS DE TRABAJO ......................................................................................48
5.1 Supuestos sobre disponibilidad de información ........................................48
5.2 Supuestos tecnológicos................................................................................49
5.3 Supuestos sobre el marco regulatorio.........................................................49
5.4 Supuestos de negocios.................................................................................50
5.5 Supuestos operacionales..............................................................................51
6 METODOLOGÍA DE TRABAJO ..............................................................................53
6.1 Metodologías de datamining.........................................................................53
6.1.1 Metodología SEMMA....................................................................................53
6.1.2 Metodología CRISP-DM ...............................................................................54
6.2 Razones para utilizar CRISP-DM...................................................................57
7 PRIMERA FASE DEL PLAN: COMPRENSIÓN DEL NEGOCIO ............................59
7.1 Determinar los objetivos de negocios (tarea 1a).........................................61
7.1.1 Background (output 1a.1) .............................................................................61
7.1.2 Objetivos de negocios: focalizarse en nichos y crecer sujeto a un nivel
mínimo de riesgo (output 1a.2) ....................................................................63
7.1.3 Criterios de éxito de negocios: porcentaje de aumento en los montos
ofrecidos en las campañas y monto de pérdida esperada de éstas
(output 1a.3).................................................................................................64
7.2 Evaluar la situación (tarea 1b) ......................................................................65
7.2.1 Inventario de recursos (output 1b.1).............................................................65
7.2.2 Requerimientos, suposiciones y restricciones (output 1b.2).........................66
7.2.3 Riesgos y contingencias (output 1b.3)..........................................................67
7.2.4 Terminología (output 1b.4) ...........................................................................69
7.2.4.1 Definición de cliente malo desde un punto de vista crediticio ...............70
7.2.4.2 Definición de rentabilidad potencial de un cliente..................................71
7.2.4.3 Definición de cliente sin gran rentabilidad potencial..............................72
7.2.4.4 Definición de carga financiera ...............................................................74
7.2.5 Costos y beneficios (output 1b.5) .................................................................74
7.3 Determinar los objetivos de datamining (tarea 1c) .....................................75
7.3.1 Objetivos de datamining: estimar el riesgo crediticio y la rentabilidad
potencial de los clientes (output 1c.1) ..........................................................75
7.3.2 Criterios de éxito de datamining: errores tipo I y tipo II (output 1c.2)............77
7.4 Producir el plan del proyecto (tarea 1d).......................................................78
7.4.1 Plan del proyecto (output 1d.1).....................................................................78
7.4.2 Evaluación inicial de herramientas y técnicas (output 1d.2) .........................79
8 SEGUNDA FASE DEL PLAN: COMPRENSIÓN DE LOS DATOS .........................81
8.1 Recolectar datos iniciales (tarea 2a) ............................................................82
8.1.1 Reporte de recolección de datos iniciales (output 2a.1) ...............................82
8.1.2 Datos necesarios para el proyecto: lista de atributos de los clientes............83
8.1.2.1 Grupo de variables demográficas (A)....................................................84
8.1.2.2 Grupo de variables de renta (B) ............................................................85
8.1.2.3 Grupo de variables de vínculo con el cliente (C) ...................................85
8.1.2.4 Grupo de variables de ingresos contables generados por cliente (D) ...85
8.1.2.5 Grupo de variables de comportamiento (E)...........................................86
8.1.2.6 Grupo de variables de deudas (F).........................................................87
8.1.3 Fuentes de datos disponibles y suficientes para el proyecto........................88
8.2 Describir los datos (tarea 2b)........................................................................91
8.2.1 Reporte de descripción de datos (output 2b.1).............................................91
8.3 Explorar los datos (tarea 2c).........................................................................92
8.3.1 Reporte de exploración de datos (output 2c.1).............................................93
8.4 Verificar la calidad de los datos (tarea 2d) ..................................................93
8.4.1 Reporte de calidad de los datos (output 2d.1)..............................................94
9 TERCERA FASE DEL PLAN: PREPARACIÓN DE LOS DATOS ..........................95
9.1 Conjunto de datos (output 3z.1) ...................................................................96
9.1.1 Obtención automatizada del conjunto de datos en Clementine....................97
9.1.1.1 Símbolos usados en Clementine para procesar datos ........................100
9.1.1.2 Flujo de datos que obtiene base de variables predictivas ...................103
9.2 Descripción del conjunto de datos (output 3z.2) ......................................115
9.3 Seleccionar los datos (tarea 3a) .................................................................115
9.3.1 Razones para la inclusión o exclusión de datos (output 3a.1)....................115
9.4 Limpiar los datos (tarea 3b) ........................................................................117
9.4.1 Reporte de limpieza de los datos (output 3b.1) ..........................................117
9.5 Construir datos (tarea 3c) ...........................................................................118
9.5.1 Atributos derivados (output 3c.1)................................................................118
9.5.1.1 Estimación de las deudas con otras instituciones financieras .............119
9.5.2 Registros generados (output 3c.2) .............................................................119
9.6 Integrar los datos (tarea 3d)........................................................................120
9.6.1 Datos mezclados (output 3d.1)...................................................................120
9.7 Formatear los datos (tarea 3e) ....................................................................121
9.7.1 Datos reformateados (output 3e.1).............................................................121
10 CUARTA FASE DEL PLAN: MODELAMIENTO ................................................122
10.1 Seleccionar la técnica de modelamiento (tarea 4a) ..................................123
10.1.1 Técnica de modelamiento (output 4a.1)..................................................123
10.1.2 Regresión logística .................................................................................124
10.1.2.1 Representación de modelos mediante regresión logística ..............129
10.1.2.2 Refinamiento iterativo de los modelos de regresión logística ..........131
10.1.3 Redes neuronales...................................................................................132
10.1.3.1 Representación de modelos mediante redes neuronales................136
10.1.3.2 Refinamiento iterativo de los modelos de redes neuronales ...........139
10.1.3.3 Cálculo con red neuronal de probabilidad de que un cliente sea
malo.................................................................................................145
10.1.4 Árboles de decisión.................................................................................148
10.1.4.1 Representación de modelos mediante árboles de decisión.............150
10.1.4.2 Refinamiento de los modelos de árboles de decisión......................158
10.1.5 Comparación de las técnicas de modelamiento......................................160
10.1.6 Supuestos de modelamiento (output 4a.2) .............................................161
10.2 Generar el diseño de las pruebas (tarea 4b)..............................................161
10.2.1 Diseño de las pruebas (output 4b.1) .......................................................161
10.3 Construir un modelo (tarea 4c) ...................................................................163
10.3.1 Establecer los parámetros (output 4c.1) .................................................163
10.3.2 Modelos (output 4c.2) .............................................................................163
10.3.3 Generación automatizada de modelos en Clementine ...........................163
10.3.3.1 Símbolos usados en Clementine para generar modelos .................164
10.3.3.2 Descripción del diagrama en Clementine que genera un modelo....166
10.3.4 Descripción del modelo (output 4c.3)......................................................168
10.3.4.1 Modelo de riesgo especificado usando regresión logística..............169
10.3.4.2 Modelo de rentabilidad especificado usando regresión logística .....171
10.3.4.3 Modelo de riesgo especificado usando redes neuronales ...............172
10.3.4.4 Modelo de rentabilidad especificado usando redes neuronales ......173
10.3.4.5 Modelo de riesgo especificado usando árboles de decisión............174
10.3.4.6 Modelo de rentabilidad especificado usando árboles de decisión ...177
10.3.4.7 Variables válidas en los tres tipos de modelos antes explicados.....177
10.4 Evaluar el modelo técnicamente (tarea 4d) ...............................................181
10.4.1 Evaluación técnica del modelo y de los objetivos de datamining de
estimar el riesgo crediticio y la rentabilidad potencial de los clientes
(output 4d.1) ...........................................................................................181
10.4.2 Principales medidas estadísticas para evaluar modelos técnicamente ..182
10.4.2.1 Divergencia......................................................................................183
10.4.2.2 Estadístico de Kolmogorov-Smirnov (K-S).......................................184
10.4.2.3 Curva ROC o de Trade-off...............................................................185
10.4.2.4 Receiver Operating Characteristic (ROC)........................................186
10.4.2.5 Razón Odds/Score ..........................................................................187
10.4.3 Evaluación técnica automatizada de modelos utilizando Clementine .....188
10.4.4 Establecer los parámetros revisados (output 4d.2).................................190
11 QUINTA FASE DEL PLAN: EVALUACIÓN DE NEGOCIOS .............................191
11.1 Evaluar los resultados de negocios (tarea 5a) ..........................................192
11.1.1 Evaluación de negocios de resultados de datamining y de los
objetivos de negocios de focalizarse en nichos y crecer sujeto a un
nivel mínimo de riesgo (output 5a.1).......................................................192
11.1.2 Modelos aprobados (output 5a.2) ...........................................................200
11.2 Revisar el proceso de datamining (tarea 5b).............................................200
11.2.1 Revisión del proceso de datamining (output 5b.1) ..................................201
11.3 Determinar los próximos pasos (tarea 5c).................................................201
11.3.1 Lista de las acciones posibles (output 5c.1) ...........................................201
11.3.2 Decisión (output 5c.2) .............................................................................202
12 SEXTA FASE DEL PLAN: DESPLIEGUE DE LOS RESULTADOS..................203
12.1 Planificar el despliegue (tarea 6a) ..............................................................204
12.1.1 Plan de despliegue (output 6a.1) ............................................................204
12.1.2 Automatización de la fase de despliegue utilizando Clementine.............205
12.2 Planificar el monitoreo y la mantención (tarea 6b) ...................................206
12.2.1 Plan de monitoreo y mantención (output 6b.1) .......................................206
12.3 Producir el reporte final (tarea 6c)..............................................................207
12.3.1 Reporte final (output 6c.1) ......................................................................207
12.3.2 Presentación final (output 6c.2) ..............................................................208
12.4 Revisar el proyecto (tarea 6d).....................................................................208
12.4.1 Documentación de la experiencia (output 6d.1)......................................208
13 CONCLUSIÓN ....................................................................................................209
14 BIBLIOGRAFÍA...................................................................................................212
INDICE DE FIGURAS
Figura 1.1 Tema de tesis planteado en forma redonda en cuanto a objetivo,
desarrollo y conclusiones........................................................................15
Figura 2.1 Crecimiento de los productos de consumo bancarios, 1998-2004..........17
Figura 2.2 Porcentaje de participación de las colocaciones de los distintos
Bancos del sistema financiero chileno, Julio del 2005 ............................21
Figura 2.3 Comparación entre Bancos grandes y pequeños de la razón de
eficiencia (gastos de apoyo oper. / resultado oper.), 2000-2005.............21
Figura 2.4 Comparación entre Bancos medianos y pequeños de la razón de
eficiencia (gastos de apoyo oper. / resultado oper.), 2000-2005............22
Figura 2.5 Evolución del margen de intereses del sistema financiero chileno
como un todo, periodo 2000-2005 ..........................................................23
Figura 2.6 Comparación entre Bancos grandes y pequeños de la razón de
margen de intereses / colocaciones, periodo 2000-2005........................24
Figura 2.7 Comparación entre Bancos medianos y pequeños de la razón de
margen de intereses / colocaciones, periodo 2000-2005........................25
Figura 2.8 Comparación del margen de intereses sobre colocaciones entre
Bancos de clientes preferenciales y Bancos pequeños, periodo
2000-2005...............................................................................................26
Figura 2.9 Comparación de la rentabilidad sobre patrimonio de Bancos
grandes y pequeños, periodo 2000-2005................................................27
Figura 2.10 Comparación de la rentabilidad sobre patrimonio de Bancos
medianos y pequeños, periodo 2000-2005 .............................................27
Figura 2.11 Evolución de las colocaciones totales del sistema financiero
chileno, desglosadas por tipo, periodo 2000-2004.................................28
Figura 2.12 Comparación del crecimiento anual de colocaciones de los Bancos
medianos y pequeños, periodo 2000-2005 .............................................29
Figura 2.13 Matriz de crecimiento-participación de las colocaciones de los
distintos Bancos en Chile, Julio 2004-Julio 2005 ....................................30
Figura 2.14 Tasas de créditos de consumo, hipotecarios y comerciales, periodo
2002-2005...............................................................................................31
Figura 2.15 Composición del margen operacional bruto de los distintos Bancos,
Julio 2005................................................................................................32
Figura 2.16 Porcentaje de los distintos tipos de créditos sobre el total de
colocaciones de cada Banco, Febrero 2005 ...........................................33
Figura 2.17 Ranking de Bancos por colocaciones de consumo, Febrero 2005 .........34
Figura 2.18 Enfoque operacional de comunicación en un proyecto de
datamining...............................................................................................39
Figura 6.1 Fases y Tareas del Modelo CRISP-DM ..................................................55
Figura 7.1 Tareas y outputs de la fase de comprensión del negocio, primera
fase del proyecto de datamining según metodología CRISP-DM ...........59
Figura 7.2 Ganancias extras obtenidas por cada transacción de la tarjeta de
crédito de un cliente, cuando éste tiene varios años de antigüedad .......71
Figura 8.1 Tareas y outputs de la fase de comprensión de los datos, segunda
fase del proyecto de datamining según metodología CRISP-DM ...........81
Figura 8.2 Seis grupos de variables candidatas a ser consideradas en los
modelos (nótese que sólo un grupo corresponde a variables de
deudas) ...................................................................................................84
Figura 9.1 Tareas y outputs de la fase de preparación de los datos, tercera
fase del proyecto de datamining según metodología CRISP-DM ...........95
Figura 9.2 Flujo de datos en Clementine que obtiene la base de datos final
para construir un modelo predictivo ........................................................99
Figura 9.3 Gran flujo de datos de Clementine mostrando la obtención de una
base de variables predictivas a partir de distintas fuentes de datos .....102
Figura 9.4 Flujo de datos en Clementine que obtiene las deudas de los
clientes con el Banco y que fueron informadas a la SBIF hace dos
meses ...................................................................................................104
Figura 9.5 Flujo de datos en Clementine que estima las deudas de un cliente
con terceros ..........................................................................................105
Figura 9.6 Flujo de datos en Clementine que obtiene los saldos actuales de
las cuentas, tanto antes como después del envío del D01 hace dos
meses ...................................................................................................106
Figura 9.7 Flujo de datos en Clementine que obtiene los saldos actualizados
de las cuentas reportadas hace dos meses en el D01 enviado a la
SBIF ......................................................................................................107
Figura 9.8 Flujo de datos en Clementine que obtiene las deudas actualizadas
de los clientes con el Banco..................................................................108
Figura 9.9 Flujo de datos en Clementine que separa los clientes “nuevos” (de
hace menos de dos meses) de los clientes antiguos ............................110
Figura 9.10 Flujo de datos en Clementine que estima las deudas con terceros
de los clientes “nuevos” (de menos de dos meses de antigüedad).......111
Figura 9.11 Flujo de datos en Clementine que obtiene las deudas de los
clientes tanto con el Banco como con terceros .....................................112
Figura 9.12 Flujo de datos en Clementine que mezcla los datos de las deudas
de los clientes, de su renta y de sus características demográficas.......113
Figura 9.13 Flujo de datos en Clementine que obtiene la base de variables
predictivas .............................................................................................114
Figura 10.1 Tareas y outputs de la fase de modelamiento, cuarta fase del
proyecto de datamining según metodología CRISP-DM.......................122
Figura 10.2 Clientes buenos y malos versus carga financiera .................................125
Figura 10.3 Proporción de clientes malos por clase de carga financiera .................125
Figura 10.4 Un modelo matemático simple para una neurona.................................132
Figura 10.5 Funciones de activación de una neurona: función escalonada (a) y
función sigmoidal (b) .............................................................................133
Figura 10.6 Unidades con una función de activación escalonada que pueden
representar distintas puertas lógicas.....................................................134
Figura 10.7 Una red neuronal con dos inputs, un nivel oculto de dos unidades y
una salida..............................................................................................135
Figura 10.8 Gráfico del output de un perceptrón con dos unidades de entrada y
una función de activación sigmoidal......................................................137
Figura 10.9 El resultado de combinar dos funciones sigmoidales para obtener
una cordillera.........................................................................................138
Figura 10.10 El resultado de combinar dos cordilleras para producir un cerro ..........139
Figura 10.11 Perceptrón con una unidad de salida....................................................140
Figura 10.12 Red neuronal con un nivel oculto y dos unidades de salida..................142
Figura 10.13 Ejemplo de árbol de decisión que permite clasificar a los clientes en
buenos y malos .....................................................................................149
Figura 10.14 Ejemplos de clientes clasificados como buenos o malos......................152
Figura 10.15 Clasificación de conjunto de datos de entrenamiento mediante el
atributo de comuna ...............................................................................153
Figura 10.16 Clasificación de conjunto de datos de entrenamiento mediante
atributos de renta y rotación de empleo ................................................154
Figura 10.17 Árbol de decisión generado por algoritmo a partir de los ejemplos
del conjunto de datos de entrenamiento ...............................................155
Figura 10.18 Función información y promedio geométrico entre la proporción de
ejemplos positivos y negativos en un conjunto de datos.......................157
Figura 10.19 Flujo de datos en Clementine que genera modelos y predicciones a
partir de una base final para alimentar el modelo predictivo .................164
Figura 10.20 Flujo de datos en Clementine que obtiene un conjunto de datos de
entrenamiento .......................................................................................166
Figura 10.21 Flujo de Datos en Clementine que genera modelos a partir de un
conjunto de datos de entrenamiento .....................................................167
Figura 10.22 Factores considerados en la divergencia de un modelo de puntaje:
cuanto se separan y se superponen las distribuciones de buenos y
malos ....................................................................................................183
Figura 10.23 Estadígrafo K-S, calculado como la máxima distancia entre las
distribuciones de buenos y malos de un modelo de puntaje.................184
Figura 10.24 Curvas de trade-off de dos modelos de puntaje....................................185
Figura 10.25 Estadígrafo ROC de un modelo de puntaje, calculado como el área
bajo la curva de trade-off ......................................................................186
Figura 10.26 Razón de Odds/Score de un modelo de puntaje...................................187
Figura 10.27 Flujo de datos en Clementine que obtiene un conjunto de datos de
prueba para validar un modelo..............................................................188
Figura 10.28 Flujo de datos en Clementine que entrega notas y predicciones de
de riesgo y rentabilidad potencial para un conjunto de clientes ............189
Figura 11.1 Tareas y outputs de la fase de evaluación de negocios, quinta fase
del proyecto de datamining según metodología CRISP-DM .................191
Figura 11.2 Segmentos de riesgo y rentabilidad ......................................................194
Figura 11.3 Orientación operacional de las campañas bancarias............................195
Figura 11.4 Funciones continua y escalonada que describen el aumento del
riesgo de los clientes al aumentar su carga financiera..........................197
Figura 12.1 Tareas y outputs de la fase de despliegue, sexta y última fase del
proyecto de datamining según metodología CRISP-DM.......................203
Figura 12.2 Flujo de datos en Clementine que obtiene una base de clientes con
notas de riesgo y rentabilidad a partir de una base de variables
predictivas .............................................................................................205
Figura 12.3 Flujo de datos en Clementine que obtiene una base de ofertas
comerciales a partir de una base con notas de riesgo y rentabilidad....206
14
1 INTRODUCCIÓN
El presente documento describe como mediante datamining es posible enfocar las
campañas de un Banco pequeño que no cuenta con un datawarehouse. Todo ello para
los productos de créditos de consumo, tarjetas y líneas de crédito. Se describe cómo a
partir de ciertas bases operacionales de un Banco es posible construir modelos de
datamining capaces de calcular puntajes de riesgo y rentabilidad de sus clientes, y
cómo a partir de tales puntajes pueden identificarse distintos segmentos susceptibles
de ser atacados con ofertas diferenciadas.
El objetivo del autor del presente trabajo1 no ha sido elaborar modelos predictivos de la
rentabilidad de los clientes ni de su desempeño crediticio, puesto que para ello hubiese
sido necesario disponer de los datos de los clientes de algún Banco, cosa que ha
escapado totalmente al ámbito de definición de la investigación. El objetivo, en cambio,
ha sido relatar cómo es posible elaborar un plan para que un Banco pequeño construya
e implemente modelos de datamining que le ayuden a enfocarse en nichos de mercado
específicos. Por ende, el foco de la tesis no se encuentra en la descripción de modelos
predictivos específicos, sino que en la forma de elaborar un plan para construir tales
modelos. Por lo tanto, las indicaciones que se entregan en este informe son genéricas,
puramente conceptuales, no están dirigidas a ningún Banco específico y no se basan
en ningún conjunto de datos de ningún grupo de personas. En consecuencia no se ha
pedido ni obtenido autorización de ninguna institución ni persona para utilizar en este
informe datos confidenciales, tales como información sujeta a secreto bancario.
El presente informe se ha planteado en forma “redonda” en cuanto a objetivos,
desarrollo y conclusiones, en el sentido de cerrar un ciclo que parte de un objetivo,
consistente en demostrar la validez de una tesis, para finalmente arribar a la conclusión
de que la tesis es válida. En efecto, en forma similar a la demostración de un teorema
geométrico la investigación se ha dividido en cuatro pasos, como se ilustran en la figura
1.1 dada abajo: formulación de la tesis a demostrar, formulación de las hipótesis que se
emplearán en la demostración, desarrollo de la demostración propiamente dicha, y
finalmente la conclusión con respecto a la validez de la tesis. Por lo tanto, el desarrollo
apunta específicamente a alcanzar el objetivo planteado en la tesis. Las conclusiones, 1 Mauricio De Luca, ingeniero civil de industrias y diploma académico en la especialidad de ingeniería en computación de la Pontificia Universidad Católica de Chile ([email protected])
15
por su parte, establecen si la tesis es válida o falsa, y se derivan directamente del
desarrollo de la demostración.
Figura 1.1 Tema de tesis planteado en forma redonda en cuanto a objetivo, desarrollo y conclusiones2
La tesis que se pretende demostrar es la siguiente: mediante herramientas de
datamining puede elaborarse un plan para enfocar las campañas en un Banco pequeño
que carece de un datawarehouse, de manera de permitir a la institución segmentar a
sus clientes y crecer. El objetivo último y principal de esta investigación no es otro que
demostrar dicha tesis. El capítulo 3 entrega objetivos secundarios que permiten
alcanzar dicho objetivo principal.
La principal hipótesis de trabajo, por su parte, consiste en el supuesto de que existe un
conjunto de bases de datos operacionales que forzosamente cualquier Banco debe
2 Fuente: elaboración propia
16
poseer y que proveen información necesaria y suficiente para realizar estudios de
datamining. Existen también otras hipótesis de trabajo que son necesarias para poder
satisfacer el objetivo de la tesis y las cuales se detallan en el capítulo 5.
El desarrollo de la tesis, en tanto, consiste en detallar paso a paso con una metodología
de datamining (CRISP-DM) como formular un plan para enfocar las campañas,
construyendo modelos predictivos de riesgo y rentabilidad a partir de datos de bases
operacionales. El desarrollo de la tesis es dividido en los capítulos 7 al 12,
correspondiendo cada uno a las distintas fases en las que se divide un proyecto de
datamining en la metodología CRISP-DM.
La principal conclusión, por lo tanto, consiste en que la tesis planteada en un comienzo
de la investigación es válida, por cuanto en el desarrollo se demuestra que es
efectivamente posible construir un plan para enfocar las campañas bancarias mediante
herramientas de datamining. El capítulo 13 entrega también otras conclusiones
importantes que se deducen de la investigación.
El resto del documento está dividido como sigue: el capítulo 2 ofrece un diagnóstico del
problema de las campañas bancarias, el capítulo 3 define los objetivos de la
investigación (lo cual calza con la primera etapa de formulación de la tesis dada en la
figura 1.1). El capítulo 4 entrega definiciones previas que se utilizarán en el resto del
documento. El capítulo 5 detalla las hipótesis de trabajo (lo cual corresponde a la
segunda etapa de la tesis dada en la figura 1.1). El capítulo 6 se refiere a la
metodología que se utiliza en la formulación del plan de datamining, junto a las razones
para su elección. El desarrollo de la tesis, tercera etapa en el esquema entregado en la
figura 1.1, se entrega en los capítulos 7 al 12. El capítulo 13 corresponde a la cuarta y
última etapa de la figura 1.1 y resume las conclusiones de la investigación. Finalmente
el capítulo 14 entrega la bibliografía.
17
2 DIAGNÓSTICO DEL PROBLEMA
A continuación se entrega la descripción del negocio de las campañas bancarias en los
productos de líneas de crédito, tarjetas de crédito y créditos de consumo.
2.1 Los productos
Las campañas de consumo bancarias contemplan la promoción de múltiples productos
dirigidos a distintos tipos de mercado. Tres de dichos productos serán abordados en el
presente estudio: los créditos de consumo, las tarjetas de crédito y las líneas de crédito.
Los análisis se enfocarán solamente en el mercado de las personas naturales sin giro, y
los créditos no incluirán préstamos para prepagar otras deudas.
El siguiente gráfico muestra el crecimiento de los mencionados productos durante los
últimos años. Puede observarse como las cuentas corrientes y los créditos de consumo
han mostrado un sostenido crecimiento, en tanto que el número de las tarjetas de
crédito ha caído:
Figura 2.1 Crecimiento de los productos de consumo bancarios, 1998-20043
A continuación se describe el panorama de cada producto.
3 Fuente: EL DIARIO FINANCIERO, Bancos Salen a la Caza de Nuevos Segmentos para Rentabilizar su Negocio, 28/03/2005
18
2.1.1 Créditos de consumo Los Bancos utilizan para colocar sus créditos de consumo canales tales como el
contacto telefónico y el marketing directo, al mismo tiempo que medios de publicidad
como los avisos en diarios, radio y televisión. Algunos Bancos, invitan a sus clientes a
retirar en sucursales un préstamo que ya está autorizado. Otros, en cambio, han
llegado incluso a hacer uso de las llamadas “preaprobaciones automáticas”, en virtud
de las cuales los ejecutivos llaman a sus clientes para ofrecerles depositar en su cuenta
corriente un crédito que ya está aprobado. Las campañas de créditos de consumo
incluyen tasas preferenciales, premios y beneficios.
2.1.2 Tarjetas de crédito Las tarjetas de crédito bancarias han enfrentado una creciente y dura competencia por
parte de las tarjetas de retail. Ello queda de manifiesto por el hecho de que el número
total de tarjetas bancarias es menos de un tercio de los ocho millones de tarjetas
emitidas por las multitiendas y cadenas de supermercados. Como resultado de dicha
competencia el número de tarjetas de crédito se ha estancado desde el 2003 y los
Bancos en respuesta se han visto obligados a realizar agresivas campañas. Las
colocaciones por tarjetas de crédito en junio del 2004 representaban un nada
despreciable 23% de los préstamos de consumo totales del sistema financiero4.
El objetivo fundamental de los Bancos detrás de las campañas de tarjetas es el de
fidelizar al cliente. La idea que subyace al concepto de fidelización es que el cliente
utilice en forma más intensiva las tarjetas, a la vez que el resto de los productos
bancarios. Como consecuencia de las campañas de fidelización entre 1999 y el 2004 el
número promedio de transacciones anuales por tarjeta pasó de 16 a 195.
Las tarjetas bancarias generan ingresos por múltiples conceptos, entre ellos la tarifa
mensual por mantención que debe pagar el cliente, al igual que las comisiones que
debe pagar el comerciante por cada transacción. Generan también el cobro de
intereses por dos causas: los montos utilizados de la tarjeta, y los montos de las líneas
de crédito que son empleadas con el propósito de pagar las tarjetas. Ello explica por
qué existe tanto interés por parte de los Bancos en ofrecer rebajas de intereses o de
4 Fuente: EL DIARIO FINANCIERO, La Nueva Ofensiva de los Bancos por Fidelizar y Captar Clientes, 20/01/2005 5 Fuente: Informe de Estabilidad Financiera, Banco Central, primer semestre 2006
19
precios con tal de fomentar el uso de las tarjetas. Al fin de cuentas los ingresos
generados por mantenciones, comisiones e intereses superan las rebajas.
2.1.3 Líneas de crédito Son un producto estrechamente ligado a las cuentas corrientes, las cuales constituyen
el principal “gancho” para ofrecer otros productos bancarios, como las tarjetas de
crédito o los créditos de consumo.
El sistema financiero aumentó su número de cuentas corrientes sólo 5,25% durante el
20046, crecimiento provocado en su mayor parte por la reactivación en el consumo de la
economía. La participación que cada Banco posee sobre el número total de cuentas
corrientes ha sufrido pocas variaciones los últimos años debido al escaso crecimiento
del número de cuentas corrientes y a la fuerte competencia en los segmentos de
mercado bancarizados El 24% de las cuentas corrientes las posee el Banco de Chile,
posición seguida muy de cerca por el Banco Santander y por el BCI, que detentan un
16%. Bastante más atrás les siguen el Banco Estado, con un 10% y el BBVA, con un
5,5%7.
2.2 El mercado
En Chile existe un gran número de personas no bancarizadas. De los siete millones de
personas que componen la fuerza laboral en Chile, sólo 1,3 millones tienen cuenta
corriente8. Chile es uno de los países menos bancarizados de Latinoamérica. Es así
como mientras en el país existen 0,1 cuentas corrientes por habitante, en México ellas
superan las 0,28 y en Brasil las 0,459. Chile presenta 0,38 tarjetas de débito y crédito
por habitante, mientras que Argentina tiene un índice el doble mayor, al tiempo que
Brasil alcanza un índice de 0,810. En este panorama los Bancos se han esforzado por
crecer hacia los segmentos de menores ingresos y por competir en ellos con las casas
comerciales. Con ese propósito han abierto divisiones especializadas, como es el caso
del Santander, el BCI, el BBVA, el Chile, Corpbanca, Citibank y el Banco del Desarrollo.
Adicionalmente los Bancos han hecho alianzas con casas comerciales. Tal es el caso 6 Fuente: EL DIARIO FINANCIERO, La Nueva Ofensiva de los Bancos por Fidelizar y Captar Clientes, 20/01/2005 7 Fuente: idem. a la anterior 8 Fuente: idem. a la anterior 9 Fuente: idem. a la anterior 10 Fuente: idem. a la anterior
20
del Santander con el Banco Paris, del BancoEstado con D&S, del BCI con Falabella y
del Banco Chile con Falabella y Ripley.
Es posible distinguir varios mercados objetivo a los que pueden dirigirse las campañas
de créditos de consumo, tarjetas o líneas de crédito. El primero es el conjunto de
clientes que poseen créditos de consumo con el Banco próximos a expirar, o que han
sido pagados en su mayor parte. El segundo mercado está conformado por los clientes
que son deudores del Banco en algún producto, pero que carecen de alguno de los
otros productos considerados en este estudio. El tercer mercado está constituido por las
personas que no son clientes del Banco y que no poseen créditos de consumo, tarjetas
ni líneas de éste. Existen, no obstante, muchas distinciones que es posible percibir en
los clientes y que los diferencian profundamente del resto. Existen, por ejemplo, clientes
que tienen sólo depósitos a plazo en el Banco, otros que tienen créditos hipotecarios,
otros que son empresas o personas con giro, profesionales jóvenes, etc.
El presente estudio se ha enfocado sólo en los clientes que son deudores del Banco en
algún producto y que son personas naturales sin giro. Por otro lado, se supondrá que
las campañas a las cuales se aplique el plan descrito en este documento no
contemplarán créditos destinados a prepagar otras deudas. Por lo tanto, el estudio se
concentrará sólo en los clientes con capacidad para adquirir deudas adicionales a
aquellas que ya poseen.
2.3 La industria
Existen tres grandes Bancos que concentran más de la mitad del total de las
colocaciones del sistema: el Santander, el Chile y el Estado. Los siguen tres Bancos
medianos: el BCI, el BBVA y Corpbanca, que en conjunto tienen más de la cuarta parte
de las colocaciones totales. El resto de los Bancos, que pueden con propiedad
clasificarse como pequeños, tienen en total una cuarta parte de las colocaciones. Como
se mostrará a continuación, los gastos operacionales, las rentabilidades y las tasas de
crecimiento de los Bancos dependen fuertemente de su tamaño.
El siguiente gráfico muestra la participación de mercado sobre las colocaciones totales
de los distintos Bancos que componen el sistema financiero nacional:
21
Figura 2.2 Porcentaje de participación de las colocaciones de los distintos Bancos del sistema financiero chileno, Julio del 200511
La siguiente figura compara los gastos operacionales de Bancos grandes y pequeños:
Figura 2.3 Comparación entre Bancos grandes y pequeños de la razón de eficiencia (gastos de apoyo oper. / resultado oper.), 2000-200512
11 Fuente: tabla del anexo A, la cual contiene datos extraídos de los volúmenes de Julio de los años 2004 y 2005 de la revista Información Financiera de la SBIF 12 Fuente: tabla del anexo B, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
22
El gráfico anterior ha mostrado cómo los Bancos grandes, a excepción del Banco del
Estado, obtienen gastos operacionales permanentemente por debajo del promedio de la
industria, en tanto que los Bancos pequeños tienen gastos muy superiores. Ello se
explica por las fuertes economías de escala presentes en el negocio Bancario, lo cual
queda reafirmado por el hecho de que aun los Bancos medianos presentan gastos
operacionales consistentemente por debajo de los bancos pequeños, como puede
apreciarse en el siguiente gráfico:
Figura 2.4 Comparación entre Bancos medianos y pequeños de la razón de eficiencia (gastos de apoyo oper. / resultado oper.), 2000-200513
Tal vez el BBVA escapa un poco a la tendencia de los Bancos medianos, sin embargo
ello puede explicarse por una orientación particular hacia el negocio hipotecario.
Por otro lado, en la industria bancaria nacional los márgenes de intereses, que se
generan por la diferencia entre los intereses que los Bancos cobran por las
colocaciones y los intereses que pagan por las captaciones, han caído debido a la
fuerte competencia, como se revela en el siguiente gráfico:
13 Fuente: tabla del anexo B, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
23
Figura 2.5 Evolución del margen de intereses del sistema financiero chileno como un todo, periodo 2000-200514
Entre julio del 2000 y julio del 2005 el margen de intereses sobre el resultado
operacional bruto bajó desde 80,8% a 73,8%15 , presentando, por lo tanto, una
reducción de un 7% del resultado operacional bruto. Ello fue más que compensado por
la disminución en los gastos operacionales, que bajaron de un 60,2% a un 51,7% del
resultado operacional bruto (vale decir un 8,5% del resultado operacional bruto)16. Esto
se ha traducido en un aumento de la rentabilidad para el sistema financiero como un
todo. No obstante, mientras los Bancos grandes y medianos han bajado sus gastos
operacionales, ese no ha sido el caso de los Bancos pequeños.
La disminución de los márgenes de intereses tampoco ha afectado a todos los Bancos
por igual. El siguiente gráfico muestra como los Bancos grandes han bajado en forma
constante sus márgenes de intereses, convergiendo hacia los márgenes de intereses
de los Bancos pequeños, que no han variado significativamente:
14 Fuente: tabla del anexo C, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF 15 Fuente: Revista Información Financiera, SBIF, julio del 2000 y julio del 2005 16 Fuente: Revista Información Financiera, SBIF, julio del 2000 y julio del 2005
24
Figura 2.6 Comparación entre Bancos grandes y pequeños de la razón de margen de intereses / colocaciones, periodo 2000-200517
El nivel consistentemente inferior de los márgenes de intereses de los Bancos
pequeños hace pensar que éstos no son capaces de competir sino ofreciendo tasas
inferiores. Ello es estratégicamente preocupante para los Bancos pequeños por dos
motivos:
1.- Claramente los Bancos pequeños no pueden competir por precio (margen de
intereses) con los Bancos grandes, que disponen de mayores economías de escala.
2.- Los Bancos grandes muestran una tendencia creciente a disminuir sus márgenes de
intereses, acercándose a aquellos de los Bancos pequeños, lo que puede interpretarse
como una disminución generalizada de los precios de la industria. De esa forma, la
diferenciación por precio de los Bancos pequeños es algo que está en vías de
desaparecer.
Contrastando los márgenes de intereses de los Bancos pequeños y medianos es
posible observar las mismas tendencias anteriores, como se ilustra en la figura 2.7:
17 Fuente: tabla del anexo D, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
25
Figura 2.7 Comparación entre Bancos medianos y pequeños de la razón de margen de intereses / colocaciones, periodo 2000-200518
Una clave para sobrevivir pueden darla el BankBoston y el Citibank, que a pesar de
tener un tamaño reducido cuentan con márgenes de intereses muy por sobre aquellos
que presentan el resto de los Bancos pequeños. Los altos márgenes de intereses de los
dos Bancos antes mencionados pueden explicarse por su orientación a un segmento de
clientes preferenciales que están dispuestos a pagar un precio mayor al de mercado por
recibir un servicio diferenciado. De ahí surge un argumento presente en las hipótesis de
trabajo sobre las que se basa esta investigación: los Bancos pequeños para poder
competir se ven enfrentados a dos posibilidades, una de las cuales calza con lo que
han logrado el BankBoston y el Citibank, y que consiste en focalizarse en un nicho de
mercado específico donde es posible alcanzar márgenes de intereses (precios) por
sobre los de un mercado competitivo. La otra posibilidad para competir es bastante
obvia y consiste en crecer y alcanzar por esa vía mayores economías de escala.
La siguiente figura permite contrastar los márgenes de intereses del Citibank y del
BankBoston con los del resto de los bancos pequeños:
18 Fuente: tabla del anexo D, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
26
Figura 2.8 Comparación del margen de intereses sobre colocaciones entre Bancos de clientes preferenciales y Bancos pequeños, periodo 2000-200519
Las economías de escala parecen afectar no sólo gastos operacionales y márgenes de
intereses, sino que también las rentabilidades de las instituciones. En efecto, los
grandes Bancos, a excepción del Banco del Estado, obtienen permanentemente en el
tiempo rentabilidades sobre capital y reservas muy superiores a aquellas que consiguen
los Bancos pequeños. El caso del Banco del Estado, sin embargo, es enteramente
explicable por su rol social, por lo que sus resultados no invalidan la observación antes
realizada. En efecto, la baja rentabilidad del BancoEstado puede explicarse debido a
una masiva participación en el negocio hipotecario para la vivienda social, y en una
enorme cartera de clientes de bajos ingresos, entre otras características.
Si se compara la rentabilidad sobre capital y reservas de los Bancos grandes y
pequeños, por un lado, y de los Bancos medianos y pequeños, por otro, es posible
observar un patrón similar que refuerza la convicción de que existen fuertes economías
de escala en el negocio. Los siguientes gráficos comparan las rentabilidades sobre
capital y reservas de los Bancos pequeños con las de los Bancos grandes y medianos.
19 Fuente: tabla del anexo D, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
27
Figura 2.9 Comparación de la rentabilidad sobre patrimonio de Bancos grandes y pequeños, periodo 2000-200520
Figura 2.10 Comparación de la rentabilidad sobre patrimonio de Bancos medianos y pequeños, periodo 2000-200521
20 Fuente: tabla del anexo E, la cual contiene datos extraídos de los volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF 21 Fuente: idem. a la anterior
28
Por otro lado, es preciso notar que el sistema financiero chileno como un todo ha
crecido durante el periodo 2000-2004, y ello tanto en los productos hipotecarios, como
en las colocaciones para empresas o de consumo, como lo muestra la siguiente figura:
Figura 2.11 Evolución de las colocaciones totales del sistema financiero chileno, desglosadas por tipo, periodo 2000-200422
No obstante, dicho crecimiento no ha sido homogéneo. No es posible verificar, sin
embargo, que los Bancos grandes crecieran más que los pequeños debido al
aprovechamiento de sus fuertes economías de escala, por cuanto su crecimiento fue
impactado por las grandes fusiones entre el Banco Edwards y el Chile, por un lado, y el
Banco Santander y el Santiago, por otro. A pesar de ello, es posible deducir tal
aprovechamiento de las economías de escala al comparar los Bancos medianos con los
pequeños, puesto que el crecimiento de los medianos fue mayor durante el periodo
1999-2004. En efecto, exceptuando el Security, todos los demás Bancos pequeños
mostraron un comportamiento errático en el crecimiento de sus colocaciones, frente a 22 Fuente: tabla del anexo G, la cual contiene datos extraídos del volumen de Febrero del 2005 de la revista Información Financiera de la SBIF
29
un avance sostenido de los Bancos medianos que finalizó el periodo 1999-2005 con
tasas por sobre el 10% anual. El crecimiento, por lo tanto, también muestra evidencias
de la existencia de fuertes economías de escala. La figura 2.12 permite constatar este
hecho:
Figura 2.12 Comparación del crecimiento anual de colocaciones de los Bancos medianos y pequeños, periodo 2000-200523
Es posible observar el vínculo que existe entre tamaño y crecimiento utilizando una
matriz del Boston Consulting Group, en la cual los Bancos se clasifican en cuatro
grupos de acuerdo a su participación de mercado y a su porcentaje de crecimiento.
Todos los Bancos grandes pueden clasificarse como “vacas lecheras”, por cuanto
presentan una alta participación de mercado, superior al 6%, y un bajo crecimiento,
inferior al 15% anual. La totalidad de los Bancos medianos, en tanto, pueden
clasificarse como “estrellas”, con un crecimiento por sobre el 15% y un porcentaje de
participación sobre el total de las colocaciones superior al 6%. Los Bancos pequeños,
por su parte, pueden ser divididos en dos grupos: los poco atractivos (BICE, Citibank y
Scotiabank), con tasas de crecimiento inferiores al 15% al año; y las incógnitas 23 Fuente: tabla del anexo F, la cual contiene datos extraídos de los volúmenes de Julio de los años 1999 al 2005 de la revista Información Financiera de la SBIF
30
(Security, BankBoston y Bco. del Desarrollo), con tasas de crecimiento sobre el 15%. El
siguiente gráfico ilustra la matriz:
Figura 2.13 Matriz de crecimiento-participación de las colocaciones de los distintos Bancos en Chile, Julio 2004-Julio 200524
Hasta el momento se había podido constatar que los Bancos pequeños eran
consistentemente menos atractivos que los Bancos medianos o grandes, no obstante
ha surgido una nueva distinción entre los Bancos pequeños: las incógnitas y los poco
atractivos. Para poder explicar las diferencias en el desempeño entre estos dos grupos
de Bancos es preciso notar que estas instituciones no sólo difieren por su tamaño, sino
que también por sus orientaciones a distintos tipos de negocios, mercados y productos.
Dichas orientaciones juegan un papel fundamental en las diferencias de crecimiento y
de rentabilidad observadas entre los Bancos pequeños.
Algunos Bancos están orientados preferentemente a las pequeñas y medianas
empresas, otros, a las colocaciones de consumo para personas, y aun otros a los
créditos hipotecarios para la vivienda. Dichas diferencias de orientación se traducen
24 Fuente: tabla del anexo A, la cual contiene datos extraídos de los volúmenes de Julio de los años 2004 y 2005 de la revista Información Financiera de la SBIF
31
directamente en diferencias en ingresos, por cuanto cada negocio opera con tasas de
interés muy distintas. Por otro lado, para la mayoría de los Bancos nacionales el
margen de intereses contribuye al resultado operacional bruto en más de un 70%25.
El siguiente gráfico ilustra como las tasas de interés de las colocaciones de consumo
para personas naturales (tarjetas de crédito, líneas de crédito y créditos de consumo)
superan en mucho a las tasas hipotecarias y a las tasas de los créditos comerciales.
Figura 2.14 Tasas de créditos de consumo, hipotecarios y comerciales, periodo 2002-200526
Es por esta razón que las colocaciones de consumo, que representan menos del 25%
del total de las colocaciones del sistema financiero27, contribuyen a los ingresos
bancarios en un porcentaje mucho mayor.
Es posible clasificar también a los Bancos de acuerdo a los porcentajes de los ingresos
operacionales que son generados por intereses, por comisiones o por otros ingresos
operacionales. El siguiente diagrama ilustra esa clasificación, pudiendo observarse
como los Bancos que muestran los mayores ingresos porcentuales por concepto de
intereses son aquellos con orientación a clientes preferenciales (vale decir el
25 Fuente: Revista Información Financiera, SBIF, Julio 2005 26 Fuente: tabla del anexo H, la cual contiene datos extraídos de los volúmenes del 2005 del Informe de las Tasas de los Principales Productos de Consumo de la SBIF y del Informe de Mutuos Hipotecarios Endosables de la SBIF 27 Fuente: Revista Información Financiera, SBIF, Julio 2005
32
BankBoston y el Citibank). Por otro lado, los Bancos más orientados a los créditos
hipotecarios, vale decir el BBVA y el BancoEstado, son aquellos con menores
contribuciones de los intereses al resultado operacional.
Figura 2.15 Composición del margen operacional bruto de los distintos Bancos, Julio 200528
En la figura 2.16 dada más adelante se grafican los porcentajes que representan los
diversos tipos de crédito sobre el total de colocaciones de cada Banco. Los Bancos
pueden clasificarse en cuatro grupos en base a dicha figura: A, B, C y D. Las
instituciones del grupo A, que no son otras que los Bancos de las casas comerciales, se
orientan preferentemente a las colocaciones de consumo. El grupo B, en tanto, aglutina
fundamentalmente a los Bancos grandes y medianos, y en él las colocaciones de
consumo representan menos del 25% del total, al tiempo que las colocaciones para
empresas se ubican entre el 50% y el 70%. El grupo C incluye a pequeños Bancos 28 Fuente: tabla del anexo I, la cual contiene datos extraídos del volumen de Julio del 2005 de la revista Información Financiera de la SBIF
33
orientados a las colocaciones de consumo, que superan el 25% del total. El grupo D
incluye a la mayoría de los Bancos pequeños, los cuales se enfocan fundamentalmente
en ofrecer créditos a las empresas.
Figura 2.16 Porcentaje de los distintos tipos de créditos sobre el total de colocaciones de cada Banco, Febrero 200529
Cabe notar que los Bancos del grupo C calzan casi perfectamente con los Bancos poco
atractivos de la matriz de crecimiento/participación. Ello debiera ser particularmente
preocupante, puesto que los Bancos de las casas comerciales son especialistas en
créditos de consumo, y su importancia y participación en el negocio se incrementa día a
día. Ante tal escenario el futuro para los Bancos del grupo C se augura poco
auspicioso, a menos que se enfoquen en nichos de mercado específicos, como lo ha
hecho el Citibank.
29 Fuente: tabla del anexo J, la cual contiene datos extraídos del volumen de febrero del 2005 del Informe de Colocaciones por Actividad Económica de la SBIF, y del volumen del 2005 del Informe de Mutuos Hipotecarios Endosables de la SBIF
34
Como la siguiente figura lo consigna, la orientación de ciertos Bancos los hace aparecer
entre los Bancos medianos en el ranking de colocaciones de consumo, a pesar de
tratarse sólo de Bancos pequeños en términos de colocaciones totales. Tal es el caso
del Scotiabank y del Citibank. Resulta notoria también la presencia en el ranking de los
Bancos de las casas comerciales, que ya superan a muchos Bancos pequeños en
cuanto a colocaciones de consumo. Claramente se avecinan días difíciles para los
Bancos del grupo C que no consigan diferenciarse, producto de una previsible dura
competencia por parte de los Bancos de las casas comerciales.
Figura 2.17 Ranking de Bancos por colocaciones de consumo, Febrero 200530
Las diferencias entre los Bancos grandes y pequeños muestran que el negocio bancario
está dominado por fuertes economías de escala. Ante dicho escenario resulta
30 Fuente: volumen de febrero del 2005 del Informe de Colocaciones por Actividad Económica de la SBIF
35
imprescindible para los Bancos pequeños crecer o enfocarse en nichos de mercado
susceptibles de ser atacados con servicios diferenciados.
2.4 La tecnología
Frente a la dura competencia los Bancos nacionales están invirtiendo millones de
dólares en sistemas computacionales capaces de identificar las necesidades de los
clientes y elaborar lo que se conoce como “segmentación inteligente”. El objetivo de la
segmentación inteligente no es el de entregar más productos y servicios, sino que de
entregar lo que necesita cada cliente.
El Banco de Chile ha invertido US$ 50 millones en el proyecto Plan Neos, plataforma
tecnológica que compatibilizará mayores ritmos de crecimiento con mejor calidad de
servicio, además de mayor rapidez para crear productos nuevos y disminuciones en los
costos. La segmentación inteligente permitirá aumentar la productividad para enfrentar
la caída de los márgenes de intereses en la industria. Los Bancos BBVA y Santander ya
cambiaron sus plataformas tecnológicas para entrar a la “smart customization”, mientras
que el Security y el Citibank están trabajando en ello. Prácticamente ningún banco
chileno sigue segmentando a sus clientes bajo el criterio de renta y promedio de
operaciones sin atender a las reales necesidades financieras de las personas.
Existen disponibles en el mercado herramientas de datamining ofrecidas por grandes
proveedores de software, como son el IBM DB2 Intelligent Miner, el Oracle Data Mining,
y el Computer Associates CleverPath Predictive Analysis Server 3.0. No obstante, las
herramientas líderes de datamining son el Enterprise Miner 5.1 de SASS y Clementine
8.5 de SPSS31 . En el presente estudio se ilustra cómo es posible construir modelos de
datamining utilizando Clementine.
2.5 Enfoques de las campañas bancarias
La alta competencia entre los bancos nacionales los ha impulsado a implementar CRMs
analíticos capaces de orientar las campañas de consumo en forma altamente
sofisticada hacia las necesidades de los clientes. Al mismo tiempo, sistemas de
información conectados a datawarehouses han hecho posible determinar hasta qué
punto pueden extenderse en forma rentable las condiciones de las ofertas. Ello ha dado 31 Fuente: Data Mining Tools, METAspectrum Market Summary, META Group, September 2004, www.metagroup.com
36
lugar a campañas bancarias concebidas como una herramienta estratégica clave, y
puede hablarse con propiedad de que en su diseño existe una orientación o un enfoque
“estratégico”. No obstante, dicho enfoque convive con otros que poseen Bancos
carentes de foco y liderazgo, instituciones abocadas principalmente a cumplir los
compromisos del día a día. Los enfoques asociados a tales instituciones pueden
denominarse “operacionales”.
La entrada al mercado bancario de las multitiendas, con la consiguiente masificación de
los servicios bancarios hacia el segmento socio-económico C3 ha transformado el
negocio financiero en una actividad donde las economías de escala son claves para
establecer una ventaja competitiva sostenible en el tiempo. A pesar de lo antes
mencionado, junto a los grandes Bancos conviven en la industria nacional instituciones
que poseen una pequeña participación de mercado, y que por su tamaño no pueden
competir en el negocio masivo. Como se ha mencionado al final de la sección 2.3, es
imprescindible para dichos Bancos crecer o escoger un nicho de mercado particular. No
obstante, y paradójicamente, el tamaño de tales instituciones no justifica una inversión
en un datawarehouse, ni en costosos CRMs analíticos. Como resultado, el Área
Comercial de tales empresas al intentar focalizarse no se ve apoyada por sistemas
informáticos, y ante la presión por cumplir metas debe renunciar por completo a cumplir
dicho objetivo. Adicionalmente, un tamaño limitado en el negocio bancario obliga a
reducir los costos al máximo, destinando los recursos preferentemente a las actividades
esenciales en el corto plazo, vale decir, las actividades operacionales de otorgamiento
de crédito. Es así como surge en los bancos pequeños el peligro de abordar su gestión
con un enfoque más operacional que estratégico.
A continuación se dan mayores detalles sobre ambos enfoques u orientaciones, el
estratégico y el operacional:
2.5.1 Orientación operacional
El enfoque operacional juega en contra de la definición e implementación de una
estrategia comercial focalizada, en la medida que hace que la organización se estanque
en la resolución de operaciones del día a día y en la discusión de pequeños temas que
consumen todo su tiempo. Por otro lado, un esquema de comunicación con un enfoque
operacional está diseñado para evitar fraudes, por lo que establece un gran número de
37
niveles jerárquicos, cada uno con atribuciones de otorgamiento de montos de crédito
mayores. Bajo tal esquema la comunicación entre personas de diferentes niveles
jerárquicos es difícil o inexistente. Dicha forma de trabajar, ideal para controlar el
préstamo de dinero, dificulta la comunicación entre áreas y la innovación,
imprescindibles para implementar campañas eficaces.
Es posible que un Banco pequeño caiga en la trampa de realizar sus campañas con un
enfoque operacional, en cuyo caso el Área Comercial y el Área de Riesgo de Crédito
realizarán su labor descoordinadamente. Es probable que el Área Comercial defina su
propio plan para orientar las campañas, sin tener presente consideraciones de riesgo. A
su vez, es también probable que el Área de Riesgo de Crédito defina criterios de riesgo
aceptables, pero sin mezclarlos con los criterios del Área Comercial.
Bajo un enfoque operacional es probable que las campañas operen de una forma
descrita por los siguientes puntos:
1.- El Área Comercial define parámetros comerciales para cada uno de los productos
(como la edad de los clientes que serán considerados, los montos mínimos y máximos
de las ofertas, el segmento socioeconómico y en general el perfil de los cliente-objetivo
desde un punto de vista comercial).
2.- Luego de definidos dichos parámetros, el Área Comercial solicita al Área de Riesgo
de Crédito la generación de una base de campañas con montos preaprobados.
3.- La labor del Área de Riesgo de Crédito es la de aplicar filtros sobre los clientes
potenciales de manera de descartar aquellos que no cumplen con ciertas políticas de
riesgo (tales como edad mayor a 70 años; poseer deuda morosa, vencida o castigada
en el registro de deudas de la SBIF; poseer cheques u otros documentos protestados
en el Boletín de Informes Comerciales; poseer un ingreso inferior a un valor
determinado; tener un Dicom score inferior a un mínimo; tener índices de
endeudamiento hipotecario y no hipotecario acordes con los límites máximos definidos,
etc.).
4.- El Área de Riesgo de Crédito calcula para cada cliente el monto que es posible
ofrecer en conformidad a las políticas de crédito. En dicho cálculo en ningún momento
se considera la pérdida esperada asociada al préstamo ofrecido a cada cliente, por
38
cuanto bajo un esquema operacional no existen formas de calcular la probabilidad de
pérdida de los préstamos dirigidos a cada cliente individual.
Como resultado de los cuatro puntos anteriores, y de la descoordinación existente entre
el Área Comercial y el Área de Riesgo de Crédito, las campañas bancarias se
realizarían sin segmentar a los clientes por criterios de riesgo y rentabilidad potencial.
Así, se entregaría una oferta estándar a todos los clientes que cumpliesen con los
criterios de riesgo definidos por el Área de Riesgo de Crédito.
Se ha mencionado que un Banco que realiza sus campañas con un enfoque
operacional no dispone de formas de estimar la probabilidad de pérdida de los
préstamos asociados a cada cliente. Ello obedece a que normalmente los Bancos
utilizan las provisiones para estimar dichas probabilidades. No obstante, las provisiones
se calculan a partir de las pérdidas esperadas de grupos en verdad muy grandes de
clientes, y en consecuencia constituyen malas estimaciones de las probabilidades de
pérdida vinculadas a cada cliente individual. De esa forma, un Banco que realiza sus
campañas con un enfoque operacional no puede calcular apropiadamente la pérdida
total esperada de una campaña, y en consecuencia tampoco puede calcular el nivel de
riesgo que asume al realizar una. Sin disponer de una forma de medir en forma certera
el nivel de riesgo de una campaña, malamente un Banco podrá aumentar los montos
ofrecidos a sus clientes sujeto todo ello a la satisfacción de un cierto nivel de riesgo.
Un enfoque operacional constituye una forma pensar, de enfrentar los problemas y de
tomar decisiones, y surge como consecuencia de años de experiencia en el manejo de
operaciones que deben ser resueltas en cuestión de minutos. Dicho enfoque ofrece una
visión bastante limitada de los problemas, al intentar encontrar soluciones inmediatas,
sin asignar tiempo a descubrir y resolver las causas de fondo.
Bajo un enfoque operacional existe una división del trabajo en la cual hay quienes
toman las decisiones y definen la estrategia, y quienes son simples entes ejecutores de
dichas decisiones y estrategias. En tal escenario un profesional que trate de realizar
datamining puede verse del todo incapacitado, si no se le hace partícipe de las
decisiones, ni de los motivos de dichas decisiones. La siguiente figura muestra como un
esquema de comunicación operacional, ideal para controlar el préstamo de dinero, se
vuelve inapropiado en un proyecto de datamining, al impedir a un profesional que
39
intenta desarrollar minería de datos el acceder a la información necesaria para dicha
labor:
Figura 2.18 Enfoque operacional de comunicación en un proyecto de datamining32
La labor comercial y de marketing es intrínsecamente no operacional, puesto que exige
conocer las necesidades de los clientes, pronosticar su comportamiento futuro y
detectar oportunidades de negocios a partir de señales. Todo ese conocimiento, valioso
en extremo, es difícil de ser transmitido de otra forma que mediante la interacción cara a
cara del profesional que trata de realizar datamining con los profesionales del Área
Comercial. No obstante, el esquema de comunicación del enfoque operacional impide
dicha interacción.
Al vivir en un ambiente de rápidos cambios tecnológicos la forma de resolver problemas
no necesariamente debe ser la misma que en el pasado. No obstante, la costumbre
adquirida a lo largo de años de tratar temas operacionales de una determinada forma
32 Fuente: elaboración propia
40
constituye una fuente importante de inercia. Es posible incluso argumentar que las
cosas deben hacerse de un modo particular porque la experiencia dice que deben
hacerse así, sin atender a mayor razonamiento ni análisis. El enfoque operacional
conduce a una cierta forma de arrogancia en materias de conocimiento. En efecto, al no
ser capaz de ver más allá de los problemas inmediatos, las causas inmediatas y las
soluciones inmediatas, existe la tendencia a creer que todo lo que se ve es todo lo que
es necesario saber. Dicha creencia de “saberlo todo” constituye una enorme barrera al
aprendizaje, a la innovación y al espíritu crítico, aptitudes que son todas fundamentales
para poder mejorar cualquier proceso de negocios.
El enfoque operacional nace del trabajo con procedimientos definidos, con estándares
de respuesta claros, como en una cadena de ensamblaje donde cada operario sabe
bien qué debe hacer y le corresponde hacer exactamente eso, ni un ápice más ni un
ápice menos. El enfoque operacional no se ajusta bien a procesos que viven una etapa
de grandes cambios, donde los estándares del pasado ya no son válidos, o dónde los
pasos a seguir no están claros y deben ser redefinidos.
Efectos anexos del enfoque operacional son el concentrar un número excesivo de
funciones en unas pocas personas, al crear incentivos para que algunos acumulen
conocimiento clave del negocio sin compartirlo con otros, y sin que nadie pueda
ejecutar dichas funciones salvo ellos.
El enfoque operacional, ideal para evitar fraudes y para controlar el riesgo de los
préstamos de dinero, puede impedir la realización de datamining y con ello puede
dificultar a un Banco crecer y realizar buenos negocios.
2.5.2 Orientación estratégica Bajo un enfoque estratégico debiera ser posible dirigir ofertas distintas a diferentes
segmentos de riesgo y rentabilidad potencial. Con una orientación estratégica también
debiera observarse coordinación y comunicación fluida entre el Área Comercial y el
Área de Riesgo de Crédito, por lo que ambas áreas debieran trabajar unidas en la
definición conjunta de una segmentación de los clientes en base a criterios de riesgo y
rentabilidad. Para implementar dicha segmentación sería necesario contar con formas
de estimar el nivel de riesgo de los clientes y su rentabilidad potencial. Dichas
estimaciones claramente no debieran basarse en definiciones arbitrarias de puntajes,
41
sino que en probabilidades de que los clientes se transformaran en el futuro en malos
en términos crediticios, o en personas sin gran rentabilidad potencial. Una
segmentación semejante utilizaría el conocimiento que el Banco posee sobre las
características de sus clientes en mejor forma que el enfoque operacional.
42
3 OBJETIVOS DE LA INVESTIGACIÓN
El objetivo principal de la investigación es dar un ejemplo de cómo mediante
herramientas de datamining puede elaborarse un plan para enfocar las campañas en un
Banco pequeño que carece de un datawarehouse, de manera de permitir a la institución
segmentar a sus clientes y crecer.
Se pretende mostrar como a partir de bases de datos operacionales de un Banco es
posible construir modelos predictivos del comportamiento de riesgo de los clientes y de
su rentabilidad potencial, y cómo dichos modelos pueden calcular puntajes de riesgo y
de rentabilidad para los distintos clientes. Se desea mostrar cómo es posible a partir de
dichos puntajes clasificar a los clientes en distintos segmentos de riesgo y rentabilidad y
cómo es posible enfocar las campañas bancarias dirigiendo ofertas diferenciadas a
cada uno de aquellos segmentos. Del mismo modo, se desea ilustrar como mediante
los modelos predictivos antes mencionados un Banco puede crecer satisfaciendo un
nivel mínimo de riesgo.
Por lo tanto, objetivos secundarios de la investigación son los siguientes:
Objetivo s1: Mostrar como a partir de bases de datos operacionales de un Banco es
posible construir un modelo predictivo del riesgo crediticio de sus clientes, el cual debe
calcular un puntaje de riesgo para cada individuo.
Objetivo s2: Mostrar como a partir de bases de datos operacionales de un Banco es
posible construir un modelo predictivo de la rentabilidad potencial de sus clientes, el
cual debe calcular un puntaje de rentabilidad para cada individuo.
Objetivo s3: Mostrar cómo es posible clasificar a los clientes en distintos segmentos de
riesgo y rentabilidad potencial, y cómo es posible dirigir una oferta diferenciada para
cada uno de esos segmentos.
Objetivo s4: Mostrar cómo un Banco puede crecer satisfaciendo un nivel mínimo de
riesgo, utilizando para ello puntajes calculados por modelos predictivos de riesgo de
crédito y de rentabilidad potencial de los clientes.
El objetivo del presente trabajo no consiste en elaborar modelos predictivos específicos
de la rentabilidad de los clientes ni de su desempeño crediticio. El objetivo, en cambio,
se centra en la descripción genérica de cómo es posible elaborar un plan para que un
43
Banco pequeño construya e implemente modelos de datamining que le ayuden a
enfocarse en nichos de mercado. Por ello, las indicaciones que se entregan son
genéricas, puramente conceptuales, no están dirigidas a ningún Banco específico y no
se basan en ningún conjunto de datos de ningún grupo de personas.
44
4 DEFINICIONES PREVIAS
Dado que el tema de esta tesis gira en torno a la utilización de datamining en las
campañas bancarias y a un plan para construir modelos, es preciso primero que nada
dar una definición de los términos datamining y modelo.
4.1 El término “datamining” o “minería de datos”
A continuación se entregan algunas definiciones tomadas de la literatura:
“Data Mining – (1) The process of utilizing the results of data exploration to adjust or
enhance business strategies. It builds on the patterns, trends, and exceptions found
through data exploration to support the business. It is also known as data harvesting. (2)
A technique using software tools geared for the user who typically does not know
exactly what he’s searching for, but is looking for particular patterns or trends. Data
mining is the process of sifting through large amounts of data to produce data content
relationships. This is also known as data surfing”33.
“Data Mining, as we use the term, is the exploration and analysis, by automatic or
semiautomatic means, of large quantities of data in order to discover meaningful
patterns and rules”34.
“Using advanced techniques in mathematics and artificial intelligence, data mining
uncovers complex patterns or models in data. Those models are then used to help solve
business problems that come up in direct marketing, credit-risk evaluation, fraud
detection and other areas”35.
“Data mining uses sophisticated statistical analysis and modeling techniques to uncover
patterns and relationships hidden in organizational databases – patterns that ordinary
methods might miss”36.
33 Fuente: Data Warehousing Technology Glossary, Applied Technology Group, 1997 34 Fuente: BERRY, M. J. A., LINOFF, G., Data Mining Techniques for Marketing, Sales, and Customer Support, John Wiley & Sons, Inc., 1997 35 Fuente: WILSON, L., Canadian Bank Mines for Gold, Computerworld, 1997 36 Fuente: Introduction to Data Mining and Knowledge Discovery, Two Cross Corporation, 1998
45
“Data Mining [is] the process of efficient discovery of nonobvious valuable information
from a large collection of data”37.
El común denominador en todas las definiciones es el descubrimiento de relaciones
útiles en grandes conjuntos de datos. La definición del concepto de datamining que se
utilizará en este documento es la de un conjunto de técnicas aplicadas al proceso de
extracción y presentación de conocimiento que yace implícito en grandes conjuntos de
datos, que es desconocido y útil en términos de negocios, y que permite predecir en
forma automatizada el comportamiento de los clientes.
En una de las referencias se ha utilizado el término “modelo” en el sentido de un
complejo patrón de relaciones presentes en los datos, al tiempo que se ha mencionado
que el propósito del datamining sería descubrir tales patrones. En otra definición se ha
mencionado que para descubrir dichos patrones se utilizan “técnicas de modelamiento”.
A continuación se entregarán definiciones de los mencionados conceptos de “modelo” y
de “técnicas de modelamiento”.
4.2 El término “modelo”
Se entiende por modelo de datamining, o simplemente por modelo, a un algoritmo
construido a partir de una muestra de datos y que permite realizar estimaciones o
predicciones sobre otros datos, distintos de aquellos de la muestra antes mencionada,
pero similares. Un modelo, como todo algoritmo, puede por lo tanto ser implementado
mediante un sistema informático o un programa computacional. No obstante, un modelo
puede también ser visto como una función matemática que describe la relación entre un
conjunto de campos o variables presentes en los datos. Las estimaciones o
predicciones sobre otros datos son obtenidas mediante la mencionada función. Sin
embargo, dado que una función matemática no siempre puede ser expresada en forma
explícita, es más apropiado concebir a un modelo como el algoritmo que permite
calcular dicha función. Mediante dicho algoritmo un modelo permite representar
cualquier complejo patrón de relaciones presentes en los datos. En el presente informe
los modelos tendrán por propósito predecir si un cliente bueno se transformará en malo
en un horizonte determinado de tiempo, y si un cliente en el futuro se transformará en
alguien con sin rentabilidad potencial o no. 37 Fuente: BERSON, A., SMITH S. J., Data Warehousing, Data Mining, and OLAP, McGraw-Hill, 1997
46
4.3 Definición del concepto de técnica de modelamiento
Se entiende por técnica de modelamiento a una forma particular de especificar un
modelo, incluyendo el conjunto de supuestos asociados a dicha forma de
especificación. Así, algunas técnicas de modelamiento corresponden a una ecuación
matemática entre un conjunto de variables, más un conjunto de supuestos sobre dichas
variables. Tal es el caso de técnicas de modelamiento como la regresión lineal y la
regresión logística. Otras técnicas de modelamiento, en cambio, corresponden más bien
a algoritmos que calculan un resultado a partir de los valores de un conjunto de
variables. Tal es el caso de técnicas de modelamiento como las redes neuronales y los
árboles de decisión. Las redes neuronales obtienen dicho resultado a partir de
funciones no lineales, ya sea escalonadas o sigmoidales, aplicadas sobre los valores de
las variables. Los árboles de decisión obtienen el resultado mediante funciones lógicas
del tipo “if … then … else”.
Clementine permite construir modelos con una amplia gama de técnicas de
modelamiento, incluyendo las mencionadas. La sección 10.1 describe las tres técnicas
de modelamiento que más se ajustan al problema de enfocar las campañas bancarias
(regresión logística, redes neuronales y árboles de decisión).
4.4 Definición del concepto de proyecto de datamining
Un proyecto de datamining corresponde al conjunto de actividades concretas que se
realizan por parte de una institución determinada con el fin de elaborar modelos que
pretenden descubrir patrones en un conjunto de datos específicos. Un proyecto de
datamining para enfocar las campañas bancarias, por lo tanto, debe ser llevado a cabo
por un Banco, debe realizarse sobre el conjunto de datos específicos de los clientes de
ese Banco, y debe constar de actividades que efectivamente tengan lugar dentro de las
labores de dicho Banco. Un proyecto de datamining, por lo tanto, es algo real, tangible
en términos de plazos incurridos, costos en dinero involucrados, recursos
computacionales específicos utilizados y personas que han participado o participan en
él. A diferencia de un plan de datamining, un proyecto de datamining no es una simple
elaboración conceptual, puesto que se refiere a algo que ha ocurrido, o que tiene lugar
efectivamente en la historia cotidiana de una empresa.
47
4.5 Definición del concepto de plan de datamining
En contraposición al concepto dado previamente, un plan de datamining es un conjunto
de actividades conceptuales diseñadas para guiar un proyecto de datamining. Si bien
un plan de datamining debe contemplar plazos, presupuesto y personas asignadas,
dichos elementos no corresponden a algo que tiene o ha tenido lugar, sino que
simplemente son estimaciones de lo que debiera ocurrir en un proyecto de datamining.
Mientras un proyecto de datamining tiene vida en la historia real, cotidiana de una
empresa, un plan de datamining no existe más que en el papel.
El presente documento describe cómo construir un plan de datamining para enfocar las
campañas de un Banco en los productos de créditos de consumo, tarjetas y líneas de
crédito. Las indicaciones de este documento pueden traducirse en un plan de
datamining concreto para un Banco específico, no obstante para ello es preciso definir
plazos, presupuesto, personas y recursos a utilizar. La implementación de dicho plan
puede a su vez traducirse en un proyecto de datamining, mediante la ejecución de cada
una de las actividades establecidas en el plan.
48
5 HIPÓTESIS DE TRABAJO
Como se ha mencionado en el capítulo que versa sobre los objetivos de esta
investigación, el presente documento elabora un plan de datamining que no está
dirigido a ningún Banco específico y que, por lo tanto, no se basa en ningún conjunto de
datos de ningún grupo de personas. En ausencia de datos específicos sobre los cuales
basarse, el presente trabajo se fundamenta en un conjunto de supuestos, los cuales se
detallan en este capítulo. Es preciso considerar, por ende, que las conclusiones de esta
investigación serán válidas sólo en la medida que se cumplan dichos supuestos.
5.1 Supuestos sobre disponibilidad de información
El plan de datamining planteado supone que el Banco no posee un datawarehouse y no
puede por lo tanto disponer de información histórica masiva sobre sus clientes que se
remonte a varios años. De esa forma los modelos de datamining sólo pueden
alimentarse de bases de datos operacionales y de sus respaldos en cintas. Es por ello
que la principal hipótesis de trabajo que se emplea en la presente investigación consiste
en dar por hecho el que existe un conjunto de bases operacionales que cualquier Banco
debe poseer y que proveen de información necesaria y suficiente para realizar los
estudios de datamining planteados. El capítulo 8 describe la información que contienen
dichas bases operacionales, a las cual se denomina “fuentes de datos” y que
corresponden a las siguientes: “Informe de la SBIF”, “Informe D01 enviado a la SBIF”,
“Saldos el día de envío del D01”, “Productos”, “Saldos actuales”, “Rentas de clientes”,
“Características demográficas”, “Factores estimados de carga” y finalmente “Ingresos
contables por cliente”. Todos esas bases de datos proveen de información actualizada
sobre las operaciones y los clientes del Banco, a excepción de la fuente de datos
“Saldos el día de envío del D01”, la cual corresponde a una foto de las bases de datos
operacionales el día de envío del informe D01 a la SBIF hace dos meses.
A parte de la información provista por todas las bases operacionales antes
mencionadas, y que contiene todas las variables necesarias para predecir en el
momento el comportamiento de riesgo y de rentabilidad futuros de los clientes, es
preciso también poseer la misma información pero de un periodo de un año atrás. Ello
es necesario no con el fin de utilizar los modelos predictivos, sino que con el fin de
elaborarlos. A tal respecto, una hipótesis de trabajo consiste en dar por hecho el que es
49
posible rescatar los respaldos de cintas con la información de un año atrás de todas las
fuentes de datos.
Los supuestos sobre disponibilidad de información son utilizados en el capítulo 9, al
momento de describir la obtención del conjunto de datos necesario para construir
modelos de datamining de riesgo y rentabilidad (output 3z.1). Dichos supuestos son
utilizados también en el capítulo 10, al derivar la especificación de los modelos
propuestos y comentar el conjunto de variables empleadas en ellos (output 4c.3).
5.2 Supuestos tecnológicos
No se realizan supuestos con respecto a los proveedores de las bases de datos
operacionales, puesto que la herramienta de datamining usada en esta investigación
(Clementine) se ajusta por igual a una amplia gama de bases de datos (Sybase, Oracle,
DB2, SQL Server, Access, Fox Pro, bases de texto, bases de datos en COBOL, etc.),
las cuales pueden residir en una amplia variedad de plataformas (Windows NT, Unix,
Linux, AS400, etc.).
Un supuesto importante, en cambio, se realiza con respecto a la disponibilidad de
Clementine en la Institución financiera, lo cual significa un costo de unos US$ 75.000
por licencia.
5.3 Supuestos sobre el marco regulatorio
Se supone que existe un conjunto mínimo de bases de datos que cualquier banco debe
forzosamente poseer y cuya utilización no viola el secreto bancario y está en
conformidad con las leyes y reglamentos que rigen a la Banca. Muy en particular se
supone que la base de datos con las deudas consolidadas de 4.500.000 de chilenos
que elabora mensualmente la SBIF puede ser usada por los Bancos sin necesidad de
pedir la autorización a ninguna persona (dicha base de datos corresponde a la fuente
de datos denominada “Informe de la SBIF”, descrita en el capítulo 8).
Se supone que no existe una legislación antidiscriminación que rija el otorgamiento de
crédito, y que impida basar la toma de decisiones en características de los clientes tales
como el sexo, la edad, la profesión, la comuna de residencia, u otras. A tal respecto es
preciso señalar que la legislación americana contempla leyes antidiscriminación de ese
tipo, por lo que en los Estados Unidos los modelos predictivos de comportamiento de
50
crédito no pueden incluir características como el sexo o el grupo étnico. Se supondrá no
sólo que dicha legislación no existe en Chile, sino que tampoco existirá en el mediano
plazo.
5.4 Supuestos de negocios
En esta investigación se supondrá que un Banco pequeño en el ambiente competitivo
actual vigente en Chile tiene sólo dos alternativas para sobrevivir: enfocarse en nichos
de mercado específicos o crecer. Dicho supuesto se fundamenta, en primer término, en
el hecho de que el mercado bancario chileno es una industria con fuertes economías de
escala, como ha quedado demostrado en el capítulo 2 al comparar los márgenes de
intereses, gastos operacionales, tasas de crecimiento y rentabilidades de los Bancos
grandes, medianos y pequeños. En segundo lugar, dicho supuesto se fundamenta en la
persistente tendencia a la baja que muestran los márgenes de intereses de los Bancos
grandes y medianos, unido todo ello al hecho de que la mayoría de los Bancos
pequeños cuentan con márgenes de intereses por debajo de aquellos de sus
competidores. Ello puede ser interpretado como una disminución generalizada de
precios por parte de los Bancos grandes y medianos en un ambiente en donde la
mayoría de los Bancos pequeños compiten por precio. Claramente no es posible para
los Bancos pequeños competir por precio con instituciones que poseen mayores
economías de escala, y por lo tanto surgen dos posibilidades para ellos: adquirir
mayores economías de escala mediante crecimiento o aumentar los precios mediante
un servicio diferenciado dirigido a nichos de mercado específicos. En tercer lugar, el
supuesto de que un Banco pequeño tenga como únicas alternativas para sobrevivir el
enfocarse en nichos o crecer encuentra sustento en la observación de que las
instituciones focalizadas en clientes preferenciales puedan mantener márgenes de
intereses consistentemente por sobre los del resto de la industria (como es el caso del
Citibank y del BankBoston).
Los supuestos antes descritos son utilizados en el capítulo 7, al momento de definir los
objetivos de negocios del proyecto de datamining (output 1a.2), y que son precisamente
focalizarse en nichos de mercado y crecer sujeto a un nivel mínimo de riesgo. A la luz
de los supuestos realizados, los objetivos de negocios planteados para el proyecto
adquieren sentido estratégico y no son simplemente metas arbitrarias.
51
Por otro lado, un supuesto de negocios adicional lo constituye el que el presente
estudio se enfoque sólo en los clientes deudores del Banco en algún producto y sólo en
las personas naturales sin giro. Del mismo modo, se da por hecho que las campañas a
las cuales se aplique el plan descrito en este documento no contemplarán créditos
destinados a prepagar otras deudas. No se considerarán, en consecuencia, ofertas
para los productos denominados “créditos de reciclaje” ni “créditos grúa”, y que están
destinados respectivamente a prepagar créditos de la propia institución o de otras
instituciones. Por lo tanto, como se ha mencionado en la sección 2.2, el estudio se
concentrará sólo en los clientes con capacidad para adquirir deudas adicionales a
aquellas que ya poseen. Estos supuestos son utilizados en el capítulo 7, al momento de
definir los conceptos de cliente “malo” desde un punto de vista crediticio y de cliente “sin
gran rentabilidad potencial”. Muy en particular, el hecho de dejar fuera de las campañas
a las personas sin capacidad de adquirir nuevas deudas se usa para clasificar como
“sin rentabilidad potencial” a ese tipo de clientes.
5.5 Supuestos operacionales
Se supone que el presente plan de datamining se elabora para un Banco pequeño que
realiza sus campañas con un enfoque operacional similar al descrito en el capítulo 2. Se
supondrá que el Área Comercial y el Área de Riesgo de Crédito ejecutan su labor
descoordinadamente: definiendo la primera su propio plan para orientar las campañas,
pero sin tener presente consideraciones de riesgo, y estableciendo la segunda criterios
de riesgo aceptables, pero sin mezclarlos con aspectos comerciales. En consecuencia
se supondrá que las campañas bancarias se realizan entregando una oferta estándar a
todos los clientes que cumplen con ciertos criterios de riesgo, sin segmentar por riesgo
y rentabilidad potencial.
Se supondrá también que bajo un esquema operacional no existen modelos capaces de
calcular la probabilidad de pérdida de los préstamos dirigidos a cada cliente, o en el
mejor de los casos dicha probabilidad se estima a partir de las provisiones asignadas a
cada cartera de clientes. No obstante, dado que las provisiones se calculan a partir de
las pérdidas estimadas de grandes carteras de clientes, ellas no constituyen, por lo
tanto, una buena estimación de la probabilidad de pérdida asociada a cada cliente
individual. En consecuencia, las provisiones no permiten calcular en forma precisa la
52
probabilidad de pérdida asociada al monto total ofrecido en una campaña. En ausencia
de un modelo capaz de medir adecuadamente el nivel de riesgo de una campaña por la
vía de estimar la pérdida asociada al monto ofrecido en ésta, un Banco no podrá
aumentar los montos ofrecidos sujeto todo ello a la satisfacción de un cierto nivel de
riesgo.
En la sección 11.1 se mostrará como los supuestos operacionales antes descritos
hacen posible concluir que el plan de datamining planteado en este documento permite
efectivamente que un Banco pueda crecer. Ello se debe a que un Banco al realizar sus
campañas con un enfoque operacional limita sus posibilidades de crecimiento. Como se
verá en la misma sección 11.1, el plan de datamining planteado en este documento
permite a un Banco pequeño superar esas limitaciones.
53
6 METODOLOGÍA DE TRABAJO
Un proyecto de datamining, como todo proyecto, requiere de la aplicación de una cierta
metodología estructurada para obtener resultados exitosos. La utilización de una
metodología facilita la planificación y dirección del proyecto, permitiendo realizar un
mejor seguimiento del mismo. A continuación se describen las principales metodologías
que se pueden emplear en la elaboración del presente plan para enfocar las campañas
bancarias, mencionando sus fortalezas y debilidades, para luego detallar las razones
por las que se escogió CRISP-DM en esta investigación.
6.1 Metodologías de datamining
Las principales metodologías de planificación de proyectos de datamining son SEMMA
y CRISP-DM, y se basan en la división del proyecto de datamining en fases. Son en
cierta forma similares al modelo espiral del ciclo de vida de desarrollo de software.
6.1.1 Metodología SEMMA Es una metodología de datamining desarrollada por SAS. Su nombre corresponde a las
iniciales de sus cinco fases principales (Sample, Explore, Modify, Model, Assess), las
cuales se detallan a continuación:
Fase de muestreo: La primera fase extrae una muestra representativa de la población
que se pretende estudiar y sobre la cual se realizará el análisis. La representatividad de
la muestra es fundamental en este método, ya que de no cumplirse invalida todos los
resultados del modelo de datamining. La metodología SEMMA exige calcular el nivel de
confianza de cada muestra considerada en el estudio de datamining.
Fase de exploración de los datos: luego de escoger las muestras representativas en
esta fase se debe proceder a una exploración de la información con el propósito de
simplificar al máximo el problema. La simplificación se consigue mediante herramientas
gráficas de despliegue de los datos, y mediante técnicas estadísticas que establecen
las correlaciones entre las variables. De esa labor de simplificación se espera optimizar
la eficiencia del modelo de datamining que se construya, al incluir en él sólo las
variables que son realmente explicativas.
54
Fase de manipulación de los datos: luego de finalizada la exploración de los datos se
procede a darles el formato adecuado para poder alimentar el modelo que se desarrolle
en la fase siguiente.
Fase de modelado: esta fase se alimenta de las variables explicativas definidas y
formateadas en las fases anteriores, y persigue encontrar una relación entre dichas
variables y aquellas que se espera predecir. Mediante esa relación se espera realizar
inferencias que tengan un cierto nivel de confianza. Las técnicas utilizadas para
establecer la relación entre las variables incluyen métodos estadísticos tradicionales
tales como el análisis discriminante, métodos de agrupamiento y análisis de regresión,
como así también métodos de inteligencia artificial como las redes neuronales, las
técnicas adaptativas, la lógica difusa, los árboles de decisión o las reglas de asociación,
entre otras.
Fase de evaluación de los resultados: en esta fase se evalúa la validez de los
resultados obtenidos en la fase anterior. Para ello se utilizan tests de bondad de ajuste,
al igual que otros métodos estadísticos que contrastan los resultados obtenidos en la
muestra usada en las fases anteriores con los resultados que se obtienen luego con
otras muestras distintas.
6.1.2 Metodología CRISP-DM Esta metodología contiene un conjunto de actividades seleccionadas en base a la
experiencia de ensayo y error recogida a través de numerosos proyectos por
profesionales de DaimlerChrysler, SPSS y NCR. Dichas actividades están ordenadas
en primer lugar horizontalmente en seis fases sucesivas que recorren toda la vida del
proyecto de datamining, desde la definición de los objetivos del negocio que se
pretende obtener hasta la vigilancia y el mantenimiento del modelo que se proponga e
implemente. Cada una de esas fases se ha subdividido a su vez en tareas ordenadas
en un esquema jerárquico, desde un mayor a un menor nivel de detalle.
Las tareas generales se componen a su vez de actividades específicas, y de un
conjunto de resultados concretos. La metodología CRISP-DM constituye, por lo tanto,
un mapa de ruta que permite determinar qué actividades desarrollar en qué etapa de
manera de alcanzar los objetivos finales del proyecto. A continuación se entrega una
55
figura con las fases de esta metodología y sus correspondientes tareas, para luego
describirlas en mayor detalle.
Figura 6.1 Fases y Tareas del Modelo CRISP-DM38
Fase de comprensión del negocio: se centra en la comprensión de los objetivos del
proyecto de datamining desde un punto de vista de negocios. Esta fase es equivalente,
por lo tanto, a una fase de análisis de requerimientos de un proyecto de desarrollo de
software, y es importante, puesto que el cliente puede no tener claro qué es lo que
quiere. Las tareas a realizar en esta fase incluyen determinar los objetivos de negocios,
evaluar la situación del proyecto en términos de recursos, restricciones y suposiciones,
38 Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
56
determinar objetivos de datamining que traduzcan a criterios técnicos los objetivos de
negocios, y finalmente producir el plan del proyecto.
Fase de comprensión de los datos: comprende la recolección inicial de datos,
identificando la calidad de éstos y estableciendo las relaciones más evidentes entre
ellos. Incluye la tarea de recolección de datos iniciales, en la cual deben describirse los
datos en términos de número de registros, número de campos por registro y significado
de cada campo. Incluye también la tarea de descripción de los datos en términos de
tipo, distribución, tablas de frecuencia y estadígrafos. Tareas adicionales de esta fase
son la exploración de los datos mediante gráficos y tablas, y la verificación de la calidad
de los mismos. Los chequeos sobre la calidad de los datos deben efectuarse para
asegurar la consistencia de información proveniente de bases de datos distintas,
proporcionadas por entidades distintas y con fechas de proceso distintas.
Fase de preparación de los datos: en esta fase debe construirse una base de datos, la
cual debe contener todas las características consideradas candidatas para estimar el
valor de una variable que se espera predecir. Esta fase incluye la tarea de selección de
los datos a los que se va a aplicar la técnica de modelamiento, la tarea de limpieza de
los mismos de manera de alcanzar el nivel de calidad requerido por las técnicas de
datamining que se seleccionen, la tarea de construir datos adicionales, la tarea de
integrar diferentes bases de datos, y la tarea de formatear los datos. La fase de
preparación de los datos debe entregar datos que estén en un formato adecuado para
la técnica de modelamiento que se empleará en la fase siguiente. Por ello, la fase de
modelamiento puede requerir volver a la fase de preparación de datos una o más
veces.
Fase de modelamiento: esta es la fase medular del proyecto de datamining y consiste
en descubrir una relación entre un conjunto de variables y una variable que se espera
predecir. Contempla la selección de una técnica de modelamiento, entre las cuales
pueden mencionarse las redes de Kohonen o modelos K-Mean para clustering, árboles
C5 o árboles C&R para segmentación, redes neuronales o regresión logística para
predicción, inducción de reglas generalizada para descubrimiento de patrones y análisis
de factores para reducir la complejidad de los datos, entre otras. Entre sus tareas se
encuentran la selección de la técnica de modelamiento, la generación del diseño de las
57
pruebas del modelo, la construcción del mismo, y finalmente, la evaluación técnica a la
que debe someterse el modelo a través de criterios estadísticos.
Fase de evaluación de negocios: en la fase de modelamiento se evalúa el modelo en
forma técnica en relación a factores tales como su precisión y generalidad. En esta
fase, en cambio, debe evaluarse el nivel de satisfacción de los objetivos de negocios
perseguidos por el proyecto de datamining. Incluye la tarea de evaluar los resultados, la
tarea de revisar el proceso de datamining y finalmente la tarea de determinar los
próximos pasos a seguir (momento en el que debe decidirse si debe darse por
terminado el proyecto de datamining y entrar a la fase de despliegue, si deben iniciarse
iteraciones adicionales, o si debe iniciarse un nuevo proyecto de minería de datos).
Fase de despliegue del modelo: en esta fase deberá definirse una estrategia para
implementar los resultados de la minería de datos. Incluye las tareas de planificar el
despliegue del modelo, de planificar el monitoreo y la mantención de los modelos, de
generar el reporte final del proyecto, y de revisar el proyecto en relación a evaluar lo
que ocurrió correctamente y lo que necesita ser mejorado.
6.2 Razones para utilizar CRISP-DM
La metodología SEMMA se centra más en las características estadísticas del desarrollo
de un modelo de datamining, mientras que la metodología CRISP-DM posee una visión
más amplia respecto a los objetivos de negocios del proyecto. Para aquellos que han
trabajado en proyectos informáticos, la metodología CRISP-DM parecerá más familiar y
con mayores posibilidades de éxito. De hecho, en un proyecto informático es norma
básica de análisis estructurado el realizar una fase de análisis de requerimientos que
tenga en consideración los objetivos de negocio que se pretenden alcanzar. La omisión
de una buena fase de análisis de requerimientos puede provocar que se desarrollen
sistemas de información excelentes en los aspectos técnicos, pero que no resuelvan los
problemas reales de los usuarios. En ese sentido la metodología SEMMA parece haber
sido desarrollada como un agregado de un paquete de software estadístico SAS, en
cambio la metodología CRISP-DM, por no estar vinculada a ninguna herramienta
específica, parece haber sido diseñada con el real propósito de ayudar a guiar la labor
de datamining. Esta diferencia surge desde la primera fase del proyecto de datamining,
puesto que la metodología SEMMA comienza realizando un muestreo de datos,
58
mientras que la metodología CRISP-DM se inicia efectuando un análisis del problema
desde un punto de vista de negocios. La metodología CRISP-DM es más próxima a una
metodología de gestión de proyectos, pudiendo por ello integrarse en mejor forma a
proyectos cuyo ámbito dentro de la empresa sea más amplio que el simple manejo
estadístico.
La metodología SEMMA está muy ligada a los productos SAS, donde se encuentra
implementada, en tanto que la metodología CRISP-DM ha sido diseñada como una
metodología no vinculada a ningún proveedor de software, siendo su distribución
gratuita, por lo que es posible utilizarla con múltiples herramientas de business
intelligence, entre ellas Clementine de SPSS.
A todas las razones dadas anteriormente para justificar la elección de CRISP-DM debe
agregarse que es uno de los estándares más ampliamente utilizados en minería de
datos hoy en día.
59
7 PRIMERA FASE DEL PLAN: COMPRENSIÓN DEL NEGOCIO
El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de comprensión del negocio de la metodología CRISP-DM, junto a los resultados o
outputs que deben obtenerse de la ejecución de cada una de ellas:
Figura 7.1 Tareas y outputs de la fase de comprensión del negocio, primera fase del proyecto de datamining según metodología CRISP-DM39
Pasar por alto esta fase traería como consecuencia el que se invertiría gran esfuerzo y
tiempo en responder las preguntas de negocios equivocadas. Algunos ejemplos de
39 Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
60
posibles interrogantes de negocios que pueden motivar un estudio de datamining
referido a las campañas bancarias son las siguientes:
- ¿Es posible focalizar las campañas en determinados segmentos en términos de
riesgo de crédito y de rentabilidad potencial?.
- ¿Cómo es posible crecer en los segmentos de mercado ya definidos?.
- ¿Es posible determinar el máximo de deuda que pueden contraer los clientes de un
Banco sin sobrepasar un nivel aceptable de riesgo de crédito?.
Las preguntas anteriores definen un problema de negocios, susceptible de ser resuelto
de diversas formas, al entregar distintas respuestas a las interrogantes planteadas. Los
supuestos operacionales, dados en el capítulo 5, dan por hecho que el Banco al cual se
aplica el presente plan responderá a las preguntas anteriores con un rotundo “no es
posible con el enfoque operacional vigente”. Sin embargo, mediante la elaboración de
un plan de datamining es posible dar una solución distinta al problema, al entregar
mecanismos para responder afirmativamente a las preguntas antes presentadas. El
presente documento se aboca precisamente a dar indicaciones sobre como construir un
plan de datamining.
A continuación se describen las tareas de esta fase y sus resultados, entregando
consejos y recomendaciones que han sido tomados conjuntamente de la experiencia y
reflexión del autor de este documento y de los conceptos presentados en la guía de
usuario CRISP-DM40. Adicionalmente, se desarrollan en este capítulo con particular
detalle aquellos resultados que son más importantes para un plan de datamining
dirigido a las campañas bancarias y que corresponden a aspectos específicos de éstas.
Tal es el caso del background del proyecto de datamining (output 1a.1), de los objetivos
de negocios que debieran perseguirse con dicho proyecto (output 1a.2), de los criterios
de éxito de negocios (output 1a.3), de los principales riesgos que podrían amenazar
semejante proyecto (output 1b.3), de la terminología más relevante para el mismo
(output 1b.4), de sus costos y beneficios (output 1b.5), de los objetivos de datamining
(output 1c.1) y de los criterios de éxito de datamining asociados (output 1c.2). Por otro
lado, dado que el plan de datamining que se elabora en el presente documento es 40 Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
61
genérico y no se basa en el caso de ningún Banco específico, sólo es posible dar una
descripción también conceptual y genérica de los resultados que se refieren al
inventario de recursos del proyecto (output 1b.1), a los requisitos, supuestos y
restricciones del mismo (output 1b.2), al plan detallado del proyecto (output 1d.1) y a la
evaluación inicial de las herramientas y técnicas disponibles (output 1d.2).
7.1 Determinar los objetivos de negocios (tarea 1a)
Esta tarea corresponde a una labor de comprensión de qué es lo que el cliente del
proyecto de datamining quiere conseguir desde una perspectiva de negocios. Por
clientes de datamining se hace referencia a aquellos altos ejecutivos bancarios que
están interesados en que el proyecto de minería de datos sirva para algo (ya sea
aumentar la rentabilidad, la tasa de crecimiento del Banco o cualquier objetivo que se
espere conseguir a través del proyecto). Esta fase es equivalente, por lo tanto, a la
etapa de análisis de requerimientos de un proyecto de desarrollo de un sistema de
información y es importante, puesto que el cliente puede no tener claro qué es lo que
quiere.
Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:
7.1.1 Background (output 1a.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado debe
documentar el conocimiento que se posea sobre la situación de negocios de la
organización al comienzo del proyecto de datamining. Entre las actividades que es
preciso desarrollar para obtener este output se encuentran las siguientes:
- Conseguir o elaborar diagramas organizacionales que permitan identificar las
principales divisiones, departamentos y equipos de trabajo que se verían de algún
modo vinculados al proyecto de datamining. Es preciso recolectar y actualizar dichos
diagramas con los nombres y las dependencias jerárquicas de los responsables de
cada una de las unidades. Cabe señalar que en un ambiente de negocios en
permanente cambio los diagramas organizacionales disponibles en una empresa
frecuentemente se encontrarán desactualizados.
- Identificar las personas claves en el negocio y sus roles.
62
- Identificar un auspiciador interno (un auspiciador financiero y usuario principal).
- Identificar las unidades de negocios que se verían impactadas por el proyecto de
datamining (por ejemplo: Marketing, Área Comercial, Área de Riesgo de Crédito, Área
de Operaciones).
- Identificar el área funcional del problema.
- Describir el problema en términos generales. En este caso, el problema consiste en
orientar las campañas en tarjetas, líneas y créditos, de manera tal de permitir a un
Banco pequeño focalizarse en nichos de mercado y crecer.
- Determinar si existe conocimiento dentro de las unidades de negocios respecto al
hecho de que se va a realizar un proyecto de datamining, y si es necesario publicitar la
minería de datos como una tecnología clave.
- Clarificar los prerrequisitos del proyecto.
- Identificar grupos objetivo para presentar el resultado del proyecto (por ejemplo,
determinar si se espera un reporte escrito para la alta gerencia o un sistema en
ejecución que sea utilizado por usuarios finales).
- Identificar las necesidades del usuario y sus expectativas.
- Describir la solución que se emplee para resolver el problema. A tal respecto, en el
capítulo 5 se ha mencionado que se supone que el Banco realiza sus campañas con un
enfoque operacional. Como se ha señalado en el mismo capítulo, bajo tal enfoque las
campañas se orientan a los clientes sin distinguir segmentos de riesgo y rentabilidad
potencial, y sin poder medir adecuadamente las pérdidas esperadas.
- Describir las ventajas y desventajas de la solución al problema que esté siendo
utilizada. En este punto es preciso mencionar que el Banco, al orientar sus campañas
con un enfoque operacional, asumirá desventajas que incluirán el desaprovechar
oportunidades de negocios e incurrir en operaciones no rentables. No obstante, la
desventaja más grave del enfoque operacional la constituye el que no permite disponer
de un modelo capaz de medir adecuadamente el nivel de riesgo de una campaña (por
la vía de estimar la pérdida asociada al monto ofrecido en ésta). Con dicha falencia un
Banco no podrá aumentar los montos ofrecidos sujeto todo ello a la satisfacción de un
cierto nivel de riesgo, y en consecuencia limitará sus posibilidades de crecimiento.
63
De todas las actividades antes mencionadas, la selección de un patrocinador es
fundamental. Si bien de acuerdo a la metodología CRISP-DM el éxito de un proyecto de
datamining dependerá de que se satisfagan objetivos de negocios y sus
correspondientes criterios de éxito, ello puede ser en gran parte secundario. En efecto,
si bien un Banco se beneficia como un todo al alcanzar determinados objetivos de
negocios, ello puede ser total y absolutamente indiferente para el patrocinador de un
proyecto de datamining. La pregunta no debiera ser tanto cómo un proyecto puede
beneficiar a la empresa, sino que cómo puede beneficiar los intereses de su
patrocinador. Un proyecto puede ser excelente en términos de alcanzar objetivos de
negocios de un Banco, no obstante sin un buen patrocinador puede estar de cualquier
modo condenado al fracaso. Los Bancos son instituciones enormes, y el beneficio
general para la institución se traducirá en éxito para un proyecto sólo en la medida que
los objetivos de negocios que éste permita alcanzar se traduzcan en un beneficio
tangible para el patrocinador del proyecto y sus intereses.
7.1.2 Objetivos de negocios: focalizarse en nichos y crecer sujeto a un nivel mínimo de riesgo (output 1a.2) Este resultado es el segundo de la tarea de determinar los objetivos de negocios (tarea
1a). Debe describir el objetivo principal del cliente desde una perspectiva de negocios.
Entre las actividades que es preciso desarrollar para obtener este output se encuentran:
- Describir informalmente el problema que se intenta resolver a través del proyecto de
datamining. A este respecto puede decirse que el problema consiste, en virtud de los
supuestos de negocios realizados en el capítulo 5, en que un Banco pequeño se ve
enfrentado a dos únicas posibilidades para competir: focalizarse en nichos de mercado
o crecer.
- Especificar en forma tan precisa como sea posible todas las interrogantes de negocios
que se pretenden responder mediante el proyecto de datamining. Dichas interrogantes
son aquellas planteadas a inicios del capítulo, las cuales pueden expresarse como los
objetivos de negocios de focalizarse en nichos de mercado y crecer sujeto a un nivel
mínimo de riesgo.
- Especificar cualquier otro requerimiento de negocios que se espere satisfacer
mediante el proyecto de datamining. A tal respecto es preciso señalar que el objetivo de
64
negocios de focalización corresponde a la meta de identificar segmentos de riesgo y
rentabilidad con características distintas a las de los clientes promedio. El objetivo de
negocios de crecimiento, por su parte, corresponde a la meta de aumentar tanto los
montos ofrecidos de créditos de consumo, como los montos ofrecidos en cupos en las
tarjetas y líneas de crédito, sujeto todo ello a satisfacer un nivel mínimo de riesgo.
- Especificar los beneficios de negocios esperados que se obtendrían de los resultados
del proyecto de datamining. Dichos beneficios debieran ser alcanzables y realistas. En
relación con este punto conviene indicar que el objetivo de crecer se ha traducido en la
meta específica de aumentar los montos ofrecidos y no en incrementar las ventas, por
cuanto éstas en un periodo determinado dependerán de muchos factores que son
exógenos a un modelo de datamining (tales como el monto invertido en publicidad, la
eficacia de la fuerza de ventas, la receptividad de los clientes, etc.). En cambio, el
modelo de datamining si puede determinar los montos ofrecidos en los créditos de
consumo, como así también los aumentos de cupos de las tarjetas y líneas de crédito.
No obstante, se espera que, ceteris paribus, el aumento de los montos ofrecidos en las
campañas bajo la restricción de satisfacer un cierto nivel mínimo de riesgo se traduzca
en el beneficio indirecto para el Banco de crecer en sus colocaciones.
7.1.3 Criterios de éxito de negocios: porcentaje de aumento en los montos ofrecidos en las campañas y monto de pérdida esperada de éstas (output 1a.3) Este resultado es el tercero de la tarea de determinar los objetivos de negocios (tarea
1a). Describe los criterios que serán utilizados para calificar como exitoso el resultado
del proyecto de datamining desde un punto de vista de negocios. Los objetivos pueden
ser específicos y fácilmente medibles, tales como el aumento de los montos ofrecidos
en las campañas, o generales y subjetivos, como la focalización en determinados
segmentos de mercado. Entre las actividades que es preciso desarrollar para obtener
este resultado se encuentran las siguientes:
- Especificar los criterios de éxito de negocios. Cada uno de los criterios de éxito debe
estar relacionado con al menos uno de los objetivos de negocios. En relación al objetivo
de crecer, debe definirse un porcentaje de aumento en los montos ofrecidos a través de
créditos de consumo, como así también en los montos de los aumentos de los cupos de
las tarjetas y de las líneas de crédito. Relacionado también al objetivo de crecer
65
satisfaciendo un nivel mínimo de riesgo, debe definirse un nivel de riesgo en la forma de
una pérdida esperada para una campaña (calculada como monto en deuda vencida o
castigada luego de transcurrido cierto tiempo).
- Identificar quien evalúa los criterios de éxito. Ello es importante para evaluar el
cumplimiento del objetivo de identificar segmentos de riesgo y rentabilidad con
características distintas a las de los clientes promedio, puesto que es difícil expresar tal
objetivo en términos numéricos.
7.2 Evaluar la situación (tarea 1b)
Esta tarea consiste en realizar una investigación exhaustiva sobre los recursos,
restricciones y suposiciones que debieran ser considerados al momento de elaborar el
plan del proyecto de datamining. Las descripciones de los resultados que se deben
obtener como fruto de esta tarea se entregan a continuación:
7.2.1 Inventario de recursos (output 1b.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste
en una lista de todos recursos disponibles para el proyecto, incluyendo los siguientes:
- Recursos de personal (tales como expertos del negocio y de los datos, disponibilidad
de soporte técnico y de personal de datamining)
- Recursos de datos (tales como accesos a datamarts, a bases de datos operacionales
o al rescate de información operacional respaldada en cinta)
- Recursos computacionales (tales como servidores en los cuales pueden correr los
procesos de datamining, capacidad de almacenamiento en disco para guardar muestras
de datos necesarias para los estudios de datamining y acceso a redes de alta velocidad
para comunicar equipos servidores y clientes involucrados en el procesamiento de
datamining)
- Recursos de software (tales como herramientas de datamining, y otro software
relevante). En el presente documento se utiliza Clementine de SPSS para ilustrar la
construcción del plan de datamining.
Entre las actividades que es preciso desarrollar para obtener este resultado se
encuentran las siguientes:
66
- Identificar el hardware que se utilizará.
- Establecer la disponibilidad de dicho hardware para el proyecto de datamining. Es
preciso tener presente que muchos servidores y bases de datos no se encuentran
disponibles durante la jornada laboral por estar destinados 100% a funciones
operacionales. No obstante, tal vez sea posible tener acceso a ellos durante la noche o
los fines de semana.
- Evaluar si el programa de mantenimiento de sistemas entra en conflicto con la
disponibilidad del hardware para el proyecto de datamining. A tal respecto es preciso
considerar que los procesos de mantenimiento y respaldo se ejecutan normalmente
durante la noche, o los fines de semana, que son precisamente los horarios más
probables en los que se otorgará acceso al hardware.
- Identificar el hardware disponible para la herramienta de datamining a ser utilizada.
- Identificar las fuentes de datos.
- Identificar los tipos de fuentes de datos (si se trata de fuentes online, expertos,
documentación escrita, etc.).
- Identificar a los administradores de sistemas, a los administradores de las bases de
datos y al staff de soporte técnico para eventuales consultas.
- Identificar a los analistas de mercado, a los expertos en datamining y a los estadísticos
que puedan colaborar en el proyecto, y chequear su disponibilidad. Ello es importante
pues el proyecto puede necesitar staff técnico en momentos imprevisibles.
7.2.2 Requerimientos, suposiciones y restricciones (output 1b.2) Este resultado es el segundo de la tarea de evaluar la situación (tarea 1b). De acuerdo
a la guía de usuario de la metodología CRISP-DM, este output incluye una lista de
todos los requerimientos del proyecto, incluyendo el cronograma de término, la calidad
y completitud de los resultados, la seguridad de la información y los aspectos legales.
En este punto es de vital importancia asegurarse que está permitido utilizar los datos
que se pretenden ocupar. El resultado incluye también una lista de todas las
suposiciones realizadas por el proyecto, las cuales pueden corresponder tanto a
suposiciones sobre los datos, sujetas a verificación, como suposiciones no verificables
realizadas sobre el negocio. Es particularmente importante detallar las suposiciones si
67
ellas establecen condiciones sobre la validez de los resultados del proyecto. Asimismo,
el resultado debe incluir todas las restricciones establecidas en el proyecto, y que
pueden involucrar la no disponibilidad de recursos para llevar a cabo algunas tareas.
Entre las actividades que es preciso desarrollar para obtener este resultado se
encuentran:
- Identificar todos los requerimientos sobre plazos que deben cumplirse en el proyecto
de datamining.
- Identificar todos los requerimientos sobre completitud, precisión y mantención de los
modelos de datamining resultantes.
- Identificar los requerimientos sobre seguridad, restricciones legales, privacidad y
generación de reportes del proyecto.
- Clarificar y explicitar todas las suposiciones del proyecto de datamining, incluyendo
aquellas implícitas.
- Elaborar una lista de suposiciones realizadas sobre la calidad de los datos (por
ejemplo, precisión y disponibilidad).
- Elaborar una lista de suposiciones sobre los factores externos al proyecto de
datamining que podrían afectar su éxito (por ejemplo: asuntos económicos, productos
competitivos, avances técnicos).
- Elaborar una lista de todas las suposiciones realizadas sobre la necesidad de explicar
el modelo a sus usuarios (por ejemplo: las suposiciones que dicen relación a cómo
debiera ser presentado el modelo y sus resultados a la alta gerencia y a su
patrocinador).
- Identificar las restricciones de acceso a las fuentes de datos.
- Identificar las restricciones presupuestarias del proyecto de datamining (costos fijos,
costos de implementación, etc.).
7.2.3 Riesgos y contingencias (output 1b.3) Este resultado es el tercero de la tarea de evaluar la situación (tarea 1b). De acuerdo a
la guía de usuario de la metodología CRISP-DM, este output incluye un listado de los
riesgos que pueden afectar el proyecto, impactando sus plazos, sus costos o su
68
resultado final. Incluye también un listado de los correspondientes planes de
contingencia diseñados para mitigar dichos riesgos. Entre las actividades que es
preciso desarrollar para obtener este resultado se encuentran:
- Identificar los riesgos de negocios (tales como fusiones, adquisiciones, entrada de
nuevos competidores al mercado).
- Identificar riesgos organizacionales.
- Identificar riesgos financieros.
- Identificar riesgos técnicos.
- Identificar riesgos que dependan de los datos y de las fuentes de datos (por ejemplo,
baja calidad de los datos).
- Determinar las condiciones bajo las cuales cada uno de los riesgos puede ocurrir.
- Desarrollar planes de contingencia.
Con respecto a los riesgos organizacionales es preciso tener en consideración el poder
de las “cofradías” dentro de los departamentos de crédito de un Banco pequeño. Se
entiende por “cofradía” a un conjunto de ejecutivos unidos por estrechos vínculos de
confianza y que actúan tratando de acaparar todas las responsabilidades y todo el
conocimiento necesario para el funcionamiento bancario. El éxito de las cofradías
radica en primer lugar en su capacidad para enquistarse profundamente en los
procesos operacionales bancarios, de manera de no permitir el reemplazo de sus
miembros sin afectar severamente la continuidad de las operaciones de la empresa. En
segundo lugar, su éxito depende de su habilidad para asfixiar el surgimiento de
cualquier rival al dominio absoluto que ejercen sobre el conocimiento y el manejo de las
operaciones bancarias. Los proyectos de datamining, por el hecho de automatizar la
toma de decisiones, y prescindir de ese modo de la experiencia humana, pueden
encontrar oposición por parte de tales grupos. Para neutralizar su oposición es preciso
contar con el firme respaldo de un líder bancario.
La cultura de negocios puede presentar también riesgos concretos a la realización de
un proyecto de datamining. Así, por ejemplo, el desprecio de cualquier actividad de
carácter técnico puede provocar que un proyecto de datamining sea equiparado a la
simple manipulación de datos, y por lo tanto sea catalogado como una actividad de
69
segundo orden. La creencia de que es atributo privativo de los jefes el pensar y de los
subordinados simplemente ejecutar puede también frustrar las iniciativas de un
profesional que intente desarrollar datamining, al verse éste imposibilitado de realizar
cualquier labor por iniciativa propia. La importancia que se da a las relaciones
personales de confianza por sobre el profesionalismo puede también ir en contra de
quien intenta realizar datamining, si ésta persona no cuenta con el firme respaldo de
patrocinadores dentro de la organización.
Existe el riesgo de que un proyecto de datamining deje de ser auspiciado por su
patrocinador, al considerar que se ha invertido demasiado tiempo trabajando con los
datos sin conseguir nada tangible. Dicha decisión puede encontrar respaldo en el
consejo y la opinión de profesionales que, habiendo trabajado con Access o Excel en
otras instituciones, están acostumbrados a realizar manipulación de datos de manera
no estructurada y rápida. El problema surge debido a que normalmente en los
proyectos de datamining más del 90% del esfuerzo se realiza en las primeras fases del
mismo41, en particular en la preparación de los datos. Ello provoca que este tipo de
proyectos sea en general subestimado en cuanto a coste y tiempo. El problema se
agrava en el caso de una institución financiera que carece de un datawarehouse, por
cuanto el nivel de esfuerzo que es preciso realizar para integrar datos provenientes de
bases de datos distintas, residentes en plataformas distintas, y con datos referidos a
periodos distintos, supera en mucho al que correspondería llevar a cabo en otras
circunstancias.
7.2.4 Terminología (output 1b.4) Este resultado es el cuarto de la tarea de evaluar la situación (tarea 1b). De acuerdo a
la guía de usuario de la metodología CRISP-DM, este output consiste en un glosario de
términos relevantes para el proyecto, y debe incluir al menos dos componentes: un
glosario de terminología relevante del negocio, y un glosario de terminología de
datamining. Entre las actividades que es preciso desarrollar para obtener este resultado
se encuentran:
41 Fuente: Jumpstart Clementine Training Brochure, Data Mining Jumpstart, Data Mining Projects Clementine, SPSS, 2004
70
- Chequear la disponibilidad de glosarios existentes, o de lo contrario comenzar su
bosquejo.
- Conversar con expertos en la materia para comprender su terminología.
- Familiarizarse con la terminología de negocios.
A continuación se entregan las definiciones de mayor relevancia para el plan de
datamining de las campañas bancarias.
7.2.4.1 Definición de cliente malo desde un punto de vista crediticio Para construir un modelo del nivel de riesgo de un cliente debe calcularse la
probabilidad de que éste se transforme en un cliente “malo” dentro de un determinado
periodo de tiempo. Es importante, por lo tanto, arribar a una definición de qué se
entiende por “cliente malo”. En la presente investigación se considerará “malo” en
términos crediticios a toda persona que cumpla alguna de las siguientes características:
- Haber presentado deuda directa vencida o deuda directa castigada en los últimos 12
meses de los informes de la SBIF.
- Presentar saldo de capital castigado con el Banco.
- Presentar monto de cartera vencida con el Banco.
- Presentar una deuda renegociada con el Banco que provenga con certeza de créditos
vencidos o castigados.
- Figurar con alguna cuenta “varios deudores” en el Banco, la cual con certeza
provenga de más de 60 días de mora en alguna tarjeta de crédito.
- Figurar en el denominado “file negativo” del Banco, que reúne al conjunto de clientes
con los que éste no desea operar.
- Figurar en el listado de los clientes cuyas cuentas hayan sido cerradas en el pasado
por el Banco.
A la lista dada anteriormente pueden agregarse condiciones adicionales, las cuales
pueden aprovechar la experiencia que el Banco posea para identificar a personas que
efectivamente correspondan a clientes “malos” desde un punto de vista crediticio.
Dichas condiciones pueden reflejar también diferentes expectativas del Banco con
respecto a qué clientes esté dispuesto a considerar como demasiado riesgosos.
71
7.2.4.2 Definición de rentabilidad potencial de un cliente La rentabilidad potencial corresponde al valor actual neto de los flujos de efectivo que
generaría un cliente para el Banco, en el caso de que dicha institución fuese capaz de
vender a dicha persona el máximo de los servicios que eventualmente aquel estaría
dispuesto a contratar en el futuro.
La rentabilidad potencial trata de ser explotada por lo que se conoce como fidelización.
Detrás del concepto de fidelización se encuentra la idea de ofrecer productos que
constituyan un “gancho” para atraer a los clientes, a los cuales brindar a futuro otros
servicios financieros, hasta agotar su rentabilidad potencial. Por lo tanto, principalmente
la fidelización intenta provocar la conservación de los clientes por muchos años.
Figura 7.2 Ganancias extras obtenidas por cada transacción de la tarjeta de crédito de un cliente, cuando éste tiene varios años de antigüedad42
La figura 7.2 muestra la importancia que tiene conservar a los clientes, por cuanto los
flujos de efectivo que genera un cliente antiguo de una tarjeta de crédito bancaria son
42 Fuente: REICCHELD, SASSER, Zero Defections Come to Quality, HBR, 1990
72
mucho mayores que aquellos que genera un cliente nuevo. El gráfico muestra que los
clientes entregan sólo ganancias básicas el primer año (constituidas por cobros de
mantención y por un nivel de utilización reducido de las tarjetas). A partir del segundo
año los clientes comienzan a generar ganancias adicionales por distintos conceptos:
aumento de la utilización de los cupos de las tarjetas, aumento de las transacciones con
ellas, uso más eficiente de los servicios bancarios, entrega de recomendaciones de los
servicios del Banco a otras personas, o pago de sobreprecios por determinados
servicios. Mientras las ganancias básicas son las mismas, independientemente de la
antigüedad del cliente, las ganancias extra que se producen son mucho mayores en los
clientes más antiguos.
Las ganancias no básicas surgen precisamente de la utilización por parte del Banco de
la rentabilidad potencial de los clientes. Mientras mayor sea la rentabilidad potencial de
éstos, mayores serán las ganancias no básicas que podrían obtenerse. Un Banco que
sea incapaz de conservar a sus clientes, no podrá tampoco aprovechar su rentabilidad
potencial. Concentrando los esfuerzos de las campañas en los clientes con mayor
rentabilidad potencial será posible conservar a éstos por muchos años y de esa forma
será posible también aprovechar efectivamente su rentabilidad potencial.
7.2.4.3 Definición de cliente sin gran rentabilidad potencial Para construir un modelo de rentabilidad potencial es preciso calcular la probabilidad de
que un cliente se transforme en alguien “sin una gran rentabilidad potencial” dentro de
un determinado periodo de tiempo. Es preciso, por lo tanto, llegar a una definición de
qué se entiende por alguien “sin una gran rentabilidad potencial”. Nótese que para
construir un modelo de rentabilidad potencial no es necesario calcular la rentabilidad
potencial de los clientes, pues basta simplemente identificar aquellas condiciones en las
cuales un cliente puede clasificarse como “sin gran rentabilidad potencial”.
Dado que la rentabilidad potencial corresponde al valor actual neto de los flujos de
efectivo que generaría un cliente para el Banco, un cliente “sin gran rentabilidad
potencial” será alguien que sin lugar a dudas posea un valor actual neto muy bajo para
el Banco.
En la presente investigación se entenderá por cliente sin una gran rentabilidad potencial
a toda persona que cumpla alguna de las condiciones siguientes, cada una de las
73
cuales va indisolublemente ligada a un valor presente del cliente que es claramente
muy bajo para el Banco:
- La conjunción de las siguientes características: no ser profesional, poseer un ingreso
mensual inferior a un monto determinado (por ejemplo: $500.000) y no ser lo
suficientemente joven para cambiar de actividad (presentar una edad superior a, por
ejemplo, 40 años).
- La conjunción de las siguientes características: ser profesional, poseer un ingreso
mensual inferior a un monto determinado (por ejemplo: $300.000) y no ser profesional
joven (presentar una edad superior a un número determinado de años, por ejemplo: 30
años).
- Ejercer determinadas profesiones y oficios que son mal remunerados, que tampoco
permiten a las personas aumentar sus ingresos significativamente en el futuro, y en los
cuales las personas tradicionalmente tienden a desempeñarse durante toda su vida (por
ejemplo: personal de orden y seguridad).
- La conjunción de las siguientes características: no poseer patrimonio, ser mayor a una
edad determinada (por ejemplo: 40 años) y poseer un ingreso inferior a un monto
determinado (por ejemplo: $300.000).
- La conjunción de las siguientes características: ser hombre y ser una persona mayor
(con una edad por sobre los 70 años, por ejemplo).
- La conjunción de las siguientes características: ser mujer y ser una persona mayor
(con una edad por sobre los 65 años, por ejemplo).
- Ser un cliente “malo” en términos de riesgo de crédito.
- Poseer una capacidad residual de endeudamiento menor a un millón de pesos.
A la lista dada anteriormente pueden agregarse condiciones adicionales, las cuales
pueden aprovechar la experiencia que el Banco posea para identificar a personas que
efectivamente correspondan a clientes “sin gran rentabilidad potencial” desde su
perspectiva. Dichas condiciones pueden reflejar también diferentes expectativas del
Banco con respecto a qué clientes esté dispuesto a considerar como personas sin
atractivo.
74
7.2.4.4 Definición de carga financiera La carga financiera corresponde al porcentaje de los ingresos que una persona debe
destinar a solventar sus deudas, y constituye información fundamental tanto para
evaluar el nivel de riesgo del cliente como su rentabilidad potencial. En la medida que
una persona contrae progresivamente más deudas, el monto que debe reservar al pago
de éstas aumenta, al mismo tiempo que disminuye la proporción de su salario que
puede destinar al pago de otros servicios. Claramente en la medida que la carga
financiera de un cliente aumenta, mayor es también su riesgo de crédito y menor es su
rentabilidad potencial.
7.2.5 Costos y beneficios (output 1b.5) Este resultado es el quinto de la tarea de evaluar la situación (tarea 1b). De acuerdo a
la guía de usuario de la metodología CRISP-DM, este output consiste en un análisis de
costo-beneficio, el cual debe comparar los costos del proyecto de datamining con el
beneficio potencial que reportaría para el negocio en el caso de ser exitoso. Entre las
actividades que es preciso desarrollar para obtener este resultado se encuentran:
- Estimar los costos de la recolección de datos.
- Estimar los costos de desarrollar e implementar una solución de datamining.
- Identificar los beneficios que se obtendrían por la realización del proyecto de
datamining.
Antes de mencionar el principal beneficio del proyecto de datamining es preciso
considerar que los modelos que se elaboren deben estimar el riesgo crediticio y la
rentabilidad potencial de los clientes. Como se describe en la sección 7.3, ello proviene
del hecho que los objetivos de negocios del proyecto de datamining definidos en la
sección 7.1, y que consisten en enfocarse en nichos de mercado y crecer, se traducen
en objetivos de datamining de estimar el riesgo y la rentabilidad de los clientes.
El mayor beneficio aportado por el plan de datamining de las campañas bancarias es
estratégico y consiste en permitir a un Banco focalizarse en nichos de mercado y crecer
mediante la clasificación de sus clientes por criterios de riesgo y rentabilidad. Dicha
clasificación es fundamental para un Banco pequeño, si se aceptan los supuestos de
negocios dados en la sección 5.4, y según los cuales las dos opciones para sobrevivir
75
de una institución semejante son enfocarse en nichos de mercado o crecer. En efecto,
los puntajes de riesgo y rentabilidad que los modelos de datamining permiten asignar a
los clientes son útiles en ambos casos, tanto para enfocarse en nichos como para
crecer. En primer lugar, es posible identificar distintos segmentos de mercado a partir
de los puntajes de riesgo y rentabilidad. En segundo lugar, como se demuestra en la
sección 11.1, los mencionados puntajes permiten aumentar el dinero que es posible
ofrecer a los clientes en condiciones ventajosas para el Banco, al mismo tiempo que se
satisface un nivel mínimo de riesgo. De esa forma, los puntajes permiten también a un
Banco crecer por la vía de aumentar los montos ofrecidos en las campañas.
7.3 Determinar los objetivos de datamining (tarea 1c)
Esta tarea corresponde a la traducción a términos técnico-estadísticos de los objetivos
de negocios que se pretende alcanzar con el proyecto de datamining. Las descripciones
de los resultados que se deben obtener como fruto de esta tarea se entregan a
continuación:
7.3.1 Objetivos de datamining: estimar el riesgo crediticio y la rentabilidad potencial de los clientes (output 1c.1) Este output consiste en una descripción de los objetivos de datamining que hacen
posible alcanzar los objetivos de negocios perseguidos por el proyecto. Entre las
actividades que es preciso desarrollar para obtener este output se encuentran:
- Traducir los objetivos de negocios a objetivos de datamining
- Especificar el tipo de problema de datamining. En este caso los modelos de riesgo de
crédito y de rentabilidad potencial que se plantean son netamente modelos predictivos.
El primer objetivo de negocios perseguido por el proyecto de datamining, y que no es
otro que focalizarse en nichos de mercado, puede implementarse identificando distintos
segmentos de mercado que diferencien entre si por el riesgo y la rentabilidad de sus
clientes. Así, el objetivo de negocios de focalización puede traducirse en los objetivos
de datamining de estimar el riesgo crediticio y la rentabilidad potencial de los clientes.
El segundo objetivo de negocios perseguido por el proyecto de datamining, que
consiste en crecer sujeto a un nivel mínimo de riesgo, requiere de los siguientes
cálculos previos:
76
1. Especificar el nivel de riesgo asociado a los montos ofrecidos en una campaña.
2. Determinar el monto de dinero a ofrecer en las campañas sujeto a un nivel mínimo
de riesgo (especificado usando el cálculo del punto anterior).
Como se explica a continuación, el primer cálculo puede traducirse en los objetivos de
datamining de estimar el riesgo crediticio y la rentabilidad potencial de los clientes.
Como se ha detallado en la sección 7.1 al describir los criterios de éxito de negocios
(output 1a.3), la satisfacción de un nivel mínimo de riesgo para las campañas se
especifica en la forma de una pérdida esperada (calculada como monto en deuda
vencida o castigada luego de transcurrido cierto tiempo). La pérdida esperada para un
monto ofrecido a un cliente puede calcularse como el producto del monto ofrecido y de
la probabilidad de que dicho cliente se transforme en “malo” dentro de un determinado
horizonte de tiempo. No obstante, dicha probabilidad depende tanto del monto ofrecido
como de la rentabilidad potencial del cliente. Mientras mayor sea el monto ofrecido a un
cliente, mayor será la probabilidad de que se transforme en “malo”, puesto que el
cliente estará más endeudado en el caso de aceptar la oferta y en consecuencia será
más riesgoso. Por otro lado, mientras mayor rentabilidad potencial posea un cliente,
mayor será su capacidad de seguirse endeudando sin volverse más riesgoso, y en
consecuencia menor será el aumento de la probabilidad de que él se transforme en
“malo” al aumentar su nivel de endeudamiento. Por todo lo antes mencionado, para
especificar el nivel de riesgo asociado a los montos ofrecidos en una campaña es
preciso estimar el riesgo crediticio y la rentabilidad potencial de los clientes.
El segundo cálculo antes mencionado, que consiste en determinar el monto de dinero a
ofrecer en las campañas sujeto a un nivel de mínimo riesgo, también puede traducirse
en los objetivos de datamining de estimar el riesgo crediticio y la rentabilidad potencial
de los clientes. En efecto, mediante un modelo de programación no lineal es posible
especificar el problema. Se desea maximizar el monto total a ofrecer en la campaña
sujeto a la restricción de que las pérdidas totales sean iguales a un monto determinado.
La función objetivo puede especificarse simplemente como la sumatoria de los montos
a ofrecer a cada cliente. La pérdida de la campaña puede escribirse como la sumatoria
del monto a ofrecer a cada cliente multiplicado por la probabilidad de que dicho cliente
se transforme en “malo” luego de aceptar el monto ofrecido. Dado que la mencionada
probabilidad dependerá de la rentabilidad potencial y del nivel de riesgo de cada cliente
77
antes de aceptar la oferta, se tendrá que la solución del modelo de programación
requerirá de estimaciones del nivel de riesgo y de la rentabilidad potencial de los
clientes. Restricciones adicionales de tal modelo son que los montos deben ser
positivos y que la carga financiera de cada cliente no puede exceder el 100% de sus
ingresos luego de aceptar la oferta. La especificación detallada de tal modelo de
programación se entrega en la sección 11.1, al mostrar como los puntajes calculados
con los modelos de riesgo y rentabilidad potencial permiten alcanzar los objetivos de
negocios del plan de datamining. No obstante, con lo que se ha mencionado es
evidente que el problema de determinar los montos de dinero a ofrecer en las
campañas sujeto a un nivel mínimo de riesgo requiere necesariamente estimar el riesgo
y la rentabilidad de los clientes.
En resumen, los dos objetivos de negocios del proyecto de datamining pueden
traducirse en los objetivos de datamining de estimar el riesgo crediticio y la rentabilidad
potencial de los clientes.
7.3.2 Criterios de éxito de datamining: errores tipo I y tipo II (output 1c.2) Este resultado es el segundo de la tarea de determinar los objetivos de datamining
(tarea 1c). De acuerdo a la guía de usuario de la metodología CRISP-DM, este output
corresponde a un conjunto de criterios técnicos para considerar exitoso un proyecto de
datamining (por ejemplo, un cierto nivel de precisión en las predicciones de los modelos
desarrollados). Entre las actividades que es preciso desarrollar para obtener este
resultado se encuentran:
- Especificar los criterios para la evaluación de los modelos (por ejemplo, precisión de
los modelos, desempeño de éstos y nivel de complejidad).
- Definir benchmarks para los criterios de evaluación.
Los criterios de éxito de datamining pueden incluir cualquiera de las medidas
estadísticas usadas para evaluar los modelos técnicamente y detalladas en el capítulo
10. No obstante, criterios de éxito razonables para los modelos de datamining de las
campañas bancarias deben incluir cotas para dos tipos de error. En un modelo de
riesgo el primero de ellos, o error tipo I, proviene de clasificar como bueno a un cliente
que será malo. El segundo, o error tipo II, surge al clasificar como malo a un cliente que
será bueno. Análogamente, en los modelos de rentabilidad el error tipo I se comete al
78
calificar como cliente con gran rentabilidad potencial a un cliente sin ella, en tanto que el
error tipo II ocurre al clasificar como cliente sin gran rentabilidad potencial a un cliente
que si poseerá una gran rentabilidad potencial.
Los modelos de riesgo calcularán notas o puntajes de riesgo, que corresponderán a
probabilidades de que los clientes se transformen en malos en un cierto horizonte de
tiempo. Para calificar como bueno a un cliente se utilizará una nota o probabilidad
mínima, denominada “puntaje de corte”. Al fijar un “puntaje de corte” para un modelo de
riesgo determinado, y aplicar dicho modelo a un conjunto de datos de prueba se
obtendrán errores tipo I y tipo II en la forma de porcentajes sobre el total de los clientes
de la muestra. Los criterios de éxito de datamining a tal respecto permitirán determinar
si los resultados de un modelo de riesgo son aceptables o no. Conclusiones análogas
se obtienen para los modelos de rentabilidad potencial. En efecto, los modelos de
rentabilidad potencial calcularán notas o puntajes de rentabilidad, que corresponderán a
probabilidades de que los clientes se transformen en personas “sin gran rentabilidad
potencial” en el futuro. Para calificar como “sin gran rentabilidad potencial” a un cliente
se utilizará una nota o probabilidad mínima, denominada también “puntaje de corte”. Al
fijar un “puntaje de corte” para un modelo de rentabilidad potencial, y aplicar dicho
modelo a un conjunto de datos de prueba se obtendrán errores tipo I y tipo II en la
forma de porcentajes sobre el total de los clientes de la muestra.
7.4 Producir el plan del proyecto (tarea 1d)
Esta tarea corresponde a la realización de una carta Gantt del proyecto de minería de
datos, junto a la cual debe describirse el plan con el que se espera alcanzar los
objetivos de datamining y los objetivos de negocios.
Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:
7.4.1 Plan del proyecto (output 1d.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde a una lista de todas las etapas a ser ejecutadas en el proyecto, junto a su
duración, recursos requeridos, inputs, outputs y dependencias. Debe hacerse explícita
la repetición y el retroceso a la etapa anterior propias de las fases de modelamiento y
79
de evaluación de negocios. Como parte del plan de datamining es también importante
analizar las dependencias entre los plazos y los riesgos. Es preciso detallar los
resultados de los análisis de riesgos en términos de acciones y recomendaciones sobre
los pasos a seguir en caso de contingencia. Entre las actividades que es preciso
desarrollar para obtener este resultado se encuentran:
- Definir el plan inicial del proyecto de datamining y discutir la factibilidad con todo el
personal involucrado en el proyecto.
- Reunir en un proceso coherente todos los objetivos identificados y todas las técnicas
de datamining seleccionadas, de manera de responder las preguntas de negocios y de
satisfacer los criterios de éxito del proyecto.
- Estimar el esfuerzo y los recursos necesarios para alcanzar y generar la solución del
proyecto de datamining. Se postula que entre un 50% y un 70% del tiempo en un
proyecto de datamining debiera destinarse a la fase de preparación de los datos,
mientras que tan solo un porcentaje ubicado entre un 10% y un 20% debiera dirigirse a
las fases de Modelamiento, Evaluación y Comprensión del Negocio. El porcentaje
asignado a la fase de Despliegue debiera encontrarse entre un 5% y un 10% del tiempo
total del proyecto.
- Identificar los pasos críticos.
- Resaltar los puntos de toma de decisiones.
- Resaltar los puntos de revisión de los resultados del proyecto.
- Identificar las principales iteraciones dentro del flujo de fases y tareas de datamining.
7.4.2 Evaluación inicial de herramientas y técnicas (output 1d.2) Este resultado es el segundo de la tarea de producir el plan del proyecto (tarea 1d). De
acuerdo a la guía de usuario de la metodología CRISP-DM, este output consiste en una
evaluación inicial de las herramientas y técnicas de datamining que es posible utilizar.
Debe seleccionarse una herramienta de datamining que soporte varios métodos para
diferentes etapas del proyecto. Es importante evaluar las herramientas y técnicas
tempranamente en el proyecto, puesto que la elección de las herramientas y técnicas
influenciará todo el proyecto. Entre las actividades que es preciso desarrollar para
obtener este resultado se encuentran:
80
- Crear una lista de criterios para seleccionar las herramientas y técnicas de datamining.
- Escoger las herramientas y técnicas de datamining.
- Evaluar qué tan apropiadas son las técnicas de datamining.
- Revisar y priorizar técnicas de datamining aplicables de acuerdo a la evaluación de
soluciones alternativas.
En la presente investigación se ha escogido Clementine de SPSS como herramienta de
datamining para ilustrar la elaboración de un plan de minería de datos, la cual soporta
una amplia variedad de técnicas de datamining. Entre aquellas técnicas que se ajustan
mejor a la construcción de modelos predictivos de riesgo y rentabilidad se encuentran la
regresión logística, las redes neuronales y los árboles de decisión, las cuales se
explican en detalle en la sección 10.1, incluyendo una tabla con sus ventajas y
desventajas.
81
8 SEGUNDA FASE DEL PLAN: COMPRENSIÓN DE LOS DATOS
El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de comprensión de los datos de la metodología CRISP-DM, junto a los resultados o
outputs que deben obtenerse de la ejecución de cada una:
Figura 8.1 Tareas y outputs de la fase de comprensión de los datos, segunda fase del proyecto de datamining según metodología CRISP-DM43
A continuación se describen las tareas de esta fase y sus resultados, entregando
consejos y recomendaciones elaborados a partir de la reflexión del autor de este
43 Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
82
documento y de la guía de usuario de CRISP-DM44. Como se ha señalado en el
capitulo 3, esta tesis no se basa en ningún conjunto de datos de ningún grupo de
personas. Por ello no pueden entregarse indicaciones específicas sobre los reportes de
descripción, de exploración, o de calidad de los datos (outputs 2b.1, 2c.1 y 2d.1). Sin
embargo, en virtud de los supuestos dados en el capítulo que versa sobre las hipótesis
de trabajo es posible dar una descripción de las fuentes de datos que todo Banco debe
poseer y que proveen de información necesaria y suficiente para la realización de
estudios de datamining sobre las campañas bancarias. En consecuencia, como parte
de la explicación del reporte de recolección de los datos iniciales (output 2a.1), se
entregan en este capítulo las descripciones de todas las variables necesarias para
construir los modelos de datamining planteados en esta investigación, de igual modo
que todas las fuentes de datos que se utilizarán.
8.1 Recolectar datos iniciales (tarea 2a)
Esta tarea consiste en la realización de una recopilación de los datos necesarios para el
proyecto de datamining, utilizando para ello la lista de recursos disponibles elaborada
en la tarea 1b de la fase de comprensión del negocio. La recolección debe incluir la
carga de los datos en la herramienta de datamining, si ello ayuda a comprender la
información (como puede ser el caso de no existir un diccionario de datos que entregue
el significado de cada campo de una base de datos).
Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:
8.1.1 Reporte de recolección de datos iniciales (output 2a.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste
en una lista de los datos que serán utilizados en el proyecto. Asimismo dicha lista debe
incluir los requerimientos de selección de datos que sea preciso realizar para obtener
información más detallada que la disponible. El reporte de recolección de datos debe
definir también si algunos atributos son más importantes que otros, al mismo tiempo
44 Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
83
que esbozar una evaluación sobre la calidad de los datos. Entre las actividades que es
preciso desarrollar para obtener este resultado se encuentran:
- Planificar qué información se necesitará (por ejemplo: solo atributos disponibles o
información adicional).
- Chequear si toda la información que se necesita para alcanzar los objetivos de
datamining está actualmente disponible.
- Especificar los criterios de selección de datos (determinar qué atributos son
necesarios para alcanzar los objetivos de datamining y qué atributos han sido
identificados como irrelevantes). Es preciso tener presente que los datos recolectados
de diferentes fuentes pueden provocar problemas de calidad cuando son mezclados
debido a inconsistencias de formatos o a la presencia de datos inválidos.
- Seleccionar las tablas o archivos de interés para el proyecto de datamining.
- Seleccionar datos dentro de cada tabla o archivo de interés para el proyecto.
- Determinar el número de meses pasados que debieran ser usados para seleccionar
los datos del proyecto de datamining (por ejemplo: aun si hay información disponible de
36 meses puede que sólo 18 meses de historia sean relevantes para la investigación).
- Determinar cómo se pueden obtener los atributos que faltan y que son relevantes para
el proyecto de datamining.
- Describir cómo extraer los datos (por ejemplo, vía un muestreo aleatorio simple).
El conjunto de atributos de los clientes que son necesarios para construir modelos
predictivos se entrega a continuación:
8.1.2 Datos necesarios para el proyecto: lista de atributos de los clientes
En base a la experiencia y al conocimiento del negocio de otorgamiento de crédito a
personas es posible identificar variables que, independientemente de qué grupo de
clientes se trate, son relevantes para construir modelos predictivos de riesgo y
rentabilidad. El modelo de datamining que se persigue construir corresponde a un
sistema experto que pretende simular el razonamiento de los ejecutivos comerciales y
de crédito. Por lo tanto, se han incluido en este punto sólo las variables que son
relevantes para dichos ejecutivos y que pueden encontrarse con facilidad en las bases
84
de datos operacionales de cualquier Banco. A continuación se entregará el conjunto de
88 variables candidatas a integrar los modelos predictivos de riesgo y rentabilidad
potencial, clasificadas en distintos grupos de acuerdo al tipo de característica del cliente
al que se refieren. El siguiente diagrama muestra dichas 88 variables clasificadas en
seis grupos:
Figura 8.2 Seis grupos de variables candidatas a ser consideradas en los modelos (nótese que sólo un grupo corresponde a variables de deudas)45
8.1.2.1 Grupo de variables demográficas (A)
- Región. - Cantidad de hijos. - Universidad.
- Provincia. - Cantidad de cargas. - Régimen conyugal.
- Comuna. - Nivel educacional. - ¿Tiene datos de edad?.
- Sexo. - Actividad económica. - Edad.
- Estado civil. - Profesión.
45 Fuente: elaboración propia
85
8.1.2.2 Grupo de variables de renta (B)
- Patrimonio. - Renta. - ¿Es independiente?.
- ¿Tiene un bien raíz?. - Tipo de renta (fija/var.).l
- ¿Tiene datos de renta?. - Antigüedad de la renta. L
8.1.2.3 Grupo de variables de vínculo con el cliente (C) Variables de tipo de relación del cliente con el Banco
- Tipo de cliente (cliente en convenio, cliente estándar, etc.).
- Antigüedad del cliente.
Servicios contratados con el Banco
- ¿Tiene líneas de crédito del Banco?.
- Fecha más remota de apertura de línea de crédito hoy vigente con el Banco.
- ¿Tiene tarjetas del Banco?.
- Fecha más remota de otorgamiento de tarjeta de crédito hoy vigente con el Banco.
- Monto original de las tarjetas de crédito del Banco que el cliente posee.
- ¿Tiene créditos no hipotecarios en el Banco?.
- Fecha más remota de otorgamiento de crédito no hipotecario vigente con el Banco.
- Monto original adeudado en créditos no hipotecarios del Banco.
- Plazo máximo de créditos no hipotecarios hoy vigentes con el Banco.
- ¿Tiene créditos hipotecarios del Banco?.
- Fecha más remota de otorgamiento de crédito hipotecario hoy vigente con el Banco.
- Monto original adeudado en créditos hipotecarios hoy vigentes con el Banco.
- Plazo máximo de créditos hipotecarios hoy vigentes con el Banco.
8.1.2.4 Grupo de variables de ingresos contables generados por cliente (D) - Ingresos contables generados por el cliente por concepto de mantención, spread de
intereses, comisiones y otros ingresos en líneas de crédito.
- Ingresos contables generados por el cliente por concepto de mantención, spread de
intereses, comisiones y otros ingresos en tarjetas de crédito.
- Ingresos contables generados por el cliente por concepto de spread de intereses,
comisiones y otros ingresos en créditos no hipotecarios.
- Ingresos contables generados por el cliente por concepto de spread de intereses,
comisiones y otros ingresos en créditos hipotecarios.
86
8.1.2.5 Grupo de variables de comportamiento (E) Variables de comportamiento del cliente con el Banco
- En qué tramo de morosidad se encuentra el cliente con el Banco (menos de treinta
días de mora, entre 30 y 60 días, entre 60 y 90 días o más de 90 días).
- Monto en mora.
- ¿Presenta deuda vencida con el Banco?.
- ¿Presenta capital castigado con el Banco?.
- Máximo de días de mora en los productos del Banco.
- ¿Cliente está en "file negativo"?.
- ¿Cliente presenta cuenta cerrada por el Banco?.
- Cliente presenta créditos renegociados que provienen de incapacidad de pago.
- Cliente presenta créditos repactados que no provienen de incapacidad de pago.
- Cliente presenta deuda de varios deudores proveniente de una tarjeta caída.
- Cliente presenta deuda de varios deudores proveniente de una línea caída.
Variables históricas de comportamiento en el sistema financiero
Los siguientes campos se han obtenido del informe SBIF y de las bases del Banco:
- Promedio de la deuda directa morosa en el sistema financiero los últimos 3 meses.
- Promedio de la deuda directa vencida en el sistema financiero los últimos 3 meses.
- Promedio de la deuda indirecta vencida en el sistema financiero los últimos 3 meses.
- Promedio del saldo de la deuda directa castigada en el sistema financiero los
últimos 3 meses.
- Promedio del saldo de la deuda indirecta castigada en el sistema financiero los
últimos 3 meses.
- Promedio de la deuda directa morosa en el sistema financiero en un periodo
comprendido entre 6 meses atrás y los últimos 3 meses.
- Promedio de la deuda directa vencida en el sistema financiero en un periodo
comprendido entre 6 meses atrás y los últimos 3 meses.
- Promedio de la deuda indirecta vencida en el sistema financiero en un periodo
comprendido entre 6 meses atrás y los últimos 3 meses.
- Promedio del saldo de la deuda directa castigada en el sistema financiero en un
periodo comprendido entre 6 meses atrás y los últimos 3 meses.
87
- Promedio del saldo de la deuda indirecta castigada en el sistema financiero en un
periodo comprendido entre 6 meses atrás y los últimos 3 meses.
- Promedio de la deuda directa morosa en el sistema financiero en un periodo
comprendido entre 15 meses atrás y los últimos 6 meses.
- Promedio de la deuda directa vencida en el sistema financiero en un periodo
comprendido entre 15 meses atrás y los últimos 6 meses.
- Promedio de la deuda indirecta vencida en el sistema financiero en un periodo
comprendido entre 15 meses atrás y los últimos 6 meses.
- Promedio del saldo de la deuda directa castigada en el sistema financiero en un
periodo comprendido entre 15 meses atrás y los últimos 6 meses.
- Promedio del saldo de la deuda indirecta castigada en el sistema financiero en un
periodo comprendido entre 15 meses atrás y los últimos 6 meses.
Variables de comportamiento del cliente en boletines
- Cheques protestados.
- Otros documentos protestados en el Boletín Comercial.
- Morosidades informadas al Boletín Comercial.
8.1.2.6 Grupo de variables de deudas (F) Deudas del cliente con el Banco
- Saldo vigente en las líneas de crédito del Banco.
- Cupo disponible en las líneas de crédito del Banco.
- Saldo vigente en las tarjetas de crédito del Banco.
- Cupo disponible en las tarjetas de crédito del Banco.
- Saldo vigente en créditos no hipotecarios del Banco.
- Saldo vigente en créditos hipotecarios del Banco.
Deudas del cliente con otras instituciones
- Deuda comercial en otros bancos.
- Deuda de consumo en otros bancos.
- Deuda hipotecaria en otros bancos.
- Cupo disponible en líneas y tarjetas de crédito de otros bancos.
88
Variables de las deudas históricas en el sistema financiero
Los siguientes campos han sido obtenidos del informe SBIF
- Deuda directa vigente en el último mes del último informe de la SBIF.
- Monto de línea de crédito disponible en el último mes del último informe SBIF.
- Promedio de la deuda directa vigente en un periodo comprendido entre 6 meses
atrás y los últimos 3 meses.
- Promedio del monto de línea de crédito disponible en un periodo comprendido entre
6 meses atrás y los últimos 3 meses.
- Promedio de la deuda directa vigente en un periodo comprendido entre 15 meses
atrás y los últimos 6 meses.
- Promedio del monto de línea de crédito disponible en un periodo comprendido entre
15 meses atrás y los últimos 6 meses.
Variables de leverage y de carga financiera
Estas variables son sólo para aquellos clientes que poseen renta
- Nivel de leverage hipotecario total del cliente. El leverage hipotecario se calcula
como la deuda hipotecaria dividida por la renta.
- Nivel de leverage no hipotecario total del cliente. El leverage no hipotecario se
calcula como la deuda no hipotecaria dividida por la renta.
- Estimación de la carga financiera del cliente.
A continuación se detalla el contenido de cada una de las fuentes de datos utilizadas en
la presente investigación y que necesariamente deben estar disponibles en las bases
operacionales de cualquier Banco.
8.1.3 Fuentes de datos disponibles y suficientes para el proyecto
Un supuesto fundamental de las hipótesis de trabajo ha consistido en que existen bases
de datos operacionales que cualquier Banco debe poseer y que proveen información
suficiente para realizar los estudios de datamining contemplados en esta investigación.
La descripción de la información contenida en dichas fuentes de datos se entrega a
continuación:
Informe de la SBIF: corresponde al informe de deudas de cada cliente en el sistema
financiero chileno. Es un archivo que entrega mensualmente la SBIF a los Bancos y el
89
cual incluye las deudas consolidadas de 4,5 millones de personas. Dicho informe
reporta la deuda castigada, vencida, morosa y vigente, junto al cupo disponible en
líneas y en tarjetas de cada persona. Se proveen todos esos datos para 13 meses
distintos y consecutivos, con un desfase de dos meses entre el último mes y el
presente.
Informe D01 enviado a la SBIF: corresponde a un informe que mensualmente todos los
Bancos están obligados a enviar a la SBIF, y que detalla las deudas que cada uno de
sus clientes mantiene con ellos, clasificadas en deudas de consumo, comerciales e
hipotecarias, cada una dividida en deuda vigente o vencida y subdividida en cuentas de
activo y de orden. Se reporta además en este informe la deuda castigada del cliente
con el Banco. Adicionalmente, para poder identificar qué deudas del archivo de
operaciones fueron reportadas a la SBIF y bajo qué criterio, esta fuente de datos debe
además incorporar información que detalla para cada cuenta asociada a una operación
(intereses, capital, etc.) el monto que es reportado a la SBIF en el D01 bajo una de las
categorías siguientes:
- Deuda directa vigente por créditos comerciales en cuentas de activo
- Deuda directa vencida por créditos comerciales en cuentas de activo
- Deuda directa vigente por créditos comerciales en cuentas de orden
- Deuda directa vencida por créditos comerciales en cuenta de orden
- Deuda directa vigente por créditos de consumo en cuentas de activo
- Deuda directa vencida por créditos de consumo en cuentas de activo
- Deuda directa vigente por créditos de consumo en cuentas de orden
- Deuda directa vencida por créditos de consumo en cuentas de orden
- Deuda directa vigente por créditos hipotecarios para la vivienda en ctas. de activo
- Deuda directa vencida por créditos hipotecarios para la vivienda en ctas. de activo
- Deuda directa vigente por créditos hipotecarios para la vivienda en ctas. de orden
- Deuda directa vencida por créditos hipotecarios para la vivienda en ctas. de orden
Saldos el día de envío del D01: corresponde a una base de datos operacional con la
información, el día del envío del informe D01 a la SBIF hace dos meses, de cada uno
de los productos que tiene vigente cada cliente con el Banco. Debe contener la fecha
de otorgamiento del producto, su fecha de extinción, el monto original en pesos de los
90
créditos otorgados, el saldo operacional, el monto impago en los distintos tramos de
morosidad, el monto del capital vencido, el monto del capital castigado, el saldo
disponible en pesos de las líneas y tarjetas, la tasa de interés anual del producto, el
plazo en meses de éste y el tipo de producto al que se refiere.
Productos: corresponde a un archivo que contiene una lista de códigos de productos en
los que el Banco asume una posición acreedora y que son clasificados en créditos de
consumo, créditos comerciales, créditos hipotecarios, líneas o tarjetas de crédito. En
este archivo se identifican también los créditos que provienen de incapacidad de pago
de los clientes (como es el caso de los créditos “varios deudores” entregados a clientes
que no pudieron pagar tarjetas o líneas de crédito vencidas). Es preciso señalar que
otras fuentes de datos contienen información sobre los productos, como es el caso de
los “Saldos el día de envío del D01” y de los “Saldos actuales”, no obstante los archivos
operacionales de los Bancos pueden ser inmensamente complejos, por lo que es de
cualquier forma necesario disponer de una tabla de clasificación de los productos a
partir de su código. Esta fuente de datos denominada “Productos” constituye
precisamente dicha tabla de clasificación.
Saldos actuales: corresponde a una base de datos operacional con la información, el
día presente, de cada uno de los productos que tiene vigente cada cliente con el Banco.
Al igual que los “Saldos el día de envío del D01” debe contener la fecha de
otorgamiento del producto, su fecha de extinción, el monto original en pesos, el saldo
operacional, el monto impago en los distintos tramos de morosidad, el monto del capital
vencido, el monto del capital castigado, el saldo disponible en pesos de las líneas y
tarjetas, la tasa de interés anual del producto, el plazo en meses de éste y el tipo de
producto del que se trate.
Rentas de clientes: corresponde a una base de datos con la información financiera de
cada cliente, incluyendo la fecha de su último estado financiero declarado, su
patrimonio, si posee un bien raíz, su renta, el tipo de renta (fija o variable) y si se trata
de un trabajador dependiente o independiente.
Características demográficas: corresponde a la integración de múltiples archivos y
bases de datos operacionales del Banco. Contiene información demográfica tal como el
estado civil, el número de hijos, el nivel educacional, la profesión, el tipo de cliente, la
91
Universidad y el régimen conyugal. Los campos fundamentales que debe incluir esta
fuente de datos son las fechas de nacimiento, las naturalezas jurídicas de las personas,
el campo que indica si se trata de un cliente que presenta alguna cuenta cerrada por el
Banco, y el campo que señala si éste se encuentra en el denominado “File Negativo”.
Factores estimados de carga: corresponde a un archivo de parámetros que contiene los
porcentajes estimados de carga financiera a asignar a la deuda de los clientes con otras
instituciones en las categorías hipotecaria y no hipotecaria.
Ingresos contables por cliente: corresponde generalmente a un datamart que registra
los ingresos que percibe el Banco anualmente por cada cliente en cada producto por
concepto de cobro de mantención, spread de la tasa de interés sobre el costo de fondo,
comisiones por uso de Redbank, cheques y otras transacciones, seguros asociados a
las cuentas y otros ingresos.
8.2 Describir los datos (tarea 2b)
En esta tarea deberán describirse los datos en términos de tipo, distribución, tablas de
frecuencia, valores máximo y mínimo, y estadígrafos tales como el promedio, la
varianza, la asimetría y la curtosis, entre otros.
Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:
8.2.1 Reporte de descripción de datos (output 2b.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado describe
los datos que han sido obtenidos, incluyendo su formato y cantidad en términos de
número de registros y de campos de cada tabla. Entre las actividades que es preciso
desarrollar para obtener este resultado se encuentran:
- Analizar el volumen de los datos.
- Identificar los datos y el método de captura.
- Accesar las fuentes de datos.
- Utilizar análisis estadísticos de ser éstos necesarios para describir los datos.
92
- Realizar un reporte de las tablas que se utilizarán en el proyecto junto a sus
relaciones.
- Chequear la consistencia del volumen de los datos, su multiplicidad y complejidad.
- Verificar que los datos contengan datos consistentes en texto libre.
- Verificar la accesibilidad y la disponibilidad de los atributos o campos de las tablas.
- Verificar los tipos de atributos o campos (numéricos, simbólicos, etc.).
- Chequear los rangos de valores de los atributos o campos.
- Analizar las correlaciones entre los atributos.
- Comprender el significado en términos de negocios de cada atributo y de sus valores.
- Para cada atributo, calcular los estadísticos básicos (promedio, máximo, mínimo,
desviación estándar, varianza, asimetría, curtosis).
- Analizar los estadísticos básicos y relacionar los resultados con un significado en
términos de negocios.
- Determinar si es relevante cada atributo para los distintos objetivos de datamining.
- Entrevistar a expertos en la materia para recoger su opinión respecto de la relevancia
de cada atributo o campo a ser utilizado en el proyecto. Verificar si es necesario
balancear los datos, dependiendo de la técnica de modelamiento utilizada.
- Analizar las relaciones entre las distintas llaves de las tablas de datos a usar en el
proyecto.
- Revisar los supuestos y los objetivos del proyecto.
- Actualizar la lista de supuestos si es necesario.
8.3 Explorar los datos (tarea 2c)
Esta tarea corresponde a un conjunto de análisis de los datos realizados mediante el
empleo de gráficos y tablas. A partir de dichos análisis puede obtenerse información
valiosa sobre la composición de la cartera de clientes de un Banco, sobre tendencias
interesantes y sobre oportunidades de negocios no visualizadas previamente. Dichos
análisis pueden también estar dirigidos directamente al cumplimiento de los objetivos de
93
datamining, como así también al refinamiento de la descripción de los datos o a la
verificación de la calidad de los mismos.
Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:
8.3.1 Reporte de exploración de datos (output 2c.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este output consiste en
una descripción de los resultados de la tarea de exploración de los datos, incluyendo
los primeros descubrimientos o las hipótesis iniciales y su impacto sobre el resto del
proyecto. El reporte puede también incluir gráficos que indiquen las características de
los datos o que conduzcan a la obtención de subconjuntos de datos interesantes para
exámenes ulteriores. Entre las actividades que es preciso desarrollar para obtener este
resultado se encuentran:
- Analizar en detalle las propiedades de aquellos atributos que sean particularmente
interesantes.
- Identificar las características de las subpoblaciones.
- Formar supuestos para futuros análisis.
- Evaluar la información y los descubrimientos que se han elaborado previamente en el
reporte de descripción de los datos (output 2b.1).
- Armar hipótesis sobre los datos.
- Transformar las hipótesis en objetivos de datamining, si es posible.
- Clarificar los objetivos de datamining o hacerlos más precisos.
- Ejecutar análisis básicos para verificar las hipótesis sobre los datos.
8.4 Verificar la calidad de los datos (tarea 2d)
Esta tarea consiste en examinar la calidad de los datos, chequeando que éstos estén
completos, que no tengan valores faltantes y que cubran todos los casos requeridos. Si
los datos contienen errores, debe determinarse qué tan frecuentes son éstos, y si hay
valores faltantes es preciso investigar cómo están representados, dónde ocurren, y qué
94
tan comunes son. Las descripciones de los resultados que deben obtenerse como fruto
de esta tarea se entregan a continuación:
8.4.1 Reporte de calidad de los datos (output 2d.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde a una lista de chequeos sobre la calidad de los datos. Si en los datos hay
problemas de calidad, este output debe contener una lista de las posibles soluciones.
Entre las actividades que es preciso desarrollar para obtener este resultado se
encuentran las siguientes:
- Identificar valores especiales que pueden asumir los campos de los datos y realizar un
catálogo de su significado.
- Revisar las llaves y los atributos de las tablas de los datos.
- Chequear cobertura de los datos (todos los valores que pueden estar representados).
- Chequear si calzan los significados de los atributos con los valores que contienen.
- Identificar los atributos faltantes y los campos en blanco.
- Revisar atributos con un mismo significado, pero que presentan valores distintos.
- Chequear las desviaciones que se producen con respecto al grueso de valores de un
conjunto de datos, y decidir si una desviación particular corresponde o no a un “ruido”.
- Chequear qué tan plausibles son los valores que presentan los campos de los datos
(por ejemplo: todos los campos no pueden tener los mismos o casi los mismos valores).
- Revisar todos los atributos que permiten elaborar conclusiones que caen en conflicto
con el sentido común (por ejemplo: carga financiera superior a un 100%).
- Usar distintos tipos de gráficos para mostrar las inconsistencias en los datos.
- Si los datos están almacenados en archivos de texto plano, chequear qué delimitador
es utilizado y si es usado en forma consistente en todos los atributos. Chequear el
número de campos en cada registro y ver si coinciden.
- Chequear consistencias y redundancias entre diferentes fuentes de datos.
- Planificar cómo manejar el ruido en los datos. Excluir, si es necesario, algunos datos.
- Detectar el tipo de ruido que se presenta en los datos y qué atributos son afectados.
95
9 TERCERA FASE DEL PLAN: PREPARACIÓN DE LOS DATOS
El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de preparación de los datos de la metodología CRISP-DM, junto a los resultados o
outputs que deben obtenerse de la ejecución de cada una de ellas:
Figura 9.1 Tareas y outputs de la fase de preparación de los datos, tercera fase del proyecto de datamining según metodología CRISP-DM46
46 Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
96
El conjunto de tareas de la fase de preparación de los datos, junto a sus
correspondientes resultados se describen a continuación. Se entregan consejos y
recomendaciones que recogen conceptos de la guía de usuario CRISP-DM47 a la vez
que aportes extraídos de la experiencia y reflexión del autor de este documento.
Esta investigación, como se ha señalado antes, no emplea ningún conjunto de datos,
por lo que sólo podrán entregarse indicaciones conceptuales y generales sobre los
resultados que requieren manipulación de datos concretos. Tal es el caso de las
razones para la inclusión o exclusión de datos en el estudio (output 3a.1), del reporte de
limpieza de datos (output 3b.1), de los registros generados (output 3c.2) y de los datos
reformateados (output 3e.1). En cambio, el supuesto sobre la existencia de fuentes de
datos con información suficiente para ésta investigación permite entregar indicaciones
detalladas sobre cómo generar el output 3z.1, a la vez que sobre la descripción de ese
resultado (output 3z.2). De igual modo, mediante el empleo de atributos derivados
(output 3c.1) y de datos mezclados (output 3d.1) es posible también en este capítulo
mostrar cómo pueden estimarse las deudas de los clientes con otras instituciones
financieras a partir de la información disponible en las fuentes de datos.
Dos de los resultados de esta fase no están vinculados a ninguna tarea específica y se
describen en primer lugar (output 3z.1 y 3z.2).
9.1 Conjunto de datos (output 3z.1)
De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste
en el conjunto de datos que son usados para el modelamiento y para la mayor parte del
trabajo de análisis del proyecto de datamining. En la obtención de este resultado es
preciso realizar un esfuerzo considerable al no disponer de un datawarehouse que
almacene toda la información histórica necesaria para construir modelos predictivos de
riesgo y rentabilidad. Tal esfuerzo debe concentrarse en la integración de datos
provenientes de sistemas computacionales distintos y que presentan necesariamente
inconsistencias debido a que contienen información obtenida en fechas distintas.
47 Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
97
9.1.1 Obtención automatizada del conjunto de datos en Clementine
En esta sección se ilustrará como en un Banco carente de un datawarehouse es posible
construir una base de datos con toda la información necesaria para elaborar modelos
predictivos de riesgo o rentabilidad. Dicha base de datos, que corresponde al output
3z.1 del modelo CRISP-DM, será denominada “base final para construir modelo
predictivo” y constará de las siguientes componentes:
a.- Los valores observados hoy de las variables que se esperaba predecir hace un año.
b.- El conjunto de valores de las variables predictivas en igual periodo.
La idea de la presente investigación es desarrollar modelos que a partir de las variables
predictivas hace un año (punto “b” del output 3z.1), sean capaces de estimar el valor
que tendrían en la actualidad las variables a predecir. Dichas estimaciones pueden
contrastarse con los valores observados hoy de aquellas variables (punto “a” del output
3z.1). Se espera construir modelos a partir de las variables del punto “b” cuyas
estimaciones no difieran mucho de las observaciones del punto “a”.
Las variables a predecir son dos: la condición del cliente de ser “malo” en términos de
crédito, y la condición del cliente de ser alguien “sin gran rentabilidad potencial”. El
conjunto de valores de las variables predictivas observables cuando todas las fuentes
de datos tienen fecha de un año atrás se denominará “base de variables predictivas
hace un año”. Por el contrario, el conjunto de valores de las variables predictivas
observables cuando todas las fuentes de datos tienen fecha de hoy se denominará
“base de variables predictivas hoy”. Mientras la “base de variables predictivas hace un
año” permite estimar el valor que tendrían hoy las variables a predecir, la “base de
variables predictivas hoy”, permite estimar el valor que ellas tendrían dentro de un año.
Por la forma como se han definido en la sección 7.2.4 los conceptos de cliente “malo” y
de cliente “sin gran rentabilidad potencial”, los valores de las variables del punto “a” del
output 3z.1 pueden determinarse a partir de la “base de variables predictivas hoy”. En
efecto, cada una de las características que debe poseer un cliente para ser clasificado
como “malo”, o “sin gran rentabilidad potencial” puede determinarse mediante simple
observación de grupos de variables presentes en la “base de variables predictivas hoy”,
sin mediar estimación ni predicción alguna, como se muestra a continuación:
98
Las características de un cliente “malo”, las cuales se detallan a continuación, pueden
todas observarse a partir del grupo de variables de comportamiento:
- Haber presentado deuda directa vencida o deuda directa castigada en los últimos 12
meses de los informes de la SBIF.
- Presentar saldo de capital castigado con el Banco.
- Presentar monto de cartera vencida con el Banco.
- Presentar una deuda renegociada con el Banco que provenga con certeza de créditos
vencidos o castigados.
- Figurar con alguna cuenta “varios deudores” en el Banco, la cual con certeza
provenga de más de 60 días de mora en alguna tarjeta de crédito.
- Figurar en el denominado “file negativo” del Banco, que reúne al conjunto de clientes
con los que éste no desea operar.
- Figurar en el listado de clientes cuyas cuentas han sido cerradas por el Banco.
En cambio, las características de un cliente “sin gran rentabilidad potencial”, y que se
detallan a continuación, pueden observarse a partir de grupos de variables
demográficas, de renta, de comportamiento y de deudas:
- La conjunción de no ser profesional, poseer un ingreso mensual inferior a un monto
determinado y no ser lo suficientemente joven para cambiar de actividad.
- La conjunción de ser profesional, poseer un ingreso mensual inferior a un monto
determinado y no ser profesional joven.
- Ejercer determinadas profesiones y oficios que son mal remunerados, que no permiten
a las personas aumentar sus ingresos significativamente en el futuro, y en los cuales los
sujetos tienden a desempeñarse durante toda su vida.
- La conjunción de no poseer patrimonio, ser mayor a una edad determinada y poseer
un ingreso inferior a un monto determinado.
- Ser hombre y ser una persona mayor.
- Ser mujer y ser una persona mayor.
- Ser un cliente “malo” en términos de riesgo de crédito.
99
- Poseer una capacidad residual de endeudamiento menor a un millón de pesos.
La figura 9.2 muestra como es posible elaborar en Clementine el output 3z.1 a partir de
la “base de variables predictivas hace un año” y de la “base de variables predictivas
hoy”. El flujo de datos, a parte de servir como un diagrama explicativo, constituye un
programa computacional de procesamiento de datos.
Figura 9.2 Flujo de datos en Clementine que obtiene la base de datos final para construir un modelo predictivo48
El nodo etiquetado “Valor hoy de variables que se esperaba predecir hace un año” es
utilizado para calcular los valores de las variables que establecen la condición del
cliente de ser “malo” y de ser alguien “sin gran rentabilidad potencial”. Dichos valores
son calculados a partir de los registros del nodo etiquetado “Base de variables
predictivas hoy”. Luego, de los registros obtenidos se seleccionan solamente los
campos adicionales recién calculados, lo cual se efectúa en el nodo etiquetado
“Selecciona sólo variables que se esperaba predecir hace un año”. Se obtiene de esa
manera lo que corresponde a la parte “a” del output 3z.1, la cual se mezcla con los
registros del nodo “Base de variables predictivas hace un año”, que aporta la parte “b”
del output 3z.1. Se obtiene finalmente una “Base final para construir modelo predictivo”,
que corresponde al output 3z.1
A continuación se entrega el significado de los distintos símbolos utilizados en los flujos
en Clementine, para luego describir el funcionamiento completo del flujo de datos que
obtiene una base de variables predictivas. 48 Fuente: elaboración propia
100
9.1.1.1 Símbolos usados en Clementine para procesar datos Los distintos símbolos usados en los diagramas en Clementine se explican agrupados
en conjuntos con características similares. Los símbolos que se entregan a la derecha
de cada par de íconos se utilizan en este documento para resaltar nodos al momento
de ser explicados en los diagramas.
Supernodos definidos por el usuario:
Los siguientes íconos con forma de estrella, denominados “supernodos”, representan
nodos definidos por el usuario en Clementine y resumen por sí solos flujos de datos
completos. Pueden procesar, depurar, reemplazar o mezclar datos, cambiar su formato
o calcular campos. Si bien pueden llegar a ser arbitrariamente complejos, es posible
concebirlos como simples cajas negras que reciben datos en un input, realizan alguna
labor sobre ellos, y arrojan datos en un output.
Estos íconos reciben como input un flujo de datos online proveniente
de otro nodo en Clementine y luego de procesarlo entregan como
output otro conjunto de datos online, para que éste sea usado a su
vez por otros nodos.
Éstos iconos no reciben sus inputs vía online de otros nodos de
Clementine, sino que directamente de bases de datos. Constituyen,
por lo tanto, los nodos de input de un flujo de datos en Clementine.
Estos íconos reciben online un input de datos proveniente de otros
nodos en Clementine, y luego de procesarlo guardan sus resultados
directamente en bases de datos. Constituyen, por lo tanto, los nodos
de output de un flujo de datos en Clementine.
Flujos de datos:
Estas flechas representan datos que fluyen online en Clementine
desde el output de un nodo hasta el input de otro nodo. Para facilitar
la comprensión de los diagramas en este documento los flujos de
datos casi siempre van de izquierda a derecha.
101
Archivos de parámetros:
Estos íconos representan archivos de que no contienen información
de las bases de datos operacionales propiamente tales, sino tan sólo
parámetros (como la clasificación de los productos, los factores
estimados de carga financiera a asignar a los distintos tipos de
clientes, etc.). Corresponden a pequeños archivos de texto.
Nodos de operaciones sobre los registros o campos:
Los siguientes íconos con forma de hexágono vienen predefinidos en Clementine y
tienen en común el realizar operaciones ya sea sobre los registros de los flujos de
datos, o sobre sus campos (atributos). Dichas operaciones pueden corresponder a la
selección de algunos campos o registros, o a distintas formas de mezclar los datos:
Este icono recibe como input un flujo de datos con un conjunto de
campos (atributos) para cada cliente y entrega como output el mismo
conjunto de datos, sin agregar ni eliminar ningún cliente, pero
habiendo eliminado algunos campos.
Este icono recibe como input un flujo de datos con un conjunto de
campos para cada cliente y entrega como output el mismo conjunto de
datos, pero habiendo eliminado algunos clientes.
Este icono representa la mezcla de dos flujos de datos recibidos como
input, entregando en el output los campos que aporta para cada
cliente tanto el primer como el segundo flujo. En la modalidad “anti-
join” permite seleccionar los registros de clientes del primer flujo que
no están presentes en los registros del segundo flujo.
Este icono representa también la mezcla de dos flujos de datos
recibidos como input, con la diferencia de que en este caso cada flujo
provee exactamente los mismos campos, pero referidos a conjuntos
completamente distintos de clientes. Este icono entrega en el output
los registros de los clientes que recibe en ambos inputs, sin agregar ni
eliminar ningún campo a ningún cliente.
102
En la figura 9.2 se ha hecho referencia a bases de variables predictivas con datos
actuales y con datos válidos hace un año. Ambas bases pueden obtenerse con el flujo
de datos de la figura 9.3 dada abajo, alimentando apropiadamente dicho diagrama con
fuentes de datos con información vigente hoy, o por el contrario vigente hace un año.
Las fuentes de datos con información hace un año pueden obtenerse a partir los
respaldos en cinta de las bases operacionales. El diagrama 9.3 ilustra cómo obtener
una de tales “bases de variables predictivas” a partir de la mezcla, procesamiento y
depuración de las fuentes de datos que cualquier Banco debe necesariamente poseer,
y que se resaltan a la izquierda de la figura. La “base de variables predictivas”, en tanto,
se obtiene en la esquina inferior derecha luego de un largo procesamiento.
Figura 9.3 Gran flujo de datos de Clementine mostrando la obtención de una base de variables predictivas a partir de distintas fuentes de datos49
49 Fuente: elaboración propia
103
9.1.1.2 Flujo de datos que obtiene base de variables predictivas En primer lugar, el flujo de datos trata de determinar las deudas que el cliente tiene con
otras instituciones financieras, para lo cual se requiere conocer las deudas del cliente
con el Banco y que fueron informadas a la SBIF hace dos meses. La idea fundamental
que se utiliza para estimar las deudas del cliente con otras instituciones es que no es
posible conocer dichas deudas hoy, pero si es posible conocer las obligaciones que
hace dos meses tenía el cliente en el sistema financiero. Ello se debe a que el informe
que elabora la SBIF, y que contiene las deudas consolidadas en el sistema financiero
de 4,5 millones de chilenos, es entregado a los Bancos con un desfase de dos meses.
Restando a las deudas que hace dos meses tenía el cliente en el sistema financiero
aquellas deudas que en igual periodo tenía el cliente con el propio Banco es posible
obtener con exactitud las deudas de los clientes con otras instituciones hace dos
meses. A falta de mayor información esa es la mejor estimación para las deudas que
una persona tiene con terceros hoy.
La figura 9.4, dada abajo, muestra como se obtienen las deudas del cliente con el
Banco y que fueron informadas a la SBIF hace dos meses. El diagrama es el mismo
antes entregado en la figura 9.3, con la salvedad de que en la figura la porción del
diagrama que se está analizando es resaltada en un pequeño recuadro en la esquina
superior izquierda. Dicho recuadro es ampliado en un cuadro de detalle en la esquina
inferior derecha. Los registros de la fuente de datos etiquetada “Saldos el día de envío
del D01” se mezclan con el archivo de parámetros titulado “Productos”, de manera tal
de considerar sólo los saldos de cuentas que corresponden efectivamente a productos
de créditos y no a otro tipo de productos o cuentas. Además, el cruce con el nodo
“Productos” permite clasificar los saldos en créditos comerciales, hipotecarios, de
consumo o cupos de líneas o tarjetas. El resultado de dicha mezcla se cruza a su vez
con el “Informe D01 enviado a la SBIF”, de manera que cada ítem reportado a la SBIF
(ya sea como interés, capital o monto en mora), pueda ser atribuido a un producto que
el cliente tenía vigente con el Banco hace dos meses. Así, se arriba al nodo “Deudas de
cliente con el Banco informadas a la SBIF”, cuyos registros almacenan entre sus
campos a una porción de las deudas que presentaban los clientes en el sistema
financiero hace dos meses, porción que corresponde efectivamente a deudas con el
propio Banco.
104
Figura 9.4 Flujo de datos en Clementine que obtiene las deudas de los clientes con el Banco y que fueron informadas a la SBIF hace dos meses50
De acuerdo al plan para estimar las deudas de los clientes con otras instituciones se
mezcla el flujo de datos conseguido hasta este momento y titulado “Deudas de cliente
con el Banco informadas a la SBIF” con la fuente de datos etiquetada “Informe de la
SBIF” y que contiene las deudas consolidadas de los clientes en el sistema financiero
hace 2 meses. Restando a dichas deudas consolidadas las obligaciones de los clientes
con el propio Banco hace dos meses, se obtiene una estimación para las deudas de los
clientes con otras instituciones en el nodo “Deudas de clientes con terceros”, como se
muestra abajo en la figura 9.5. Es preciso notar, sin embargo, que dicho nodo no
contiene las deudas con terceros de aquellos clientes que nunca figuraron en el informe
50 Fuente: elaboración propia
105
D01 enviado a la SBIF hace dos meses. Dicha falencia se solucionará más adelante
(concretamente en el diagrama descrito en la figura 9.9).
Figura 9.5 Flujo de datos en Clementine que estima las deudas de un cliente con terceros51
Se ha obtenido hasta este momento una estimación de las deudas de los clientes con
terceros a partir de las deudas informadas a la SBIF hace dos meses. Sin embargo, en
el caso de las deudas que mantienen los clientes con el propio Banco puede conocerse
el saldo actualizado de dichas obligaciones. Los siguientes diagramas tienen por
propósito precisamente obtener las deudas actualizadas de los clientes con el Banco.
En el diagrama 9.6 se mezclan en primer término los “Saldos actuales” de las cuentas
con los “Productos”, con el fin de clasificar las deudas en créditos comerciales, deudas
51 Fuente: elaboración propia
106
hipotecarias, créditos de consumo, cupos de tarjetas o líneas. Luego dichas deudas son
divididas entre aquellas que corresponden a deudas de cuentas que existían antes del
envío del archivo D01 a la SBIF hace dos meses, y aquellas que son obligaciones
contraídas por los clientes con el Banco hace menos de dos meses, y que por lo tanto
no fueron enviadas en el D01. Ambas bifurcaciones corresponden a los nodos
etiquetados “Saldos de cuentas creadas antes del envío del D01” y “Saldos de cuentas
creadas después del envío del D01”, como se muestra a continuación:
Figura 9.6 Flujo de datos en Clementine que obtiene los saldos actuales de las cuentas, tanto antes como después del envío del D01 hace dos meses52
Los datos del nodo “Saldos de cuentas creadas antes del envío del D01” servirán para
actualizar las obligaciones que tenían los clientes con el Banco hace dos meses y que
52 Fuente: elaboración propia
107
por lo tanto aparecen entre las deudas consolidadas de los clientes en el último informe
de la SBIF. El diagrama 9.7 muestra esa actualización, mezclando el flujo “Saldos de
cuentas creadas antes del envío del D01” con los registros provenientes del nodo que
cruza “Informe D01 enviado a la SBIF” y la mezcla de “Saldos el día de envío del D01” y
“Productos”. El resultado es etiquetado “Saldos actualizados de cuentas reportadas en
el D01 enviado a la SBIF”.
Figura 9.7 Flujo de datos en Clementine que obtiene los saldos actualizados de las cuentas reportadas hace dos meses en el D01 enviado a la SBIF53
El siguiente diagrama muestra como se consolidan la totalidad de deudas de los
clientes con el Banco, tanto aquellas que se refieren a cuentas informadas a la SBIF
hace dos meses como aquellas que el cliente contrajo posteriormente. Ello se obtiene
53 Fuente: elaboración propia
108
mediante la mezcla del resultado del nodo “Saldo de cuentas creadas después del
envío del D01” y del nodo “Saldos actualizados de cuentas reportadas en el D01
enviado a la SBIF”. El resultado es denominado “Deudas de clientes con el Banco”.
Figura 9.8 Flujo de datos en Clementine que obtiene las deudas actualizadas de los clientes con el Banco54
El lector habrá podido observar que el nodo “Saldos actuales” ya contenía las deudas
actualizadas de los clientes con el Banco. No parece muy inteligente separar los
registros de dicho nodo en “Saldos de cuentas creadas antes del envío del D01 y
“Saldos de cuentas creadas después del envío del D01”, para luego volver a unir ambos
conjuntos de registros en el nodo “Deudas de clientes con el Banco”. La separación y
posterior unión de registros se realiza con el propósito de descartar errores en los
54 Fuente: elaboración propia
109
archivos operacionales. En efecto, si una cuenta fue creada antes de la fecha de envío
del D01 hace dos meses, entonces necesariamente debiera aparecer entre los registros
del nodo “Informe D01 enviado a la SBIF”, o de lo contrario correspondería a un error
en los archivos operacionales, y debiera por lo tanto ser descartada. En este caso se
supone que los registros del nodo “Informe D01 enviado a la SBIF” no presentan los
errores que se observan en los datos operacionales del nodo “Saldos actuales”. Ello se
fundamenta en el hecho de que la información provista a la SBIF debe pasar por
exhaustivos procesos de depuración previos.
Si bien el número de errores en los datos puede ser muy reducido, es preciso
considerar que mecanismos como el antes descrito son vitales en datamining para
limitar su impacto. En efecto, aun cuando los datos puedan contener un 2% de datos
erróneos, ello puede ser totalmente inaceptable para construir modelos que traten de
detectar a clientes malos en una cartera (debe tenerse en consideración que los
clientes “malos” representarán generalmente un porcentaje inferior a un 2% de la
cartera55). La reducción de los errores presentes en la muestra que se empleará para
construir un modelo es uno de los medios para mejorar la predictibilidad de dicho
modelo.
Siguiendo con la explicación del flujo de datos que genera el output 3z.1, es preciso
notar que hasta este momento se han obtenido dos cosas importantes con los
diagramas de Clementine:
- Las deudas actualizadas del cliente con el Banco
- Una estimación de las deudas con terceros de los clientes que figuraron en el D01
enviado a la SBIF hace dos meses.
Falta, no obstante, un tercer elemento para obtener las deudas totales de los clientes,
tanto con el Banco como con terceros: el conjunto de deudas con terceros de aquellos
clientes recientes que nunca figuraron en el D01 enviado a la SBIF hace dos meses.
Dichos clientes recientes se denominarán “nuevos” de aquí en adelante. El siguiente
diagrama muestra la mezcla de los nodos “Deudas de clientes con terceros” y “Deudas
de clientes con el Banco”, para luego clasificar los resultados en “clientes nuevos” (con
menos de dos meses en el Banco) y “clientes antiguos”:
55 El autor del presente documento sugiere limitar los errores en los datos a niveles inferiores a 0,1%.
110
Figura 9.9 Flujo de datos en Clementine que separa los clientes “nuevos” (de hace menos de dos meses) de los clientes antiguos56
El flujo explicado hasta este punto nunca ha rescatado las deudas del informe SBIF de
aquellos clientes que son “nuevos”. En efecto, en el flujo de datos se han obtenido
únicamente los registros del informe de la SBIF que corresponden a clientes que
figuraron en el informe D01 enviado hace dos meses, en circunstancias que los clientes
“nuevos” nunca estuvieron en dicho informe. Para obtener una estimación de las
deudas con terceros de esos clientes será preciso cruzar el nodo “clientes nuevos” con
el nodo “Informe de la SBIF”. Las estimaciones de las deudas de los clientes “nuevos”
con terceros no será otra cosa que la totalidad de las deudas de dichos clientes en el
último informe de la SBIF. Dichas estimaciones se muestran en el siguiente diagrama a
través del nodo denominado “Deuda con terceros de clientes nuevos”: 56 Fuente: elaboración propia
111
Figura 9.10 Flujo de datos en Clementine que estima las deudas con terceros de los clientes “nuevos” (de menos de dos meses de antigüedad)57
En la figura 9.10 el recuadro superior que se utiliza para explicar el flujo de datos está
constituido por dos áreas disjuntas con borde sinusoidal, las cuales luego de ser
ampliadas aparecen en la parte inferior del diagrama en un cuadro de detalle. Dicha
representación no tiene otro propósito que mostrar el cuadro de detalle con un nivel de
aumento que facilite la lectura. Una representación análoga para el área a ser explicada
se utiliza en la figura 9.11, la cual muestra como se obtiene una base general de
clientes a partir de la unión de los registros del nodo “clientes antiguos” y del nodo
“Deudas con terceros de clientes nuevos”. El resultado es etiquetado “Deudas de
clientes con el Banco y terceros”.
57 Fuente: elaboración propia
112
Figura 9.11 Flujo de datos en Clementine que obtiene las deudas de los clientes tanto con el Banco como con terceros58
Hasta el momento pareciera que el diagrama en Clementine tuviese por propósito
simplemente estimar adecuadamente las deudas de los clientes y en verdad ese ha
sido principalmente el foco hasta ahora. No obstante, es preciso indicar que junto con
los flujos de datos descritos hasta este momento deben necesariamente viajar campos
que no corresponden a deudas y que son vitales para construir la base de variables
predictivas. Entre esos campos se encuentran las variables del tipo de relación del
cliente con el Banco (antigüedad, tipo de cliente, etc.), los servicios contratados con el
Banco y las variables de comportamiento histórico (morosidades, deudas vencidas,
etc.). A parte de esos campos es preciso también enriquecer el flujo de datos con
58 Fuente: elaboración propia
113
variables demográficas y de renta, lo cual se realiza a través del flujo de datos descrito
en la figura 9.12 dada abajo:
Figura 9.12 Flujo de datos en Clementine que mezcla los datos de las deudas de los clientes, de su renta y de sus características demográficas59
El diagrama 9.12 muestra la mezcla del nodo “Deudas de clientes con el Banco y
terceros” con la fuente de datos “Rentas de clientes”. El resultado de la mezcla anterior
aparece en la figura bajo la etiqueta “¿Existe renta?”, y es mezclado a su vez con la
fuente de datos “Características demográficas”. El resultado final es denominado “¿Está
en file negativo?” por permitir, entre otras cosas, identificar a los clientes impedidos de
operar con el Banco. El siguiente diagrama, en tanto, muestra la obtención de la base
de variables predictivas a partir del flujo de datos antes descrito.
59 Fuente: elaboración propia
114
Figura 9.13 Flujo de datos en Clementine que obtiene la base de variables predictivas60
El conjunto de datos recibido de las etapas anteriores a través del nodo “¿Está en file
negativo” es mezclado con los registros de la fuente de datos denominada “Factores
estimados de carga”. Dicha fuente de datos contiene, para distintos tramos de renta,
una estimación de la carga financiera que un cliente promedio tendría por cada 100
pesos de deuda en el sistema financiero, distinguiendo la deuda en categorías
“hipotecaria” y “no hipotecaria”. El resultado de la mezcla permite calcular el nivel de
carga financiera de cada cliente, lo cual es realizado en el nodo que aparece en el
diagrama bajo la etiqueta “Carga financiera”. Finalmente, la mezcla del nodo “Carga
financiera” con la fuente de datos “Ingresos contables por cliente” genera la “Base de
variables predictivas” final, como indica la figura en el margen inferior derecho. 60 Fuente: elaboración propia
115
En las secciones previas se ha discutido ampliamente cómo es posible obtener el
conjunto de datos correspondiente al output 3z.1 de la fase de preparación de los datos,
sirviéndose para ello de la herramienta de datamining utilizada en el presente
documento (Clementine). En las secciones siguientes continuarán describiéndose los
distintos resultados que deben obtenerse y las distintas tareas que deben realizarse
como parte de la fase de preparación de los datos del proyecto de datamining.
9.2 Descripción del conjunto de datos (output 3z.2)
Este resultado es el segundo de esta fase del proyecto de datamining que no está
vinculado directamente a ninguna tarea, y corresponde a la descripción del output 3z.1,
denominado en este documento “Base final para construir modelo predictivo”.
El output 3z.1 debe contener toda la información que a priori se considera relevante
para elaborar un modelo capaz de predecir el comportamiento futuro del cliente en
términos de riesgo y de rentabilidad potencial. El output 3z.1 debe poseer, por lo tanto,
90 campos, incluyendo un campo para cada una de las 88 variables descritas en el
capítulo 8. Además debe incluir dos campos adicionales para las variables que se
espera predecir, y que son la condición de ser “malo” en términos de riesgo y de ser un
cliente “sin gran rentabilidad potencial”.
9.3 Seleccionar los datos (tarea 3a)
Esta tarea consiste en escoger los datos que serán utilizados en el proyecto de
datamining. Los criterios de selección deberán incluir tanto la relevancia para los
objetivos de datamining, como las restricciones técnicas y de calidad (tales como los
límites en la capacidad de almacenamiento de los datos).
Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:
9.3.1 Razones para la inclusión o exclusión de datos (output 3a.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado consiste
en una lista de todos los datos a ser usados o a ser excluidos en el proyecto de
datamining, junto a las razones que justifican dichas decisiones. Entre las actividades
que es preciso desarrollar para obtener este resultado se encuentran las siguientes:
116
- Recolectar datos adicionales de diferentes fuentes, tanto internas como externas a la
institución.
- Ejecutar tests de significancia y de correlación para decidir si los distintos campos
debieran ser incluidos o no.
- Reconsiderar los criterios de selección de los datos a la luz de la experiencia que se
haya tenido sobre la calidad de éstos. Decidir si se deben incluir o excluir otros
conjuntos de datos.
- Reconsiderar los criterios de selección de los datos a la luz de la experiencia que se
haya tenido en una fase de modelamiento posterior (por ejemplo: pueden requerirse
conjuntos de datos adicionales para aumentar la capacidad predictiva del modelo de
datamining).
- Seleccionar diferentes subconjuntos de datos (por ejemplo: sólo datos que reúnan
ciertas condiciones).
- Considerar el uso de técnicas de muestreo, lo cual puede ser necesario si una
solución involucra la reducción del tamaño del conjunto de datos de prueba, o si la
herramienta de datamining es incapaz de manejar el conjunto de datos completo.
- A partir de los criterios de selección de datos, decidir si uno o más atributos son más
importantes que otros y ponderarlos de acuerdo a ello. Basar la ponderación en el
contexto del problema (por ejemplo: en base a la utilización que se haga de los
atributos). Puede también ser útil tener muestras ponderadas para dar distinta
importancia a diferentes atributos o a diferentes valores del mismo atributo. Más
adelante, en el capítulo 10, se describe cómo puede ser deseable tener conjuntos de
datos de entrenamiento con una proporción de clientes “malos” mayor a la proporción
de clientes “buenos”, aun cuando en la realidad los clientes malos representen menos
de un 2% de la cartera.
- Documentar las razones para la inclusión o exclusión de atributos.
- Chequear las técnicas disponibles para el muestreo de datos.
Es importante señalar que en esta etapa del proyecto es preciso disminuir al máximo el
número de variables con que se alimentarán los modelos de datamining a desarrollar en
la fase siguiente. Si bien los modelos de regresión logística pueden ser refinados
117
iterativamente de manera de considerar sólo las variables realmente relevantes, y los
árboles de decisión permiten descartar los atributos irrelevantes mediante la “poda 2χ ”,
los modelos de redes neuronales no otorgan igual ventaja. Por otro lado, aun cuando
las técnicas de modelamiento permitan descartar atributos, puede simplificarse
enormemente el trabajo de generación de un modelo disminuyendo en esta fase el
número de las variables a considerar. Además existe un fenómeno, conocido como
“sobreajuste”, que puede afectar por igual a cualquier técnica de modelamiento, y en
virtud del cual los modelos tratan de replicar errores o ruidos aleatorios de los datos, de
manera de imitar lo más posible una muestra de datos particular. El sobreajuste
incorpora a los modelos variables que son irrelevantes, y que perjudican su
predictibilidad. Para evitar el fenómeno deben realizarse análisis de manera de
considerar en los modelos sólo las variables que son realmente relevantes.
9.4 Limpiar los datos (tarea 3b)
Esta tarea pretende mejorar la calidad de los datos, de manera de alcanzar el nivel de
calidad requerido por las técnicas de datamining que se seleccionen en la fase
siguiente del proyecto. Esta tarea puede involucrar la selección de subconjuntos de
datos que no presenten errores, como así también la inserción de valores por omisión
en el caso de existir datos faltantes.
La descripción de los resultados que se deben obtener como fruto de esta tarea se
entrega a continuación:
9.4.1 Reporte de limpieza de los datos (output 3b.1) De acuerdo a la guía de usuario CRISP-DM este resultado describe las acciones
tomadas para enfrentar los problemas de calidad de datos y que fueron reportados
durante la ejecución de la tarea 2d de la fase anterior del proyecto. Este output debe
también identificar los problemas de calidad de los datos que están aun vigentes. En
este punto se debe determinar también si los datos con errores serán utilizados en el
proyecto y deben describirse las posibles consecuencias que ello podría traer sobre los
resultados de datamining. Entre las actividades que es preciso desarrollar para obtener
este resultado se encuentran las siguientes:
118
- Reconsiderar el tratamiento que se dará a los distintos tipos de ruido que se hayan
observado en los datos
- Corregir, resolver o ignorar el ruido presente en los datos
- Determinar cómo manejar valores especiales, y qué significado atribuirles. Los valores
especiales pueden conducir a muchos resultados extraños y deben ser examinados
cuidadosamente. Ejemplos de valores especiales pueden surgir de información que no
fue preguntada a los clientes o que no fue respondida por éstos. También pueden
encontrarse valores especiales cuando los datos son truncados (por ejemplo 00 para la
edad de 100 años).
- Reconsiderar los criterios de selección de datos a la luz de la experiencia que se haya
tenido con respecto a la limpieza de datos. Decidir si se deben incluir o excluir otros
conjuntos de datos.
9.5 Construir datos (tarea 3c)
Esta tarea incluye la generación de atributos derivados a partir de otros campos, como
es el caso de los promedios o de la carga financiera estimada. Incluye también el
cambio de los formatos de los campos existentes, como puede ser el caso de la
transformación de la renta y la edad en categorías de renta y de edad. La
transformación de variables numéricas en variables discretas es necesaria para permitir
a los algoritmos de modelamiento entregar resultados en tiempos razonables (como es
el caso de las redes neuronales).
Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:
9.5.1 Atributos derivados (output 3c.1) De acuerdo a la guía de usuario CRISP-DM este resultado consiste en nuevos atributos
que se han construido a partir de uno o más campos existentes en un mismo registro.
Un ejemplo de atributo derivado es la edad, calculada a partir de la fecha de
nacimiento. Entre las actividades que es preciso desarrollar para obtener este resultado
se encuentran las siguientes:
- Decidir si algún atributo debiera ser normalizado.
119
- Determinar cómo pueden ser construidos o ingresados los datos faltantes. Determinar
el tipo de construcción (por ejemplo mediante un promedio, interpolando, o a partir de
un modelo predictivo).
- Agregar nuevos atributos a los datos.
Importantes atributos derivados son las estimaciones de las deudas de los clientes con
otras instituciones financieras, las cuales se explican a continuación:
9.5.1.1 Estimación de las deudas con otras instituciones financieras Las obligaciones de un cliente con otras instituciones financieras se pueden estimar
como las deudas consolidadas de dicha persona en el último informe SBIF menos las
deudas que ésta persona mantuvo con el Banco y que debieron ser reportadas al
organismo supervisor en el mismo periodo. Si bien parece un proceso simple, se
complica porque la fecha del último informe de la SBIF está desfasada dos meses con
respecto al presente. Por otro lado, las deudas que son informadas por el Banco a la
Superintendencia no están clasificadas exactamente en la misma forma que las
obligaciones en el informe de la SBIF. Así, es difícil a priori saber con exactitud qué
porcentaje de cada deuda del informe SBIF provino de qué obligación del cliente con el
Banco. Para identificar qué deudas del archivo de operaciones fueron reportadas a la
SBIF y bajo qué criterio deberá utilizarse información empleada en la elaboración del
informe D01. Dicha información debe contener para cada cuenta asociada a una
operación (intereses, capital, etc.) el monto que es reportado a la SBIF bajo distintas
categorías de deuda vencida o vigente y de cuentas de activo o de orden. El proceso de
estimación de las deudas con otras instituciones, por lo tanto, no es inmediato, y es de
esperar que se produzcan errores. No obstante, es preciso limitar dichos errores a
niveles aceptables, menores al 1%, para asegurar que las muestras permitan elaborar
modelos confiables.
9.5.2 Registros generados (output 3c.2) Este resultado es el segundo de la tarea de construir datos (tarea 3c). De acuerdo a la
guía de usuario CRISP-DM este output corresponde a registros que incorporan nueva
información, que de otra forma no estaría presente en las muestras empleadas para
realizar datamining (por ejemplo: habiendo segmentado los datos puede ser útil
120
incorporar un registro adicional para un cliente prototipo de cada segmento). Entre las
actividades que es preciso desarrollar para obtener este resultado se encuentra:
- Chequear las técnicas disponibles para generar datos, si es que éstas se requieren
(por ejemplo: mecanismos para determinar las características de los “clientes-prototipo”
de cada segmento).
9.6 Integrar los datos (tarea 3d)
En esta tarea se combina la información de múltiples bases de datos, archivos y tablas.
Ello es necesario para obtener ciertos valores, como es el caso de las deudas
estimadas de los clientes con otras instituciones. La descripción del resultado que debe
obtenerse como fruto de esta tarea se entrega a continuación:
9.6.1 Datos mezclados (output 3d.1) Este resultado corresponde a la obtención de conjuntos de datos a partir dos o más
tablas que tienen información distinta sobre los mismos clientes, sobre los mismos
productos o sobre las mismas operaciones. Entre las actividades que es preciso
desarrollar para obtener este resultado se encuentran las siguientes:
- Chequear que las herramientas de integración sean capaces de mezclar las fuentes
de datos como se requiere.
- Integrar las fuentes de datos y almacenar el resultado.
- Reconsiderar los criterios de selección de datos a la luz de la experiencia que se haya
tenido en la integración de datos. Determinar si se deben incluir o excluir nuevos
conjuntos de datos.
Como se ha ilustrado al comienzo de este capítulo, la mezcla de datos se utiliza
intensivamente en la generación del output 3z.1, al integrar registros provenientes de
una amplia gama de fuentes de datos distintas. La mezcla de datos permite también
elaborar estimaciones de las deudas de los clientes con otras instituciones financieras,
por cuanto éstas se construyen a partir de diversas fuentes de datos (las bases
operacionales del Banco, los informes D01 enviados a la SBIF y los reportes con las
deudas consolidadas de las personas que dicho organismo supervisor entrega
mensualmente).
121
9.7 Formatear los datos (tarea 3e)
En esta tarea se realizan modificaciones sobre los datos que no alteran su significado,
pero que pueden ser necesarias para trabajar con la herramienta de datamining. Un
ejemplo puede ser el cambio de la variable RUT desde tipo texto a número, a fin de
mezclar información sobre un mismo cliente contenida en dos tablas, en una de las
cuales el RUT es numérico y en la otra, texto. La descripción del resultado que debe
obtenerse como fruto de esta tarea se entrega a continuación:
9.7.1 Datos reformateados (output 3e.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde al conjunto de datos cuya representación computacional ha sido cambiada
sin modificar su significado. Entre las actividades que es preciso desarrollar para
obtener este resultado se encuentran las siguientes:
- Cambiar el orden de los campos de los registros.
- Ordenar los registros.
- Reformatear el almacenamiento interno de los valores (por ejemplo: de texto a
número).
122
10 CUARTA FASE DEL PLAN: MODELAMIENTO
El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de modelamiento de la metodología CRISP-DM, junto a sus resultados:
Figura 10.1 Tareas y outputs de la fase de modelamiento, cuarta fase del proyecto de datamining según metodología CRISP-DM61
A continuación se describen las distintas tareas que es preciso realizar en esta fase
junto a los resultados que deben obtenerse de cada una. Se entregan asimismo
61 Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
123
consejos y recomendaciones extraídos de la guía de usuario CRISP-DM62 y de la
experiencia y reflexión del autor de este documento. Puesto que esta tesis no se basa
en ningún conjunto de datos, no pueden, por lo tanto, entregarse indicaciones
específicas con respecto a los resultados que requieren de la manipulación de datos
concretos. Así ocurre con los supuestos de modelamiento (output 4a.2), con la
definición de los parámetros de los modelos (output 4c.1) y con el establecimiento de
los parámetros revisados (output 4d.2). En cambio, en este capítulo se ofrece una
extensa descripción de las tres técnicas de modelamiento (output 4a.1) que se ajustan
mejor al caso de las campañas bancarias. Así mismo, al explicar el diseño de las
pruebas (output 4b.1) se dan también indicaciones prácticas referidas a las campañas
bancarias. Del mismo modo al describir el output 4c.3 se explican las formas de
especificar los modelos de riesgo y de rentabilidad con cada una de las tres técnicas de
modelamiento antes mencionadas. Posteriormente, al momento de comentar la
evaluación técnica de los modelos (output 4d.1) se detallan las principales medidas
estadísticas que es posible utilizar, a la vez que se explica cómo automatizar el proceso
de evaluación técnica mediante el empleo de Clementine.
10.1 Seleccionar la técnica de modelamiento (tarea 4a)
Como primer paso en el modelamiento es preciso seleccionar la técnica que se utilizará.
Las distintas técnicas disponibles deben evaluarse en relación a su capacidad para
alcanzar los objetivos de datamining, teniendo en cuenta las restricciones de recursos
del proyecto. No debe olvidarse que no todas las herramientas y técnicas son aplicables
a cada tarea, para ciertos problemas solo algunas técnicas son apropiadas. Puede ser
el caso que solo una herramienta o técnica esté disponible para resolver el problema, y
aun aquella puede no ser del todo técnicamente la mejor alternativa para el problema
en cuestión. La descripción de los resultados que se deben obtener como fruto de esta
tarea se entrega a continuación:
10.1.1 Técnica de modelamiento (output 4a.1) Corresponde a la descripción de la técnica de modelamiento que se utilizará en el
proyecto de datamining. Entre las actividades que es preciso desarrollar para obtener 62 Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
124
este resultado se encuentra decidir sobre las técnicas apropiadas de datamining,
teniendo en mente la herramienta de software escogida (Clementine en este caso).
Entre las técnicas de modelamiento más apropiadas para desarrollar modelos
predictivos de riesgo y rentabilidad se encuentran la regresión logística, las redes
neuronales y los árboles de decisión, y las tres son soportadas por Clementine. En las
secciones siguientes se describirán en detalle esas tres técnicas, indicando
específicamente como construir modelos predictivos de riesgo y rentabilidad, y cómo
dichos modelos pueden ser refinados a través de diversos mecanismos.
10.1.2 Regresión logística La regresión logística es un método estadístico adaptado al estudio del vínculo entre
una variable cualitativa y un conjunto de variables cuantitativas. La regresión logística
es similar a la regresión múltiple y es utilizada con frecuencia cuando la variable
dependiente es binaria, como es el caso de la clasificación de los clientes en buenos y
malos en términos crediticios, o clientes con potencial y sin potencial en términos de
rentabilidad. El método puede utilizarse también cuando las variables explicativas son
cualitativas, reemplazando los valores de cada variable cualitativa por un índice. En el
modelo más simple de regresión logística la variable dependiente Y es binaria, en tanto
que la única variable explicativa X es numérica, por ejemplo:
X : carga financiera
Y : condición de bueno o malo en términos de riesgo de crédito (0: bueno, 1: malo)
Se denotan las observaciones de las variables con letras minúsculas:
x : observación de la variable X para el caso de un cliente cualquiera
y : observación de la variable Y para el caso de un cliente cualquiera
Ahora bien, las observaciones x e y referidas a un cliente específico i se denotan
como ix e iy , respectivamente. De las variables aleatorias }{ n21 YYY ..., se obtienen
n observaciones independientes denotadas por el vector )( n21 yyyy ...,=r
, y que
corresponden a la condición de buenos o malos de n clientes distintos. El conjunto de
las variables explicativas de todos esos clientes se denomina )( n21 xxxx ...,=r
.
125
No es posible visualizar con claridad la existencia de una relación entre X e Y si las
observaciones antes obtenidas se representan contrastadas con los valores de la carga
financiera de cada cliente, como muestra el siguiente gráfico:
Figura 10.2 Clientes buenos y malos versus carga financiera63
En cambio, si se divide la variable carga financiera en clases y se calcula para cada una
la proporción de clientes malos, se obtiene una gráfica bastante más instructiva:
Figura 10.3 Proporción de clientes malos por clase de carga financiera64
63 Fuente: elaboración propia a partir del libro de TENENHAUS, Michele, Méthodes Statistiques en Gestion, Editorial Dunod, France, 1996 64 Fuente: idem. a la anterior
126
Puede estimarse la probabilidad de que un cliente sea malo dada una carga financiera
a partir de la proporción de clientes malos por clase. Por otro lado la mencionada
probabilidad condicional es igual a la esperanza ( )xYE , como lo demuestran las
siguientes ecuaciones: ( ) ( ) ( ) ( )x1YP0x0YP1x1YPxYE ** ===+==
El modelo de regresión lineal ( ) βxαxYE += no es aconsejable para representar la
condición de buenos y malos de los clientes por varias razones:
1.- El modelo de regresión lineal entrega predicciones para la variable dependiente
fuera del intervalo [0, 1].
2.- La derivada ( )( )dx
xYEd debiera tender a cero cuando x tiende a cero o a uno.
3.- Las variables dependientes binarias violan supuestos del modelo de regresión lineal,
por cuanto sus errores no son normales sino binomiales y tampoco tienen una varianza
constante (puesto que aquella es una función del valor a predecir).
El modelo de regresión logística permite representar de mejor manera ( )xYE . El
supuesto básico del modelo consiste en describir las probabilidades como una función
logística de las variables explicativas. En el caso de una única variable explicativa la
probabilidad de que un cliente i sea malo, denotada como iπ , debe cumplir:
( ) ( )
i
i
iii βxα1
βxαx1YPxYEπ
ee
++
+====
En lugar de modelar las probabilidades iπ directamente, se prefiere modelar una
transformación de ellas denominada logit, la cual se muestra en la siguiente ecuación
bajo la notación )( ixg para remarcar su dependencia de ix :
i
i
ii βxα
π-1π lnx +=
=)(g
En la jerga de los modelos automatizados de decisión de crédito se conoce como
“odds” al término i
i
ππ1−
. Puede observarse que el modelo de regresión logística es
lineal en el logaritmo de los “odds”.
127
Los parámetros α y β del modelo de regresión logística pueden estimarse mediante
el método de máxima verosimilitud. La función verosimilitud no es otra cosa que la
probabilidad de obtener valores de la variable Y , probabilidad expresada en forma tal
que las variables explicativas X se suponen fijas y los parámetros α y β se
consideran variables. Dada una muestra de n clientes, con un conjunto de valores de
las variables explicativas denotado por el vector )( n21 xxxx ...,=r
y un conjunto de
valores de las variables dependientes denotado por )( n21 yyyy ...,=r
, el método de
máxima verosimilitud obtiene los parámetros α y β que hacen que el valor de la
función verosimilitud sea máximo. Dicho de otro modo, el método obtiene los
parámetros del modelo de regresión que hacen más probable la obtención de una
muestra. Para obtener la función verosimilitud de un conjunto de variables
)( n21 yyyy ...,=r
correspondientes a la condición de buenos o malos de n clientes
distintos, es preciso notar que las probabilidades de que un cliente i sea bueno o malo
pueden ser escritas como potencias de iy , como muestran las siguientes ecuaciones:
( ) ( ) ( ) ( ) i1i
1iii
yπ-1π-1π-10yP
−====
( ) ( ) ( ) ii
1iii
yπππ1yP ====
En ambos casos pueden escribirse las probabilidades como: ( ) ( ) i1i
ii
yπ-1
yπ
−
Si las variables }{ n21 YYY ..., son independientes entre si, la probabilidad de obtener los
resultados )( n21 yyyy ...,=r
se obtiene multiplicando las probabilidades de obtener
cada iy . Por ello, la función verosimilitud de obtener )( n21 yyyy ...,=r
puede
escribirse, en tal caso, como sigue:
( ) ( ) ( )
= ∏
=
−n
1i
i1i
ii
yπ-1
yπyrL
Para determinar los parámetros que hacen que dicha función sea máxima puede
igualarse a cero el gradiente de la función verosimilitud ( )yrL con respecto al vector de
128
parámetros )( β ,αβ =r
. No obstante, normalmente se prefiere trabajar con el logaritmo
de la función verosimilitud, que se denotará como ( )yrl y que puede calcularse como lo
indica la siguiente ecuación:
( ) ( )( ) ( ) ( )
== ∏
=
−n
1i
i1i
ii
yπ-1
yπlnylny rr
Ll
Dado que la función logaritmo es monótona creciente, ( )yrL y ( )yrl son maximizadas
por los mismos valores de βr
, por lo que se maximizará ( )yrl para obtener los
estimadores )( β ,αβ ˆˆˆ=
r de los parámetros del modelo. Utilizando las propiedades de
los logaritmos es posible escribir la ecuación anterior de manera más simple:
( ) ( )
( )∑ ∑
∏
= =
∗
=
+
=
=
n
1i
n
1ii
i
ii
n
1ii
i
i
i
π-1lnπ-1πlny
π-1y
π-1πlnyrl
Luego puede expresarse ( )yrl en términos de los parámetros βr
, utilizando las
ecuaciones siguientes:
( )
βxαπ-1π ln
βxα1ln
βxα1
1lnβxα1
βxα1lnπ1ln
ii
i
i
ii
ii
eee
e
+=
++−=
+
+=
++
+−=−
Finalmente se obtiene la siguiente expresión para ( )yrl :
( ) ( )( )∑ ∑
= =
∗
++−+=
n
1i
n
1i
iii
βxα1lnβxαyy er
l
129
Calculando el gradiente de ( )yrl con respecto a los parámetros βr
, evaluando luego
dicho gradiente en los estimadores βr̂
de los parámetros del modelo e igualando las
ecuaciones resultantes a cero, se obtendrá el conjunto de ecuaciones:
0β
)β(
rr
r=∇ ˆl
Dichas ecuaciones permiten obtener los estimadores de máxima verosimilitud y pueden
escribirse en este caso como sigue:
0πxyx
βxα1
βxαxyx
βyβ
0πy
βxα1
βxαy
αyβ
n
1i
n
1iiiii
n
1i
n
1i i
iiii
n
1i
n
1iii
n
1i
n
1i i
ii
ee
ee
=−=
++
+−=
∂∂
=−=
++
+−=
∂∂
∑ ∑
∑ ∑
∑ ∑
∑ ∑
= =
= =
∗
= =
= =
)(
)(
rr
rr
l
l
Este sistema de ecuaciones no tiene solución analítica y requiere de un proceso
numérico iterativo para resolverlas. Dicho proceso puede no converger a una solución.
10.1.2.1 Representación de modelos mediante regresión logística
El modelo que se ha descrito hasta este punto puede ser generalizado para k variables
explicativas, correspondientes a distintas características de cada cliente. El conjunto de
dichas variables será resumido en una sola variable explicativa vectorial, como lo
muestra la fórmula: )( k21 XXXX ...,= . Un conjunto de observaciones de dichas
variables, referidas todas a un mismo cliente i se denotará por )( ki
2i
1ii xxxx ...,= . La
probabilidad de que un cliente i sea malo, en este caso, queda descrita por la siguiente
130
función logística: kik
1i10i xβxββx +⋅⋅⋅++=)(g , donde )( ixg es la transformación
logit. Las probabilidades iπ , por lo tanto, deberán cumplir:
)(
)(
i
i
i x1
xπ
eeg
g
+=
Al igual que en el modelo simple de regresión logística, en este caso el logaritmo de la
función verosimilitud podrá también expresarse mediante la fórmula:
( ) ( )
( )∑ ∑
∏
= =
∗
=
+
=
=
n
1i
n
1ii
i
ii
n
1ii
i
i
i
π-1lnπ-1πlny
π-1y
π-1πlnyrl
La cual puede representarse en términos de los parámetros ,
utilizando para ello las siguientes ecuaciones:
( )
xπ-1π ln
x1ln
x1
1lnx1
x1lnπ1ln
ii
i
i
ii
ii
eee
e
)(
)(
)()(
)(
g
g
gg
g
=
+−=
+=
+−=−
Finalmente se obtiene la siguiente expresión para ( )yrl :
( ) ( )∑ ∑
= =
∗
+−=
n
1i
n
1i
iii
x1lnxyy e )(
)(g
glr
Por lo que las ecuaciones
0β
)β(
rr
r=∇ ˆl se convierten en:
131
}{
)(
)(
)(
)(
1,...kj0πxyx
x1
xxyx
β)yβ(
0πy
x1
xy
β)yβ(
n
1i
n
1ii
jii
ji
n
1i
n
1i i
ij
iij
ij
n
1i
n
1iii
n
1i
n
1i i
ii
0
ee
ee
∈∀=−=
+−=
∂∂
=−=
+−=
∂∂
∑ ∑
∑ ∑
∑ ∑
∑ ∑
= =
= =
∗
= =
= =
g
gl
g
gl
rr
rr
Los estimadores de los parámetros vienen dados por: ( )k10 β... ,β ,ββ ˆˆˆˆ=
r
10.1.2.2 Refinamiento iterativo de los modelos de regresión logística Para refinar el modelo de regresión logística es importante incorporar en él solo las
variables que son realmente predictivas, por cuanto el resto sólo contribuye a aumentar
los errores entre las observaciones y las predicciones. Por ello es preciso determinar el
aporte de cada variable al modelo, para lo cual existen diversos tests, entre ellos el test
de Wald, el test de Score, y test de razón de verosimilitud, siendo éste último el más
utilizado. En el test de razón de verosimilitud se calcula el estadístico G :
−= ∗
variable la con tudVerosimilivariable la sintudVerosimililn2G
Bajo la hipótesis 0H de que el coeficiente jβ de la variable j en )(xg es igual a 0,
G sigue una distribución 2χ con un grado de libertad. Por tablas de dicha distribución
es posible rechazar la hipótesis 0H con un nivel de significancia que puede ser fijado
a partir de la realidad del negocio, por ejemplo un 5%. Ahora bien, es posible constatar
por tablas de la distribución 2χ con un grado de libertad que con un nivel de
significancia de 5% G debe ser menor a 0,0039321. Por lo tanto, con un nivel de
significancia de 5% corresponde eliminar del modelo la variable j si G es mayor a
dicho valor. De esta manera es posible refinar el modelo en forma progresiva,
132
incluyendo en él sólo las variables más significativas y descartando el resto. Una vez
eliminada la variable j vuelven a estimarse los parámetros de las variables restantes
resolviendo nuevamente el sistema de ecuaciones:
0β
)β(
rr
r=∇ ˆl
Dicho sistema deberá ser reescrito, por cuanto βr
y ix ya no tendrán coeficientes ni
términos para la variable eliminada. El proceso de eliminación continúa hasta que ya no
es posible eliminar variables con el nivel de significancia escogido.
10.1.3 Redes neuronales Desarrolladas por McCulloch y Pitts en 1943, se basan en nodos o unidades, que
corresponden a un modelo matemático del funcionamiento de una neurona.
Figura 10.4 Un modelo matemático simple para una neurona65
El diagrama 10.4 ilustra uno de tales nodos. Los nodos de las redes neuronales se
comunican mediante enlaces dirigidos. Un enlace del nodo j al nodo i propaga la
variable de activación ja desde j hasta i . Cada enlace tiene un peso ij,W asociado,
el cual sirve para determinar la intensidad y el signo de la conexión. El nodo i calcula
un promedio ponderado de las variables que recibe a través de los enlaces de entrada, 65 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003
133
utilizando los pesos ij,W como factores de ponderación. La siguiente fórmula expresa
dicho promedio, el cual se denomina iin :
( )∑=j
j*ij,i aWin
El nodo evalúa la función de activación g sobre el promedio ponderado iin antes
calculado, obteniendo el resultado ia , que será comunicado a otras unidades mediante
los enlaces de salida. La siguiente fórmula muestra el cálculo de ia :
( )
== ∑
jj*ij,ii aWina gg )(
Las flechas de la izquierda de la figura 10.4 corresponden a enlaces de entrada que
recibe el nodo i desde nodos j . El nodo recibe además una variable con un valor fijo
0a a través de una conexión especial con un peso i0,W , el cual se denomina “sesgo”.
El nodo i se “gatilla” cuando una combinación lineal de sus inputs sobrepasa cierto
umbral, el cual viene determinado por el “sesgo” i0,W .
Figura 10.5 Funciones de activación de una neurona: función escalonada (a) y función sigmoidal (b)66
66 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003
134
El diagrama 10.5 muestra dos funciones de activación de una neurona. La función de
activación permite a un nodo arrojar un resultado sólo cuando los inputs son los
correctos. A continuación se muestra como los nodos de una red neuronal pueden ser
utilizados para representar funciones booleanas a través de distintos inputs ja y
“sesgos” i0,W .
Figura 10.6 Unidades con una función de activación escalonada que pueden representar distintas puertas lógicas67
Las redes neuronales pueden servir incluso para representar funciones vectoriales,
mediante la utilización no sólo de una, sino de múltiples unidades de salida. De ese
modo los múltiples inputs de una red neuronal pueden conectarse a los resultados
arrojados por otra red neuronal cuyo output sea vectorial.
Existen dos clases de redes neuronales: las acíclicas y las cíclicas o recurrentes. Una
red acíclica entrega una función calculada exclusivamente a partir de sus inputs. Una
red cíclica, en cambio, entrega valores que además dependen del estado interno de la
red, el cual a su vez depende de los inputs previos que ésta haya recibido. Una red
cíclica, además, se retroalimenta de sus propios outputs, por lo que se comporta como
un sistema dinámico capaz de alcanzar un estado estable, de oscilar entre
determinados estados, o de funcionar como un sistema caótico. La siguiente figura
67 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003
135
muestra una red neuronal acíclica con dos unidades de entrada, una unidad de salida y
dos unidades “ocultas” (vale decir, que no son unidades ni de entrada ni de salida):
Figura 10.7 Una red neuronal con dos inputs, un nivel oculto de dos unidades y una salida68
Dado un vector de input ( )21 xxx ,=r
para la red neuronal, el conjunto de valores que
entregan las unidades de entrada “1” y “2” de la red (los resultados de los nodos de
entrada) se establecen en 1a y 2a iguales a los inputs recibidos, vale decir 11 xa = y
22 xa = . Los nodos 3 y 4, denominados “unidades ocultas”, en tanto, arrojan las
salidas 3a y 4a , cuyos valores se calculan como indican las siguientes ecuaciones:
( )2a2,3W1a1,3W3a ∗+∗= g ( )2a2,4W1a1,4W4a ∗+∗= g
La salida final de la red neuronal, 5a , se calcula como sigue:
( )4a4,5W3a3,5W5a ∗+∗= g
Expresión que es también equivalente a:
( ) ( )( )2a2,4W1a1,4W4,5W2a2,3W1a1,3W3,5W5a ∗+∗∗+∗+∗∗= ggg
68 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003
136
Puede observarse como el resultado de la red neuronal acíclica es una función que
depende tan solo de los inputs ( )21 xxx ,=r
y de los parámetros ij,W . Por lo tanto,
escribiendo el vector de pesos como Wr
, puede expresarse el resultado que arroja una
red neuronal como una función que depende de xr y Wr
, lo cual se denota por ( )xWrrh .
10.1.3.1 Representación de modelos mediante redes neuronales Las redes neuronales pueden representar cualquier tipo de función, incluyendo
funciones probabilísticas y lógicas, y en particular pueden ser utilizadas para clasificar
clientes y para predecir su comportamiento. Para asignar a los clientes notas de riesgo
o de rentabilidad basta dividir el output de la red neuronal en varios tramos, y asignar
una nota particular si el output se encuentra dentro de un tramo.
A continuación se explica como una red neuronal puede ser utilizada para predecir el
que un cliente se transforme en “malo” en el futuro. La idea central se encuentra en
modelar una función que asuma el valor “1” solamente cuando las variables explicativas
del comportamiento del cliente hagan posible predecir que éste no será un buen cliente.
Dado un conjunto de variables }{ k21 XXX ..., candidatas a explicar el que un cliente
se transforme en “malo” en un determinado horizonte de tiempo, se desea construir una
red neuronal cuyo resultado ( )xWrrh sea “1” en aquella región del espacio
}{ k21 XXX ..., en el que sea más probable que el cliente se vuelva efectivamente
“malo”. Por ello, a continuación se mostrará como las redes neuronales, al alimentarse
del resultado de otras redes neuronales, pueden arrojar un valor cercano a “1” en zonas
del espacio de variables que son progresivamente más complejas. Se dirá que la red
neuronal se “gatilla” en aquella región en la que arroja un resultado de “1”.
En primer lugar, en la figura 10.8 dada abajo, se muestra como mediante una red
neuronal con dos inputs 1x y 2x se puede representar un función simple que asume el
valor 1 en una mitad del plano 1x , 2x , y el valor cero en la otra mitad. Posteriormente
se mostrará como una red neuronal alimentada con dos inputs 1a y 2a , ambos
resultados de otras redes neuronales, puede “gatillarse” en regiones más complejas,
137
como son una franja intersección de dos semiplanos, o en un área finita del espacio
1x , 2x .
Figura 10.8 Gráfico del output de un perceptrón con dos unidades de entrada y una función de activación sigmoidal69
Se entiende por perceptrón a una red neuronal simple, que carece de nodos ocultos. La
figura 10.8 muestra los resultados de un perceptrón, que para valores bajos de 1x se
“gatilla” cuando 2x alcanza un valor de 4. En cambio, cuando se está en presencia de
valores más altos de 1x , el perceptrón se gatilla con valores mucho menores de 2x .
Dicho comportamiento se debe a que el perceptrón arroja un resultado “1” cuando una
combinación lineal de sus inputs sobrepasa cierto umbral. Una combinación lineal de
1x , 2x divide el espacio de los inputs en dos áreas, que en realidad son dos
semiplanos, en uno de los cuales se gatillará el perceptrón.
69 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003
138
Una red neuronal que reciba como input los resultados de dos perceptrones como el
anterior puede entregar un output con forma de “cordillera”, como se ilustra en la figura:
Figura 10.9 El resultado de combinar dos funciones sigmoidales para obtener una cordillera70
Para formar la “cordillera” el primer perceptrón se “gatilla” en el espacio de los inputs
que está en rojo, mientras que el segundo perceptrón lo hace en la zona achurada en
verde. Por lo tanto, el nodo de salida de la red neuronal se gatilla en la región dada por
la intersección de los dos semiplanos anteriores, la cual es una franja que se resalta en
amarillo.
Abajo, en la figura 10.10 se muestra la salida con forma de “cerro” que es posible
obtener de una unidad que se alimenta con los resultados en forma de “cordillera” de
dos redes neuronales como la antes descrita. Alimentando una red neuronal con inputs
en forma de “cerro” es posible generar una salida con múltiples “montañas” ubicadas
sobre puntos específicos del espacio de variables de entrada.
70 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003
139
Figura 10.10 El resultado de combinar dos cordilleras para producir un cerro71
Con un solo nivel de unidades ocultas y suficientes nodos en dicho nivel es posible
representar cualquier función continua con el nivel de precisión que se desee, en tanto
que con dos niveles de unidades ocultas es posible representar aun cualquier función
discontinua.
10.1.3.2 Refinamiento iterativo de los modelos de redes neuronales
Ajustando los pesos Wr
es posible cambiar la función que la red neuronal calcula. El
“aprendizaje” de la red neuronal se realiza precisamente modificando dichos
parámetros de manera de reducir progresivamente la diferencia entre el valor que se
espera obtener de la función ( )xWrrh y el valor que ésta efectivamente entrega.
A continuación se describe primero un algoritmo iterativo para ajustar los pesos de una
red neuronal acíclica sin unidades ocultas (vale decir, un perceptrón), para luego
extrapolar dicho algoritmo a una red con un nivel de unidades ocultas. Se entrega
finalmente un algoritmo para ajustar los pesos de una red neuronal acíclica con
múltiples niveles de unidades ocultas. Para facilitar la primera fase de explicación del
71 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003
140
algoritmo se entrega la siguiente figura que representa un perceptrón con cuatro
unidades de entrada y una unidad de salida:
Figura 10.11 Perceptrón con una unidad de salida72
El error al cuadrado que se obtiene en un ejemplo de entrenamiento utilizado para
ajustar el perceptrón se define como sigue:
( )( )2
W2 xy
21Err
21E r
rh−≡=
Donde y representa el resultado a obtener si la red funcionara correctamente, mientras
que ( )xWrrh corresponde al resultado que el perceptrón efectivamente calcula. El input
del perceptrón viene dado por el vector xr .
Puede obtenerse el vector de pesos Wr
que minimiza el error al cuadrado mediante el
método del gradiente. Utilizando dicho método los pesos se actualizan usando la
ecuación siguiente73:
( ) 'WWWEα'W''W rrrrr
=∇+= ∗
72 Fuente: RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Approach, Second Edition, Chapter 20, Statistical Learning Methods, Prentice Hall, 2003 73 Fuente: HILLIER F., LIEBERMAN G., Investigación de Operaciones, Séptima edición, Capítulo 13, Programación no Lineal, McGraw-Hill Interamericana, 2002
141
Donde α es un parámetro conocido como tasa de aprendizaje. Los vectores ''Wr
y
'Wr
corresponden al vector de pesos Wr
ajustado en iteraciones sucesivas. En tanto
Wr
y el gradiente del error al cuadrado vienen dados por los siguientes vectores:
=
....etcW
...W
Wij,
i1,r
( )
∂∂
∂∂
=∇
....etcW
E...
WE
WE
ij,
i1,r
Cada uno de los términos del gradiente puede verse como la contribución que cada
ij,W entrega al error al cuadrado total, y es equivalente a las expresiones siguientes:
( )
( ) ji
j
j*ij,ij,
ij,ij,
xin'Err
xWyW
Err
WErrErr
WE
∗−=
−
∂∂
=
∂∂
=∂∂
∗
∗
∗
∑g
g
Donde jx corresponde a uno de los inputs que recibe el perceptrón desde sus
unidades de entrada, y forma parte, por lo tanto, del vector xr de input. En tanto 'g es
la derivada de la función de activación logística.
Si se denomina i∆ o “error modificado” al siguiente término: )(∆ ii inrrE g'∗= , puede
verse como la contribución al error al cuadrado del peso ij,W corresponde al resultado
jx del nodo j multiplicado por el error modificado del nodo i .
El algoritmo de ajuste de los pesos prosigue para cada ejemplo del conjunto de datos
de entrenamiento. Cuando se ha aplicado a todos los ejemplos se habla de que se ha
completado un “periodo”. El algoritmo continua completando “periodos” hasta que se
142
alcanza algún criterio de término (por ejemplo: cuando las variaciones consecutivas de
los pesos 'Wr
y ''Wr
son ya muy pequeñas).
Ahora se deducirá un algoritmo similar aplicado a una red neuronal que contiene
unidades ocultas. Para ello es preciso notar que en el caso de tener una red neuronal
con uno o más niveles de unidades ocultas no existe a priori una interpretación clara
para los errores de las salidas de dichas unidades debido a que no existen
observaciones que permitan realizar una comparación. Es necesario, por lo tanto,
calcular la contribución al error de la red neuronal completa que realiza la salida de una
unidad oculta. A continuación se derivará dicha contribución a partir de la minimización
de la suma de los errores al cuadrado de una red neuronal con un único nivel de
unidades ocultas y varios nodos de salida, como la red de la figura:
Figura 10.12 Red neuronal con un nivel oculto y dos unidades de salida74
El error al cuadrado observado para un ejemplo de prueba usado para entrenar la red
neuronal puede expresarse a través de la siguiente ecuación:
( )∑∑ −==i
2ii
i
2i ay
21Err
21E
74 Fuente: elaboración propia
143
Donde iy es el resultado a obtener si la red funcionara correctamente, mientras que ia
corresponde al resultado que la red efectivamente calcula. La suma se realiza sobre los
nodos i de las unidades de salida. La componente del gradiente de ese error al
cuadrado con respecto a un peso específico ij,W en el nivel de salida viene dado por:
( ) ( )
( )
( ) ( )
( ) ijjiii
jjij,
ij,iii
ij,
iiii
ij,
iii
ij,
iii
ij,
aain'a-y
aWW
in'a-y
Winin'a-y
Wina-y
Waa-y
WE
∆)(
)(
)(
)(
−=−=
∂∂
−=
∂∂
−=
∂∂
−=∂∂
−=∂∂
∗
∑
g
g
g
g
Para obtener la contribución al error al cuadrado de los pesos jk,W que conectan las
unidades de entrada k a las unidades ocultas j es preciso realizar la sumatoria
completa de las derivadas parciales sobre todos los nodos de salida, por cuanto cada
valor de salida ia puede verse afectado por los cambios en jk,W .
Antes, al obtener el gradiente con respecto a ij,W se utilizó que los resultados de un
nodo j del nivel oculto no dependían de los pesos ij,W en el nivel de salida i , en
otras palabras: 0Wa
ij,
j =∂
∂. Ahora bien, al calcular el gradiente con respecto a los pesos
jk,W del nivel de entrada k será preciso considerar que los resultados ja del nivel
oculto si dependerán de los pesos jk,W , o en otras palabras: 0W
inWa
jk,
j
jk,
j ≠∂
∂=
∂
∂ )(g
Con ello en mente las componentes del gradiente obtenidas al derivar el error al
cuadrado con respecto a jk,W vienen dadas por las expresiones siguientes, en las que
el gradiente se escribe finalmente en términos de los resultados de los nodos de
entrada :
144
( ) ( )
( )
( )
( )
( ) jki
kjij,i
i kkjk,
jk,jij,i
i jk,
jjij,i
i jk,
jij,i
i jk,
jij,i
i jjij,
jk,i
i jk,
iiii
i jk,
iii
i jk,
iii
jk,
aain'W
aWW
in'W
Win
in'W
Win
WWa
W
aWW
Winin'a-y
Wina-y
Waa-y
WE
∆)(∆
)(∆
)(∆
)(∆∆
∆
)(
)(
−=−=
∂∂
−=
∂
∂−=
∂
∂−=
∂
∂−=
∂∂
−=
∂∂
−=
∂∂
−=
∂∂
−=∂∂
∑
∑ ∑
∑
∑∑
∑ ∑
∑
∑∑
∗
g
g
g
g
g
g
La última ecuación muestra la contribución que realiza a la suma de los errores al
cuadrado de la red completa un peso jk,W correspondiente a un vínculo que recibe la
unidad oculta j . Dicha contribución corresponde al resultado ka del nodo k
multiplicado por un factor que es similar al error modificado antes definido, y que
corresponde a la expresión siguiente:
( )∑∗=i
i*ij,jj Win ∆)(∆ g'
Si la expresión anterior se acepta como definición de “error modificado” de los nodos
que son unidades ocultas, inductivamente puede obtenerse que la contribución de
cualquier peso ij,W a la suma de los errores al cuadrado de la red neuronal vendrá
dada por el producto del resultado del nodo j por el error modificado del nodo i .
145
Puede obtenerse el vector de pesos Wr
que minimiza el error al cuadrado mediante el
método del gradiente, actualizando los pesos a través de la ecuación:
( ) 'WWWEα'W''W rrrrr
=∇+= ∗
El algoritmo de “ajuste” de los pesos a través de la red neuronal con varios niveles de
unidades ocultas procede en forma análoga al algoritmo antes presentado.
10.1.3.3 Cálculo con red neuronal de probabilidad de que un cliente sea malo En una sección anterior se ha mostrado como las redes neuronales pueden predecir el
que un cliente se vuelva “malo” en el futuro, imitando para ello una función que asume
el valor “1” solamente cuando las variables explicativas hacen posible predecir que el
cliente no será un buen cliente. En esta sección se muestra como las redes neuronales
pueden ser usadas también para calcular la probabilidad de que un cliente sea bueno o
malo en términos crediticios o de rentabilidad en un determinado horizonte de tiempo.
La idea central radica en que al utilizar funciones de activación logísticas el resultado de
cada neurona puede interpretarse en forma probabilística. En efecto, una red neuronal
con una función de activación logística puede interpretarse como una red bayesiana.
Las redes bayesianas son grafos dirigidos acíclicos cuyos nodos representan variables
aleatorias y cuyos arcos denotan dependencia. Así, una flecha de un nodo A a un nodo
B indica que la variable aleatoria B depende directamente de la variable A. Se dice en
tal caso que A es padre de B. En una red bayesiana un nodo correspondiente a una
variable aleatoria iX tiene una probabilidad condicional de asumir el valor ix que se
denota como
ii XPadresxP , donde
iXPadres representa el conjunto de
todas las variables cuyos nodos son padres del nodo de iX . Con dichas definiciones
la probabilidad de obtener los valores ( )k21 xxx ..., de un grupo de variables aleatorias
}{ k21 XXX ..., se representa por: ( ) ∏
=
i
iik21 XPadresxPxxxP ...,
146
Un perceptrón que trata de reproducir una variable binaria puede ser visto como una
red bayesiana. Es posible apreciar esto con claridad si se piensa en el output de la
función logística como la probabilidad condicional de obtener un resultado “1” dados los
valores de los inputs. Bajo este punto de vista las redes neuronales que tratan de
modelar el que un cliente sea malo dentro de un determinado horizonte de tiempo en el
fondo no hacen sino calcular la probabilidad condicional de que dicho cliente sea malo
dado que las variables de input xr
han asumido determinados valores.
Ahora bien, si es posible interpretar el resultado de una red neuronal como una
probabilidad condicional cabe preguntarse qué tipo de estimación de dicha probabilidad
se obtiene al aplicar el algoritmo de refinamiento iterativo que se ha entregado en la
sección anterior. Como se mostrará a continuación, el algoritmo que minimiza los
errores entre las observaciones y los resultados de una red neuronal no hace otra cosa
que maximizar la función verosimilitud de las observaciones consideradas en los
ejemplos de entrenamiento. En otras palabras, las probabilidades condicionales que
entrega una red neuronal utilizan estimadores de Wr
que han sido obtenidos mediante
el método de máxima verosimilitud al aplicar el algoritmo iterativo de refinamiento de la
red sobre una base de ejemplos de entrenamiento.
A continuación se calculará el gradiente con respecto a Wr
de la función verosimilitud
del resultado y que arroja un perceptrón con una única unidad de salida al recibir los
inputs xr . Se mostrará que dicho gradiente posee una dirección contraria al gradiente
del error al cuadrado que es usado en el algoritmo de refinamiento iterativo de las redes
neuronales. Por ello, es claro que al minimizar el error al cuadrado de las observaciones
no se hace otra cosa sino maximizar la función verosimilitud del resultado y .
La función verosimilitud puede escribirse en forma diferenciable notando que
independientemente del valor de y la probabilidad condicional de observar ese
resultado dado un conjunto de valores de las variables de entrada xr vendrá dado por la
ecuación siguiente:
( ) ( )( ) ( )( ) yx
yxyP
1WW
−−=
rr rr h1h
Ello viene del hecho de poder escribir las probabilidades como sigue:
147
( ) ( ) ( )( ) ( )( )yxxx1yP W1
WWrrr rrr hhh ====
( ) ( )( ) ( )( ) ( )( ) y
xxx0yP1
W1
WW−
−=−=−==rrr rrr h1h1h1
El logaritmo de la función verosimilitud estará descrito por:
( )( ) ( )( )
−=
− yx
yxln
1WW
rr rr h1hL
En vez de maximizar la función verosimilitud se puede maximizar el logaritmo de dicha
función. El gradiente del logaritmo de la función verosimilitud vendrá dado por:
( )( ) ( )( )
( )( ) ( ) ( )( )( )
( )( )( )
( )( )
( )( )
( )( )
( )( ) ( ) ( )
( ) ( )( )( )
( )
( ) ( )( )( )
( ) ( )( )( )
ij,W
W1W
ij,W
W1W
W
ij,W
W1W
W1W1
ij,W
W1
1
ij,W
W
ij,W1
1ij,
W
W11Wij,
1W1Wij,ij,
Wx
xx
Err
Wx
xx
xy
Wx
xx
xyxy
Wx
xy
Wx
xy
Wxln
yW
xlny
xlnyxlnyW
yx
yxln
WW
∂
∂=
∂
∂=
∂
∂=
∂
∂
∂
∂=
∂
∂
∂
∂=
∂∂
=
∂∂
=∂∂
∗−
∗−
−
∗−
−−−
∗−
−−∗
−−+
−∗−+∗
−−
r
rr
r
rr
r
r
rr
rr
r
r
r
r
rr
rr
rr
r
rr
r
rr
r
r
rr
rr
r
r
r
r
rr
rr
rr
h
hh
h
hh
h
h
hh
hh
h
h
h
h
hh
hh
hhL
Esta última expresión puede simplificarse aun más considerando que ( )xWrrh
es una
función logística, y que la derivada de una función logística debe cumplir la ecuación:
148
)( ggg' −= ∗ 1 . Así se tiene que la derivada del resultado ( )xWrrh con respecto a ij,W
puede escribirse como sigue:
( ) ( ) ( )
( ) ( )( ) ( )
( ) ( )( ) jWW
j
j*ij,ij,WW
ij,i
i
Wij,
W
xxx
xWW
xx
Win
inx
Wx
∗
∗
∗
−=
∂∂
−=
∂∂
∂
∂=
∂
∂
∑rr
rr
rr
rr
rr
rr
h1h
h1h
hh
Por lo que se obtiene finalmente que: j
ij,xErr
W∗=
∂∂L
Puede verse que el gradiente obtenido tiene sentido contrario a la dirección de ajuste
de los coeficientes en la ecuación del procedimiento de minimización de los errores al
cuadrado dado en la sección anterior. Se puede concluir, por lo tanto, que el algoritmo
que minimiza la suma de los errores al cuadrado del perceptrón maximiza la
verosimilitud de las observaciones utilizadas para construir el modelo. Si bien ello no se
mostrará en esta sección, la conclusión anterior no sólo es válida para un perceptrón,
sino que también para redes neuronales con múltiples niveles de unidades ocultas.
10.1.4 Árboles de decisión
Un árbol de decisión recibe como input un conjunto de atributos y entrega una decisión,
que puede ser vista también como una predicción del output dados los inputs. Los
inputs y los outputs de un árbol de decisión pueden ser discretos o continuos, no
obstante en esta sección se supondrán inputs discretos y outputs booleanos. Un árbol
llega a una decisión luego de aplicar en cada nodo un test a un atributo. Cada rama
corresponde a uno de los valores posibles de dicho atributo. Las hojas entregan el
output del árbol.
A continuación se entrega un ejemplo de un árbol de decisión que permite clasificar a
los clientes como “buenos” o “malos” en términos de crédito. La decisión del árbol arroja
un “Si” en las hojas si un cliente es “bueno”. La lista de atributos que constituyen el
input del árbol, y que permiten tomar la decisión son los siguientes: morosidad, tiene
149
aval?, cliente antiguo?, rotación empleo, renta, profesión, dependiente?, patrimonio,
comuna, y finalmente, deuda.
Figura 10.13 Ejemplo de árbol de decisión que permite clasificar a los clientes en buenos y malos75
Cada uno de los nodos del árbol, representados en el diagrama mediante cajas, está
etiquetado con el nombre de un atributo, indicando con ello que en él se aplica un test a
los valores de dicho atributo. Así, por ejemplo, el nodo “morosidad” prueba el valor del
atributo del mismo nombre, entregando como output el resultado del subárbol que
comienza en la rama etiquetada con el valor que haya asumido dicho atributo. Si la
morosidad de un cliente es baja, el nodo “morosidad” entregará como output el
resultado del subárbol que comienza en la rama etiquetada “baja”, análogamente si la
morosidad es “alta”, el nodo entregará el resultado del subárbol que comienza con la
rama etiquetada como “alta”. El árbol que sigue la rama “baja” de uno de los nodos
75 Fuente: elaboración propia
150
etiquetados “morosidad” es una hoja, graficada como un círculo en el diagrama, y por lo
tanto entrega una decisión final del árbol (en este caso un “Si”).
Ejemplos específicos de clientes son procesados por el árbol partiendo de la raíz,
siguiendo luego las ramas que correspondan a los valores asumidos por los atributos
del cliente hasta llegar a una hoja. Por ejemplo, un cliente con renta media y sin deudas
será clasificado como cliente bueno (vale decir, se alcanzará un output “Si” en una
hoja). Puede notarse como el árbol de decisión no utiliza los atributos comuna y
profesión, puesto que ambos son considerados irrelevantes para clasificar a un cliente
en términos de riesgo de crédito.
10.1.4.1 Representación de modelos mediante árboles de decisión Cualquier función booleana puede ser representada mediante un árbol de decisión. Ello
puede conseguirse trivialmente haciendo corresponder cada fila de la tabla de verdad
de una función lógica con una ruta en el árbol de decisión, desde la raíz hasta una de
sus hojas. Ello da lugar a un árbol de decisión exponencialmente grande, por cuanto
una tabla de verdad tiene una cantidad exponencial de filas. No obstante lo anterior,
muchas funciones booleanas pueden ser representadas con árboles más pequeños.
Existen, de cualquier modo, funciones que requieren árboles exponencialmente
grandes, como la función paridad, que retorna “1” si un número par de inputs son “1”, y
la función mayoría, que retorna “1” si más de la mitad de los inputs son “1”. Por ello los
árboles de decisión son adecuados para representar ciertas funciones y no otras, lo
cual es importante al momento de tratar de construir árboles de decisión que sean
consistentes con conjuntos de datos.
Dados k ejemplos de inputs de una función booleana, con sus correspondientes
outputs, se desea construir un árbol de decisión que sea capaz de replicar dichos
outputs al recibir los mismos inputs que la función booleana. El problema radica en que
no existe una sola forma de generar un árbol de decisión semejante, sino muchas. En
general el número de árboles de decisión que es posible construir dado un input
booleano de n atributos es exponencialmente grande. En efecto, una tabla de verdad
con n atributos booleanos tendrá n2 filas. Para cada una de dichas filas el árbol de
decisión podrá entregar uno de dos resultados booleanos posibles, por lo tanto habrá
un total de n22 árboles de decisión distintos para un input de n atributos. Por ello los
151
algoritmos de construcción de árboles de decisión a partir de conjuntos de datos deben
ser particularmente “inteligentes”.
Una forma que parecería a primera vista “inteligente” de construir un árbol de decisión
sería el generar el árbol más pequeño y simple posible que fuese consistente con los
ejemplos de la función booleana. Sin embargo, el problema de encontrar dicho árbol es
intratable computacionalmente para cualquier definición razonable de “pequeño” o
“simple”. A continuación se describirá un algoritmo razonable y tratable
computacionalmente para construir árboles de decisión sobre n atributos que se
ajusten a los resultados de un conjunto de ejemplos. El algoritmo entregado se
denomina “algoritmo de aprendizaje de árboles de decisión”, no obstante existen
algoritmos de uso comercial que ofrecen un desempeño superior, y cuya exacta
implementación está encircuitada dentro de herramientas de software específicas. Tal
es el caso del algoritmo C5, encircuitado en Clementine entre otras herramientas.
Un ejemplo de un árbol de decisión booleano consiste de un input dado por un vector
)( k21 XXXX ...,= de atributos y un output booleano y . Un ejemplo para un cliente
específico i viene dado por el par de valores )( ki
2i
1ii xxxx ...,= e iy .
Un conjunto de 12 ejemplos de clientes clasificados utilizando el árbol de decisión de la
figura 10.13 se entrega a continuación en la figura 10.14. Los ejemplos positivos son
aquellos en los cuales el output del árbol de decisión corresponde a un “Si”, en tanto
que los ejemplos negativos son aquellos en los que corresponde a un “No”. Si se utiliza
el conjunto de ejemplos de la figura para inducir un árbol de decisión que sea
consistente con ellos, se hablará entonces de dichos ejemplos en términos de “conjunto
de datos de entrenamiento”.
Existe una forma trivial para construir un árbol de decisión que sea consistente con el
conjunto de datos de entrenamiento: asignar una hoja del árbol a cada uno de los
ejemplos, con una ruta que desde la raíz aplique un test sobre cada atributo, siguiendo
siempre las ramas correspondientes a los valores asumidos por el ejemplo.
Desafortunadamente un árbol construido así no puede decir mucho sobre otros
ejemplos distintos de los del conjunto de entrenamiento, puesto que en realidad no
hace sino memorizar las observaciones, sin extrapolar ningún patrón.
152
Figura 10.14 Ejemplos de clientes clasificados como buenos o malos76
Por el contrario, el “algoritmo de aprendizaje de árboles de decisión” es un mecanismo
razonable para construir un árbol. La idea central reside en escoger para el nodo raíz el
atributo que divida en mejor forma el conjunto de datos. Luego de escogido el primer
atributo, puede aplicarse sucesivamente el algoritmo a los atributos restantes. Con ello
se espera reducir el número de tests que es necesario realizar para clasificar los datos y
consecuentemente disminuir el nivel de complejidad del árbol resultante. La figura
siguiente muestra la división del conjunto de datos que realiza el atributo comuna.
76 Fuente: elaboración propia a partir del libro de RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 18, Learning Decision Trees, Prentice Hall, 2003
153
Figura 10.15 Clasificación de conjunto de datos de entrenamiento mediante el atributo de comuna77
Para cualquiera de los valores de comuna posibles asumidos en los ejemplos del
conjunto de entrenamiento se tiene que existen tantos ejemplos positivos como
negativos. Claramente el atributo comuna no divide de buena forma el conjunto de
datos. La figura 10.16 dada abajo, en cambio muestra la división del conjunto de datos
de entrenamiento que realiza el atributo renta. Cuando la renta es baja, todos los
ejemplos observados en el conjunto de entrenamiento son negativos, en tanto que
cuando es alta, todos los ejemplos son positivos. Por lo tanto es posible clasificar
perfectamente a los clientes cuando su renta es baja o alta, y resulta por ende claro que
el atributo renta permite clasificar de mejor forma a los clientes. No obstante, cuando los
ejemplos del conjunto de entrenamiento presentan renta media se tiene una mezcla de
resultados positivos y negativos, por lo que la información contenida en el atributo renta
no es suficiente para clasificar a los clientes, y es preciso mirar algún atributo adicional.
En la figura se muestra como clasificar a los clientes que han presentado renta media
observando su rotación en el empleo. Si ésta es baja, todos los casos corresponden a
ejemplos negativos. En cambio, si la rotación es alta se tiene nuevamente una mezcla
de resultados y se requiere, en consecuencia, mirar atributos adicionales.
77 Fuente: elaboración propia
154
Figura 10.16 Clasificación de conjunto de datos de entrenamiento mediante atributos de renta y rotación de empleo78
En el algoritmo recursivo de construcción del árbol se tienen los casos siguientes:
- Si existen tanto ejemplos positivos como negativos, se debe escoger el atributo que
divide en mejor forma el conjunto de ejemplos.
- Si todos los ejemplos son positivos o negativos, entonces se estará en una hoja.
- Si no quedan ejemplos, significa que no se ha observado un caso semejante en el
conjunto de datos entrenamiento. Se recomienda entregar como output un valor
calculado como la función booleana mayoría aplicada a las clasificaciones
realizadas por el nodo padre.
- Si no quedan ya más atributos para continuar con el algoritmo de construcción del
árbol, pero existe una mezcla de ejemplos negativos como positivos, ello indica que
los datos contienen errores, que los atributos no proveen suficiente información para 78 Fuente: elaboración propia
155
clasificar por completo los ejemplos, o bien que los resultados que se trata de
modelar son no determinísticos. En cualquier caso una forma de enfrentar el
problema es escoger como output la función booleana mayoría aplicada a la
clasificación de los ejemplos restantes.
El algoritmo de construcción de un árbol de decisión como se ha descrito da como
resultado la figura 10.17 cuando se aplica al caso de los ejemplos de la figura 10.14.
Figura 10.17 Árbol de decisión generado por algoritmo a partir de los ejemplos del conjunto de datos de entrenamiento79
Cabe notar que el árbol obtenido es bastante más simple que el de la figura 10.13, que
se utilizó para generar los 12 ejemplos del conjunto de entrenamiento. Con mayor
número de ejemplos en el conjunto de entrenamiento es posible arribar a un árbol de
decisión más parecido al árbol original que sirvió para generar los datos. Es preciso
decir también que el árbol de decisión generado es consistente con el conjunto de datos
de entrenamiento de la figura 10.14, pero no tiene por qué ser consistente con ejemplos
79 Fuente: elaboración propia a partir del libro de RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Aprroach, Second Edition, Chapter 18, Learning Decision Trees, Prentice Hall, 2003
156
que no hayan estado en dicho conjunto. Por ello un árbol de decisión estará sujeto a
error al enfrentarse a nuevos ejemplos.
La especificación completa del algoritmo descrito exige una forma de determinar la
capacidad que posee un atributo para dividir los ejemplos del conjunto de
entrenamiento en mejor o peor forma. Se desea encontrar una función que permita
determinar qué atributo divide en mejor forma los datos. Dos conjuntos de datos bien
divididos tendrán sólo ejemplos positivos o sólo ejemplos negativos. Por el contrario,
conjuntos mal divididos tendrán una mezcla de ejemplos positivos y negativos. Mientras
mayor sea la diferencia entre la proporción de ejemplos positivos y la proporción de
ejemplos negativos dentro de cada conjunto de datos, mejor será la división que se
haya efectuado. Una forma de enfrentar el problema es mediante la función
“información”. Si la probabilidad de obtener un ejemplo positivo dentro de un conjunto
de datos es “1”, claramente no se necesita información adicional para clasificar los
datos, análogamente si dicha probabilidad es “0”. Ahora bien, se requerirá un máximo
de información adicional para clasificar los datos cuando sea igualmente probable
obtener un ejemplo positivo o un ejemplo negativo.
Si se tiene un conjunto de n respuestas posibles iv , cada una con una probabilidad de
ocurrencia ( )ivP , la función información queda descrita por la ecuación siguiente80:
( ) ( )( ) ( ) ( )( )∑=
−=n
1ii2in1 vPlogvPvPvPI ,...
El lado derecho de la ecuación anterior puede escribirse como el logaritmo de una
cierta forma de promedio geométrico, como se muestra a continuación:
( ) ( )( ) ( )( ) ( )∏
=
−=n
1i
ii2n1vPvPlogvPvPI ,...
Ahora bien, en funciones con un output booleano, como es el caso de un árbol de
decisión que clasifica a los clientes en buenos o malos, sólo se tendrán dos resultados
posibles. Si se denota con p la cantidad de resultados positivos y con n la cantidad
de resultados negativos en un conjunto de datos, la función información queda:
80 Fuente: SHANNON, C. E., WEAVER, W., The Mathematical Theory of Communication, University of Illinois Press, 1949
157
−=
+
+
+
+++
npn
npp
2 npn
npplog
npn
nppI ,
La función información, por lo tanto, corresponderá a un logaritmo de una cierta forma
de promedio geométrico entre la proporción de ejemplos positivos y la proporción de
ejemplos negativos. La siguiente figura grafica la función información y el promedio
geométrico antes descrito en función de la proporción de ejemplos positivos:
Figura 10.18 Función información y promedio geométrico entre la proporción de ejemplos positivos y negativos en un conjunto de datos81
El promedio geométrico alcanzará su mínimo cuando ambas proporciones sean iguales,
y su máximo cuando una de dichas proporciones sea igual a cero. La función
información descrita hasta este punto permite conocer la cantidad adicional de
información necesaria para clasificar los clientes de un árbol de decisión dado que se
conoce la proporción de ejemplos positivos. No obstante, lo que se desea conocer es
cuanto contribuye un atributo a disminuir dicha información requerida. Para ello se
recurre a los conceptos de “ganancia” y de “resto” de información requerida, los cuales
se definen en los párrafos siguientes.
81 Fuente: elaboración propia
158
Se tiene un conjunto de datos con p resultados positivos y n resultados negativos. Un
atributo A divide un conjunto de datos en v grupos, de acuerdo al valor que asume.
Un grupo i de esos v grupos tiene ip resultados positivos y in resultados negativos.
Se tendrá que un ejemplo escogido aleatoriamente mostrará el valor i del atributo con
una probabilidad dada por: npnp ii
+
+. Por lo tanto, el valor esperado de la información
restante necesaria para clasificar un ejemplo luego de haber aplicado el test a un
atributo A vendrá dado por:
( ) ∑=
+++
+
=
v
1i ii
i
ii
iiinp
nnp
pInpnpAResto ,
La ganancia de información obtenida al aplicar el test sobre un atributo A será:
( ) ( )AResto
npn
nppIAGanancia −
=
++,
La función ganancia de información permite comparar atributos, como puede
comprobarse con la renta y comuna de los ejemplos de la figura 10.14:
( ) ( ) ( ) 541064
62
126
01124
10122
1 IIIRentaGanancia ,,,, =++−=
( ) 042
42
124
42
42
124
21
21
122
21
21
122
1 IIIIComunaGanancia =+++−=
,,,,
El atributo renta divide al conjunto de datos de entrenamiento en mejor forma que el
atributo comuna, por cuanto la ganancia de información requerida para clasificar datos
es mayor si se utiliza el atributo renta que si se usa el atributo comuna.
10.1.4.2 Refinamiento de los modelos de árboles de decisión
Es posible aplicar un algoritmo denominado “poda 2χ ” que previene el que un nodo
A del árbol de decisión sea “dividido” en subárboles a través del testeo de atributos
que no son claramente relevantes. Los árboles de decisión construidos con “poda 2χ ”
se comportan significativamente mejor que los árboles construidos sin ser podados
159
cuando los datos contienen gran cantidad de ruido. La “poda 2χ ” permite definir un
nodo del árbol como hoja, aun cuando los datos en dicho nodo no corresponden sólo a
ejemplos positivos o sólo a ejemplos negativos. Para aplicar la “poda 2χ ” es preciso
determinar cuando un atributo es irrelevante.
Si se dividiera un conjunto de ejemplos utilizando un atributo irrelevante, se esperaría
que los subconjuntos resultantes tuviesen aproximadamente la misma proporción de
ejemplos positivos y negativos que el conjunto original. Por lo tanto, la ganancia de
información sería cercana a cero. Por ello la ganancia de información permite descubrir
atributos irrelevantes. Cabe, no obstante preguntarse cuánto debiera ser la ganancia de
información mínima de un atributo para considerarlo relevante. Para ello se utiliza un
test de significancia.
Bajo la hipótesis 0H de que el atributo A es irrelevante, la ganancia de información
del atributo para un conjunto de datos de entrenamiento infinitamente grande debiera
ser cero. Es preciso calcular, bajo la hipótesis 0H , la probabilidad de que una muestra
de tamaño v exhiba una desviación con respecto a la distribución esperada de
ejemplos positivos y negativos. Puede calcularse dicha desviación comparando los
números de ejemplos positivos ip y negativos in en cada subconjunto en el cual el
atributo A asume el valor i , con los números esperados ip̂ y in̂ que se obtendrían
asumiendo irrelevancia del atributo. Dado que un ejemplo escogido aleatoriamente
mostrará el valor i del atributo A con una probabilidad dada por npnp ii
+
+, los valores
esperados de ip̂ y in̂ vendrán dados por: npnppp ii
i+
+∗=ˆ y
npnpnn ii
i+
+∗=ˆ . Una
medida conveniente para la desviación total vendrá dada por la fórmula:
( ) ( )∑=
−+
−
=
v
1i i
2ii
i
2ii
nnn
pppD
ˆˆ
ˆˆ
160
Bajo la hipótesis 0H el valor de D distribuye 2χ con 1v − grados de libertad. La
probabilidad de que el atributo sea realmente irrelevante puede ser calculada con la
ayuda de las tablas de la distribución 2χ .
10.1.5 Comparación de las técnicas de modelamiento A continuación se entregan las ventajas y desventajas de las tres técnicas descritas
previamente, de manera de facilitar la elección de alguna técnica particular:
Ventajas Desventajas
Reg
resi
ón lo
gíst
ica
- Permite identificar con claridad los atributos más relevantes que afectan la decisión de crédito y qué tan importante es cada uno.
- Mediante el test de razón de verosimilitud permite refinar en forma iterativa el modelo de manera de seleccionar sólo los atributos más relevantes.
- Permite que los atributos asuman valores continuos.
- Exige que no existan correlaciones importantes entre los atributos.
- El sistema de ecuaciones del gradiente del logaritmo de la función verosimilitud no tiene solución analítica y el algoritmo para resolverlo puede no converger.
- Sirve para representar una cierta forma de relación entre las variables de input y de output, descrita por la ecuación de regresión, pero no otro tipo de relaciones.
Red
es n
euro
nale
s
- No requiere de mayor análisis estadístico.
- Son capaces de detectar y replicar virtualmente cualquier tipo de relación entre los inputs y los outputs, por compleja que esta sea.
- No provee un mecanismo para descartar los atributos menos relevantes.
- Construye cajas negras que reciben inputs y predicen outputs, pero que no permiten observar exactamente qué pasa en su interior.
Árb
oles
de
deci
sión
- Pueden ser traducidos en términos de conjuntos de reglas fácilmente comprensibles y trasnscribibles en la forma de políticas de crédito o manuales de procedimientos.
- Entrega el mecanismo de “poda 2χ ” que permite descartar los atributos irrelevantes.
- Si bien puede predecir un valor booleano, presenta dificultad para calcular outputs continuos.
- Si los atributos son continuos el algoritmo para seleccionar el punto de división de un atributo puede requerir un enorme esfuerzo en términos de cálculo computacional.
- Sirven sólo para algunas funciones.
161
En las secciones anteriores se han detallado las principales técnicas de modelamiento
aplicables al caso de las campañas bancarias, ello como parte de la descripción del
output 4a.1 de la tarea de seleccionar la técnica de modelamiento (tarea 4a) de cuarta
fase del proyecto de datamining. En las secciones siguientes se describen los
resultados y tareas restantes de dicha fase del proyecto.
10.1.6 Supuestos de modelamiento (output 4a.2) Este resultado es el segundo de la tarea de seleccionar la técnica de modelamiento
(tarea 4a). De acuerdo a la guía de usuario de la metodología CRISP-DM, este output
corresponde al conjunto de suposiciones realizadas sobre la calidad, los valores o el
formato de los datos y que son impuestas por la técnica de modelamiento seleccionada.
Entre las actividades que es preciso desarrollar para obtener este resultado se
encuentran las siguientes:
- Definir cualquier supuesto sobre los datos que esté implícito en la técnica de
datamining escogida (por ejemplo: calidad, formato, distribución de las variables).
- Comparar dichos supuestos con aquellos del reporte de descripción de los datos.
- Asegurarse de que los supuestos se cumplen y retroceder a la fase de preparación de
los datos si es necesario.
10.2 Generar el diseño de las pruebas (tarea 4b)
Esta tarea consiste en una definición del procedimiento que se utilizará para probar la
calidad y validez del modelo. El diseño de las pruebas debe especificar qué datos
deberán ser separados del resto para conformar el conjunto de datos de entrenamiento
con el que se construirá el modelo. Deberá especificarse también qué datos formarán el
conjunto de datos de prueba con el que se validará el modelo antes construido.
La descripción de los resultados que se deben obtener como fruto de esta tarea se
entrega a continuación:
10.2.1 Diseño de las pruebas (output 4b.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde al plan elaborado para el entrenamiento y la evaluación de los modelos de
datamining. Una componente principal del plan consiste en decidir cómo dividir el
162
conjunto de datos disponible en un conjunto de datos de entrenamiento y un conjunto
datos de prueba. Entre las actividades que es preciso desarrollar se encuentran:
- Chequear el diseño de las pruebas separadamente para cada objetivo de datamining.
- Decidir los pasos necesarios para ejecutar cada prueba (número de iteraciones, etc.).
- Preparar los datos requeridos para las pruebas (el conjunto de datos de entrenamiento
y el conjunto de datos de prueba).
Los algoritmos generadores de modelos tratan de minimizar los errores o diferencias
entre las observaciones y las predicciones, dándole igual peso a cada observación. No
obstante, en términos crediticios es inmensamente peor cometer el error de clasificar
como bueno a un cliente malo (error tipo 1) que de clasificar como malo a un cliente
bueno (error tipo 2). Por ello el conjunto de datos de entrenamiento debe estar
adecuadamente balanceado, y sería incluso deseable tener más clientes malos que
buenos en la muestra, de manera tal de privilegiar en la generación de los modelos la
minimización del error tipo 1. Existe, no obstante, un inconveniente en la utilización de
muestras desbalanceadas que minimicen el error tipo 1, y es que los clientes malos son
en verdad escasos en una cartera de clientes (generalmente corresponde a un 1% de la
cartera). Por otro lado la experiencia señala que se necesitan al menos 1.000 clientes
malos para poder construir un modelo confiable. Si a eso se agrega que luego de ser
generado todo modelo debe ser validado en un conjunto de datos de prueba, se tiene
que son necesarios en total unos 2.000 clientes malos. Debe considerarse, además,
que un Banco pequeño tendrá tan solo 100.000 clientes o menos, de los cuales sólo
1.000 o 2.000 serán malos. Puede concluirse, por lo tanto, que no existe mucho margen
de maniobra para escoger muestras desbalanceadas y puede considerarse que un
conjunto de datos de entrenamiento balanceado (con igual número de clientes malos
que de buenos) es suficientemente apropiado para generar un modelo realista.
En este punto es importante señalar además que el conjunto de datos de prueba usado
para validar los modelos no debe tener datos en común con el conjunto de datos de
entrenamiento utilizado en la generación de dichos modelos. De lo contrario la
evaluación de los modelos pierde toda validez, tendiendo a favorecer a los modelos
sobreajustados.
163
10.3 Construir un modelo (tarea 4c)
En esta tarea debe ejecutarse la herramienta de modelamiento sobre el conjunto de
datos de entrenamiento. Se obtendrá un modelo especificado por un conjunto de
parámetros. La descripción de los resultados que se deben obtener como fruto de esta
tarea se entrega a continuación:
10.3.1 Establecer los parámetros (output 4c.1) En cualquier herramienta de modelamiento hay un gran número de parámetros que
deben ser ajustados. De acuerdo a la guía de usuario de la metodología CRISP-DM,
este resultado corresponde a una lista de los parámetros y sus valores, junto a las
razones por las que fueron elegidos dichos valores. Entre las actividades que es preciso
desarrollar para obtener este resultado se encuentran:
- Establecer los parámetros iniciales.
- Documentar las razones para escoger aquellos valores.
10.3.2 Modelos (output 4c.2) Este resultado es el segundo de la tarea de construir un modelo (tarea 4c). De acuerdo
a la guía de usuario de la metodología CRISP-DM, este output corresponde a modelos
generados luego de correr la herramienta de datamining sobre el conjunto de datos de
entrenamiento. Entre las actividades que es preciso desarrollar para obtener este
resultado se encuentran las siguientes:
- Correr la técnica seleccionada de datamining sobre el conjunto de datos de
entrenamiento, de manera tal de generar el modelo de datamining.
- Procesar los resultados de datamining arrojados por el modelo (por ejemplo: editar las
reglas en el caso de un árbol de decisión).
10.3.3 Generación automatizada de modelos en Clementine El siguiente diagrama muestra un flujo de datos en Clementine capaz de generar
modelos y apoyar el proceso de validación de los mismos. La generación de los
modelos parte de la fuente de datos denominada “Base final para construir modelo
predictivo”, que corresponde al output 3z.1 antes descrito en este documento, y que se
muestra a la izquierda en la figura 10.19. Los modelos generados se ubican en la
164
esquina superior derecha, en tanto que las predicciones conseguidas y que sirven para
validar dichos modelos se entregan en la parte inferior de la misma figura.
Figura 10.19 Flujo de datos en Clementine que genera modelos y predicciones a partir de una base final para alimentar el modelo predictivo82
10.3.3.1 Símbolos usados en Clementine para generar modelos El significado de los íconos usados en el diagrama y no explicados anteriormente se
entrega a continuación. Los íconos que aparecen a la derecha de cada par de símbolos
se utilizan en los diagramas para resaltar nodos que están siendo explicados.
Selección de muestras:
Este icono selecciona una muestra del flujo de datos que recibe
como input.
82 Fuente: elaboración propia
165
Nodos generadores de modelos:
Los siguientes íconos representan nodos que reciben como input un conjunto de datos
de entrenamiento, donde cada registro corresponde a una lista de valores de las
variables predictivas más un valor de la variable que se espera predecir. A partir de esa
información cada uno de éstos nodos genera un modelo predictivo, el cual es entregado
como output en la forma de nodo.
Este icono genera un modelo de regresión logística a partir de los
conjuntos de valores de las variables predictivas y de la variable a
predecir.
Este icono, en cambio, genera un modelo de red neuronal.
Este icono genera un modelo de árbol de decisión.
Nodos de modelos generados:
Los siguientes íconos representan modelos predictivos que ya han sido generados por
alguno de los nodos antes descritos. Cada uno de ellos puede ser utilizado en
Clementine de la misma forma que los nodos predefinidos por el software, sin
necesidad de programar su funcionamiento. Estos nodos al recibir como input un
conjunto de valores de las variables predictivas para un cliente en particular arrojan una
predicción para la variable a predecir.
Este icono representa un modelo de regresión logística que ha sido
generado por el usuario.
Este icono representa un modelo de red neuronal que ha sido
generado por el usuario.
Este icono representa un modelo de árbol de decisión que ha sido
generado por el usuario. C5.0 C
5.0C
5.0C
5.0C
5.0 C5.0
C5.0
C5.0
166
10.3.3.2 Descripción del diagrama en Clementine que genera un modelo El diagrama en Clementine que permite generar modelos se explica en dos fases:
primero la obtención de un conjunto de datos de entrenamiento (figura 10.20), y luego la
generación del modelo a partir de dicho conjunto de datos (figura 10.21).
Figura 10.20 Flujo de datos en Clementine que obtiene un conjunto de datos de entrenamiento83
En la figura 10.20 el nodo “Base final para construir modelo predictivo” del recuadro
contiene datos tanto de una base de variables predictivas de hace un año, como de las
clasificaciones de la base de clientes hoy. Dicha clasificación divide a los clientes en
“buenos” o “malos” y en “clientes con gran rentabilidad potencial” o “clientes sin gran
rentabilidad potencial”. Como primer paso del diagrama los distintos campos de dicha
base son transformados en variables discretas. Dicha labor, que ocurre en el nodo
denominado “Transforma en categorías”, se realiza para facilitar la iteración de los
algoritmos de generación de modelos. Los registros resultantes son divididos en
83 Fuente: elaboración propia
167
aquellos correspondientes a los clientes malos y a los clientes buenos (los cuales son
seleccionados en el diagrama por los nodos “Clientes malos hoy” y “Clientes buenos
hoy”, respectivamente)84. Posteriormente, el flujo de datos en Clementine procede a
construir el conjunto de datos de entrenamiento que se utilizará en la generación de los
modelos, para lo cual se selecciona el 50% de los clientes malos y el resultado se
mezcla con el nodo “1% de muestra de buenos”. Los porcentajes han sido escogidos
para asegurar la obtención de una muestra balanceada para la generación de modelos
predictivos (por cuanto el 1% de los clientes buenos es tan numeroso como el 50% de
los clientes malos). La muestra balanceada se obtiene en el diagrama en el nodo
etiquetado como “Conjunto de datos de entrenamiento”.
La figura 10.21 dada abajo, en tanto, ilustra la segunda fase de la generación de
modelos en Clementine:
Figura 10.21 Flujo de Datos en Clementine que genera modelos a partir de un conjunto de datos de entrenamiento85
84Una acción análoga es necesaria para trabajar con clientes con gran rentabilidad potencial y clientes sin gran rentabilidad potencial 85 Fuente: elaboración propia
168
La muestra antes obtenida se resalta mediante la etiqueta “Conjunto de datos de
entrenamiento” a la izquierda del diagrama. En la mitad superior de la figura, en tanto,
se resaltan los nodos generadores de modelos, bajo la etiqueta “Generación de
modelos”. Estos nodos generadores de modelos reciben como input el conjunto de
datos de entrenamiento y al momento de ser ejecutados por el usuario entregan como
output “nodos generados”. Cada “nodo generado” puede entenderse como un
programa, que puede ser utilizado en Clementine de igual forma que cualquier otro
nodo predefinido. Los “nodos generados” son depositados por los nodos generadores
en la esquina superior derecha del diagrama, donde aparecen resaltados con la
etiqueta “Modelos generados”.
10.3.4 Descripción del modelo (output 4c.3) Este resultado es el tercero de la tarea de construir un modelo (tarea 4c). De acuerdo a
la guía de usuario de la metodología CRISP-DM, este output corresponde a una
descripción del modelo resultante y a una evaluación de su precisión esperada, su
robustez y sus posibles defectos. Incluye también una descripción de la interpretación
del modelo. Entre las actividades que es preciso desarrollar para obtener este resultado
se encuentran las siguientes:
- Describir cualquier característica del modelo que pueda ser útil en el futuro.
- Registrar los valores establecidos de los parámetros que se han utilizado para producir
el modelo.
- Dar una descripción detallada del modelo.
- Para modelos basados en reglas, realizar una lista de todas las reglas producidas más
cualquier estimación del porcentaje de clientes que sería cubierto por cada regla.
- Para las redes neuronales realizar una lista de cualquier información técnica sobre el
modelo (tal como la topología) y cualquier descripción del comportamiento del modelo
obtenida durante el proceso de modelamiento (tal como la precisión o la sensibilidad
esperada del modelo).
- Describir el comportamiento del modelo y su interpretación.
- Establecer conclusiones sobre los patrones descubiertos en los datos (si es que éstos
existen).
169
A continuación se entregan las meta-especificaciones de los modelos de riesgo y de
rentabilidad perseguidos por esta investigación, utilizando para ello las tres técnicas de
modelamiento descritas previamente: regresión logística, redes neuronales y árboles de
decisión.
10.3.4.1 Modelo de riesgo especificado usando regresión logística A continuación se describe como puede especificarse el modelo de riesgo de crédito
como un modelo de regresión lineal.
Cada cliente tendrá un conjunto de características resumidas en la variable explicativa
vectorial X , definida de la forma siguiente:
)
(
F19F2F1
E29E2E1
D4D2D1
C15C2C1
B7B2B1
A14A2A1
...XX,X
,...XX,X
,...XX,X
,...XX,X
,...XX,X
,...XX,XX =
Cada una de las componentes de dicho vector es una variable que representa una
determinada característica, lo cual puede resumirse de la forma siguiente:
}{ A14A2A1 ...XX,X Variables demográficas
}{ B7B2B1 ...XX,X Variables de renta
}{ C15C2C1 ...XX,X Variables de vínculo con el cliente
}{ D4D2D1 ...XX,X Variables de ingresos contables generados por un cliente
}{ E29E2E1 ...XX,X Variables de comportamiento del cliente
}{ F19F2F1 ...XX,X Variables de deudas del cliente
170
El conjunto de observaciones de dichas variables para un cliente particular i se denota
como sigue:
)
(
F19F2F1
E29E2E1
D4D2D1
C15C2C1
B7B2B1
A14A2A1
iii
iii
iii
iii
iii
iiii
...xx,x
,...xx,x
,...xx,x
,...xx,x
,...xx,x
,...xx,xx =
La variable dependiente, denotada por Y , describe la condición de bueno o malo de un
cliente en términos de riesgo de crédito (0: bueno, 1: malo). Se denotan las
observaciones de dicha variable para un cliente i como iy .
Con estas definiciones la estimación que entrega un modelo de regresión logística para
la probabilidad de que un cliente i sea malo, dado que presenta características
descritas por el vector ix , vendrá dada por:
)(
)(
i
i
i x1
xπ
eeg
g
+=
Donde )( ixg corresponde a la ecuación ( )Tii x1βx •=
r)(g . El vector
( )Tix1 es
el vector ( )ix1 transpuesto: un vector cuyo primer elemento es el número “1” y todos
los elementos restantes son componentes del vector ix .
La razón para agregar el número “1” al vector ix se debe a que se desea incorporar el
parámetro 0β en )( ixg , a pesar de que este parámetro no vaya acompañado de
ninguna componente de ix . A continuación se entrega la definición de los vectores βr
y
( )ix1 en términos de sus componentes:
171
)
(
19F2F1F
,29D2D1D
,4D2D1D
,15C2C1C
,7B2B1B
,14A2A1A
ββββββββββββββββββββ
...,
...,
..., ..., ..., ..., 0 ,=
r
( )
)
(
F19F2F1
E29E2E1
D4D2D1
C15C2C1
B7B2B1
A14A2A1
iii
iii
iii
iii
iii
iiii
...xx,x
,...xx,x
,...xx,x
,...xx,x
,...xx,x
,...xx,x 1, x1 =
Los coeficientes βr
se obtienen de resolver numéricamente el sistema de ecuaciones:
0β
)β(
rr
r=∇ ˆl
Dicho sistema de ecuaciones se obtiene calculando el gradiente de ( )yrl con respecto
a los parámetros βr
, evaluado luego dichos parámetros en los estimadores βr̂
e
igualando finalmente las ecuaciones resultantes a cero, donde:
( ) ( )∑ ∑
= =
∗
+−=
n
1i
n
1i
iii
x1lnxyy e )(
)(g
glr
En tanto ix e iy representan observaciones de una muestra de n clientes escogidos
en el conjunto de datos de entrenamiento.
El modelo tal y como se ha descrito acá tiene 88 variables, las cuales claramente están
mutuamente correlacionadas entre si. No obstante, un modelo de regresión lineal
requiere que las variables no tengan correlaciones importantes, pues de lo contrario el
modelo tiende a tratar de replicar los “ruidos” contenidos en la muestra. Para evitar
dicho inconveniente es preciso depurar el modelo, dejando en él solamente las
variables que son más predictivas. Una forma de realizar dicho proceso consiste en
determinar el aporte de cada variable al modelo mediante el test de razón de
verosimilitud que se ha descrito antes en este documento.
10.3.4.2 Modelo de rentabilidad especificado usando regresión logística El modelo de rentabilidad potencial puede especificarse en forma análoga a como se ha
hecho en el caso del modelo de riesgo de crédito. La única diferencia radica en que la
172
variable dependiente Y describe la condición de ser o no un cliente con gran
rentabilidad potencial (0: con gran rentabilidad potencial, 1: sin gran rentabilidad
potencial). Se denotan las observaciones de dicha variable para un cliente i como iy .
La variable ix , en tanto, corresponde a una observación de la variable explicativa
vectorial X para un cliente particular i , definida del mismo modo que en el modelo de
riesgo de crédito. La estimación que entrega un modelo de regresión logística para la
probabilidad de que un cliente i no tenga una gran rentabilidad potencial dado que
posee un conjunto de características descritas por la variable ix viene dada por:
)(
)(
i
i
i x1
xπ
eeg
g
+=
Donde )( ixg se obtiene en la misma forma que en el caso del modelo de riesgo.
10.3.4.3 Modelo de riesgo especificado usando redes neuronales El conjunto de datos de entrenamiento utilizado para construir el modelo de red
neuronal de riesgo de crédito debe contener para cada cliente el conjunto de variables
predictivas (que son las mismas descritas anteriormente para especificar el modelo de
regresión logística) además de la variable a predecir Y , que describe la condición de
bueno o malo de un cliente en términos de crédito (0: bueno, 1: malo). La variable xr
corresponde a una observación para un cliente particular de la variable explicativa
vectorial X , definida como sigue:
)
(
F19F2F1
E29E2E1
D4D2D1
C15C2C1
B7B2B1
A14A2A1
...XX,X
,...XX,X
,...XX,X
,...XX,X
,...XX,X
,...XX,XX =
Cada una de las componentes de dicho vector son variables que representan una
determinada característica, y que pueden resumirse de la forma siguiente:
173
}{ A14A2A1 ...XX,X Variables demográficas
}{ B7B2B1 ...XX,X Variables de renta
}{ C15C2C1 ...XX,X Variables de vínculo con el cliente
}{ D4D2D1 ...XX,X Variables de ingresos contables generados por un cliente
}{ E29E2E1 ...XX,X Variables de comportamiento del cliente
}{ F19F2F1 ...XX,X Variables de deudas del cliente
La estimación que entrega un modelo de red neuronal para la probabilidad condicional
de que un cliente sea malo en términos de crédito dado que posee un conjunto de
características descritas por la variable xr viene dada por ( )xWrrh . Las redes
neuronales a veces son denominadas “modelos opacos” por constituir cajas negras
cuyo contenido no puede interpretarse. Se ha mencionado que ellas pueden concebirse
como redes bayesianas, en las que la función ( )xWrrh de cada unidad puede ser vista
como una probabilidad condicional de ocurrencia de un evento dados los valores de las
variables de input. No obstante, en la práctica a menos que el software de datamining
permita definir una topología exacta no es posible dar un significado claro a los
resultados de las unidades ocultas de la red. Clementine, que es la herramienta de
datamining que es utilizada en este documento, no permite definir la topología de las
redes neuronales más allá del número de niveles de las unidades ocultas. Por ello no
tiene sentido en esta sección especificar la topología para el modelo de riesgo.
Usualmente la forma de alcanzar un modelo satisfactorio con redes neuronales consiste
en realizar muchas pruebas con distintos números de niveles de unidades ocultas y
distintos parámetros alfa de aprendizaje, entre otros parámetros. No obstante, sólo es
posible especificar el modelo en términos fijos de esos parámetros disponiendo de los
datos concretos usados en la generación del modelo.
10.3.4.4 Modelo de rentabilidad especificado usando redes neuronales El conjunto de datos de entrenamiento utilizado para construir el modelo de red
neuronal de rentabilidad potencial debe contener para cada cliente el conjunto de
variables predictivas (que son las mismas descritas anteriormente para especificar el
174
modelo de regresión logística) y la variable a predecir Y , que describe la condición de
ser o no un cliente con gran rentabilidad potencial (0: con gran rentabilidad potencial, 1:
sin gran rentabilidad potencial). La variable xr corresponde a una observación para un
cliente particular de la variable explicativa vectorial X , definida en la misma forma que
para los modelos antes descritos. La estimación que entrega un modelo de red
neuronal para la probabilidad condicional de que un cliente no tenga una gran
rentabilidad potencial dado que posee un conjunto de características descritas por la
variable xr viene dada por ( )xWrrh .
10.3.4.5 Modelo de riesgo especificado usando árboles de decisión Un árbol de decisión puede ser especificado de distintas formas, una de las cuales es a
través de la descripción de sus nodos, ramas y hojas, (lo que se conoce como TREE
RESULT FORMAT en Clementine) y otra es a través de un conjunto de reglas (lo que
se conoce como RULESET RESULT FORMAT en Clementine). A continuación se
entrega la sintaxis de ambas definiciones utilizadas por Clementine en los outputs de
sus modelos de árboles de decisión C586. En cualquier caso los árboles son
especificados en un lenguaje similar, cuya sintaxis consta de los siguientes símbolos:
“<” y “>” rodean un identificador de un símbolo no terminal. Un símbolo no terminal
puede ser traducido a un conjunto de palabras claves y otros identificadores
“==” indica la definición de un identificador no terminal a su izquierda en términos de
palabras clave e identificadores a la derecha.
“|” se usa para separar elementos de una lista. Un identificador definido como una lista
de ítems separados por “|” puede ser traducido usando cualquiera de los ítems de la
lista.
“*” indica cero o más instancias del identificador ubicado a su izquierda.
Especificación utilizando TREE RESULT FORMAT:
Bajo esta especificación el árbol consiste de un número de líneas en las que cada una
contiene un test seguido de dos puntos. Cada línea corresponde a una hoja o a una
rama. Si hay cualquier cosa después de los dos puntos, la línea es un nodo hoja y el
86 Fuente: CLEMENTINE 7.0 User’s Guide, SPSS, 2002
175
ítem ubicado después de los dos puntos corresponde a una “clasificación” (output del
árbol de decisión). En el caso de un nodo rama, el test contenido en la línea se aplicará
a uno de los posibles valores de un atributo, por ejemplo del atributo A . Las líneas
siguientes a dicho nodo rama corresponderán a tests aplicados a otros atributos, o al
mismo atributo A . Dependiendo de qué atributo se trate es posible identificar si la línea
siguiente corresponde a un nodo “hijo”, “hermano” o “tío” del nodo rama de la línea
anterior. A continuación se entrega la sintaxis y un ejemplo de esta especificación.
Sintaxis TREE RESULT FORMAT: <Rama> == <Atributo> <Comparación> <Valor> :
<Hoja> == <Atributo> <Comparación> <Valor> : <Clasificación>
<Comparación> == ‘=’ | ‘>’ | ‘<=’ | ‘<’
Ejemplo dado en la figura 10.17 en el formato TREE RESULT FORMAT Renta = baja : No
Renta = media :
Rotación_empleo = baja : No
Rotación_empleo = alta :
Comuna = ‘Concepción’ : Si
Comuna = ‘Valpo.’ : No
Comuna = ‘Viña’ : Si
Comuna = ‘Stgo.’ :
Cliente_antiguo? = nuevo : No
Cliente_antiguo? = antiguo : Si
Renta = alta : Si
Especificación utilizando RULESET RESULT FORMAT:
En esta especificación un conjunto de reglas es descrito también en un lenguaje similar
a un lenguaje de programación. Dentro de cada conjunto de reglas debe haber cero o
más reglas. Cada regla consiste en una línea que empieza con la palabra reservada
“Rule”, seguida por un número de regla y por dos puntos, y luego por cero o más
condiciones. Luego de las condiciones la regla termina con la palabra reservada “class”,
a continuación de la cual se entrega una “clasificación” (output del árbol). Un conjunto
de reglas termina con la clasificación por omisión, la cual comienza con las palabras
reservadas “Default class” y luego por un output del árbol.
176
Sintaxis RULESET RESULT FORMAT: <Regla> == Rule <número de regla> : <Condición>*
class <Clasificación>
<Condición> == <Campo> <Comparación> <Valor> :
<Comparación> == ‘=’ | ‘>’ | ‘<=’ | ‘<’
Ejemplo dado en la figura 10.17 en el formato RULESET RESULT FORMAT
Rule 1 : Renta = baja
class No
Rule 2 : Renta = media
Rotación_empleo = baja
class No
Rule 3 : Renta = media
Rotación_empleo = alta
Comuna = ‘Concepción’
class Si
Rule 4 : Renta = media
Rotación_empleo = alta
Comuna = ‘Valpo.’
class No
Rule 5 : Renta = media
Rotación_empleo = alta
Comuna = ‘Viña’
class Si
Rule 6 : Renta = media
Rotación_empleo = alta
Comuna = ‘Stgo.’
Cliente_antiguo? = nuevo
class No
Rule 7 : Renta = media
Rotación_empleo = alta
Comuna = ‘Stgo.’
Cliente_antiguo? = antiguo
class Si
Rule 8 : Renta = alta
class Si
Default class : No
El modelo de riesgo puede especificarse de cualquiera de las dos formas antes
presentadas. Dicho modelo para cada cliente en el conjunto de datos de entrenamiento
recibe una variable explicativa vectorial X , definida en la misma forma que para los
modelos de regresión logística o redes neuronales, más la variable Y que se espera
predecir, y la cual describe la condición de ser o no un cliente malo en términos de
crédito (0: bueno, 1: malo). Las notas de riesgo de los clientes pueden fijarse a partir de
las probabilidades estimadas de que un cliente clasificado en cada hoja sea “malo”.
Dicha información es calculada por Clementine al procesar el conjunto de datos de
177
entrenamiento, a partir de los porcentajes observados de clientes “malos” en cada nodo
sobre el total de los clientes que han sido clasificados en dicho nodo.
10.3.4.6 Modelo de rentabilidad especificado usando árboles de decisión En este caso el árbol de decisión puede ser especificado también de las dos formas
dadas anteriormente (TREE RESULT FORMAT o RULESET RESULT FORMAT). La
variable a predecir Y describe en este caso la condición de ser o no un cliente con gran
rentabilidad potencial (0: con gran rentabilidad potencial, 1: sin gran rentabilidad
potencial). Las notas de rentabilidad de los clientes pueden fijarse a partir de las
probabilidades estimadas de clasificar a clientes como “sin gran rentabilidad potencial”
en cada hoja del árbol, información que Clementine entrega con cada árbol generado.
10.3.4.7 Variables válidas en los tres tipos de modelos antes explicados A continuación se entrega la descripción completa de las variables que alimentan los
tres tipos de modelos antes especificados:
Variables demográficas:
A1X Región A8X Nivel educacional
A2X Provincia A9X Actividad económica
A3X Comuna A10X Profesión
A4X Sexo A11X Universidad
A5X Estado civil A12X Régimen conyugal
A6X Cantidad de hijos A13X ¿Tiene datos de edad?
A7X Cantidad de cargas A14X Edad
Variables de renta:
1BX Patrimonio B5X Tipo de renta (fija o variable)
B2X ¿Tiene un bien raíz? B6X Antigüedad de la renta
B3X ¿Tiene datos de renta? B7X ¿Es trabajador independiente?
B4X Renta
178
Variables de vínculo con el cliente:
C1X Tipo de cliente (cliente en convenio, cliente estándar, etc.)
C2X Antigüedad del cliente
C3X ¿Tiene líneas de crédito del Banco?
C4X Fecha más remota de apertura de línea de crédito hoy vigente con el Banco
C5X ¿Tiene tarjetas del Banco?
C6X Fecha más remota de otorgamiento de tarjeta de crédito vigente con el Banco
C7X Monto original de las tarjetas de crédito del Banco que el cliente posee
C8X ¿Tiene créditos no hipotecarios en el Banco?
C9X Fecha más remota de otorgamiento de crédito no hipot. vigente con el Banco
C10X Monto original adeudado en créditos no hipotecarios del Banco
C11X Plazo máximo de créditos no hipotecarios hoy vigentes con el Banco
C12X ¿Tiene créditos hipotecarios del Banco?
C13X Fecha más remota de otorgamiento de crédito hipot. hoy vigente con el Banco
C14X Monto original adeudado en créditos hipotecarios hoy vigentes con el Banco
C15X Plazo máximo de créditos hipotecarios hoy vigentes con el Banco
Variables de ingresos contables por cliente:
D1X Ingresos contables generados por el cliente por concepto de mantención,
spread de intereses, comisiones y otros ingresos en líneas de crédito
D2X Ingresos contables generados por el cliente por concepto de mantención,
spread de intereses, comisiones y otros ingresos en tarjetas de crédito
D3X Ingresos contables generados por el cliente por concepto de spread de
intereses, comisiones y otros ingresos en créditos no hipotecarios
D4X Ingresos contables generados por el cliente por concepto de spread de
intereses, comisiones y otros ingresos en créditos hipotecarios
179
Variables de comportamiento del cliente:
E1X En qué tramo de morosidad se encuentra el cliente con el Banco
E2X Monto en mora
E3X ¿Presenta deuda vencida con el Banco?
E4X ¿Presenta capital castigado con el Banco?
E5X Días de mora en productos del Banco
E6X ¿Cliente está en "file negativo"?
E7X ¿Cliente presenta cuenta cerrada por el Banco?
E8X Presenta créditos renegociados que provienen de incapacidad de pago
E9X Presenta créditos repactados que no provienen de incapacidad de pago
E10X Presenta deuda de varios deudores proveniente de una tarjeta caída
E11X Presenta deuda de varios deudores proveniente de una línea caída
E12X Promedio de la deuda directa morosa en el sistema financiero los últimos 3
meses
E13X Promedio de la deuda directa vencida en el sistema financiero los últimos 3
meses
E14X Promedio de la deuda indirecta vencida en el sistema financiero en los últimos
3 meses
E15X Promedio del saldo de la deuda directa castigada en el sistema financiero los
últimos 3 meses
E16X Promedio del saldo de la deuda indirecta castigada en el sistema financiero los
últimos 3 meses
E17X Promedio de la deuda directa morosa en el sistema financiero en un periodo
comprendido entre 6 meses atrás y los últimos 3 meses
E18X Promedio de la deuda directa vencida en el sistema financiero en un periodo
comprendido entre 6 meses atrás y los últimos 3 meses
E19X Promedio de la deuda indirecta vencida en el sistema financiero en un periodo
comprendido entre 6 meses atrás y los últimos 3 meses
180
E20X Promedio del saldo de la deuda directa castigada en el sistema financiero en un
periodo comprendido entre 6 meses atrás y los últimos 3 meses
E21X Promedio del saldo de la deuda indirecta castigada en el sistema financiero en
un periodo comprendido entre 6 meses atrás y los últimos 3 meses
E22X Promedio de la deuda directa morosa en el sistema financiero en un periodo
comprendido entre 15 meses atrás y los últimos 6 meses
E23X Promedio de la deuda directa vencida en el sistema financiero en un periodo
comprendido entre 15 meses atrás y los últimos 6 meses
E24X Promedio de la deuda indirecta vencida en el sistema financiero en un periodo
comprendido entre 15 meses atrás y los últimos 6 meses
E25X Promedio del saldo de la deuda directa castigada en el sistema financiero en un
periodo comprendido entre 15 meses atrás y los últimos 6 meses
E26X Promedio del saldo de la deuda indirecta castigada en el sistema financiero en
un periodo comprendido entre 15 meses atrás y los últimos 6 meses
E27X Cheques protestados
E28X Otros documentos protestados en el Boletín Comercial
E29X Morosidades informadas al Boletín Comercial
Variables de deuda del cliente:
F1X Saldo vigente en las líneas de crédito del Banco
F2X Cupo disponible en las líneas de crédito del Banco
F3X Saldo vigente en las tarjetas de crédito del Banco
F4X Cupo disponible en las tarjetas de crédito del Banco
F5X Saldo vigente en créditos no hipotecarios del Banco
F6X Saldo vigente en créditos hipotecarios del Banco
F7X Deuda comercial en otros bancos
F8X Deuda de consumo en otros bancos
F9X Deuda hipotecaria en otros bancos
F10X Cupo disponible en líneas y tarjetas de crédito de otros bancos
181
F11X Deuda directa vigente en el último mes del último informe SBIF
F12X Monto de línea de crédito disponible en el último informe SBIF
F13X Promedio de la deuda directa vigente en un periodo comprendido entre 6
meses atrás y los últimos 3 meses
F14X Promedio del monto de línea de crédito disponible en un periodo comprendido
entre 6 meses atrás y los últimos 3 meses
F15X Promedio de la deuda directa vigente en un periodo comprendido entre 15
meses atrás y los últimos 6 meses
F16X Promedio del monto de línea de crédito disponible en un periodo comprendido
entre 15 meses atrás y los últimos 6 meses
F17X Nivel de leverage hipotecario total del cliente, el cual se calcula como la deuda
hipotecaria dividida por la renta
F18X Nivel de leverage no hipotecario total del cliente, el cual se calcula como la
deuda no hipotecaria dividida por la renta
F19X Estimación de la carga financiera del cliente
10.4 Evaluar el modelo técnicamente (tarea 4d)
Esta tarea se encarga de evaluar el modelo para asegurar que satisface tanto los
criterios de éxito de datamining (output 1c.2) como los criterios de las pruebas (output
4b.1). Corresponde a una evaluación puramente técnica y estadística, basada en el
resultado de las tareas de modelamiento. Difiere por tanto de la subsiguiente fase de
evaluación de negocios del modelo de datamining precisamente por su enfoque técnico.
La descripción de los resultados que se deben obtener como fruto de esta tarea se
entrega a continuación:
10.4.1 Evaluación técnica del modelo y de los objetivos de datamining de estimar el riesgo crediticio y la rentabilidad potencial de los clientes (output 4d.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde
a un resumen de los resultados de la tarea de evaluar el modelo técnicamente (tarea
4d). Debe incluir listas de cualidades de los modelos generados (por ejemplo, en
términos de precisión) y rankings de calidad de los modelos generados. Entre las
actividades que es preciso desarrollar para obtener este resultado se encuentran:
182
- Evaluar los resultados del modelo con respecto a los criterios de éxito de datamining
(output 1c.2), muy en particular con respecto a los errores tipo I y tipo II definidos en la
sección 7.3, y expresados como porcentaje de un conjunto de datos de prueba. En este
punto es preciso fijar un “puntaje de corte”, o nota mínima que permite clasificar como
bueno a un cliente87, y calcular los errores tipo I y tipo II que se obtengan para un
conjunto de datos de prueba. En un modelo de riesgo el error tipo I proviene de
clasificar como bueno a un cliente que será malo, mientras que el error tipo II surge al
clasificar como malo a un cliente que será bueno88.
- Validar los resultados del modelo siguiendo la estrategia de pruebas (output 4b.1).
- Comparar e interpretar los resultados obtenidos en la validación.
- Crear rankings de resultados con respecto a los criterios de evaluación técnica.
- Seleccionar los mejores modelos.
- Obtener comentarios sobre los modelos por parte de expertos en la materia.
- Chequear que tan plausible es cada modelo.
- Verificar el impacto que tendría la implementación de un modelo para los objetivos de
datamining de estimar el riesgo crediticio y la rentabilidad de los clientes.
- Determinar si la información descubierta por cada modelo es nueva y útil.
- Verificar la confiabilidad de los resultados de los modelos.
- Si hay una descripción verbal del modelo generado, por ejemplo vía reglas, evaluar si
las reglas son lógicas o factibles, o si contrarían el sentido común.
- Comprender por qué una determinada técnica de modelamiento y ciertos valores de
los parámetros conducen a buenos o a malos resultados.
10.4.2 Principales medidas estadísticas para evaluar modelos técnicamente A continuación se da un conjunto de medidas estadísticas que pueden ser usadas para
comparar modelos predictivos, entregando para cada una sus ventajas y desventajas. 87 Análogamente un puntaje de corte es la nota mínima para calificar a un cliente como “con gran rentabilidad potencial” 88 Análogamente lo mismo es válido para los modelos de rentabilidad. El error tipo I se comete al calificar como cliente con gran rentabilidad potencial a un cliente sin ella, en tanto que el error tipo II ocurre al clasificar como cliente sin gran rentabilidad potencial a un cliente que si poseerá una gran rentabilidad potencial
183
10.4.2.1 Divergencia La divergencia puede usarse para medir la separación de la distribución de clientes
malos de la distribución de clientes buenos. Un modelo que entregue mayor divergencia
que otro será capaz de separar mejor a los clientes buenos de los malos a través de las
notas de riesgo, en otras palabras será capaz de distinguir mejor a los clientes malos de
los buenos. La distribución de clientes malos puede estimarse a partir del histograma de
frecuencia de los puntajes de riesgo de los clientes malos. La distribución de clientes
buenos puede aproximarse análogamente a partir de un histograma de los puntajes de
clientes buenos. La divergencia D de dos modelos se calcula como sigue:
( )( )2
b2m
2bm
σσ21
µµD+
−=
Donde bµ y 2bσ son la media y la varianza de la distribución de puntaje de los clientes
buenos y mµ y 2mσ son la media y la varianza de la distribución de puntaje de los
clientes malos.
Figura 10.22 Factores considerados en la divergencia de un modelo de puntaje: cuanto se separan y se superponen las distribuciones de buenos y malos89
89 Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight Series, 1999
184
Entre las ventajas de este estadístico se encuentran el que considera las distribuciones
de puntajes completas para realizar la comparación de modelos. Toma en
consideración la separación de los dos grupos de clientes, buenos y malos, al igual que
las varianzas de sus distribuciones. Entre sus desventajas están el que tal vez no
identifica el mejor modelo para una determinada “nota de corte”, entendiendo esta
última como la nota mínima aceptable para aprobar una decisión de otorgamiento de
crédito. Ello proviene del hecho de que si bien un modelo puede separar mejor a los
clientes malos de los buenos en términos generales, ello no garantiza que para una
nota específica tal modelo separe mejor que el resto a los clientes buenos de los malos.
10.4.2.2 Estadístico de Kolmogorov-Smirnov (K-S) Este estadístico mide la diferencia máxima entre las curvas de probabilidad acumulada
del puntaje de dos grupos de clientes, por ejemplo: clientes buenos y malos.
Figura 10.23 Estadígrafo K-S, calculado como la máxima distancia entre las distribuciones de buenos y malos de un modelo de puntaje90
Mientras mayor sea el estadístico K-S de un modelo, mejor será la capacidad de dicho
modelo para separar a los clientes buenos de los malos. Este estadístico tiene la
ventaja de ser fácil de interpretar. Sus desventajas incluyen el medir la separación de
90 Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight Series, 1999
185
dos distribuciones de probabilidad en un solo punto y el ser un método que depende
fuertemente de cual sea la elección de las bandas de puntaje. No obstante, la mayor
desventaja radica en que el punto de máxima separación entre las distribuciones de
buenos y malos puede estar lejos del puntaje de corte que esté siendo utilizado para
tomar decisiones de otorgamiento de crédito. Un modelo puede separar en general
mejor que el resto a los clientes buenos de los malos por tener un estadístico K-S más
elevado, no obstante ello no garantiza que dicho modelo sea mejor que el resto
distinguiendo a los clientes buenos de los malos para un puntaje de riesgo específico
(por ejemplo: un “puntaje de corte” mínimo usado para otorgar crédito).
10.4.2.3 Curva ROC o de Trade-off Los orígenes de la curva ROC o de Trade-off se remontan a 1905, cuando Max O.
Lorenz desarrolló la curva que lleva su nombre para mostrar la desigualdad en la
distribución del ingreso. Los puntos sobre la curva de Lorenz graficaban declaraciones
del tipo: “el 80% de todos los hogares percibe sólo un 20% de la riqueza”. El eje
horizontal de la curva representaba el porcentaje acumulado de hogares considerados,
ordenados de menor a mayor nivel socioeconómico, mientras que el eje vertical
ilustraba el porcentaje de la riqueza que percibían los hogares.
Figura 10.24 Curvas de trade-off de dos modelos de puntaje91
91 Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight Series, 1999
186
La curva ROC (Receiver Operating Characteristic Curve), conocida también como curva
de trade-off, es análoga a la curva de Lorenz, con la salvedad de que ordena a los
clientes de mayor a menor nota. Luego de ordenados éstos, para cada nota debe
contarse el número de clientes “P” con un puntaje igual o menor a dicha nota, a la vez
que el número de clientes malos “M” con un puntaje igual o inferior. La curva ROC se
obtiene graficando M v/s P, expresados en términos de porcentajes sobre el total de
clientes malos y sobre el total de clientes de la población, respectivamente. Entre las
ventajas de la curva ROC están el permitir comparar visualmente la efectividad de dos
modelos, del mismo modo que realizar comparaciones de distintos “puntajes de corte”.
La figura 10.24 muestra la curva ROC para dos modelos, A y B. A presenta un mejor
desempeño que B, puesto que para el X % de la población con peores notas B
identifica solamente Z % de los malos, en tanto que A logra reconocer Y %. La línea
aleatoria ordena a los clientes por puntajes con distribución uniforme de probabilidad.
10.4.2.4 Receiver Operating Characteristic (ROC) Este estadígrafo resume el área bajo una curva de trade-off. Mientras mayor sea el
área, mejor será el modelo.
Figura 10.25 Estadígrafo ROC de un modelo de puntaje, calculado como el área bajo la curva de trade-off92
92 Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight Series, 1999
187
Entre las ventajas de este estadístico están el proveer un valor cuantitativo, y el permitir
comparar curvas de trade-off completas, considerando toda la población. Cuando las
curvas de trade-off se cruzan, ayuda a indicar qué modelo es más efectivo en términos
globales. Entre sus desventajas están que no permite indicar qué modelo puede
separar en mejor forma a los clientes buenos de los malos para un puntaje de riesgo
determinado (por ejemplo: un “puntaje de corte” mínimo usado para otorgar crédito).
10.4.2.5 Razón Odds/Score Este estadístico grafica el logaritmo de los “odds” para cada puntaje. Los “odds” para un
determinado puntaje corresponden al número de clientes buenos dividido por el número
de clientes malos que se observan con ese puntaje. La gráfica obtenida es altamente
dependiente de la escala arbitraria de puntaje que calcule un modelo.
Este estadístico puede ser usado para comparar el desempeño de un mismo modelo a
lo largo del tiempo, o para comparar el desempeño de un mismo modelo sobre
segmentos de clientes distintos. Entre sus ventajas están el mostrar la capacidad de
ordenamiento por puntaje que posee un modelo. Entre sus desventajas figuran el que
no provee de información sobre la distribución subyacente (como la curva de trade-off),
y el que no permite comparar modelos distintos con escalas de puntajes distintas.
Figura 10.26 Razón de Odds/Score de un modelo de puntaje93
93 Fuente: ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac Insight Series, 1999
188
10.4.3 Evaluación técnica automatizada de modelos utilizando Clementine A continuación se muestra como Clementine ayuda a automatizar la obtención del
resultado 4d.1, correspondiente a la evaluación técnica de los modelos. En el diagrama
10.27 se ilustra como seleccionar una muestra para validar los modelos, la cual se
denomina “conjunto de datos de prueba”. En la figura Clementine toma de los nodos
etiquetados “Clientes malos hoy” y “Clientes buenos hoy” todos aquellos registros que
no fueron seleccionados para conformar el conjunto de datos de entrenamiento.
Figura 10.27 Flujo de datos en Clementine que obtiene un conjunto de datos de prueba para validar un modelo94
El nodo etiquetado “50% restante de muestra de malos” realiza una mezcla especial de
sus inputs conocida como “antijoin”, que lo que hace es seleccionar todos aquellos
registros del nodo “Clientes malos hoy” que no se encuentran entre los registros del
nodo “50% de muestra de malos” (los cuales fueron utilizados en el conjunto de datos
de entrenamiento). El nodo etiquetado “99% restante de muestra de buenos” realiza
94 Fuente: elaboración propia
189
una mezcla análoga empleando la modalidad “antijoin” de manera de no utilizar los
registros empleados en el conjunto de datos de entrenamiento.
Figura 10.28 Flujo de datos en Clementine que entrega notas y predicciones de de riesgo y rentabilidad potencial para un conjunto de clientes95
La figura 10.28 muestra como los modelos generados que aparecen en la esquina
superior derecha pueden ser “enchufados” al conjunto de datos de prueba. En efecto, el
conjunto de datos de prueba aparece conectado a un grupo de modelos que figuran
sobre la etiqueta “Utilización de modelos”, obteniendo notas de riesgo o rentabilidad
potencial en los nodos sobre la etiqueta “Predicciones”. Dichas notas corresponden
efectivamente a predicciones o estimaciones de las probabilidades de que los clientes
se transformen en “malos” o en personas “sin gran rentabilidad potencial”. Al clasificar
con aquellas notas de riesgo y rentabilidad potencial un conjunto de clientes contenidos
en el conjunto de datos de prueba es posible utilizar las distintas medidas estadísticas
para evaluar los modelos técnicamente (divergencia, estadístico K-S, etc., las cuales se
95 Fuente: elaboración propia
190
han detallado en la sección 10.4.2). Del mismo modo, a partir de los puntajes
calculados para el conjunto de datos de prueba, y habiendo definido puntajes de corte
para los modelos de riesgo y de rentabilidad potencial es posible calcular los errores
tipo I y tipo 2 definidos en la sección 7.3 (output 1c.2).
10.4.4 Establecer los parámetros revisados (output 4d.2) Este resultado es el segundo de la tarea de evaluar el modelo técnicamente (tarea 4d).
De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde
a un chequeo de los valores establecidos para los parámetros y a un afinamiento
iterativo de dichos parámetros mediante retornos sucesivos a la tarea de construcción
de modelos (tarea 4c). Entre las actividades que es preciso desarrollar para obtener
este resultado se encuentra el ajustar los parámetros para obtener el mejor modelo.
191
11 QUINTA FASE DEL PLAN: EVALUACIÓN DE NEGOCIOS
El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de evaluación de negocios de la metodología CRISP-DM, junto a los resultados que
deben obtenerse de la ejecución de cada una de ellas:
Figura 11.1 Tareas y outputs de la fase de evaluación de negocios, quinta fase del proyecto de datamining según metodología CRISP-DM96
A continuación se describen las tareas de esta fase y sus correspondientes resultados,
entregando consejos y recomendaciones tomados de la guía de usuario CRISP-DM97 y
de la experiencia y reflexión del autor de este documento. Dado que el plan de
datamining planteado es conceptual y no se refiere a ningún Banco en particular, son 96 Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000 97 Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
192
también genéricas y conceptuales todas las indicaciones que se entregan con respecto
a los modelos aprobados (output 5a.2), a la revisión del proceso (output 5b.1) a la lista
de acciones posibles (output 5c.1) y a la decisión a tomar en esta fase (output 5c.2). Se
entregan, en cambio, comentarios referidos a las campañas bancarias al describir la
evaluación de negocios de los resultados de datamining (output 5a.1), por cuanto para
dichas campañas se han definido en este documento dos objetivos de negocios
concretos.
11.1 Evaluar los resultados de negocios (tarea 5a)
En las tareas previamente descritas se evaluaba el modelo de datamining en relación a
factores tales como su precisión y generalidad. En esta tarea, en cambio, debe
evaluarse el nivel de satisfacción de los objetivos de negocios perseguidos por el
proyecto de datamining. Si el modelo es deficiente en cuanto al cumplimiento de dichos
objetivos debe determinarse si existe alguna razón que lo explique. Las descripciones
de los resultados que se deben obtener como fruto de esta tarea se entregan a
continuación:
11.1.1 Evaluación de negocios de resultados de datamining y de los objetivos de negocios de focalizarse en nichos y crecer sujeto a un nivel mínimo de riesgo (output 5a.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde
a un resumen de los resultados de la evaluación de negocios en términos de criterios
de éxito, incluyendo una declaración final sobre si el proyecto satisfizo los objetivos de
negocios iniciales. Entre las actividades que es preciso desarrollar para obtener este
resultado se encuentran las siguientes:
- Comprender los resultados de los modelos.
- Interpretar los resultados de los modelos en términos de la aplicación que se les dará.
- Evaluar el impacto de los resultados de datamining para los objetivos de negocios.
- Evaluar los resultados de datamining con respecto a los criterios de éxito de negocios,
vale decir, verificar si el proyecto consiguió los objetivos de negocios originales. Muy en
especial es preciso chequear el cumplimiento de los criterios de éxito de negocios
193
(output 1a.3) de aumentar los montos ofrecidos en las campañas en un porcentaje
determinado y de acotar las pérdidas esperadas de éstas en una cifra determinada.
- Rankear resultados de datamining con respecto a los criterios de éxito de negocios.
- Verificar si hay nuevos objetivos a ser tratados en el proyecto o en nuevos proyectos.
- Establecer conclusiones para futuros proyectos de minería de datos.
En los supuestos de negocios de la investigación se ha mencionado que se aceptan
sólo dos formas para competir para un Banco pequeño en el competitivo ambiente
bancario actual: alcanzar economías de escala mediante crecimiento o focalizarse en
nichos de mercado específicos. Dos han sido por lo tanto los objetivos de negocios que
se han definido para este proyecto de datamining en el capítulo de comprensión del
negocio: la labor de focalización propiamente tal, y el crecimiento sujeto a un nivel
mínimo de riesgo. En este punto deben evaluarse los resultados de los modelos de
datamining con respecto a dichos objetivos.
En primer término, en la evaluación de negocios deberá determinarse si los modelos
predictivos permiten efectivamente identificar segmentos de riesgo y rentabilidad con
características distintas a las de los clientes promedio. Ello será posible en la medida
que los clientes estén esparcidos en distintos segmentos, y no aglutinados en uno solo.
No obstante, como se menciona en el capítulo 7, es difícil expresar el objetivo de
focalización en términos numéricos, por lo que debe identificarse a algún profesional
que evalúe los criterios de éxito a ese respecto, y entregue un juicio sobre su nivel de
cumplimiento. La figura 11.2 ilustra cómo es posible clasificar a los clientes en distintos
segmentos en base a sus puntajes de riesgo y rentabilidad.
Es claro que identificando segmentos como los de la figura 11.2 puede dirigirse una
oferta diferenciada a cada segmento (por ejemplo: créditos de consumo con tasas
preferenciales sólo para el segmento “riesgo bajo, alta rentabilidad”).
Por otro lado, un esquema multisegmentos como el dado en la figura 11.2 permite
apoyar la implementación de una orientación estratégica de las campañas, entendida
como se ha descrito en el capítulo 2.
194
Figura 11.2 Segmentos de riesgo y rentabilidad98
En segundo término, en la evaluación de negocios debe determinarse si los modelos
predictivos permiten a un Banco crecer satisfaciendo un nivel mínimo de riesgo. Con tal
propósito, es preciso recurrir a los supuestos operacionales dados en las hipótesis de
trabajo, y de acuerdo a los cuales el Banco realiza sus campañas con una orientación
operacional. Como se ha mencionado en la sección 5.5, bajo un enfoque operacional
no existen modelos capaces de calcular la probabilidad de pérdida de los préstamos
dirigidos a cada cliente, y en consecuencia no es posible estimar la probabilidad de
pérdida asociada al monto total ofrecido en una campaña. Como ya se mencionó en la
misma sección, en ausencia de un modelo capaz de medir en forma certera el nivel de
riesgo de una campaña (vale decir, la pérdida asociada al monto ofrecido en ésta), un
Banco no podrá maximizar los montos ofrecidos a sus clientes sujeto todo ello a la
satisfacción de un cierto nivel de riesgo. En esta sección se mostrará como un esquema
multisegmentos de riesgo y rentabilidad permite alcanzar un mejor desempeño, al hacer
posible maximizar los montos ofrecidos para un cierto nivel de riesgo.
Bajo un enfoque operacional las campañas bancarias se realizan sin segmentar a los
clientes por criterios de riesgo y rentabilidad potencial, entregando una oferta estándar
a todos quienes cumplan ciertos criterios de riesgo. La siguiente figura ilustra una
segmentación semejante:
98 Fuente: elaboración propia
195
Figura 11.3 Orientación operacional de las campañas bancarias99
La utilización de un esquema multisegmentos como el ilustrado en la figura 11.2 permite
que un Banco con el enfoque operacional dado en la figura 11.3 crezca por tres razones
distintas:
1. Existe un segmento de la figura 11.2 que no recibe oferta alguna en la figura 11.3, y
que puede ser objeto de una oferta diferenciada.
2. El esquema multisegmentos hace posible identificar el potencial de negocios de los
clientes vía las notas de rentabilidad, lo que facilita orientar los esfuerzos de las
campañas hacia los clientes con mayor potencial.
3. El esquema multisegmentos permite aumentar los montos ofrecidos a los clientes
satisfaciendo un nivel mínimo de riesgo. Como se ha explicado en la sección 7.1 al
describir los criterios de éxito de negocios (output 1a.3), dicho nivel mínimo de
riesgo puede establecerse como un monto esperado de pérdidas en cada campaña.
Para cada cliente el monto de pérdida esperada se calcula como el monto ofrecido a
dicho cliente multiplicado por la probabilidad de que dicho cliente se transforme en
“malo” en el futuro (la cual corresponde en forma biunívoca a un puntaje de riesgo).
Dicha probabilidad aumentará al incrementarse la carga financiera del cliente, en el
caso de que éste acepte el monto ofrecido. Por lo tanto, la maximización de los
montos ofrecidos sujeta a satisfacer un determinado nivel de riesgo corresponderá a 99 Fuente: elaboración propia
196
un problema de programación no lineal, en la medida que la restricción contempla la
multiplicación de las variables por probabilidades que dependen de las mismas
variables. A continuación se entregará una especificación de un modelo de
programación no lineal que permite estimar los montos a ofrecer en las campañas, a
la vez que se dan algunas indicaciones sobre como resolverlo. De cualquier forma la
resolución de semejante problema escapa a los objetivos de esta investigación. En
esta sección simplemente se desea mostrar como los puntajes de riesgo y
rentabilidad permiten especificar matemáticamente el problema de determinar los
montos a ofrecer en una campaña, satisfaciendo un determinado nivel de riesgo. Si
bien el problema especificado puede ser difícil de resolver en forma exacta, su sola
especificación ya permite comparar distintas soluciones posibles, por lo que hace
posible escoger la mejor solución entre ellas. Por lo tanto, la especificación del
problema permite por si sola cumplir el objetivo de aumentar los montos ofrecidos en
una campaña sujeto a satisfacer un cierto nivel de riesgo.
Sea ix el monto ofrecido en una campaña a un cliente i . Sea 2ip la probabilidad de
que un cliente se transforme en “malo” en el futuro (la cual corresponde en forma
biunívoca a un puntaje de riesgo). La mencionada probabilidad 2ip deberá calcularse
teniendo en consideración el aumento en el endeudamiento del cliente al aceptar el
monto ofrecido. Mientras mayor sea el aumento de la carga financiera de un cliente,
mayor será el aumento de su nivel de riesgo. Por otro lado, mientras mayor sea la
rentabilidad potencial de un cliente, mayor será también su capacidad para incrementar
su nivel de endeudamiento sin deteriorar su nivel de riesgo. Por lo tanto, el aumento del
nivel de riesgo de un cliente será función no lineal del cambio en su nivel de carga
financiera, al mismo tiempo que función no lineal de su rentabilidad potencial, como lo
muestra la figura 11.4.
El aumento de riesgo de los clientes producto de la aceptación de una oferta se
denomina ip∆ , el cual se define como la razón entre el cambio en la probabilidad de
que el cliente i se transforme en “malo” y el máximo cambio que podría verificarse en
dicha probabilidad. Por lo tanto, los valores posibles para ip∆ se encuentran entre 0%
y 100%.
197
Figura 11.4 Funciones continua y escalonada que describen el aumento del riesgo de los clientes al aumentar su carga financiera100
Si se denota como 1ip la probabilidad de que el cliente i se transforme en “malo” antes
de aceptar la oferta realizada en la campaña, entonces ip∆ vendrá dado por la fórmula
siguiente:
1
12
i
iii p-1
p-pp =∆
La función ip∆ puede obtenerse a partir de los datos de un conjunto de clientes. La
forma más simple de describir dicha función es a través de un conjunto de tablas, las
cuales deben entregar una estimación de ip∆ para cada par de valores de rentabilidad
potencial y de aumento de la carga financiera.
El puntaje de rentabilidad potencial del cliente i se denota ir en la figura 11.4, en tanto
que el aumento en la carga financiera de los clientes al aceptar el monto ofrecido en
una campaña se denomina iq∆ . Denotando como iI el ingreso mensual de un cliente
100 Fuente: elaboración propia
198
i y como )( ixCuota la cuota que correspondería pagar mensualmente a dicho cliente
por un monto ofrecido ix , se tendrá que iq∆ vendrá dado por la siguiente relación:
ii
i IxCuotaq )(∆ =
Claramente iq∆ debe ser mayor que 0. Por otro lado, denotando como iq la carga
financiera del cliente i antes de aceptar el monto ofrecido en la campaña, debe tenerse
que la suma entre iq y iq∆ deberá ser menor a 1 (puesto que no puede superar el
100% de los ingresos de un cliente).
Con las definiciones dadas previamente es posible expresar como un modelo de
programación no lineal el problema de determinar los montos a ofrecer en las
campañas, satisfaciendo al mismo tiempo un nivel de riesgo dado por una pérdida
esperada de P :
( )
( )( )
}{}{
}{
∆
∆
∆)(
1,...ni qq
1,...ni x
1,...niIxCuotaq
p-1ppp
Ppx
as
xx
Max
1ii
0i
i
ii
iiii
n
1iii
n
1ii
i
112
2
∈∀
∈∀
∈∀
=
=
≤+
≥
=
+
=
∗
=
∑
∑..
Denotando por 1-Cuota la función inversa de la función )( ixCuota , es posible escribir
el problema anterior de manera que las variables sean los aumentos iq∆ de las cargas
financieras de los clientes al aceptar los montos ofrecidos. En efecto, se tendrá
)(∆ ii-
i IqCuotax 1 ∗= , por lo que el problema de optimización podrá expresarse como
se muestra a continuación:
199
( )( )
}{}{
∆∆
∆)(∆
)(∆∆
1,...ni qq1,...ni q
Pp-1ppIqCuota
as
IqCuotaq
Max
1ii
i0
n
1iiiiii
-
n
1iii
-
i
111
1
∈∀
∈∀
=
≤+
≤
=
+∗∗
=
∗
∑
∑..
Algunas formas de de resolver el modelo anterior, como son el método del gradiente y
las condiciones de Karush-Kuhn-Tucker, requerirán que la función ip∆ esté expresada
en forma continua y diferenciable. No obstante, es posible entregar una forma ingenua y
fácilmente comprensible de resolver el modelo anterior si iq∆ puede asumir
únicamente valores discretos, y si ip∆ es una función escalonada. Dicha solución
consiste en probar todas las posibles combinaciones de valores para el conjunto de
variables iq∆ . Si los valores que iq∆ puede asumir se limitan a tan solo 11 números
posibles (0%, 10%... 100%), entonces se tendrán n11 combinaciones posibles, un
número en verdad enorme. Si bien tal solución ingenua es impracticable
computacionalmente para cualquier conjunto de clientes, puede implementarse para un
conjunto de segmentos de clientes limitado, (10 segmentos, o 10n = , por ejemplo)101.
La optimización antes ilustrada no puede ser implementada con un enfoque operacional
de las campañas, sin distinción de segmentos de riesgo/rentabilidad. Un esquema
operacional de las campañas puede filtrar clientes que no cumplen con determinados
criterios de riesgo, pero no puede determinar la probabilidad de pérdida asociada a
cada cliente, por lo que tampoco puede obtener la pérdida esperada para una
campaña, y en consecuencia no puede obtener el máximo monto a ofrecer a los
clientes satisfaciendo un nivel mínimo de riesgo.
101 En efecto, si un computador puede realizar millones de operaciones por segundo, podrá realizar 1011 operaciones en unas 7 horas.
200
Bajo un esquema operacional la máxima cuota que puede pagar un cliente se
determina a partir de las políticas de crédito del Banco, lo cual no necesariamente debe
ser lo más adecuado, en particular porque en ningún momento se utiliza el nivel de
rentabilidad potencial de los clientes.
En resumen, puede observarse, por lo tanto, que mediante modelos predictivos que
calculan puntajes de riesgo y rentabilidad pueden construirse segmentaciones que
ayuden a que un Banco crezca y controle un nivel mínimo de riesgo.
El objetivo de aumentar los montos ofrecidos en las campañas puede medirse
directamente de los resultados del modelo de datamining. No obstante, es preciso
esperar mínimo un año y medio para verificar si el nivel de riesgo de los clientes
considerados en las campañas satisfizo efectivamente el nivel mínimo estipulado en los
criterios de éxito de negocios (output 1a.3). Ello se debe a que la experiencia señala
que los clientes pueden tardar años en transformarse en “malos”. En efecto, los clientes
que reciben un crédito de consumo y que dejan de pagarlo sólo lo harán luego de
transcurrido un mínimo de dos años. Por ello el objetivo de crecimiento debe medirse no
sólo en el corto plazo, sino que también en el largo plazo.
11.1.2 Modelos aprobados (output 5a.2) Este resultado es el segundo de la tarea de evaluar los resultados de negocios (tarea
5a). Después de evaluar un modelo con respecto a los criterios de éxito de negocios
eventualmente se obtendrán modelos aprobados (si se da el caso que los modelos
generados cumplan con los criterios requeridos).
11.2 Revisar el proceso de datamining (tarea 5b)
En esta tarea es preciso revisar en forma acuciosa si algún factor o actividad
importantes del proyecto de datamining fueron pasados por alto. Constituye una
revisión de calidad realizada no sobre los datos, sino que sobre el proceso que generó
los resultados de datamining.
La descripción de los resultados que se deben obtener como fruto de esta tarea se
entrega a continuación:
201
11.2.1 Revisión del proceso de datamining (output 5b.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde a un resumen de la revisión del proceso de datamining. Es un documento
que contiene pistas para descubrir actividades que han sido olvidadas o que debieran
ser repetidas. Entre las actividades que es preciso desarrollar para obtener este
resultado se encuentran las siguientes:
- Dar una visión general del proceso de datamining utilizado.
- Analizar el proceso de datamining, respondiendo en retrospectiva si fue o no
necesaria cada fase del proyecto y si se ejecutó óptimamente.
- Determinar de qué forma podría ser mejorado el proceso de datamining.
- Identificar posibles fallas en el proceso de datamining.
- Identificar pasos del proceso de datamining que podrían conducir a error.
- Identificar posibles acciones alternativas en el proceso de datamining.
11.3 Determinar los próximos pasos (tarea 5c)
De acuerdo a lo obtenido a través de la evaluación de negocios de los resultados de
datamining y de la revisión del proceso de datamining, en este punto debe decidirse si
debe darse por terminado el proyecto y entrar a la fase de despliegue, si deben iniciarse
iteraciones adicionales, o bien si debe iniciarse un nuevo proyecto de minería de datos.
Las descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:
11.3.1 Lista de las acciones posibles (output 5c.1) Para conseguir este resultado deben realizarse las siguientes actividades:
- Realizar una lista de las acciones ulteriores a emprender en el proyecto de datamining
junto a las razones a favor y en contra de cada opción asociada.
- Analizar el potencial de despliegue de cada resultado de datamining.
- Estimar el potencial de mejoramiento del actual proceso de datamining.
- Verificar si los recursos restantes permiten iteraciones adicionales del proceso de
datamining, o si por el contrario deben obtenerse recursos adicionales.
202
- Recomendar alternativas de continuación del proyecto de datamining.
- Refinar el plan del proceso de datamining.
11.3.2 Decisión (output 5c.2) Este resultado es el segundo de la tarea de determinar los próximos pasos (tarea 5c).
De acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde
a una descripción de la decisión en términos de cómo proceder a continuación, junto a
las razones que justifican tal medida. Entre las actividades que es preciso desarrollar
para obtener este resultado se encuentran las siguientes:
- Realizar un ranking de las acciones posibles.
- Seleccionar una de las acciones posibles.
- Documentar las razones que justifican la elección.
203
12 SEXTA FASE DEL PLAN: DESPLIEGUE DE LOS RESULTADOS
El siguiente diagrama muestra las distintas tareas que deben ser realizadas en la fase
de despliegue de la metodología CRISP-DM, junto a los resultados que deben
obtenerse de la ejecución de cada una de ellas:
Figura 12.1 Tareas y outputs de la fase de despliegue, sexta y última fase del proyecto de datamining según metodología CRISP-DM102
A continuación se describen las tareas de esta fase y sus resultados, entregando
consejos y recomendaciones dados en la guía de usuario CRISP-DM103 y tomados de
102 Fuente: CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
204
la experiencia y reflexión del autor de este documento. En virtud de que el plan de
datamining que se ha elaborado en el presente documento es conceptual y no se basa
en ningún caso específico de ningún Banco, son también conceptuales las
recomendaciones entregadas para el plan de monitoreo y mantención (output 6b.1),
para el reporte y la presentación finales (outputs 6c.1 y 6c.2) y para la documentación
de la experiencia (output 6d.1). Un caso distinto corresponde al plan de despliegue
(output 6a.1), que se describe en este capítulo aportando antecedentes sobre cómo es
posible automatizar la implementación de los modelos de las campañas dentro de los
sistemas informáticos de un Banco sin incurrir en costos de desarrollo de software.
12.1 Planificar el despliegue (tarea 6a)
Esta tarea toma los resultados de la evaluación del modelo de datamining y elabora una
estrategia para desplegar el modelo en el negocio. Se debe determinar cómo propagar
a los usuarios la información generada por el modelo, y cómo desplegar los resultados
de éste dentro de los sistemas informáticos de la empresa. Deben también identificarse
problemas que pudiesen surgir al desplegar los resultados de datamining. Las
descripciones de los resultados que se deben obtener como fruto de esta tarea se
entregan a continuación:
12.1.1 Plan de despliegue (output 6a.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado es un
resumen de la estrategia de despliegue del modelo de datamining. Dicho resumen debe
incluir los distintos pasos a seguir en el despliegue y señalar cómo ejecutarlos. Entre las
actividades que es preciso desarrollar para obtener este resultado se encuentran:
- Resumir los resultados desplegables.
- Desarrollar planes alternativos de despliegue de los resultados de datamining.
- Para cada modelo obtenido decidir qué plan de despliegue aplicar.
- Determinar cómo se propagará a los usuarios el nuevo conocimiento descubierto.
- Determinar cómo se desplegarán los resultados de los modelos dentro de los
sistemas informáticos de la organización.
103 Fuente: CRISP-DM User Guide, redactado por el CRISP-DM Consortium, documento contenido en CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas, REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step Data Mining Guide, SPSS Inc., 2000
205
- Determinar cómo se monitoreará la utilización de los resultados de los modelos y
cómo se medirán sus beneficios.
- Identificar posibles problemas que podrían surgir al desplegar los resultados.
12.1.2 Automatización de la fase de despliegue utilizando Clementine En la fase de despliegue del modelo debe implementarse éste. Gracias a las facilidades
proporcionadas por Clementine ello no implica un costo adicional en términos de
desarrollo de software. De hecho, los modelos generados en la fase de modelamiento
son almacenados en “nodos”, que no son otra cosa sino programas computacionales
listos para usar. La figura 12.2 muestra cómo utilizar esos programas:
Figura 12.2 Flujo de datos en Clementine que obtiene una base de clientes con notas de riesgo y rentabilidad a partir de una base de variables predictivas104
104 Fuente: elaboración propia
206
La figura 12.2 contiene el mismo diagrama que se ha utilizado en el capítulo 9 para
obtener una base de variables predictivas, con la salvedad que se ha agregado uno de
los mencionados “nodo-programa” en la esquina inferior derecha bajo la etiqueta
“Modelo”. Al “enchufar” a la base de variables predictivas uno de esos nodos-programa
se obtienen notas de riesgo o de rentabilidad de los clientes. Dichas “notas” de riesgo y
de rentabilidad potencial permiten a su vez generar ofertas automáticamente a través
de Clementine, como se ilustra abajo en la figura 12.3:
Figura 12.3 Flujo de datos en Clementine que obtiene una base de ofertas comerciales a partir de una base con notas de riesgo y rentabilidad105
12.2 Planificar el monitoreo y la mantención (tarea 6b)
En esta tarea debe determinarse cómo se monitoreará la precisión del modelo y sus
resultados, y cuándo deben dejar de utilizarse éstos. El monitoreo y la mantención son
en extremo importantes en el caso de las campañas bancarias, puesto que los
resultados de datamining se vuelven parte del trabajo operacional cotidiano de un
Banco. Un buen plan de mantención ayuda a evitar el peligro del uso incorrecto de los
resultados de datamining. Las descripciones de los resultados que se deben obtener
como fruto de esta tarea se entregan a continuación:
12.2.1 Plan de monitoreo y mantención (output 6b.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde a un resumen de la estrategia de monitoreo y mantención, y debe incluir
105 Fuente: elaboración propia
207
los pasos necesarios y cómo ejecutarlos. Entre las actividades que es preciso
desarrollar para obtener este resultado se encuentran:
- Chequear qué podría cambiar en el ambiente en el mediano y largo plazo.
- Verificar cómo se monitoreará la precisión del modelo y sus resultados.
- Establecer cuándo debe dejarse de utilizar un modelo de datamining. Identificar los
criterios para ello. Establecer qué debiera pasar si un modelo o resultado de datamining
ya no pudiese ser utilizado (actualizar el modelo, comenzar un nuevo proyecto de
datamining, etc.).
- Determinar si cambiarán en el tiempo los objetivos de negocios que se persiguen con
la utilización del modelo. Documentar completamente el problema inicial que el modelo
intentaba resolver.
Como se ha visto en el capítulo sobre la evaluación de negocios, sólo en el largo plazo
es posible verificar el cumplimiento del objetivo de negocios de crecimiento sujeto a un
nivel mínimo de riesgo. Por ello el éxito y aceptación de los modelos de datamining
planteados en este documento sólo podrán visualizarse en el largo plazo. Es vital, por lo
tanto, contar no sólo con el firme compromiso de la institución financiera y de su
auspiciador para implementar, monitorear y mantener los modelos de datamining de las
campañas bancarias, sino que también es preciso que dicho compromiso sea de largo
aliento.
12.3 Producir el reporte final (tarea 6c)
Esta tarea corresponde a la elaboración de un reporte final con un resumen del
proyecto y sus experiencias. Las descripciones de los resultados que se deben obtener
como fruto de esta tarea se entregan a continuación:
12.3.1 Reporte final (output 6c.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde al informe final escrito del proyecto de datamining e incluye todos los
entregables previos, a la vez que resume y organiza sus resultados.
208
12.3.2 Presentación final (output 6c.2) Este resultado es el segundo de la tarea de producir el reporte final (tarea 6c). De
acuerdo a la guía de usuario de la metodología CRISP-DM, este output corresponde a
una reunión al final del proyecto en la cual los resultados del proyecto de datamining
son presentados a su auspiciador.
12.4 Revisar el proyecto (tarea 6d)
En esta tarea corresponde evaluar lo que ocurrió correctamente y lo que ocurrió mal en
el proyecto de minería de datos, lo que se hizo bien y lo que necesita ser mejorado. La
descripción del resultado que se debe obtener como fruto de esta tarea se entrega a
continuación:
12.4.1 Documentación de la experiencia (output 6d.1) De acuerdo a la guía de usuario de la metodología CRISP-DM, este resultado
corresponde a un resumen de las experiencias más importantes adquiridas durante el
proyecto (por ejemplo: defectos, enfoques conducentes a error, o pistas para
seleccionar técnicas de datamining en situaciones similares).
209
13 CONCLUSIÓN
De la investigación completa puede concluirse que mediante herramientas de
datamining puede elaborarse un plan para enfocar las campañas en un Banco pequeño
que carece de un datawarehouse, de manera de permitir a la institución segmentar a
sus clientes y crecer. Ello ha quedado demostrado al detallar cómo elaborar un plan
semejante a partir de las hipótesis de trabajo. Por lo tanto, la tesis que se pretendía
demostrar en un comienzo es válida, si se aceptan los supuestos realizados en materia
de disponibilidad de información, de tecnología, de marco regulatorio, de negocios y de
operaciones. De este modo el objetivo principal de la investigación se ha cumplido.
Se han extraído también conclusiones relevantes de cada una de las seis fases en las
que se ha dividido el desarrollo de la tesis. Dichas conclusiones se detallan a
continuación:
1. De la fase de comprensión del negocio puede concluirse que es importante
identificar los objetivos de negocios que se espera conseguir con el proyecto de
datamining, de manera tal de hacer posible la validación de sus resultados contra
dichos objetivos. Ello está pensado para garantizar que los resultados de la minería
de datos no sólo sean técnicamente válidos, sino que además tengan significado
desde un punto de vista de negocios. Así también de la fase de comprensión del
negocio puede concluirse que no es posible realizar estudios de datamining sin
contar con el respaldo decidido de alguna gerencia, como única forma de neutralizar
los riesgos organizacionales y de timing del proyecto. En directa relación con lo
antes mencionado se encuentra una conclusión aun más fundamental, y que
establece que el éxito de un proyecto de datamining depende no sólo de que se
satisfagan ciertos objetivos de negocios del Banco, sino que en mucho mayor
medida de que se logren beneficios tangibles para el patrocinador del proyecto y sus
intereses.
2. De la fase de comprensión de los datos puede concluirse que a priori las
características más relevantes para predecir el nivel de riesgo crediticio de los
clientes y su rentabilidad potencial incluyen aspectos demográficos, renta, nivel de
vínculo entre el cliente y el Banco, los ingresos contables generados por el cliente,
su comportamiento crediticio pasado, y su nivel de deudas. Todas esas
210
características aparecen como las más importantes en opinión de las personas que
han trabajado como ejecutivos de crédito, y es información que está disponible en
las bases operacionales de cualquier Banco (aceptando los supuestos dados en las
hipótesis de trabajo).
3. De la fase de preparación de los datos se concluye que puede ser inmenso el
esfuerzo destinado a integrar los datos necesarios para el estudio y a eliminar sus
inconsistencias, por cuanto al no existir un datawarehouse es preciso mezclar datos
provenientes de bases de datos operacionales residentes en sistemas distintos y
con información de fechas distintas. La literatura establece que más del 90% del
tiempo empleado en un proyecto de datamining debe utilizarse en las fases previas
al modelamiento, principalmente en las fases de comprensión y preparación de los
datos. Como consecuencia de ello es posible que los riesgos organizacionales y de
timing del proyecto, detectados en la fase de comprensión del negocio, se
materialicen en la forma de un boicot al proyecto de minería de datos.
4. De la fase de modelamiento puede concluirse que es posible elaborar modelos
predictivos del riesgo de crédito y de la rentabilidad potencial de los clientes, usando
para ello técnicas de datamining como la regresión logística, las redes neuronales o
los árboles de decisión. Se ha mostrado que dichos modelos pueden calcular
puntajes de riesgo y de rentabilidad para los clientes. Por lo tanto, se han satisfecho
los dos objetivos secundarios s1 y s2 descritos en el capítulo 3, que versa sobre los
objetivos de la investigación.
5. En la fase de evaluación de negocios se ha mostrado que es posible clasificar a los
clientes en distintos segmentos en base a sus puntajes de riesgo y rentabilidad, y
que puede dirigirse una oferta diferenciada a cada uno de esos segmentos. Por lo
tanto, se ha cumplido el objetivo secundario s3 descrito en el capítulo 3. En la misma
fase se ha mostrado que un Banco puede utilizar los puntajes de riesgo y
rentabilidad para crecer, satisfaciendo al mismo tiempo un nivel mínimo de riesgo.
Dicho crecimiento puede verificarse mediante una oferta a segmentos sin ella,
mediante la orientación de los esfuerzos de las campañas hacia los clientes con
mayor rentabilidad potencial, y a través del aumento de los montos ofrecidos a los
clientes. Por lo tanto, se ha cumplido también el objetivo secundario s4 descrito en
el capítulo 3. Se concluye entonces de la fase de evaluación de negocios que
211
mediante datamining un Banco puede focalizarse en segmentos de clientes
clasificados por riesgo y rentabilidad, y que puede crecer satisfaciendo un nivel
mínimo de riesgo.
6. De la fase de despliegue puede concluirse que el éxito de los modelos de
datamining de las campañas bancarias y el logro de sus objetivos de negocios sólo
podrán visualizarse en el largo plazo, por lo que es vital contar no sólo con el firme
compromiso de la institución financiera para implementar y monitorear un modelo de
datamining, sino que también es preciso que dicho compromiso sea de largo aliento.
Ello se debe a que la experiencia señala que los clientes pueden tardar años en
presentar problemas de pago, por lo que sólo es posible en el largo plazo verificar
que el objetivo de crecimiento sujeto a un nivel mínimo de riesgo satisfaga
efectivamente dicho nivel de riesgo.
Entre las recomendaciones que pueden entregarse a partir de los resultados de esta
investigación destacan el buscar un apoyo firme y decidido de la gerencia de un Banco
antes de comenzar un proyecto de datamining. En particular ello debe traducirse en dos
resultados concretos. En primer lugar un presupuesto relevante para la investigación, lo
suficientemente cuantioso para brindar estatus al proyecto y para comprometer al
Banco en su éxito. En segundo lugar es preciso recibir el nombramiento de un cargo
dentro de la estructura organizacional del Banco para garantizar el éxito del proyecto de
datamining. Ello obedece al hecho de que los Bancos son instituciones altamente
jerarquizadas, en las que para realizar cualquier tipo de proyecto es preciso disponer de
un nivel jerárquico adecuado. Aun en el caso de tratarse de un proyecto realizado por
consultores externos, éstos deben recibir el respaldo de la organización en la forma de
un nombramiento de jefes o gerentes de proyecto. Se recomienda en todo caso realizar
los estudios de datamining a través de consultorías externas, de manera tal de tratar de
evitar los ataques que pudiesen provenir desde dentro de la institución.
212
14 BIBLIOGRAFÍA
1. ADAMSON, J. DOUGLAS, Evaluating & Comparing Predictive Models, Fair Isaac
Insight Series, 1999.
2. B ERRY, M. J. A., LINOFF, G., Data Mining Techniques for Marketing, Sales, and
Customer Support, John Wiley & Sons, Inc., 1997.
3. BERSON, A., SMITH S. J., Data Warehousing, Data Mining, and OLAP, McGraw-
Hill, 1997.
4. CHAPMAN, Pete, CLINTON, Julian, KERBER, Randy, KHABAZA, Thomas,
REINARTZ, Thomas, SHEARER, Colin, WIRTH, Rüdiger, CRISP DM 1.0 Step By Step
Data Mining Guide, SPSS Inc., 2000.
5. CLEMENTINE 7.0 User’s Guide, SPSS, 2002
6. Data Mining with Confidence, SPSS Inc., 1999.
7. Data Mining Tools, METAspectrum Market Summary, META Group, September
2004, www.metagroup.com
8. Data Warehousing Technology Glossary, Applied Technology Group, 1997.
9. EL DIARIO FINANCIERO, La Nueva Ofensiva de los Bancos por Fidelizar y Captar
Clientes, 20/01/2005.
10. EL DIARIO FINANCIERO, Bancos Deben Construir Economías de Escala,
28/01/2005.
11. EL DIARIO FINANCIERO, Banco de Chile Lidera Mercado de Cuentas Corrientes
con 24%, 29/03/2005.
12. EL DIARIO FINANCIERO, Bancos Salen a la Caza de Nuevos Segmentos para
Rentabilizar su Negocio, 28/03/2005.
13. EL DIARIO FINANCIERO, BBVA va tras Segmentos que no están Bancarizados,
17/03/2005.
14. EL DIARIO FINANCIERO, Banco del Desarrollo Lanza Área de Consumo,
28/04/2005.
15. EL DIARIO FINANCIERO, Las Fusiones de los Bancos Elevaron Eficiencia del
Sistema, 19/04/2005.
16. EL DIARIO FINANCIERO, La Alternativa de Bancos a la Baja de los Spreads,
02/05/2005.
213
17. EL DIARIO FINANCIERO, Filiales de Bancos Arremeten en Competencia por
Clientes, 11/05/2005.
18. EL DIARIO FINANCIERO, Los Bancos Extranjeros han Inyectado Mayor
Competencia al Mercado, 05/06/2005.
19. EL DIARIO FINANCIERO, Bancos y Multitiendas Olvidan sus Diferencias por
Conveniencia Mutua, 06/06/2005.
20. EL DIARIO FINANCIERO, Bancos en Alerta por Posible Regulación de Tarjetas
del Comercio, 16/06/2005.
21. EL DIARIO FINANCIERO, Bank of America, Reportaje, 12/05/2006
22. HALLBERG, Garth, OGILVY, David, Todos Los Consumidores No Son Iguales,
Capítulo 3: Por qué no Todos los Consumidores Han Sido Creados Iguales, Deusto,
1999.
23. HILLIER F., LIEBERMAN G., Investigación de Operaciones, Séptima edición,
McGraw-Hill Interamericana, 2002
24. Informe de Colocaciones por Actividad Económica, SBIF, febrero 2005.
25. Informe de Estabilidad Financiera, Banco Central, primer semestre 2006
26. Informe Tasas Principales Productos de Consumo, SBIF, 2005.
27. Informe Mutuos Hipotecarios Endosables, SBIF, 2005.
28. Introduction to Data Mining and Knowledge Discovery, Two Cross Corporation,
1998.
29. Jumpstart Clementine Training Brochure, Data Mining Jumpstart, Data Mining
Projects Clementine, SPSS, 2004.
30. KOTLER, Philip, Dirección de Marketing, Décima Edición, Capítulo 9: Identificación
de Segmentos de Mercado y Selección de Mercados Meta, Pearson Educación, 2001.
31. KRAFT, Holger, KROISANDT, Gerald, MÜLLER, Marlene, Redesigning Ratings:
Assessing the Discriminatory Power of Credit Scores under Censoring, Fraunhofer
Institut für Techno und Wirtschaftsmathematik (ITWM), June, 2004.
32. LAMBIN, Jean-Jacques, Marketing Estratégico, Capítulo 6: El Análisis de las
Necesidades a través de la Segmentación, McGraw-Hill Interamericana, 1996.
33. PÉREZ, Cesar, Técnicas Estadísticas con SPSS, Prentice Hall, 2001.
34. REICHHELD, Frederick, El Efecto de la Lealtad del Cliente, Capítulo 2: Economía
de la Lealtad del Cliente, Editorial Norma, 1996.
35. REICCHELD, SASSER, Zero Defections Come to Quality, HBR, 1990.
214
36. REVISTA INFORMACIÓN FINANCIERA, SBIF, julio 1999, julio 2000, julio 2001,
julio 2002, julio 2003, julio 2004, julio 2005.
37. RUSSELL, Stewart, NORVIG, Peter, Artificial Intelligence, a Modern Approach,
Second Edition, Prentice Hall, 2003.
38. RUST, Roland, ZEITHAML, Valerie, LEMON, Katherine, Driving Customer Equity :
How Customer Lifetime Value is Reshaping Corporate Strategy, The Free Press, June
2000.
39. SHANNON, C.E., WEAVER, W., The Mathematical Theory of Communication,
University of Illinois Press, 1949
40. TENENHAUS, Michele, Méthodes Statistiques en Gestion, Editorial Dunod,
France, 1996.
41. WILSON, L., Canadian Bank Mines for Gold, Computerworld, 1997.
ANEXOS
Anexo A Colocaciones totales de los Bancos del sistema financiero chileno, Julio del 2005106
Bancos 2004 2005 Participación Crecimiento
Banco de Chile 6.350 7.275 17,7 14,6
Banco Santander 8.568 9.467 23,0 10,5
Banco del Estado 4.704 5.390 13,1 14,6
BCI 4.099 4.938 12,0 20,5
Corpbanca 2.241 2.724 6,6 21,6
BBVA 2.736 3.171 7,7 15,9
BICE 954 1.048 2,6 9,8
Security 1.017 1.307 3,2 28,6
Citibank 800 848 2,1 6,0
BankBoston 796 967 2,4 21,5
Scotiabank 1.142 1.188 2,9 4,0
B. del Desarrollo 1.324 1.582 3,9 19,5
Otros 1.286 1.221 3,0 -5,1
36.016 41.126 100 14,2
Pequ
eños
Sistema financiero
Valores en %Colocaciones totales(en miles de millones
de pesos)
Gra
ndes
Med
iano
s
106 Fuente: volúmenes de Julio de los años 2004 y 2005 de la revista Información Financiera de la SBIF
Anexo B Comparación entre Bancos de la razón de eficiencia (gastos de apoyo operacional / resultado operacional bruto), periodo 2000-2005107
Jul-00
Jul-01
Jul-02
Jul-03
Jul-04
Jul-05
Bco. de Chile 52,1 49,3 56,6 51,6 44,5 48,2
Santander 49,0 45,1 43,2 44,6 44,5 41,0
Bco. Estado 70,3 66,6 65,2 63,9 61,0 58,9
BCI 65,0 54,9 55,2 48,5 50,7 51,4
Corpbanca 64,3 46,6 43,1 39,2 37,6 40,7
BBVA 67,6 59,6 61,0 55,1 57,9 56,7
BICE 56,0 50,1 58,0 57,7 64,2 60,8
Bco. Security 56,9 57,7 60,2 49,6 50,2 48,2
Citibank 74,0 59,3 56,9 60,9 66,0 85,3
BankBoston 71,6 53,1 68,5 68,2 70,7 69,2
Scotiabank 73,8 68,6 73,0 67,9 68,8 68,3
B. del Desarrollo 61,2 55,9 54,6 52,4 47,7 51,3
60,2 52,2 54,6 52,5 50,7 51,7
Pequ
eños
Sistema financiero
Valores en %
Bancos
Gra
ndes
Med
iano
s
107 Fuente: volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
Anexo C Evolución del margen de intereses del sistema financiero, periodo 2000-2005108
Jul-00
Jul-01
Jul-02
Jul-03
Jul-04
Jul-05
Margen de intereses 833 1.037 1.064 940 1.118 1.091
Comisiones netas 157 193 204 254 254 274
Resultado operacional bruto 1.031 1.280 1.302 1.338 1.426 1.479
Resultado operacional neto 128 373 327 397 455 502
Margen de intereses / Resultado oper. bruto 80,8 81,1 81,7 70,2 78,4 73,8
Margen de intereses / Resultado oper. neto 651,2 278,3 325,5 236,9 245,8 217,3
Gastos apoyo oper. / Resultado oper. bruto 60,2 52,2 54,6 52,5 50,7 51,7
Cifr
as e
n m
iles
dem
illon
es d
e pe
sos
Valo
res
en %
108 Fuente: volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
Anexo D Comparación entre Bancos de la razón de margen de intereses sobre colocaciones, periodo 2000-2005109
833
1.03
7
1.06
4
940
1.11
8
1.09
1
26.3
20
29.4
89
31.0
68
32.8
01
36.0
16
41.1
26 3,2
3,5
3,4
2,9
3,1
2,7
B. del Desarrollo
21 27 28 31 35 38
1.00
3
1.01
5
1.12
3
1.25
9
1.32
4
1.58
2
2,1
2,6
2,5
2,4
2,6
2,4
Scotiabank26 24 24 22 24 24 967
1.01
6
1.13
8
1.18
2
1.14
2
1.18
8
2,7
2,4
2,1
1,8
2,1
2,0
BankBoston
14 31 25 21 32 31 382
481
654
745
796
967
3,7
6,4
3,8
2,9
4,0
3,2
Citibank
54 70 59 50 64 52
1.01
1
1.09
4
1.05
1
988
800
848
5,4
6,4
5,6
5,1
8,0
6,1
Banco Security
12 15 18 19 20 25 664
786
776
932
1.01
7
1.30
7
1,7
2,0
2,4
2,1
2,0
1,9
BICE
16 20 18 16 19 18 722
784
785
819
954
1.04
8
2,2
2,6
2,3
1,9
2,0
1,8
BBVA
39 53 63 50 60 54
1.38
1
1.70
5
1.90
7
2.27
7
2.73
6
3.17
1
2,8
3,1
3,3
2,2
2,2
1,7
Corpbanca
46 53 51 54 62 60
1.09
9
1.31
5
1.53
8
1.94
0
2.24
1
2.72
4
4,1
4,1
3,3
2,8
2,8
2,2
BCI
72 85 86 98 107
116
2.23
9
2.54
5
3.07
2
3.50
8
4.09
9
4.93
8
3,2
3,3
2,8
2,8
2,6
2,3
Banco del Estado 112
117
140
111
138
137
3.27
0
3.66
4
3.87
5
4.25
8
4.70
4
5.39
0
3,4
3,2
3,6
2,6
2,9
2,5
Banco Santander
99 141
140
232
275
280
3.11
3
3.42
0
3.54
1
7.72
2
8.56
8
9.46
7
3,2
4,1
4,0
3,0
3,2
3,0
Banco de Chile 102
116
188
164
192
189
3.30
9
3.64
4
5.77
6
5.98
0
6.35
0
7.27
5
3,1
3,2
3,3
2,7
3,0
2,6
Jul-0
0
Jul-0
1
Jul-0
2
Jul-0
3
Jul-0
4
Jul-0
5
Jul-0
0
Jul-0
1
Jul-0
2
Jul-0
3
Jul-0
4
Jul-0
5
Jul-0
0
Jul-0
1
Jul-0
2
Jul-0
3
Jul-0
4
Jul-0
5
Mar
gen
de
inte
rese
s /
Col
ocac
ione
s(v
alor
esen
%)
Mar
gen
de
inte
rese
s(e
n m
iles
dem
illon
es d
epe
sos)
Col
ocac
ione
s(e
n m
iles
dem
illon
es d
epe
sos)
Sistema financiero
Pequ
eños
Med
iano
sG
rand
es
109 Fuente: volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
Anexo E Comparación de la razón utilidad del ejercicio sobre capital y reservas de los distintos Bancos, periodo 2000-2005110
Bancos
Jul-00
Jul-01
Jul-02
Jul-03
Jul-04
Jul-05
Banco de Chile 27,8 28,6 10,5 24,2 32,0 35,2
Banco Santander 24,0 26,7 31,5 22,1 22,6 28,0
Banco del Estado 8,7 9,8 7,4 8,6 9,7 10,8
BCI 11,6 21,6 18,5 27,3 27,6 27,2
Corpbanca 8,0 21,0 21,2 16,7 16,4 14,3
BBVA 9,5 7,5 9,1 12,8 13,0 14,0
BICE 9,0 25,1 15,9 18,1 13,9 17,2
Banco Security 12,1 10,9 9,5 15,9 17,0 16,2
Citibank 1,8 12,9 18,0 16,0 10,8 5,0
BankBoston 5,7 18,0 6,9 10,8 9,7 7,9
Scotiabank 3,9 6,3 9,7 11,5 10,4 8,6
B. del Desarrollo 10,0 10,6 7,7 7,5 12,8 12,2
11,1 19,3 17,1 17,3 18,6 18,8Sistema financiero
Valores en %
Gra
ndes
Med
iano
sPe
queñ
os
110 Fuente: volúmenes de Julio de los años 2000 al 2005 de la revista Información Financiera de la SBIF
Anexo F Comparación del crecimiento anual de las colocaciones de los Bancos, periodo 2000-2005111
Jul-00
Jul-01
Jul-02
Jul-03
Jul-04
Jul-05
Bco. de Chile 9,9 10,1 58,5 3,5 6,2 14,6
Santander 3,3 9,9 3,5 118,1 11,0 10,5
Bco. Estado 4,9 12,0 5,8 9,9 10,5 14,6
BCI 6,6 13,7 20,7 14,2 16,8 20,5
Corpbanca 4,2 19,7 17,0 26,2 15,5 21,6
BBVA 11,4 23,5 11,9 19,4 20,1 15,9
BICE 23,6 8,7 0,1 4,3 16,5 9,8
Bco. Security 25,2 18,5 -1,3 20,1 9,1 28,6
Citibank -3,7 8,2 -3,9 -6,0 -19,1 6,0
BankBoston 22,8 25,8 36,1 13,9 6,8 21,5
Scotiabank -9,6 5,1 12,0 3,9 -3,4 4,0
B. del Desarrollo 5,9 1,3 10,6 12,1 5,2 19,5
6,5 12,0 5,4 5,6 9,8 14,2
Bancos
Sistema financiero
Valores en %
Gra
ndes
Med
iano
sPe
queñ
os
111 Fuente: volúmenes de Julio de los años 1999 al 2005 de la revista Información Financiera de la SBIF
Anexo G Evolución de las colocaciones totales del sistema financiero desglosadas por tipo, periodo 2000-2004112
Nov-00
Nov-01
Nov-02
Nov-03
Nov-04
Créditos de consumo (a) 2.617 2.705 3.193 3.499 5.198
Créditos hipotecarios para la vivienda (b) 4.935 5.320 5.870 6.386 7.139
Colocaciones de empresas (estimado como (c ) - (a) - (b) ) 17.676 20.645 20.726 21.302 22.601
Total (c) 25.228 28.671 29.789 31.187 34.939
Créditos de consumo 10,4 9,4 10,7 11,2 14,9
Créditos hipotecarios para la vivienda 19,6 18,6 19,7 20,5 20,4
Colocaciones de empresas 70,1 72,0 69,6 68,3 64,7
Total 100 100 100 100 100
Cifr
as e
n m
iles
de
mill
ones
de
peso
sVa
lore
s en
%
112 Fuente: volumen de Febrero del 2005 de la revista Información Financiera de la SBIF
Anexo H Tasas de créditos de consumo, hipotecarios y comerciales, periodo 2002-2005113
Mutuos
1 a 8 años
Mutuos
8 a 12 años
Mutuos
12 a 20 años
Mutuos
más de
20 años
Jul-02 27,0 34,1 26,9 16,7 6,5 7,4 7,0 6,7Ago-02 26,2 33,4 26,0 15,6 6,5 7,0 6,9 6,8Sep-02 26,0 33,4 25,0 14,9 6,3 6,9 6,9 6,8Oct-02 26,0 33,0 25,1 16,0 6,0 7,0 7,0 7,0Nov-02 26,3 32,8 25,6 15,3 6,2 6,9 7,0 7,4Dic-02 27,0 32,8 23,7 14,2 6,2 6,8 7,0 6,8Ene-03 26,8 33,9 25,6 17,2 6,2 6,8 7,0 7,0Feb-03 26,8 33,4 25,6 17,1 6,1 6,6 6,8 7,0Mar-03 25,3 33,2 23,2 13,0 5,9 6,6 6,7 7,2Abr-03 25,4 32,3 24,2 14,2 5,7 6,5 6,8 7,1May-03 25,9 31,6 23,8 13,5 5,7 6,7 6,8 7,0Jun-03 26,2 30,9 24,0 14,3 5,7 6,2 6,7 7,0Jul-03 28,7 31,9 23,1 13,8 6,1 6,3 6,7 7,1Ago-03 28,0 32,6 22,4 13,6 5,7 5,9 6,6 7,2Sep-03 28,0 33,0 21,7 13,2 5,4 6,0 6,7 7,1Oct-03 27,9 33,0 21,5 13,3 5,6 6,0 6,5 6,8Nov-03 27,9 33,0 22,3 13,6 5,5 5,6 6,3 6,4Dic-03 28,6 33,3 21,9 12,7 7,0 5,2 6,4 6,5Ene-04 26,2 33,6 22,9 14,0 5,4 5,6 6,1 6,5Feb-04 27,7 33,6 23,5 12,0 5,2 5,4 5,4 6,3Mar-04 27,6 34,0 20,8 11,0 5,1 5,4 5,5 6,3Abr-04 28,1 33,9 21,3 11,4 4,9 5,3 5,9 6,2May-04 28,3 33,4 22,2 11,6 4,2 5,0 5,5 6,1Jun-04 28,3 33,3 22,3 12,0 4,0 4,5 4,9 5,4Jul-04 28,7 33,3 21,3 11,9 4,1 4,5 4,6 5,2Ago-04 28,7 33,5 21,1 11,5 4,3 4,5 4,7 5,0Sep-04 28,4 33,6 20,0 11,3 4,1 4,6 4,7 4,6Oct-04 28,2 33,9 20,3 11,6 4,1 4,8 4,9 5,1Nov-04 28,6 33,5 21,2 12,1 4,4 4,5 4,9 4,9Dic-04 28,5 31,8 21,0 12,1 4,2 4,5 4,9 4,9Ene-05 29,3 32,5 20,5 13,0 4,6 4,8 5,1 4,7Feb-05 30,2 32,4 21,8 13,3 4,4 5,1 5,2 5,3Mar-05 30,2 32,9 21,1 12,4 4,5 4,8 5,2 5,3Abr-05 31,1 33,6 21,7 13,1 4,3 4,9 5,2 5,1May-05 31,7 34,2 22,2 13,9 4,4 4,7 5,4 6,0Jun-05 31,9 35,0 22,3 14,0 4,6 5,0 5,4 5,3Jul-05 31,8 35,2 21,9 14,0 4,4 4,8 5,3 5,2Ago-05 31,7 35,5 21,8 13,9 4,0 4,7 5,3 5,0 (*) Tasas de los créditos de consumo entre 2000 y 5000 UF
Mutuos hipotecarios
Líneas decrédito
Tarjetas decrédito
Créditos de
consumo
hata 200 UF
Créditos
comerciales
(*)
113 Fuente: volúmenes del 2005 del Informe de las Tasas de los Principales Productos de Consumo de la SBIF y del Informe de Mutuos Hipotecarios Endosables de la SBIF
Anexo I Composición del margen operacional bruto de los distintos Bancos, Julio 2005114
114 Fuente: volumen de Julio del 2005 de la revista Información Financiera de la SBIF
Margen de intereses
Comisiones netas
Diferencias de precio netas (a)
Diferencias de cambio netas (b)
Recuperación decolocaciones castigadas (c)
Otros ingresosde operación netos (d)
Correcciónmonetaria neta (e)
Otros ingresos (f)
Total otros ingresos oper.(a) + (b) + (c ) + (d) + (e) + (f)
Resultado operacional bruto
Margen de intereses /Resultado operacional bruto
Comisiones netas /Resultado operacional bruto
Otros ingresos operacionales /Resultado operacional bruto
Bco
. de
Chi
le18
955
6-5
20-5
-313
2625
773
,521
,45,
1
Sant
ande
r28
064
124
22-1
3-4
2141
366
76,7
17,6
5,7
Bco
. Est
ado
137
3912
213
2-4
2549
201
68,1
19,6
12,3
BC
I11
632
1-1
72
-27
1515
674
,520
,84,
7
Cor
pban
ca60
97
05
-2-4
612
7579
,712
,57,
7
BB
VA54
180
312
0-2
1326
8564
,021
,015
,0
BIC
E18
42
00
0-1
12
2477
,717
,64,
8
Bco
. Sec
urity
254
21
10
-13
632
78,3
12,4
9,3
Citi
bank
5210
20
3-1
-32
464
81,1
15,9
3,1
Ban
kBos
ton
316
1-3
10
-1-2
-335
88,2
16,7
-4,9
Scot
iaba
nk24
71
11
-1-1
01
3275
,922
,61,
5
B. d
el D
esar
rollo
3811
01
30
-13
652
73,2
20,7
6,1
1.09
127
463
1689
-23
-32
114
227
1.47
973
,818
,57,
7
Cifr
as e
n m
iles
de m
illon
es d
e pe
sos
Valo
res
en %
Grandes Medianos Pequeños Sist
ema
finan
cier
o
Ban
cos
Anexo J Porcentaje de los distintos tipos de créditos sobre el total de colocaciones de cada Banco, Febrero 2005115
Bancos
Créditos de consum
o (a)
Créditos hipotecarios para
la vivienda (b)
Colocaciones de em
presas (estim
ado como (c ) - (a) - (b) )
Total (c)
Créditos de consum
o
Créditos hipotecarios para
la vivienda
Colocaciones de em
presas
Total
Banco de Chile 1.422 749 4.051 6.222 22,9 12,0 65,1 100
Banco Santander 1.134 1.848 5.059 8.042 14,1 23,0 62,9 100
Banco del Estado 541 2.202 2.236 4.978 10,9 44,2 44,9 100
BCI 380 741 3.017 4.139 12,6 17,2 70,2 100
Corpbanca 292 180 1.821 2.293 12,7 7,8 79,4 100
BBVA 249 790 1.711 2.750 9,1 28,7 62,2 100
BICE 29 35 793 857 3,4 4,0 92,5 100
Banco Security 20 38 1.090 1.148 1,8 3,3 94,9 100
Citibank 264 61 478 803 32,9 7,6 59,5 100
BankBoston 158 198 443 799 19,8 24,8 55,4 100
Scotiabank 343 106 668 1.117 30,7 9,5 59,8 100
Banco del Desarrollo 35 241 1.109 1.384 2,5 17,4 80,1 100
Banco Ripley 83 14 8 105 79,1 13,7 7,2 100
Banco Falabella 216 52 1 270 80,2 19,4 0,5 100
Banco Paris 103 0 8 111 93,1 0,0 6,9 100
5.435 7.262 23.092 35.788 15,2 20,3 64,5 100
Med
iano
sPe
queñ
os
Sistema financiero
Valores en %
Gra
ndes
Cifras en miles demillones de pesos
115 Fuente: volumen de febrero del 2005 del Informe de Colocaciones por Actividad Económica de la SBIF, y volumen del 2005 del Informe de Mutuos Hipotecarios Endosables de la SBIF