tese v11 - final · este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos...
TRANSCRIPT
I
Marketing Preditivo
Nuno Ricardo de Araújo Gil
Exemplo de uma campanha de Crédito Pessoal
Trabalho de Projeto apresentado como requisito parcial para
obtenção do grau de Mestre em Gestão de Informação,
Especialização em Gestão do Conhecimento e Business
Intelligence
II
Página deixada Intencionalmente em branco
III
NOVA Information Management School
Instituto Superior de Estatística e Gestão de Informação
Universidade Nova de Lisboa
MARKETING PREDITIVO
EXEMPLO DE UMA CAMPANHA DE CRÉDITO PESSOAL
por
Nuno Ricardo de Araújo Gil
Trabalho de Projeto apresentado como requisito parcial para a obtenção do grau de Mestre
em Gestão de Informação, Especialização em Gestão do Conhecimento e Business Intelligence
Orientador: Professor Doutor Roberto Henriques
Co-orientadora: Professora Doutora Patrícia Xufre
Setembro 2017
IV
Página deixada Intencionalmente em branco
V
“Unless a decision has “degenerated into work” it is not a decision;
it is at best a good intention.”
(Peter F. Drucker, 2002, p. 119)
VI
Página deixada Intencionalmente em branco
VII
AGRADECIMENTOS
Não posso deixar de agradecer aqueles que de uma forma direta contribuíram para a
realização deste trabalho de projeto. A estes o meu muito obrigado.
Aos meus orientadores, Professor Doutor Roberto Henriques e Professora Doutora Patrícia
Xufre, pelo apoio e disponibilidade demonstrada.
Ao meu colega de Mestrado Miguel Oliveira, sem o qual este percurso teria sido muito mais
difícil.
À minha Mãe, por me incentivar a fazer sempre mais e melhor.
À Marta, pelo incentivo, compreensão, paciência e encorajamento ao longo desta caminhada,
pelos dias sem a minha presença e pelas horas a ler e reler este documento.
À minha filha, pelos fins de semana que não estive com ela.
Ao Crédito Agrícola, por me disponibilizar os meios e dados para a realização deste trabalho.
VIII
Página deixada Intencionalmente em branco
IX
RESUMO
Considerando o ambiente atual de competitividade em quase todos os setores da nossa
sociedade de consumo, a importância do Marketing como um dos fatores de sucesso de um
negócio tem vindo a aumentar.
As alterações que tiveram lugar nos últimos anos no setor bancário ao nível concorrencial,
legal, tecnológico e até comportamental por parte dos consumidores fazem do Data Mining
obrigatório.
Este é, hoje em dia, essencial para ganhar vantagem competitiva no mundo dos negócios e
para ganhar conhecimento entre yottabytes de dados disponíveis. Especialmente
considerando que os clientes bancários estão mais informados, mais exigente nos serviços e,
sobretudo, mais cientes dos seus direitos e das suas reais necessidades financeiras. Assim
importa cada vez mais realizar comunicações relevantes e oportunas.
Este projeto consistiu na criação e desenvolvimento de um modelo preditivo, com base em
dados reais de uma campanha, por forma a tentar prever quais os clientes com maior
probabilidade em aceitar uma outra similar. Para identificar o melhor modelo, comparou-se
diversas famílias de algoritmos.
O objetivo prende-se com a comparação dos resultados obtidos pelo método de previsão com
os reais e verificar se existe espaço para melhoria dos processos existentes.
A correta identificação dos clientes com maior probabilidade de contratação do produto
permite aumentar a satisfação do cliente, pela oferta de um produto relevante para o mesmo
no momento oportuno e minimizar o custo da campanha, ao mesmo tempo que maximiza a
taxa de concretização.
PALAVRAS-CHAVE
Crédito Agrícola, Setor Bancário, Data Mining, Marketing, Confiança, Fidelização, Venda
Cruzada, Satisfação do Cliente.
X
ABSTRACT
Considering the current competitive environment in almost all sectors of our society, the
importance of Marketing as one of the success factors of a business has been increasing.
The changes that have taken place in recent years in the banking sector at a competitive, legal,
technological and even behavioural level by consumers makes Data Mining mandatory.
Data Mining is, nowadays, essential for gaining competitive advantage in the business world
and for obtaining knowledge among yottabytes of available data. Especially considering that
bank customers are more informed, more demanding about services and, above all, more
aware of their rights and their real financial needs. Therefore, it is even more important to
make relevant and timely communications.
This project consisted in the creation and development of a predictive model, based on real
data from a campaign, in order to try to predict which clients are most likely to accept a similar
one. To identify the best model, several families of algorithms were compared.
The goal is to compare the results obtained by the forecast method with the actual ones from
the real campaign and to verify if there is room for improvement of the existing processes.
Properly identifying customers with a higher likelihood of hiring the product allows an increase
of customer satisfaction by offering a relevant offer at the right time and minimizing the cost
of the campaign, while maximizing the delivery rate.
KEYWORDS
Crédito Agrícola, Banking, Data Mining, Marketing, Confidence, Loyalty, Cross-Selling, Customer Satisfaction.
XI
ÍNDICE
1. Introdução ........................................................................................................... 1
1.1. Enquadramento .................................................................................................... 1
1.2. Motivação e objetivos do estudo ......................................................................... 2
1.3. Relevância e importância...................................................................................... 3
1.4. Organização do documento.................................................................................. 3
2. Estado da Arte ..................................................................................................... 5
2.1. Do Marketing massificado ao relacional .............................................................. 5
2.2. Rentabilidade e conhecimento do cliente .......................................................... 10
2.3. Gestão de relação com o cliente (CRM) ............................................................. 11
2.4. Caracterização e evolução do cliente bancário .................................................. 14
2.5. Canais de comunicação ...................................................................................... 16
2.6. Business Intelligence e Data Mining ................................................................... 17
2.6.1. Técnicas de Data Mining ............................................................................. 19
2.6.2. Os passos do processo de Data Mining ....................................................... 26
2.6.3. Metodologias ............................................................................................... 28
2.6.4. Exemplos de aplicações de Data Mining no setor financeiro ..................... 31
2.7. Satisfação, Fidelização e Cross-Selling ................................................................ 37
2.8. Next Best Offer ................................................................................................... 38
3. Caso de Estudo - o Grupo Crédito AgrÍcola .......................................................... 41
3.1. História do Grupo Crédito Agrícola..................................................................... 41
3.2. Caracterização do Grupo Crédito Agrícola ......................................................... 42
4. Modelo prático desenvolvido ............................................................................. 44
4.1. Tarefas Realizadas............................................................................................... 44
4.2. Análise das variáveis ........................................................................................... 48
4.3. Criação do modelo .............................................................................................. 51
4.4. Escolha do modelo .............................................................................................. 55
4.5. Modelos adicionais ............................................................................................. 55
4.6. Validação do modelo escolhido .......................................................................... 56
5. Conclusão e Trabalho Futuro .............................................................................. 58
6. Limitações e Recomendações Futuras ................................................................ 60
7. Bibliografia ........................................................................................................ 61
8. ANEXOS ............................................................................................................. 70
XII
ÍNDICE DE FIGURAS
Figura 1 - Modelo conceitual ligando satisfação, lealdade e proveitos ........................... 6
Figura 2 - O processo de Marketing simplificado ............................................................. 6
Figura 3 - Diferenças entre as perspetivas do Dep. de Marketing e de Vendas .............. 7
Figura 4 - Visão expandida do processo de Marketing .................................................... 7
Figura 5 - De orientado a produto para orientado a cliente............................................ 9
Figura 6 - Principais motivações para a Adoção de CRM............................................... 12
Figura 7 - Modelo de CRM desenvolvido por Adrian Payne.......................................... 13
Figura 8 - Distribuição de artigos por ano ...................................................................... 14
Figura 9 - Os passos na Descoberta de Conhecimento em Bases de Dados...................18
Figura 10 - Exemplo de uma Árvore de decisão ............................................................. 20
Figura 11 - Desenho genérico de um neurónio humano ............................................... 21
Figura 12 – Modelo típico de um neurónio .................................................................... 22
Figura 13 - Exemplo de um MLP (Multilayer Perceptron) .............................................. 24
Figura 14 - Distribuição de artigos relacionados com Redes neuronais por ano ........... 25
Figura 15 - Distribuição de artigos relacionados com Redes neuronais por área .......... 25
Figura 16 - Matriz de confusão ....................................................................................... 27
Figura 17 - Fases da Metodologia CRISP-DM ................................................................. 28
Figura 18 - Fases da Metodologia CRISP-DM ................................................................. 30
Figura 17 - A utilizações do Data Mining no sector bancário ........................................ 34
Figura 18 - Os diversos passos do processo da implementação do projeto .................. 39
Figura 21 – Nós de código criados no SAS Enterprise Miner ......................................... 50
Figura 22 – Exemplo de um dos nós de código criados no SAS Enterprise Miner ......... 50
Figura 23 – Algoritmos usados no projeto ..................................................................... 52
Figura 24 – Configuração da Rede Neuronal com um neutrão ...................................... 52
Figura 25 – Configuração da optimização da Rede Neuronal ........................................ 53
Figura 26 – Configuração da optimização da Rede AutoNeural .................................... 53
Figura 27 – Configuração da Regressão ......................................................................... 54
Figura 28 – Configuração da Árvore de Decisão ............................................................ 54
Figura 29 – Configuração do nó de Rule Induction......................................................... 54
Figura 30 – Configuração do nó de Ensemble ................................................................ 55
Figura 31 – Gráfico de ROC ............................................................................................. 55
XIII
ÍNDICE DE TABELAS
Tabela 1 - Síntese de Indicadores do Sector Bancário ................................................... 16
Tabela 2 – Resumo das correspondências entre SEMMA e CRISP-DM .......................... 31
Tabela 3 - Síntese dos varios modelos testados ............................................................. 56
XIV
ÍNDICE DE ANEXOS
Anexo 1 - Variáveis iniciais ............................................................................................. 70
Anexo 2 – Variáveis criadas no SAS Guide...................................................................... 71
Anexo 3 - Diagrama do projeto de SAS Guide ................................................................ 73
Anexo 4 - Diagrama do projeto de SAS Miner ............................................................... 74
Anexo 5 - Variáveis criadas e codificações realizadas no SAS Miner ............................ 75
Anexo 6 - Tratamento de Outliers .................................................................................. 83
Anexo 7 - Gráfico de Valor Inicial ................................................................................... 84
Anexo 8 - Matriz de Correlação Inicial............................................................................ 85
Anexo 9 - Gráfico de Valor .............................................................................................. 86
Anexo 10 - Matriz de Correlação .................................................................................... 87
Anexo 11 - Lista de variáveis com correlação acima ou igual a 0,7 ............................... 88
Anexo 12 - Matriz de Correlação Final ........................................................................... 89
Anexo 13 - Gráfico final de valor .................................................................................... 90
Anexo 14 – Lucro obtido com a aplicação da rede neuronal 4, com as 25 variaveis ..... 91
Anexo 15 – Analise da importância das variáveis e valor de lucro obtido com Rede
Neuronal 4 e com as sete variáveis (Melhor valor obtido) ......................... 92
XV
LISTA DE SIGLAS E ABREVIATURAS
AMA American Marketing Association
BI Business Intelligence
CLTV Customer Lifetime Value
CRISP-DM Cross-Industry Standard Processed for Data Mining
CRM Customer Relationship Management
DM Data Mining
ETL Extract Transform Load
GCA Grupo Crédito Agrícola
KDD Knowledge Discovery in Databases
NBO Next Best Offer
NBA Next Best Action
ROI Return on Investment
RTE Real Time Enterprise
SEMMA Sample-Explore-Modify-Model-Assess
XVI
GLOSSÁRIO
ALGORITMOS GENÉTICOS
Técnica de optimização da aprendizagem dos modelos inspirada na teoria Darwinista sobre a evolução das espécies; esta técnica procura a solução do problema através de um processo de evolução da população.
ÁRVORES DE DECISÃO
Ferramenta de classificação e previsão, organizada em estruturas que representam regras de decisão para classificar os dados de input.
ANÁLISE CLUSTER
Método de classificação por agrupamento de indivíduos com características homogéneas com base em um conjunto de variáveis
DATA
MINING Metodologia de descoberta de conhecimento em grandes bases de
dados; procura entre as variáveis encontrar padrões ocultos. As principais tarefas de Data Mining são: classificação, estimação, predição e clustering.
ETL Do inglês Extract Transform Load (Extração Transformação Carregamento), são ferramentas de software cuja função é a extração de dados de diversos sistemas, transformação desses dados conforme regras de negócios e por fim o carregamento dos dados geralmente para um Data Mart e/ou Data Warehouse.
MATRIZ CONFUSÃO
Matriz que avalia a qualidade do modelo preditivo indicando os resultados: falsos-positivos, falsos-negativos, verdadeiros-positivos e os verdadeiros-negativos.
MODELO DETERMINÍSTICO
Baseado em conhecimento, eminentemente preditivo, consistem em formular equações “fechadas” que definem deterministicamente a forma como os outputs são obtidos a partir dos inputs, sendo todas as restantes características constantes.
MODELO NÃO PARAMÉTRICO
Baseado nos dados, não faz uso de hipóteses estatísticas a priori, limita-se a encontrar as relações entre as variáveis de forma generalizada. Recorre normalmente a grandes bases de dados como fonte de informação. Este modelo pode ter ou não pré processamento dos dados.
MODELO PARAMÉTRICO
É baseado em pressupostos, faz uso de conhecimento a priori de hipóteses e preconceitos estatísticos como as distribuições e propriedades clássicas, recorre normalmente a fontes primárias de dados, recolhidos especialmente para o efeito pretendido, as equações matemáticas
MODELO PREDITIVO
Modelo baseado em regressão ou classificação, capaz de prever o nível de probabilidade do valor de determinada variável com base em dados passados.
XVII
REDES NEURONAIS
Modelos preditivos não lineares inspirados nas redes neuronais biológicas; possuem um processo de aprendizagem supervisionada ou não supervisionada. Estas redes são baseadas em pesos atribuídos aos dados de input e retro propagação do erro como meio de optimização.
YOTTABYTE Unidade de medida informática. Equivale a 10 elevado à 24.ª
potência ou a 1000 Zettabytes, 1 000 000 Exabytes ou 1 000 000 000
Petabytes, sendo que 1 Petabyte equivale a 1000 Terabytes, ou
1.000.000 Gigabytes.
XVIII
Página deixada Intencionalmente em branco
1
1. INTRODUÇÃO
Este trabalho de projeto pretende apresentar o resultado de um trabalho baseado em dados
reais, no Grupo Crédito Agrícola, com o objetivo de aumentar a taxa de concretização numa
campanha de Crédito Pessoal.
1.1. ENQUADRAMENTO
Considerando o ambiente atual de competitividade em quase todos os setores da nossa
sociedade de consumo, a importância do Marketing como um dos fatores de sucesso de um
negócio tem vindo a aumentar. O próprio Marketing tem evoluído ao longo dos tempos, de
uma visão centrada no produto, onde se pretendia vender um produto igual para todos com
enfoque no seu baixo custo, para uma visão centrada nos clientes (Kotler, Kartajaya, &
Setiawan, 2010).
Estes clientes, com o acesso global e facilitado à informação, estão muito mais informados e
conscientes do valor do produto e são os próprios que o definem. Assistimos atualmente ao
nascimento de uma nova perspetiva - a era dos valores - onde o cliente não é tratado só como
consumidor mas como indivíduo como um todo, com preocupações, valores e vontades, que
procura não apenas uma solução funcional mas, com o aparecimento de temas como
responsabilidade social e sustentabilidade, passa a exigir das empresas uma postura ética e
alinhada com os valores da sociedade (Kotler et al., 2010).
A banca tem sofrido nos últimos anos profundas alterações a variados níveis: concorrencial,
legal, tecnológico e até comportamental por parte dos consumidores. Há décadas que o setor
financeiro não apresentava tanta fragilidade, havendo mesmo entidades a declarar falência.
Esta conjetura leva, naturalmente, a que seja dada uma grande importância à obtenção de
informação correta em tempo oportuno. É necessário adequar as campanhas de Marketing
para que fiquem mais focadas em promover os produtos certos para os clientes certos, no
timing e forma mais eficazes.
Os clientes são um dos fatores principais de sucesso de qualquer empresa, pelo que novas
captações são fundamentais para permitir aos Bancos rejuvenescer a sua base, mas a procura
de novos clientes é sinónimo de elevados custos. Dependendo do estudo e da indústria em
causa, obter um novo cliente pode custar entre 5 e 25 vezes mais que manter um já existente
(Gallo, 2014). Infelizmente, muitos dos marketers foram ensinados a focarem-se na angariação
de novos clientes ao invés de cativar e reter os existentes (Artun & Levin, 2015).
O consumidor bancário de hoje não é o mesmo de há alguns anos; está mais informado, mais
exigente nos serviços e, sobretudo, mais ciente dos seus direitos e das suas reais necessidades
financeiras. Hoje em dia, não basta por isso ter um produto e vendê-lo. Deste modo, o
Marketing Bancário tem também de evoluir, passar do Marketing tradicional com o conceito
de um produto para todos, para a individualização do cliente e um enfoque nas suas
necessidades específicas, o chamado Marketing Relacional. Esta alteração de visão, por forma
a estabelecer, desenvolver e manter uma relação bem sucedida e estável com o cliente
(Morgan & Hunt, 1994), é uma enorme alteração de metodologia.
2
Já foi realizado algum caminho nesse sentido, com a criação da figura do gestor de clientes,
uma pessoa especializada nas necessidades do seu grupo de clientes. Há, no entanto, um
longo caminho ainda para percorrer no sentido de melhor analisar e compreender as
necessidades e expectativas dos clientes e idealmente antecipá-las, mas, se tal não for
possível, pelo menos identificá-las em tempo útil.
A identificação dessas necessidades e a apresentação do produto solução irão permitir
aumentar o valor percebido do mesmo, elevando a satisfação do cliente e, naturalmente, a sua
retenção na Instituição.
Por outro lado, há muitos anos que os Bancos possuem uma grande quantidade de informação
transacional sobre os seus clientes, mas a questão é como usar essa mesma informação por
forma a gerar conhecimento específico relativamente ao cliente e aos seus hábitos e
necessidades.
Infelizmente, a qualidade e relevância do conhecimento não é diretamente proporcional à
quantidade de informação disponível. Para isso é necessário a utilização de técnicas de Data
Mining, as quais permitem a extração de conhecimento - previamente desconhecido e
potencialmente útil - a partir dos dados (Witten & Frank, 2005) ou, dito de outra forma,
técnicas que permitem descobrir padrões desconhecidos a priori (Witten & Frank, 2005).
O Grupo Crédito Agrícola tem como vantagem competitiva, em relação à Banca tradicional, a
sua ligação próxima ao cliente. É um grupo financeiro com base cooperativa enraizado nas
comunidades onde atua, mais próximo do cliente e que valoriza esse relacionamento (CA |
Crédito Agrícola - Missão e Valores). O enfoque será capitalizar essa proximidade, conhecendo
ainda melhor o cliente, identificando as suas necessidades, suprimindo-as com produtos
direcionados, aumentando o seu valor percebido, a sua ligação ao Banco e,
consequentemente, incrementando a sua rentabilidade.
Pretende-se com este projeto conceber e implementar um modelo preditivo aplicado ao
Grupo Crédito Agrícola por forma a identificar um conjunto de clientes de elevada propensão à
contratualização de um crédito pessoal e avaliar o desempenho deste sistema face ao método
tradicional.
1.2. MOTIVAÇÃO E OBJETIVOS DO ESTUDO
Este projeto surge para tentar dar resposta a duas dificuldades existentes na instituição: (1) na
elaboração das campanhas - a seleção de um conjunto de clientes com a maior propensão de
contratualização do produto em campanha; (2) o desenvolvimento de um processo de
otimização que permita identificar a solução ideal para propor aos diferentes clientes a cada
momento, por forma a aumentar a satisfação dos mesmos, incrementando a sua retenção e
maximizando a venda cruzada e, consequentemente, a sua rentabilidade.
Para tal, torna-se necessário cumprir os sub-objetivos:
• Analisar e investigar o estado da arte e boas práticas na aplicação de tecnologias Data
Mining em Entidades Bancárias;
3
• Fazer o levantamento, análise, conceção e implementação dos requisitos identificados,
recorrendo a uma solução e metodologia adequadas para a criação do modelo
preditivo;
• Avaliar o cumprimento dos requisitos e obter o desempenho deste modelo face a outros tradicionais, i.e., comparando o desempenho obtido;
• Analisar, descrever os resultados obtidos e retirar boas práticas para futuras soluções
similares.
1.3. RELEVÂNCIA E IMPORTÂNCIA
Ling & Li (1998) dizem no seu artigo que as respostas positivas numa campanha de Marketing
massificada são geralmente bastante baixas, na ordem de 1%. O Marketing Relacional e a
lealdade do cliente são estratégias chaves para vingar no mercado concorrencial atual (Beck,
Chapman, & Palmatier, 2015).
Devido às profundas alterações que a banca tem sofrido nos últimos anos, estas estratégias
tornam-se ainda mais fundamentais e, tal como em qualquer outro setor, é exigida uma maior
racionalização dos custos, i.e., para um número menor de contactos (menor custo por
campanha) espera-se uma maior adesão à mesma (maior taxa de sucesso).
Todos os anos o Grupo Crédito Agrícola investe uma verba elevada para implementar
estratégias de Marketing definidas. No entanto, estas têm por base um conjunto de
campanhas, centradas em produtos, pensadas por segmento de cliente, por tipo de cliente,
etc. Sendo esse orçamento limitado, deveria ser otimizado por forma a permitir aumentar o
retorno desse investimento. Com esse objetivo, serão implementados neste projeto modelos
preditivos, usando dados históricos e técnicas de Data Mining.
A relevância deste projeto centra-se na necessidade da correta e atempada identificação das
necessidades dos clientes bancários do Grupo Crédito Agrícola, por forma a ser possível: (1)
aumentar a satisfação do cliente, cross-selling e consequentemente a retenção, lealdade e
rentabilidade do mesmo; (2) minimizar o custo de cada campanha.
1.4. ORGANIZAÇÃO DO DOCUMENTO
Este documento está estruturado de acordo com os seguintes capítulos:
• O capítulo dois: Estado da Arte - apresenta o estado da arte atual em termos de
conceitos relacionados com o Marketing e técnicas de Data Mining relacionadas.
• O capítulo três: O Grupo Crédito Agrícola - faz uma apresentação breve do Grupo
Crédito Agrícola e as suas principais diferenças para a banca comercial.
• O capítulo quatro: Modelo prático desenvolvido – descreve quais os vários passos da
criação do modelo de Data Mining, desde a recolha e seleção dos dados, à sua limpeza
e transformação, à criação do projeto preditivo com os vários algoritmos usados e à
validação dos resultados.
• O capítulo cinco: Conclusão e Recomendações para Trabalhos Futuros - indica quais as
conclusões do presente trabalho e sugere trabalho futuro.
4
• O capítulo seis: Limitações e Recomendações para Trabalhos Futuros - indica quais as
limitações do presente trabalho e sugere algumas recomendações futuras.
5
2. ESTADO DA ARTE
Neste capítulo é efetuado um levantamento dos diversos conceitos relacionados, desde o
Marketing e a sua evolução ao longo do tempo, passando por conceitos como rentabilidade,
satisfação, fidelização, cross-selling, conhecimento do cliente e evolução do cliente bancário,
introduzindo-se ainda conceitos como Business Intelligence e Data Mining e referindo algumas
das suas aplicações no setor bancário. Termina-se apresentando o conceito de Next Best Offer.
2.1. DO MARKETING MASSIFICADO AO RELACIONAL
A American Marketing Association, em 2013, definiu Marketing como sendo a atividade e o
processo de criar, comunicar, promover e distribuir ideias, bens e serviços que tenham valor
para clientes, consumidores, parceiros e sociedade em geral
Esta definição descreve o que é comumente conhecido como o Marketing tradicional ou
massificado, caracterizado pelos 4 P’s: Produto (Product), Preço (Price), Ponto de Venda (Place;
distribuição) e Promoção (Promotion). Na base da definição de Marketing tradicional assentam
ainda três pressupostos: (1) a existência de um grande número de potenciais clientes, (2) que
as suas necessidades são homogéneas e (3) que será fácil substituir um cliente perdido por um
novo (Hollensen, 2010).
Muitas vezes o preço é ainda utilizado como instrumento para ir buscar indiscriminadamente
clientes. No entanto, tal implica a aquisição de muitos clientes que se revelam pouco ou nada
rentáveis. Hoje em dia poucas entidades fazem realmente Marketing massificado, i.e., vendem
o mesmo produto de uma forma standard a todos os clientes (Kotler & Armstrong, 2012).
Quando uma empresa identifica os clientes chave, os seus “20%” 1, deve procurar aumentar o
seu envolvimento, construindo sobre o conhecimento que detém sobre estes, criando
produtos e serviços que satisfaçam as suas necessidades (Reichheld, 1993), sendo que se não o
fazem, abrem a porta para outras empresas o façam. E se antes podíamos ver os clientes como
um conjunto, sabemos atualmente que cada cliente tem as suas necessidades específicas e
quer ser visto como ser individual, quer sentir que foi criado um produto à sua medida.
O cliente é uma das chaves de qualquer negócio, mas nem todos são iguais. As empresas
devem procurar os clientes certos e não os fáceis ou mais rentáveis no curto prazo (Reichheld,
1993).
Nos anos oitenta começou-se a verificar uma mudança na filosofia do Marketing, uma
mudança em direção a um Marketing Relacional (Morgan & Hunt, 1994). No centro desta nova
filosofia está o desenvolvimento e manutenção de uma relação duradoura com um cliente,
tendo por base a satisfação do mesmo e, naturalmente, o incremento do seu valor (Berger &
Nasr, 1998).
1 O princípio de Pareto (também conhecido como regra do 80/20) afirma que 80% das
consequências decorrem de 20% das causas, i.e., no caso em apreço: 20% dos clientes são responsáveis por mais de 80% dos lucros de uma determinada empresa.
6
No Marketing, o conceito de satisfação é o mais estudado na literatura. Segundo Kotler &
Keller (2012) este reflete o julgamento individual da pessoa entre o valor percebido e a
expetativa criada. Oliver (2010) defende que a satisfação provoca efeitos a longo prazo, que
contribui para a lealdade do cliente e, ainda segundo o mesmo autor - Oliver (1999) - estes
dois sentimentos estão profundamente interligados, mas não andam necessariamente a par e
passo, i.e., um cliente leal é normalmente um cliente satisfeito, mas um cliente satisfeito pode
não ser um cliente leal.
Um cliente leal é um cliente mais rentável, que provavelmente trará consigo outros novos
clientes (Hitchner, 1996) e que terá uma relação mais longa com a empresa (Figura 1)
(Edvardsson, Johnson, Gustafsson, & Strandvik, 2000). A fidelização é uma conquista contínua
mas se uma entidade conseguir manter os clientes fieis à sua marca, esta possui um diferencial
competitivo (Silva & Kaercher, n.d.).
Figura 1 - Modelo conceitual ligando satisfação, lealdade e proveitos (adaptado de Edvardsson et al., 2000)
Hoje em dia, o Marketing pode ser definido como o processo pelo qual as empresas criam
valor e relações de longo termo com o cliente, com o objetivo de capturar valor destes (Kotler
& Armstrong, 2012), assumindo por isso um papel crucial na área de negócio (Figura 2).
Figura 2 - O processo de Marketing simplificado
(adaptado de Kotler & Armstrong, 2012)
7
É importante realçar que o objetivo de um departamento de Marketing é diferente de um
departamento de vendas (Figura 3). Apesar de ambos procurarem a rentabilidade do cliente,
um procura-o através do incremento das vendas e o outro através da satisfação do cliente.
Figura 3 - Diferenças entre as perspetivas do Dep. de Marketing e de Vendas
(adaptado de Kotler & Armstrong, 2012)
Muitas vezes, o próprio cliente não sabe o quer ou qual a melhor solução para o seu
problema/necessidade e é principalmente nestas situações que o conhecimento sobre o
cliente é importante, ao criar um produto que vai ao encontro das necessidades do cliente,
mas em linha com as suas capacidades, conforme ilustrado na Figura 4.
Figura 4 - Visão expandida do processo de Marketing
(adaptado de Kotler & Armstrong, 2012)
8
Atrair clientes pode ser uma tarefa difícil, pois estes são confrontados diariamente com uma
imensidão de produtos e serviços. Um cliente compra à entidade que lhe dá o maior valor
percebido (Kotler & Armstrong, 2012), ou seja, é uma avaliação individual, subjetiva e
normalmente não apenas limitada aos custos/ benefícios e é aqui que o conhecimento sobre o
mesmo pode fazer toda a diferença. Perder um cliente não é apenas perder uma venda, é
perder todas as vendas que poderiam ser feitas a esse cliente ao longo do tempo (Kotler &
Armstrong, 2012).
Por exemplo, para uns o fator diferenciador é o preço, para outros é a segurança mesmo que
tenham de despender um valor ligeiramente superior. A maior parte dos estudos indicam que
uma maior satisfação do cliente significa uma maior fidelização (Kotler & Armstrong, 2012) e a
fidelização dos clientes e a venda cruzada são vistos como uma base imperativa para as
estratégias comerciais dos Bancos. Assim, com uma retenção de apenas mais 5% dos seus
clientes, as empresas podem aumentar os seus lucros em quase 100% (Reichheld & Sasser Jr.,
1990), pois em geral, o valor de um cliente aumenta proporcionalmente à sua antiguidade na
empresa (Reichheld, 1996).
“The new rules of competitions require recognition of the importance
of consumers and the necessity to address the needs through
innovative products supported by new technology.” (KV Kamath et
al., 2003)
O próximo passo será o Marketing em Tempo Real que pretende ser um processo de geração e
disponibilização de informação em tempo útil permitindo criar uma estratégia com base na
trend atual e feedback dos clientes. Este conceito surge devido à constante inovação
tecnológica e globalização a que assistimos. Hoje em dia, à distancia de um clique, 24/7,
podemos consultar catálogos de produtos e/ou serviços e realizar compras ou assinar serviços.
Estas melhorias tecnológicas permitem às organizações criar e disponibilizar novos ou
existentes produtos e serviços a uma velocidade antes não possível.
Hoje, um cliente pode receber um e-mail no seu telemóvel, ver na Internet as suas condições
e, sem sair do mesmo local, subscrever um serviço ou comprar um produto, tudo em poucos
minutos. Isto implica que a capacidade de resposta das empresas tem de ser rápida e flexível.
O Marketing em Tempo Real surge assim como uma evolução do Marketing Relacional, mas
tendo ainda como objetivo a satisfação dos clientes. Em teoria, numa RTE, ou Empresa em
Tempo Real (Real Time Entreprise), a maioria do software reside na cloud (internet) e,
independentemente do meio utilizado (telefone, tablet, televisão ou qualquer outro
equipamento), o contacto com a entidade funciona de forma correta e personalizada, ou seja,
numa RTE qualquer tipo de informação é atualizada e contextualizada ao momento,
permitindo um aumento na qualidade do serviço, na produtividade, um melhor apoio à
decisão e um aumento da satisfação e lealdade dos clientes (Goldenberg, 2008).
9
Hoje em dia a tecnologia já permite a geração e contextualização de eventos com base em
acontecimentos internos, i.e., que acontecem dentro da esfera da Instituição Bancária. Refiro-
me a eventos relacionais como dar os parabéns ao cliente no seu aniversário, eventos
comerciais, verificar que se atingiu a maturidade de um depósito a prazo e propor um novo
depósito ou outro investimento de acordo com o perfil de cliente. Mas, independentemente
do produto oferecido, o mesmo é sempre centrado no cliente, específico para ele, relevante e
com significado ou seja, ou invés de simplesmente vender o produto, adapta-se o produto ao
cliente. Podemos observar essa mudança de paradigma na Figura 5.
Figura 5 - De orientado a produto para orientado a cliente
(adaptado de Artun & Levin, 2015)
Um estudo de três anos levado a cabo pela empresa Viacom2 nos EUA (“The Millennial
Disruption Index,” n.d.), incidindo sobre 10.000 milenais3, retirou algumas conclusões sobre
como eles encaram o setor bancário:
• 53% pensam que o seu Banco não oferece nada de diferente dos outros Bancos;
• 71% preferem ir ao dentista que ouvir o seu Banco;
2 Empresa que detém algumas das principais marcas de entretenimento que se conectam ao público através
de conteúdo em plataformas de televisão, cinema, plataformas e redes móveis em mais de 160 países e territórios (MTV, VH1, CMT, Logo, BET, CENTRIC, Nickelodeon, Nick Jr., TeenNick, Nicktoons, Nick at Nite, COMEDY CENTRAL, TV Land, SPIKE, Tr3s, Paramount Channel and VIVA.) http://www.viacom.com/
3 Geração nascida entre 1981 e 2000, também conhecida como Geração Y, geração do milênio ou geração
da internet.
10
• 73% achariam mais interessante receber ofertas de serviços financeiros de empresas
como a Google, Amazon, Apple, Paypal ou Square do que do seu Banco.
Um outro estudo realizado pela BNY Mellon4 em 2014, com entrevistas a 1178 milenais em
sete países, em colaboração com a SAID Business School e com a University of Oxford, indica
que:
• Os Milenais preferem recorrer aos seus pais para conselhos financeiros (52%) do que
aos seus Bancos (24%);
• 59% dos milenais acreditam que não existem produtos que os tenham como objetivo;
• 40% preferem o on-line ou e-mail como forma de contacto do seu prestador de
serviços financeiros.
Como podemos ver, é urgente repensar a estratégia, os meios, a forma e a relevância da
comunicação.
2.2. RENTABILIDADE E CONHECIMENTO DO CLIENTE
Sendo o cliente um dos principais pilares para o sucesso e rentabilidade de qualquer negócio, a
satisfação do mesmo é da máxima importância, tornando-se assim necessário avaliar e
compreender as necessidades e expetativas dos clientes. A construção de relações fortes entre
o cliente e a empresa e a lealdade são muitas vezes a explicação para uma empresa ser mais
rentável que outra (Reichheld, 1993), e é reconhecido que a lealdade dos clientes é ganha
através da entrega consistente de valor acrescentado (Reichheld, 1993).
Ao longo do tempo as instituições financeiras têm apostado cada vez mais em processos,
métricas e ferramentas que permitam um melhor modelo de gestão de relacionamento com o
cliente e um aumento do conhecimento sobre o mesmo, potenciando o seu valor ao longo do
tempo. É necessário que as empresas tenham a capacidade de antecipar as necessidades do
cliente (Narver, Slater, & MacLachlan, 2004).
Como qualquer empresa, os Bancos assentam num conceito de maximizar os lucros e
minimizar os custos, assegurando assim o mais elevado ROI (Return on Investiment) possível.
No entanto para maximizar o retorno de um cliente é necessário primeiro quantificar o seu
valor.
O CLTV (Customer Lifetime Value) foi definido como o valor presente de todos os cash-flows
futuros gerados pelo cliente (Farris, 2006). Através deste cálculo, é possível saber qual o valor
de um dado cliente, permitindo desta forma agrupar e ordenar os mesmos tendo a conta a sua
rentabilidade e possibilitando o desenvolvimento de estratégias especificas para cada
segmento, por forma a maximizar o valor dos clientes ao longo do tempo.
4 Banco de investimento financeiros, com sede em Nova Iorque, que atua em mais de 100 mercados
https://www.bnymellon.com
11
O princípio básico da otimização do CLTV é o mesmo para todos os estágios da vida do cliente
e pode ser resumido em três palavras: Dar para receber (Artun & Levin, 2015), pois os clientes
muito mais facilmente irão adquirir produtos ou serviços nas entidades onde já tem uma
relação. A melhor forma de desenvolver uma relação é entregar valor acrescentado.
A definição do valor a entregar ao cliente varia, obviamente, de empresa para empresa; para
umas pode ser o retorno financeiro e para outras o produto ou o serviço mas,
independentemente da definição, se os clientes não obtiverem esse valor, irão procura-lo
noutro lado.
Esta definição de valor difere de cliente para cliente e mesmo no mesmo cliente, entre os
diferentes estágios da sua vida pessoal e entre os diferentes estágios da sua vida enquanto
cliente.
Todas as empresas terão sempre três tipos de clientes: baixo, médio e alto valor. O truque está
em identificar em que grupo se encaixa cada um dos clientes. Não só para avaliar numa
primeira fase (aquisição do cliente) se este trará valor para a empresa ao longo do tempo e se
valerá a pena a empresa investir nele como, caso valha o investimento, se deve realizar cross e
up selling, quais os produtos que irão trazer valor ao cliente e o que este mais valoriza.
Segundo Artun e Levin (2015), se um cliente fizer uma segunda compra no retalho, o Rácio de
Churn, i.e., a probabilidade de perder o cliente, diminuí de 70% para 30%.
2.3. GESTÃO DE RELAÇÃO COM O CLIENTE (CRM)
A expressão Gestão de Relação com o Cliente, Customer Relation Manager – CRM, apareceu
no início dos anos 90 e representa o processo de gerir todas as interações de uma empesa com
um cliente, incluindo prospeção, venda e pós-venda. Aplicações CRM normalmente permitem,
num só dashboard, ter uma visão 360 graus do cliente (Buttle, 2009).
A ideia original por detrás de um CRM é melhorar a satisfação do cliente através da análise de
informações e das interações com o mesmo (Wang, Hu, & Yu, 2010), por forma a ajudar a
construir uma longa e rentável relação com os clientes (Bahari & Elayidom, 2015). Estes são
recursos valiosos e saber como obter, reter e aumentar o seu retorno é crucial para as
empresas (Wang et al., 2010).
Varajão & Cruz-Cunha (2016) indica os 5 motivos principais para a adoção de CRM nas
empresas portuguesas (Figura 6): (1) reduzir custos; (2) aumentar a satisfação do Cliente (3)
melhorar os processos; (4) ganhar vantagens competitivas; (5) melhorar a qualidade da
informação.
12
Figura 6 - Principais motivações para a Adoção de CRM (adaptado de Varajão & Cruz-Cunha, 2016)
Existem quatro tipos diferentes de CRM - estratégico, operacional, analítico e colaborativo -
com enfoque em características diferentes: (1) Estratégico – centrado no cliente, procura
ganhar e manter clientes rentáveis oferecendo para tal mais valor que a concorrência; (2)
Operacional – centrado na automação de serviços criados para o cliente, como Marketing,
venda e pós-venda; (3) Analítico – centrado na captura, armazenamento, análise, visualização
e interpretação dos dados dos clientes com o objetivo de aumentar o valor da empresa e do
cliente; (4) Colaborativo – centrado na otimização da empresa e valor do cliente, procura
alinhar a parte estratégica e operacional da empresa (Buttle, 2009).
Existem também diversos modelos de CRM, sendo que um deles foi desenvolvido por Adrian
Payne (Figura 7) e, como podemos observar, implica documentar, analisar e retirar
conhecimento de todas as interações com o cliente.
13
Figura 7 - Modelo de CRM desenvolvido por Adrian Payne (adaptado de Buttle, 2009)
Tudo isto representa a procura das empresas em aproximar-se dos seus clientes e em
conhece-los mais profundamente. Qualquer decisão de um sistema CRM deve passar por um
processo de 2 passos: (1) conhecer o cliente e (2) determinar e executar a melhor ação, sendo
que essa decisão deriva de um conjunto de parâmetros de modelo pré-definido (Sun, Li, &
Zhou, 2006) e é este um dos pontos em que o CRM pode falhar, pois falta a capacidade de
aprendizagem e adaptação num modelo fits-all. Um outro ponto que leva muitas vezes a que o
CRM falhe é a falta de motivação da força de vendas. A tecnologia é apenas um habilitador;
sem pessoas que o usem, que o implementem e que falem com os clientes irá sempre falhar
(Jarrar & Neely, 2002). Um estudo realizado por Polonsky et al. em (2000), confirma o que já se
calculava, i.e. que se o cliente perceber que a força de vendas não está realmente interessada
nas suas necessidades e apenas tenta vender porque está treinada para isso, é pouco provável
que a venda se realize e pode levar à perda do cliente.
O CRM pretende-se adaptável por forma a poder determinar a melhor ação de acordo com
necessidades individuais e únicas de cada cliente (Sun et al., 2006). Um CRM pró-ativo e
adaptativo deverá funcionar em 5 vetores: o primeiro é, logicamente, conhecer o cliente, pois
esta é a única forma de desenvolver uma relação e maximizar o cross-selling; o segundo é
perceber em que estado de maturidade o cliente se encontra, sendo que esta informação
pode ser obtida através dos pontos de contacto com o cliente, sejam campanhas, reclamações,
etc.; o terceiro é conhecer o CLTV (Customer Lifetime Value), para saber em que clientes
devemos investir mais o nosso tempo; o quarto é perceber quais os meios de contactos a
utilizar para cada cliente, pois todos têm a sua preferência e é necessário respeitá-la e, por
14
último, o quinto é entender a sensibilidade atual do cliente do rácio preço/ qualidade, pois
este rácio muda ao longo do tempo (Sun et al., 2006).
Ngai, Xiu e Chau (2009), dizem no seu artigo, ter identificado entre 2000 e 2006, 87 artigos
relacionando técnicas de Data Mining com CRM. A maioria dos artigos refere-se à retenção de
clientes. Destes, 28 são referentes a Marketing individual e 24 são relacionados com
programas fidelização. Adicionalmente identificam quais as famílias de algoritmos usadas,
sendo as três mais utilizadas: redes neuronais (30), Árvores de decisão (23) e regras de
associação (18).
Podemos verificar que a utilização de técnicas de DM, na relação com o cliente, é algo com
cada vez mais relevância, conforme confirmamos pela distribuição de artigos por ano (Figura
8).
Figura 8 - Distribuição de artigos por ano (adaptado de Ngai et al., 2009)
CRM é hoje em dia uma ferramenta essencial no sector da banca. Quanto mais eficiente for o
uso da informação acerca dos nossos clientes na procura da satisfação das suas necessidades,
mais rentável o sector poderá ser (Ogwueleka, 2009).
2.4. CARACTERIZAÇÃO E EVOLUÇÃO DO CLIENTE BANCÁRIO
Antes de mais, importa definir produto e serviço. Produto: qualquer coisa que possa ser
oferecida para atenção, aquisição, uso ou consumo e que possa satisfazer uma necessidade.
Serviço: atividade ou satisfação que é essencialmente intangível e que não resulta da uma
tomada de posse (Kotler & Armstrong, 2012).
Efetivamente, quem é que quer uma conta à ordem? Ou um empréstimo pessoal ou à
habitação? Ou outros tantos produtos? Os Bancos são uma necessidade, são algo que
necessitamos para obter o benefício que pretendemos, seja poder ir às compras apenas com
um cartão no bolso, a televisão que sempre quisemos ou a casa/ carro por que sempre
ansiámos. Hoje, numa época em que as taxas estão esmagadas, a diferenciação não pode ser
15
feita pelo preço, tem de ser feita pelo valor percebido, pela experiência, pela atenção, ou seja,
por algo intangível, mas que nos faz preferir a entidade X à Y.
Em outubro de 2016, o Conselho Nacional de Supervisores Financeiros publicou os resultados
do 2.º Inquérito à Literacia Financeira da População Portuguesa, realizado em 2015 no âmbito
do Plano Nacional de Formação Financeira. Este permite conhecer os níveis de literacia
financeira da população nas suas três dimensões: atitudes, comportamentos e conhecimentos
financeiros.
Os resultados deste 2º inquérito mostram uma melhoria face a 2010. No entanto, quando
questionados em questões sobre numeracia, apenas 58,4% acertam no cálculo de juros
simples e apenas 39,5% reconhecem o efeito dos juros compostos. Nos produtos bancários,
82% identificam corretamente o saldo de uma conta de depósito à ordem num extrato
bancário, mas apenas 21,4% sabem o que é o spread e 10,5% o que é a Euribor. Nos seguros,
62,7% sabem o que é o prémio de seguro e 46,2% o que é a franquia de um seguro. Nos
produtos de investimento, há algum conhecimento sobre ações, mas apenas 4% sabem o
significado de capital garantido num valor mobiliário.
16
Tabela 1 - Síntese de Indicadores do Sector Bancário (adaptado de APB - Associação Portuguesa de Bancos, 2016)
2.5. CANAIS DE COMUNICAÇÃO
Em 2000, 80% dos Bancos nos Estados Unidos da América já disponibilizavam o on-line como
canal de comunicação. Em 2001, o Bank of America atingiu a marca dos 3 milhões de
utilizadores de clientes de on-line (Sharma, 2016). A Accenture refere, no seu estudo realizado
em 2015, que 20% dos clientes bancários já são unicamente digitais (Accenture, 2015).
Hoje em dia, os contactos com as entidades bancárias passam cada vez menos pelo canal
físico, por uma deslocação ao balcão, e cada vez mais pelos canais móveis como o telefone, as
aplicações e o on-line. Um estudo realizado pela Bain & Company, em (2012), indica uma
utilização do canal mobilie de 32% nos Estados Unidos, 47% na Coreia do Sul, 37% na Índia e
16% na Alemanha. O Instituto Nacional de Estatística (INE), no seu Inquérito à Utilização de
Tecnologias da Informação e da Comunicação pelas Famílias realizado em (2014), refere que
entre os utilizadores de internet, mais de metade (57%) acede em mobilidade, ou seja, fora de
casa e do local de trabalho em equipamentos portáteis, com tendência para aumentar.
A internet é hoje tão essencial que foi considerada em 2016 como direito humano pelas
Nações Unidas5.
Claro que nem todas as operações são passíveis de serem efetuadas nos canais on-line mas
estes permitem que os clientes sejam atendidos independentemente da hora e do local onde
estejam, sem esperar na fila e sem custos de deslocação. Esta tecnologia tem aspetos positivos
(conveniência, mobilidade, usabilidade) mas também tem aspetos negativos, sendo um deles a
perca de relação/proximidade com a entidade bancária. Enquanto na Banca tradicional existe
a possibilidade de interagir com o cliente, aprender as suas necessidades e desejos, no on-line
o cliente não é visto, perdendo-se assim conhecimento do mesmo.
A gamificação, aplicação de elementos e princípios de jogos de vídeo em situações fora do
contexto dos mesmos, tem sido identificada como tendo um papel importante na relação com
o cliente nesta era do e-banking, nomeadamente na lealdade e na sua atitude perante o setor
financeiro (Rodrigues, Oliveira & Costa, 2016). Esta relação é especialmente importante
considerando o nível geral de conhecimento financeiros e de numeracia da população.
Os clientes não usam os produtos ou canais isolados uns dos outros. No mundo do canal
OmniChanel é expetável que o cliente mude de canal conforme a informação necessária,
disponibilidade e necessidade. Se hoje formos aos balcões das entidades bancárias, podemos
5 http://www2.ohchr.org/english/bodies/hrcouncil/docs/17session/A.HRC.17.27_en.pdf
17
já observar essa mudança: tornaram-se muito mais tecnológicos e apresentam muito mais
montras de produtos.
2.6. BUSINESS INTELLIGENCE E DATA MINING
Quem nunca ouviu a máxima “conhecimento é poder” 6 ? Em quanto aumentaria a
rentabilidade das empresas se conseguíssemos tomar decisões com um certo grau de certeza?
Um dos fatores de sucesso de qualquer empresa moderna é a capacidade de atuar sobre a
informação disponível (Angelis, Polzonetti & Re, 2011). Os Bancos têm acesso direto aos
comportamentos dos seus clientes através dos movimentos dos seus cartões de
débito/crédito, transferências realizadas, autorizações de débito, etc. e têm vindo a acumular
essa informação. Considerando o reduzido custo de storage, o desafio hoje em dia não é a
acumulação desta informação mas sim o tomar partido dela, analisando-a e gerando
conhecimento útil.
Esse desafio torna-se mais complicado quanto mais informação se gera e se armazena e é
ainda agravado pelo aumento do número de pessoas que necessitam de informações distintas
dentro da empresa (Angelis et al., 2011). Estima-se que a quantidade de informação
armazenada nas diversas bases de dados no mundo inteiro duplique a cada 18 (Maheshwari,
2015) ou 20 meses (Witten & Frank, 2005).
Hoje em dia o setor bancário tem um conjunto de desafios: (1) canal de comunicação, dado
que os clientes recebem diversas comunicações e de diversos canais, quer da sua entidade
bancária como da concorrência; (2) interação e personalização, pois os clientes exigem que,
seja qual for o canal e/ou pessoa que esteja do outro lado, os conheçam e às suas
necessidades; (3) número de interações, uma vez que os clientes valorizam o seu tempo e não
querem ser incomodados por propostas não adequadas às suas necessidades.
Para responder aos desafios atuais, não basta guardar informação, mas sim desenvolver uma
capacidade analítica cada vez maior, onde se deve conseguir analisar o mercado, tendências e,
idealmente fazer previsões. Os sistemas de Business Intelligence (BI) são parte fundamental
nesse processo. Sobre os dados, normalmente com grande volume e velocidade, são criados
tipicamente DataMarts como repositórios/agregadores de informação e é sobre estes que se
realizam as análises. Business Intelligence não é mais que um nome agregador que engloba as
arquiteturas, ferramentas, bases de dados, aplicações e metodologias com o objetivo de
analisarem dados para servirem de suporte à decisão (Turban, Aronson & Liang, 2005).
Data Mining é, na sua definição mais simples, a capacidade de detetar de forma automática
padrões nos dados disponíveis (Srivastava & Han, 2011) e é uma etapa no processo na
Descoberta de Conhecimento em Bases de Dados (Figura 9) (Fayyad, Piatetsky-Shapiro &
Smyth, 1996).
6 Frase atribuída a Sir Francis Bacon (1597)
18
Figura 9 - Os passos na Descoberta de Conhecimento em Bases de Dados
(adaptado de Fayyad et al., 1996)
Assim, importa definir melhor o que é Data Mining, especialmente porque este conceito é
relativamente recente, tendo emergido apenas nos anos 90 (Nisbet, Elder, & Miner, 2009).
Data Mining é:
• “...a extração não trivial de conhecimento útil implícito e previamente desconhecido a
partir de dados.” (William J. Frawley, Gregory Piatetsky-Shapiro, & Christopher J.
Matheus, 1992, pág. 58);
• “...a aplicação de algoritmos específicos que permitem extrair padrões de dados”
(Fayyad et al., 1996, pág. 39);
• “...o processo de descobrir padrões em dados”(Witten & Frank, 2005, pág. 5);
• “...técnicas que permitem extrair conhecimento útil, previamente escondido nos
dados. Data Mining, permite a descoberta de tendências e padrões em largos
conjuntos de dados.” (Goldenberg, 2008, pág. 159).
• “...o processo de descobrir padrões e tendências, entre grandes volumes de dados
”(Larose & Larose, 2014, pag. 2)
Em suma, Data Mining consiste na extração de conhecimento útil em grandes quantidades de
dados, permitindo às organizações tomar decisões fundamentadas nos mesmos e tem-se
mostrado bastante útil nas mais diversas áreas, como medicina, finanças, comércio,
Marketing, telecomunicações, meteorologia, agropecuária, bioinformáticas, entre outras
(Galvão & Marin, 2009).
As instituições financeiras procuram criar valor para o cliente através do conhecimento gerado
pela análise de dados pois esta permite uma aproximação e uma individualização nunca antes
19
possível desta forma massificada. Verifica-se, no entanto, que o principal objetivo do BI nas
entidades bancárias não é a descoberta de conhecimento, mas sim a previsão, mostrando
assim a importância de estimar o futuro como ferramenta de suporte à decisão (Moro, Cortez
& Rita, 2015).
2.6.1. Técnicas de Data Mining
As diferentes técnicas de Data Mining variam entre a sua utilização de objetivos, pressupostos,
conhecimento do problema e dados. Quanto maior for o nosso conhecimento do problema,
maior a nossa capacidade de criar modelos baseados nesse conhecimento. Infelizmente, para
muitos dos problemas existentes, não temos o conhecimento de todas as variáveis nem de
todos os pressupostos.
As técnicas de Data Mining caem normalmente em duas categorias: (1) descritivas e (2)
preditivas. A primeira engloba normalmente técnicas de clustering ou simplesmente de
resumo dos dados, enquanto a segunda pode ser dividida em dois grupos, classificação ou
regressão, dependendo do que tentamos prever. No caso da classificação, tentamos analisar e
enquadrar um novo elemento num conjunto predefinido de classes e na regressão tentamos
atribuir um valor a uma variável continua que é desconhecida.
Existem duas grandes categorias de algoritmos em Data Mining, os supervisionados e os não
supervisionados. Nos primeiros, existe um processo de aprendizagem baseado numa variável
target conhecida, onde se tenta explicar o comportamento dessa variável com o
comportamento das outras variáveis independentes e depois aplicar esse conhecimento para
tentar prever o comportamento de novos elementos. Os não supervisionados têm como
principal objetivo a descrição e a deteção de padrões (Chitra & Subashini, 2013).
Algumas das técnicas de Data Mining são:
• Regressão
Regressão é um modelo estatístico bem conhecido (Maheshwari, 2015), relativamente simples
e popular. Segundo Aggarwal (2014), é provável que cerca de 90% das aplicações reais tenham
começado com uma simples regressão como primeiro modelo. O objetivo é definir uma curva
que “encaixe” nos dados e dessa forma conseguir efetuar previsões (Maheshwari, 2015), i.e.,
uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os
valores de algumas outras variáveis x.
• Árvores de Decisão
As Árvores de decisão são uma família de algoritmos de classificação mais popular (Abdelhalim
& Traore, 2009) (Maheshwari, 2015) e uma forma simples para analisar diversas variáveis. Têm
como principal característica o facto de se obter uma clara representação de como o conjunto
inicial se vai dividindo sendo, assim, um meio importante de comunicação (Maheshwari,
2015). As Árvores de decisão usam a estratégia de dividir para reinar ou seja, a raiz da Árvore
apresenta o atributo mais relevante enquanto os menos relevantes são mostrados nos nós
20
subsequentes, com o objetivo de dividir o conjunto de dados em subgrupos pequenos/simples
e homogéneos (Prezepiorski Lemos, Arns Steiner & Nievola, 2005). Normalmente são usadas
para responder a simples questões binárias (Maheshwari, 2015) e os algoritmos mais
populares são: C4.5, CART e CHAID.
Por exemplo, com base na Figura 10, podem-se obter as seguintes regras:
• Se montante = médio e salário = baixo então classe = não.
• Se montante = médio e salário = alto então classe = sim.
Figura 10 - Exemplo de uma Árvore de decisão (adaptado de Prezepiorski Lemos et al., 2005)
• Ensemble
Um modelo ensemble não é mais que a combinação de 2 ou mais modelos (Dean, 2014) por
forma a obter uma melhor solução (Augusty & Izudheen, 2013). Uma analogia que pode ser
feita é um caso de uma junta médica, onde um conjunto de médicos, cada um com os seus
testes, tomam juntos uma decisão única.
Existem diversos tipos como o Baggind, Boosting, por maioria/democrática e o do valor médio.
Com o ensemble ganha-se capacidade preditiva perdendo-se, no entanto, capacidade
explicativa.
o Baggind ou Bootstrap Aggregating, é um método simples mas eficaz para criar
diversas amostras dos dados originais. Estas amostras são feitas
uniformemente mas geralmente contêm duplicados. Estas diferentes amostras
irão criar diversidade no modelo (Flach, 2012).
21
o Boosting, é uma técnica de ensemble parecida com o Baggind mas que usa
uma técnica mais sofisticada para criar os diversos conjuntos de amostra
(Flach, 2012).
• Redes Neuronais
As redes neuronais artificiais são uma família de algoritmos data-driven, auto-adaptáveis e
com poucas presunções feitas a priori, aprendendo por exemplo e, como tal, capturando as
relações subtis e desconhecidas entre os dados. São ideais quando temos falta de
conhecimento sobre o problema ou quando este é difícil de especificar, mas temos dados
suficientes (Zhang, Patuwo, & Hu, 1998). Já existe uma extensa bibliografia da sua utilização,
desde a previsão de falências de negócios, taxas de câmbio, cotações de ações, entre outras.
Têm como principal desvantagem o facto de serem uma “caixa negra” ou seja, são de difícil
explicação.
Estas redes são inspiradas no cérebro humano, com vários elementos de processamento
chamados neurónios. Estes são a base de toda e qualquer atividade cerebral, têm como
principal função receber, processar e propagar sinais e têm como principais componentes: a
membrana celular, as dendrites e o axónio. (Figura 11). Normalmente, as redes neuronais são
usadas quando são problemas complexos, com muitos dados e é expectável que o modelo
aprenda ao longo do tempo (Maheshwari, 2015).
Figura 11 - Desenho genérico de um neurónio humano, onde se pode observar os seus constituintes principais (corpo celular, dendritos e axónios). Pode ainda observar-se as terminações sinápticas que fazem a ligação entre o axónio de um neurónio e as dendrites de outros neurónios
Quando um neurónio se torna ativo, a corrente elétrica propaga-se desde o seu corpo celular
ao longo do seu axónio. Quando esta atinge as sinapses, libertam-se as substâncias químicas
conhecidas como neurotransmissores. Estes, por sua vez e consoante o tipo de sinapse,
determinam o grau de transmissão do impulso para o próximo neurónio. O corpo celular do
próximo neurónio decide, com base nos diversos impulsos que lhe chegam, se passa ou não a
corrente ao próximo.
22
Muitas das características dos neurónios biológicos foram transportas para os artificiais.
Alguns destes exemplos são:
o Um neurónio pode receber muitos sinais de outros neurónios;
o Uma saída de um neurónio pode estar ligada a muitos outros;
o A intensidade de chegada é controlada por parâmetros numéricos chamados pesos.
Esta função é realizada pelas sinapses nos neurónios biológicos;
o Em ambos os casos, o valor de saída do neurónio pode ser diferente do de entrada no
próximo;
o Tolerância ao ruido: tanto a rede biológica como a artificial são capazes de processar
informação corretamente, mesmo que esta tenha sofrido alterações face à
apresentada na fase de aprendizagem.
Na Figura 12 podemos observar as 3 partes que compõem um modelo típico: o conjunto de
pesos, a função aditiva e a função de ativação. Cada sinal (Xx) é integrado num neurónio e
multiplicado por um peso (Wk), sendo o valor resultante somado com os restantes produtos. O
valor dessa soma é sujeito a uma função de ativação (geralmente não linear) que restringe
superior e inferiormente o valor obtido, por norma limitado aos intervalos [0,1] e [-1,1]. O
valor de Bias (b) permite adequar o valor final obtido.
Figura 12 – Modelo típico de um neurónio
Existem diversos tipos de funções de ativação, sendo alguns das mais comuns:
o Função de ativação Linear
É a função mais básica mas ainda assim bastante usada. A saída linear com p=1,
simplesmente repete o valor de entrada.
23
o Função de ativação Binária (threshold)
Função básica, gerando apenas dois valores como resultado: 0 e 1
o Função de ativação Sigmóide
Função muito usada em redes com propagação para a frente, que precisam ter como
saída apenas números positivos. Tem duas vantagens, (1) a introdução de não-
linearidade no modelo e (2) uma função derivada simples.
Os neurónios de uma Rede Neuronal devem estar ligados entre si e dispostos em camada, como podemos observar na Figura 13. Existem três camadas: a de entrada, a de saída e a camada escondida.
• A camada de entrada serve para introduzir os valores e, como tal, o número de nós de entrada é igual ao número de variáveis usadas.
• A camada de saída está relacionada com o nosso problema e, por norma, é também apenas um neurónio, retornando um valor. Por exemplo, numa classificação pode retornar a tipologia do cliente (Cliente Platina, Dourado, etc.) e numa regressão retorna um valor (Sheela & Deepa, 2013). No caso deste projeto, retorna a probabilidade de compra do produto.
• A grande questão está na camada escondida, na escolha do número de camadas e neurónios a usar nestas. Diversos pesquisadores já propuseram abordagens diferentes para este problema, sendo que estas caem normalmente em duas classificações: uma onde se começa com poucos neurónios e vamos aumentando e a segunda onde começamos com demasiados e vamos diminuindo. Não existe um método para a obtenção do número ideal, para além da tentativa/ erro (Sheela & Deepa, 2013). No entanto, quanto ao número de camadas escondidas, a opção é mais fácil do que quanto ao número de neurónios. Isto porque o número de problemas que obtêm ganhos com o uso de mais do que uma camada é muito reduzido. Assim, apenas uma camada escondida é suficiente para a grande maioria dos problemas (Macukow, 2016). Relativamente aos neurónios, se usarmos a mais, corremos o risco de obtermos um modelo com overfitting ou seja, demasiado próximo aos dados da aprendizagem e perdendo assim capacidade preditiva, pois tem mais erro ao generalizar. Por outro lado, se usarmos neurónios a menos podemos correr o risco de underfitting, i.e., o modelo terá demasiados erros e também irá perder capacidade preditiva. Deste modo e de acordo com diversos estudos realizados, para a grande maioria dos problemas e como regra geral, este número está entre um e sete.
24
Figura 13 - Exemplo de um MLP (Multilayer Perceptron)
Existem dois tipos de redes: com e sem realimentação. Nas redes sem realimentação, o sinal
percorre a rede apenas numa direção e os neurónios da mesma camada não estão ligados; nas
redes com realimentação o sinal percorre nos dois sentidos e os valores de saída de alguns
neurónios alimentam outros da mesma camada ou anteriores. Esta metodologia pretende
perceber quais os pesos que mais contribuíram para o erro gerado e ajustá-los por forma a
melhorar o modelo (Rojas, 1996).
Tkáč e Verner fizeram em 2016 um levantamento das diversas pesquisas relacionadas com as
Redes Neuronais entre 1994 e 2015, tendo identificado 412 artigos publicados (Figura 14). Mas
mais importantes que o número de artigos são as suas áreas de referência. Conforme
podemos observar na Figura 15, as publicações têm-se focado em problemas financeiros e
falências no mercado financeiro, suporte à decisão e análise de crédito, i.e., em diversos
problemas complexos. Da análise dos tipos de redes neuronais referidas, verificou-se que
diversos tipos foram usados, mas o mais frequente foi o multicamada com apenas uma
direção.
O que se nota é que a resistência de usar as redes neuronais, gerada em parte pelo facto de
serem consideradas “caixas negras”, tem vindo a diminuir e, como tal, começa a haver cada
vez mais pesquisas e artigos com base nestas.
25
Figura 14 - Distribuição de artigos relacionados com Redes neuronais por ano (retirado de Tkáč e Verner, 2016)
Figura 15 - Distribuição de artigos relacionados com Redes neuronais por área (Retirado de Tkáč e Verner, 2016)
As redes neuronais têm sido usadas com sucesso para resolver muitos problemas de previsão,
especialmente o MLP (multilayer perceptron) (Zhang et al., 1998). Existem ainda outras
26
famílias de algoritmos, tais como: algoritmos genéticos, algoritmo de otimização baseado na
teoria da evolução; Fuzzy Set, algoritmos que lidam com a incerteza das variáveis (Bhardwaj,
2016) mas, não tendo sido usados neste projeto, optou-se por não se descrever os mesmos.
2.6.2. Os passos do processo de Data Mining
Qualquer processo de Data Mining tem que passar obrigatoriamente por alguns passos,
nomeadamente: recolha e seleção dos dados, limpeza e transformação dos dados, a
modelação propriamente dita e a validação dos resultados
• Recolha e seleção dos dados
Para se poder trabalhar sobre os dados é necessário, primeiramente, recolhê-los.
Considerando que é uma tarefa demorada e muitas vezes complexa, especialmente se
estivermos a falar de vários tipos de dados e/ou de fontes, muitas das empresas já
desenvolveram data warehouses para facilitar esta tarefa.
Depois, há que saber selecioná-los. Sabemos já que a informação duplica a cada 18 meses,
pelo que é necessário saber selecionar os dados. Estes devem ser relevantes para a tarefa
em mãos.
• Limpeza e transformação dos dados
A qualidade dos dados é fundamental para o sucesso de qualquer projeto de Data Mining
e esta qualidade normalmente depende muito da fonte e da sua natureza. Se
compararmos dados internos com dados de, por exemplo, redes sociais é fácil
compreender essa diferença. Os primeiros serão inevitavelmente mais precisos e
consistentes.
Por norma, esta fase é a mais demorada no projeto de Data Mining, podendo ocupar até
60% ou 70% do tempo total.
Alguns exemplos são:
o Remover duplicados: muitas vezes, pode receber-se a mesma informação de
fontes diferentes e quando se juntam diferentes fontes é necessário fazer essa
validação e remoção.
o Tratamento de valores omissos: O não tratamento dos valores omissos pode
afetar a capacidade preditiva do modelo, assim é necessário validar e definir como
tratar os valores omissos, sendo que para essa definição muito impacta quais as
variáveis afetadas e a quantidade de omissos. Existem para isso diversas formas,
desde a simples remoção dos registos com valores omissos à sua imputação com
valores médios ou de default, entre outros.
o Criação de novas variáveis: algumas variáveis podem ser combinadas por forma a
criar novas e assim diminuir o número total de variáveis. Por exemplo, o cálculo do
valor do saldo médio ao invés de vários valores ao longo do tempo.
o Transformação de variáveis continuas: algumas variáveis podem ser combinadas
em conjuntos para facilitar a análise, Por exemplo, o valor do rendimento pode ser
combinado em três conjuntos: alto, médio e baixo.
27
o Transformação de elementos para permitir a comparação: por vezes os diversos
elementos estão em escalas diferentes e é necessário transformá-los para a
mesma escala de modo a permitir a comparação. Dois exemplos simples são
comparar moedas (Euro versus Iene) ou escalas diferentes (Euro versus Milhares
de Euro).
o Valores extremos ou isolados (outliers): estes valores devem ser revistos e
possivelmente removidos.
o Deve-se garantir que a amostra é representativa do fenómeno que se irá estudar,
não havendo tendências (bias). Dados a menos, no todo ou em parte, podem
implicar na capacidade de previsão do modelo porque este fica demasiado
específico e perde a capacidade de generalizar.
• Validação dos resultados
Existem dois grandes tipos de processos de Data Mining: supervisionados e não
supervisionados. Nos supervisionados (grupo onde se encontra este projeto), constrói-se o
modelo com base em informação passada, por forma a prever eventos futuros. Assim
conseguimos validar quantos casos o nosso projeto classifica corretamente. Ou seja, por
norma dividem-se os dados da amostra em, pelo menos, 2 grupos (ainda se pode criar um
3º grupo): o primeiro grupo que serve de base para a aprendizagem e o segundo grupo
para validação. Este segundo grupo é constituído também por informação passada, logo
conseguimos dizer com toda a certeza quantos casos foram bem ou mal classificados,
construindo assim o que se chama matriz de confusão (Figura 16) e que afere a capacidade
de previsão/generalização do modelo criado.
Algumas medidas comuns são:
• Capacidade de Previsão = (VP+VN) / # de Predições Totais
• Erro = (FP+FN) / # de Predições Totais
• Precisão = VP / (VP+FP)
Figura 16 - Matriz de confusão (adaptado de Maheshwari, 2015)
28
Outras medidas de comparação são o Lift e o ganho. Ambas são medidas de efetividade do
modelo pois comparam os resultados obtidos com uma versão aleatória ou com o resultado de
outro modelo. São ainda ferramentas visuais importantes na escolha entre modelos e
permitem, adicionalmente, saber qual o ponto em que o modelo se torna menos útil, i.e., se,
por exemplo, ao analisar o gráfico verificamos que a campanha só irá ser efetiva em 70% do
nosso público alvo, podemos ajustar o nosso universo. O gráfico de ganhos está relacionado
com o do Lift mas incorpora o valor de lucro de cada modelo.
2.6.3. Metodologias
Nesta seção apresentam-se duas das metodologias mais usadas para a implementação de
projetos de Data Mining, CRISP-DM e SEMMA, indicando a que se irá usar neste projeto.
2.6.3.1. CRISP-DM
Esta metodologia foi criada em 1996, por um consortium originalmente composto pela
DaimlerChryrler (Daimler-Benz, na altura), SPSS (ISL na altura) e NCR, significando “Cross-
Industry Standard Process for Data Mining” (Ncr et al., 1999, p. 0). É composto por 6 fases
(Figura 17 e Figura 18) e tem como principal vantagem ser independente do setor e da
ferramenta de análise de dados utilizada.
Figura 17 - Fases da Metodologia CRISP-DM (adaptado de Wirth e Hipp, 2000)
29
(1) Análise e conhecimento do negócio
Será provavelmente a mais importante, pois uma incorreta análise pode colocar em causa
todo o projeto e, consequentemente, as suas conclusões. Pretende-se com esta fase inicial
entender o negócio do ponto de vista lógico, perceber qual o seu estado atual, objetivos e
necessidades e converter esse conhecimento em definições que possam ser usados no projeto.
(2) Compreender os dados
Nesta fase, realiza-se uma recolha e análise inicial de dados, por forma a nos familiarizarmos e
a entendermos os mesmos, para identificar problemas de qualidade de dados e tentar
descobrir os primeiros insights. Deve-se assim, recolher informação acerca dos dados, dos
campos, realizar alguma exploração e descrição dos mesmos e determinar se os dados que
temos disponíveis têm qualidade, são suficientes e adequados para a obtenção dos objetivos
definidos na primeira fase.
(3) Preparação dos dados
Nesta fase, com o conhecimento criado nas duas anteriores, é construído o dataset final para
análise. Nesta fase, que inclui todas as atividades até a obtenção do dataset final incluem-se,
entre outras, a seleção, integração, limpeza e transformação dos dados. Isto pode significar
perder atributos e/ou variáveis que se definiram como não importantes para a análise em
questão e criação de novos atributos ou métricas. Um exemplo de criação de novos atributos é
a transformação de atributos contínuos em categóricos.
(4) Modelação
Esta fase divide-se em quatro subfases: a seleção das técnicas de modelação; a geração do
design de teste; a criação do modelo e a avaliação do mesmo.
Normalmente, esta avaliação faz-se comparando os resultados dos diversos modelos
escolhidos face ao conhecimento do negócio e aos objetivos definidos.
(5) Avaliação do modelo
Nesta fase é realizada uma avaliação mais detalhada, realiza-se uma revisão ao processo e
determina-se, caso necessário, os próximos passos.
(6) Implementação
Esta é a ultima fase e é onde planificado e realizado o processo de implementação do modelo.
Como última tarefa deve-se ainda realizar uma revisão do projeto total, onde devem ser
identificados os pontos positivos e negativos, bem como os de melhoria a implementar no
futuro e realizar o relatório final (Shearer, 2000).
30
Figura 18 - Fases da Metodologia CRISP-DM (adaptado de Wirth e Hipp, 2000)
2.6.3.2. SEMMA
SEMMA (Sample, Explore, Modify, Model and Assess) foi desenvolvido pela SAS e a grande
diferença (desvantagem para alguns) em relação à metodologia CRISP-DM, é deixar de fora o
entendimento do negócio e focar-se mais na modelação dos dados. Foi desenhado para ser
usado especificamente com o SAS Enterprise Miner, que é o software utilizado neste trabalho
de projeto e, como tal, será esta a metodologia usada. Tem, tal como o nome indica, 5 fases:
- Sample (Amostra) – Esta etapa consiste na criação e categorização de uma amostra dos
dados, sendo que esta deve ser pequena o suficiente para manipular rapidamente, mas conter
informações suficientes e ser representativa da amostra total;
- Explore (Explorar) – Nesta etapa dá-se uma exploração dos dados, procurando ligações e
tendências com o intuito de tentar compreender os mesmos;
- Modify (Modificar) – Esta etapa consiste em modificar os dados, retirando variáveis que não
trazem valor acrescentado e/ou criando novas para incorporar a lógica de negócio e aumentar
o poder preditivo;
- Model (Modelar) – Nesta etapa modelam-se os dados e, para tal, devemos selecionar e
aplicar o melhor modelo para a situação em causa;
- Assess (Verificar) - Esta etapa consiste na avaliação dos resultados obtidos.
2.6.3.3. CRISP-DM versus SEMMA
Numa primeira abordagem, se compararmos a metodologia SEMMA com a CRISP-DM,
podemos até dizer que são equivalentes. No entanto, se analisarmos as duas com mais
atenção e as comparamos verifica-se que a metodologia CRIS-DM dá uma importância
particular a compreensão do negócio, enquanto a metodologia SEMMA é mais baseada nos
31
dados. Sendo esta uma das principais razões que originou a utilizou a utilização desta
metodologia neste trabalho.
Podemos verificar na Tabela 2 um resumo das correspondências.
Tabela 2 – Resumo das correspondências entre SEMMA e CRISP-DM
(adaptado de Azevedo e Santos, 2008)
2.6.4. Exemplos de aplicações de Data Mining no setor financeiro
No Setor Financeiro existem inúmeras tarefas que podem ganhar com a utilização de técnicas
de Data Mining, nomeadamente gestão de risco de crédito, segmentação de clientes, retenção
de clientes, deteção de fraudes e deteção de lavagem de dinheiro. Segundo Maditinos e
Chatzoglou (2004), este é um dos sectores onde mais se usam redes neuronais para previsão.
Malhotra e Malhotra realizaram em 2003 um estudo sobre a avaliação de crédito pessoal com
redes neuronais, em que avaliaram empréstimos de 12 entidades bancárias (Credit Unions).
Nesse estudo, composto por 1078 observações e 6 variáveis: (1) se tem ou não casa própria,
(2) há quantos anos vive na casa, (3) se tem ou não cartão de crédito, (4) rácio entre o total de
pagamentos e o (5) rendimento e o rácio entre o total de dívidas e o (6) rating do crédito, foi
utilizado um modelo com back propagation, tendo conseguido obter uma melhoria de 5% na
identificação de maus empréstimos e de cerca de 1% nos bons.
Hormozi & Giles no seu artigo em 2004, referem o Data Mining como uma arma na
competição entre Bancos e indicam como utilizações:
• O Marketing, onde o Data Mining pode identificar grupos de clientes, agrupando-os por
interesses, rendimentos ou hábitos de consumo, por forma a identificar quais os produtos
a oferecer aos clientes;
• A Retenção de Clientes, onde se poderá identificar quais os clientes em que existe risco de
perder;
• A gestão de risco, onde se considera risco não apenas a fraude, mas também a
competição;
32
• Aquisição e retenção de clientes.
Segundo Bhasin (2006), factores como a redução do custo de armazenamentos de dados, a
criação de melhores processadores a custos também mais reduzidos e o desencolvimentos de
mais e melhores algoritmos, fazem com que as empresas olhem com cada vez mais interesse
para o Data Mining. Atualmente, este começa a ser reconhecido como ferramenta de suporte
à decisão, que pode ajudar a criar novas oportunidades de negócio, a servir melhor os clientes
e a aumentar a efectividade da organização. Refere ainda que a criação da Banca Online e a
sua aceitação e utilização cada vez mais generalizada, vieram facilitar a recolha de dados para
tratamento e análise. Mas, por outro lado, e devido ao aumento dessa quantidade de
informação, há uma maior dificuldade na análise e é assim necessária a implementação de
técnicas que permitam análises de grandes quantidade de dados em pouco tempo. O autor
identifcas as seguintes areas/actividades como as que têm principalmente a ganhar com a
utilização de técnicas de Data Mining.
• Marketing, a capacidade de usar os dados para identificar as necessidades individuais de
cada cliente, por forma a oferecer o produto certo, i.e., os produtos que os clientes
realmente querem e necessitam;
• Cross-Selling, utilizar o conhecido adquirido para aumentar a carteira de produtos detidos
pelo cliente e, consequentemente, a sua retenção;
• Gestão de Risco, identificar créditos em risco de incumprimento e utilizar o credit scoring
como apoio à decisão;
• Deteção de Fraudes, que começa a ser cada vez mais uma preocupação das entidades
bancárias e identifica duas abordagens diferentes: (1) fazendo a ligação com a base de
dados de um terceiro e, após análise das tendências desta, compara-as com as da sua base
de dados e (2) utilizando apenas dados internos;
• Aquisição e retenção de clientes, identificar novos clientes e quais os clientes atuais em
risco de saírem.
Yeh e Lien realizaram, em 2009, uma comparação entre diversas famílias de algoritmos com o
objetivo de prever a possibilidade de contas de cartão de crédito entrarem em incumprimento.
Concluiriam que entre as 6 famílias que testaram - K-Nearest Neigbor, Regressão logística,
análise discriminante, Naı v̈e Bayesian, Árvores de Decisão e Redes Neuronais - foram estas
últimas que obtiveram os melhores resultados. Dizem ainda que é preferível calcular a
probabilidade do cliente entrar em incumprimento ao invés de classificar o crédito apenas,
como em risco ou não. Consideram portanto, que as redes neuronais devem usadas para
realizar scoring ao invés das outras técnicas.
Em 2009, Martinez, da Hora, Palotti, Meira e Pappa realizaram um estudo com duas ações na
bolsa de BM&FBOVESPA (Bolsa de Valores, Mercadorias e Futuros de São Paulo). A intenção
era criar um sistema de day-trading e compará-lo com os que estavam implementados na
altura. Assim, a rede neuronal tinha alguns dados históricos (últimos valores de abertura e
fecho, valores mais altos e mais baixos dos últimos dias) e recebia, a cada 15 minutos, o valor
de mercado dando um conselho de como agir (comprar ou vender). O resultado das redes
33
neuronais teve cerca de 50% menos erros que os outros métodos existentes, duplicando o
capital do investidor.
Ainda em 2009, Bakar & Tahir compararam duas técnicas (Redes neuronais e Regressão linear)
para tentar prever a performance de 13 Bancos Malásios, usando para tal dados entre 2001 e
2006. Concluíram que a rede neuronal obtinha os melhores resultados, apesar de se perder a
capacidade de explicação.
Pulakkazhy e Balan (2013) identificam como áreas onde o sector bancário tem usado técnicas
de Data Mining:
• Gestão de Risco e de Incumprimento - como forma de fazer Credit Scoring e de identificar
quais os créditos que vão entrar em incumprimento;
• Marketing - na gestão do cliente, por forma a analisar o comportamento dos clientes e
equipar o Banco do conhecimento dos fatores que influenciaram o cliente no passado e
das suas necessidades futuras;
Na segmentação dos clientes, por forma a criar campanhas orientadas ao segmento e no
Cross-selling por regras de associação;
• Deteção de Fraudes - os Bancos perdem anualmente milhões devido a fraudes,
especialmente em movimentos em cartões de crédito. Assim, e como forma de mitigar
estes movimentos, deve-se analisar e identificar os que saem dos padrões conhecidos e
auditar esses movimentos.
• Lavagem de dinheiro - com o aumento da legislação sobre o assunto é necessária a
implementação de métodos cada vez mais robustos e rápidos para identificar estes
movimentos pois de outro modo as entidades bancárias incorrem em multas avultadas.
Na publicação, os autores identificam algumas das famílias de algoritmos que usam: K-Means,
Árvores de Decisão, Regressão Logística e Redes Neuronais são as mais usadas.
Chitra e Subashini (2013) identificam o Data Mining como um fator de suporte à decisão cada
vez mais estratégico nas empresas, especialmente considerando que começa a haver, na
opinião dos autores, a mudança de foco da aquisição de novos clientes para a sua retenção e,
como tal, é necessário saber identificar quais os clientes mais e menos rentáveis. Referem três
grandes utilizações (Figura 19):
• A retenção de clientes, onde usam Árvores de Decisão para classificar os clientes como
“seguros” e “não seguros”. Após esse passo, tentam identificar quais os motivos que estão
a causar a saída do cliente, por forma a agir proactivamente, tentando evitar a perca
destes.
• A prevenção de fraudes, na aprovação automática de cartões de crédito, usando para tal
três famílias diferentes: Árvores de decisão, suport vector machines e regressão logística;
• A deteção de fraudes, fazendo clustering das transações para identificar os padrões e
analisando os movimentos que não se enquadram nestes.
34
Figura 19 - A utilizações do Data Mining no sector bancário
(adaptado de Chitra e Subashini, 2013)
Jahnavi e Katyayani (2014) indicam como utilização do Data Mining:
• No Marketing, para determinar o comportamento do consumidor em referência ao
produto, preço e canal de distribuição e, desta forma, analisar as melhores formas de
promover os produtos, de melhorar a qualidade do mesmo e o serviço prestado como
forma de ganhar vantagem competitiva.
Analisar histórico como forma de detetar tendências futuras e antecipar comportamentos.
Segmentar clientes, por forma a identificar os clientes rentáveis ou não rentáveis.
Cross-Selling, identificando as necessidades dos clientes e oferecendo produtos por forma
a aumentar a carteira de produtos detidos, fomentando a retenção desses.
• Na Gestão de Risco, por forma a analisar a carteira de crédito e agir proativamente nos
que forem identificados como problemáticos.
• Na Gestão de Portfólio, como forma de aplicar capital entre diversos instrumentos para
maximizar o retorno.
• Na Deteção de Fraudes e Lavagem de dinheiro, de forma a analisar os movimentos para
detetar os que poderão ser fraudulentos ou provenientes de lavagem de dinheiro e agir
proativamente, por exemplo não autorizando esses movimentos ou bloqueando mesmo as
contas de crédito associadas.
• Na Retenção de Clientes, por forma a identificar quais os clientes leais e quais os que irão
mudar de Banco, por forma a proativamente contactá-los, aumentando assim a taxa de
retenção e de rentabilidade dos mesmos.
• Nas Taxas de Câmbio, a estabilidade das taxas tem um papel importante no balanço de
muitas economias e/ou empresas. Assim, pode-se analisar os padrões históricos das taxas
e tentar antever situações em que estas saiam dos intervalos ideais para, novamente, se
poder atuar proativamente.
• No Trading, tal como na gestão de portfólios, estimar os melhores investimentos no curto
prazo, por forma a maximizar o lucro.
35
Um outro estudo, de Moro, Cortez, e Rita (2014), realizado numa entidade Bancária
Portuguesa - onde o problema era a otimização de uma campanha de telemarketing para a
subscrição de um depósito a longo prazo -, considerou dados entre 2008 e 2013, com um total
de 52.994 registos. Entre os quatro modelos comparados (Regressão, Árvores de Decisão,
Redes Neuronais e Support Vector Machines), os melhores resultados foram obtidos pelas
redes neuronais, com uma melhoria de 29% versus o praticado na altura.
Ainda em 2014, Chen, Han, Hu, Lu, e Sun tendo como problema saber se um cliente subscreve
ou não um deposito a termo, compararam a capacidade de previsão de 4 modelos (Regressão
Logistica, Rede Neuronal, Árvore de decisão e K-NN). Os dados usados são de acesso publico7 e
dizem respeito a uma entidade do setor bancario português, datados entre maio de 2008 e
novembro de 2010. Concluiu-se que o melhor modelo foi o da rede neuronal, neste caso
usando uma rede neuronal com backpropagation, testando 275 combinações de parâmetros
diferentes (número de camadas, rácio de convergência, diferentes valores iniciais de peso,
entre outros) com um máximo de 500 interações.
Thapliyal, (2015) refere como utilizações de Data Mining:
• No Marketing, analisar as tendências para tentar prever a procura e o comportamento dos
clientes e ainda identificar os clientes mais e menos rentáveis;
• No Cross-Selling, identificar quais os produtos que se devem tentar propor aos clientes,
por forma a aumentar os produtos detidos pelos clientes e, consequentemente, a sua
retenção;
• Na Gestão de Risco, identificar os clientes com maior risco para se poder atuar
preventivamente e assim diminuir o risco na sua globalidade; deteção de fraudes,
identificar de forma proativa os movimentos fraudulentos, por exemplo nos cartões de
crédito dos seus clientes, diminuindo o risco e aumentando o valor percebido e a
satisfação do cliente e consequentemente a sua retenção;
• Na aquisição e retenção de clientes, não só permite identificar novos clientes, como
permite identificar os clientes que estamos em risco de perder e assim agir
proactivamente na sua retenção.
Em 2017, Batmaz, Danışoğlu, Yazıcı, e Kartal-Koç, compararam 7 algoritmos diferentes, tendo
como objetivo a identificação de qual destes se comportava melhor na identificação das taxas
de depósito num Banco na Turquia. Para tal usaram dados entre janeiro de 2010 e julho de
2012. Os três mais bem-sucedidos foram: MARS, Redes neuronais e Árvores de Decisão.
O artigo de Zhuang, Zhang, Yan e Liu (2016), acerca da utilização de Data Mining para melhorar
as campanhas de marketing de um Banco tem grande importância para este projeto. Não só
7 http://archive.ics.uci.edu/ml/datasets/Bank+Marketing
36
porque o Banco em causa é português, como indica explicitamente todas as variáveis usadas.
Especificamente, este artigo procurar melhorar o resultado de uma campanha de subscrição
de um depósito, usando para tal três modelos diferentes: Support vector machines, Árvores de
decisão e gradient descent.
Zhuang, Zhang, Yan e Liu usaram como base para a sua análise 17 campanhas ocorridas entre
maio de 2008 e novembro de 2010 e 17 variáveis divididas em três grupos: (1) dados do
cliente, (2) informação do último contacto na campanha e (3) outros dados de contacto em
campanhas. O DataSet incial era de 79.354 registos; no entanto, optaram por retirar os
registos com valores em falta, resultando assim num DataSet final de 45.211 registos.
As variáveis escolhidas foram:
1. Dados do Cliente
• Idade
• Trabalho (Tipo de Trabalho)
• Estado Matrimonial (Casado, Divorciado, Solteiro)
• Educação (Desconhecido, Secundário, Primário, Superior)
• Default (se tem valores em incumprimento)
• Saldo (valor médio anual do saldo – em euros)
• Se tem casa propria (sim/não)
• Se tem empréstimos (sim/não)
2. Informação do último contacto na campanha
• Canal de Comunicação (Desconhecido, telefone fixo, telefone móvel)
• Mês do último contacto
• Duração (duração do contacto em segundos)
3. Outros dados de contacto em campanhas
• Número de contactos nesta campanha
• Número de dias passados desde o contacto na companha anterior (-1 se não tiver
sido contactado)
• Número de contactos desde sempre a este cliente
• Variável target: se subscreveu o deposito (sim/não)
Os autores usaram como método de comparação entre modelos o erro médio entre o falso
positivo e o verdadeiro positivo, conseguindo atingir o melhor resultado com as Árvores de
decisão: 15%.
Verifica-se ao longo do tempo um incremento da utilização do Data Mining no sector bancário
e uma evolução nas suas utilizações. Cada vez mais empresas do sector financeiro têm usado
técnicas de Data Mining para identificar ofertas para oferecer aos clientes, por forma a
fomentar o cross e up-selling e aumentar a retenção dos clientes (Hormazi & Giles, 2004)(Hu,
2005) (Van den Poel & Lariviere, 2003).
37
Atualmente, o Data Mining tem um papel obrigatório em muitas organizações. No atual
cenário, uma entidade bancária gera grandes volumes de dados e é crucial que os utilize em
prol da retenção do cliente, deteção e prevenção de fraudes, análise de risco e gestão de
marketing (Preethi & Vijayalakshmi, 2017).
2.7. SATISFAÇÃO, FIDELIZAÇÃO E CROSS-SELLING
Não sendo objeto deste trabalho o estudo ou a avaliação destes conceitos, estes são peças
fundamentais nas empresas. Atualmente, a competitividade das empresas é grandemente
determinada pela sua capacidade de satisfazer as necessidades dos seus clientes da melhor
maneira possível. Isto significa fornecer ao cliente os produtos ou serviços que vão ao
encontro das suas necessidades, seja a nível temporal, de qualidade e de preço (Rogalewicz &
Sika, 2016).
Um estudo realizado em 2014, no sector de serviços da Malásia, sustenta que uma boa
qualidade de serviço, pode causar um aumento no valor percebido e na confiança depositada,
logo conduzir a um incremento de clientes fidelizados. Sendo que é genericamente aceite que
um incremento no valor percebido pode ser uma vantagem competitiva para a empresa
(Rasheed & Abadi, 2014).
A satisfação do cliente é a peça central do conceito do Marketing (Fournier & Mick, 1999). No
entanto, essa satisfação reflete o julgamento individual da pessoa entre o valor percebido e a
expetativa criada (Kotler & Keller, 2012). Esse julgamento pessoal depende de muitos fatores,
entre eles a relação existente (lealdade) com a entidade, pois é mais natural criar sentimentos
positivos com uma marca com a qual já existe uma relação de confiança (Kotler & Keller,
2012). Como referido pelo mesmo autor, obter clientes leais é a chave para qualquer negócio.
É preciso realçar que a ligação entre um cliente satisfeito e um cliente fidelizado não é linear
(Kotler & Keller, 2012). No entanto, um cliente altamente satisfeito permanecerá leal mais
tempo, comprará mais, gerará publicidade positiva, será menos sensível a propostas
concorrentes, quer a nível de preço ou de produto e custa menos a ser atendido (Kotler &
Keller, 2012).
Ouvir os clientes é fundamental à relação da empresa com estes (Kotler & Keller, 2012),
podendo-se ainda criar programas de fidelização onde se recompensam clientes mais
frequentes ou com valores mais altos, como outra forma de criar uma relação com estes.
Um estudo realizado sobre a ligação entre cross-selling e fidelização indica que esta é muito
importante antes de se realizar cross-selling, pois o objetivo deve ser sempre a satisfação do
cliente e o seu valor percebido e não apenas a venda (Drèze & Bonfrer, 2008). Adicionalmente,
o mesmo estudo indica que as estratégias de cross-selling não devem focar-se apenas em
quantos produtos o cliente tem, mas sim em diferentes tipos, i.e., diversificar a carteira do
cliente.
Desde há muito, esta tem sido identificada como uma estratégia efetiva para o aumento de
retenção dos clientes (Drèze & Bonfrer, 2008) e está intimamente ligada ao aumento de
vendas (Zboja & Hartline, 2012). É importante notar que grande parte dos clientes de uma
38
instituição bancária, normalmente utiliza apenas um ou dois serviços dessa instituição (Knott,
Hayes, & Neslin, 2002).
Mack (1997) indica haver quatro razões fundamentais para a prática de cross-selling: (1) o
facto de querer fazer cross-selling, obriga a uma análise das coberturas de cada cliente,
permitindo criar recomendações específicas para cada um; (2) a retenção de clientes com
cross-selling aumenta em 61% comparativamente com os que não tem; (3) clientes com cross-
selling geram mais 31% de receitas que os que não têm; (4) os agentes têm mais hipóteses de
vender a um cliente existente do que a um novo cliente (Mack, 1997).
Na perspetiva do cliente, Soureli, Lewis e Karantinou, no seu artigo em 2008, indicam que a
intenção de cross-buy do cliente não depende de apenas um aspeto, mas sim de 4: (1)
Imagem, (2) Confiança, (3) Satisfação e (4) Valor percebido.
K.-N. Lau, Chow e Liu (2004) referem os 5 principais objetivos do Marketing no setor bancário:
(1) cross-selling, (2) retenção de clientes, (3) aumentar a utilização, (4) compra ou subscrição
de novos produtos e (5) custos/qualidade de serviço. Li, Sun e Wilcox (2005) examinaram
padrões entre clientes bancários e sugeriram, com base no seu estudo empírico, que o melhor
target para cross-selling são homens, com maior nível de educação e maior rendimento.
Rosen (2004) aponta 5 pontos principais para as estratégias de cross-selling falharem: (1)
Compreensão do risco, (2) Gestão de Informação, (3) Formação, (4) Coaching e (5) Motivação.
“Cross-selling has become, for many banks and financial institutions,
the equivalent of losing weight or exercising. Everybody wants to do
it, spends a lot of time and energy planning to do it, but, at the end of
the day, the results fall far short of the goal” (Rosen, 2004).
“Cross-selling happens only when we thoroughly understand the
banking needs of the customer. This identification of needs is a
function of the degree of customer relationship” (KV Kamath et al., 2003).
“Marketing Is Dead, and Loyalty Killed It” (Jutkowitz, 2015)
2.8. NEXT BEST OFFER
E se a organização conseguisse antecipar a necessidade do cliente, antes mesmo deste saber
dessa necessidade? Ou simplesmente, dar uma resposta no momento de um pedido de um
produto de crédito? Ou ainda propor-lhe produtos em campanha que são da sua necessidade
e não apenas porque faz parte do segmento alvo. Não aumentaria a sua satisfação e a sua
retenção? E, consequentemente, também a sua rentabilidade?
Enquanto no modelo atual de campanhas no sistema bancário, os clientes são selecionados
pelo seu valor para serem alvo da comunicação de um produto específico, o modelo Next Best
Offer, doravante NBO, seleciona o melhor produto para satisfazer as necessidades do cliente
39
(Lau, Sheila Wong, Margaret Ma & Connie Liu, 2003). Esta visão centrada no cliente baseia-se
na compreensão das suas necessidades, objetivos e valores para a tomada de decisão e é uma
vantagem competitiva face às outras entidades bancárias.
O conceito de NBO não é recente. É uma abordagem diferente, significa conhecer e
compreender o cliente por forma a antecipar as suas necessidades. A questão é que no
passado isso significava que alguém teria de pessoalmente procurar essa informação o que por
si não é um problema quando falamos de um negócio convencional, com umas dezenas de
clientes, como numa loja de bairro onde a pessoa da loja conhece os seus clientes pelo nome e
sabe as suas preferências. No entanto, tal deixa de ser possível quando falamos de lojas com
um grande número de clientes. É aqui que entra a tecnologia, como capacitador.
Lau, Wong, Ma e Liu (2003) relatam, na sua publicação, a implementação do primeiro sistema
NBO em Hong Kong e, entre os diversos passos de implementação do seu projeto (Figura 20),
referem quatro componentes principais: (1) compreender os clientes - o desafio não é obter
informação acerca do cliente mas usar essa informação da melhor forma; (2) tratamento dos
dados - o desafio aqui é o tratamento, standardização, classificação e reorganização dos dados,
para que estes possam ser utilizados; (3) integração com os objetivos da entidade - identificar,
alinhando com os objetivos da entidade, qual o produto que dever ser oferecido, com que
características e através de qual canal; (4) feedback - de forma a monitorizar o sistema, deve
ser criado um sistema de feedback para analisar as respostas dos clientes e, se necessário,
redefinir ou afinar a estratégia.
Figura 20 - Os diversos passos do processo da implementação do projeto (adaptado de K. Lau, Wong, Ma e Liu (2003)
A implantação de um modelo NBO implica a criação e implementação de um conjunto de
modelos preditivos (1 para cada produto ou família de produto alvo) e selecionar para cada
cliente o(s) produto(s) com maior taxa de propensão. Efetivamente, um modelo de NBO serve
para dois fins: (1) utilizar os modelos individuais como suporte à criação de campanhas de
40
orientadas a produtos; (2) utilizando o score das propensões dos produtos por forma a
oferecer ao cliente o(s) produto(s) mais orientados as suas necessidades.
Idealmente dever-se-iam conjugar a melhor ação, o melhor produto, com o melhor canal e
com a melhor altura, que é a definição de “Next Best Action”. A melhor ação pode ser um
contacto relacional, pode ser enviar uma mensagem por app. O que é importante é que todas
as mensagens vindas do Banco sejam no mesmo sentido e contextualizadas. Isto é
especialmente importante quando o Banco de Portugal já autorizou aberturas de contas por
videoconferência (“Banco de Portugal,” n.d.), pois indica que o caminho a seguir é cada vez
mais o afastamento do meio de contacto tradicional (deslocação ao balcão) e o incremento
dos canais digitais. A interação com o Banco deve ser uma experiência consistente
independentemente do meio de acesso (Agência, Contact Center, ATM, Mobile, On-Line) e
este deve oferecer uma experiência contextualizada, orientada e com relevância por forma a
fomentar o relacionamento e a satisfação.
41
3. CASO DE ESTUDO - O GRUPO CRÉDITO AGRÍCOLA
O presente capítulo pretende fazer uma resenha histórica do Grupo Crédito Agrícola e uma
breve caracterização atual do mesmo. A informação histórica foi recolhida no site institucional.
3.1. HISTÓRIA DO GRUPO CRÉDITO AGRÍCOLA
A origem das Caixas de Crédito Agrícola está associada à Santa Casa da Misericórdia, fundada
em 1498 sob a égide da Rainha D. Leonor e aos celeiros comuns criados em 1576 por D.
Sebastião.
Em 1778, a Misericórdia de Lisboa foi a primeira a conceder empréstimos aos agricultores.
Tendo o exemplo sido seguido por outras Misericórdias, gerando a decisão do Ministro das
Obras Públicas, Andrade Corvo, de publicar em 1866 e 1867 leis orientadas para a
transformação das Confrarias e Misericórdias em instituições de crédito agrícola e industrial
(Bancos Agrícolas ou Misericórdias-Bancos).
Por outro lado, os Celeiros Comuns, fundados por iniciativa particular ou por intervenção dos
Reis, dos municípios ou das paróquias, constituíam, desde o século XVI, estabelecimentos de
crédito destinados a socorrer os agricultores em anos de escassa produção, através de um
adiantamento em género (sementes) mediante o pagamento de um determinado juro,
também liquidado em géneros. A importância dos Celeiros Comuns foi diminuindo com o
aumento das taxas de juro, pelo que, em 1862, avançou-se para a sua reforma, no sentido de
substituir gradualmente a forma de pagamento – de géneros para monetária – para um
funcionamento pleno como instituições de crédito.
Coube ao Ministro do Fomento Brito Camacho fundar o verdadeiro Crédito Agrícola, por
decreto a 1 de março de 1911, mas seria através da Lei n.º 215, de 1914, regulamentada em
1919 pelo Decreto n.º 5219 que, finalmente, ficaram definidas as atividades das Caixas de
Crédito Agrícola Mútuo.
Nos anos 20, o número de Caixas de Crédito Agrícola Mútuo aumentou, graças ao esforço de
inúmeros agricultores, mas a crise bancária e económica dos anos 30 provocou uma
estagnação no ritmo da evolução e a consequente passagem das Caixas para a tutela da Caixa
Geral de Depósitos.
A transformação do sistema político português, a partir de abril de 1974, contribuiu para o
aparecimento de um movimento das Caixas existentes no sentido de se autonomizarem,
expandirem a respetiva implantação e alargarem a atividade, à luz do modelo de
desenvolvimento do crédito agrícola mútuo em muitos países europeus.
Esse movimento acabaria por resultar na criação, em 1978, da Federação Nacional das Caixas
de Crédito Agrícola Mútuo – FENACAM, cuja missão central era o apoio e representação,
nacional e internacional das suas Associadas.
Em 1982, com a publicação do Decreto-lei nº 231/82 – que incluí, em anexo, um Regime
Jurídico Específico para o Crédito Agrícola Mútuo – as Caixas deixaram de estar sob alçada da
Caixa Geral de Depósitos, prevendo-se a criação de uma Caixa Central, orientada para regular a
42
atividade creditícia das Caixas suas associadas, que acaba por ser criada dois anos depois – a
20 de junho de 1984.
Já em 2015, e com mais de um século de história, o Grupo Crédito Agrícola é galardoado com
seis distinções em diversas áreas: banca, seguros e fundos de investimento.
O Banco foi considerado, pela revista britânica The Banker no seu estudo “Top 1000 World
Banks”, o terceiro mais sólido a operar em Portugal e o primeiro de capitais exclusivamente
nacionais.
O Prémio Cinco Estrelas 2015, promovido pela U-Scoot com base num estudo de mercado
realizado pela Ipsos APEME, foi atribuído ao Crédito Agrícola na categoria “Banca, serviço de
atendimento ao cliente”.
A CA Seguros, a seguradora não vida do Grupo Crédito Agrícola, foi eleita, pela quinta vez,
como a Melhor Seguradora Não Vida do seu segmento. Esta distinção resulta de um estudo
realizado pela revista EXAME em parceria com a Deloitte e com a Informa D&B.
O Fundo de Investimento Mobiliário Aberto de Obrigações CA Rendimento, gerido pela Crédito
Agrícola Gest – Sociedade Gestora de Fundos de Investimento Mobiliário, S.A. (CA Gest), foi
distinguido com o prémio “Gestão Nacional de Organismos de Investimento Coletivo”, na
categoria “Fundos de Obrigações de Taxa Indexada”. Trata-se de um prémio da autoria da
Associação Portuguesa de Fundos de Investimento, Pensões e Patrimónios (APFIPP) e do Diário
Económico. O CA Monetário foi, também, considerado pela APFIPP, pelo sexto ano
consecutivo, como o fundo mais rentável na classe “Fundos de Mercados Monetários Euro”. A
mesma entidade distinguiu, ainda, o CA Flexível, como o fundo que apresentou a melhor
rentabilidade em 2014, na categoria “Fundos Flexíveis”.
3.2. CARACTERIZAÇÃO DO GRUPO CRÉDITO AGRÍCOLA
O Crédito Agrícola é um grupo financeiro cooperativo enraizado nas comunidades locais, onde
os membros são simultaneamente clientes e donos, tendo controlo democrático e estando
envolvidos nas decisões. Contrapondo, a banca comercial que tem como principal objetivo
maximizar o lucro, a banca cooperativa tenta maximizar os membros/clientes bem-estar e
providenciar o melhor serviço possível (Ferreiro, Lagoa, & Pina, 2014).
É uma instituição que valoriza o relacionamento com o cliente, orientada para a participação
no desenvolvimento socioeconómico de todo o país, suportada pela atuação de cada uma das
suas caixas a nível regional, num equilíbrio entre a captação de poupanças e a concessão de
crédito às famílias e empresas, e no apoio às Instituições sem fins lucrativos, destacando-se
simultaneamente na missão de contribuir em diversos níveis – económico, social, cultural e
desportivo – para o progresso das comunidades locais em que é instituição de referência.
O Crédito Agrícola conta atualmente com uma rede de 82 caixas e mais de 660 balcões,
distribuídos por todo o território nacional. Cada caixa é um banco local que controla 1 ou mais
balcões na sua área de influência, com autonomia de decisão e de gestão. Existe ainda uma
entidade a nível nacional que tem competências de supervisão, orientação e
acompanhamento das Caixas, criando e desenvolvendo uma estratégia financeira e agindo,
43
simultaneamente, como Banco Universal em concurso com os maiores Bancos Portugueses. Os
Órgãos Sociais da Caixa Central são compostos por um Conselho de Administração Executivo
que é atualmente constituído por cinco administradores nomeados. Trata-se de um órgão que
dirige 26 departamentos/gabinetes, indicado pelo Conselho Geral e de Supervisão, onde estão
representadas nove Caixas de Crédito Agrícola Mútuo. (CA | Caixa Central)
44
4. MODELO PRÁTICO DESENVOLVIDO
Como já referido, pretende-se com este projeto a conceção e implementação de um modelo
preditivo por forma a identificar um conjunto de clientes de elevada propensão à
contratualização de um crédito pessoal em uma campanha, avaliando o desempenho deste
modelo face ao modelo tradicional de definição de clientes alvo.
Ou seja, iremos desenvolver um modelo de previsão, baseado em dados reais de contratação
de crédito pessoal e iremos aplicar esse modelo ao conjunto de todos os clientes (elegíveis
para o efeito) do banco, por forma a definir um subconjunto de clientes com a maior
propensão de contratação. A taxa efectiva de concretização deste subgrupo será confrontada
com a taxa de concretização do subgrupo de clientes obtido pelo modelo tradicional, i.e.,
comparou-se com os resultados de uma campanha igual e real.
4.1. TAREFAS REALIZADAS
Primeiramente é necessário definir as tarefas a realizar:
• Definir o que consideraremos como cliente bancário;
• Definição de campanha e forma de acompanhamento da mesma;
• Definição do que será considerado como variável target;
• O que consideramos como valor de custo e de lucro por contracto realizado;
• Quais as fontes, metodologia e ferramentas que irão ser usadas;
• O universo de amostra (lista de clientes), por forma a fazer a extração com as variáveis que
iremos identificar;
• O método de cálculo das variáveis e contexto temporal;
• Definir de todas as variáveis existentes nos DataMarts quais as consideradas relevantes
para o projeto e identificar outras que, não existindo ainda, consideremos igualmente
importantes e que possam ser criadas;
• Criar o modelo preditivo;
• Realizar a extração do universo de todos os clientes do Banco, elegíveis para a análise, com
as variáveis previamente identificadas e aplicar o modelo gerado, por forma a identificar
os que tenham o maior nível de probabilidade de concretização;
• Realizar a identificação e extração dos clientes alvo (e respetiva concretização)
identificados pelo método tradicional, da segunda campanha. Esta servirá como baseline
para comparação dos valores de concretização do modelo gerado.
• Comparar os resultados obtidos pelo modelo preditivo com o que foi gerado pelo modelo
tradicional.
45
• Definir o que consideraremos como cliente bancário
Importa, antes de começarmos a realizar recolha de dados, contextualizar a informação
necessária, i.e., definir o nosso universo de pesquisa bem como os dados que
consideramos relevantes para o projeto. Como tal, nada é mais fundamental do que a
definição do que se considerou como cliente bancário, ou seja, a nossa unidade.
Assim, e considerando que o produto base de um Banco é a conta de depósito à ordem,
para definição de cliente considerou-se o titular de conta DO (Depósito à Ordem). Excluiu-
se deste conjunto: clientes com crédito vencido, insolventes e com incidentes de crédito
em OIC’s.
• Definição de campanha e forma de acompanhamento da mesma
Campanha, para o projeto em estudo, é um espaço de tempo definido e limitado (com
início e fim) onde é dado especial enfoque pela área comercial na comercialização de um
determinado produto. Adicionalmente, como suporte à venda, é criado atualmente uma
lista de clientes com maior apetência ao mesmo. As campanhas são acompanhadas,
naturalmente, pela sua taxa de concretização.
No caso deste projeto, e visto que o que pretendemos é validar se a lista de alvos obtida
pelo processo preditivo tem mais, menos ou igual taxa de concretização, iremos limitar o
acompanhamento da campanha às listas de alvos gerados (pelo modelo preditivo e pelo
método tradicional).
Doravante, iremos chamar campanha 1 à campanha que utilizaremos para criar o modelo
e campanha 2 à campanha com que iremos realizar a comparação do nosso modelo.
• Definição do que será considerado como variável target
Considerando que se pretende aferir a concretização, considerou-se para a variável target
a contratação ou não, do produto no período da campanha.
• Definição do valor de custo e de ganho (lucro)
É difícil aferir um valor de custo considerando todos os fatores, sejam eles os custos
diretos, i.e., por exemplo o custo da chamada telefónica; o custo do fator humano, i.e., o
tempo usado por exemplo nas chamadas (in ou outbond) ou presencialmente com o
cliente; sejam as taxas de utilização do capital, para além dos outros custos mais
processuais. Visto não ser objeto deste estudo a aferição deste valor, considerou-se que
estes custos estavam incorporados na atividade normal do balcão, chegando-se assim a
um valor único de custo para todos os contractos de crédito.
46
Por forma a poder selecionar corretamente o melhor modelo é importante o cálculo do
lucro gerado. Assim, calculou-se o valor médio de juros pagos ou a pagar até à sua
maturidade (caso ainda esta ativo), de todos os créditos pessoais iniciados desde
01/01/2012, i.e., dentro do cenário da crise económica.
• Fontes, Ferramentas e Metodologia Utilizada
Como já referido, este projeto assenta em dados reais do Banco Crédito Agrícola, pelo que
foram realizadas extrações de dados dos DataMarts, i.e., dos repositórios de dados. Tendo
sido utilizado o SAS Enterprise Guide.
Adicionalmente: (1) visto que as ferramentas à disposição serem SAS, (2) por ser uma
metodologia que se baseia nos dados e nas relações entre eles em detrimento do
conhecimento, a priori, do problema e (3) visto o conhecimento deste ser diminuto optou-
se pela metodologia SEMMA, que assenta no SAS Enterprise Miner.
Será ainda utilizado o Microsoft Excel, para uma primeira análise descritiva dos dados e
como elo de ligação entre os dois programas SAS.
• Definir o universo de amostra (lista de clientes) por forma a fazer a extração com as
variáveis que iremos identificar;
Naturalmente parte deste universo terá de ser a lista de alvos identificados pelo método
tradicional para a campanha 1, visto que foram os que tiveram especial enfoque de
esforço de venda.
Adicionalmente, e por forma a tornar o modelo mais robusto e menos susceptível a
underfitting/overfiting ou mesmo a alguma tendência, identificaram-se todos os clientes
que, apesar de não terem sido alvo da campanha, demonstraram interesse no produto
durante o tempo da mesma, independentemente da contratualização ou não do produto.
Assim, a nossa amostra inicial é o conjunto destes dois grupos de clientes e é com base
nesta amostra que iremos gerar o modelo preditivo.
• Definição do tratamento inicial das variáveis e contexto temporal;
As variáveis que irão ser identificadas vão inevitavelmente cair em três tipos.
1. Variável de extração direta
Referimo-nos a variáveis como por exemplo o estado marital, onde não existe
tratamento a posteriori.
2. Variáveis de tratamento simples
47
Referimo-nos a variáveis como número de cartões de crédito ou saldo de crédito
usados nestes. O tratamento destas variáveis é a soma ou o count dos diversos
valores ou contractos ativos.
3. Variáveis de tratamento complexo
Referimo-nos neste caso a valores de saldo médio, onde é necessária uma
avaliação dos valores ao longo de diversos espaços temporais.
Para efeitos deste projeto as variáveis de tipo um ou dois, i.e., contextuais ou de
tratamento simples tem referência à data de início da respetiva campanha e as variáveis
de tipo três, tem como referência os valores de fecho dos seis meses anteriores ao início
da campanha.
Como exemplo, se a campanha tivesse início a 1 de julho, os dados de idade, estado
marital, número de cartões de crédito, etc., teriam referência a essa data e os dados de
valores médios, seriam calculados com valores de fecho dos meses de janeiro a junho.
Exta contextualização temporal das variáveis será realizada para os dados das duas
campanhas.
• Identificar todas as variáveis existentes nos DataMarts consideradas relevantes para o
projeto e identificar outras que, não existindo ainda, consideremos igualmente
importantes e que possam ser criadas;
Para a seleção inicial de variáveis usou-se o conhecimento pessoal e os artigos sobre a
aplicação de Data Mining no setor Bancário, como por exemplo o de Dejana, Marija e
Sonja (2014), o estudo sobre classificação dos clientes do Mellat Bank (Farid, Sadeghi,
Hajigol & Parirooy, 2016) e o de (Zhuang et al., 2016), entre outros.
Foram assim identificadas diversas variáveis de caracterização sociodemográfica, como por
exemplo: idade, antiguidade enquanto cliente, género, estado marital, vínculo laboral,
nível de educação, tipo de cliente, localidade de residência e variáveis económicas como
ciclo de vida, segmento, número de DO’s, número de Crédito Habitação, número de
Crédito Pessoal, número de cartões de crédito bem como o seu valor ativo para serem alvo
de extração.
Algumas destas variáveis, como por exemplo o estado marital, é uma variável de extração
direta, ou seja, não existe alteração nem tratamento da mesma no projeto de extração
nem de modelação
No entanto existem outras que obrigaram a cálculos: uns mais simples, como o número de
cartões de crédito, que é realizar o count e somar esse valor e outros são valores médios
ou seja, obrigaram a extrair os valores ao longo dos seis meses anteriores por forma a
conseguir-se calcular o valor.
48
No Anexo 1 estão indicadas e descritas todas as variáveis iniciais ou de extração direta e no
Anexo 2 estão indicadas e descritas todas a variáveis criadas no SAS Guide e que exigiram
cálculos. Pode-se ainda observar no Anexo 3 o projeto de SAS Guide usado para a
extração.
4.2. ANÁLISE DAS VARIÁVEIS
Como já referido, é necessário realizar algumas tarefas antes da criação do modelo preditivo.
• Seleção, Limpeza, Transformação e Análise Inicial das Variáveis
A qualidade dos dados é fundamental para qualquer projeto de Data Mining (Maheshwari,
2015). No caso em análise não existem registos duplicados pois isso foi previsto logo no
projeto de extração de dados, mas existem alguns valores missings que foram preenchidos
com os valores médios (nas variáveis intervalares) e pelos mais comuns/frequentes (nas
variáveis de classes), sendo esta uma das formas mais típicas de tratamento (Trianni,
2008)(Garcia, Luengo, & Herrera, 2015). Tendo em conta as variáveis e a quantidade de
missings em causa, considerou-se que este tratamento não acrescentava ruído (Bramer,
2016).
Adicionalmente, sendo a fonte um repositório central de dados, não existe o problema de
inconsistência, entre diversas fontes, sendo que todo o processo de ETL (Extract Transform
Load) já é realizado a montante.
Foi realizada ainda uma análise das variáveis para se verificar se alguma teria
características distintas. Para tal, compararam-se os 2 grupos (alvos e não alvos de
campanha) versus a concretização do contracto subjacente (variável target), não se tendo
obtido algum tipo de insight distintivo.
Essa análise foi realizada ao nível de diversas variáveis tais como idade, antiguidade,
tipologia e género de cliente, estado marital, vínculo laborar, tipo de residência, nível de
educação, segmento, entre outros.
No SAS Miner (Anexo 4), foram ainda criadas novas variáveis e realizada a categorização de
algumas variáveis contínuas, com o intuito de tentar facilitar/melhorar o posterior processo de
modelação, como por exemplo:
Patrimonio_Financeiro = Dep_Ordem_Avg + Dep_Prazo_Avg + Poupancas_Avg;
Responsabilidades_Amt = Cre_Habitacao_Avg + Outro_Créditos_Avg + Crédito_Pessoal_Avg + Crédito_Multiusos_Avg;
Patri_Liquido_Amt = Patrimonio_Financeiro - Responsabilidades_Amt;
49
Valor_Patrimonio_total = Patrimonio_Mob_Amt + Patrimonio_Imob_Amt;
Responsabilidades_Amt_Cod = "";
IF Responsabilidades_Amt = 0 THEN Responsabilidades_Amt_Cod = "1";
ELSE IF Responsabilidades_Amt > 0 AND Responsabilidades_Amt <= 2000 THEN Responsabilidades_Amt_Cod = "2";
ELSE IF Responsabilidades_Amt > 2000 AND Responsabilidades_Amt <= 5000 THEN Responsabilidades_Amt_Cod = "3";
ELSE IF Responsabilidades_Amt > 5000 AND Responsabilidades_Amt <= 15000 THEN Responsabilidades_Amt_Cod = "4";
ELSE IF Responsabilidades_Amt > 15000 AND Responsabilidades_Amt <= 50000 THEN Responsabilidades_Amt_Cod = "5";
ELSE IF Responsabilidades_Amt > 50000 AND Responsabilidades_Amt <= 100000 THEN Responsabilidades_Amt_Cod = "6";
ELSE IF Responsabilidades_Amt > 100000 AND Responsabilidades_Amt <= 200000 THEN Responsabilidades_Amt_Cod = "7";
ELSE Responsabilidades_Amt_Cod = "8";
Patri_Liquido_Amt_Cod = "";
IF Patri_Liquido_Amt < 0 THEN Patri_Liquido_Amt_Cod = "1";
ELSE IF Patri_Liquido_Amt = 0 THEN Patri_Liquido_Amt_Cod = "2";
ELSE IF Patri_Liquido_Amt > 0 AND Patri_Liquido_Amt <= 2000 THEN Patri_Liquido_Amt_Cod = "3";
ELSE IF Patri_Liquido_Amt > 2000 AND Patri_Liquido_Amt <= 5000 THEN Patri_Liquido_Amt_Cod = "4";
ELSE IF Patri_Liquido_Amt > 5000 AND Patri_Liquido_Amt <= 15000 THEN Patri_Liquido_Amt_Cod = "5";
ELSE IF Patri_Liquido_Amt > 15000 AND Patri_Liquido_Amt <= 50000 THEN Patri_Liquido_Amt_Cod = "6";
ELSE IF Patri_Liquido_Amt > 50000 AND Patri_Liquido_Amt <= 100000 THEN Patri_Liquido_Amt_Cod = "7";
ELSE IF Patri_Liquido_Amt > 100000 AND Patri_Liquido_Amt <= 200000 THEN Patri_Liquido_Amt_Cod = "8";
ELSE Patri_Liquido_Amt_Cod = "9";
Encontra-se no Anexo 5 o detalhe completo do código criado nos três nós de código criados
SAS Enterprise Miner (Figura 21). Pode observar-se na Figura 22 um exemplo de um destes
nós.
50
Figura 21 – Nós de código criados no SAS Enterprise Miner
Figura 22 – Exemplo de um dos nós de código criados no SAS Enterprise Miner
No total foram criadas 40 novas variáveis: 35 no SAS Guide no momento da extração e 5 no
SAS Miner, tendo sido neste ainda codificadas mais 28 variáveis, dando um total final de quase
100 variáveis.
Foi ainda realizado o tratamento dos valores ouliers, no caso em apreço, tendo sido excluídos
262 registos, após aplicação de dois filtros (Anexo 6).
• Exclusão de variáveis
Neste momento o dataset é composto por quase cem variáveis, o que é francamente demais;
idealmente, e de acordo com os vários artigos existentes, deveria terminar-se o modelo com
um máximo de 20.
51
Assim, como primeiro passo, realizou-se a análise dos gráficos iniciais de Worth (Anexo 7) e
Dendrograma (Anexo 8), para excluir logo as variáveis cuja contribuição para a resolução do
problema é diminuta.
De seguida, excluíram-se as variáveis com menos valor entre os pares das codificadas, ficando-
se assim com um data set de 28 variáveis (Anexo 9).
Seguidamente analisou-se a matriz de correlação das remanescentes (Anexo 10) e exclui-se as
variáveis com correlação igual ou superior a 0.7 (Anexo 11).
Assim, temos neste momento 25 variáveis no dataset final (Anexo 12 e Anexo 13).
Por fim, foram criados 2 datasets: um de treino (70%) e um de validação (30%) pois o teste irá
ser a comparação com a campanha com dados reais. Foi utilizado para essa divisão o método
Stratifed, por forma a garantir uma boa distribuição da amostra.
4.3. CRIAÇÃO DO MODELO
Existem diversos benefícios em usar modelos preditivos, tais como (1) velocidade, a
capacidade de analisar milhares de clientes por segundo; (2) a capacidade de fazer melhores
previsões que o ser humano; (3) a consistência, o facto de, com as mesmas regras obter o
mesmo resultado, coisa que o ser humano é incapaz, pois a sua disposição, hora do dia, etc.
podem interferir com a sua decisão (Finlay, 2014). No caso deste projeto, foram utilizados
vários modelos para se poder analisar qual tinha o melhor comportamento.
Neste subcapítulo irão ser descritos os passos realizados para escolher o modelo final e os
vários que foram considerados para a comparação.
• Modelos usados
Foram considerados neste projeto 12 modelos diferentes, 9 configurações diferentes de
Redes neuronais, uma Regressão, uma Árvore de decisão e um modelo Ensemble (Figura
23).
52
Figura 23 – Algoritmos usados no projeto
o Redes neuronais
Conforme já referido anteriormente, para a resolução da maior parte dos
problemas basta apenas uma camada escondida e um número entre 1 e 7
neutrões. Assim, optou-se pela utilização de um MLP, Feed Forward, com
inicialização aleatória dos pesos (Figura 24), com um máximo de 50 iterações ou 4
horas (Figura 25) e testou-se com valores entre 1 e 7 neutrões.
Figura 24 – Configuração da Rede Neuronal com um neutrão
53
Figura 25 – Configuração da optimização da Rede Neuronal
Utilizou-se ainda um nó do SAS Miner, que cria uma rede neuronal automática
(AutoNeural). Neste caso, escolhe-se apenas a arquitetura de uma forma geral e o
próprio SAS tenta encontrar a melhor solução. Foi escolhido a arquitetura Single
Layer, i.e., os nós são acrescentados de forma paralela. Como forma de paragem
foram definidas 10 iterações ou overfitting, o que acontecer primeiro (Figura 26).
Figura 26 – Configuração da optimização da Rede AutoNeural
o Regressão Linear
A regressão é uma técnica estatística que tem como objectivo criar, a partir de um
conjunto de observações, um modelo que permita a predição. Foi usada uma
regressão logística mas com uma transformação Logit, cujo objetivo é a
linearização do modelo (Figura 27). Utilizou-se o modelo StepWise pois, tal como
indicado neste estudo, este reforça o nó de regressão em comparação com outros
(Shtatland, Kleinman, & Cain, 2008).
54
Figura 27 – Configuração da Regressão
o Árvore de Decisão
Conforme já referido, as Árvores de decisão são um dos modelos mais práticos e
mais usados. No caso deste projeto usou-se uma árvore de decisão em que o
modelo de decisão de corte foi a entropia, com uma profundidade máxima de 6
(Figura 28).
Figura 28 – Configuração da Árvore de Decisão
o Rule Induction
Este modelo existente no SAS Miner, é baseado nas Árvores de decisão e é
especialmente útil quando temos eventos raros nos dados. O limite de corte foi
definido nos 100% e com um máximo de 16 cortes (Figura 29).
Figura 29 – Configuração do nó de Rule Induction
o Ensemble
Tal como já referido, este modelo combina 2 ou mais modelos por forma a obter
uma predição mais robusta (Maldonado, Dean, Czika & Haller, 2014). Neste caso
foi usado o valor médio como seleção (Figura 30).
55
Figura 30 – Configuração do nó de Ensemble
4.4. ESCOLHA DO MODELO
Para escolher o melhor modelo podem ser utilizadas diversas medidas, tais como curva de
ROC, Lift, Ganho, Critério de Akaike, Critério de Informação Bayesiana e Kolmogorov-Smirnov
(Dean, 2014). No caso em análise, usou-se o valor de ganho (Anexo 14) e a curva de ROC
(Figura 31). Esta é uma representação gráfica dos pares sensibilidade ou Falsos Positivos
(ordenadas) e 1-Especificidade ou verdadeiros positivos (abcissas).
Com base nesses critérios, o algoritmo que acabou por ser escolhido como óptimo foi uma
Rede Neuronal Artificial (ANN - Artificial Neural Network), MLP sendo que é um dos algoritmos
mais utilizados para o efeito (Bramer, 2016). Neste caso, o melhor algoritmo foi a rede
neuronal com 4 hidden units, tendo o modelo final 25 variáveis (Anexo 15).
Figura 31 – Gráfico de ROC
4.5. MODELOS ADICIONAIS
Tendo este modelo por base, realizaram-se mais alguns modelos de teste, usando o conhecimento intrínseco do negócio.
Conseguiu-se obter um modelo tendo apenas 7 variáveis (uma redução de aproximadamente
70%) com um incremento face ao valor inicial de ± 3,5%. Apesar do baixo incremento
56
financeiro, obteve-se uma grande redução de variáveis, simplificando bastante o modelo. Assim, este foi considerado o modelo final (Anexo 15). O algoritmo usado manteve-se.
Teste # Variáveis % de Lucro (*) Algoritmo
Teste 1 23 0,00% NN2
Teste 2 21 -0,06% NN2
Teste 3 19 -0,08% NN4
Teste 4 16 -0,09% NN4
Teste 5 15 -0,03% NN2
Teste 6 14 0,02% NN2
Teste 7 13 0,03% NN4
…… …… …… ……
Teste 8 7 3,55% NN4
(*) Face ao valor original
Tabela 3 - Síntese dos varios modelos testados
4.6. VALIDAÇÃO DO MODELO ESCOLHIDO
Neste momento já se encontra o modelo identificado e as respetivas variáveis. Resta-nos
testá-lo e compará-lo com a segunda campanha. Esta é uma campanha igual à primeira,
apenas desfasada temporalmente.
Realizaram-se quatro extrações:
• Os clientes alvo da segunda campanha, com a informação da contratualização ou não do
produto e cuja concretização irá servir como base de comparação (Extração 1).
• Todos os clientes, alvo ou não, que contrataram o produto no período da campanha
(Extração 2).
• Todos os clientes que contrataram o produto nos 3 meses subsequentes à campanha
(Extração 3).
• Todos os clientes ilegíveis para submissão ao projeto criado e as respetivas variáveis,
previamente identificadas e contextualizadas temporalmente, i.e., as variáveis de saldo
são à data de início da segunda campanha e as de saldo médio são com valores dos seis
meses anteriores (Extração 4).
Aplicou-se o modelo identificado anteriormente ao grupo de todos os clientes (Extração 4),
fazendo-se uma ordenação por probabilidade e selecionando um número de clientes igual ao
do grupo alvo real, tendo assim um grupo de clientes alvo alternativos ao original.
Neste caso, optou-se por limitar o número de clientes, não pela probabilidade mas por
número, por forma a podermos realizar uma comparação direta com os resultados da seleção
57
normal (Extração 1), i.e., se o grupo de clientes alvo original era de 10.000 clientes, limitámos
também a 10.000.
Após esta seleção, cruzou-se este conjunto de clientes com a Extração 2, i.e., obteve-se a
informação de quantos clientes selecionados pelo modelo de previsão contrataram o produto.
Quando comparados os dois modelos (baseline e modelo preditivo) face à sua concretização,
observamos que o segundo obteve um incremento de 70% face ao primeiro.
É preciso, no entanto, ressalvar que, dos clientes identificados pelo modelo preditivo, apenas
cerca de 25% fazem parte do grupo inicialmente identificado pelo método normal, i.e., apenas
25% foram alvo de uma tentativa proativa de venda. O que significa que 75% dos clientes
identificados pelo modelo preditivo, não foram contactados proactivamente.
Para efeitos deste projeto, considerou-se que, caso esses clientes tivessem realizado um
crédito pessoal nos 3 meses seguintes ao término da campanha, teriam possivelmente
contractado o mesmo dentro do período desta, se tivessem sido contactados. Com a
introdução dessas vendas obteve-se ainda um incremento de mais 72% sobre o número já
obtido.
58
5. CONCLUSÃO E TRABALHO FUTURO
Considerando a agitação, a concorrência, a competitividade e as reduzidas taxas praticadas
atualmente, é de todo o interesse das entidades bancárias a implementação de processos que
permitam uma melhor gestão do relacionamento com os clientes, aumentando o
conhecimento detido sobre eles, para desta forma fomentar o cross e up selling e a satisfação
do mesmo.
Por outro lado, considerando a saturação e a falta de interesse dos clientes nas campanhas,
interessa que o produto oferecido seja relevante e oportuno, sob pena de se perder a janela
de oportunidade.
Este projeto baseou-se em dados reais do Banco Crédito Agrícola, especificamente numa
campanha de crédito pessoal. Procurou-se obter um modelo com o qual se poderiam
classificar os clientes, tendo como base a sua propensão para o produto e assim, ao ordenar-se
por essa propensão, escolher um subsegmento de clientes com alta probabilidade de compra
e, consequentemente optimizar uma campanha futura.
Hoje em dia, com o aumento do poder computacional, é possível, em milissegundos, analisar
um cliente e sugerir um produto ideal ou, de outra forma, criar um modelo e analisar os
milhões de clientes existentes selecionando, com base nesse modelo, o subsegmento com a
maior propensão de contratualização do mesmo.
Face ao problema identificado, desenvolveu-se um modelo tendo por base uma campanha
existente e foram selecionadas, criadas e codificadas um conjunto de variáveis demográficas e
socioeconómicas. Foi aplicado o modelo obtido ao conjunto de todos os clientes do Banco, por
forma a obter-se um subsegmento de número definido de clientes com alta propensão de
contratualização do produto e comparou-se esse subsegmento com os resultados de uma
campanha igual, real e com dados reais de contratação.
Os objetivos propostos foram atingidos, i.e., realizou-se a análise e investigação do estado da
arte e das boas práticas na aplicação de tecnologias Data Mining em entidades bancárias, o
que permitiu realizar o levantamento e posterior implementação da solução e metodologia
adequada para a criação do modelo preditivo. Por fim, comparou-se o resultado obtido dessa
implementação com o resultado do método tradicional (atualmente usado na organização),
tendo-se obtido uma melhoria significativa.
A realização deste trabalho veio demonstrar que existe ainda uma grande possibilidade de
melhoria de processos e métodos nesta área. A alteração de paradigma, i.e., a alteração da
análise de clientes do segmento geral para o individual, vem aumentar o conhecimento sobre
eles e, como tal, incrementar a sua rentabilidade.
Para trabalho futuro considera-se que, idealmente e numa primeira fase dever-se-ia aumentar
a base de cálculo do modelo, não só em termos de campanhas como também em variáveis
possíveis.
59
Após a estabilização de um novo modelo dever-se-ia testá-lo em condições reais. Para tal,
dever-se-ia criar um segmento de clientes a contactar para uma outra campanha. Para a
criação do segmento, metade seria criado pelos métodos normais e os restantes por via deste
modelo, por forma a poder-se medir realmente o seu sucesso.
Numa segunda fase, dever-se-iam implementar diversos modelos, um para cada família de
produto. Isto serviria não só para uso nas campanhas, onde se utilizaria o modelo específico do
produto em campanha, como também para a implementação de um sistema de NBO por
forma a fazer valer cada contacto com o cliente, i.e., ao realizar-se a ordenação das
preferências do cliente pelos produtos, teríamos o produto mais relevante para o mesmo, a
cada contacto com ele. É preciso ressalvar que a utilização de modelos preditivos não se
esgota aqui; podemos usar estes para cálculo do churn, de atribuição de crédito, entre outros.
Numa terceira fase, dever-se-ia tentar aumentar a informação sobre eventos dos clientes,
desde as redes sociais, a mudança de casa à de emprego. O simples browsing no site
institucional procurando informações acerca de um produto, por forma a obter uma visão
360º e identificar os eventos o mais cedo possível, consequentemente aumentando a
possibilidade de influenciar a contratualização de serviços associados à mudança.
Esta visão, centrada no cliente, nas suas necessidades e interesses, onde tentamos adaptar o
produto existente às suas necessidades do momento, onde cada contacto é contextualizado e
relevante, onde se leva em conta todas as interações realizadas independentemente do canal,
é o caminho a seguir, especialmente quando olhamos para as características das próximas
gerações e aos desafios que estas irão proporcionar.
As diversas técnicas e métodos utilizados neste trabalho não foram abordadas
exaustivamente, sendo que não era esse o propósito do mesmo. Pretendia-se sim realizar uma
comparação entre os dados reais de uma campanha e o output gerado por um modelo
preditivo.
60
6. LIMITAÇÕES E RECOMENDAÇÕES FUTURAS
Uma limitação é o facto deste documento, por ser baseado em dados reais e por questões de
confidencialidade, ter de ser obrigatoriamente vago nos resultados obtidos.
Sugere-se que em investigações futuras, para uma maior precisão e eficiência do modelo,
sejam utilizadas como base diversas campanhas e que seja alargado o número de variáveis
iniciais, usando para tal todos os instrumentos e dados disponíveis na entidade. Desta forma,
será possível obter uma visão mais alargada do cliente. Adicionalmente, e visto que as escolhas
de algoritmos e metodologias possíveis não se esgotaram com este projeto, seria interessante
analisar os resultados com outros algoritmos e metodologias.
61
7. BIBLIOGRAFIA
Abdelhalim, A., & Traore, I. (2009). A New Method for Learning Decision Trees from Rules (pp.
693–698). IEEE. https://doi.org/10.1109/ICMLA.2009.25
Accenture. (2015). Banking Customer 2020: Rising Expectations Point to the Everyday Bank (p.
12). Retrieved from https://www.accenture.com/t20150710T130243__w__/us-
en/_acnmedia/Accenture/Conversion-
Assets/DotCom/Documents/Global/PDF/Dualpub_17/Accenture-Banking-Consumer-Pulse.pdf
Aggarwal, C. C. (2014). Data classification: algorithms and applications. CRC Press. Retrieved
from
https://books.google.com/books?hl=en&lr=&id=qm_SBQAAQBAJ&oi=fnd&pg=PP1&dq=%22LE
ARNING+AND+KNOWLEDGE+DISCOVERY%22+%22Wu+and+Stephen%22+%22OF+PREDICTIVE
%22+%22page+intentionally+left%22+%22N.+Srivastava+and+Jiawei%22+%22IN+MACHINE+LE
ARNING+AND+DATA+MINING+FOR%22+%22Alan+Zhao+and+Huan%22+&ots=CRK_hh6JwF&si
g=8t0_gOvx44Jv01-Vz_WHLJQzTxM
American Marketing Association. (2013, July). Definition of Marketing. Retrieved May 19,
2016, from https://www.ama.org/AboutAMA/Pages/Definition-of-Marketing.aspx
Angelis, F. D., Polzonetti, A., & Re, B. (2011). Optimising Performance with Business
Intelligence, 6.
APB - Associação Portuguesa de Bancos. (2016). Sintese de Indicadores do Sector Bancário |
Comparação entre 2007 e 2010-2016 (p. 2). Retrieved from
http://www.apb.pt/content/files/2016.10.14_-_Sntese_de_Indicadores.pdf
Artun, O., & Levin, D. (2015). Predictive marketing: easy ways every marketer can use customer
analytics and big data. Hoboken, New Jersey: Wiley.
Augusty, S. M., & Izudheen, S. (2013). A survey: evaluation of ensemble classifiers and data
level methods to deal with imbalanced data problem in protein-protein interactions. Review of
Bioinformatics and Biometrics. Retrieved from http://dpi-
journals.com/index.php/RBB/article/view/1112
Azevedo, A. I. R. L., & Santos, M. F. (2008). KDD, SEMMA AND CRISP-DM: A PARALLEL
OVERVIEW. IADS-DM. Retrieved from https://recipp.ipp.pt/handle/10400.22/135
Bahari, T. F., & Elayidom, M. S. (2015). An Efficient CRM-Data Mining Framework for the
Prediction of Customer Behaviour. Procedia Computer Science, 46, 725–731.
https://doi.org/10.1016/j.procs.2015.02.136
Bain & Company. (2012). Customer Loyalty in Retail Banking (p. 60). Retrieved from
http://www.bain.com/Images/BAIN_REPORT_Customer_loyalty_in_retail_banking.pdf
Bakar, N. M. A., & Tahir, I. M. (2009). Applying multiple linear regression and neural network to
predict bank performance. International Business Research, 2(4), 176.
62
Banco de Portugal. (n.d.). Retrieved June 26, 2017, from
https://www.bportugal.pt/comunicado/banco-de-portugal-aprova-utilizacao-de-
videoconferencia-para-abertura-de-contas-de
Batmaz, İ., Danışoğlu, S., Yazıcı, C., & Kartal-Koç, E. (2017). A data mining application to deposit
pricing: Main determinants and prediction models. Applied Soft Computing.
https://doi.org/10.1016/j.asoc.2017.07.047
Beck, J. T., Chapman, K., & Palmatier, R. W. (2015). Understanding Relationship Marketing and
Loyalty Program Effectiveness in Global Markets. Journal of International Marketing, 23(3), 1–
21.
Berger, P. D., & Nasr, N. I. (1998). Customer lifetime value: Marketing models and applications.
Journal of Interactive Marketing, 12(1), 17–30. https://doi.org/10.1002/(SICI)1520-
6653(199824)12:1<17::AID-DIR3>3.0.CO;2-K
Bhardwaj, D. (2016). ANALYSIS OF DATA MINING TRENDS, APPLICATIONS, BENEFITS AND
ISSUES. ANALYSIS, 5(1). Retrieved from http://static.ijcsce.org/wp-
content/uploads/2016/02/IJCSCE170116.pdf
Bramer, M. (2016). Principles of Data Mining. London: Springer London.
https://doi.org/10.1007/978-1-4471-7307-6
Buttle, F. (2009). Customer relationship management: concepts and technologies (2. ed.,
reprinted). Amsterdam: Elsevier/Butterworth-Heinemann.
CA | Caixa Central. (n.d.). Retrieved February 28, 2017, from
http://www.creditoagricola.pt/CAI/Institucional/EstruturadoGrupo/CaixaCentral/
CA | Crédito Agrícola - Missão e Valores. (n.d.). Retrieved April 10, 2016, from
http://www.creditoagricola.pt/CAI/Institucional/GrupoCA/QuemSomos/MissaoeValores/
Chen, J., Han, Y., Hu, Z., Lu, Y., & Sun, M. (2014). Who Will Subscribe A Term Deposit?
Advanced Data Analysis, Department of Statistics, Columbia University, 14.
Chitra, K., & Subashini, B. (2013). Data mining techniques and its applications in banking
sector. International Journal of Emerging Technology and Advanced Engineering, 3(8), 219–
226.
Dean, J. (2014). Big data, data mining, and machine learning: value creation for business
leaders and practitioners. Hoboken, NJ: Wiley.
Dejana, P., Marija, R., & Sonja, J. (2014). Application of data mining in direct marketing in
banking sector. Industrija, 42(1), 189–201.
Drèze, X., & Bonfrer, A. (2008). An empirical investigation of the impact of communication
timing on customer equity. Journal of Interactive Marketing, 22(1), 36–50.
https://doi.org/10.1002/dir.20103
63
Edvardsson, B., Johnson, M. D., Gustafsson, A., & Strandvik, T. (2000). The effects of
satisfaction and loyalty on profits and growth: Products versus services. Total Quality
Management, 11(7), 917–927. https://doi.org/10.1080/09544120050135461
Farid, D., Sadeghi, H., Hajigol, E., & Parirooy, N. Z. (2016). Classification of Bank Customers by
Data Mining: a Case Study of Mellat Bank branches in Shiraz. International Journal of
Management, Accounting & Economics, 3(8), 534–543.
Farris, P. W. (Ed.). (2006). Marketing metrics: 50+ metrics every executive should master.
Upper Saddle River, N.J: Wharton School Pub.
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge
Discovery in Databases. AI Magazine, 17(3), 37.
Ferreiro, M. de F., Lagoa, S., & Pina, L. (2014). Cooperative Financial Institutions and Regional
and Rural Development: The Portuguese Case. In 20th APDR Congress (pp. 340–350).
Universidade de Évora: APDR. Retrieved from http://recipp.ipp.pt/handle/10400.22/5144
Finlay, S. (2014). Predictive Analytics, Data Mining and Big Data. London: Palgrave Macmillan
UK. https://doi.org/10.1057/9781137379283
Flach, P. A. (2012). Machine learning: the art and science of algorithms that make sense of
data. Cambridge ; New York: Cambridge University Press.
Fournier, S., & Mick, D. G. (1999). Rediscovering Satisfaction. Journal of Marketing, 63(4), 5.
https://doi.org/10.2307/1251971
Gallo, A. (2014, October 29). The Value of Keeping the Right Customers. Harvard Business
Review. Retrieved from https://hbr.org/2014/10/the-value-of-keeping-the-right-customers/
Galvão, N. D., & Marin, H. de F. (2009). Data mining: a literature review. Acta Paulista de
Enfermagem, 22(5), 686–690.
Garcia, S., Luengo, J., & Herrera, F. (2015). Data Preprocessing in Data Mining (Vol. 72). Cham:
Springer International Publishing. https://doi.org/10.1007/978-3-319-10247-4
Goldenberg, B. J. (2008). CRM in Real Time: Empowering Customer Relationships. Medford, N.J:
CyberAge Books.
Hitchner, E. (1996). Loyalists, Unite!. The loyalty effect: The Hidden Force Behind Growth,
Profits, and Lasting Value by Frederick F. Reichheld, Boston: Harvard Business School Press,
1996. 323 pages; $24.95. National Productivity Review, 15(3), 117–123.
https://doi.org/10.1002/npr.4040150312
Hollensen, S. (2010). Marketing management: a relationship approach (2. ed). Harlow:
Financial Times Prentice Hall.
Hormazi, A. M., & Giles, S. (2004). Data Mining: A Competitive Weapon for Bancking and Retail
Industries. Information Systems Management, 10.
64
Hormozi, A. M., & Giles, S. (2004). Data Mining: A Competitive Weapon for Banking and Retail
Industries. Information Systems Management, 21(2), 62–71.
Hu, X. (2005). A data mining approach for retailing bank customer attrition analysis. Applied
Intelligence, 22(1), 47–60.
INE. (2014). Inquérito à Utilização de Tecnologias da Informação e da Comunicação pelas
Famílias - 2014 (p. 10). Retrieved from
https://www.ine.pt/xportal/xmain?xpid=INE&xpgid=ine_destaques&DESTAQUESdest_boui=21
1422735&DESTAQUESmodo=2&xlang=pt
Jahnavi, M., & Katyayani, J. (2014). Data Mining Applications in Banking and Financial Sectors.
CLEAR International Journal of Research in Commerce & Management, 5(1), 6–10.
Jarrar, Y. F., & Neely, A. (2002). Cross-selling in the financial sector: Customer profitability is
key. Journal of Targeting, Measurement and Analysis for Marketing, 10(3), 282–296.
Jutkowitz, A. (2015, February 16). Marketing Is Dead, and Loyalty Killed It. Retrieved August 15,
2017, from https://hbr.org/2015/02/marketing-is-dead-and-loyalty-killed-it
Knott, A., Hayes, A., & Neslin, S. A. (2002). Next-product-to-buy models for cross-selling
applications. Journal of Interactive Marketing, 16(3), 59–75. https://doi.org/10.1002/dir.10038
Kotler, P., & Armstrong, G. (2012). Principles of marketing (14th ed). Boston: Pearson Prentice
Hall.
Kotler, P., Kartajaya, H., & Setiawan, I. (2010). Marketing 3.0: From Products to Customers to
the Human Spirit. Hoboken, N.J: Wiley.
Kotler, P., & Keller, K. L. (2012). Marketing management (14th ed.). Upper Saddle River, N.J:
Prentice Hall.
KV Kamath, SS Kohli, PS Shenoy, Ranjana Kumar, RM Nayak, & PT Kuppuswamy. (2003). Indian
Banking Sector: Challenges and Opportunities (Vol. 28 (3), pp. 83–99). Vikalpa. Retrieved from
http://vikalpa.com/pdf/articles/2003/2003_july_sep_83_99.pdf
Larose, D. T., & Larose, C. D. (2014). Discovering knowledge in data: an introduction to data
mining (Second edition). Hoboken: Wiley.
Lau, K., Wong, S., Ma, M., & Liu, C. (2003). “Next product to offer” for bank marketers. Journal
of Database Marketing, 10(4), 353.
Lau, K.-N., Chow, H., & Liu, C. (2004). A database approach to cross selling in the banking
industry: Practices, strategies and challenges. Journal of Database Marketing & Customer
Strategy Management, 11(3), 216–234.
Ling, C. X., & Li, C. (1998). Data Mining for Direct Marketing: Problems and Solutions. In KDD
(Vol. 98, pp. 73–79). Retrieved from http://www.csd.uwo.ca/~cling/papers/kdd98.pdf
65
Mack, E. E. (1997). Cross-selling by any name makes good business sense. (Vol. 98). Retrieved
from http://search.ebscohost.com/login.aspx?direct=true&site=eds-
live&db=bth&AN=9710241492
Macukow, B. (2016). Neural Networks – State of Art, Brief History, Basic Models and
Architecture. In K. Saeed & W. Homenda (Eds.), Computer Information Systems and Industrial
Management (Vol. 9842, pp. 3–14). Cham: Springer International Publishing.
https://doi.org/10.1007/978-3-319-45378-1_1
Maheshwari, A. K. (2015). Business intelligence and data mining. New York: Business Expert
Press.
Maldonado, M., Dean, J., Czika, W., & Haller, S. (2014). Leveraging ensemble models in SAS®
Enterprise MinerTM. In Proceedings of the SAS Global Forum 2014 Conference. Cary, NC: SAS
Institute Inc. Retrieved from
https://pdfs.semanticscholar.org/49e5/4a711f001e93b626bc97c158de14abe14ed1.pdf
Malhotra, R., & Malhotra, D. . (2003). Evaluating consumer loans using neural networks.
Omega, 31(2), 83–96. https://doi.org/10.1016/S0305-0483(03)00016-1
Martinez, L. C., da Hora, D. N., Palotti, J. R. de M., Meira, W., & Pappa, G. L. (2009). From an
artificial neural network to a stock market day-trading system: A case study on the BM&F
BOVESPA. In Neural Networks, 2009. IJCNN 2009. International Joint Conference on (pp. 2006–
2013). IEEE. Retrieved from http://ieeexplore.ieee.org/abstract/document/5179050/
Morgan, R. M., & Hunt, S. D. (1994). The Commitment-Trust Theory of Relationship Marketing.
Journal of Marketing, 58(3), 20–38. https://doi.org/10.2307/1252308
Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank
telemarketing. Decision Support Systems, 62, 22–31.
Moro, S., Cortez, P., & Rita, P. (2015). Business intelligence in banking: A literature analysis
from 2002 to 2013 using text mining and latent Dirichlet allocation. Expert Systems with
Applications, 42(3), 1314–1324. https://doi.org/10.1016/j.eswa.2014.09.024
Narver, J. C., Slater, S. F., & MacLachlan, D. L. (2004). Responsive and Proactive Market
Orientation and New-Product Success. Journal of Product Innovation Management, 21(5), 334–
347. https://doi.org/10.1111/j.0737-6782.2004.00086.x
Ncr, P. C., Clinton, J., Ncr, R. K., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (1999). CRISP-
DM 1.0. Retrieved from
https://pdfs.semanticscholar.org/751a/9844dad60e3682906c6a2fe34be8148f6a23.pdf
Ngai, E. W. T., Xiu, L., & Chau, D. C. K. (2009). Application of data mining techniques in
customer relationship management: A literature review and classification. Expert Systems with
Applications, 36(2), 2592–2602. https://doi.org/10.1016/j.eswa.2008.02.021
Nisbet, R., Elder, J., & Miner, G. (2009). Handbook of Statistical Analysis and Data Mining
Applications. Amsterdam ; Boston: Academic Press/Elsevier.
66
Ogwueleka, F. N. (2009). Potential value of data mining for customer relationship marketing in
the banking industry. Advances in Natural and Applied Sciences, 3, 73–78.
Oliver, R. L. (1999). Whence Consumer Loyalty? Journal of Marketing, 63, 33.
https://doi.org/10.2307/1252099
Oliver, R. L. (2010). Satisfaction: a behavioral perspective on the consumer (2nd ed). Armonk,
N.Y: M.E. Sharpe.
Peter F. Drucker. (2002). The Effective Executive. New York: HarperCollins Publishers.
Polonsky, M. J., Cameron, H., Halstead, S., Ratcliffe, A., Stilo, P., & Watt, G. (2000). Exploring
companion selling: does the situation affect customers’ perceptions? International Journal of
Retail & Distribution Management, 28(1), 37–45.
https://doi.org/10.1108/09590550010306764
Preethi, M., & Vijayalakshmi, M. (2017). Data Mining In Banking Sector. International Journal of
Advanced Networking & Applications, 8(5), 1–4.
Prezepiorski Lemos, E., Arns Steiner, M. T., & Nievola, J. C. (2005). Análise de crédito bancário
por meio de redes neurais e árvores de decisão: uma aplicação simples de data mining. Revista
de Administração-RAUSP, 40(3). Retrieved from
http://www.redalyc.org/html/2234/223417392002/
Pulakkazhy, S., & Balan, R. V. S. (2013). DATA MINING IN BANKING AND ITS APPLICATIONS-A
REVIEW. Journal of Computer Science, 9(10), 1252–1259.
https://doi.org/10.3844/jcssp.2013.1252.1259
Rasheed, F. A., & Abadi, M. F. (2014). Impact of Service Quality, Trust and Perceived Value on
Customer Loyalty in Malaysia Services Industries. Procedia - Social and Behavioral Sciences,
164, 298–304. https://doi.org/10.1016/j.sbspro.2014.11.080
Reichheld, F. F. (1993, March 1). Loyalty-Based Management. Retrieved April 12, 2016, from
https://hbr.org/1993/03/loyalty-based-management
Reichheld, F. F. (1996). Learning from Customer Defections. Harvard Business Review, pp. 56–
69.
Reichheld, F. F., & Sasser Jr., W. E. (1990). Zero Defections: Quality Comes to Services, 68.
Retrieved from http://eds.b.ebscohost.com/eds/pdfviewer/pdfviewer?vid=1&sid=1858a8b9-
63fa-45b4-b2be-1f8bbd1ef303%40sessionmgr107&hid=127
Rodrigues, L. F., Oliveira, A., & Costa, C. J. (2016). Does ease-of-use contributes to the
perception of enjoyment? A case of gamification in e-banking. Computers in Human Behavior,
61, 114–126. https://doi.org/10.1016/j.chb.2016.03.015
Rogalewicz, M., & Sika, R. (2016). Methodologies of Knowledge Discovery from Data and Data
Mining Methods in Mechanical Engineering. Management and Production Engineering Review,
7(4). https://doi.org/10.1515/mper-2016-0040
67
Rojas, R. (1996). Neural networks: a systematic introduction. Springer Science & Business
Media. Retrieved from
https://books.google.com/books?hl=en&lr=&id=4rESBwAAQBAJ&oi=fnd&pg=PA3&dq=%22usi
ng+formalisms+based+on+increasingly+sophisticated+models+of%22+%22in+computer+scienc
e+and+mathematics.+This+is+a+revised%22+%22them+to+other+computational+formalisms.+
Proofs+are+rigorous,+but%22+&ots=VzlggX1VuW&sig=FJDRXCPLU-CEyakVqE1OKEmswAI
Rosen, T. A. (2004). Why your bank will fail at cross-selling. Com. Lending Rev., 19, 41.
Sharma, S. (2016). A detail comparative study on e-banking VS traditional banking. IJAR, 2(7),
302–307.
Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. Journal of Data
Warehousing, 5(4), 13–22.
Sheela, K. G., & Deepa, S. N. (2013). Review on Methods to Fix Number of Hidden Neurons in
Neural Networks. Mathematical Problems in Engineering, 2013, 1–11.
https://doi.org/10.1155/2013/425740
Shibo Li, Baohong Sun, & Ronald T. Wilcox. (2005). Cross-Selling Sequentially Ordered
Products: An Application to Consumer Banking Services. Journal of Marketing Research, 42(2),
233–239.
Shtatland, E. S., Kleinman, K., & Cain, E. M. (2008). Stepwise methods in using sas R proc
logistic and sas R enterpise minertm for prediction. SAS Institute. Retrieved from
https://www.researchgate.net/profile/Ken_Kleinman/publication/228410230_Stepwise_Meth
ods_in_Using_SAS_PROC_LOGISTIC_and_SAS_ENTERPRISE_MINER_for_Prediction/links/0fcfd5
10926a60e7c2000000.pdf
Silva, N. A. do N., & Kaercher, M. A. L. N. (n.d.). A IMPORTÂNCIA DO MARKETING DE
RELACIONAMENTO PARA A FIDELIZAÇÃO DE CLIENTES. Retrieved from
http://www.andrekaercher.com.br/artigos/a-importancia-do-marketing-de-relacionamento-
para-a-fidelizacao-de-clientes-novo.pdf
Soureli, M., Lewis, B. R., & Karantinou, K. M. (2008). Factors that affect consumers’ cross-
buying intention: A model for financial services. Journal of Financial Services Marketing, 13(1),
5–16. https://doi.org/10.1057/fsm.2008.1
Srivastava, A. N., & Han, J. (2011). Machine learning and knowledge discovery for engineering
systems health management. CRC Press. Retrieved from
https://books.google.com/books?hl=en&lr=&id=vJDJlb3oeWkC&oi=fnd&pg=PP1&dq=%22OF+
EDUCATIONAL+DATA%22+%22DISCOVERY+FOR+COUNTERTERRORISM%22+%22Zhang+and+R
uofei%22+%22DISTRIBUTED+KNOWLEDGE%22+%22C.+M.+Fung,+Ke+Wang,+Ada+Wai-
Chee+Fu,+and+Philip+S.%22+%22Li,+Mitsunori+Ogihara,+and+George%22+&ots=eiuYZMagct&
sig=XMGX7ackz218_q5_-23F_Tn2zrw
68
Sun, B., Li, S., & Zhou, C. (2006). “Adaptive” learning and “proactive” customer relationship
management. Journal of Interactive Marketing, 20(3–4), 82–96.
https://doi.org/10.1002/dir.20069
Thapliyal, M. P. (2015). Data Mining: A Tool for Banking Industry. Nternational Journal of
Emerging Research in Management &Technology.
The Millennial Disruption Index. (n.d.). Retrieved June 27, 2017, from
http://www.millennialdisruptionindex.com/
Tkáč, M., & Verner, R. (2016). Artificial neural networks in business: Two decades of research.
Applied Soft Computing, 38, 788–804. https://doi.org/10.1016/j.asoc.2015.09.040
Trianni, V. (2008). Evolutionary swarm robotics: evolving self-organising behaviours in groups
of autonomous robots. Berlin: Springer.
Turban, E., Aronson, J. E., & Liang, T.-P. (2005). Decision support systems and intelligent
systems. New Delhi: Prentice-Hall of India.
Van den Poel, D., & Lariviere, B. (2003). Customer attrition analysis for financial services using
proportional hazard models. European Journal of Operational Research, 157(1), 196–217.
Varajão, J., & Cruz-Cunha, M. M. (2016). Main Motivations for CRM Adoption by Large
Portuguese companies – A Principal Component Analysis. Procedia Computer Science, 100,
1269–1279. https://doi.org/10.1016/j.procs.2016.09.165
Wang, F., Hu, F., & Yu, L. (2010). The Application of Customer Relationship Management in
Investment Banks. Asian Social Science, 6(10), 178. https://doi.org/10.5539/ass.v6n10p178
William J. Frawley, Gregory Piatetsky-Shapiro, & Christopher J. Matheus. (1992). Knowledge
Discovery in Databases: An Overview. AI Magazine, 13(3). Retrieved from
http://aaaipress.org/ojs/index.php/aimagazine/article/viewFile/1011/929
Wirth, R., & Hipp, J. (2000). CRISP-DM: Towards a standard process model for data mining. In
Proceedings of the 4th international conference on the practical applications of knowledge
discovery and data mining (pp. 29–39). Citeseer. Retrieved from
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.198.5133&rep=rep1&type=pdf
Witten, I. H., & Frank, E. (2005). Data mining: Practical Machine Learning Tools and Techniques
(2nd ed). Amsterdam ; Boston, MA: Morgan Kaufman.
Yeh, I.-C., & Lien, C. (2009). The comparisons of data mining techniques for the predictive
accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2),
2473–2480. https://doi.org/10.1016/j.eswa.2007.12.020
Zboja, J. J., & Hartline, M. D. (2012). An Examination of High-Frequency Cross-Selling. Journal
of Relationship Marketing, 11(1), 41–55. https://doi.org/10.1080/15332667.2012.653327
Zhang, G., Patuwo, B. E., & Hu, M. Y. (1998). Forecasting with artificial neural networks:: The
state of the art. International Journal of Forecasting, 14(1), 35–62.
69
Zhuang, T., Zhang, Y., Yan, S., & Liu, X. (2016). Using Data Mining to Improve E iciency For Bank
Direct Marketing Compaigns. Retrieved from https://cseweb.ucsd.edu/classes/wi17/cse258-
a/reports/a103.pdf
70
8. ANEXOS
Anexo 1 - Variáveis iniciais
Variável Descrição
Client_Id Id Do Cliente
Alvos Se Faz Parte Ou Não Da Lista Original De Alvos
Venda Adquiriu Ou Não o Crédito Na Campanha
Customer_Type Tipo De Cliente
Gender_Type Género
Marital_Status Estado Civil
Employment_Status Situação Profissional
Resident_Status Tipo De Residência
Education_Level Nível De Educação
Distrito Distrito
Market_Segment Segmento
Life_Cycle_Stage Estágio Da Vida Do Cliente
Relation_Cycle Estado Da Relação Com O Cliente
Credit_Risk Risco De Crédito
Dependents_Cnt Número De Dependentes
Global_Balance_Amt Envolvimento Financeiro Do Cliente
Retired_Flg Flag De Reformado
Patrimonio_Mob_Amt Valor Do Património Mobiliário
Patrimonio_Imob_Amt Valor Do Património Imobiliário
Internal_Rate Rate interno
Domicilied_Salary_Flg Flag De Domiciliação De Ordenado
Gross_Individual_Income_Amt Valor Bruto De Rendimento Individual
Gross_House_Hold_Income_Amt Valor Bruto De Rendimento Familiar
Personal_Credit_Score_No Valor De Score Individual
Pre_Approv_Grt_Personal_Cred_Amt Valor De Crédito Pré Aprovado
Customer_Bdp_Incident_Flg Flag De Incidentes No BP
71
Anexo 2 – Variáveis criadas no SAS Guide
Variável Descrição
Anos_Antiguidade Anos De Antiguidade Enquanto Cliente
Age Idade do cliente à data da campanha
Ano Do Último Contracto Aberto Ano Do Último Contracto Aberto Antes Do Início Da Campanha
Campain_Cnt Nº De Vezes Que Foi Alvo De Campanha Desde Sempre
Past_Due_Amt_Avg Avg De Valor Em Divida não Contratada (6 Meses)
Past_Due_Days_Cnt Avg De Nº De Dias Em Divida não contratada (6 Meses)
Dep_Ordem_Cnt Nº De Contractos De Do'S
Dep_Ordem_Avg Avg De Contractos De Do'S (6 Meses) (Valor Pontual De Fecho De Mês)
Dep_Prazo_Cnt Nº De Contractos De Dp'S
Dep_Prazo_Avg Avg De Contractos De Dp'S (6 Meses) (Valor Pontual De Fecho De Mês)
Poupanças_Cnt Nº De Contractos De Poupanças
Poupanças_Avg Avg De Contractos De Poupanças (6 Meses) (Valor Pontual De Fecho De Mês)
Last_6M_Credit_Card_Movement_Cnt Nº De Movimentos No CC Nos Últimos 6 Meses
Cartao_Crédito_Cnt N+ De Contas Cartão
Cartao_Crédito_Avg Avg Do Saldo Das Contas Cartão (6 Meses) (Valor Pontual De Fecho De Mês)
Cre_Habitacao_Cnt Nº De Contractos De Crédito Habitação
Cre_Habitacao_Avg Avg De Contractos De Outros Habitação (6 Meses)
Cre_Habitacao_Atual_V_Inicial Valor Do Crédito Pedido Atualmente Aberto
Outro_Créditos_Cnt Nº De Contractos De Outros Créditos
Outro_Créditos_Avg Avg De Contractos De Outros Créditos (6 Meses)
Outro_Crédito_Atual_V_Inicial Valor Do Crédito Pedido Atualmente Aberto
Crédito_Pessoal_Cnt Nº De Contractos De Crédito Pessoal
Crédito_Pessoal_Avg Avg De Contractos De Crédito Pessoal (6 Meses)
Crédito_Pessoal_Atual_V_Inicial Valor Do Crédito Pedido Atualmente Aberto
Crédito_Multiusos_Cnt Nº De Contractos De Crédito Multiusos
Crédito_Multiusos_Avg Avg De Contractos De Crédito Multiusos (6 Meses)
Crédito_Multiusos_Atual_V_Inicial Valor Do Crédito Pedido Atualmente Aberto
Direct_Debits_Cnt Nº De Débitos Diretos ativos - No Mês Antes Do Início Da Campanhas
Direct_Debits_Amt Valor Dos Débitos Diretos - No Mês Antes Do Início Da Campanhas
Descoberto_Autorixado_Amt Limite De Descoberto Autorizado
Crédito_Aberto_Oic_Amt Valor Do Crédito Aberto No Resto Da Banca
Total_Descobertos_Amt Total De Descobertos
Contractos_Crédito_Cnt Nº de Créditos Realizados Desde Sempre no CA
Valor_Total_Crédito_Realizado Valor Do Crédito Realizado Desde Sempre no CA
Valor_Total_Crédito_Ja Pago Valor total já pago em créditos
72
Custo_Contacto Valor Calculado De Custo Por Contracto De Crédito Pessoal
Juro_Médio_Pago Valor Calculado De Juros Pagos Por Contracto De Crédito Pessoal
73
Anexo 3 - Diagrama do projeto de SAS Guide
74
Anexo 4 - Diagrama do projeto de SAS Miner
75
Anexo 5 - Variáveis criadas e codificações realizadas no SAS Miner
Anos_Antig_Cod = "";
IF Anos_Antiguidade = 0 THEN Anos_Antig_Cod = "1";
ELSE IF Anos_Antiguidade > 0 AND Anos_Antiguidade <= 5 THEN Anos_Antig_Cod = "2";
ELSE IF Anos_Antiguidade > 5 AND Anos_Antiguidade <= 10 THEN Anos_Antig_Cod = "3";
ELSE Anos_Antig_Cod = "4";
Age_Cod = "";
IF Age < 25 THEN Age_Cod = "1";
ELSE IF Age > 25 AND Age <= 35 THEN Age_Cod = "2";
ELSE IF Age > 35 AND Age <= 45 THEN Age_Cod = "3";
ELSE IF Age > 45 AND Age <= 65 THEN Age_Cod = "4";
ELSE Age_Cod = "5";
Ano_Último_Contracto_Aberto_Cod = "";
IF Ano_Último_Contracto_Aberto >= 2015 THEN Ano_Último_Contracto_Aberto_Cod = "1";
ELSE IF Ano_Último_Contracto_Aberto >= 2005 AND Ano_Último_Contracto_Aberto < 2015 THEN
Ano_Último_Contracto_Aberto_Cod = "2";
ELSE IF Ano_Último_Contracto_Aberto >= 1995 AND Ano_Último_Contracto_Aberto < 2005 THEN
Ano_Último_Contracto_Aberto_Cod = "3";
ELSE Ano_Último_Contracto_Aberto_Cod = "4";
Marital_Status_Cod = "";
IF Marital_Status = "CASADO(A)" THEN Marital_Status_Cod = "1";
ELSE IF Marital_Status = "UNIÃO DE FACTO" THEN Marital_Status_Cod = "2";
ELSE IF Marital_Status = "" THEN Marital_Status_Cod = "";
ELSE Marital_Status_Cod = "3";
Resident_Status_Cod = "";
IF(Resident_Status = "ARRENDADA") THEN Resident_Status_Cod = "1";
ELSE IF Resident_Status = "EMPRESA" THEN Resident_Status_Cod = "2";
ELSE IF Resident_Status = "FAMILIARES /OUTROS" THEN Resident_Status_Cod = "3";
ELSE IF Resident_Status = "" THEN Resident_Status_Cod = "";
ELSE Resident_Status_Cod = "4";
Education_Level_Cod = "";
IF Education_Level = "SEM INSTRUÇÃO" THEN Education_Level_Cod = "1";
ELSE IF Education_Level = "MESTRADO" THEN Education_Level_Cod = "2";
ELSE IF Education_Level = "LICENCIATURA" THEN Education_Level_Cod = "2";
ELSE IF Education_Level = "DOUTORAMENTO" THEN Education_Level_Cod = "2";
ELSE IF Education_Level = "BACHARELATO" THEN Education_Level_Cod = "2";
ELSE IF Education_Level = "ENSINO COMPLEMENTAR" THEN Education_Level_Cod = "3";
ELSE IF Education_Level = "ENSINO MÉDIO PROFISSIONAL" THEN Education_Level_Cod = "3";
ELSE IF Education_Level = "ENSINO PRIMÁRIO" THEN Education_Level_Cod = "3";
76
ELSE IF Education_Level = "ENSINO SECUNDÁRIO" THEN Education_Level_Cod = "3";
ELSE IF Education_Level = "" THEN Education_Level_Cod = "";
ELSE Education_Level_Cod = "4";
Dependents_Cnt_Cod = "";
IF Dependents_Cnt=0 THEN Dependents_Cnt_Cod = "1";
ELSE IF Dependents_Cnt >0 THEN Dependents_Cnt_Cod = "2";
ELSE IF Dependents_Cnt = "" THEN Dependents_Cnt_Cod = "";
ELSE Dependents_Cnt_Cod = "3";
Campain_Cnt_Cod = "";
IF Campain_Cnt= 0 THEN Campain_Cnt_Cod = "1";
ELSE IF Campain_Cnt > 0 AND Campain_Cnt <= 5 THEN Campain_Cnt_Cod = "2";
ELSE IF Campain_Cnt > 5 AND Campain_Cnt < 15 THEN Campain_Cnt_Cod = "3";
ELSE IF Campain_Cnt > 15 AND Campain_Cnt <= 30 THEN Campain_Cnt_Cod = "4";
ELSE Campain_Cnt_Cod = "5";
Campain_Avg = (Campain_Cnt / Anos_Antiguidade);
Past_Due_Amt_Cod = "";
IF Past_Due_Days_Cnt = 0 THEN Past_Due_Amt_Cod = "1";
ELSE Past_Due_Amt_Cod = "2";
Dep_Ordem_Avg_Cod = "";
IF Dep_Ordem_Avg < 0 THEN Dep_Ordem_Avg_Cod = "1";
ELSE IF Dep_Ordem_Avg = 0 THEN Dep_Ordem_Avg_Cod = "2";
ELSE IF Dep_Ordem_Avg > 0 AND Dep_Ordem_Avg <= 2000 THEN Dep_Ordem_Avg_Cod = "3";
ELSE IF Dep_Ordem_Avg > 2000 AND Dep_Ordem_Avg <= 5000 THEN Dep_Ordem_Avg_Cod = "4";
ELSE IF Dep_Ordem_Avg > 5000 AND Dep_Ordem_Avg <= 15000 THEN Dep_Ordem_Avg_Cod = "5";
ELSE IF Dep_Ordem_Avg > 15000 AND Dep_Ordem_Avg <= 50000 THEN Dep_Ordem_Avg_Cod = "6";
ELSE Dep_Ordem_Avg_Cod = "7";
Dep_Prazo_Avg_Cod = "";
IF Dep_Prazo_Avg = 0 THEN Dep_Prazo_Avg_Cod = "1";
ELSE IF Dep_Prazo_Avg > 0 AND Dep_Prazo_Avg <= 2000 THEN Dep_Prazo_Avg_Cod = "2";
ELSE IF Dep_Prazo_Avg > 2000 AND Dep_Prazo_Avg <= 5000 THEN Dep_Prazo_Avg_Cod = "3";
ELSE IF Dep_Prazo_Avg > 5000 AND Dep_Prazo_Avg <= 15000 THEN Dep_Prazo_Avg_Cod = "4";
ELSE IF Dep_Prazo_Avg > 15000 AND Dep_Prazo_Avg <= 50000 THEN Dep_Prazo_Avg_Cod = "5";
ELSE Dep_Prazo_Avg_Cod = "6";
Poupancas_Avg_Cod = "";
IF Poupancas_Avg = 0 THEN Poupancas_Avg_Avg_Cod = "1";
ELSE IF Poupancas_Avg > 0 AND Poupancas_Avg <= 2000 THEN Poupancas_Avg_Cod = "2";
ELSE IF Poupancas_Avg > 2000 AND Poupancas_Avg <= 5000 THEN Poupancas_Avg_Cod = "3";
ELSE IF Poupancas_Avg > 5000 AND Poupancas_Avg <= 15000 THEN Poupancas_Avg_Cod = "4";
ELSE IF Poupancas_Avg > 15000 AND Poupancas_Avg <= 50000 THEN Poupancas_Avg_Cod = "5";
ELSE Poupancas_Avg_Cod = "6";
77
Outro_Créditos_Avg_Cod = "";
IF Outro_Créditos_Avg = 0 THEN Outro_Créditos_Avg_Cod = "1";
ELSE IF Outro_Créditos_Avg > 0 AND Outro_Créditos_Avg <= 5000 THEN Outro_Créditos_Avg_Cod = "2";
ELSE IF Outro_Créditos_Avg > 5000 AND Outro_Créditos_Avg <= 15000 THEN Outro_Créditos_Avg_Cod
= "3";
ELSE IF Outro_Créditos_Avg > 15000 AND Outro_Créditos_Avg <= 30000 THEN Outro_Créditos_Avg_Cod
= "4";
ELSE IF Outro_Créditos_Avg > 30000 AND Outro_Créditos_Avg <= 50000 THEN Outro_Créditos_Avg_Cod
= "5";
ELSE IF Outro_Créditos_Avg > 50000 AND Outro_Créditos_Avg <= 100000 THEN
Outro_Créditos_Avg_Cod = "6";
ELSE IF Outro_Créditos_Avg > 100000 AND Outro_Créditos_Avg <= 200000 THEN
Outro_Créditos_Avg_Cod = "7";
ELSE IF Outro_Créditos_Avg > 200000 AND Outro_Créditos_Avg <= 300000 THEN
Outro_Créditos_Avg_Cod = "8";
ELSE Outro_Créditos_Avg_Cod = "9";
Crédito_Pessoal_Avg_Cod = "";
IF Crédito_Pessoal_Avg = 0 THEN Crédito_Pessoal_Avg_Cod = "1";
ELSE IF Crédito_Pessoal_Avg > 0 AND Crédito_Pessoal_Avg <= 5000 THEN Crédito_Pessoal_Avg_Cod =
"2";
ELSE IF Crédito_Pessoal_Avg > 5000 AND Crédito_Pessoal_Avg <= 15000 THEN
Crédito_Pessoal_Avg_Cod = "3";
ELSE IF Crédito_Pessoal_Avg > 15000 AND Crédito_Pessoal_Avg <= 30000 THEN
Crédito_Pessoal_Avg_Cod = "4";
ELSE IF Crédito_Pessoal_Avg > 30000 AND Crédito_Pessoal_Avg <= 50000 THEN
Crédito_Pessoal_Avg_Cod = "5";
ELSE IF Crédito_Pessoal_Avg > 50000 AND Crédito_Pessoal_Avg <= 100000 THEN
Crédito_Pessoal_Avg_Cod = "6";
ELSE IF Crédito_Pessoal_Avg > 100000 AND Crédito_Pessoal_Avg <= 200000 THEN
Crédito_Pessoal_Avg_Cod = "7";
ELSE Crédito_Pessoal_Avg_Cod = "8";
Crédito_Multiusos_Avg_Cod = "";
IF Crédito_Multiusos_Avg = 0 THEN Crédito_Multiusos_Avg_Cod = "1";
ELSE IF Crédito_Multiusos_Avg > 0 AND Crédito_Multiusos_Avg <= 5000 THEN
Crédito_Multiusos_Avg_Cod = "2";
ELSE IF Crédito_Multiusos_Avg > 5000 AND Crédito_Multiusos_Avg <= 15000 THEN
Crédito_Multiusos_Avg_Cod = "3";
ELSE IF Crédito_Multiusos_Avg > 15000 AND Crédito_Multiusos_Avg <= 30000 THEN
Crédito_Multiusos_Avg_Cod = "4";
ELSE IF Crédito_Multiusos_Avg > 30000 AND Crédito_Multiusos_Avg <= 50000 THEN
Crédito_Multiusos_Avg_Cod = "5";
ELSE IF Crédito_Multiusos_Avg > 50000 AND Crédito_Multiusos_Avg <= 100000 THEN
Crédito_Multiusos_Avg_Cod = "6";
ELSE Crédito_Multiusos_Avg_Cod = "7";
Direct_Debits_Amt_Cod = "";
IF Direct_Debits_Amt = 0 THEN Direct_Debits_Amt_Cod = "1";
ELSE IF Direct_Debits_Amt > 0 AND Direct_Debits_Amt <= 300 THEN Direct_Debits_Amt_Cod = "2";
78
ELSE IF Direct_Debits_Amt > 300 AND Direct_Debits_Amt <= 1000 THEN Direct_Debits_Amt_Cod = "3";
ELSE IF Direct_Debits_Amt > 1000 AND Direct_Debits_Amt <= 2000 THEN Direct_Debits_Amt_Cod = "4";
ELSE IF Direct_Debits_Amt > 2000 AND Direct_Debits_Amt <= 5000 THEN Direct_Debits_Amt_Cod = "5";
ELSE IF Direct_Debits_Amt > 5000 AND Direct_Debits_Amt <= 10000 THEN Direct_Debits_Amt_Cod =
"6";
ELSE Direct_Debits_Amt_Cod = "7";
Crédito_Aberto_Oic_Amt_Cod = "";
IF Crédito_Aberto_Oic_Amt = 0 THEN Crédito_Aberto_Oic_Amt_Cod = "1";
ELSE IF Crédito_Aberto_Oic_Amt > 0 AND Crédito_Aberto_Oic_Amt <= 500 THEN
Crédito_Aberto_Oic_Amt_Cod = "2";
ELSE IF Crédito_Aberto_Oic_Amt > 500 AND Crédito_Aberto_Oic_Amt <= 1000 THEN
Crédito_Aberto_Oic_Amt_Cod = "3";
ELSE IF Crédito_Aberto_Oic_Amt > 1000 AND Crédito_Aberto_Oic_Amt <= 5000 THEN
Crédito_Aberto_Oic_Amt_Cod = "4";
ELSE IF Crédito_Aberto_Oic_Amt > 5000 AND Crédito_Aberto_Oic_Amt <= 10000 THEN
Crédito_Aberto_Oic_Amt_Cod = "5";
ELSE IF Crédito_Aberto_Oic_Amt > 10000 AND Crédito_Aberto_Oic_Amt <= 50000 THEN
Crédito_Aberto_Oic_Amt_Cod = "6";
ELSE IF Crédito_Aberto_Oic_Amt > 50000 AND Crédito_Aberto_Oic_Amt <= 100000 THEN
Crédito_Aberto_Oic_Amt_Cod = "7";
ELSE IF Crédito_Aberto_Oic_Amt > 100000 AND Crédito_Aberto_Oic_Amt <= 200000 THEN
Crédito_Aberto_Oic_Amt_Cod = "8";
ELSE IF Crédito_Aberto_Oic_Amt > 200000 AND Crédito_Aberto_Oic_Amt <= 500000 THEN
Crédito_Aberto_Oic_Amt_Cod = "9";
ELSE Crédito_Aberto_Oic_Amt_Cod = "10";
Total_Descobertos_Amt_Cod = "";
IF Total_Descobertos_Amt = 0 THEN Total_Descobertos_Amt_Cod = "1";
ELSE IF Total_Descobertos_Amt > 0 AND Total_Descobertos_Amt <= 500 THEN
Total_Descobertos_Amt_Cod = "2";
ELSE IF Total_Descobertos_Amt > 500 AND Total_Descobertos_Amt <= 1000 THEN
Total_Descobertos_Amt_Cod = "3";
ELSE IF Total_Descobertos_Amt > 1000 AND Total_Descobertos_Amt <= 5000 THEN
Total_Descobertos_Amt_Cod = "4";
ELSE IF Total_Descobertos_Amt > 5000 AND Total_Descobertos_Amt <= 10000 THEN
Total_Descobertos_Amt_Cod = "5";
ELSE IF Total_Descobertos_Amt > 10000 AND Total_Descobertos_Amt <= 50000 THEN
Total_Descobertos_Amt_Cod = "6";
ELSE Total_Descobertos_Amt_Cod = "7";
Valor_Total_Crédito_Ja_Pago_Cod = "";
IF Valor_Total_Crédito_Ja_Pago = 0 THEN Valor_Total_Crédito_Ja_Pago_Cod = "1";
ELSE IF Valor_Total_Crédito_Ja_Pago > 0 AND Valor_Total_Crédito_Ja_Pago <= 500 THEN
Valor_Total_Crédito_Ja_Pago_Cod = "2";
ELSE IF Valor_Total_Crédito_Ja_Pago > 500 AND Valor_Total_Crédito_Ja_Pago <= 1000 THEN
Valor_Total_Crédito_Ja_Pago_Cod = "3";
ELSE IF Valor_Total_Crédito_Ja_Pago > 1000 AND Valor_Total_Crédito_Ja_Pago <= 5000 THEN
Valor_Total_Crédito_Ja_Pago_Cod = "4";
79
ELSE IF Valor_Total_Crédito_Ja_Pago > 5000 AND Valor_Total_Crédito_Ja_Pago <= 10000 THEN
Valor_Total_Crédito_Ja_Pago_Cod = "5";
ELSE IF Valor_Total_Crédito_Ja_Pago > 10000 AND Valor_Total_Crédito_Ja_Pago <= 50000 THEN
Valor_Total_Crédito_Ja_Pago_Cod = "6";
ELSE IF Valor_Total_Crédito_Ja_Pago > 50000 AND Valor_Total_Crédito_Ja_Pago <= 100000 THEN
Valor_Total_Crédito_Ja_Pago_Cod = "7";
ELSE IF Valor_Total_Crédito_Ja_Pago > 100000 AND Valor_Total_Crédito_Ja_Pago <= 200000 THEN
Valor_Total_Crédito_Ja_Pago_Cod = "8";
ELSE IF Valor_Total_Crédito_Ja_Pago > 200000 AND Valor_Total_Crédito_Ja_Pago <= 500000 THEN
Valor_Total_Crédito_Ja_Pago_Cod = "9";
ELSE Valor_Total_Crédito_Ja_Pago_Cod = "10";
Patrimonio_Financeiro = Dep_Ordem_Avg + Dep_Prazo_Avg + Poupancas_Avg;
Responsabilidades_Amt = Cre_Habitacao_Avg + Outro_Créditos_Avg + Crédito_Pessoal_Avg +
Crédito_Multiusos_Avg;
Patri_Liquido_Amt = Patrimonio_Financeiro - Responsabilidades_Amt;
Valor_Patrimonio_total = Patrimonio_Mob_Amt + Patrimonio_Imob_Amt;
Responsabilidades_Amt_Cod = "";
IF Responsabilidades_Amt = 0 THEN Responsabilidades_Amt_Cod = "1";
ELSE IF Responsabilidades_Amt > 0 AND Responsabilidades_Amt <= 2000 THEN
Responsabilidades_Amt_Cod = "2";
ELSE IF Responsabilidades_Amt > 2000 AND Responsabilidades_Amt <= 5000 THEN
Responsabilidades_Amt_Cod = "3";
ELSE IF Responsabilidades_Amt > 5000 AND Responsabilidades_Amt <= 15000 THEN
Responsabilidades_Amt_Cod = "4";
ELSE IF Responsabilidades_Amt > 15000 AND Responsabilidades_Amt <= 50000 THEN
Responsabilidades_Amt_Cod = "5";
ELSE IF Responsabilidades_Amt > 50000 AND Responsabilidades_Amt <= 100000 THEN
Responsabilidades_Amt_Cod = "6";
ELSE IF Responsabilidades_Amt > 100000 AND Responsabilidades_Amt <= 200000 THEN
Responsabilidades_Amt_Cod = "7";
ELSE Responsabilidades_Amt_Cod = "8";
Patri_Liquido_Amt_Cod = "";
IF Patri_Liquido_Amt < 0 THEN Patri_Liquido_Amt_Cod = "1";
ELSE IF Patri_Liquido_Amt = 0 THEN Patri_Liquido_Amt_Cod = "2";
ELSE IF Patri_Liquido_Amt > 0 AND Patri_Liquido_Amt <= 2000 THEN Patri_Liquido_Amt_Cod = "3";
ELSE IF Patri_Liquido_Amt > 2000 AND Patri_Liquido_Amt <= 5000 THEN Patri_Liquido_Amt_Cod = "4";
ELSE IF Patri_Liquido_Amt > 5000 AND Patri_Liquido_Amt <= 15000 THEN Patri_Liquido_Amt_Cod = "5";
ELSE IF Patri_Liquido_Amt > 15000 AND Patri_Liquido_Amt <= 50000 THEN Patri_Liquido_Amt_Cod =
"6";
ELSE IF Patri_Liquido_Amt > 50000 AND Patri_Liquido_Amt <= 100000 THEN Patri_Liquido_Amt_Cod =
"7";
ELSE IF Patri_Liquido_Amt > 100000 AND Patri_Liquido_Amt <= 200000 THEN Patri_Liquido_Amt_Cod =
"8";
ELSE Patri_Liquido_Amt_Cod = "9";
80
Global_Balance_Amt_Cod = "";
IF Global_Balance_Amt < 0 THEN Global_Balance_Amt_Cod = "1";
ELSE IF Global_Balance_Amt = 0 THEN Global_Balance_Amt_Cod = "2";
ELSE IF Global_Balance_Amt > 0 AND Global_Balance_Amt <= 2000 THEN Global_Balance_Amt_Cod =
"3";
ELSE IF Global_Balance_Amt > 2000 AND Global_Balance_Amt <= 5000 THEN Global_Balance_Amt_Cod
= "4";
ELSE IF Global_Balance_Amt > 5000 AND Global_Balance_Amt <= 15000 THEN
Global_Balance_Amt_Cod = "5";
ELSE IF Global_Balance_Amt > 15000 AND Global_Balance_Amt <= 50000 THEN
Global_Balance_Amt_Cod = "6";
ELSE IF Global_Balance_Amt > 50000 AND Global_Balance_Amt <= 100000 THEN
Global_Balance_Amt_Cod = "7";
ELSE IF Global_Balance_Amt > 100000 AND Global_Balance_Amt <= 200000 THEN
Global_Balance_Amt_Cod = "8";
ELSE Global_Balance_Amt_Cod = "9";
Valor_Patrimonio_total_Cod = "";
IF Valor_Patrimonio_total = 0 THEN Valor_Patrimonio_total_Cod = "1";
ELSE IF Valor_Patrimonio_total > 0 AND Valor_Patrimonio_total <= 2000 THEN
Valor_Patrimonio_total_Cod = "2";
ELSE IF Valor_Patrimonio_total > 2000 AND Valor_Patrimonio_total <= 5000 THEN
Valor_Patrimonio_total_Cod = "3";
ELSE IF Valor_Patrimonio_total > 5000 AND Valor_Patrimonio_total <= 15000 THEN
Valor_Patrimonio_total_Cod = "4";
ELSE IF Valor_Patrimonio_total > 15000 AND Valor_Patrimonio_total <= 50000 THEN
Valor_Patrimonio_total_Cod = "5";
ELSE IF Valor_Patrimonio_total > 50000 AND Valor_Patrimonio_total <= 100000 THEN
Valor_Patrimonio_total_Cod = "6";
ELSE IF Valor_Patrimonio_total > 100000 AND Valor_Patrimonio_total <= 200000 THEN
Valor_Patrimonio_total_Cod = "7";
ELSE Valor_Patrimonio_total_Cod = "8";
Gross_House_Hold_Income_Amt_Cod = "";
IF Gross_House_Hold_Income_Amt = "" THEN Gross_House_Hold_Income_Amt_Cod = "1";
ELSE IF Gross_House_Hold_Income_Amt = 0 THEN Gross_House_Hold_Income_Amt_Cod = "2";
ELSE IF Gross_House_Hold_Income_Amt > 0 AND Gross_House_Hold_Income_Amt <= 10000 THEN
Gross_House_Hold_Income_Amt_Cod = "3";
ELSE IF Gross_House_Hold_Income_Amt > 10000 AND Gross_House_Hold_Income_Amt <= 30000 THEN
Gross_House_Hold_Income_Amt_Cod = "4";
ELSE IF Gross_House_Hold_Income_Amt > 30000 AND Gross_House_Hold_Income_Amt <= 60000 THEN
Gross_House_Hold_Income_Amt_Cod = "5";
ELSE IF Gross_House_Hold_Income_Amt > 60000 AND Gross_House_Hold_Income_Amt <= 100000
THEN Gross_House_Hold_Income_Amt_Cod = "6";
ELSE Gross_House_Hold_Income_Amt_Cod = "7";
Patri_Finan_Cod = "";
IF Patrimonio_Financeiro < 0 THEN Patri_Finan_Cod = "1";
ELSE IF Patrimonio_Financeiro = 0 THEN Patri_Financeiro_Cod = "2";
ELSE IF Patrimonio_Financeiro > 0 AND Patrimonio_Financeiro <= 2000 THEN Patri_Finan_Cod = "3";
81
ELSE IF Patrimonio_Financeiro > 2000 AND Patrimonio_Financeiro <= 5000 THEN Patri_Finan_Cod = "4";
ELSE IF Patrimonio_Financeiro > 5000 AND Patrimonio_Financeiro <= 15000 THEN Patri_Finan_Cod =
"5";
ELSE IF Patrimonio_Financeiro > 15000 AND Patrimonio_Financeiro <= 50000 THEN Patri_Finan_Cod =
"6";
ELSE IF Patrimonio_Financeiro > 50000 AND Patrimonio_Financeiro <= 100000 THEN Patri_Finan_Cod =
"7";
ELSE IF Patrimonio_Financeiro > 100000 AND Patrimonio_Financeiro <= 200000 THEN Patri_Finan_Cod =
"8";
ELSE Patri_Finan_Cod = "9";
Outro_C_Atual_V_Ini_Cod = "";
IF Outro_Crédito_Atual_V_Inicial = 0 THEN Outro_C_Atual_V_Ini_Cod = "1";
ELSE IF Outro_Crédito_Atual_V_Inicial > 0 AND Outro_Crédito_Atual_V_Inicial <= 5000 THEN
Outro_Crédito_Atual_V_Ini_Cod = "2";
ELSE IF Outro_Crédito_Atual_V_Inicial > 5000 AND Outro_Crédito_Atual_V_Inicial <= 15000 THEN
Outro_C_Atual_V_Ini_Cod = "3";
ELSE IF Outro_Crédito_Atual_V_Inicial > 15000 AND Outro_Crédito_Atual_V_Inicial <= 30000 THEN
Outro_C_Atual_V_Ini_Cod = "4";
ELSE IF Outro_Crédito_Atual_V_Inicial > 30000 AND Outro_Crédito_Atual_V_Inicial <= 50000 THEN
Outro_C_Atual_V_Ini_Cod = "5";
ELSE IF Outro_Crédito_Atual_V_Inicial > 50000 AND Outro_Crédito_Atual_V_Inicial <= 100000 THEN
Outro_C_Atual_V_Ini_Cod = "6";
ELSE IF Outro_Crédito_Atual_V_Inicial > 100000 AND Outro_Crédito_Atual_V_Inicial <= 200000 THEN
Outro_C_Atual_V_Ini_Cod = "7";
ELSE IF Outro_Crédito_Atual_V_Inicial > 200000 AND Outro_Crédito_Atual_V_Inicial <= 300000 THEN
Outro_C_Atual_V_Ini_Cod = "8";
ELSE Outro_C_Atual_V_Ini_Cod = "9";
Valor_Total_Crédito_Real_Cod = "";
IF Valor_Total_Crédito_Realizado = 0 THEN Valor_Total_Crédito_Real_Cod = "1";
ELSE IF Valor_Total_Crédito_Realizado > 0 AND Valor_Total_Crédito_Realizado <= 500 THEN
Valor_Total_Crédito_Real_Cod = "2";
ELSE IF Valor_Total_Crédito_Realizado > 500 AND Valor_Total_Crédito_Realizado <= 1000 THEN
Valor_Total_Crédito_Real_Cod = "3";
ELSE IF Valor_Total_Crédito_Realizado > 1000 AND Valor_Total_Crédito_Realizado <= 5000 THEN
Valor_Total_Crédito_Real_Cod = "4";
ELSE IF Valor_Total_Crédito_Realizado > 5000 AND Valor_Total_Crédito_Realizado <= 10000 THEN
Valor_Total_Crédito_Real_Cod = "5";
ELSE IF Valor_Total_Crédito_Realizado > 10000 AND Valor_Total_Crédito_Realizado <= 50000 THEN
Valor_Total_Crédito_Real_Cod = "6";
ELSE IF Valor_Total_Crédito_Realizado > 50000 AND Valor_Total_Crédito_Realizado <= 100000 THEN
Valor_Total_Crédito_Real_Cod = "7";
ELSE IF Valor_Total_Crédito_Realizado > 100000 AND Valor_Total_Crédito_Realizado <= 200000 THEN
Valor_Total_Crédito_Real_Cod = "8";
ELSE IF Valor_Total_Crédito_Realizado > 200000 AND Valor_Total_Crédito_Realizado <= 500000 THEN
Valor_Total_Crédito_Real_Cod = "9";
ELSE Valor_Total_Crédito_Real_Cod = "10";
Valor_Med_cred_pedido_Cod = "";
82
IF Valor_Médio_crédito_pedido = 0 THEN Valor_Med_cred_pedido_Cod = "1";
ELSE IF Valor_Médio_crédito_pedido > 0 AND Valor_Médio_crédito_pedido <= 500 THEN
Valor_Med_cred_pedido_Cod = "2";
ELSE IF Valor_Médio_crédito_pedido > 500 AND Valor_Médio_crédito_pedido <= 1000 THEN
Valor_Med_cred_pedido_Cod = "3";
ELSE IF Valor_Médio_crédito_pedido > 1000 AND Valor_Médio_crédito_pedido <= 5000 THEN
Valor_Med_cred_pedido_Cod = "4";
ELSE IF Valor_Médio_crédito_pedido > 5000 AND Valor_Médio_crédito_pedido <= 10000 THEN
Valor_Med_cred_pedido_Cod = "5";
ELSE IF Valor_Médio_crédito_pedido > 10000 AND Valor_Médio_crédito_pedido <= 50000 THEN
Valor_Med_cred_pedido_Cod = "6";
ELSE IF Valor_Médio_crédito_pedido > 50000 AND Valor_Médio_crédito_pedido <= 100000 THEN
Valor_Med_cred_pedido_Cod = "7";
ELSE IF Valor_Médio_crédito_pedido > 100000 AND Valor_Médio_crédito_pedido <= 200000 THEN
Valor_Med_cred_pedido_Cod = "8";
ELSE IF Valor_Médio_crédito_pedido > 200000 AND Valor_Médio_crédito_pedido <= 500000 THEN
Valor_Med_cred_pedido_Cod = "9";
ELSE Valor_Med_cred_pedido_Cod = "10";
83
Anexo 6 - Tratamento de Outliers
84
Anexo 7 - Gráfico de Valor Inicial
85
Anexo 8 - Matriz de Correlação Inicial
86
Anexo 9 - Gráfico de Valor
87
Anexo 10 - Matriz de Correlação
88
Anexo 11 - Lista de variáveis com correlação acima ou igual a 0,7
Age Age 1.0
Patrimonio_Imob_Amt Valor_Patrimonio_total (*) 0.9943814768810855
Crédito_Pessoal_Atual_V_Inicial (*) Crédito_Pessoal_Avg 0.8813930838972943
Responsabilidades_Amt (*) Patri_Liquido_Amt -0.94188882854801
89
Anexo 12 - Matriz de Correlação Final
90
Anexo 13 - Gráfico final de valor
91
Anexo 14 – Lucro obtido com a aplicação da rede neuronal 4, com as 25 variáveis
92
Anexo 15 – Analise da importância das variáveis e valor de lucro obtido com Rede Neuronal 4 e com as sete variáveis
(Melhor valor obtido)
93