tegi0258

Upload: zhang-yi-ling

Post on 22-Jul-2015

35 views

Category:

Documents


0 download

TRANSCRIPT

Credit Scoring:Aplicao da Regresso Logstica vs Redes Neuronais Artificiais na Avaliao do Risco de Crdito no Mercado Cabo-Verdiano.

por

Danilson Pedro da Veiga Semedo

Dissertao apresentada como requisito parcial de obteno do grau de

Mestre em Estatstica e Gesto de Informao

Pelo

Instituto Superior de Estatstica e Gesto de Informao da Universidade Nova de Lisboa

Credit scoring:Aplicao da Regresso Logstica vs Redes Neuronais Artificiais na Avaliao do Risco de Crdito no Mercado Cabo-Verdiano.

Orientador: Professor Doutor Fernando Jos Ferreira Lucas Bao

Novembro de 2009

2

minha famlia e Telma

3

AgradecimentoGostaria de expressar a minha gratido ao meu orientador Professor Doutor Fernando Jos Ferreira Lucas Bao, pelo apoio e amizade. Ao Dr. Lus Antnio Ribeiro Choro, pelos ensinamentos economtricos que me apresentou desde os tempos de licenciatura, o que fez com que criasse curiosidade intelectual e vontade prpria de me dedicar temtica do credit

scoring, bem como pela disponibilidade e sugestes com as quais enriqueceu apresente dissertao. Fico igualmente reconhecido ao Dr. Emanuel de Jesus Miranda, e ao Banco Comercial do Atlntico pela possibilidade que me conferiram em aceder base de dados de crdito ao consumo, bem como Luclia Semedo, pela disponibilidade e prontido no esclarecimento de dvidas relativas base de dados. Um agradecimento especial Fundao Cidade de Lisboa e ao Banco de Portugal patrocinadores deste mestrado. A todos os amigos do ISEGI, em especial ao Ricardo Vinhas, Nuno Trezentos, Elisabete Paulo, Clia Correia e Joo Paulo Segundo. So, tambm, extensveis os meus agradecimentos ao Dr. Joo Remgio e ao Dr. Andr Melo, pelos momentos de discusso que me proporcionaram em torno do

credit scoring. Telma, pela companhia e pacincia que demonstrou ao longo dos muitos dias de estudo e trabalho. Aos meus Pais pelo apoio, coragem, incentivo e pacincia que teve ao longo destes ltimos tempos, a fim que este projecto se tornasse realidade. 4

... O negcio de um banco o risco! H que reconhec-lo, mensur-lo e, no sendo possvel bani-lo, mister control-lo!. (Choro 2005, 121)

5

ResumoA gesto de risco de crdito sem dvida uma das reas mais importantes no domnio da gesto de risco financeiro. Com a recente crise financeira, e as alteraes a nvel da regulao introduzidas pelo acordo de Basileia II, a anlise do risco de crdito e a gesto do risco em geral, tm recebido ainda mais ateno pela indstria financeira. A capacidade de discriminar bons e maus clientes tornou--se um factor decisivo para o sucesso das empresas que operam na indstria do crdito, impulsionando-as a agir de acordo com um processo de avaliao de risco mais fino. Nos pases desenvolvidos, os modelos de credit scoring tm sido largamente utilizados neste sentido. Contudo, em Cabo Verde estas tcnicas ainda esto numa fase embrionria. As instituies financeiras continuam a utilizar mecanismos indirectos de gesto de risco. Neste ambiente, alguns bancos tm procurado alinhar se s melhores prticas internacionais de gesto de risco. Neste trabalho so apresentadas duas ferramentas para a elaborao de modelos de

credit scoring aplicado a uma base de dados de crdito ao consumo de uma grandeinstituio financeira Cabo-Verdiana. Depois da fase de preparao do dos dados e definida todos os parmetros (definio da target, amostra de desenvolvimento e perodo de classificao), foram estimados vrios modelos logit e vrias redes neuronais multicamadas segundo diversos subconjuntos de treino/teste formados. Por fim o desempenho dos modelos comparada com base em medidas comummente utilizados na avaliao de modelos de risco de crdito para eleger o modelo que melhor se ajusta realidade Cabo-Verdiana. Apesar dos testes estatisticos indicarem que os modelos apresentam Verde. desempenhos estatisticamente semelhantes, as redes neuronais representam uma promissora tcnica para a anlise e concesso de crdito em Cabo

Palavras-chaves: Credit scoring, modelo logit, curva ROC, redes neuronais multicamadas.

6

AbstractCredit risk managment, is undoubtely one of the most important area in the field of financial risk management. With the recent regulatory changes introduced by the Basel II, the credit risk analysis in particular and risk management in general, have received more attention by the financial industry. The capacity to discriminate between good and bad accounts has become a key decision factor for the success of the credit industry companies, empeling them to act according to a more sophisticated risk management process. In developed countries, credit scoring has beem widely used in this sence. However, in Cape Verde, these techniques are still in its infancy. Financial institutions continue to use indirect mechanisms of adjudication process based on credit analyst feelings. In this environment, some banks have sought to align itself with international best practice risk management by introducing more accurate evaluation of credit. This work consists in comparing two diferent tools for the elaboration of a credit scoring model applied to a credit consumer database from a big financial instituition of Cape Verde. After database preparation and definition of the project parameter (default, sample window, performance windows) various logit models and several multilayer perceptron networks were estimated, according to different train/test subgroups formed. Finally, the performance of the models are compared based on measures commonly used to evaluate models of credit risk to elect the model that best fits the reality of Cape Verdean. Despite the statistical tests indicate that the models show statistically similar performances, neuronal networks represent a promising technique for credit adjudication process in Cape Verde. Palavras-chaves: Credit scoring, modelo logit, curva ROC, redes neuronais multicamadas.

7

ndice Resumo .............................................................................................................................. 6 1 Introduo ................................................................................................................ 10 1.1 Motivao e relevncia do trabalho .................................................................... 12 1.2 Objectivos.......................................................................................................... 14 1.3 Organizao da dissertao ................................................................................ 14 2 Credit Scoring .......................................................................................................... 16 2.1 Histria do credit scoring................................................................................... 16 2.2 Filosofia de credit scoring.................................................................................. 18 2.2.1 Scoring versus objectivos de negcio ......................................................... 20 2.3 Mtodos utilizados em credit scoring ................................................................. 21 2.4 Vantagens e desvantagens do credit scoring, ...................................................... 24 2.5 Actividade de crdito em Cabo Verde ................................................................ 25 2.6 Condicionantes da actividade de crdito e benefcios da introduo do credit scoring em Cabo verde ................................................................................................. 28 2.7 Superviso e gesto de risco de crdito no sector bancrio em Cabo Verde. ...... 30 3 Caracterizao da base de dados de anlise ............................................................... 32 3.1 Qualidade da base de dados................................................................................ 34 3.2 Janela de amostragem e perodo de classificao. ............................................... 36 3.3 Definio de bom, mau e indeterminado. ........................................................... 37 3.4 Inferncia dos rejeitados .................................................................................... 39 3.4.1 Parceling ..................................................................................................... 40 3.4.2 Augumentation (dados aumentados) ........................................................... 41 3.4.3 Classificao de rejeitados como clientes maus ........................................... 41 3.4.4 Utilizao de informao de mercado.......................................................... 41 3.4.5 Potenciais benefcios da utilizao da inferncia dos rejeitados ................... 42 3.5 Seleco das variveis ........................................................................................ 43 4 Modelo de regresso logstica (Logit) ....................................................................... 46 4.1 Regresso logstica histria ................................................................................ 46 4.2 Especificao do modelo .................................................................................... 47 4.2.1 Modelo de Probabilidade Linear ................................................................. 47 4.2.2 Derivao do Modelo de Regresso Logstica Binomial. ............................. 49 4.2.3 Estimao do modelo .................................................................................. 51 4.3 Testes de significncia do modelo ...................................................................... 54 4.3.1 Teste de razo de verosimilhana ................................................................ 54 4.3.2 Teste de significncia dos parmetros (testes de Wald) ............................... 56 4.3.3 Teste de score (teste de multiplicadores de Lagrange) ................................. 56 4.4 Medidas de associao mltipla entre variveis as independentes e a varivel dependente. .................................................................................................................. 57 4.4.1 Pseudo R2 (teste de McFadden) ................................................................... 57 4.4.2 R2 de Cox e Snell ........................................................................................ 58 4.4.3 R2 de Nagelkerke ........................................................................................ 58 4.5 Medidas de qualidade do ajustamento ................................................................ 59 4.5.1 Testes de Hosmer e Lemeshow ................................................................... 59 4.5.2 Anlise de resduos ..................................................................................... 60 8

5

6

7 8 9

4.5.3 Curva ROC ................................................................................................. 63 Redes Neuronais Artificiais ...................................................................................... 67 5.1 Inspirao Biolgica: O Crebro Humano .......................................................... 68 5.2 Os componentes de uma Rede Neuronal Artificial ............................................. 69 5.3 Redes Neuronais Artificiais: Histria ................................................................. 73 5.4 Tipos de Redes Neuronais Artificiais ................................................................. 76 5.5 Tipos de aprendizagem ...................................................................................... 78 5.5.1 Aprendizagem por reforo .......................................................................... 79 5.5.2 Aprendizagem Supervisionada .................................................................... 79 5.5.3 Aprendizagem no-supervisionada .............................................................. 80 5.6 Redes Multi Layer Perceptron (multicamadas). ................................................. 81 5.6.1 Perceptron de uma nica camada. ............................................................... 81 5.6.2 Arquitectura de redes multicamdas (MLP) .................................................. 83 5.6.3 Algoritimo Backpropagation ....................................................................... 84 5.6.4 Consideraes sobre o Algoritmo Backpropagation .................................... 91 5.7 Redes Neuronais e modelos economtricos ...................................................... 104 5.8 Principais vantagens e limitaes das Redes Neuronais .................................... 106 Resultados da estimao dos modelos..................................................................... 108 6.1 Regressso Logstica ........................................................................................ 108 6.2 Redes Neuronais .............................................................................................. 112 Concluso: ............................................................................................................. 114 Limitaes.............................................................................................................. 117 Bibliography .......................................................................................................... 118 Apendices .................................................................................................................. 124 Apendice A Modelo logit com conjunto de treino de 80% ................................... 124 Apendice B Fit statistics RMSE .............................................................................. 126

9

Captulo I

1 IntroduoA gesto de risco representa um dos principais problemas enfrentado pelas instituies financeiras, desde o inicio da sua actividade. Isso ocorre, porque os bancos e as instituies financeiras em geral, tm como principal funo a intermediao financeira. No desenvolvimento da sua actividade de intermediao financeira, esto sujeitas a uma srie de riscos, designadamente quando realizam operaes que envolvem activos, passivos e elementos extrapatrimonias. Em relao s operaes de crdito, o banco concede crdito a outros agentes econmicos, sob a promessa de um recebimento futuro do capital mutuado e juros de acordo com o plano de reembolso contratado. Existe, contudo na carteira de crdito da instituio, muturios que podem no vir a cumprir as obrigaes monetrias contratados implicando prejuzos que tero de ser cobertos com as necessrias provises. A este no cumprimento das responsabilidades por parte do solicitante de crdito chama-se de default1. Nos ltimos anos devido sobretudo a presses regulamentares, as instituies financeiras tm procurado criar metodologias mais eficientes para aferir a probabilidade de incumprimento esperado em cada operao de crdito. Contudo, s recentemente, com a crise do crdito sub-prime hipotecrio nos Estados Unidos e, a consequente crise do mercado de crdito mundial, os consumidores, instituies financeiras e supervisores se aperceberam efectivamente da sua importncia. No mbito internacional, tem ocorrido de forma cada vez mais acelerada, uma revoluo na forma como as instituies financeiras tm avaliado o incumprimento, atravs de desenvolvimento de modelos internos de quantificao de risco.

1

De acordo com o novo acordo de Basileia II, considera-se que um indivduo est em situao de default desde que apresente um atraso superior a noventa dias no pagamento das prestaes.

10

Em Cabo Verde, o processo decisrio essencialmente intuitivo, estruturando-se no feeling e na experincia dos analistas de crdito. Habitualmente so analisadas variveis, tais como a taxa de endividamento (rcio entre os custos mensais do agregado familiar e o respectivo ordenado lquido; bens mveis e imveis do agregado; Profisso; Tipo de contrato de trabalho; estabilidade no emprego averiguvel pela antiguidade na entidade patronal; nvel dos saldos mdios nas contas bancrias do cliente; Entrada inicial face ao valor de preo de venda ao pblico e idades dos proponentes. Tendo em conta estes parmetros, os analistas, recorriam-se ao seu savoir faire para ponderar os prs e os contras, colocando-os numa balana mental para avaliar o risco de crdito, isto , para calcular a probabilidade de default do cliente. Recentemente, comea-se assistir a introduo de modelos de scoring genricos para aquilatar se um determinado indivduo tem perfil de bom ou mau pagador. O aumento da concorrncia entre as instituies financeiras e a crescente presso para a maximizao das receitas impulsionam as instituies financeiras, a procurarem mecanismos mais eficientes de atrair novos clientes com baixo perfil de risco e ao mesmo tempo controlar e minimizar as perdas. O aparecimento de novas tecnologias, o aumento da procura por crdito, bem como por uma questo de qualidade de servio a necessidade de responder o mais rpido possvel s solicitaes levou ao desenvolvimento e aplicao de sofisticados modelos estatsticos na gesto de risco de crdito, designados por credit scoring. Os modelos de credit scoring so sistemas que atribuem scores s variveis de deciso de crdito de um requerente, mediante a aplicao de tcnicas estatsticas. Esses modelos visam sumariar todas as caractersticas que permitem distinguir os bons dos maus emprstimos (Lewis, 1992). A partir de uma equao estimada com base nas caractersticas dos solicitantes de crdito, gerado um score que representa o risco de perda de cada operao. O score que resulta da equao, interpretado como probabilidade de incumprimento que comparado com um cut-off prviamente estabelecido associado a um conjunto de regras e filtros, permite ajuizar quanto concesso ou no de crdito. Assim, a idia bsica dos modelos de credit scoring identificar certos factores chave que influenciam a probabilidade de incumprimento dos clientes, permitindo a

11

classificao dos mesmos em grupos distintos e como consequncia, a deciso sobre a aceitao ou no da proposta em anlise. Os mtodos usados em credit scoring incluem vrias tcnicas estatsticas e de investigao operacional, sendo as mais utilizadas a regresso logstica, a anlise discriminante e as rvores de deciso (Choro 2005). Recentemente perante o advento das novas tecnologias (aumento da capacidade de processamento) e, ao aparecimento de softwares estatsticos nos anos 80, assistimos a adopo de tcnicas de inteligncia artificial, como as redes neuronais e os expert systems (L. C. Thomas 2009).

1.1

Motivao e relevncia do trabalhoA concesso de crdito desempenha um papel fundamental no desenvolvimento

de uma economia, em decorrncia da dinmica que introduz no processo econmico, seja como uma oportunidade para as empresas (especialmente as pequenas e mdias empresas) aumentarem os seus nveis de produo ou como estmulo ao consumo dos indivduos. Segundo (Baptista 2006), o reconhecimento de que os mercados financeiros, atravs do negcio de crdito privado, contribuem para o desenvolvimento econmico, bem marcante na literatura financeira, desde (Schumpeter 1911) at (Levine 1997). A ttulo de exemplo, o mercado de crdito ao consumo nos Estados Unidos tem demonstrado que estabilidade econmica baseada em polticas slidas de crdito sinnimo de prosperidade econmica, baixas taxas de desemprego e baixas taxas de juro. Ao longo das ltimas dcadas o crdito ao consumo nos Estados Unidos tem crescido num ritmo fenomenal tendo atingido em 2007 a marca de $13 trilies, superando em 40% o crdito concedido ao sector industrial e, em 24% ao crdito s empresas (L. C. Thomas 2009). A par de outros factores, o credit scoring, dado o automatismo que assegura foi o factor que mais permitiu a abertura do mercado de crdito a todos os consumidores, mantendo o risco num nvel controlvel. Em Cabo Verde a indstria do crdito bem menor dos pases desenvolvidos, todavia, o crdito ao consumo vem apresentando altas taxas de crescimento ao longo dos

12

ltimos anos. Segundo dados do Banco de Cabo Verde2 o crdito ao sector privado representa 45% do total do crdito concedido tendo registado em 2007 um crescimento de 30% face a 2006. Outros indicadores tais como o aumento expressivo da aceitao e utilizao dos cartes de crdito e, o volume de transaces, associados ao facto de ter uma populao maioritariamente jovem, bem como a alterao dos padres de vida e o aumento verificado na procura por crdito a habitao, oferece um enorme potencial de crescimento do mercado de crdito ao consumo no pas, quando comparado com as tendncias globais. Contudo, se no existirem metodologias eficazes de previso de incumprimento esperado e, controlo do processo de concesso de limites, as mesmas operaes de crdito podem levar a economia a um processo de abrandamento, em decorrncia de retraces das fontes financiadoras. Assim, para fazer face ao esperado desenvolvimento que Cabo Verde ainda conhecer e assegurar um crescimento sustentado do mercado de crdito ao consumo, imprescindvel sistemas de credit

scoring que permitam aos bancos e instituies financeiras avaliar automticamente osriscos assumidos na concesso do crdito. Ademais, este trabalho justifica-se pela crescente importncia e actualidade dos modelos de credit scoring resultante das alteraes a nvel da regulao introduzidas pelo acordo de Basileia II3. Com este estudo pretende-se contribuir para o processo de gesto de risco de crdito em Cabo Verde, caracterizado por carentes instrumentos de avaliao e controlo do risco de crdito.

23

Boletim Econmico Banco de Cabo Verde Fevereiro 2009.Bassileia II assenta em trs pilares:

Pliar I: Calculo do capital regulamentar de acordo com o rating das contrapartes ou de estimativas internas de probabilidades de default (PD), severidade da perda ( loss given default, LGD) e o valor da exposio em caso de incumprimento (Exposure at default, EAD). Pliar II: Anlise da adequao do capital resultante da aplicao das frmulas pr-definidas com a interveno da autoridade de superviso. Pilar III: Disclosure da informao de gesto baseado no risco.

13

1.2

Objectivos

O fenmeno de credit scoring ainda pouco conhecido, no caso especfico de Cabo Verde. Perdura ainda uma lacuna em termos de investigao cientfica sobre a matria, uma vez que, grande parte das instituies que operam no mercado no dispe de informao sistematizada e com antiguidade suficiente que sirva de suporte ao desenvolvimento de modelos de scoring. Com efeito, muitas questes se nos levantam: A informao de incumprimento existente em Cabo Verde suficiente para desenvolver um modelo de credit scoring robusto? Que tcnicas de desenvolvimento de modelos de credit scoring melhor se ajusta realidade de Cabo Verde? A presente dissertao tem por finalidade elaborar um modelo de credit scoring baseado num modelo economtrico e um modelo gerado a partir das redes neuronais artificiais para avaliao de risco de crdito relativo a solicitaes de crdito ao consumo.

1.3

Organizao da dissertao

Esta dissertao desenvolve-se ao longo de seis captulos. O conjunto de objectivos propostos anteriormente traduz, ainda que parcialmente, o modo como o trabalho foi estruturado. Nesta seco ao apresentar a organizao da dissertao, pretende-se orientar o leitor nas linhas seguidas ao longo do seu desenvolvimento. Assim, aps uma introduo, o segundo captulo, apresenta uma perspectiva histrica dos modelos de credit scoring, a sua filosofia de funcionamento, a sua aplicao em diferentes fases do ciclo de vida de uma operao de crdito e, a sua relao com os objectivos de negcio. Apresenta-se ainda, os mtodos utilizados na sua elaborao bem como as suas vantagens e limitaes. Por fim, faz-se uma breve reviso da actividade de crdito em

14

Cabo Verde, os condicionalismos ao seu desenvolvimento e os benefcios da introduo do credit scoring no mercado de crdito em Cabo Verde. O captulo 3 dedica-se temtica da qualidade da base de dados. Comea por descrever a base de dados considerada na elaborao da dissertao, desde a seleco da janela de amostragem e o respectivo perodo de classificao, passando pelo processo de preparao dos dados, indivduos considerados na modelao e seleco das variveis. Os captulos 4 e 5 apresentam as duas metodologias consideradas na dissertao. Por fim, so apresentadas algumas concluses gerais sobre o trabalho realizado.

15

Captulo II

2 Credit ScoringDesde 1960 credit scoring tem revolucionado profundamente os processos de deciso de crdito. O seu sucesso deveu-se em grande parte ao advento dos computadores que alterou completamente o Back-office das Instituies financeiras (Raymond, 2007).

2.1

Histria do credit scoringEm 1936, o Estaticista Ingls, Ronald Aymer Fisher publicou um artigo sobre a

utilizao da tcnica denominada de Anlise discriminante linear para classificar diferentes espcies de flores do gnero ris: ris setosa, ris versicolor e ris verginica, analisando o comprimento e largura das spalas e ptalas. O trabalho de Fisher forneceu as bases de anlise estatstica multivariada que veria a ser utilizado posteriormente em vrios problemas de classificao mormente credit scoring. Em 1941, David Durand no seu estudo para National Bureau of Economic Research (EUA), demonstrou que a mesma tcnica poderia ser utilizada para discriminar bons e maus emprstimos. Segundo (Johnson, 2004) o estudo analisa 7200 observaes de bons e maus emprstimos relativos a 37 empresas baseado na informao da idade, gnero, antiguidade no emprego, antiguidade na habitao, profisso, sector de actividade, contas bancrias, seguros de vida e valor da prestao mensal. Mais tarde, porm no mesmo ano, os Estados Unidos v-se envolvida na Segunda Guerra Mundial e muitas instituies de crdito e de direct mailing comearam a enfrentar grandes dificuldades de gesto de crdito. Muitos analistas de crdito foram recrutados para servio militar, o que provocou uma escassez de recursos humanos com Know-

how adequado para a funo, numa altura em que a deciso quanto concesso decrdito era subjectiva, dependendo, sobretudo, da experincia do analista, sem haver, portanto qualquer aplicao da tcnica estatstica. (Lewis, 1992) refere que Henry Wells, executivo da Spiebel Inc corporation, foi o primeiro a recorrer s tcnicas de estatstica multivariada para desenvolver modelos de credit scoring... Alguns anos depois, por volta

16

do ano de 1946, o senhor Wonderlic, ento presidente da empresa Household Finance

Corporation, desenvolveu um Guia de credit scoring. E f-lo recorrendo igualmente stcnicas de estatstica multivariada. Apesar dos significativos progressos registados nas metodologias dos sistemas de

credit scoring, durante a segunda Guerra Mundial e, de estar provada a sua importncia,dois factores inibiram desde logo a sua adopo: primeiramente, a resistncia organizacional em utilizar os computadores no processo de deciso, e em segundo lugar, a complexidade dos algoritmos e a dificuldade de implementao dos modelos nos postos de trabalho... Mas era s uma questo de tempo! Em 1956, com a fundao da primeira consultora na rea, pelo matemtico, Bill Fair e pelo engenheiro Earl Isaac, o credit scoring torna-se efectivamente um factor significativo na indstria do crdito. Inicialmente criaram um sistema de biling para a gesto de cartes de crdito do grupo Hilton Hotels. Dois anos mais tarde introduziram o conceito de credit scoring, e em 1958, produziram o primeiro modelo de scoring aplicacional. Uma vez que permitiam a avaliao em massa, so as empresas ligadas ao

direct mailing e grandes cadeias de distribuio seguidas das de leasing que,primeiramente, utilizaram o conceito de credit scoring (Choro 2005). Durante a segunda metade dos anos 60, as empresas petrolferas incorreram em enormes perdas devido a problemas com a gesto das operaes de crdito, nomeadamente, o aumento estrutural dos eventos de incumprimento e roubos de cartes de crdito. Em resposta implementaram modelos de credit scoring. Nesta altura, os cartes eram emitidos sem anuidades, o que provocou, por um lado, um aumento significativo de pessoas a recorrem ao crdito, e por outro, aumento da concorrncia. Muitos dos emissores de cartes de crdito de ento, eram confrontados com grandes volumes de solicitaes e experimentaram avultosas perdas. (Lewis, 1992) conclui que, este facto constitui a principal razo associada introduo dos modelos de scoring, pelo controlo que assegura sobre a carteira de crdito. O sucesso de credit scoring no foi imediato. O facto dos modelos estatsticos removerem toda a interveno humana no processo de deciso no inspirava confiana em muitos adeptos da avaliao manual (tradicional). Apesar das resistncias, credit

scoring foi ganhando aceitao e, afirmou-se definitivamente em 1974 aquando daimplementao do Fair Credit Reporting ACT e Equal Credit Opportunity Act em

17

1975/1976. Este facto tornou a discriminao ilegal no processo de atribuio de crdito, a no ser que empiricamente provado e validado estatisticamente. Na altura, a nica restrio, era a capacidade de processamento necessrio. Os computadores de ento, IBM 7090 mainframe, eram grandes, pouco eficientes comparado com os padres actuais. Pois que, s conseguiam processar simultaneamente 26 variveis num conjunto de 600 observaes (Meys e Forgey 1963). O sucesso do credit scoring na concesso de cartes de crdito nos anos 80, fez com que as instituies bancrias o aplicassem a outros tipos de bens, como o crdito pessoal, automvel e hipotecrio e, desta forma verem aumentados os seus lucros.

2.2 Filosofia de credit scoringA previso do risco e, o credit scoring em particular uma rea que mais desenvolvimento tem conhecido em finanas nos anos mais recentes. A par da gesto do

portfolio, princing options, (e outros instrumentos financeiros), credit scoring representauma importante ferramenta de estimao e reduo do risco de crdito. Na extensa literatura existem vrias definies de credit scoring. Por exemplo (Lewis 1992) define credit scoring, como um processo em que a informao sobre o solicitante convertida em nmeros que de forma combinada forma um score. Este score representa o perfil de risco do solicitante; (Mester 1997) acrescenta que um mtodo estatstico usado para prever a probabilidade de um solicitante entrar em incumprimento. Usando dados histricos, o credit scoring isola as caractersticas dos solicitantes que entraram em situao de default produzindo, ento, um score que a instituio utiliza para classificar o candidato ao crdito em termos de risco (p. 3) e, decidir quanto concesso do crdito. Utilizado inicialmente como uma poderosa ferramenta de suporte deciso crdito, (crdito habitao, automvel, cartes de crdito, crdito clssico, e crdito a pequenas e mdias empresas) o credit scoring, actualmente, usado para gerir e monitorizar o risco de incumprimento de todo o portflio de crdito de uma instituio financeira, incluindo empresas, autoridades locais, e emprstimos especializados (Project

18

finance e imobiliria comercial). Hoje em dia no so usados exclusivamente no processode deciso de crdito, tm tido aplicabilidade em diversos contextos como, o pricing, provises, capital econmico/regulamentar e titularizao, como mais adiante se explicar. Dado o sucesso dos modelos de scoring aplicacionais na indstria do crdito dos nossos dias, as instituies financeiras comearam a aplic-los a outras reas do negcio. Os modelos de scoring aplicacionais/reactivos tm como objectivo, determinar o perfil de risco de um novo solicitante de crdito no momento da anlise da proposta. Porm, a gesto do risco de uma operao de crdito, no se resume avaliao do risco inicial (risco no momento da anlise). Importa igualmente, monitorizar o risco de crdito em toda a sua amplitude. Este acompanhamento normalmente feito recorrendo a outro conjunto de modelos de scoring. Por exemplo, temos modelos conhecidos na literatura como modelos comportamentais, onde se estima a propenso aquisio de um determinado bem (nomeadamente os modelos de response scoring4 associados normalmente ao marketing); modelo de reteno, (attrition/churn), onde se procura identificar os clientes com maior probabilidade de abandonar a instituio. medida que o mercado de crdito se desenvolve, verifica-se que os modelos de

scoring tm sido caracterizados por uma crescente sofisticao de algoritmos. (L. C.Thomas 2009) refere que estamos na era da terceira gerao dos modelos de credit

scoring, denominados por profit scoring, onde se pretende avaliar no s o perfil de riscodo solicitante de crdito, mas igualmente, a probabilidade do candidato ao crdito dar lucro instituio, no sendo a avaliao apenas baseada no risco. O resumo dos diferentes modelos de scoring usados nas diversas fases do ciclo de vida de uma operao de crdito apresentado na figura 2.1.

4

A aquisio de novos cliente um processo muito dispendioso, especialmente as campanhas de mailing.

Neste caso as instituies financeiras recorrem frequentemente aos modelos de response scoring para restringir o mailing aos clientes com maior propenso (probabilidade) de vir a responder a uma determinada campanha e portanto resultar numa relao lucrativa para a empresa.

19

PreapplicationResponse score

Application

PerformancePerformance score

CollectionCollection socre

Application score

Fraud score

Behavioral score

Retention scoreFigura. 2.1 Modelos de scoring usados em diferentes fases do ciclo de vida de uma operao de crdito. Fonte: Adaptado de (Gestel e Baesens 2009)

2.2.1 Scoring versus objectivos de negcioAs tcnicas de scoring so aplicadas tendo em vista diferentes objectivos de negcio. O objectivo principal do scoring melhorar o processo de seleco de bons clientes de modo a reduzir perdas futuras. Dado o seu sucesso, os sistemas de scoring tornaram-se um factor de deciso chave, ou se quisermos uma ferramenta de suporte deciso imprescindvel na quantificao e gesto do risco. Os scores gerados pelo modelo so utilizados para calcular a perda mxima (expected loss) da carteira de crdito de uma instituio e, consequentemente, determinar o nvel de provises necessrio para cobrir a perda mxima esperada. Para determinar a perda esperada, o risco de incumprimento da carteira de crdito precisa ser adequadamente quantificado e os scores tm demonstrado ser um importante input. Os

scores so igualmente utilizados para determinar o montante de capital necessrio paraproteger as instituies financeiras e os depositantes de perdas inesperadas - capital econmico/regulamentar.

20

Outra rea recente de aplicao do credit score o pricing: risk-based pricing (tambm denominado de risk-adjusted pricing) consiste em determinar o preo do produto tendo em conta o perfil de risco do cliente, dado pelo score que lhe est associado. Muitas instituies financeiras utilizam-no igualmente para segmentar a carteira de crdito em classes homogneas de risco e vender a investidores terceiros, como forma de reduo do risco. Este processo designa-se por titularizao. Algumas instituies no financeiras tm utilizado o credit score, e mais especificamente os bureau score, para melhorar os seus processos de deciso. So exemplos, as empresas de telecomunicaes e as de electricidade. Na presente dissertao pretende-se abordar os modelos de credit scoring sob o ponto vista aplicacional. Assim o uso da terminologia credit scoring deve ser entendido neste mbito.

2.3 Mtodos utilizados em credit scoringThe tools of credit scoring are based on statistical and operational research techniques and are some of the most successful and profitable aplications of statistics theory in the last 20 years. Crook, Edelman, and Thomas (1992) Nesta seco apresenta-se um resumo dos principais mtodos paramtricos e no paramtricos utilizados em credit scoring, focando-se particularmente na regresso logstica e nas redes neuronais. A tabela que se segue apresenta um resumo dos mtodos utilizados:

21

ModeloRegresso Linear Anlise discriminante

Principais TcnicasMinimos quadrados ordinrios Distncia de Mahalanobis

ResumoAdequada em situaes em que a varivel resposta contnua Classifica os objectos em grupos pr-definidas,minimizando varincia a

Regresso Logstica rvores de deciso

Estimadores verossimilhana Chaid

de

mxima

Adequada em situaes em que a varivel resposta binria Utiliza a estrutura da rvore para maximizar grupos a varincia entre-

Redes Neuronais

Perceptro multicamada

Tcnica de inteligncia artificial. Os resultados so difcies de explicar.

Programao Linear

Mtodo simplex

Muito utilizado na optimizao de alocao de recursos

Tabela 1- Resumo das tcnicas estatsticas usadas em credit scoring. Fonte: Adaptado a (Raymond 2007) (p 163)

Ao longo dos anos tm sido propostas muitas abordagens do domnio do credit

scoring. Cada uma com as suas virtudes e defeitos, dependendo em primeiro lugar dainformao disponvel (base dados utilizada) e, em segundo lugar dos aspectos relacionados com a modelao. A regresso logstica, a programao linear e a anlise discriminante so os mtodos mais utilizados. Ainda que a maioria dos mtodos apresente nveis de desempenho semelhantes5, tem sido feito um esforo por parte dos investigadores no sentido de encontrar o mtodo que melhor serve os propsitos de credit scoring. No entanto, qualquer que seja a tcnica utilizada correcto afirmar que a indstria financeira pretende em primeiro lugar modelos que tenham interpretabilidade e transparncia e, em segundo lugar modelos que sejam facilmente implementveis (Choro 2005). A facilidade de5

(Thomas e N. Crook 2002), Apresenta um bom resumo de vrios estudos comparativos,

mostrando que existem mais semelhanas que diferenas.

22

implementao foi determinante na escolha do mtodo a utilizar nos primeiros modelos de

credit scoring desenvolvidos nos anos 1950 e 1960. Da que a programao linear e aanlise discriminante foram os primeiros mtodos utilizados ainda que estatsticamente imperfeitos. Com avano no domnio da informtica (aumento da capacidade de processamento dos computadores) foi possvel testar novas abordagens como os estimadores de mxima verossimilhana. Primeiramente com os modelos logit (logstica) e mais tarde probit (Gaussiana). Ambos so menos exigentes em termos de pressupostos estatsticos, mas muito exigentes computacionalmente e, inexequvel numa altura em que os computadores eram tinham pouca capacidade de processamento. Hoje a diferena do tempo de processamento incomparavelmente superior e a regresso logstica usada em mais de 80% dos modelos desenvolvidos. Devido sua flexibilidade e facilidade de utilizao os modelos de probabilidade linear6 continuam a ser muito utilizados (Raymond 2007). Os modelos de probabilidade linear so muito utilizados em instituies onde o credit scoring tem uma longa histria, ou onde a metodologia existente est bem enraizada. Pelo contrrio, a regresso logstica domina nas instituies onde o credit scoring foi introduzido mais tarde, quer devido s propriedades estatsticas conhecidas quer pela maior transparncia e interpretabilidade que introduz no processo de deciso. Por outro lado, hoje, muitos reguladores exigem que as instituies identifiquem fortes razes para a rejeio da proposta em anlise. Os modelos de scoring baseado na regresso logstica permitem facilmente identificar estatisticamente as variveis que mais contribuem para a rejeio do cliente. Tcnicas no paramtricas tm sido igualmente utilizadas em credit scoring, com algum sucesso. Destacam-se as rvores de deciso, e mtodos de inteligncia artificial, como as redes neuronais, algoritmos genticos, e mtodo do vizinho mais prximo.

6

A experiam por exemplo utiliza modelos de probabilidade linear nos seus modelos de credit

scoring

23

2.4 Vantagens e desvantagens do credit scoring,A presente seco atenta em inventariar por consulta a (Raymond 2007) as principais vantagens e desvantagens da adopo de sistemas de credit scoring. A primeira vantagem da introduo de modelos de scoring a reduo do tempo de anlise de novas propostas de crdito. Uma vez automatizado o processo, os scores so facilmente calculados e a resposta quanto concesso/rejeio so geradas em tempo real, o que extremamente importante no actual mercado de crdito cada vez mais competitivo. Este facto pode ser exemplificado pela crescente importncia dos novos canais de aquisio, como a Internet, o telefone e o E-commerce, que faz com que o processamento e a avaliao do crdito em tempo real sejam uma necessidade. Outra vantagem dos modelos de credit scoring, tem que ver com a consistncia das decises: O score torna o processo de deciso objectivo eliminado a possibilidade de discriminao. ainda possvel inumerar as seguintes vantagens: Aumento do lucro da instituio atravs de maiores ndices de aprovao com reduzidos nveis de default; Possibilita que o cliente seja tratado de forma personalizada independentemente do canal de entrada; As estratgias de risco/crdito podem ser rapidamente actualizadas e assimiladas pela organizao; Aumenta a qualidade do servio prestado ao cliente; O processo facilmente compreendido pelos seus participantes; Identifica as variveis tidas como as mais importantes na discriminao dos regulares e em situao de default; A lista dos benefcios extensa, contudo possvel enumerar as seguintes limitaes.

24

Custo de desenvolvimento: desenvolver um sistema de credit scoring acarreta custos, no somente com a instalao da infra-estrutura necessria, mas tambm com o suporte para a sua construo. Por exemplo: profissionais capacitados e equipamentos (hardware / software). Escassez e qualidade dos dados: Normalmente estes modelos so desenvolvidos com base nas observaes presentes nas bases de dados das instituies, e que a qualidade nem sempre salvaguardada; Altera a cultura da organizao: a implementao desses modelos implica grandes mudanas nos processos operacionais; Esses modelos baseiam-se no princpio que o passado prev o futuro, o que pode no se verificar. um sistema complexo, e eventuais erros no desenvolvimento do modelo de

scoring, definio da estratgia ou implementao podem acarretar custos para ainstituio ou resultar em situaes danosas na concesso do crdito; As tcnicas estatsticas utilizadas no desenvolvimento dos modelos de scoring assumem que a base de dados utilizada contm um nmero suficiente de clientes em situao irregular. Este pressuposto nem sempre se verifica, especialmente para determinados tipos de portflio (de pequena dimenso), onde a disponibilidade de informao muito limitada. Para estes tipos de portflio, aconselhvel adoptar tcnicas alternativas de mensurao do risco. Ex. experts

systems, baseados na interpretao dos Cs do crdito, ( capacidade, carcter,colateral, capital e condies)

2.5 Actividade de crdito em Cabo VerdeA concesso de crdito em Cabo Verde exclusivamente efectuada pela Banca de Retalho. Considerando o universo das instituies autorizadas e em pleno funcionamento, o sistema financeiro comportava, em 2007, do lado da banca, quatro instituies de crdito, seis instituies para-bancrias e onze instituies financeiras internacionais, nove das quais dedicando-se actividade bancria e duas a actividades de gesto de fundos mobilirios. A evoluo recente na estrutura do sector bancrio cabo-verdiano fica a dever-se instalao de novas instituies, em particular, sucursais de instituies financeiras internacionais.

25

A dinmica do crdito manteve-se robusta em 2008, o que pressupe que as condies monetrias prevaleceram favorveis evoluo da actividade econmica. O Crdito Interno total apresentou uma evoluo positiva em todos os meses do ano, tendo sido o ritmo de crescimento anual de 18,8%, traduzindo, sobretudo o bom desempenho do crdito economia. O crdito bancrio concedido ao sector privado ascendeu, em termos homlogos a 66.390,2 milhes de escudos Cabo-verdianos, o que representa um crescimento anual de 29,5%. A ventilao do crdito por sectores de actividade revela taxas de crescimento positivas, na sua globalidade destacando-se o crdito a particulares, que representa cerca de 53,7% do total concedido, com um crescimento de 19,2% repartidos pelo crdito habitao (64,1%) e crdito destinados a outros fins (35,9%). O crdito lquido ao sector pblico administrativo, registou uma reduo moderada de 8,1% quando comparada diminuio de 25,5% ocorrida em 2007, reflectindo os efeitos da diminuio verificada nos depsitos do Governo Central junto ao Banco Central.

Tabela: 2.2. Evoluo do crdito 2008. Fonte: Boletim Econmico Fevereiro de 2009, Banco de Cabo Verde.

Em termos da qualidade dos activos, o peso da carteira de crdito vencido dos bancos, no total do crdito, apresentou um acrscimo de 3,9% em 2006, passando para 13,5% em

26

2007, o que se fez acompanhar da mesma tendncia pelo rcio crdito vencido lquido de provises sobre o capital, derivado, essencialmente, da aplicao do novo regime de classificao de crdito e constituio de provises. Contudo, torna-se premente efectuar melhorias permanentes nos sistemas de gesto e maior controlo do risco de crdito, mediante um acompanhamento contnuo da evoluo do crdito mal parado e anlise das suas interligaes com algumas variveis macroeconmicas relevantes.

Tabela: 2.3. Distribuio do crdito Bancrio por sector de actividade.

27

2.6 Condicionantes da actividade de crdito e benefcios da introduo do credit scoring em Cabo verdeAps uma srie de reformas, o sector financeiro Cabo-Verdiano, est cada vez mais moderno, competitivo e concorrencial, conforme indica o nmero crescente de agncias bancrias, a melhoria da qualidade do atendimento, e a disponibilidade de novos meios de pagamento (ATMs, POS, cartes de crdito). O ndice de penetrao dos servios financeiros, seja em termos geogrficos, seja em termos demogrficos, indicador da evoluo positiva registada pelo sistema nos ltimos anos. Porm, o desenvolvimento do sistema tem sido condicionado pelo elevado custo de intermediao financeira e altas taxas de juro, caracterstica peculiar de sistemas financeiros de pases em vias de desenvolvimento. O alto custo do dinheiro apresenta-se, assim, como um obstculo importante para a expanso do crdito, importante factor de concentrao do rendimento e da riqueza, influenciando negativamente o nvel de investimento na economia. Neste contexto, a introduo do credit scoring, pelas caractersticas que lhe esto associadas, introduz inmeros benefcios no mercado de crdito Cabo-verdiano, dos quais que destacam: O credit scoring uma parte vital do bom funcionamento de um sistema financeiro moderno permitindo a reduo do foco na anlise manual (tradicional) das propostas, baseados essencialmente na interpretao dos Cs do crdito (carcter, capacidade, colateral, Capital, e Condies), o que traduz uma melhorar capacidade de anlise dos pedidos de crdito e aferio do perfil de risco dos clientes (Turner 2006). Melhora o trade-off entre o volume de aquisies e o controlo do crdito mal parado. Como refere (Baptista 2006), o prmio de risco, representado pelo nvel de provises para perdas de crdito, constitui um factor de peso na formao do custo final de intermediao em Cabo Verde. Assim, uma melhor anlise dos pedidos de crdito e acompanhamento dos clientes implica uma melhor alocao de provises para perdas esperadas de crdito. Isso poder implicar menor

28

necessidade de constituio de provises, portanto, de recursos no produtivos que, em ltima medida, iriam contribuir para a reduo dos custos globais da instituio e tornar mais barato o crdito aos clientes. (Mateus 2000) acrescenta, que a criao de condies para reduo e melhor avaliao do risco e, para recuperao do crdito mal-parado factor que contribui para reduo do custo de financiamento. Ainda segundo o mesmo autor, o prmio de risco um factor que acrescenta 1,85 p.p. ao spread. Melhora a eficincia operacional, quando o processo est automatizado, os scores so facilmente calculados e removem as tarefas demoradas da anlise. Este facto pode levar a uma expanso dos nveis de crdito concedido, decorrentes do maior grau de certeza das instituies bancrias quanto s perdas nos financiamentos e maior rapidez na anlise das propostas de crdito. medida que a concorrncia aumenta, os modelos de credit scoring permitem adoptar estratgias de Risk Based Princing (RBP), ou seja, determinar o pricing da operao de acordo com o perfil de risco do cliente. Este facto permite oferecer taxas de juro mais concorrenciais para clientes com baixo perfil de risco e, potencialmente maior disponibilidade de crdito para clientes de alto risco, que de outra forma viriam os seus pedidos de crdito simplesmente recusados. Por outro lado, face s exigncias da globalizao e a crescente necessidade de modernizao do sistema financeiro, as instituies financeiras em Cabo Verde tm pela frente um conjunto de desafios, que tornam desejvel a introduo dos modelos de credit

scoring:A necessidade de investir em tecnologia; Reduzir as taxas de juro, Crescente aumento da concorrncia e consequente presso para a diversificao (novos produtos). Estes desafios, bem como a crescente procura por crdito, impulsionar as instituies bancrias a procurarem economias de escala e, a agirem de acordo com um processo de

29

avaliao de risco mais fino, conduzindo a uma maior consolidao da indstria de crdito em Cabo Verde.

2.7 Superviso e gesto de risco de crdito no sector bancrio em Cabo Verde.A regulao do sistema financeiro superviso prudencial das instituies de crdito focalizada em aspectos relacionados com a concentrao do crdito, constituio de provises e fundos prprios, analize dos riscos para a estabilidade financeira, avaliano da capacidade de absoro de choques no sistema. e

A nvel mundial, e associado ao fenmeno da globalizao do mercado financeiro, tem-se verificado uma intensa movimentao de pases no sentido de fazerem convergir os seus sistemas de normas e regras internas aos padres internacionais, principalmente tratando-se de pases de economias e mercados mais abertos e competitivos. Para pases como Cabo Verde, de mercados pequenos e com elevado grau de dependncia externa, a necessidade de estar em linha com os padres internacionais torna-se um imperativo vital ao processo de convergncia. Nesta perspectiva, e face a um sistema financeiro cada vez mais exigente, mais exposto e em fase acelerada de desenvolvimento, iniciou-se nos ltimos anos em Cabo Verde um conjunto de reformas legais e de normativas prudenciais, mais consentneas com o desenvolvimento do sector financeiro, visando proceder a uma necessria aproximao aos actuais padres de referncia internacional, designadamente, as Normas de Reporte Contabilistico e Financeiro Internacional (IAS/IFRS) e BASILEIA II. De 1998 a meados de 2007, a gesto de riscos de crdito no sector bancrio em Cabo Verde esteve ancorada ao Aviso n. 09/987. Este normativo, de natureza de gesto meramente administrativa do risco, revelou-se, aps anos de vigncia, incapaz de atender7

Aviso n. 9/98, de 28 de Dezembro, do Banco de Cabo Verde:Estabelece o nvel mnimo de

provises que as instituies sujeitas a superviso do Banco de Cabo Verde devem observar. (BO n. 48)

30

realidade actual, que se caracteriza por: (i) aumento e complexidade de situaes de risco de crdito, antes no previstos; (ii) possibilidade, capacidade e necessidade dos bancos se socorrerem de mtodos e instrumentos eficazes de gesto de risco de crdito; factos que reclamam o estabelecimento de mecanismos de diferenciao entre os bancos em matria de gesto de riscos nas suas actividades. Com efeito, no actual estgio de evoluo do sistema financeiro nacional, e no alheio concorrncia de um mercado global, o instrumento consubstanciado no Aviso n. 09/98 demonstrava-se incapaz de corresponder s exigncias e aos desafios do mercado, devido insensibilidade e inflexibilidade que o caracterizava em relao ao risco, tendo acomodado na sua estrutura conceptual procedimentos que obrigavam a tratamentos igualitrios para situaes absolutamente dspares. Em resposta a essas situaes, foi concebido, com a assistncia tcnica especializada do FMI, o novo normativo, o Aviso n. 04/20068. Este Aviso mais sensvel ao tratamento de situaes de risco, ao introduzir alguns mecanismos que permitem tratar situaes diferentes, pretendendo servir de ponte entre um sistema de gesto administrativa do risco de crdito e um sistema e cultura de gesto econmica do risco.

8

Aviso n. 4/2006, de 2 de Janeiro de 2007. Estabelece a classificao de operao de crdito e provises.

Revoga o aviso n. 9/98, de 28 de Dezembro. (B.O. n 1, I Srie).

31

Captulo III

3 Caracterizao da base de dados de anliseEste captulo tem como objectivo descrever a base de dados utilizada neste estudo. Foca, ainda, nos aspectos relacionados com a preparao dos dados, identificando as principais consideraes a ter em conta na construo de uma base de dados, que vo desde o tratamento dos missing values, passando pelas excluses, at a definio da varivel

target, janela de amostragem e perodo de classificao de forma a alimentar a fase damodelao.

A base de dados utilizada neste estudo foi fornecida por uma instituio bancria CaboVerdiana e, como requerido neste estudo e em casos semelhantes, foi quebrada qualquer possibilidade de identificao dos clientes nela constantes. A base de estudo composta por 15.000 registos referentes a crditos ao consumo concedidos a clientes particulares no perodo de Janeiro de 2004 a Abril de 2009. Foram consideradas na anlise todas as variveis constantes no formulrio de proposta de crdito em uso na instituio (tabela 3.1).

32

ID #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17

Varivel Estado civil Gnero Profisso Actividade professional Entidade patronal Cargo na empresa Idade Habilitaes literrias Nacionalidade Naturalidade Antuiguidade como cliente Rendimento mensal Prazo do emprstimo Taxa de juro Valor da prestao mensal Valor solicitado Valor financiadoTabela 3.1 Definio das variveis

Tipo de Varivel Catgrica Catgrica Catgrica Catgrica Catgrica Catgrica Contnua Catgrica Catgrica Catgrica Contnua Contnua Contnua Contnua Contnua Contnua Contnua

A natureza dos dados extrados pode-se estruturar em trs tipos distintos: Caracterizao do cliente; Caracterizao da operao de crdito; Comportamento do cliente. A primeira tem que ver com a informao que caracteriza o cliente na sua esfera scio demogrfica, sendo exemplo disso a idade, profisso, estado civil, etc. A segunda tem a ver com a caracterizao da operao de crdito, isto , o bem, o valor a financiar, o prazo da operao, etc. E finalmente a terceira, prende-se com as informaes respeitantes ao comportamento dos clientes, apurando mensalmente o nmero de prestaes/dias em atraso, durante o perodo de vigncia do contrato. Tanto a primeira como a segunda so recolhidas no momento de solicitao do crdito e, constituiro as variveis independentes dos modelos que iremos utilizar. Por sua vez a terceira servir, como mais a frente se explicar, para definir a varivel dependente, ou seja, Bom ou Mau pagador.

33

3.1 Qualidade da base de dadosNeither sophisticated software nor statistical techniques can overcome the inherent limitations of the raw data that goes into them.(Wynn 2003) A preparao da base de dados de anlise um estgio importante no processo de desenvolvimento de um modelo preditivo. Este estgio fica a dever-se ao facto de a maioria dos dados que podemos encontrar serem pouco adequados para os propsitos que se pretendem. Entre os problemas que normalmente encontramos contam-se exemplos de dados invlidos e inconsistentes e o aparecimento de missing values e

outliers. Relativamente aos primeiros, a sua identificao e posterior remoo importante, na medida em que a sua existncia pode comprometer a validade dos resultados finais, dos quais so exemplos de cuidados a observar: atribuio de crdito a indivduos que no tenham sido sujeitos a uma deciso baseados no sistema de avaliao de crdito ou que tenham sido excluidos por outros motivos, por exemplo, crdito a colaboradores, VIPs, indivduos com idade inferior a 18 anos ou com histrico de elevado risco e propostas suspeitas de fraude. Quanto aos missing values, frequente encontrarmos, nas bases de dados, padres incompletos, ou valores que no fazem sentido para uma determina varivel. Existem diversas formas de lidar com este problema, no havendo uma que seja nitidamente superior a todas as outras, das quais se destacam: 1. Excluir todos os registos/variveis que apresentam valores omissos 2. Excluir da amostra de desenvolvimento registos/variveis que apresentam uma percentagem significativo de missing values (ex.50%), especialmente se for expectvel que o nvel de missing values se mantenha no futuro. 3. Considerar os missing values como um novo atributo das variveis a incluir no modelo.

34

4. Utilizar tcnicas estatsticas para preencher os campos em falta. Uma opo para a resoluo do problema traduz-se no preenchimento automtico dos campos com uma boa estimativa do seu valor. Existem diversas formas de produzir esta estimativa sendo que a mais simples consiste em adoptar medidas de tendncia central como a mdia, a mediana ou a moda. Outra abordagem interessante consiste na especificao do mesmo como um problema economtrico. A ideia desenvolver um modelo preditivo que, com base nos registos completos e nas variveis disponveis nos fornea uma boa estimativa para os valores em falta. O risco que corremos ao optar pelas duas primeiras solues relativamente bvio e traduz-se em primeiro lugar, na no utilizao de variveis importantes para a formulao do modelo explicativo. Poderemos estar a prescindir de variveis que na realidade so importantes para modelar o fenmeno e sendo este o caso, o modelo provavelmente nunca produzir resultados to precisos quanto estariam ao seu alcance, caso as referidas variveis de input fossem utilizadas. Segundo, o facto de determinados registos no apresentarem valores, pode em si mesmo, evidenciar um caso importante (ex. Mau

performance). Ao excluir estes registos corremos o risco de estar a enviesar a amostra,isto caso haja um motivo para que estes registos no possuam valores para a varivel em causa. Por exemplo sabemos que a probabilidade de um indivduo recm-empregado no preencher o campo destinado antiguidade no emprego no formulrio da proposta de crdito elevado. Com efeito, caso existam uma grande percentagem de indivduos que no preencheram o campo destinado antiguidade no emprego, decidimos retir-lo do nosso conjunto de dados. Ora, quando tal facto acontece, corremos o risco de estar a enviesar a nossa amostra. Se certo que indivduos recm-empregados tendem a deixar o referido campo em branco, isto quer dizer ao eliminarmos estes mesmos registos, estaremos tambm a retirar da amostra uma grande parte de indivduos com poucos anos no emprego. Como consequncia o nosso modelo produzir sempre estimativas pouco precisas, seno mesmo aleatrias, para os indivduos com poucos anos no emprego.

35

Pelas razes apresentadas acima e por se considerar que a incluso dos missing values na amostra acrescenta benefcios ao negcio, optou-se neste estudo pela opo 3.

3.2 Janela de amostragem e perodo de classificao.A expresso o passado prev o futuro representa um dos princpios fundamentais da evoluo dos modelos de credit scoring. Baseado neste princpio, os dados histricos de anteriores solicitantes de crdito so analisados para prever o comportamento de futuros proponentes de crdito. Assim, selecciona-se um conjunto de clientes abertos num determinado perodo de tempo, denominado de janela de amostragem, e o seu comportamento analisado noutro perodo distinto no futuro, chamado de janela de classificao, para determinar a varivel dependente, isto , se o cliente foi regular ou

default. Mas que horizonte temporal seleccionar? No h, na verdade, uma resposta queseja clara e objectiva quanto ao tempo a considerar na anlise. A escolha da melhor amostra deve responder a dois aspectos importantes: em primeiro lugar, a informao seleccionada deve ser o mais recente possvel, de modo a reflectir o perfil de futuros solicitantes de crdito. Em segundo lugar, deve cobrir um perodo de produo significativo, de modo a garantir um nmero suficiente de bons e maus contratos para a modelao. H portanto dois objectivos conflituais: Se o perodo de anlise demasiado pequeno, ento os indivduos em situao de default sero classificados como regul ares (erro tipo I); se o perodo, pelo contrrio, for demasiado longo, apesar de se terem mais observaes de indivduos em default, os dados estaro desactualizados e no serviro os intentos de utilizao preditiva do modelo (Wynn 2003). A literatura escassa e no perfeitamente concludente no que toca determinao da janela de amostragem que elege os registos que participaro na construo do modelo. Podemos contudo referir que a janela de amostragem dever ter uma taxa de maturao estvel, isto , a taxa de default da carteira do produto de crdito dever apresentar caractersticas de estabilidade ao longo do tempo. Conhecendo assim a maturidade da populao, estamos em condies de seleccionar a amostra de desenvolvimento constituda pelos indivduos cuja maturidade igual ou superior a maturidade global e que, portanto, seguramente os poderemos classificar num de dois grupos, regular ou

36

default, reduzindo deste modo a possibilidade de ocorrncia do erro tipo I como explicadoanteriormente. O momento de maturao da taxa de default (momento a partir da qual a taxa de default no evolui mais), e a amplitude dos perodos, janela de amostragem versus perodo de classificao, variam de produto para produto e da definio de default utilizada, no havendo uma regra inequvoca e explicita para a sua determinao. Segundo (Siddiqi 2006) os modelos aplicacionais apresentam caractersticas de estabilidade entre os 18 a 24 meses, enquanto se se tratar de um crdito hipotecrio, a regra de 3 a 5 anos. Contrariamente, nos modelos comportamentais, normalmente so utilizados perodos de anlise mais curtos, entre 6 a 12 meses, e 1 ms ou menos para modelos de recuperao. Quando o objectivo do desenvolvimento do modelo tem a ver com questes de carcter meramente regulatrio, nomeadamente no mbito do novo acordo de Basileia II, o perodo de classificao estabelecido pelo regulador (12 meses). No presente estudo assumiu-se um compromisso de 12 meses na janela de amostragem e 24 meses no perodo de classificao, dado garantirem observaes em nmero suficiente para a estimao do modelo e conferirem uma estabilizao da taxa de default como era mister encontrar, conforme anteriormente citado.

3.3 Definio de bom, mau e indeterminado.A classificao de clientes quanto ao incumprimento uma etapa chave do processo de desenvolvimento de um modelo de credit scoring. Sem dvida que o que pode ser um bom cliente para uma organizao, poder ser ma para outra dependendo da ambiente de negcio. Por esta razo (Wynn 2003, 53) menciona que a definio de incumprimento deve reflectir a experincia da prpria instituio. (Siddiqi 2006, 39) apresenta uma lista de aspectos a considerar na definio de incumprimento: Deve estar em linha com os objectivos da organizao. Por exemplo, se o objectivo da instituio aumentar os lucros, ento, o mau cliente deve ser definido em funo do conceito de rentabilidade.

37

Deve estar em linha com o produto e com os intentos de utilizao preditiva do modelo; Deve garantir por um lado, um nmero suficiente de observaes para suportar a fase de modelao e, por outro, uma definio que seja capaz de diferenciar bons de maus clientes. Deve ser fcil de interpretar; Em algumas situaes, poder ser vantajoso ter a mesma definio de default (mau) em diferentes segmentos ou mesmo modelos em produo na instituio. Este facto torna mais fcil o processo de gesto de risco e consequente tomada de deciso, especialmente em ambientes onde existem vrios modelos de credit

scoring.Porm, com a entrada em vigor do novo acordo de Basileia II, semelhana da definio da janela de amostragem e perodo de classificao, a definio do default tambm definido pelo regulador. Neste caso, considera-se que um cliente est em situao irregular (default), se ultrapassar mais de noventa dias nos primeiros doze meses de vigncia do contrato. Neste estudo adoptou-se a definio de Basileia II para classificar os clientes quanto ao incumprimento. Uma vez definido os maus clientes, a mesma anlise efectuada anteriormente pode ser utilizada para definir o conjunto dos bons/regulares" clientes. Novamente, esta deve estar em linha com as questes discutidas anteriormente. A definio de regular (bom) menos analtica e muitas vezes bvia. No presente estudo considera-se que o cliente est em situao regular se liquidou todas as prestaes dentro do prazo estabelecido. Um aspecto importante a anotar que, enquanto um cliente regular precisa manter a sua condio de regular ao longo da janela de classificao, um mau cliente s precisa atingir a definio adoptada uma nica vez em qualquer altura dentro da janela de classificao. Existe ainda um conjunto de indivduos, que no tendo comportamento suficiente, no os poderemos classificar num de dois grupos, regular ou default. No se encontram

38

suficientemente maduras para ter a capacidade de se ter tornado delinquentes ou mesmo para ter falhado alguma prestao. Este conjunto de indivduos nesta situao denominam-se indeterminados e, comum em credit scoring, no os considerar na modelao.

3.4 Inferncia dos rejeitadosUm dos maiores problemas no processo de desenvolvimento de modelos de credit

scoring consiste na evidncia que somente as propostas de crdito aprovadas econcretizadas, podero ser classificadas como: Bons, Maus e indeterminados. Para as propostas recusadas no passado, apenas detemos as variveis dos proponentes, mas obviamente no possumos a informao de Bons ou Maus. Se estes clientes, recusados, forem ignorados e retirados da populao de desenvolvimento, provocar um bias, quando o modelo, construdo sobre os Bons e os Maus, classificar um proponente recusado anteriormente. Pois pode se deixar de avaliar algumas caractersticas especficas, que esteja particularmente presente apenas nos proponentes rejeitados, fazendo com que o novo modelo de credit scoring desenvolvido no consiga prever de forma adequada o comportamento desses indivduos. De modo a incluir estes clientes no modelo, utiliza-se uma tcnica denominada de inferncia dos rejeitados. Esta tcnica visa por um lado, inferir o comportamento dos solicitantes rejeitados no processo de deciso de crdito, e reduzir o enviesamento da seleco da amostra, por outro. A literatura ainda muito escassa no que a este tema diz respeito, somente encontramos uma srie de estudos que avaliam de modo emprico as tcnicas de inferncia dos rejeitados em credit scoring. As tcnicas de extrapolation e augmentation, aqui tratados como dados aumentados foram inicialmente propostos por (Hsai 1978), depois por (Hand e Henley 1993) e (Banasik e Crook 2005), contudo, os estudos empricos levados a cabo por (Crook e Banasik 2004), demonstraram no haver vantagens na incluso deste grupo no processo de estimao. (Dempster, Laird e Rubin 1977) utilizou o algoritmo de

expectation e Maximization (EM) para a estimao da mxima verosimilhana a partir dotratamento dos rejeitados como dados incompletos; (Joanes 1993) desenvolveu um modelo de credit scoring com base num conjunto de solicitantes aprovados recorrendo a regresso logstica, que utilizou posteriormente para inferir o comportamento dos

39

rejeitados. (Ash e Mester 2002) apresentaram o parceling, os mesmos autores sugerem ainda utilizar informao de mercado, para inferir o comportamento de solicitantes rejeitados. (Feelders 2000) considera a inferncia dos rejeitados como um problema de dados omissos. E (Shin e Sohn 2006) utilizam a tcnica de anlise de sobrevivncia, apresentando um mtodo de inferncia dos rejeitados baseados no intervalo de confiana para a mediana do tempo de sobrevivncia dos clientes em default. Ao desenvolver um modelo de credit scoring, pretende-se em primeiro lugar que este seja representativo do comportamento de todos os solicitantes de crdito. Contudo, tipicamente os modelos so desenvolvidos apenas com base em informao comportamental dos clientes aprovados, pois o comportamento dos clientes rejeitados desconhecido. A inferncia de rejeitados pode ser, ento, entendido, segundo (Shin e Sohn 2006) como um processo de estimao do risco dos indivduos rejeitados no processo de deciso de crdito. Existem vrias tcnicas que utilizam os indivduos rejeitados no desenvolvimento de modelos de credit scoring. Entre elas, esto as mais citadas na literatura, como: a classificao dos rejeitados como clientes maus, parcelamento (parceling) e dados aumentados (augumentation) e ainda a utilizao de informao de mercado como um mtodo de inferncia dos rejeitados.

3.4.1 ParcelingApresentado por (Ash e Mester 2002) caracterizado como um processo de reclassificao por risco. Basicamente, o mtodo consiste em segmentar a populao dos rejeitados em clientes Bons e Maus, segundo o risco observado no conjunto de clientes aprovados. Para cada intervalo de score feito uma partio aleatria dos rejeitados, com base na frequncia observada de Bons e Maus, presentes na populao dos aprovados. Um novo modelo ser ento desenvolvido a partir da nova base de dados redistribuda, ou seja, com todos os solicitantes rejeitados reclassificados como Bons e Maus clientes e adicionados base inicial de clientes aprovados. Apenas pode ser utilizado em instituies onde existe modelos de credit scoring em produo, uma vez que para

40

efectuar a reclassificao dos solicitantes rejeitados preciso conhecer a taxa de maus por buckets de score. Uma alternativa para a utilizao deste mtodo na ausncia de um modelo de credit scoring consiste em efectuar a reclassificao de rejeitados de modo aleatrio a partir da taxa total de maus observada na amostra de desenvolvimento (proponentes aprovados).

3.4.2 Augumentation (dados aumentados)O mtodo de dados aumentados o mtodo mais utilizado em credit scoring e, est disponvel em muitos softwares estatsticos. geralmente utilizado quando o processo de anlise de risco de crdito feito com base num conjunto de ltros e regras de risco. Esse mtodo considera que para o mesmo score a probabilidade de um rejeitado/recusado ser Bom igual a probabilidade, de um aprovado ser Bom. Assim, em primeiro lugar estima-se um modelo com base nos proponentes aprovados e rejeitados (Accepted/Rejected model). Em seguida gera-se um novo modelo ponderado, com apenas os proponentes aprovados, (Good/Bad model) utilizando como varivel de ponderao o desenvolvido. peso obtido no modelo (Accepted/Rejected

model) inicialmente

3.4.3 Classificao de rejeitados como clientes mausUma das abordagens mais simples de tratamento dos rejeitados classific-los como maus clientes. Assim, a amostra de desenvolvimento do novo modelo ser composta por clientes aprovados (Bons e Maus) acrescidas dos solicitantes rejeitados, todos classificados como clientes Maus. Esta tcnica nada aconselhvel ainda colhe adeptos actualmente.

3.4.4 Utilizao de informao de mercadoEste mtodo utiliza informaes de mercado, obtidas a partir de uma central de informao de crdito para inferir o comportamento dos proponentes rejeitados, ou seja, sobre os clientes recusados numa determinada instituio financeira e se aprovados

41

noutra, obter informao sobre o seu comportamento no pagamento. Este mtodo assume que o proponente comporta de maneira semelhante independentemente da instituio. Quando utilizamos informaes de mercado, temos um ganho natural de informao, para os novos modelos desenvolvidos, pois temos informaes adicionais, para alm das informaes internas disponveis na instituio credora. Porm a obteno de informaes de mercado junto das centrais de crdito, exige um custo, que deve ser considerado e avaliado no momento do desenvolvimento de novos modelos.

3.4.5 Potenciais benefcios da utilizao da inferncia dos rejeitadosComo referido anteriormente, pouco tem sido publicado sobre a temtica do reject

inference, sendo que a maioria destes focam-se em apresentar as tcnicas de infernciados rejeitados e, pouco tem sido feito no sentido de quantificar os seus benefcios. Porm, da pouca investigao disponvel, parece no haver consenso. (Crook e Banasik 2004), defendem que os potenciais benefcios da introduo dos rejeitados no desenvolvimento do modelo so modestos. Por outro lado, (Siddiqi 2006) argumenta que a incluso dos rejeitados, constitui uma mais-valia no processo de desenvolvimento de modelos de

scoring, reduzindo o impacto do enviesamento amostral. (Montrichard 2007) demonstrouempiricamente que a incluso dos rejeitados permite: 1. Identificar as caractersticas de clientes associados ao risco de crdito; 2. Obter estimativas mais precisas da taxa de maus; 3. Aumentar a capacidade do modelo em distinguir os bons dos maus clientes; 4. Facilita a comparao de modelos candidatos. O segundo ponto principalmente importante do ponto de vista de aceitao. Normalmente o cut-off determinando fixando uma taxa de aceitao que confere um nvel de risco aceitvel, isto , que a instituio est disposta a assumir. Ora, se a estimativa da nova taxa de maus for subestimada, a instituio incorrer em perdas inesperadas, o que altamente indesejvel.

42

3.5 Seleco das variveisQuando se seleccionam dados no mbito de um problema de classificao a tendncia acrescentar o maior nmero de variveis possveis, de forma a bem caracterizar o problema. Acontece, normalmente, que muitas das variveis pouco ou nada esto associadas ao conceito-alvo, (target), havendo nestes casos dois tipos de variveis: As variveis completamente irrelevantes, ou seja, que em nada distinguem o conceito-alvo e as variveis redundantes, ou seja, que em nada acrescentam a discriminao do conceito-alvo. Por esta razo, comum em estudos deste genro, levar a cabo diversas abordagens de forma a encontrar as relaes tidas como as mais preditivas para o objectivo em estudo. O propsito da seleco de atributos consiste em, a partir de um conjunto inicial de F atributos, seleccionar um subconjunto G, tal que G < F, tendo sido G apurado segundo um determinado critrio que permita identificar as variveis relevantes para o problema em anlise. A elimino de atributos inteis permite reduzir a dimenso dos dados de treino e a sua complexidade e, portanto, reduzir o tempo de processamento dos mtodos a aplicar nas fases seguintes. Alm disso, (Hosmer e Lemeshow 2000) apela para a importncia da seleco de variveis, pois tendencialmente, com um menor nmero de variveis o modelo ser mais robusto. Este assunto, muito querido dos estatsticos, e vlido, pois quanto maior o nmero de graus de liberdade subjacentes ao modelo, maior ser a dependncia do modelo ao conjunto de treino e, portanto maior a sua variabilidade. A seleco de atributos dever eleger o subconjunto de atributos, com maior relvancia para o conceito-alvo, no perdendo de vista duas condies: A primeira o de a capacidade preditiva do modelo no diminuir significativamente. A segunda e que as probabilidades condicionadas P (x|bom) e P (x|mau), que representam as funes de densidade de probabilidade para cada um dos grupos, Bom e Mau se mantenham semelhantes, para todos os elementos de ambos os grupos, antes e depois da seleco de atributos. Foram, assim, encetadas vrias anlises, todas com uma mecnica comum que se sintetizam, basicamente, a aspectos de ndole grfica e estatstica:

43

Primeiramente, efectuamos uma anlise bivariada sobre os dados da janela de amostragem a fim de aferir a capacidade discriminatria de cada varivel, na construo do modelo. Seguidamente, outro tipo de anlise para explorao dos dados diz respeito ao clculo dos odds e dos odds-ratio. O odds pode ser interpretado como a comparao de dois nmeros: o primeiro traduz a probabilidade de ocorrerncia de um evento; o segundo, a probabilidade do mesmo evento no ocorrer. Ou matemticamente;

Odds

P(evento) 1 P(evento)

Por fim, atendento comparao que se pretende efectuar na identificao de quais os atributos que devero constar num determinado modelo de scoring, calcula-se o rcio entre os odds, isto , o odds-ratio (OR).

OR

odds(Y odds (Y

1X 1X

1) 0)

Por outras palavras, o odds-ratio, uma medida de associao que indica o quanto mais ou menos provavl a probabilidade de obter uma resposta positiva, consoante o valor da varivel independente. Por exemplo para variveis explicativas dicotmicas, se considerarmos que Y indica se o indivduo est em situao regular ou em default, e X presena ou ausncia de uma determinado factor de risco (caracterstica do indivduo), ento o odds-ratio indica-nos o quanto mais provavl a ocorrncia do evento, neste caso, default, consoante o factor de risco est ou no presente. Um Odd-ratio igual a 1 indica ausncia de relao entre a varivel explicativa e a dependente; um OR menor que 1, indica que a varivel explicativa est negativamente associado target, ou seja, quanto menor o odds-ratio, maior a probabilidade de o cliente apresentar menores risco de incumprimento, indicando que o factor de risco apresenta algum poder para disciriminar clientes bons. Um OR> 1 significa que quanto maior OR, maior a probabilidade de o cliente apresentar maiores riscos de incumprimento, evidenciando que o factor de risco considerado apresenta poder para discriminar maus clientes.

44

Outro estudo preliminar consiste em agrupar e discretizar os atributos a fim de poderem explicitamente, estar espelhados no modelo. (Sarmento 2005, 46) Apresenta vrias razes pelas quais a dicretizao se torna muitas vezes indispensvel: Em primeiro lugar, se um atributo numrico, possuir valores omissos, uma das formas ser discretizar o atributo, para que se possa tratar o missing como um novo atributo. Em segundo lugar, nos problemas em que as regresses lineares so utilizadas, a discretizao um meio importante para fornecer robustez ao modelo resultante, tornando-o mais generalizvel. A discretizao tambm um meio para combater os valores extremos e os outliers que tanto perturba a estimao dos parmetros. No entanto a discretizao, no gratuita, faz-se custa de perda de informao do atributo, mas em nome da abstraco. O problema est em como discretizar optimizando o binmio perda de informao versus abstraco. A este propsito (Thomas e N. Crook 2002) considera necessrio a agregao de atributos pois que h, normalmente um grande nmero de atruibutos associados s variveis que em face da amostra considerada poder no constituir um conjunto suficientemente grande para tornar a anlise robusta. Os mesmos autores entendem ainda que o agrupamento de factores tem tanto de arte como de cincia e comum a observncia de algumas estatsticas que indiciem a forma como se dever proceder. As mais conhecidas so as estatstica de2

, e information value e o weigth

of evidence.

45

Captulo IV

4 Modelo de regresso logstica (Logit)Este captulo descreve o trabalho de modelao empreendido para avaliar o risco de crdito do cliente luz do modelo de regresso logstica. Inicia-se assim com uma apresentao sumria das suas origens. Depois apresenta-se o modelo terico, modelo logit ou regresso logstica binomial (dois nomes para o mesmo modelo). De seguida descreve-se os pressupostos do modelo e as suas estatsticas de avaliao dos diferentes modelos estimados. Por ltimo, sero referidas medidas da qualidade dos ajustamentos como o teste de Hosmer e Lemeshow e a curva de ROC.

4.1 Regresso logstica histriaA regresso logstica surgiu em 1789, com os estudos de crescimento populacional de Malthus. Segundo, Cramer 2002, 40 anos depois, Alphonse Quetelet, astrnomo Belga e, o seu discpulo Pierre- Franois Verhust (1804-1849), recuperaram a ideia de Malthus para descrever o crescimento populacional em Frana, Blgica e Rssia antes de 1833. Apesar de estar encontrada a ideia bsica do modelo logstico, s em 1845, PierreFranois Verhust publicou a formulao utilizada nos estudos de crescimento da populao a que chamou de curva logstica, sendo a expresso matemtica a seguinte:

(4.1) Ainda no sc. XIX, a mesma funo foi utilizada para descrever as reaces qumicas autocatalticas, mas esteve esquecido nas neblinas do tempo a maior parte do sculo e, s foi redescoberto em 1920 por Raymond Pearl, discpulo de Karl Peason, e Lowell Reed que o aplicaram igualmente ao estudo do crescimento da populao dos Estados Unidos da Amrica. O primeiro estudo acadmico abordando a sua aplicao no domnio de

credit scoring foi publicado em 1980, e desde ento tornou-se a tcnica estatstica deeleio nos desenvolvimentos de modelos de scoring.

46

4.2 Especificao do modeloSegundo a especificao do modelo clssico de regresso linear mltipla, o

comportamento de uma varivel dita dependente (tambm designada por resposta, resultado ou endgena) uma funo de um conjunto de variveis independentes (tambm designadas de exploratrias, pr-determinadas ou exgenas). Frequentemente, a varivel que se pretende explicar (varivel dependente) de natureza qualitativa, assumindo, um nmero reduzido de valores, com uma probabilidade diferente associada a cada um destes valores. Por exemplo, nos modelos de credit scoring em que a varivel dependente (probabilidade de um cliente vir a entrar em situao de incumprimento), de natureza binomial ou dicotmica, ou seja, pode apenas assumir dois valores (regular,

default).(4.2) Existem vrios modelos para explicar . Antes de derivar o modelo de regresso logstica

vamos introduzir o modelo de probabilidade linear (MPL).

4.2.1 Modelo de Probabilidade LinearSeja a seguinte especificao:

yi

1

2

x2i

...

k

xki

i

(4.3)

Sendo o valor esperado de

yi por definio igual a:1 2

E ( yi )

x2i

...

k

xki

(4.4)

Mas como yi apenas pode assumir dois valores, o seu valor esperado tambm dado por:

E ( yi ) 0.(1 Pi ) 1.Pi Pi47

(4.5)

Em que

Pi

a probabilidade de

yi assumir valor 1

Donde se deduz:

Pi

1

2

x2i

...

k

xki

(4.6)

Como este modelo exprime a probabilidade probabilidade de

Pi

como uma funo linear das variveis

explicativas, conhecido como Modelo de Probabilidade linear. De notar que

Pi , ou seja, a

yi

assumir o valor 1 (do cliente ser considerado em situao de default)

aumenta linearmente com a variao de uma qualquer das variveis explicativas. Por outro lado, como a probabilidade dever situar-se entre zero e um, o modelo de probabilidade linear dever verificar a restrio:

0 Pi 1explicativas. De salientar, igualmente, que para alm de do modelo de regresso clssica.

(4.7)

O que dificilmente acontece j que, a probabilidade cresce linearmente com as variveis

yi

assumir qualquer valor na

recta real, o MPL tambm no satisfaz as hipteses de normalidade e homocedasticidade

Verifica-se, com efeito, que os erros assumem apenas dois valores (com probabilidade igual a a qual no constante.

e

, assumindo portanto uma distribuio binomial com mdia igual a zero e varincia

Assim, o MPL apresenta vrios problemas, o que levou opo por outras especificaes. Entre estas especificaes, uma das mais conhecidas9 o modelo da regresso logstica.

9

A outra especificao mais conhecida designada por modelo Probit ou Normit que utiliza a

distribuio normal como aproximao.

48

4.2.2 Derivao do Modelo de Regresso Logstica Binomial.Dado, ento, a varivel de resposta binria y com probabilidade de sucesso proposta por Pierre-Franois Verhulst:2 x2 i 2 x2 i

, a

regresso logstica um modelo de regresso no linear com a seguinte formulao

Pi E ( yi / x i )

e e

1 1

... ...

k xki k xki

(4.8)

Que se pode escrever:

P

E ( yi / x i )

e e

zi zi(4.9)

Com

zi

1

2 2i

x

k

xki

Demonstra-se facilmente que:

z

z

Assim no modelo logit

Pi

crescente sem nunca assumir valores fora do intervalo [0,1].

Pi 1 1/2 ZiFigura 4.1 Funo logstica

49

Por outro lado, o modelo (4.9) pode ser facilmente linearizado. Com efeito, verifica-se:

1 Pi

1 1 e zi

(4.10)

E, portanto

Pi 1 Pi

e ziPi 1 Pi

O quociente

pode ser interpretado muito simplesmente como o (odds), rcio de

chances, ou probabilidades. Assim, no caso em estudo, este rcio representa a probabilidade de um cliente ser classificado como default sobre a probabilidade do mesmo ser classificado como regular. Se aplicarmos o logaritmo neperiano transformao (4.10) e adicionarmos a componente residual, obtemos um modelo de regresso logstica linearizado:

LiCom:

1

2

x2i

k

xki

i

(4.11)

Li zi

ln1

Pi 1 Pi2 2i

x

k ki

x

A transformao evidenciada em (4.11) resolve as principais dificuldades do modelo de probabilidade linear. Como refere (Hosmer e Lemeshow 2000), a importncia dessa transformao que

Li

tem muitas propriedades desejveis do modelo de regresso

50

linear. O modelo logit linear nos seus parmetros tem domnio em valores de

, dependendo dos

x , e, em que Pi

(0,1), conforme decorre da definio de probabilidade.

4.2.3 Estimao do modeloSe escrevermos o modelo de regresso logstica linearizado, teremos:

Li

ln

P i 1 Pi

1

2 2i

x

k

xki

i

(4.12)

Este modelo continua a apresentar erros heterocedsticos (com varincia no constante), no se aconselhando a estimao do modelo pelo mtodo dos Mnimos Quadrados Ordinrios. Mas a principal dificuldade reside na possibilidade de10significado.

Li

assumir valores sem

Com efeito,

Pi

assume, em geral, os valores 1 (quando o acontecimento se

verifica) ou 0 (no caso oposto) pelo que Pi assume os valores de Ln( ) e de Ln(0), os quais no tm qualquer significado, tornando impossvel a estimao do modelo (4.11). Por esta razo, o modelo de regresso logstica no , em geral, estimado pelo mtodo dos mnimos quadrados, mas sim pelo de mxima verossimilhana. Seja ento, a funo de mxima verosimilhana L:n

Li 1

f ( yi )

(4.13)

Onde n o numero de indivduos (igual ao de observaes) e f ( yi ) P i (1 P ) i iy

1 yi

a funo

densidade de probabilidade de10

yi .

De facto se o problema fosse apenas heterocedasticidade, resolver-se-ia facilmente pela

transformao do modelo num modelo de regresso clssica o que passa por multiplicar o modelo pelo inverso do desvio padro dos erros.

51

Substituindo (4.12) pela expresso da funo de probabilidade den

yi , obtm-se:

Li 1

P yi (1 P )1 i i

yi

(4.14)

Substituindo

Pi , pela funo de distribuio logstica vem;n

L( )i 1

1 1 eXi

yi

e

Xi Xi

1 yi

1 e

Representando de modo mais simplificado fica:n

L( )i 1

( X i ) i (1

y

( X i ))

(4.15)

Onde

(1 k ) de observaes das k variveis explicativas do indivduo i , o vector dos k parmetros a estimar e ( X i ) a funo distribuio da logstica.

Xi

o vector

A maximizao desta funo um problema equivalente maximizao do seu logaritmo, j que a funo logaritmo uma funo montona crescente. Para facilitar a obteno do maximizante, tem-se o logaritmo da funo de verosimilhana, ou funo logverosimilhana.n n

l( )i 1

y i ln( ( X i )i 1

(1 y i ) ln(1

( X i ))

(4.16)

O estimador de mxima verosimilhana dos definio aos valores desses parmetros que

k componentes de maximizam l . Para

corresponde, por obter este mximo,

torna-se necessrio calcular a primeira e a segunda derivadas de tem de ser igual a zero e a matriz Hessiana definida negativa.

l , designadas respectivamente por Gradiente G e pela matriz Hessiana H. No Maximo de l , o gradiente

52

Demonstra-se que o Gradiente e a matriz Hessiana so respectivamente dados pelas seguintes expresses11:n n

G( )i 1

yi Xi 1

(Xi )Xi

(4.17)

H( )

( X i )(1

(Xi )Xi Xi

(4.18)

A expresso (4.16) e (4.17) no permitem calcular por via analtica a soluo de que garante o mximo de l ( ) , ou seja, a soluo, onde a matriz Hessiana

para

G( ) =0 (condio necessria) e

H ( ) definida negativa (condio suficiente). No , portanto,

possvel encontrar directamente uma soluo para este problema que assegure a condio necessria para o mximo de l ( ) . Assim, este problema de maximizao resolvido atravs do recurso a um algoritmo de optimizao. Demonstra-se que a resoluo deste problema reduz-se a iterar atravs da expresso: . Ondeh o valor

h 1

h

H(

h

) 1 G(

h

)

(4.19)h,

na iterao de

h.

De notar que quando

h 1

o processo

convergiu e, por outro lado, o gradiente de G( ) nulo, o que garante a verificao da condio necessria para a existncia do mximo. Um dos algoritmos de optimizao mais utilizados o de Newton-Raphson. (Amemiya 1985) demonstra que o log da funo de verosimilhana globalmente cncavo. Assim o algoritmo de Newton-Raphson converge para um nico mximo (os estimadores de mxima verosimilhana) independentemente