Download - DataMining Pre
-
8/15/2019 DataMining Pre
1/44
DATA MINING Trabalho Análise Preditiva: Análisede Abandono
CASE STUDY – Teleco !nica"#es $%S
Joel Nogueira nº 21302119
-
8/15/2019 DataMining Pre
2/44
Análise Preditiva – Análise de Abandono
Índice
INT&%DU'(%))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))*%+,ECTI$% E INT&%DU'(% D%S DAD%S))))))))))))))))))))))))))))))))))))))))))))))))))))))))-
T&ATAMENT% DAS $A&I.$EIS)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))/.&$%&ES DE DECIS(%))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))) 01&EG&ESS(% 2%GISTICA))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))03C%MPA&A'(% D%S M%DE2%S E C%NC2US4ES)))))))))))))))))))))))))))))))))))))))))))))03
1
-
8/15/2019 DataMining Pre
3/44
Análise Preditiva – Análise de Abandono
INTRODUÇÃO
Co o 5resente trabalho 5retende os e6ect!ar ! a análise 5reditivares5ondendo desta 6or a7 a ! 5roble a solicitado 5ela e 5resa $%S7 8!e5retende 9car a conhecer elhor os se!s clientes7 o6erecer ! servi"o de
elhor 8!alidade aos se!s clientes7 e de 6or a 5r ;activa red!o de
deter inadas t@cnicas de análise7 co o ob ectivo de encontrar 5adr#escaracterio s>odetectáveis 8!ando os dados s>o analisados e Bbr!to 7 o! se a7 se aa5lica">o dos odelos 5reditivos)&es! ida ente os odelos 5reditivos consiste na a5lica">o deal orit os sobre ! deter inado con !nto de variáveis7 variáveis essas 8!ete de estar relacionados co o nosso ob ectivo tar etF7 o! se a a8!ilo 8!e5retende os 5rever)Dentre os odelos 5reditivos deve os salientar as árvores de decis>o e are ress>o lo stica 5ois s>o esses 8!e ir>o ser a5licados no caso de est!do)
Este ti5o de análise te ! vasto con !nto de a5lica"#es7 tais co o nabanca 5ara 5revis>o de inc! 5ri ento de cr@ditoH no retalho 5ara 5revis>ode co 5ra de deter inado 5rod!toH nas teleco !nica"#es 5ara 5revis>o deabandono de deter inado clienteH na ind stria 5ara 5revis>o de avarias7etcJ
*
-
8/15/2019 DataMining Pre
4/44
Análise Preditiva – Análise de Abandono
OBJE TI!O E INTRODUÇÃO DO" D#DO"Co o 5resente est!do a e 5resa $%S 9cará a conhecer 8!e ti5o declientes t? aior tend?ncia 5ara abandonare o servi"o) Este @ o nossoob ectivo Tar etF)
Para o e6eito 6ora !tilio os 5resentes na se !inte tabela:
No$e !ari%&el De'cri()oNu$ero*Tele+one N ero de tele6one do cliente !tili
-
8/15/2019 DataMining Pre
5/44
Análise Preditiva – Análise de Abandono
U dos 5assos a ter e aten">o era as caracter sticas das variáveisa8!ando do carre a ento do Dataset) Assi sendo7 as variáveis 6oracarre adas co as caracter sticas solicitadas7 con6or e se 5ode veri9car na9 !ra 1)
K
-
8/15/2019 DataMining Pre
6/44
Análise Preditiva – Análise de Abandono
igura 2 arac,er ',ica' !ari%&ei' no da,a'e,
A5 s análise das variáveis constata os o 8!e te os:• 0Q $ariáveis do ti5o BIn5!t• 0 $ariável do ti5o BID•
0 $ariável do ti5o BTar et• * $ariáveis B+inarR• * $ariáveis BNo inal• 0K $ariáveis BInterval
/
-
8/15/2019 DataMining Pre
7/44
Análise Preditiva – Análise de Abandono
TR#T#.ENTO D#" !#RI4!EI"5
% 5asso se !inte 6oi veri9car 8!ais os valores o issos e o!tliers5resentes nas várias variáveis)Este 5rocesso @ 6!nda ental 5ois os odelos 5reditivos 8!e !tilio 8!er a re ress>o lo stica n>o 6!ncionacorrecta ente co a 5resen"a de o!tliers nos dados)No caso da re ress>o lo stica7 5ara al@ dos o!tliers te os de ter eaten">o os valores o issos 8!e in !encia ne ativa ente osres!ltados 9nais)
A5 s e=5lora">o dos histo ra as 9 )*F 5ode os veri9car 8!e eal ! as variáveis e=iste 8!er o!tliers 8!er valores o issos 8!enecessita de ser tratados)
igura 3 6i',ogra$a' da' &ari%&ei'7 a''inalando calore' o$i''o' e ou,lier'
-
8/15/2019 DataMining Pre
8/44
Análise Preditiva – Análise de Abandono
TR#T#.ENTO DE OUT8IER"Constatá os 8!e te os de tratar d!as variáveis:
• Anti !idade• N! Cha adas Intl
igura 6i',ogra$a #n,iguidade
A etodolo ia se !ida 6oi s!bstit!ir o %!tlier 5or ! valor o isso7 5ara5osterior ente ser tratado !nta ente co as o!tras variáveis 8!e t?valores o issos) %s 5assos se !idos 6ora :
3
igura : ; /a$ada' in,ernacionai'
-
8/15/2019 DataMining Pre
9/44
Análise Preditiva – Análise de Abandono
Criá os ! n “Replacement” )
No ca 5o B Default Limits Method” !tili
Se !ida ente va os de9nir esse intervalo) Essa o5era">o @ e6ect!adano ca 5o Replacement Editor.De9ni os co o Replacement Upper Limit -LL na variável BAnti !idadee -L na variável BN! Cha adas Intl ) Isto 5er ite 8!e todos osvalores 5resentes nas variáveis s!5eriores aos li ites de9nidos 5aracada ! a delas7 se a s!bstit! dos !tilio a o issos)
% res!ltado da altera">o e6ect!ada 5ode ser con9r ado no %!t5!terado 5elo n de &e5lace ent
Q
igura ? De=ni()o de li$i,e' e $@,odo de 'u ',i,ui()o
-
8/15/2019 DataMining Pre
10/44
Análise Preditiva – Análise de Abandono
igura A Ou, u, eCecu()o do Re lace$en,
TR#T#.ENTO DE O.I""O"
%s odelos 5reditivos e 8!e se a5lica t@cnicas de re ress>o n>o5ode conter valores o issos) Nesse sentido t nha os d!asalternativas7 8!e era a n>o !tili
-
8/15/2019 DataMining Pre
11/44
Análise Preditiva – Análise de Abandono
igura 9 "elec()o do $@,odo no n> I$ u,e
A5 s e=ec!">o do n obte os os se !intes res!ltados7 onde 5ode osveri9car o res!ltado da e=ec!">o co a cria">o das novas variáveis)
D#T# -#RTITION -ar,i()o do' dado'5
A8!ando da i 5le enta">o dos odelos 5reditivos deve os ter eaten">o a 5arti">o dos dados) Isto n>o @ ais do 8!e a divis>o da a ostrados dados e dois o! tr?s s!bcon !ntos dos dados7 cha ados de con !ntode ,reino 7 con !nto de &alida()o e con !nto de ,e',e ) No nosso casoes5ec 9co a5enas va os !tilio irá ser a5licadono nosso caso)Na 9 !ra abai=o 5ode os veri9car co o 5roceder con9 !ra">o do n
00
igura 10 Re'ul,ado do I$ u,e
igura 11 -ar,i()o do' dado'
-
8/15/2019 DataMining Pre
12/44
Análise Preditiva – Análise de Abandono
% res!ltado da e=ec!">o da 5arti">o dos dados @ o 8!e se 5ode veri9carna 9 !ra abai=o7 onde 5ode os veri9car a divis>o dos dados 8!er evalores absol!tos 8!er e 5ercenta e )
Oeito este trabalho de 5re5ara">o dos dados 5ode os 9nal ente a5licaros al orit os 5reditivos 8!e nos ir>o a !dar a 5rever o nosso tar et)Neste caso 5erceber 8!e ti5o de clientes te 5ro5ens>o 5ara abandonara $%S)
Co o á re6eri os anterio ente ire os !tili
-
8/15/2019 DataMining Pre
13/44
Análise Preditiva – Análise de Abandono
4R!ORE" DE DE I"ÃO
As árvores de decis>o corres5onde a ! a 6or a de re5resenta">o doconheci ento7 e te co o 5rinci5al vanta e o 6acto de re5resentarere ras7 8!e s>o de si 5les inter5reta">o)
A árvore de decis>o @ ! al orit o decisional7 e 8!e edida 8!e cadadivis>o @ e6ect!ada7 o conheci ento dos dados vai a! entando) Isto @7 oconheci ento dos dados @ aior nas 6olhas da res5ectiva árvore do 8!e naraio dos dados @ id?ntica nos dois casos7 5ois te os de 5erceber 8!e a
divis>o @ 6eita tendo e conta a relevVncia das variáveis7 o! se a as aisrelevantes encontra ;se no in cio da árvore)
%!tro 5onto a real"ar @ a !tilio) U a de 6or aan!al7 e d!as de 6or a a!to ática7 sendo 8!e as di6ere @ re5eti">o da
!tilio do odelo)
Nesse sentido a árvore de decis>o 6oi criada co as se !intescaracter sticas:
igura 13 on=gura()o do n> da %r&ore de deci')o5
Pontos i 5ortante:
0*
-
8/15/2019 DataMining Pre
14/44
Análise Preditiva – Análise de Abandono
• U'e In u, Once NoF – Esta o5">o 5er ite 8!e a variável se a!tilio dio será 6eitae 1 ra os)
• .aCi$u$ De ,/ ; Esta o5">o @ re6erente 5ro6!ndidade da árvore)%! se a7 no á=i o terá / ra os)
Se !ida ente se !e;se a cria">o dos ra os) Isso @ e6ect!adoseleccionando o ca 5o BInteractive
igura 1 "elec()o de a$ o In,erac,i&e
Ai a5arece a Tree $ieW co o ra o inicial da árvore)
igura 1: !i',a inicial do' dado'
A8!i 5ode os constatar a 6or a co o o so6tWare 6a< a divis>o dos dados nocon !nto de treino e valida">o7 e res5ectivas 5ercenta ens de abandono o!n>o) %bvia ente as 5ercenta ens s>o bastantes se elhantes nos dois s!b;con !ntos7 co o teria de ser)
Se !ida ente veri9car 8!al a variável co aior relevVncia7 5ara oob ectivo 5retendido Tar etF de 6or a a 6ao) Essain6or a">o @ dada 5elo lo Worth das variáveis) % lo Worth di< res5eito 8!alidade discri inante na divis>o de cada variável)
0-
-
8/15/2019 DataMining Pre
15/44
Análise Preditiva – Análise de Abandono
% valor do lo Worth 5ode ser veri9cado na tabela no ca 5o –2o 5F
Desta 6or a concl! os 8!e as variáveis co aior relevVncia na decis>os>o:
• Montante Dia• N! Min!tos Dia• N! Cha adas Servico• Plano Internacional• Plano $oice ail
1G I,era()o
0K
igura 1< " li, Node
igura 1? Ta ela de di&i')o
-
8/15/2019 DataMining Pre
16/44
Análise Preditiva – Análise de Abandono
• Con6or e veri9cado na tabela !tilio:
igura 1A Re'ul,ado -ri$eira I,era()o
A8!i veri9cá os:• Clientes co cons! os abai=o de -K701X dia t? ! a 5robabilidade
de abandono de 0L733 n esta 5ercenta e @ in6erior 5ercenta e dos dados antes de a5licar o odelo 8!e @ de 0-701F
• Clientes co cons! os s!5eriores a -K701X dia a t? ! a5robabilidade de abandono de /*7-* esta 5ercenta e @ s!5erior
5ercenta e dos dados antes de a5licar o odelo 8!e @ de0-701 F)
2G I,era()o
igura 19 Ta ela di&i')o 2
0/
-
8/15/2019 DataMining Pre
17/44
Análise Preditiva – Análise de Abandono
igura 20 Re'ul,ado 2G i,era()o
A8!i veri9cá os:• Clientes 8!e 6ao nova ente da variávelB ontante dia )
igura 21 Ta ela di&i')o 3
A5 s e=5ans>o o res!ltado @ o se !inte:
0
-
8/15/2019 DataMining Pre
18/44
Análise Preditiva – Análise de Abandono
igura 22 Re'ul,ado 3G I,era()o
A8!i veri9cá os:• Pessoas co cons! os abai=o de 1 71QKX dia t? ! a 5robabilidade
de abandono de 3Q7K1 )
Tendo e conta 8!e na 5ri eira itera">o !tilio 5ara 1 71QK)Essa altera">o @ e6ect!ada no 5ri eiro ra o7 editando o BInterval S5lit&!le 7 con6or e i a e )
igura 23 #l,era()o do in,er&alo
03
-
8/15/2019 DataMining Pre
19/44
Análise Preditiva – Análise de Abandono
1G I,era()o
Con6or e veri9cado na tabela !tilio
igura 2 Re'ul,ado 1 i,era()o
A8!i veri9cá os:• Clientes co cons! os abai=o de 1 71QKX dia t? ! a
5robabilidade de abandono de 017-0 esta 5ercenta e @ in6erior 5ercenta e dos dados antes de a5licar o odelo 8!e @ de 0-701F
• Clientes co cons! os s!5eriores a 1 71QKX dia a t? ! a5robabilidade de abandono de 0K7LQ esta 5ercenta e @ s!5erior
5ercenta e dos dados antes de a5licar o odelo 8!e @ de0-701 F)
2G I,era()o
Tendo e conta os res!ltados obtidos va os e=5andir o ra o dos clientes8!e te astos s!5eriores a 1 71QKX dia
Con6or e veri9cado na tabela !tilio:
igura 2: Ta ela di&i')o 2
0Q
-
8/15/2019 DataMining Pre
20/44
Análise Preditiva – Análise de Abandono
A5 s e=5ans>o o res!ltado @ o se !inte:
igura 2< Re'ul,ado 'egunda i,era()o
A8!i veri9cá os:• Clientes co cons! os s!5eriores a 1 71QK e abai=o de -K701X dia
t? ! a 5robabilidade de abandono de Q7Q1 esta 5ercenta e @in6erior 5ercenta e dos dados antes de a5licar o odelo 8!e @ de0-701F
• Clientes co cons! os s!5eriores a 1 71QK e i !ais o! s!5eriores a-K701X dia t? ! a 5robabilidade de abandono de /*7-* esta5ercenta e @ bastante s!5erior 5ercenta e dos dados antes dea5licar o odelo 8!e @ de 0-701 F
3G I,era()o ; EC an')o do ra$o H :712Se !ida ente va os e=5andir o ra o
Con6or e veri9cado na tabela !tilio:
1L
igura 2? Ta ela di&i')o 3
-
8/15/2019 DataMining Pre
21/44
Análise Preditiva – Análise de Abandono
A5 s e=5ans>o o res!ltado @ o se !inte:
igura 2A Re'ul,ado ,erceira i,era()o
A8!i veri9cá os:• Clientes co cons! os s!5eriores a 1 71QK e i !ais o! s!5eriores a
-K701X dia e se Plano $oiceMail t? ! a 5robabilidade deabandono de K71Q esta 5ercenta e @ s!5erior 5ercenta edos dados antes de introd!
-
8/15/2019 DataMining Pre
22/44
Análise Preditiva – Análise de Abandono
A8!i veri9cá os:• Clientes co cons! os s!5eriores a 1 71QK e i !ais o! s!5eriores a
-K701X dia7 se Plano $oiceMail e co Montante Tarde [ 0-711Xt? ! a 5robabilidade de abandono de *K7-1 esta 5ercenta e @in6erior 5ercenta e dos dados antes de introd!o á bastante red!o)Nesse sentido7 decidi os desbastar a árvore no n anterior)
Essa o5">o @ 6eita clicando e ci a do res5ectivo n e 6a
-
8/15/2019 DataMining Pre
23/44
Análise Preditiva – Análise de Abandono
% es o 5rocessose !ido anterior ente6oi e6ect!ado na divis>o dosrestantes ra os
Assi no 9nal 9cá os co a se !inte árvore onde assinalá os a ver elhoos ra os e a a arelo as 6olhas)
Oa
-
8/15/2019 DataMining Pre
24/44
Análise Preditiva – Análise de Abandono
de 3Q7K1 de abandono no con !nto de treino e 317Q* nocon !nto de valida">o
*; Cons! os de ontantes s!5eriores o! i !ais a 1 71QKX dia asin6eriores a -K701X dia t? ! a 5ercenta e de abandono de
Q7Q1 de abandono no con !nto de treino e 017/* no con !nto devalida">o)
-; Cons! os de ontantes s!5eriores o! i !ais a -K701X dia e se5lano de voice ail t? ! a 5ercenta e de abandono de K71Qde abandono no con !nto de treino e /7/ no con !nto devalida">o)
K; Cons! os de ontantes s!5eriores o! i !ais a -K701X dia e co5lano de voice ailt? ! a 5ercenta e de abandono de 0-71Q de abandono no
con !nto de treino e *7** no con !nto de valida">o)I$ or,Kncia da' &ari%&ei' na cria()o do $odelo
Nesta tabela 5ode os constatar a i 5ortVncia das variáveis no 5rocesso dedivis>o 8!e se encontra 5or orde descendente)
o$ ara()o re'ul,ado' en,re conLun,o de ,reino e conLun,o de&alida()o
Co este rá9co 5ode os veri9car a rela">o dos res!ltados 8!er nocon !nto de treino 8!er no con !nto de valida">o) A5esar de al ! asdi6eren"as ni as7 os res!ltados obtidos s>o !ito se elhantes ea bos os con !ntos)
1-
igura 33 I$ or,Kncia da' &ari%&ei' na %r&ore de deci')o $anual
-
8/15/2019 DataMining Pre
25/44
Análise Preditiva – Análise de Abandono
igura 3 o$ ara()o do' re'ul,ado' do $odelo no conLun,o de ,reino e&alida()o5
4R!ORE" DE DE I"ÃO #UTO.4TI #"Co o á 6oi dito anterior ente ! a das 6or as de cria">o das árvores dedecis>o de 6or a a!to ática)
% 8!e va os 6ao no á=i o7 e 8!e se di6erenciar>o na re5eti">o o! n>oda es a variável de decis>o7 5ara divis>o de ra os)
4R!ORE" DE DE I"ÃO #UTO.4TI #" O. RE-ETIÇ#O DE!#RI4!IE"5
Para erar os a árvore criá os ! n de BDecion Tree co a con9 !ra">oabai=o a5resentada)
igura 3: on=gura()o do n> Deci'ion Tree
% res!ltado erado @ ! a árvore co / ra os onde as variáveis de decis>o5ode ser re5etidas
1K
-
8/15/2019 DataMining Pre
26/44
Análise Preditiva – Análise de Abandono
Tendo e conta a árvore erada va os analisar os res!ltados de al ! as6olhas7 identi9cadas a a arelo na árvoreF e 8!e descende dos ra os
assinalados a ver elhoF 8!e nos 5arece relevantes 5ara co 5reens>o doodelo)
ECe$ lo 1
E=iste ! a 5robabilidade de QL7-3 abandono no con !nto de treino e deQ*703 5ara o se !inte ti5o de clientes:
.on,an,e*Dia \ -K701X
-lano* !oice.ail : No
1/
igura 3< 4r&ore de deci')o #u,o$%,ica co$ re e,i()o de &ari%&ei'
-
8/15/2019 DataMining Pre
27/44
Análise Preditiva – Análise de Abandono
.on,an,e*Tarde \ 0-711X
ECe$ lo 2
E=iste ! a 5robabilidade de Q 7KL abandono no con !nto de treino e de
Q*7 K 5ara o se !inte ti5o de clientes:.on,an,e*Dia [ -K701X
Nu$* /a$ada'*"er&ico : \ *7K
.on,an,e*Dia [ 1 71QKX
.on,an,e*Tarde [ 0Q7 /KX
ECe$ lo 3
E=iste ! a 5robabilidade de L abandono no con !nto de treino e de L5ara o se !inte ti5o de clientes:
.on,an,e*Dia [ -K701X
Nu$* /a$ada'*"er&ico : \ *7K
.on,an,e*Dia [ 1 71QKX
.on,an,e*Tarde \ 0Q7 /KX
.on,an,e*Dia \ 1-7QQX
% interesse da análise deste e=e 5lo @ constatar os 8!e o odelo á seestá a tornar !ito co 5le=o e torna;se evidente 8!e á está a entrar esobre a5rendi
-
8/15/2019 DataMining Pre
28/44
Análise Preditiva – Análise de Abandono
Nesta tabela 5ode os constatar a i 5ortVncia das variáveis no 5rocessode divis>o 8!e se encontra 5or orde descendente
o$ ara()o re'ul,ado' en,re conLun,o de ,reino e conLun,o de&alida()o
A5esar de al ! as di6eren"as ni as7 os res!ltados obtidos s>o !itose elhantes e a bos os con !ntos)
4R!ORE" DE DE I"ÃO #UTO.4TI #" "E. RE-ETIÇ#O DE!#RI4!IE"5
Para erar os a árvore criá os ! n de BDecion Tree co a con9 !ra">oabai=o a5resentada)
igura 39 on=gura()o do n> Deci'ion Tree
% res!ltado erado @ ! a árvore co / ra os onde as variáveis de decis>o
n>o 5ode ser re5etidas
13
igura 3? !i'ualiMa()o da i$ or,Kncia da' &ari%&ei'
igura 3A !i'ualiMa()o do' re'ul,ado' no conLun,o de ,reino e &alida()o
igura 0 4r&ore de deci')o #u,o$%,ica 'e$ re e,i()o de &ari%&ei'
-
8/15/2019 DataMining Pre
29/44
Análise Preditiva – Análise de Abandono
Tendo e conta a árvore erada va os analisar os res!ltados de al ! as6olhas7 identi9cadas a a arelo na árvoreF e 8!e descende dos ra os
assinalados a ver elhoF 8!e nos 5arece relevantes 5ara co 5reens>o doodelo) $isto n>o e=istir re5eti">o de variáveis a análise 5ode ser ais
si 5les)
ECe$ lo 1
E=iste ! a 5robabilidade de QL7-3 abandono no con !nto de treino e deQ*703 5ara o se !inte ti5o de clientes:
.on,an,e*Dia \ -K701X-lano* !oice.ail : No
1Q
-
8/15/2019 DataMining Pre
30/44
Análise Preditiva – Análise de Abandono
.on,an,e*Tarde \ 0-711X
ECe$ lo 2
E=iste ! a 5robabilidade de QL7Q0 abandono no con !nto de treino e de0LL 5ara o se !inte ti5o de clientes:
.on,an,e*Dia \ -K701X-lano* !oice.ail : No
.on,an,e*Tarde [ 0-711X
Nu$*.inu,o'*Dia \ *L170K
De re6erir 8!e tendo e conta a 5e8!ena 8!antidade de indiv d!os 5arece;nos 8!e o odelo á se encontra !ito es5ec 9co)
ECe$ lo 3
E=iste ! a 5robabilidade de 3Q7K1 abandono no con !nto de treino e de317Q* 5ara o se !inte ti5o de clientes:
.on,an,e*Dia [-K701X
Nu$* /a$ada'*"er&ico : \ *7K
Nu$*.inu,o'*Dia [ 0/L7KKX
I$ or,Kncia da' &ari%&ei' na cria()o do $odelo
Nesta tabela 5ode os constatar a i 5ortVncia das variáveis no 5rocesso dedivis>o 8!e se encontra 5or orde descendente
*L
-
8/15/2019 DataMining Pre
31/44
-
8/15/2019 DataMining Pre
32/44
Análise Preditiva – Análise de Abandono
or ard – As variáveis s>o adicionadas ao odelo etestadas a cada itera">o) ] 5or isso ! a borda e do5artic!lar 5ara o eral)
BacP ard –As variáveis s>o retiradas ao odelo e testadas a
cada itera">o) ] 5or isso ! a aborda e do eral 5ara o5artic!lar)
",e i'e –As variáveis s>o adicionadas e retiradas con6or e asi ni9cVncia estat stica) ] ! a aborda e 8!e co bina a basas anteriores OorWard e +ac^WardF
Tendo e conta o est!do de caso7 onde @ 5retendido 5rever a 5ro5ens>o deabandono o! n>o7 a re ress>o ais indicada será a lo stica) Ooraa5licados os * @todos de lo ostica aci a descritos: or ard7 BacP arde ",e i'e5
A re ress>o lo stica7 ao contrário da arvore de decis>o7 @ sens vel aosdados co valores o issos e7 5or essa rao7 esses dados 6oraanteci5ada ente tratados 5elo @todo de BDestrib!tion 7 co ! BMissinC!to_ de KL )
igura 3 ; on=gura()o de i$ u,a()o u'ada
As variáveis abran idas 6ora : Nu$* /a$ada'*Dia7 Nu$*.inu,o'*Dia7Nu$*.inu,o'*Tarde7 RE-*Nu$* /a$ada'*In,l5
igura Ou, u, da i$ u,a()o co$ a' &ari%&ei' a rangida'
Regre'')o 8og ',ica ; or ard
*1
-
8/15/2019 DataMining Pre
33/44
Análise Preditiva – Análise de Abandono
Neste @todo as variáveis s>o adicionadas tendo e conta asi ni9cVncia estat stica7 5elo 8!e res!lto! na se !inte orde a cadaitera">o:
igura : Ou, u, co$ a orde$ da' &aria&ei' ue +ora$ in'erida'
Ao de5arar o;nos co a variável estado se re5etia 5or KL 5arV etros7veri9cá os 8!e a5enas - K tinha ! PValue in6erior a K 7 o 8!e indica8!e todas as o!tras variáveis t? ! a 5robabilidade de sere L e7 co o5ode os ver na i a e aci a7 a variável estado acabo! 5or n>o terin !?ncia s!9ciente)
Posto isto7 6oi decidido retirar an!al ente esta es a variável7 clicandoe ci a do n 7 de se !ida e BEdit $ariables e B&!n )
igura < on=gura()o u'ada ara re,irar a &ari%&el QE',adoQ
A ora á se a variável estado7 6ora adicionadas as se !intes variáveis acada itera">o:
**
-
8/15/2019 DataMining Pre
34/44
Análise Preditiva – Análise de Abandono
igura ? Ou, u, co$ a orde$ da' &ari%&ei' 'e$ a &ari%&el QE',adoQ
Co a a5lica">o deste @todo @ erado ! o!t5!t B%dds &atio Esti ates 7onde nos 5er ite veri9car o i 5acto das variáveis tendo e conta a
variável Tar et7 lag*# andono )
igura A Ou, u, da Regre'')o or ard
Tendo e conta o o!t5!t erado7 5ode os destin ir 8!e e=iste / variáveis8!e in !encia ne ativa ente a 5robabilidade de abandono do cliente7
8!e se veri9ca 5elo BPoint Esti ate s!5erior a 0:
• A variável Plano_VoiceMail é a mais importante, visto que os indivíduos que não têm plano de Voice Mail têm maior probabilidade de abandono, do que os indivíduos quetêm Plano de Voice Mail, em 204, !"
• A se#unda variável mais importante é Num_Chamadas_Servico, por cada c$amada deservi%o, aumenta a probabilidade de abandono em &2,&!"
• A terceira variável mais importante é a variável Montante_Intl , ou se'a, por cada
unidade de moeda cobrado, aumenta a probabilidade de abandono em 40,4!"
*-
-
8/15/2019 DataMining Pre
35/44
Análise Preditiva – Análise de Abandono
• As variáveis Montante_Dia, Montante_Tarde e Num_Minutos_Noite ,in(luenciam, por cada unidade de moeda cobrado, o abandono do cliente em ),2!, ), !e 0,4! respetivamente"
As variáveis c! o BPoint Esti ate @ in6erior a 07 re ete 5ositiva ente ! adi in!i">o da 5robabilidade de abandono:
• A variável Plano_International é a que mais in(luência de (orma positiva, ou se'a, umindividuo que não ten$a Plano*+nternacional tem ) ,2! menor probabilidade deabandonar"
• A variável IMP_REP_Num_Chamadas_Intl tem uma in(luência bai-a relativamenteao Plano*+nternational, mas ainda assim positiva, na medida em que por cada c$amadainternational que um individuo (a%a, diminui a probabilidade de abandono em ,4!"
Analise do rá9co ; Cumulative Lift Este rá9co 5er ite;nos 5erceber a assertividade da a ostra Train sobre aa ostra Validate. Z!anto aior o li6t7 elhor ele acerta na a ostra devalida">o7 5or e=e 5lo7 se escolh?sse os 1L da 5o5!la">o7 ter a os !2i6t a5ro=i ada ente de *)
Regre'')o 8og ',ica ; BacP ard
Neste @todo as variáveis s>o retiradas tendo e conta a si ni9cVnciaestat stica7 5elo 8!e o @todo inicio! co as se !intes variáveis:
*K
-
8/15/2019 DataMining Pre
36/44
Análise Preditiva – Análise de Abandono
igura 9 !ari%&ei' iniciai' adicionada'5
% @todo ac!"ard a cada intera">o 6oi retirando as variáveis con6or e ose! si ni9cado estat stico ordenada ente:
igura :0 Ou, u, da re,irada de &ari%&ei' elo $@,odo BacP ard
A5 s a as variáveis sere re ovidas s>o erados os se !intes res!ltados:
igura :1 Ou, u, da Regre'')o BacP ard
%s res!ltados s>o bastante id?nticos ao do @todo for"ard 7 no entantoa5arece d!as novas variáveis: RE-*#n,iguidade e .on,an,e*Noi,e co! a in !?ncia ne ativa de L71 e 0L7* ) Devido 5o!ca relevVncia da
*/
-
8/15/2019 DataMining Pre
37/44
Análise Preditiva – Análise de Abandono
variável RE-*#n,iguidade 7 concl! dos 8!e esta n>o te in !?ncia 5orestar !ito 5r =i o de 0)
Regre'')o 8og ',ica ; ",e i'e
Neste @todo as variáveis s>o inseridas e retiradas tendo e conta asi ni9cVncia estat stica)
No 9nal o o!t5!t de B%dds &atio Esti ates @ id?ntico ao 8!e veri9ca osco o @todo for"ard 7 co o 5ode os ver 5ela i a e :
igura :2 Ou, u, da Regre'')o ",e i'e
*
-
8/15/2019 DataMining Pre
38/44
Análise Preditiva – Análise de Abandono
o$ ara()o do' .odelo'No est!do caso criá os vários odelos co base e t@cnicas 5reditivasco o ob etivo de os co 5arar e 5erceber 8!al o elhor odelo) %s
odelos criados 6ora re5resentados da se !inte 6or a:
igura :3 !i')o geral do' $odelo' u'ado'5
De odo a co 5arar os di6erentes odelos criados7 !sá os o n BModelCo 5arison 8!e 5er ite co 5arar os odelos e estabelece ! dos
odelos co o o elhor)
%s res!ltados do o!t5!t de co 5ara">o 6ora :
igura : Re'ul,ado do Q.odel o$ ari'onQ
Deste odo 5ode os observar 8!e o odelo co elhor 5er6or ance erela">o aos o!tros @ a %r&ore de deci')o au,o$%,ica co$ re e,i()o de&ari%&ei'7co base no $alid Misclassi9cation &ate)
*3
-
8/15/2019 DataMining Pre
39/44
Análise Preditiva – Análise de Abandono
Pode os ta b@ observar 8!e e=iste ! a rande dis5aridade devalores de $alid Misclassi9cation &ate7 entre as árvores de decis>oa!to ática e os restantes odelos7 sendo 8!e as estas árvores a5resentavalores !ito bai=os7 no eada ente L7LK/KQ0 e L7LK 1K 7 econtra5osi">o a valores aci a de L70L 5ara os restantes odelos) % 8!e
indica 8!e as árvores de decis>o a!to ática t? ! a elevada 9abilidadee rela">o aos restantes odelos)
% odelo da %r&ore de deci')o $anual conse !i! a5resentar ! a9abilidade aior do 8!e 8!al8!er odelo de re ress>o lo stica e aindaassi ser ! odelo co re ras relativa ente si 5les7 8!e @ i 5ortanteter e considera">o)
o$ ara()o do' $odelo' recorrendo ao RO /ar,
.rvores a!to áticas
Pode os observar 5elo rá9co &%C 8!e as c!rvas das linhas 8!ecorres5onde ás árvores de decis>o a!to ática est>o ais distantes eaci a da linha de aseline ) Deste odo 5ode os con6erir7 ais ! a veo a!to ática s>o as 8!e t? ! a aior9abilidade7 destacando;se das de ais) As linhas das árvores a!to áticasse re5eti">o de variáveis e co re5eti">o de variáveis sobre5#e ;se7 5elo8!e 5ode os concl!ir 8!e t? ! co 5orta ento !ito se elhante)
igura :: RO /ar, da %r&ore 'e$ re e,i()o igura :< RO/ar, da %r&ore co$ re e,i()o
E ter os 8!antitativos7 5ode;se analisar os odelos veri9cando osres!ltados 5revistos e os reais7 identi9cando assi :
al'e nega,i&e' ; @ o n ero de 5revis#es incorretas 8!ando a classe real@ 5ositiva
True Nega,i&e' ; s@ o n ero de 5revis#es corretas 8!ando a classe real
@ ne ativa
*Q
-
8/15/2019 DataMining Pre
40/44
Análise Preditiva – Análise de Abandono
al'e -o'i,i&e' ; @ o n ero de 5revis#es incorretas 8!ando a classereal @ ne ativa
True -o'i,i&e' ; @ o n ero de 5revis#es corretas 8!ando a classe real @5ositiva
Deste odo e ter os 8!antitativos7 5ara a árvore a!to ática core5eti">o de variáveis te os:
!alore' reai'-re&i')o Abandono! N>o
Abandono!Abandono! *-Q TPF 1- OPFN>oabandono!
0-K ONF 1Q3L TNF
Para a árvore a!to ática co re5eti">o de variáveis te os:
!alore' reai'-re&i')o Abandono! N>o
Abandono!Abandono! *-Q TPF *0 OPFN>oabandono!
0-K ONF 1Q * TNF
.rvore Man!al
Ao analisar o rá9co &%C da árvore de decis>o an!al7 revelo!;se 8!e @ o5ior odelo e ter os de 9abilidade7 á 8!e @ a linha 8!e ais se a5ro=i ada linha de aseline ) A5enas se de onstro! elhor do 8!e as re ress#eslo sticas at@ o ei=o BS5eci9citR che ar aos L7LQ) &elativa ente ás árvoresde decis>o a!to ática7 o odelo an!al n>o se de onstro! 5roveitoso)
igura :? RO /ar, da %r&ore $anual
-L
-
8/15/2019 DataMining Pre
41/44
Análise Preditiva – Análise de Abandono
E ter os 8!antitativos7 5ara a árvore an!al te os:
!alore' reai'-re&i')o Abandono! N>oAbandono!
Abandono! *-Q TPF 1- OPFN>oabandono!
0-K ONF 1Q3L TNF
&e ress>o 2o stica)
As linhas de re ress>o lo stica 6orWard7 bac^Ward e ste5Wise7 se elhan"ado 8!e acontece co as linhas das arvores de decis>o a!to áticas7sobre5#e ;se e deste odo 5ode os con9r ar 8!e t? 9abilidade !itose elhantes entre as es as)
Deste odo7 os odelos de re ress>o lo stica torna ;se os se !ndoselhores odelos 5reditivos7 no 5resente caso de est!do)
igura :A RO /ar, da Regre'')o or ard
igura :9 RO /ar, da Regre'')o BacP ard
-0
-
8/15/2019 DataMining Pre
42/44
Análise Preditiva – Análise de Abandono
igura
-
8/15/2019 DataMining Pre
43/44
Análise Preditiva – Análise de Abandono
Score &an^in s %verlaR ; 2i6t
% rá9co de li6t ostra o 8!anto ais 5rovável @ receber res5ostas coodelo vers!s se odelo) Pelo rá9co de 2i6t 5ode os observar 8!e se
contactar os a5enas 0L da 5o5!la">o7 co$ o' $odelo' de %r&ore' dedeci')o au,o$%,ica7 ode$o' o ,er
-
8/15/2019 DataMining Pre
44/44
Análise Preditiva – Análise de Abandono
onclu')o% ob etivo do caso de est!do era de tentar 5rever 8!e clientes t? ais5robabilidade de abandono)
Co os dados 6ornecidos 5ela e 5resa $%S7 criá os ! odelo 5reditivode odo a de onstrar 8!e ti5o de clientes t? ais 5robabilidade deabandonar a e 5resa7 co base nas t@cnicas: 4r&ore' de deci')o
an!al7 co e se re5eti">o de variaveisF e regre'')o log ',ica OorWard7 +ac^Ward e Ste5WiseF) A5 s a cria">o dos odelos7 os es os
6ora co 5arados entre si 5ara analisar os 8!al deles seria ais 9ável5ara o est!do de caso)
% Miner considero! 8!e7 de entre os odelos criados7 o elhor odelo @ oda %r&ore de deci')o au,o$%,ica co$ re e,i()o de &ari%&ei'5 Este
odelo 5arece;nos o ais indicado 5ara identi9car os clientes co5ro5ens>o ao abandono no est!do de caso7 tendo e conta 8!e os odelosde re ress>o lo stica e árvore de decis>o an!al7 se de onstrara enos9áveis co o 6oi 5oss vel observar na co 5ara">o de odelos)