data mining: project new credit card

44
DATA MINING REPORT PROJECT: New Credit Card – BancaX A cura di: Mirko Vairo

Upload: mirko-vairo

Post on 06-Dec-2014

606 views

Category:

Business


4 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Data Mining: project new credit card

DATA MINING

REPORT

PROJECT: New Credit Card – BancaX

A cura di:

Mirko Vairo

Page 2: Data Mining: project new credit card

OBIETTIVI DI BUSINESS 1

• Sviluppare sul DB a disposizione delle analisi statistiche – utilizzando i modelli di analisi univariata, bivariata e multivariata – per capire, da un lato, come si configura la clientela della banca e, dall’altro indagare quali siano le motivazioni che spingono un cliente a richiedere spontaneamente l’attivazione di una nuova carta di credito.

La BancaX, azienda che da oltre 40 anni opera nel campo dei servizi finanziari, ci ha ingaggiato per sviluppare un’analisi di Data Mining su un Dataset di approssimativamente 40.000 clienti. L’obiettivo di tale studio è:

Page 3: Data Mining: project new credit card

DA COSA PARTIAMO 2

BancaX, per raggiungere tale obiettivo, ci ha fornito un Dataset (Banking prediction 1) contenente varie

informazioni su:

Sesso ed Età del cliente

Storicità del cliente

Utilizzo che ciascun cliente fa, in termini di ammontare impiegato o ottenuto, dei prodotti

bancari offerti.

N° di transazioni effettuate da ciascun cliente attraverso i diversi canali a disposizione

(Sportelli/ATM/Internet/Telefono)

Gli ordini effettuati dal cliente e non ancori evasi

Il possesso o meno di una nuova carta di credito VARIABILE

OBIETTIVO

Page 4: Data Mining: project new credit card

OBIETTIVI DI DATA MINING 3

Attraverso l’utilizzo di questo Dataset, sono state effettuate:

ANALISI UNIVARIATE

Inizialmente, è stato quello di analizzare il dato fornito, attraverso analisi descrittive e grafiche. Successivamente, si è verificato se fosse necessario effettuare una pulizia del Dataset ed un’eventuale riclassificazione di alcune delle variabili.

FACTOR E CLUSTER

ANALYSIS

L’obiettivo era quello di segmentare la clientela della banca per studiarne le caratteristiche ed individuare eventuali clusters di particolare interesse.

MODELLI DI CLASSIFICAZIONE ED ASSOCIAZIONE

L’utiizzo di queste tecniche aveva lo scopo di capire cosa avesse spinto il cliente ad attivare una nuova carta di credito.

Page 5: Data Mining: project new credit card

PROJECT PLAN 4

FASE 1

• Analisi descrittiva e grafica del DB (slide 6-9)

• Individuazione outliers e mancanti (slide 10)

FASE 2

• Pulizia dei dati (slide 12)

• Ricodifica variabili slide (13-16)

• Segmentazione della clientela (slide 17-23)

FASE 3

• Sviluppo dei modelli di classificazione (slide 25-34)

• Sviluppo dei modelli di associazione (slide 36-39)

FASE 4

• Findings (slide 41)

• Implicazioni manageriali (slide 42-43)

Page 6: Data Mining: project new credit card

FASE 1: ANALISI DEI DATI 5

Questa fase si compone di due step:

STEP 1 Analisi descrittiva e grafica del DB

STEP 2 Individuazione outliers e mancanti

Page 7: Data Mining: project new credit card

ANALISI DESCRITTIVA E GRAFICA 6

Il Dataset contiene le informazioni di un campione di 41.978 clienti della BancaX. Le

caratteristiche di base della clientela possono essere riassunte in 3 punti:

1 – Il 59,24% dei clienti sono donne e la restante parte uomini

2 – L’età è compresa tra i 18 ed i 90 anni

3 – La tenure del cliente in media è di 5 anni

È necessario ricodificare la variabile

per poter classificare i clienti in

fasce d’età.

Page 8: Data Mining: project new credit card

ANALISI DESCRITTIVA E GRAFICA (2) 7

Conti Risparmio

Conti Correnti

Fondi d’investimento

Titoli azionari

Garanzie bancarie

Depositi

Prestiti al consumo

Prestiti alle imprese

Mutui

Assicurazioni vita

PR

OD

OT

TI

BA

NC

AR

I

Media utilizzo: 1.612$

Media utilizzo: 323$

Media utilizzo: 1.462$

Media utilizzo: 1.000$

Media utilizzo: 717 $

Media utilizzo:10$

Media utilizzo: 3$

Media utilizzo: 1.324$

Media utilizzo:4.137$

Media utilizzo: 1.962$

L’utilizzo medio di ciascun prodotto

bancario è molto basso (ad esempio,

basta notare che i prestiti alle imprese

registrano un valore medio poco

realistico, 4.137$). Questo ci porta a

pensare che il dato sia fortemente

contenuto a causa dell’elevato numero

di clienti che non fa uso dei prodotti

(valore 0 nella relativa casella); ciò

provoca l’identificazione di un numero

troppo consistente di outlier. Proprio

per questo motivo, prima di poter

procedere alla loro identificazione ed

eliminazione, in fase di analisi dei dati

siamo stati costretti a trasformare i

valori “0” in nulli. Considerando lo

scarso utilizzo dell’offerta da parte dei

clienti, siamo portati a pensare che la

BancaX tende a riconoscere come tali

coloro che in realtà realizzano solo

operazioni una tantum; questo

fenomeno verrà enfatizzato

principalmente durante la fase di

clusterizzazione.

Page 9: Data Mining: project new credit card

ANALISI DESCRITTIVA E GRAFICA (3) 8

Sportelli

ATM

Telefono

Internet

CA

NA

LI

DI

TR

AN

ZA

ZIO

NE

Media utilizzo: 2,6 transaz.

Media utilizzo: 3 transaz.

Media utilizzo: 0,026 transaz.

Media utilizzo: 0,013 transaz.

Relativamente ai canali di transazione,

l’influenza dei non utilizzatori genera

effetti del tutto simili a quanto

enunciato in precedenza per i prodotti

bancari. Molto interessante il dato sulle

transazioni attraverso l’e-banking, in

media molto basso rispetto alle

aspettative (0,026 per cliente), perché

attualmente la maggior parte delle

transazioni che vengono realizzate con

carta di credito coinvolgono questo

canale. Inatteso il dato relativo alle

transazioni effettuate attraverso

sportelli automatici che mostrano il

livello di frequenza d’utilizzo più

elevato.

Page 10: Data Mining: project new credit card

ANALISI DESCRITTIVA E GRAFICA (4)

L’ultimo campo compreso nel DB è quello che riguarda la variabile obiettivo della nostra analisi – e

cioè il numero di clienti che hanno attivato una carta di credito. In sostanza il grafico ci mostra che

solo il 5,54% dei clienti possiede una carta (2324 su 41978); questo dato ci consente di

comprendere meglio le motivazioni per le quali la BancaX ha avviato questo un progetto d’analisi.

5,54%

94,46%

9

Page 11: Data Mining: project new credit card

INDIVIDUAZIONE OULIERS E MANCANTI 10

Come si è preannunciato, per individuare in maniera più corretta gli outliers, sono stati creati artificiosamente dei nuovi campi

(con il suffisso _missing) dove gli “0” venivano trasformati in valori nulli (vedi output clementine Tabella con valori nulli). Una volta

fatto ciò sono stati calcolati gli outliers: 1) per i valori anomali il limite soglia era posto a 3 volte il range interquartile mentre 2)

per i valori estremi era 6 volte; non vi erano mancanti. Il risultato finale è stato il seguente:

CAMPI ANOMALI ESTREMI RECORD VALIDI VALORE NULLO

Customer_ID 0 0 41978 0

Gender -- -- 41978 0

Age 0 0 41978 0

Tenure 0 0 41978 0

New_Credit_Card_Flag -- -- 41978 0

Saving_Amount_missing 1276 1594 27991 13987

Current_Amount_missing 384 618 9811 32167

Time_Deposits_Amount_missing 39 27 1482 40496

Funds_Amount_missing 70 31 2092 39886

Stocks_Amount_missing 157 239 4018 37960

Bank_Assurance_Amount_missing 25 3 1633 40345

Life_Assurance_Amount_missing 36 11 957 41021

Business_Loan_Amount_missing 28 14 966 41012

Home_Loan_Amount_missing 23 7 1680 40298

Consumer_Loan_Amount_missing 97 8 9974 32004

Branch_Transactions_missing 442 276 22453 19525

ATM_Transactions_missing 68 4 11825 30153

Phone_Transactions_missing 6 0 171 41807

Internet_Transactions_missing 15 8 365 41613

Standing_Orders_missing 34 6 1673 40305

Nel riquadro azzurro vengono

messi in evidenza gli outliers relativi

ad ogni nuova variabile creata. La

percentuale di record modificati per

ogni campo si aggira tra il 3% e

l’11% (naturalmente è una

percentuale relativa solo ai record

validi e non a tutti quelli presenti nel

DB – infatti nella 4^ colonna sono

indicati i valori nulli per ogni

campo).

Page 12: Data Mining: project new credit card

FASE 2: PREPARAZIONE DEI DATI 11

La fase 2 si compone di tre step:

STEP 1 Pulizia dei dati

STEP 2 Ricodifica variabili

STEP 3 Segmentazione della clientela

Page 13: Data Mining: project new credit card

PULIZIA DEI DATI 12

Individuati valori estremi ed anomali si è proceduto alla loro eliminazione. Di sotto si riporta lo stream realizzato per la correzione

dei valori.

Per quanto riguarda la procedura di

sostituzione degli outliers è stata

impostata, attraverso il nodo Esplora, la

funzione “Forza” e successivamente si è

utilizzato il parametro “Algoritmo” per

l’assegnazione del nuovo valore (vedi

supernodo Valore anomalo ed estremo).

Fatto ciò, il passo seguente è stato quello

di reimpostare i record con valori nulli (da

noi artificiosamente creati), assegnando

– attraverso il supernodo “Assegna

valori” – a ciascuno di essi il valore 0.

Infine, con il nodo Filtro, sono stati

rinominati i nuovi campi creati (senza

outliers) apponendo a ciascuno di essi il

suffisso _ready; il tutto è stato inserito

all’interno del nuovo DB: Banking

Prediction 1 – DB pulito.

Page 14: Data Mining: project new credit card

RICODIFICA VARIABILI 13

Per un’analisi più chiara e dettagliata e per poter sviluppare i modelli di associazione, è stata necessaria la ricodifica di alcune

delle variabili. Due le operazioni realizzate:

1 – Classificazione della variabile età.

Dato che, come visto in precedenza, il campo età è espresso come variabile

continua (che va da 18 a 90 anni), si è pensato che fosse più giusto

riclassificarla attraverso il nodo Discretizza. Sintetizzando, la procedura ha

portato alla creazione di 4 fasce d’età (riportate nel grafico qui accanto).

Emergono due riflessioni interessanti:

a) L’80,44% del campione è composto da individui con età tra 24 e 65 anni.

b) In questa classe si collocano coloro che hanno richiesto con maggiore

frequenza l’attivazione della nuova carta di credito.

Page 15: Data Mining: project new credit card

RICODIFICA VARIABILI (2) 14

Per l’attuazione dei modelli di associazione (Market Basket Analysis), i campi _Amount e _Transaction sono stati

trasformati da variabili numeriche continue a variabili Flag. Tale obiettivo è stato raggiunto attraverso la creazione di

un apposito stream:

2 – Ricodifica prodotti bancari e canali di transazione in variabili Flag

Seguendo il flusso, le operazioni realizzate sono state: 1) Eliminazione di alcuni campi secondari ai fini dello studio

(Gender, Tenure e Standing_orders); 2) Creazione dei campi Flag attraverso l’apposito supernodo (vedi slide

successiva per approfondimenti); 3) Filtraggio dei vecchi campi (numerici continui); 4) Ricodifica delle variabili 1/0 in

True/False per poter eseguire correttamente la MBA. 5) Creazione del DB: Banking Prediction – DB per MBA.

Page 16: Data Mining: project new credit card

RICODIFICA VARIABILI (3) 15

Attraverso il supernodo “Creazione Flag” è stato creato un insieme di nodi Nuovo Campo che ha

permesso la ricodifica dei vecchi campi. La sintesi delle variabili create è riportata nella seguente

tabella.

2 – Ricodifica prodotti bancari e canali di transazione in variabili Flag

Page 17: Data Mining: project new credit card

RICODIFICA VARIABILI (4) 16

Una volta trasformate tutte le variabili in flag, si è verificato attraverso il nodo Distribuzione se per alcune di esse la

percentuale di casi Veri (e cioè con valore 1) risultasse almeno superiore al 5% del totale dei casi.

Solo 7 delle 14 variabili flag, inizialmente create, soddisfacevano tale criterio.

2 – Ricodifica prodotti bancari e canali di transazione in variabili Flag

Page 18: Data Mining: project new credit card

SEGMENTAZIONE DELLA CLIENTELA 17

L’ultimo step di questa fase riguarda la creazione e la descrizione dei cluster di clientela.

Tre i passi seguiti:

Factor Analysis

Cluster Analysis

Descrizione cluster

Page 19: Data Mining: project new credit card

SEGMENTAZIONE DELLA CLIENTELA 18

Il primo passo ha portato alla creazione di 5 fattori che sintetizzano i 10 prodotti offerti da BancaX.

Factor Analysis

Conti Risparmio

Conti Correnti

Fondi d’investimento

Titoli azionari

Garanzie bancarie

Depositi

Prestiti al consumo

Prestiti alle imprese

Mutui

Assicurazioni vita Prodotti di

investimento/

Risparmio

Prodotti

Vita/Casa

Finanziamenti alle

imprese

Conti Correnti

Finanziamenti a

privati

I fattori costruiti dal s/w, e qui riportati, spiegano il 62%

della varianza totale (la tabella con le correlazioni tra

fattori e prodotti viene riportata nella cartella relativa a

questa fase).

Page 20: Data Mining: project new credit card

SEGMENTAZIONE DELLA CLIENTELA (2) 19

Cluster Analysis

La tecnica utilizzata è l’algoritmo K-

means che ha permesso di

identificare 4 clusters finali (vedi

tabella). La tabella di ANOVA (file

output factor_cluster) mostra come

tale soluzione sia anche significativa

al test-F.

Di estremo interesse l’informazione fornitaci dalla tabella riportata a lato; questa infatti ci

indica che esiste un cluster di utenti, quello dei Dormienti, che sembra essere

preponderante rispetto agli altri. Inizialmente si pensava che, questa anomalia, fosse

dovuta al numero troppo basso di clusters; però, ci si è accorti che aumentandolo la

soluzione era pressoché la stessa. L’unica interpretazione plausibile è che il Dataset di

41.978 record rappresenta, principalmente, quel campione di utenti della BancaX che è

poco avvezzo all’utilizzo dei prodotti bancari che compongono la sua offerta (questo lo

notiamo – nella tabella sopra riportata – dallo scarso livello di correlazione con tutti i fattori).

Forse, i clienti che appartengono a questo cluster, sono proprio quelli che la banca

vorrebbe coinvolgere maggiormente attraverso un prodotto più flessibile quale la carta di

credito.

Page 21: Data Mining: project new credit card

SEGMENTAZIONE DELLA CLIENTELA (3) 20

Descrizione cluster “Famiglie”

Questo cluster è stato così denominato per la sua attitudine ad usufruire di

prodotti come i mutui per l’acquisto di immobili e quindi di beni destinati

all’uso familiare. Il grafico sulla destra dimostra chiaramente questa

attitudine.

Per quanto riguarda l’età media, si nota dall’istogramma Age_OPTIMAL che

la maggior parte dei clienti ad esso appartenenti si colloca nella fascia 24-65

anni; ciò sembra ovvio alla luce del fatto che, coloro che più frequentemente

richiedono un mutuo alla banca sono famiglie – più o meno giovani – che

vogliono costruire il proprio futuro.

Infine, è emerso che, tra gli

individui appartenenti a questo

cluster, sono state attivate solo

53 nuove carte di credito su un

totale di 825 clienti. Questo

dato, correlato a quanto

espresso in precedenza, mette

in evidenza la scarsa attrattività

del cluster in questione.

Page 22: Data Mining: project new credit card

SEGMENTAZIONE DELLA CLIENTELA (4) 21

Descrizione cluster “Business”

Come accade per le Famiglie, i clienti business si caratterizzano per il

collocamento nella fascia intermedia d’età. Come ci si poteva aspettare, il

numero di clienti al di sotto dei 24 anni è esiguo, proprio perché è molto

difficile che clienti giovani usufruiscano di un prodotto business.

Anche quello dei clienti business sembra un

cluster poco interessante per le finalità della

nostra ricerca, dato il numero ridotto dei suoi

componenti e di quelli che al suo interno

possiedono una carta di credito. D’altronde un

cliente del tipo business difficilmente utilizza

una carta di credito per la sua attività, mentre

ricorre più spesso a strumenti quali i

Finanziamenti o altre forme di debito.

Page 23: Data Mining: project new credit card

SEGMENTAZIONE DELLA CLIENTELA (5) 22

Descrizione cluster “Dormienti”

Come negli altri casi, anche i dormienti si concentrano

nella fascia d’età 24-65 anni. Però, in questo caso cresce

il numero di utenti che si posizionano nelle classi

contigue.

Solo il 5% di essi ha attivato una nuova carta; questo in valore

assoluto, però, si traduce in 2.211 attivazioni. Quindi, data la

consistenza di questo cluster, possiamo affermare che basta una

piccola variazione percentuale di attivazioni per poter

raggiungere un numero elevato di carte vendute.

Il cluster dei dormienti, come accennato in precedenza, è quello più grande tra i 4 creati (circa 40.000 utenti – in pratica quasi tutto il

campione). Si collocano al suo interno quei clienti che, sostanzialmente, non usufruiscono di nessuno dei prodotti bancari messi a

loro disposizione o lo fanno occasionalmente. Nel corso della fase di analisi ci concentreremo in particolar modo su di essi, che

sembrano essere il segmento più attraente per il nostro obiettivo.

Page 24: Data Mining: project new credit card

SEGMENTAZIONE DELLA CLIENTELA (6) 23

Descrizione cluster “Privati”

L’età media in questo caso si alza molto, infatti crescono

le fasce d’età più anziane. La spiegazione di ciò può

essere legata al fatto che, di solito, è la classe più anziana

di una popolazione ad essere più spinta al risparmio (ad

esempio per coloro che si avviano all’età pensionabile).

Tale segmento, come gli altri appena analizzati, ha registrato un

tasso di nuove attivazioni bassissimo. Dato l’esiguo numero di

componenti, e le loro caratteristiche, ci sembra poco

interessante sviluppare una strategia indirizzata ad aumentare

l’attrattività, per questi utenti, del prodotto carta di credito.

Nella categoria Privati vengono collocati quei clienti che fanno ampio

utilizzo dei prodotti di risparmio della banca, quali: conto risparmio

(mostrato nel seguente grafico ), depositi a breve-lungo termine, ecc.

Page 25: Data Mining: project new credit card

FASE 1: MODELLAZIONE

Questa fase si compone di due step:

STEP 1 Modelli di classificazione

STEP 2 Modelli di associazione

24

Page 26: Data Mining: project new credit card

MODELLI DI CLASSIFICAZIONE

Terminata la preparazione del DB, si è passati alla modellazione. Innanzitutto è stato costruito, attraverso alcune

delle tecniche a disposizione, un algoritmo di classificazione.

Il procedimento di anali svolto è composto da 4 passi:

Selezione delle variabili chiave

Bilanciamento della variabile New_Credit_Card_Flag

Selezione dei modelli migliori

Addestramento e Test

25

Page 27: Data Mining: project new credit card

MODELLI DI CLASSIFICAZIONE (2)

Attraverso il nodo Seleziona Variabili si è proceduto alla determinazione dei campi più interessanti, di cui tener

conto, per la creazione dei modelli.

Selezione delle variabili chiave

Sono state, quindi, selezionate le seguenti variabili:

Come si può vedere dalla tabella, si è tenuto in considerazione solo quei campi che nella colonna valore

raggiungevano il 95% di confidenza, data la variabile obiettivo (New_Credit_Card_Flag). I restanti campi sono stati

messi da parte attraverso il nodo Filtro.

26

Page 28: Data Mining: project new credit card

MODELLI DI CLASSIFICAZIONE (3)

Dato che il campo obiettivo era troppo sbilanciato per poter sviluppare correttamente i modelli, si è reso

necessario l’utilizzo del nodo Bilanciamento per ovviare a tale problema.

Il procedimento è stato il seguente:

Bilanciamento della variabile New_Credit_Card_Flag

27

Page 29: Data Mining: project new credit card

MODELLI DI CLASSIFICAZIONE (4)

Successivamente, grazie al nodo Classificatore modelli, abbiamo identificato le tecniche più valide per poter effettuare la

classificazione. In pratica:

Selezione dei modelli migliori

Il classificatore – sulla base dei

parametri impostati e dei modelli

spuntati (vedi grafico qui di fianco) –

ha selezionato tra tutti il C5.0, la

Regressione logistica e la

discriminante lineare. Il migliore in

assoluto, evidenziato nel riquadro

rosso, risulta essere il C5.0: questo,

infatti, sembra ottenere risultati

ottimali in tutti i parametri di selezione.

28

Page 30: Data Mining: project new credit card

MODELLI DI CLASSIFICAZIONE (5)

Infine, sono stati generati due supernodi: uno per l’Addestramento delle tecniche migliori e l’altro per il Test. Per ognuno di essi vengono riportati il

grafico del lift e le tabelle di analisi (per eventuali approfondimenti visionare lo stream Modelli di classificazione). Come si può notare sia il grafico che

la tabella, riportati nella slide, dimostrano la miglior capacità classificatoria del modello albero decisionale C5.0 – cerchiato in rosso il dato che ci

indica il livello di precisione nella stima (molto più accurata rispetto agli altri due casi).

Addestramento

29

Page 31: Data Mining: project new credit card

MODELLI DI CLASSIFICAZIONE (6)

Test Anche per quanto riguarda il test, il modello C5.0 risulta essere quello migliore: sia per quanto riguarda il lift che per il

livello di precisione (cerchiato in rosso).

30

Page 32: Data Mining: project new credit card

MODELLI DI CLASSIFICAZIONE (7)

Una volta selezionato il modello più accurato, possiamo proseguire con l’analisi dell’output da esso prodotto.

Per prima cosa verifichiamo l’importanza dei diversi predittori.

Si può notare dal grafico che il peso

maggiore viene assunto dai campi

ATM_transaction e Branch_transaction;

hanno una discreta importanza anche

le variabili Saving_amount e

Internet_transaction.

31

Page 33: Data Mining: project new credit card

MODELLI DI CLASSIFICAZIONE (8)

Dall’analisi dell’albero sono risultati essere di grande interesse i seguenti nodi:

Questo primo nodo è molto utile per verificare

l’importanza assunta dalla frequenza di operazioni

compiute tramite la piattaforma web nell’indirizzare

un cliente ad attivare una carta di credito. Dalle

tabelle possiamo notare che tale variabile, pur

essendo di grande peso non fornisce spunti

rilevanti; infatti, sia che le internet_transaction siano

maggiori a 0 che uguali a 0, un gran numero di

clienti ha richiesto la carta. Infine, è necessario

fare attenzione alla percentuale cerchiata in rosso

nel nodo 116 perché, anche se essa ci segnala che

il 97% di clienti hanno attivato la carta, il peso ad

esso attribuito è comunque irrilevante (5,835%).

32

Page 34: Data Mining: project new credit card

MODELLI DI CLASSIFICAZIONE (9)

Sempre con riferimento alla fascia d’età sopra indicata, in questo livello si vuole

mettere in risalto il dato relativo al numero consistente di attivazioni che sono

state realizzate da: clienti della BancaX con una tenure maggiore ai 9 mesi (e

quindi clienti abbastanza consolidati – peso del nodo 17,464%). Buona la

percentuale di attivazioni nel caso di tenure inferiore a 9 mesi, anche se in

questo caso il peso del nodo è poco significativo.

Infine, in riferimento ai clienti di fascia 18-24 con un buon

livello di storicità e che posseggono un conto corrente si

rileva l’informazione più interessante in termini qualitativi;

infatti, tra questi, sia coloro che posseggono un conto

corrente con importi elevati che – in particolar modo –

quelli con importi contenuti (se non negativi), fanno

registrare percentuali di attivazione di nuove carte di

credito elevate (attenzione però al peso del nodo 66 che

è pari solo 1,938%).

Un ultimissima considerazione è collegata alle transazioni attraverso ATM; possiamo

notare a questo livello che coloro che possiedono un conto corrente (in questo caso con

un saldo contenuto) e fanno un uso assiduo degli sportelli automatici per le proprie

transazioni, hanno sovente attivato una nuova carta.

La sezione dell’albero riportata in questa slide sembra abbastanza complessa ma in realtà è di

grande aiuto. Innanzitutto, indica che nelle due fasce d’età più giovani della clientela (dai 18 ai 65

anni) si sono verificate un gran numero di nuove attivazioni (da notare che il peso del nodo è ancora

elevato 35,812 %).

33

Page 35: Data Mining: project new credit card

MODELLI DI CLASSIFICAZIONE (10)

Come abbiamo accennato in precedenza, tali modelli possono essere utilizzati anche per analizzare i clusters che

sembrano più interessanti. Proprio per questo motivo, il C5.0 è stato lanciato anche sul segmento dei “Dormienti”; i

risultati ottenuti – attraverso lo stream riportato in questa slide – hanno però condotto ad una soluzione che si

avvicina moltissimo a quanto verificato per l’intero campione, questo perché il cluster in oggetto è composto da circa

40.000 clienti.

34

Page 36: Data Mining: project new credit card

MODELLI DI ASSOCIAZIONE

Per confermare alcune delle evidenze emerse in precedenza, grazie agli output dei modelli di classificazione, e a

completamento dello studio in questione, abbiamo utilizzato alcune delle tecniche di associazione utili per lo

sviluppo di una Market Basket Analysis.

Lo stream del procedimento attuato è il seguente:

35

Page 37: Data Mining: project new credit card

MODELLI DI ASSOCIAZIONE (2)

Per prima cosa sono state selezionate le variabili di partenza. Con l’ausilio del nodo Tipo è stato assegnato, ai campi

flag creati in precedenza (vedi slide 16), il ruolo sia di input che di obiettivo – passaggio necessario per poter lanciare

correttamente una MBA. Agli altri campi presenti nel DB è stato assegnato il ruolo nessuna, cioè non sono state

prese in considerazione.

36

Page 38: Data Mining: project new credit card

MODELLI DI ASSOCIAZIONE (3)

Il nodo Web è stato molto utile per comprendere, prima del lancio di qualsiasi modello, quali fossero le relazioni più

forti tra le variabili input.

Il grafico mette in evidenza alcune

relazioni poco rilevanti e facilmente

intuibili, come ad esempio la relazione

tra Saving_amount e

Branch_transaction. Molto più

interessante è il legame tra

Current_amount e ATM_transaction,

infatti è già più volte emerso che chi di

solito possiede un c/c fa sovente

operazioni su ATM. Le altre relazioni

non sembrano fornire spunti utili ai

nostri scopi.

37

Page 39: Data Mining: project new credit card

MODELLI DI ASSOCIAZIONE (4)

In seguito, è stata sviluppata una MBA attraverso l’attuazione di due tecniche: 1) Apriori; 2) Carma; i loro output hanno fornito in

sostanza gli stessi risultati.

Quanto riscontrato in precedenza,

grazie al nodo Web, viene ampiamente

confermato in questa tabella. Infatti, se

si classificano le relazioni antecedente-

conseguente sulla base del lift,

vediamo che il legame migliore è

registrato tra le operazioni su conto

corrente (antecedente) e l’utilizzo di

sportelli automatici per le transazioni

(conseguente); anche il supporto della

regola e il livello di confidenza sono

mediamente accettabili.

38

Page 40: Data Mining: project new credit card

MODELLI DI ASSOCIAZIONE (5)

Come anticipato, la tecnica Carma offre risultati del tutto analoghi alla variante utilizzata in precedenza.

Inoltre, per questo secondo caso, il livello ottimale del lift nella relazione tra Current_amount e

ATM_transaction viene confermato anche se queste due variabili invertono il loro ruolo di antecedenti e

conseguenti.

39

Page 41: Data Mining: project new credit card

FASE 4: IMPLICAZIONI

STEP 1 Findings

STEP 2 Implicazioni manageriali

40

Page 42: Data Mining: project new credit card

FINDINGS

È stato rilevato che vi è un segmento della clientela molto rilevante, i Dormienti, che si compone

principalmente di utenti giovani e maturi (fascia 24-65 anni), e che usufruiscono mediamente poco dell’offerta

attuale. Questi, forse, sono alla ricerca di un prodotto più flessibile che soddisfi, in pratica, la loro esigenza

quotidiana di realizzare operazioni bancarie di piccolo calibro.

L’utilizzo della carta per l’e-banking è abbastanza frequente ma, diversamente da come si potrebbe ipotizzare,

l’incidenza di questo fattore nello spronare il cliente all’attivazione della carta è molto contenuta.

Il numero di nuove attivazioni è più elevato per le prime fasce d’età del campione, e cioè “18-23”/“24-65”.

Questo sta ad indicare che il cliente che utilizza una carta è tendenzialmente abbastanza giovane, e quindi più

addicted nell’utilizzo di canali innovativi (come le Application per cellulari) e più attratti da nuove formule

promozionali.

Prima di passare alle implicazioni finali, è opportuno riportare in questa slide alcuni dei punti chiave emersi dallo

studio:

Per i possessori di un C/C, soprattutto con saldi non troppo elevati, si è spesso verificata la predilezione ad

utilizzare gli sportelli automatici. Questo dato è molto interessante se si pensa alla possibilità di creare per

questi clienti uno strumento che gli consenta di realizzare le loro classiche operazioni (versamenti, bonifici,

ecc.), che solitamente vengono effettuate allo sportello, presso gli ATM o attraverso i canali innovativi indicati

in precedenza.

41

Page 43: Data Mining: project new credit card

IMPLICAZIONI

Riassumendo, per spingere la clientela – in particolare i cosiddetti dormienti – ad attivare nuove carte di credito,

serve un prodotto che sia: giovane, flessibile, che offra una serie di servizi aggiuntivi ed innovativi e che

permetta di evitare le lunghe attese allo sportello per effettuare le classiche operazioni bancarie (ad esempio, i

bonifici).

La soluzione è stata proposta, ultimamente, da UBI Banca:

La carta Enjoy è una carta di credito dotata di codice IBAN che permette di effettuare svariate operazioni bancarie e

prevede un gran numero di servizi aggiuntivi al cliente. Insieme alla carta viene offerto anche uno smartphone

Samsung che congiuntamente ad essa permette di sfruttare il nuovissimo canale dello Smartbanking

42

Page 44: Data Mining: project new credit card

IMPLICAZIONI (2)

Cosa offre la carta???

Uno strumento del genere sembra soddisfare tutte le finalità che avevamo previsto, riuscendo in maniera rapida e

con un investimento ridotto ad attirare quei clienti che cercano, ormai da tempo, una banca – diversa dalla

concezione classica di istituto finanziario (un ente solido ed affidabile) – che si adatti alle loro esigenze: cioè quelle

di una società che evolve sempre più rapidamente e i cui bisogni sono sempre più differenziati.

43