alberi decisionali terza parte. argomenti della lezione il metodo chaid: chi-squared automatic...

Post on 01-May-2015

227 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ALBERI DECISIONALI terza parte

ALBERI DECISIONALI terza parte

Argomenti della lezioneArgomenti della lezione

Il metodo CHAID: Chi-Squared Automatic Interaction Detection

Il metodo CHAID: Chi-Squared Automatic Interaction Detection

Il test del chi-quadrato Il test del chi-quadrato

Il fattore di Bonferroni Il fattore di Bonferroni

Esempio di impiego degli alberi decisionali

Esempio di impiego degli alberi decisionali

Caratteristiche principali del metodo

CHAID

Caratteristiche principali del metodo

CHAID

CHAID unisce le categorie del predittore che sono omogenee rispetto alla variabile dipendente,

ma mantiene distinte tutte le categorie che sono

eterogenee

CHAID unisce le categorie del predittore che sono omogenee rispetto alla variabile dipendente,

ma mantiene distinte tutte le categorie che sono

eterogenee

CHAID utilizza il moltiplicatore il moltiplicatore di Bonferroni

per compiere gli aggiustamenti necessari per compiere

inferenze statistiche simultanee

CHAID utilizza il moltiplicatore il moltiplicatore di Bonferroni

per compiere gli aggiustamenti necessari per compiere

inferenze statistiche simultanee

CHAID, a differenza di altri metodi di partizione iterativa, è limitato

a caratteri di tipo ordinale e nominale

CHAID, a differenza di altri metodi di partizione iterativa, è limitato

a caratteri di tipo ordinale e nominale

Utilizza il test del chi-quadrato per saggiare

l'indipendenza tra caratteri (insieme all'aggiustamento di Bonferroni) per stabilire la significatività statistica

della partizione

Utilizza il test del chi-quadrato per saggiare

l'indipendenza tra caratteri (insieme all'aggiustamento di Bonferroni) per stabilire la significatività statistica

della partizione

Il test chi-quadrato di indipendenza

Il test chi-quadrato di indipendenza

ii jj

( n ij - nij )2( n ij - nij )2**

nijnij**x2 = x2 =

dovedove

è la frequenza empirica che corrisponde alla combinazione

della modalità i del primo carattere con la modalità j del secondo

carattere

è la frequenza empirica che corrisponde alla combinazione

della modalità i del primo carattere con la modalità j del secondo

carattere

nijnij

è la corrispondente frequenza teorica calcolata in accordo

all'ipotesi di indipendenza tra i due caratteri considerati

è la corrispondente frequenza teorica calcolata in accordo

all'ipotesi di indipendenza tra i due caratteri considerati

nij = ninjnij = ninj*

ESEMPIOESEMPIO

Famiglie secondo la zona

di residenza e il possesso

di personal computer

(frequenze empiriche)

Famiglie secondo la zona

di residenza e il possesso

di personal computer

(frequenze empiriche)

Zona geograficaZona geografica

Possesso di personal computer

Possesso di personal computer

Nord-CentroNord-Centro

MezzogiornoMezzogiorno In complessoIn complesso

SISI

NONO

In complessoIn complesso

150150

500500

650650

100100

250250

350350

250250

750750

10001000

Famiglie secondo la zona di residenza

e il possesso di personal computer

(frequenze teoriche)

Famiglie secondo la zona di residenza

e il possesso di personal computer

(frequenze teoriche)

Zona geograficaZona geografica

Possesso di personal computer

Possesso di personal computer

Nord-CentroNord-Centro

MezzogiornoMezzogiorno In complessoIn complesso

SISI

NONO

In complessoIn complesso

162,5162,5

487,5487,5

650,0650,0

87,587,5

262,5262,5

350,0350,0

250,0250,0

750,0750,0

1000,01000,0

Calcolo del test:Calcolo del test:

(500-487,5)2/487,5+

(87,5-100)2/87,5+

(162,5-150)2/162,5+

(250-262,5)2/262,5=

(500-487,5)2/487,5+

(87,5-100)2/87,5+

(162,5-150)2/162,5+

(250-262,5)2/262,5=

Il fattore di aggiustamento di Bonferroni

Il fattore di aggiustamento di Bonferroni

Poniamo che a sia l'errore del primo tipo associato con il test di indipendenza in una tabella a doppia entrata che associa B e R (ad esempio a =0,05)

Poniamo che a sia l'errore del primo tipo associato con il test di indipendenza in una tabella a doppia entrata che associa B e R (ad esempio a =0,05)

Consideriamo la variabile dipendente R e i predittori B, con cinque categorie, e A, con due

Consideriamo la variabile dipendente R e i predittori B, con cinque categorie, e A, con due

Vi sono 24 -1 = 15 modi differenti di rendere dicotomica la variabile

B

Vi sono 24 -1 = 15 modi differenti di rendere dicotomica la variabile

B

Se i 15 test di ipotesi fossero indipendenti, la probabilità di fare un errore del primo tipo sarebbe

pari a:

Se i 15 test di ipotesi fossero indipendenti, la probabilità di fare un errore del primo tipo sarebbe

pari a:

1-(1-a)15 > a1-(1-a)15 > a

Nell'esempio di cui sopra, 15 è chiamato fattore di Bonferroni

Nell'esempio di cui sopra, 15 è chiamato fattore di Bonferroni

1 - (1-a)M = Ma1 - (1-a)M = Ma

Per il predittore A la probabilità di commettere un errore del primo

tipo è semplicemente a

Per il predittore A la probabilità di commettere un errore del primo

tipo è semplicemente a

Se a è piccoloSe a è piccolo

Nel metodo CHAID si confronta il valore di a

associato con il test di indipendenza per la variabile

A con il valore di a per la variabile B corretto con

il fattore di Bonferroni

Nel metodo CHAID si confronta il valore di a

associato con il test di indipendenza per la variabile

A con il valore di a per la variabile B corretto con

il fattore di Bonferroni

Componenti di base del metodo

CHAID:

Componenti di base del metodo

CHAID:

11 Una variabile dipendente categoricaUna variabile dipendente categorica

22 Un insieme di variabili indipendenti anch'esse categoriche, combinazioni delle quali sono usate per definire le partizioni

Un insieme di variabili indipendenti anch'esse categoriche, combinazioni delle quali sono usate per definire le partizioni

33 Un insieme di parametri per l'esecuzione dell'analisiUn insieme di parametri per l'esecuzione dell'analisi

In ogni passo dell'analisi, ciascun sottogruppo è

analizzato e si identifica il miglior predittore, definito

come quello che ha il valore di a corretto con il

fattore di Bonferroni più piccolo

In ogni passo dell'analisi, ciascun sottogruppo è

analizzato e si identifica il miglior predittore, definito

come quello che ha il valore di a corretto con il

fattore di Bonferroni più piccolo

Tipi di variabili predittive in CHAID

Tipi di variabili predittive in CHAID

FluttuantiFluttuanti33

LibereLibere22

MonotonicheMonotoniche11

L'algoritmo CHAID:L'algoritmo CHAID:

Passo 1: FusionePasso 1: Fusione

Passo 2: DivisionePasso 2: Divisione

Passo 3: ArrestoPasso 3: Arresto

FusioneFusione

Per ciascun predittore

Per ciascun predittore

Forma la tabella a doppia entrata completa

Forma la tabella a doppia entrata completa

11

Per ogni coppia di categorie che possono essere fuse assieme calcola il test chi-quadrato. Per ogni coppia che risulta non significativa procedi alla fusione e vai al passo 3. Se tutte le coppie rimanenti sono significative vai al passo 4

Per ogni coppia di categorie che possono essere fuse assieme calcola il test chi-quadrato. Per ogni coppia che risulta non significativa procedi alla fusione e vai al passo 3. Se tutte le coppie rimanenti sono significative vai al passo 4

22

Per tutte le categorie risultanti dalla fusione di tre o più categorie originarie controlla con il test chi-quadrato se ogni categoria originaria può essere separata dalle altre. Torna al passo 2

Per tutte le categorie risultanti dalla fusione di tre o più categorie originarie controlla con il test chi-quadrato se ogni categoria originaria può essere separata dalle altre. Torna al passo 2

33

Unisci le categorie che hanno un numero di casi troppo basso, selezionando quelle che presentano il valore di a più alto

Unisci le categorie che hanno un numero di casi troppo basso, selezionando quelle che presentano il valore di a più alto

44

Calcola il valore di a corretto con il fattore di Bonferroni sulla tabella risultante dal processo di fusione

Calcola il valore di a corretto con il fattore di Bonferroni sulla tabella risultante dal processo di fusione

55

DivisioneDivisione

Seleziona come miglior predittore quello che presenta il più piccolo valore di a corretto con il fattore di Bonferroni

Seleziona come miglior predittore quello che presenta il più piccolo valore di a corretto con il fattore di Bonferroni

Se nessun predittore mostra un valore di a significativo, non dividere quel sottogruppo

Se nessun predittore mostra un valore di a significativo, non dividere quel sottogruppo

ArrestoArresto

Ritorna al passo 1 e analizza il sottogruppo successivo. Interrompi quando tutti i sottogruppi sono stati

analizzati o contengono troppo poche osservazioni

Ritorna al passo 1 e analizza il sottogruppo successivo. Interrompi quando tutti i sottogruppi sono stati

analizzati o contengono troppo poche osservazioni

Variabile dipendente: Variabile dipendente:

tasso di risposta ad una offerta promozionale di

abbonamento ad una rivista

tasso di risposta ad una offerta promozionale di

abbonamento ad una rivista

Esempio di impiego del metodo chaid

Esempio di impiego del metodo chaid

Variabili indipendenti

Variabili indipendenti

genere - 2 categorie -monotonica - (GENDER)

genere - 2 categorie -monotonica - (GENDER)

presenza di bambini - 2 categorie - monotonica (KIDS)

presenza di bambini - 2 categorie - monotonica (KIDS)

reddito familiare - 8 categorie - monotonica (INCOME)

reddito familiare - 8 categorie - monotonica (INCOME)

età del capofamiglia - 5 categorie -fluttuante (AGE)

età del capofamiglia - 5 categorie -fluttuante (AGE)

carta di credito - 2 categorie - monotonica (BANKCARD)

carta di credito - 2 categorie - monotonica (BANKCARD)

numero di componenti - 6 categorie - fluttuante - (HHSIZE)

numero di componenti - 6 categorie - fluttuante - (HHSIZE)

tipo di occupazione -4 categorie - libera (OCCUP)

tipo di occupazione -4 categorie - libera (OCCUP)

Rappresentazione del processo

di partizione tramite il dendrogramma

Rappresentazione del processo

di partizione tramite il dendrogramma

Total 0.02

81,040

Total 0.02

81,040

HHSIZEHHSIZE

OCCUPOCCUP GENDERGENDER-4--4--1--1-

-2--2- -3--3- -5--5- -6--6-

23 0.13

16,132

23 0.13

16,132

45 0.00 6,198

45 0.00 6,198

? - 0.04 33,326

? - 0.04 33,326

W 0.36 1,758

W 0.36 1,758

BO? 0.10

14,374

BO? 0.10

14,374

F - 0.05 7,795

F - 0.05 7,795

M - 0.04 25,531

M - 0.04 25,531

1 0.03

25,384

1 0.03

25,384

Interpretazione dei risultati

Interpretazione dei risultati

Comparazione dei tassi di risposta secondo la variabile ampiezza

familiare prima e dopo la fusione

Comparazione dei tassi di risposta secondo la variabile ampiezza

familiare prima e dopo la fusione

% di risposte% di risposte

HHSIZEHHSIZE FrequenzaFrequenza prima della fusioneprima della fusione

dopo la fusionedopo la fusione

11

22

33

44

55

dato mancantedato mancante

2538425384

1124011240

48924892

31873187

30113011

3332633326

1,091,09

1,491,49

1,591,59

1,791,79

2,062,06

0,870,87

1,091,09

1,521,52

1,521,52

1,921,92

1,921,92

0,870,87

Ordinamento dei segmenti secondo il tasso di risposta

Ordinamento dei segmenti secondo il tasso di risposta

RangoRango NumeroNumero DescrizioneDescrizione Tasso di rispostaTasso di risposta

11

22

Segmento 2

Segmento 2

Segmento 4

Segmento 4

Famiglie con due o tre componenti, capofamiglia impiegato

Famiglie con due o tre componenti, capofamiglia impiegato

2,392,39

1,921,92Famiglie con quattro componenti e più

Famiglie con quattro componenti e più

RangoRango NumeroNumero DescrizioneDescrizione Tasso di rispostaTasso di risposta

33

44

Segmento 3

Segmento 3

Segmento 1

Segmento 1

Famiglie con due o tre componenti, capofamiglia con occupazione diversa da impiegato

Famiglie con due o tre componenti, capofamiglia con occupazione diversa da impiegato

1,421,42

1,091,09Famiglie con un componenteFamiglie con un componente

RangoRango NumeroNumero DescrizioneDescrizione Tasso di rispostaTasso di risposta

55

66

Segmento 6

Segmento 6

Segmento 5

Segmento 5

Famiglie di cui non si conosce il numero di componenti, capofamiglia donna

Famiglie di cui non si conosce il numero di componenti, capofamiglia donna

1,081,08

0,810,81Famiglie di cui non si conosce il numero di componenti, capofamiglia uomo

Famiglie di cui non si conosce il numero di componenti, capofamiglia uomo

top related