le distribuzioni multiple si definisce distribuzione statistica multipla la distribuzione ottenuta...

140
Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti ad una determinata popolazione. Se vengono rilevati due caratteri su ogni unità si definisce una distribuzione doppia . Se vengono rilevati tre caratteri su ogni unità si definisce una distribuzione tripla.

Upload: pierina-martinez

Post on 01-May-2015

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni multipleSi definisce distribuzione statistica multipla la

distribuzione ottenuta dalla rilevazione di più

caratteri su unità appartenenti ad una

determinata popolazione.

Se vengono rilevati due caratteri su ogni unità si

definisce una distribuzione doppia.

Se vengono rilevati tre caratteri su ogni unità si

definisce una distribuzione tripla.

Page 2: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni multipleSe vengono rilevati m caratteri su ogni unità si

definisce una distribuzione m-pla e le singole

variabili vengono definite variabili componenti.

Si parla di mutabile multipla se tutti i caratteri

componenti sono di natura qualitativa;

Si parla di variabile multipla se tutti caratteri

componenti sono di natura quantitativa.

Page 3: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni multiple

Se le N unità del collettivo non sono molto numerose, si

può rappresentare la distribuzione multipla indicando

per ciascuna unità le m modalità presenti in essa:

Unità X1 X2 … Xm

1 x11 x12 ... x1m

2 x21 x22 ... x2m

… ... ... ... ...

N xN1 xN2 ... xNmdove x11 indica la modalità del carattere X1 presente nella prima unità e così via.Questa è definita distribuzione doppia per unità - modalità.

Page 4: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni multipleConsideriamo un collettivo di sei studenti sui quali sono

stati rilevati l’età e il voto all’esame di statistica, la

distribuzione unità - modalità è la seguente:

Unità 1 2 3 4 5 6

età 18 19 20 19 21 22

voto 20 21 23 25 26 23

Page 5: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni doppieConsideriamo ora una popolazione sulla quale sono stati

rilevati due caratteri.

Quando le unità del collettivo sono numerose, è

preferibile rappresentare la distribuzione doppia tramite

una tabella a doppia entrata (distribuzione doppia di

frequenze) dove ad ogni modalità (xi,yj) di (X,Y)

corrisponde la frequenza assoluta nij, con i=1,2,…,k e

j=1,2,…,s.

In altre parole si registra quante volte una coppia di

modalità si presenta contemporaneamente per X e Y.

Page 6: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni doppie

dove:

y1 … yj … yh

x1 n11 n1j n1h n10

… … … … …

xi ni1 … nij … nih ni0

… … … … …

xk nk1 … nkj … nkh nk0

n01 ... n0j ... n0h N

h

jiji nn

10

k

iijj nn

10

k

i

h

jijnN

1 1

Page 7: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni doppieLe frequenze ni0, i=1,2,…,k sono definite frequenze

marginali assolute della variabile X, mentre le frequenze

n0j j=1,2,…,h sono definite frequenze marginali assolute

della variabile Y.

Consideriamo ora le frequenze fij, = nij/N con i=1,2,…,k e

j=1,2,…,s; in questo caso la tabella a doppia entrata può

essere scritta come:

Page 8: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni doppiey1 … yj … yh

x1 f11 f1j f1h f10

… … … … …

xi fi1 … fij … fih fi0

… … … … …

xk fk1 … fkj … fkh fk0

f01 ... f0j ... f0k 1

dove:

h

jiji ff

10

k

iijj ff

10 1

1 1

k

i

h

jijf

Page 9: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni doppieIn questo caso, le frequenze fi0, i=1,2,…,k sono le

frequenze marginali relative della variabile X mentre le

frequenze f0j, j=1,2,…,h sono le frequenze marginali

relative della variabile Y.

Le frequenze assolute marginali ni0 (le frequenze relative

marginali fi0) esprimono i soggetti (la porzione di soggetti)

che possiedono la modalità xi a prescindere da quello che

avviene per il carattere Y.

Page 10: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni condizionateConsideriamo una distribuzione doppia (X,Y) e fissiamo il

valore xi per la variabile X, se studiamo la distribuzione di

Y per i soli soggetti che possiedono quel valore xi della

variabile X, si ottiene la distribuzione condizionata di Y

dato xi .

Tale distribuzione si indica con Y|(X=xi)

Valori di Y|(X=xi) y1 y2 … yh Tot.

Freq.assolute ni1 ni2 ... nih ni0

Freq.relative ni1/ni0 ni2/ni0 ... nih/ni0 1

Page 11: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni condizionateSe fissiamo, invece, il valore yj per la variabile Y, se

studiamo la distribuzione di X per i soli soggetti che

possiedono quel valore yj della variabile Y, si ottiene la

distribuzione condizionata di X dato yj .

Tale distribuzione si indica con X|(Y=yj)

Valori di X|(Y=yj) x1 x2 … xk Tot.

Freq.assolute n1j n2j ... nkj n0j

Freq.relative n1j/n0j n2j/n0j ... nkj/n0j 1

Page 12: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni condizionate

X x1 x2 … xk

Freq.assolute n10 n20 ... nk0

OSSERVAZIONE:

Data una distribuzione doppia (X,Y) si possono

definire 2+h+k distribuzioni semplici:

2 distribuzioni marginali:

Y y1 y2 … yh

Freq.assolute n01 n02 ... n0h

Page 13: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni condizionateh distribuzioni condizionate di X dato yj la cui distribuzione generica è:

Valori di X|(Y=yj) x1 x2 … xk Tot

Freq.relative n1j/n0j n2j/n0j ... nkj/n0j 1

corrispondente alla modalità yj di Y con j=1,2,…,h.

k distribuzioni condizionate di Y dato xi la cui distribuzione generica è:

y1 y2 … yh Tot

Freq.relative ni1/ni0 ni2/ni0 ... nih/ni0 1

corrispondente alla modalità xi di X con i=1,2,…,k.

Page 14: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioConsideriamo la seguente distribuzione doppia che descrive una popolazione di 100 individui sui quali sono stati rilevati il carattere grado di istruzione (X) e il carattere sesso (Y):

X Y TOT. 

M F

Analfabeta 1 4 5

Licenza elementare 5 5 10

Licenza media 22 16 38

Licenza media superiore 18 17 35

Laurea 8 4 12

TOTALE 54 46 100

Page 15: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioLa distribuzione doppia di frequenze relative è la seguente:

X Y TOT.

M F

Analfabeta 0,01 0,04 0,05

Licenza elementare 0,05 0,05 0,10

Licenza media 0,22 0,16 0,38

Licenza media superiore 0,18 0,17 0,35

Laurea 0,08 0,04 0,12

TOTALE 0,54 0,46 1,00

Page 16: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

Da questa distribuzione doppia possono essere ricavate:

2 distribuzioni marginali di frequenze relative (a, b);

2 distribuzioni condizionate (parziali) di frequenze relative

di X dato yj (c, d);

5 distribuzioni condizionate (parziali) di frequenze relative

di Y dato xi (e, f, g, h, i)

Page 17: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioa) Distribuzione marginale di X

X=grado di istruzione fi 

Analfabeta 0,05

Licenza elementare 0,10

Licenza media 0,38

Licenza media superiore 0,35

Laurea 0,12

TOTALE 1,00

Page 18: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

Y=sesso  fi 

M 0,54

F 0,46

TOTALE 1,00

b) Distribuzione marginale di Y

c) Distribuzione condizionata (X|Y=F)

X Y=F

Analfabeta 0,09

Licenza elementare 0,11

Licenza media 0,35

Licenza media superiore 0,36

Laurea 0,09

TOTALE 1,00

Page 19: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

X Y=M

Analfabeta 0,02

Licenza elementare 0,09

Licenza media 0,41

Licenza media superiore 0,33

Laurea 0,15

TOTALE 1,00

d) Distribuzione condizionata (X|Y=M)

Y X=analfabeta

M 0,20

F 0,80

TOT. 1,00

e) Distribuzione condizionata (Y|X=Analfabeta)

Page 20: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

Y X=lic.elementare

M 0,50

F 0,50

TOT. 1,00

f) Distribuzione condizionata (Y|X=Licenza Elem.)

g) Distribuzione condizionata (Y|X=Licenza Media)

Y X=lic. Media

M 0,58

F 0,42

TOT. 1,00

Page 21: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

Y X=lic. media superiore

M 0,51

F 0,49

TOT. 1,00

h) Distribuzione condizionata (Y|X=Licenza media sup.)

i) Distribuzione condizionata (Y|X=Laurea)

Y X=laurea

M 0,67

F 0,33

TOT. 1,00

Page 22: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Indici per una sola variabileSe il carattere è quantitativo è possibile calcolare dei valori di sintesi per ciascuno dei caratteri X e Y.

In questo caso, la media aritmetica e la varianza di X sono le seguenti:

01

20

1

2

10

10

1)(

1

i

k

ixii

k

ixi

k

iii

k

iiix

fxnxN

XVar

fxnxN

Page 23: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Le distribuzioni doppie

dove:

y1 … yj … yh

x1 n11 n1j n1h n10

… … … … …

xi ni1 … nij … nih ni0

… … … … …

xk nk1 … nkj … nkh nk0

n01 ... n0j ... n0h N

h

jiji nn

10

k

iijj nn

10

k

i

h

jijnN

1 1

Page 24: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Indici per una sola variabile

La media aritmetica e la varianza di Y, invece, sono:

j

h

jyjj

h

jyj

h

jjj

h

jjjy

fynyN

YVar

fynyN

01

20

1

2

10

10

1)(

1

Page 25: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioConsideriamo la seguente distribuzione di 100 studenti secondo il voto riportato in Statistica (X) e Ragioneria (Y).

X Y

  18 19 20 21 22 23 24 25 26 27 28 29 30  

18 4 4 8

19   5 2 3 10

20   7 7

21   9 4 13

22   9 2 11

23   0

24   0

25   3 9 6 18

26   2 2

27   0

28   6 6 12

29 1 6 4 11

30   2 4 2 8

  5 24 8 9 6 0 11 10 6 6 3 4 8 100

Page 26: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioOra calcoliamo i valori di sintesi per X:

X ni0 xini0 (xi-μ)2 (xi- μ)2ni0

18 8 144 34,34 274,72

19 10 190 23,62 236,20

20 7 140 14,90 104,30

21 13 273 8,18 106,34

22 11 242 3,46 38,06

23 0 0 0,74 0,00

24 0 0 0,02 0,00

25 18 450 1,30 23,40

26 2 52 4,58 9,16

27 0 0 9,86 0,00

28 12 336 17,14 205,68

29 11 319 26,42 290,62

30 8 240 37,70 301,60

  100 2386   1590,08

Page 27: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

86,23100/23861

10

k

iiix nx

N

90,15100/08,15901

)( 01

2

i

k

ixi nx

NXVar

Per il carattere Y i calcoli vengono eseguiti nello stesso modo.

Page 28: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La dipendenzaAnalizziamo ora alcune caratteristiche di una distribuzione doppia che non sono estensioni delle caratteristiche delle distribuzioni semplici.

DEFINIZIONE:

In matematica si dice che una variabile y, funzione di un’altra variabile x, è indipendente rispetto a x se, al variare di x, il valore di y resta costante.

Page 29: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La dipendenza

x

y

y

Nel caso di una tabella a doppia entrata bisogna confrontare le distribuzioni condizionate (parziali).

Page 30: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La dipendenza

Due distribuzioni semplici possono essere confrontate nei seguenti modi:

•Confrontando alcuni indici sintetici delle distribuzioni, per esempio due distribuzioni si dicono uguali rispetto alla media aritmetica se hanno la stessa media aritmetica;

•Confrontando direttamente tra loro le distribuzioni condizionate (parziali) di un carattere rispetto alle modalità dell’altro carattere.

Page 31: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La dipendenza

Si possono presentare due situazioni limite:

•Caso di connessione nulla o indipendenza;

•Caso di perfetta dipendenza.

Page 32: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Indici di connessioneNelle situazioni intermedie tra il caso di dipendenza perfetta e il caso di indipendenza sorge il problema della misura del grado di connessione tra i due caratteri.

Le misure del legame sono:

•Misure di dipendenza assoluta basate sul confronto fra le frequenze relative e le frequenze teoriche nel caso di indipendenza assoluta;

•Misure di dipendenza in media basate sul confronto delle medie delle distribuzioni condizionate (parziali).

Page 33: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Connessione nulla o indipendenzaConsideriamo la seguente distribuzione doppia di frequenze:

y1 … yj … yh

x1 n11 n1j n1h n10

… … … … …

xi ni1 … nij … nih ni0

… … … … …

xk nk1 … nkj … nkh nk0

n01 ... n0j ... n0h N

Page 34: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Connessione nulla o indipendenzaDEFINIZIONE:

Data una distribuzione doppia, il carattere Y è indipendente o non connesso con il carattere X, se le distribuzioni parziali secondo il carattere Y corrispondenti alle modalità di X sono tutte simili fra loro, cioè se, per j=1,2,…,h si ha:

(1) ...... 0

0020

2

10

1

N

n

n

n

n

n

n

n

n

n j

k

kj

i

ijjj

Infatti due distribuzioni secondo uno stesso carattere sono simili se sono uguali le frequenze relative di ciascuna modalità nelle due distribuzioni.

Page 35: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Connessione nulla o indipendenzaConsideriamo ora il termine generale della (1):

,...,2,1 ,...,2,1 ,0

0

hjkiN

n

n

n j

i

ij

Quindi nel caso di indipendenza assoluta si ha:

,...,2,1 ,...,2,1 ,ˆ 00 hjkiN

nnn jiij

Page 36: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Connessione nulla o indipendenzaIn termini di frequenze relative la relazione precedente può essere scritta:

,...,2,1 ,...,2,1 ,ˆ00 hjkifff jiij

Quindi, le frequenze assolute di una tabella a doppia entrata nella quale X e Y sono indipendenti sono indicate con:

,...,2,1 ,...,2,1 ,ˆ 00 hjkiN

nnn jiij

Page 37: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Connessione nulla o indipendenza

k

i

h

jijn

1 1

ˆ)1

k

i

h

j

ji

N

nn

1 1

00

Per tali frequenze valgono le seguenti proprietà:

NNNN

1

k

i

h

jji nn

N 1 100

1

Page 38: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Connessione nulla o indipendenza2) L’indipendenza o connessione nulla è bilaterale, in altre parole se Y è indipendente da X anche X lo è da Y.

Infatti se Y è indipendente da X si ha:

N

n

n

n j

i

ij 0

0

invertendo i medi si ha che:

N

n

n

ni

j

ij 0

0

cioè X è indipendente da Y.

Page 39: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Connessione nulla o indipendenza

0 ˆ- ijijij nnc

3) Le differenze tra sono definite contingenze cioè:

ˆ e ijij nn

Le contingenze esprimono la diversità tra le frequenze assolute osservate e le frequenze assolute nel caso di variabili indipendenti.

ˆ- ijijij nnc

0 ˆ- ijijij nnc vi è attrazione tra le modalità xi ed yj

vi è repulsione tra le modalità xi ed yj

Page 40: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Connessione nulla o indipendenza

k

i

h

jij

1 1

c

)ˆ(1 1

ijij

k

i

h

j

nn

4) Per le contingenze si ha:

0 NN

k

i

h

jij

k

i

h

jij nn

1 11 1

ˆ

Page 41: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Perfetta dipendenzaDEFINIZIONE:

Il carattere Y dipende perfettamente da X se ad ogni modalità xi di X è associata una sola modalità yj di Y, in tal senso è possibile affermare che Y è completamente determinata dalle modalità di X.

ESEMPIO :

Consideriamo un carattere X che si presenta in quattro modalità ed un carattere Y che si presenta in tre modalità, se la distribuzione doppia è la seguente:

Page 42: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Perfetta dipendenza

allora è possibile affermare che il carattere Y dipende perfettamente da X, in quanto ad ogni modalità xi di X è associata una sola modalità yj di Y e quindi che Y è completamente determinata dalle modalità di X.

y1 y2 y3

x1 7 0 0 7

x2 0 9 0 9

x3 6 0 0 6

x4 0 0 8 8

13 9 8 30

Page 43: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Perfetta dipendenza

OSSERVAZIONE:

La relazione di perfetta dipendenza non è simmetrica. Infatti in questo caso, ad ogni modalità yj di Y non è associata una sola modalità xi di X (ad esempio, si veda la modalità y1). Pertanto, nell’esempio precedente X non dipende perfettamente da Y.

Page 44: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Perfetta dipendenzaDEFINIZIONE:

La relazione è simmetrica, cioè Y e X sono mutuamente in dipendenza perfetta se ad ogni modalità yj di Y è associata una sola modalità xi di X e viceversa.

Ciò si verifica se, nell’ipotesi che le frequenze marginali siano tutte diverse da 0, si ha che h = k, cioè se la tabella della distribuzione doppia è quadrata.

Page 45: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Perfetta dipendenzaESEMPIO :Consideriamo un carattere X che si presenta in tre modalità ed un carattere Y che si presenta in tre modalità, se la distribuzione doppia è la seguente:

y1 y2 y3

x1 4 0 0 4

x2 0 0 3 3

x3 0 5 0 5

4 5 3 12allora è possibile affermare che Y e X sono mutuamente in dipendenza perfetta cioè che ad ogni modalità yj di Y è associata una sola modalità xi di X e viceversa.

Page 46: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Indici di dipendenza assoluta

k

i

h

j ij

ijij

n

nn

1 1

22

ˆ

)ˆ(

Una importante misura di distanza fra distribuzioni di frequenza è la distanza del di K. Pearson introdotta nel 1900, la quale è data da:

k

i

h

j ji

jiij

ff

fffN

1 1 00

200

k

i

h

j ji

jiij

N

nnN

nnn

1 1 00

2

00

Page 47: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Indici di dipendenza assoluta

1) L’indice del

2) Il assume valore 0 nel caso di indipendenza assoluta e tende ad assumere valori sempre più grandi in situazioni dove X e Y sono lontani dall’ipotesi di indipendenza;

3) Il può essere utilizzato nell’analisi sia di caratteri quantitativi sia nell’analisi di caratteri qualitativi; in quanto il calcolo non dipende dalle modalità dei caratteri in esame, ma solo dalle distribuzioni delle frequenze.

Page 48: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioLa tabella seguente riporta la distribuzione delle 76 unità di un collettivo secondo le modalità congiunte di due caratteri qualitativi A e B:

Carattere ACarattere B

B1 B2 B3  

A1 17 12 8 37

A2 22 10 7 39

  39 22 15 76

Dopo aver verificato che non sussiste indipendenza assoluta tra i caratteri, determinare l’indice di connessione

Page 49: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

Consideriamo, ad esempio,

Per avere indipendenza assoluta è necessario che:

,...,2,1 ,...,2,1 ,00 hjkiN

nnn jiij

Pertanto, è sufficiente che tale relazione non sia verificata per una sola frequenza assoluta della tabella a doppia entrata precedente per affermare che tra il carattere X e il carattere Y sussista un certo grado di dipendenza.

987,1876

(39)(37) 17 0110

11

N

nnn

quindi tra i due caratteri vi è un certo grado di dipendenza assoluta.

Page 50: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioOra calcoliamo l’indice:

k

i

h

j ji

jiij

N

nnN

nnn

1 1 00

2

00

2

La tabella delle frequenze teoriche N

nnn jiij

00ˆ

è la seguente:

Page 51: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioCarattere

A

Carattere B

B1 B2 B3

A1 18,99 10,71 7,30

A2 20,01 11,29 7,70

 

mentre la tabella dei valori

è la seguente:

Page 52: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

Carattere ACarattere B

B1 B2 B3  

A1 0,21 0,16 0,07 0,44

A2 0,20 0,15 0,06 0,41

0,85

Quindi l’indice 85,01 1 00

2

00

2

k

i

h

j ji

jiij

N

nnN

nnn

che mostra un basso grado di dipendenza tra i caratteri.

Page 53: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Altri indici di dipendenzaPer eliminare la dipendenza dell’indice da Nsi definisce la contingenza quadratica media come:

N

22

L’indice si annulla nel caso di indipendenza e soddisfa le seguenti disuguaglianze:

12 k 12 h

Page 54: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Altri indici di dipendenzaL’uguaglianza =k-1 si verifica quando vi è dipendenza perfetta di X da Y, mentre l’uguaglianza =h-1 si verifica quando vi è dipendenza perfetta di Y da X .

Quindi, possiamo definire il seguente indice medio di contingenza di H. Cramer come:

)1,1min(

22

hk

con 10 2

Page 55: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioLa tabella seguente riporta la distribuzione delle 20 regioni italiane per circoscrizione territoriale e per classe di produzione di frumento in milioni di quintali:

Circoscrizioni territoriali

Produzione di frumento

0-2,5 (bassa)

2,5-5,0 (media)

5,0-10,0 (alta)  

Nord 4 2 2 8

Centro 0 2 2 4

Sud 5 1 2 8

  9 5 6 20

Calcolare la contingenza quadratica media e l’indice medio di contingenza

Page 56: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioPer calcolare l’indice dobbiamo innanzitutto quantificare l’indice

k

i

h

j ji

jiij

N

nnN

nnn

1 1 00

2

00

2

La tabella delle frequenze teoriche N

nnn jiij

00ˆ

è la seguente:

Page 57: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

Circoscrizioni territoriali

Produzione di frumento

0-2,5 (bassa)

2,5-5,0 (media)

5,0-10,0 (alta)

Nord 3,60 2,00 2,40

Centro 1,80 1,00 1,20

Sud 3,60 2,00 2,40

mentre la tabella dei valori

N

nnN

nnn

ji

jiij

00

2

00

è la seguente:

Page 58: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioCircoscrizioni

territoriali

Produzione di frumento

0-2,5 (bassa)

2,5-5,0 (media)

5,0-10,0 (alta)  

Nord 0,04 0,00 0,07 0,11

Centro 1,80 1,00 0,53 3,33

Sud 0,54 0,50 0,07 1,11

        4,55Pertanto gli indici ricercati sono:

55,41 1 00

2

00

2

k

i

h

j ji

jiij

N

nnN

nnn

228,020/55,4

22

N

114,02

228,0

)1,1min(

22

hk

Page 59: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La correlazioneKARL PEARSON (1857-1936)Pearson raccolse le altezze di 1078 padri e dei loro figli in età matura:

Page 60: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La correlazione

Quando esiste una forte associazione fra X e Y conoscere il valore di una esse aiuta a prevedere il corrispondente dell’altra. L’intensità del legame tra la variabile X e Y è misurata tramite il coefficiente di correlazione.

Page 61: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La correlazioneConsideriamo due caratteri quantitativi X e Y.

DEFINIZIONE:Dati due caratteri quantitativi X e Y, si ha concordanza tra di essi, se a valori più piccoli di X corrispondono valori più piccoli di Y e a valori più grandi di X corrispondono valori più grandi di Y.

DEFINIZIONE:Dati due caratteri quantitativi X e Y, si ha discordanza tra di essi, se a valori più piccoli di X corrispondono valori più grandi di Y e a valori più grandi di X corrispondono valori più piccoli di Y.

Page 62: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La covarianzaUna importante misura della concordanza tra due caratteri è la covarianza definita come:

))((),( yxxy YXMYXCov

La formula precedente nel caso di distribuzioni unitarie diventa:

N

iyixi yx

NYXCov

1

))((1

),(

Page 63: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La covarianza

ij

k

i

h

jyjxi nyx

NYXCov

1 1

))((1

),(

N

iyxii yxN

YMXMXYMYXCov

1

1

)()(),(

mentre nel caso di distribuzioni di frequenze assolute si ha:

Si può dimostrare che:

Infatti:

Page 64: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La covarianza

N

iyixi yx

NYXCov

1

))((1

),(

N

iyxixyiii yxyx

N 1

1

yx

N

iix

N

iiy

N

iii y

Nx

Nyx

N

111

111

N

iyxii yxN 1

1

Page 65: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La covarianzaNel caso di una distribuzione di frequenze si ha:

k

iyx

h

jijji nyx

NYXCov

1 1

1),(

OSSERVAZIONI:

•Se X e Y sono concordi, allora la covarianza assume segno positivo;

•Se X e Y sono discordi, allora la covarianza assume segno negativo;

•Se la covarianza è nulla, X e Y sono indifferenti (incorrelati).

Page 66: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Proprietà della covarianza

),(),( YXCovYXCov

)()(1

),(1

YMyXMxN

YXCov i

N

ii

Siano X e Y due variabili e e due costanti, allora risulta:

cioè la covarianza è invariante per cambiamenti di unità di misura di X e Y.

Dim.:

Infatti:

Page 67: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Proprietà della covarianza

)()(1

),(1

yi

N

ixi yx

NYXCov

xXMXM )()(

yYMYM )()(

Ma dato che:

N

iyixi yx

N 1

))((1

),( YXCov

Page 68: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Proprietà della covarianza

),(),( YXCovYXCov

)()()()(1

1

YMyXMxN i

N

ii

Siano X e Y due variabili e , due costanti, allora risulta:

cioè la covarianza è invariante per traslazioni di X e Y.

Dim.:Infatti:

),( YXCov

Page 69: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Proprietà della covarianza

),( YXCov

xXMXM )()(

yYMYM )()(

),(1

1

YXCovyxN yi

N

ixi

Ma dato che:

allora:

)()()()(1

1

yi

N

ixi yx

N

Page 70: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Proprietà della covarianzaCombinando le due relazioni precedenti si ha:

),(),( YXCovYXCov

Page 71: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Coefficiente di correlazione lineare

)()(

),(

YVarXVar

YXCov

yx

xy

11

Il coefficiente di correlazione lineare è definito come:

L’indice ρ misura il legame lineare fra X e Y e varia tra -1 e 1; cioè:

Page 72: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Coefficiente di correlazione lineareNel caso di distribuzioni unitarie ρ è definito come:

N

iyi

N

ixi

N

iyixi

yx

xy

yN

xN

yxN

1

2

1

2

1

11

))((1

Nel caso di distribuzioni di frequenza invece si ha:

h

jjyj

k

iixi

ij

k

i

h

jyjxi

yx

xy

nyN

nxN

nyxN

10

2

10

2

1 1

11

))((1

Page 73: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Coefficiente di correlazione lineareOSSERVAZIONI:

Se ρ>0, X e Y sono concordi tra loro;

Se ρ=1, X e Y sono legati da una perfetta dipendenza lineare diretta;

Se ρ<0, X e Y sono discordi tra loro;

Se ρ=-1, X e Y sono legati da una perfetta dipendenza lineare inversa;

Se ρ=0, X e Y sono indifferenti (incorrelati) tra loro.

Page 74: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioSia data la seguente distribuzione di 6 appezzamenti di terreno secondo la quantità di fertilizzante utilizzato ed il raccolto di grano:

X Fertilizzante (Kg)

Y Grano (qt)

12 7

10 6

8 4

9 4

5 3

2 2

Calcolare il coefficiente di correlazione lineare.

Page 75: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioCalcoliamo innanzitutto la Cov(X,Y) che nel caso di distribuzioni unitarie è pari a:

N

iyixi yx

NYXCov

1

))((1

),(

Per il calcolo dell’indice ci aiutiamo con la seguente tabella:

Page 76: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

xix yiy yiy xix X

Fertilizzante (Kg)

Y Grano (qt)

12 4,33 7 2,67 11,56

10 2,33 6 1,67 3,89

8 0,33 4 -0,33 -0,11

9 1,33 4 -0,33 -0,44

5 -2,67 3 -1,33 3,55

2 -5,67 2 -2,33 13,21

46 26 31,67

Page 77: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

N

iix x

N 1

67,76/461

N

iiy y

N 1

33,46/261

28,56/67,31))((1

),(1

N

iyixi yx

NYXCov

Quindi si ha:

Ora calcoliamo la Var(X) e la Var (Y):

Page 78: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

4,33 18,75 2,67 7,13

2,33 5,43 1,67 2,79

0,33 0,11 -0,33 0,11

1,33 1,77 -0,33 0,11

-2,67 7,13 -1,33 1,77

-5,67 32,15 -2,33 5,43

65,34 17,34

)( xix 2xix 2)( yiy )( yiy

Page 79: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

89,106/34,651

)(1

2

N

ixixN

XVar

89,26/34,17)(1

)(1

2

N

iyiyN

YVar

941,0)89,2()89,10(

28,5

)()(

),(

YVarXVar

YXCov

Quindi:

Pertanto il coefficiente di correlazione lineare è pari a:

che mostra una elevata correlazione lineare diretta tra i due caratteri.

Page 80: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioSia data la seguente distribuzione di 10 squadre di calcio durante il campionato di calcio 2000-2001 secondo i gol fatti (variabile X) e i gol subiti (variabile Y):

Squadre Gol Fatti X Gol Subiti Y

ROMA 68 33

JUVENTUS 60 27

LAZIO 65 36

PARMA 51 31

INTER 47 47

MILAN 56 46

ATALANTA 39 35

BRESCIA 44 42

FIORENTINA 53 52

BOLOGNA 49 53

Page 81: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioDeterminare il coefficiente di correlazione lineare.Calcoliamo innanzitutto la Cov(X,Y) :

xix yiy xix yiy X Y

68 14,8 33 -7,2 -106,56

60 6,8 27 -13,2 -89,76

65 11,8 36 -4,2 -49,56

51 -2,2 31 -9,2 20,24

47 -6,2 47 6,8 -42,16

56 2,8 46 5,8 16,24

39 -14,2 35 -5,2 73,84

44 -9,2 42 1,8 -16,56

53 -0,2 52 11,8 -2,36

49 -4,2 53 12,8 -53,76

532 402 -250,40

Page 82: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioQuindi si ha:

N

iix x

N 1

2,5310/5321

N

iiy y

N 1

2,4010/4021

04,2510/4,250

))((1

),(1

N

iyixi yx

NYXCov

Ora calcoliamo la Var(X) e la Var (Y):

Page 83: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

14,8 219,04 -7,2 51,84

6,8 46,24 -13,2 174,24

11,8 139,24 -4,2 17,64

-2,2 4,84 -9,2 84,64

-6,2 38,44 6,8 46,24

2,8 7,84 5,8 33,64

-14,2 201,64 -5,2 27,04

-9,2 84,64 1,8 3,24

-0,2 0,04 11,8 139,24

-4,2 17,64 12,8 163,84

759,60 741,60

xix 2xix 2yiy yiy

Page 84: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioQuindi:

96,7510/6,7591

)(1

2

N

ixixN

XVar

16,7410/60,7411

)(1

2

N

iyiyN

YVar

Pertanto il coefficiente di correlazione lineare è pari a:

334,016,7496,75

04,25

)()(

),(

YVarXVar

YXCov

Page 85: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioSia data la seguente distribuzione di 20 famiglie secondo il numero di componenti (variabile X) e il numero di stanze dell’appartamento dove si vive (variabile Y):

XY

1 2 3  

1 3 1 1 5

2 2 2 3 7

3 0 1 3 4

4 0 1 3 4

  5 5 10 20

Calcolare il coefficiente di correlazione lineare.

Page 86: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioCalcoliamo innanzitutto la Cov(X,Y) che nel caso di distribuzioni di frequenza è pari a:

ij

k

i

h

jyjxi nyx

NYXCov

1 1

))((1

),(

La media aritmetica di X è pari a:

35,220

47

20

)44()43()72()51(1

10

k

iiix nx

N

Page 87: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

25,220

45

20

)103()52()51(1

10

h

ijjy ny

N

La media aritmetica di Y è, invece, pari a:

Page 88: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

)]25,23)(35,24)(3()25,22)(35,24)(1(

)25,21)(35,24)(0()25,23)(35,23)(3(

)25,22)(35,23)(1()25,21)(35,23)(0(

)25,23)(35,22)(3()25,22)(35,22)(2(

)25,21)(35,22)(2()25,23)(35,21)(1(

)25,22)(35,21)(1()25,21)(35,21)(3[(20

1

))((1

),(1 1

ij

k

i

h

jyjxi nyx

NYXCov

462,020/25,9

La covarianza è pari a:

Page 89: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

X  ni0 (xi-x)  (xi-x)2   (xi-x)2 ni0

1 5 -1,35 1,82 9,11

2 7 -0,35 0,12 0,86

3 4 0,65 0,42 1,69

4 4 1,65 2,72 10,89

  20     22,55

Y  n0j (yj-y)  (yj-y)2   (yj-y)2 n0j

1 5 -1,25 1,5625 7,81

2 5 -0,25 0,0625 0,31

3 10 0,75 0,5625 5,63

  20     13,75

Per il calcolo delle varianze ci aiutiamo con le seguente tabelle:

Page 90: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

13,120/55,221

)(1

02

k

iixi nx

NXVar

69,020/75,13)(1

)(1

02

h

ijyj ny

NYVar

Quindi:

Pertanto il coefficiente di correlazione lineare è pari a:

521,0)69,0()13,1(

46,0

)()(

),(

YVarXVar

YXCov

Page 91: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Alcune proprietàL’indipendenza assoluta tra X e Y implica una indifferenza tra i caratteri, cioè un ma una indifferenza tra i caratteri non implica una indipendenza assoluta, ma solamente una indipendenza di tipo lineare.

Infatti se vi è indipendenza assoluta tra X e Y si ha che le frequenze assolute sono pari a:

N

nncn jiijij

00

Pertanto si ha:

Page 92: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Alcune proprietà

h

jjyj

k

iixi

ij

k

i

h

jyjxi

nyN

nxN

nyxN

10

2

10

2

1 1

)(1

)(1

))((1

h

jjyj

k

iixi

ji

k

i

h

jyjxi

nyN

nxN

nnyxN

10

2

10

2

001 1

2

)(1

)(1

))((1

Page 93: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Alcune proprietà

0

)(1

)(1

)()(1

10

2

10

2

01 1

02

h

jjyj

k

iixi

j

k

i

h

jyjixi

nyN

nxN

nynxN

in quanto

0)( 0)( 01 1

0

j

k

i

h

jyjixi nynx

sono somma di scarti dalla media aritmetica; pertanto tra il carattere X e il carattere Y vi è indifferenza (=0).

Page 94: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Alcune proprietàL’indifferenza, invece, può presentarsi anche in caso di connessione non nulla; infatti la covarianza può annullarsi anche se fra le distribuzioni marginali c’è massima dipendenza, ossia nel caso che ad ogni valore di X corrisponda uno ed un solo valore di Y. Ciò accade ad esempio per la seguente distribuzione:

X 0 1 2 3 4 5 6 7 8

Y 16 9 4 1 0 1 4 9 16

1682 XXY

Per la quale i valori della variabile Y sono legati alla variabile X dalla seguente relazione:

In questo caso =0 ma vi è una dipendenza perfetta di Y da X.

Page 95: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Alcune proprietà

),( YX

)()(

),(

YVarXVar

YXCov

)()(

),(22 YVarXVar

YXCov

Siano X e Y due variabili e , , e delle costanti.

Allora si ha:

),())((),( YXsegnoYX

Dim.:

),())(( YXsegno

yx

YXCov

),(

Page 96: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Alcune proprietàρ è quindi invariante per trasformazioni lineari che conservano il segno, cioè che mantengono invariata la direzione della relazione tra X e Y.

Page 97: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Alcune proprietà1),( XX

1)(

)(

)()(

),(),(

XVar

XVar

XVarXVar

XXCovXX

Dim.:

Infatti:

Page 98: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Correlazione spuriaIl coefficiente di correlazione lineare sintetizza con un valore unico il grado del legame lineare tra le variabili X e Y.

Non sempre, però, ad un valore elevato di ρ corrisponde un effettivo legame tra i due caratteri considerati. Infatti, ad esempio, può esistere un legame tra X e Y solo perchè entrambe le variabili dipendono da una terza variabile Z.

Page 99: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioIl numero di bottiglie di birra bevute e il numero di condizionatori che vengono venduti in Italia presentano una alta correlazione lineare.

Ma tutte e due le variabili dipendono da una terza variabile: la temperatura.Infatti, più la temperatura è alta, più birre vengono bevute e più condizionatori vengono venduti.

Page 100: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

0;1;1;3;3 rYXYX 4.0;1;1;3;3 rYXYX 9.0;1;1;3;3 rYXYX

6.0;1;1;3;3 rYXYX 8.0;1;1;3;3 rYXYX 95.0;1;1;3;3 rYXYX

Page 101: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

3.0;1;1;3;3 rYXYX 5.0;1;1;3;3 rYXYX 95.0;1;1;3;3 rYXYX

7.0;1;1;3;3 rYXYX 9.0;1;1;3;3 rYXYX 99.0;1;1;3;3 rYXYX

Page 102: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La regressioneSIR FRANCIS GALTON (1822-1911)

“Teoria del sangue blù”Il talento ed il carattere sono ereditari

In questo contesto nasce l’analisi della regressione lineare

La statura dei figli può essere prevista sulla base di quella dei genitori?

Se è così, l’altezza è ereditaria…e lo è anche il talento e l’onesta!

Esiste il sangue blu!

Page 103: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La regressioneConsideriamo ancora due caratteri quantitativi X e Y, ma ora presupponiamo l’esistenza di una relazione di tipo funzionale tra essi, secondo cui è possibile stabilire quale sia la variabile indipendente e quale la dipendente.Ossia è possibile scrivere quanto segue:

dove X è la variabile indipendente e Y la variabile dipendente.

XfY

Page 104: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La regressioneTale funzione matematica f(.) può assumere qualunque forma (quadratica, esponenziale, ecc.); noi ci limiteremo a trattare il caso della relazione lineare del tipo:

XY 10

dove β0 rappresenta l’intercetta, mentre β1 è il coefficiente angolare, ossia ci dà la pendenza della retta.

Page 105: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La regressione

Page 106: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioDate le distribuzioni del prezzo del gas X e del suo consumo pro-capite Y di 20 famiglie:

Prezzo (X) 30 31 37 42 43 45 50 54 54 57 58 58 60 73 88 89 92 97 100 102

Consumo pro-capite (Y) 134 112 136 109 105 87 56 43 77 35 65 56 58 55 49 39 36 46 40 42

I due caratteri possono essere rappresentati in uno scatter, che evidenzia una relazione decrescente, ossia all’aumentare del prezzo il consumo diminuisce.

Page 107: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

Prezzo vs Consumo pro-capite

0

20

40

60

80

100

120

140

160

20 30 40 50 60 70 80 90 100 110

Prezzo del gas

Co

ns

um

o p

ro-c

ap

ite d

el g

as

La relazione può essere interpretata con una funzione di tipo lineare, come la retta riportata nel grafico.

Page 108: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La retta di regressionePer identificare univocamente la relazione matematica che “spiega” il fenomeno, sarà necessario stimare, attraverso il metodo dei minimi quadrati, cioè rendendo minime le distanze, al quadrato, tra i valori osservati e quelli teorici, il valore dei due parametri incogniti β0 e β1

In pratica è minimizzata la seguente funzione quadratica (somma dei quadrati degli scarti ei):

10 ,1

210

1

210 min),(,

N

iii

N

ii yyeg

Page 109: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La retta di regressionedove

ii xy 1010 ),(

pertanto si ha:

10 ,

1

210

1

210 min,

N

iii

N

ii xyeg

La minimizzazione della funzione g(.) richiede il calcolo delle derivate parziali rispetto ad 0 e 1, per poi porle uguali a zero.

(1)

Page 110: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La retta di regressionePertanto si ha:

0

0

1

0

g

g

02

02

110

1

110

0N

iiii

N

iii

xxyg

xyg

Page 111: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La retta di regressione

N

iii

N

ii

N

ii

N

ii

N

ii

yxxx

yxN

11

21

10

1110

Equazioni normali

0 1

Risolvendo rispetto ad 0 e 1 si ottengono le stime:

che annullano le derivate parziali:

Page 112: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

La retta di regressione

xy

x

N

ii

N

iyxii

x

xy

N

ixi

N

iyixi

Nx

Nyx

x

yx

10

2

1

2

12

1

2

11

ˆˆ

)(

))((ˆ

Una volta stimati i coefficienti e sostituiti alla (1) è immediato disegnare la retta di regressione che è individuata dalla seguente equazione:

XY 10ˆˆˆ

Il termine 1 prende il nome di coefficiente di regressione

Page 113: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioRiprendiamo i dati dell’esempio precedente e calcoliamo la retta di regressione:

)( xix 2)( xix )( yiy ))(( yixi yx Prezzo (X)

Consumo pro-capite

(Y)

30 134 -33 1089 65 -2145

31 112 -32 1024 43 -1376

37 136 -26 676 67 -1742

42 109 -21 441 40 -840

43 105 -20 400 36 -720

45 87 -18 324 18 -324

50 56 -13 169 -13 169

Page 114: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioPrezzo (X)

Consumo pro-capite (Y)

54 43 -9 81 -26 234

54 77 -9 81 8 -72

57 35 -6 36 -34 204

58 65 -5 25 -4 20

58 56 -5 25 -13 65

60 58 -3 9 -11 33

73 55 10 100 -14 -140

88 49 25 625 -20 -500

89 39 26 676 -30 -780

92 36 29 841 -33 -957

97 46 34 1156 -23 -782

100 40 37 1369 -29 -1073

102 42 39 1521 -27 -1053

10668 -11779

)( xix 2)( xix )( yiy ))(( yixi yx

Page 115: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

N

iix x

N 1

6320/12601

N

iiy y

N 1

6920/13801

10,110668

11779

)(

))((ˆ

1

2

11

N

ixi

N

iyixi

x

yx

55,13863104,169ˆˆ10 xy

Pertanto la retta di regressione è:

XY 10,155,138ˆ

Page 116: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioNella seguente tabella vengono riportati il numero delle pagine ed i prezzi (in euro) di dieci volumi di una stessa collana editoriale:

n. pagine 120 137 145 250 375 222 308 345 698 572

prezzo 12 22 16 14 15 12 14 14 20 16

Utilizziamo la seguente tabella per svolgere i calcoli:

Page 117: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioi xi yi x2

i y2i xiyi

1 120 12 14400 144 1440

2 137 22 18769 484 3014

3 145 16 21025 256 2320

4 250 14 62500 196 3500

5 375 15 140625 225 5625

6 222 12 49284 144 2664

7 308 14 94864 196 4312

8 345 14 119025 196 4830

9 698 20 487204 400 13960

10 572 16 327184 256 9152

3172 155 1.334.880 50.817

Page 118: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio2,31710/3172 x 5,1510/155 y

005,0328721,6

1651

2,31710880.334.1

5,152,31710817.50ˆ2

2

1

2

11

x

N

ii

N

iyxii

Nx

Nyx

914,132,317005,05,15ˆˆ10 xy

Pertanto la stima del coefficiente di regressione:

mentre il valore dell’intercetta è pari a:

Page 119: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

XY 005,0914,13

Pertanto la retta di regressione è:

Graficamente si ha:

05

1015

2025

0 200 400 600 800

n. pagine

prez

zo

Page 120: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Ancora sulla retta di regressioneFino ad ora e stata considerata la seguente retta di regressione:

XY 10ˆˆˆ

cioè la retta di Y su X, ma può essere considerata anche la retta:

YX 'ˆ'ˆ10

cioè la retta di X su Y dove:

Page 121: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Ancora sulla retta di regressione

yx

y

N

ii

N

iyxii

y

xy

N

iyi

N

iyixi

Ny

Nyx

y

yx

'ˆ'ˆ

)(

))(('ˆ

10

2

1

2

12

1

2

11

1 'ˆ1Il segno di è uguale a quello di

infatti il numeratore (covarianza) dei due coefficienti è identico e il denominatore sempre positivo.

Page 122: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Ancora sulla retta di regressioneLe due rette di regressione si incontrano nel punto:

),( yx

Se 0'ˆˆ11

le rette di regressione sono perpendicolari tra loro e parallele agli assi

Page 123: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Ancora sulla retta di regressione

'ˆˆ0X

0ˆ Y

X

Y

),( yx

Page 124: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Ancora sulla retta di regressione

'ˆˆ11

22y

xy

x

xy

2

yx

xy

Il coefficiente di correlazione ρ e i coefficienti di regressione sono legati dalla seguente relazione:

'ˆˆ11

Infatti:

yx

xy

Page 125: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Ancora sulla retta di regressioneIl coefficiente di correlazione ρ e i coefficienti di regressione sono legati anche dalla seguente relazione:

'ˆˆ11

x

y

y

x

Il coefficiente di regressione sono legati dalla seguente relazione:

'ˆˆ12

2

1

x

y

Page 126: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Ancora sulla retta di regressioneLe due rette di regressione coincidono soltanto quando vi è perfetta correlazione lineare cioè quando:

1

Page 127: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Il grado di accostamento

Non necessariamente però il modello stimato, quello lineare, è il migliore al fine di interpretare la relazione tra i due caratteri.

Per valutare la bontà di adattamento del modello ai dati osservati, facciamo ricorso all’indice di determinazione R2.

L’indice R2 si basa sulla scomposizione della devianza totale:

Page 128: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Il grado di accostamento

N

iyiyYDev

1

2)()(

N

iyiii yyy

1

2)ˆˆ(

N

iyiyYDev

1

2)(

N

iyiii

N

iyi

N

iii yyyyyy

11

2

1

2 )ˆ)(ˆ(2)ˆ()ˆ(

Page 129: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Il grado di accostamentoSi dimostra facilmente che:

0)ˆ)(ˆ(21

N

iyiii yyy

per la seconda delle equazioni normali.

Pertanto si ha:

)()()( RDevEDevYDev

N

iyi

N

iii yyyYDev

1

2

1

2 )ˆ()ˆ()(

Page 130: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Il grado di accostamentoL’accostamento sarà tanto migliore quanto minore sarà Dev(E).

Allora l’indice di determinazione R2 è pari a:

R2= Dev(R)/Dev(Y)=1-[Dev(E)/ Dev(Y)]

R2 indica quanta parte di Dev(Y) è spiegata dalla devianza di regressione.

Ovviamente 0 R21.

Page 131: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Il grado di accostamentoIn altre parole, R2 indica quanta parte della devianza presente nei dati (Dev(Y)) è stata colta dal modello di regressione (Dev(R)).

N

iyi

N

iii

N

iyi

N

iyi

y

yy

YDev

EDev

y

y

YDev

RDev

R

1

2

1

2

1

2

1

2

2

)(

)ˆ(1

)(

)(1

)(

)ˆ(

)(

)(

Page 132: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Il grado di accostamentoEsso varia tra 0 ed 1:

)()( quando 1

)()( quando 02

YDevRDev

YDevEDev

R

Page 133: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Il grado di accostamento

Page 134: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioTornando all’esempio precedente del gas e del consumo pro-capite, e calcoliamo il valore dell’indice R2. I calcoli sono riassunti nella seguente tabella:

2yiy iy ii yy ˆ 2ˆ ii yy Prezzo

(X)Consumo

pro-capite (Y)

30 134 4225 105,43 28,57 816,24

31 112 1849 104,33 7,67 58,83

37 136 4489 97,70 38,30 1466,89

42 109 1600 92,18 16,82 282,91

43 105 1296 91,08 13,92 193,77

45 87 324 88,87 -1,87 3,50

50 56 169 83,35 -27,35 748,02

Page 135: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio 2yiy

iy ii yy ˆ 2ˆ ii yy Prezzo (X)

Consumo pro-capite (Y)

54 43 676 78,93 -35,93 1290,96

54 77 64 78,93 -1,93 3,72

57 35 1156 75,62 -40,62 1649,98

58 65 16 74,52 -9,52 90,63

58 56 169 74,52 -18,52 342,99

60 58 121 72,31 -14,31 204,78

73 55 196 57,96 -2,96 8,76

88 49 400 41,40 7,60 57,76

89 39 900 40,29 -1,29 1,66

92 36 1089 36,98 -0,98 0,96

97 46 529 31,46 14,54 211,41

100 40 841 28,15 11,85 140,42

102 42 729 25,94 16,06 257,92

20838 7832,11

Page 136: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

62,038,0120838

11,78321

)(

)(12

YDev

EDevR

Page 137: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioConsideriamo le seguenti variabili X e Y:

xi yi

1 5

2 7,5

3 12

4 15,5

6,3ˆ,1ˆ10

X,Y 631ˆ

Applicando i minimi quadrati si trova:

cioè:

Page 138: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempioIl calcolo di R2 è il seguente:

iy yiy 2yiy ii yy ˆ 2ˆii yy xi yi

1 5 4,6 -5 25 0,4 0,16

2 7,5 8,2 -2,5 6,25 0,7 0,49

3 12 11,8 2 4 0,2 0,04

4 15,5 15,4 5,5 30,25 0,1 0,01

40 65,50 0,70

Page 139: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Un esempio

104/404

1 4

1

i

iy y

70,0ˆ)(

50,6510)(

4

1

2

4

1

24

1

2

iii

ii

iyi

yyEDev

yyYDev

989,050,65

70,01

)(

)(12

YDev

EDevR

Page 140: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti

Il grado di accostamento

OSSERVAZIONE IMPORTANTE

Si dimostra che R2=ρ2.