cap. 11 dipendenza e correlazione

48
Cap. 11 Dipendenza e correlazione 1

Upload: gin-amato

Post on 12-Dec-2015

235 views

Category:

Documents


10 download

DESCRIPTION

Mecatti

TRANSCRIPT

Page 1: Cap. 11  Dipendenza e correlazione

Cap. 11 Dipendenza e correlazione

1

Page 2: Cap. 11  Dipendenza e correlazione

Premessa

• Quanto visto nel capitolo 10 è applicabile a fenomeni di qualsiasi natura (quindi anche solo qualitativi): utilizzando solo le frequenze abbiamo potuto rilevare l’esistenza o meno di una relazione statistica tra X e Y e misurarne l’intensità con un indice sintetico normalizzato.

• Quando almeno uno dei due fenomeni congiuntamente osservati su U è quantitativo è possibile aumentare il livello di analisi: utilizzando sia le frequenze che le modalità è possibile anche dare un verso alla relazione, cioè stabilire se, quanto e come X influenza Y o viceversa.

• Se entrambi i fenomeni sono quantitativi e di conseguenza l’intera v.s. doppia è numerica è possibile esplorare ancora più in dettaglio la natura e la tipologia della relazione. 2

Attenzione: non significa necessariamente

dare una interpretazione di causa-effetto, ma solo misurare l’intensità

della relazione

Page 3: Cap. 11  Dipendenza e correlazione

Medie e varianze marginali

yN

1 1j

h

jf jy

2Y

N

1 1j

h

jf 2yy j

N

1

1j

h

jf2jy 2y

Page 4: Cap. 11  Dipendenza e correlazione

yN

1 1j

h

jf jy2

YN

1 1j

h

jf 2yy j

N

1

1j

h

jf2jy 2y

0 1 2

M

F

Incidenti

Genere

6 3 1

8 2 0

14 5 1

10

10

20

Calcolare numero medio di incidenti e varianza

jf2jyjf2jy

jf jyjf jy 14x 0 5 x 1 1 x 2

2014 215 221

7

9

35.020

7

328.035.020

9 2

Page 5: Cap. 11  Dipendenza e correlazione

Medie e varianze condizionate

yN

1 1j

h

jf jy

ixy

if

1 1j

h

ijf jy

2Y

N

1 1j

h

jf 2yy j

N

1

1j

h

jf2jy 2y

2

ixYif

1

1j

h

ijf 2ixj yy

if

1 1j

h

ijf 2jy 2

ixy

Page 6: Cap. 11  Dipendenza e correlazione

Calcolare numero medio di incidenti e varianza condizionati al genere

2

ixYif

1

1j

h

ijf 2ixj yy

if

1 1j

h

ijf 2jy 2

ixy

ixy

if

1 1j

h

ijf jy

0 1 2

M

F

Incidenti

Genere

6 3 1

8 2 0

14 5 1

10

10

20

jij yf

2jij yf

M

jij yf

2jij yf

F208 212 220 2

08 12 20 2

06 13 21 5

206 213 221 75.0

10

5My

45.05.010

7 22 MY

2.010

2Fy

16.02.010

2 22 FY

Page 7: Cap. 11  Dipendenza e correlazione

Proprietà di associatività della media

j

h

jN

Nxx j

1

Gruppo jGruppo j

Numerositàgruppo

Numerositàgruppo

Media di gruppoMedia di gruppo

h

jjNN

1

h

jjNN

1

jx jy

xjf

1 1i

k

ijf ix

xN

1 1j

h

jf jyx

La media marginale è uguale alla media (ponderata) delle medie condizionate

Page 8: Cap. 11  Dipendenza e correlazione

jy

xjf

1 1i

k

ijf ix

xN

1 1j

h

jfjy

x

ixy

if

1 1j

h

ijf jy

yN

1 1i

k

if ixy

Medie condizionate e proprietà associativa delle medie

La media marginale è uguale alla media (ponderata) delle medie condizionate

Page 9: Cap. 11  Dipendenza e correlazione

Numero medio di incidenti marginali e condizionati al genere

0 1 2

M

F

Incidenti

Genere

6 3 1

8 2 0

14 5 1

10

10

20

5.010

5My 2.0

10

2Fy35.0

20

7y

Proprietà associativa della media

yN

1 1i

k

if ixy

?

35.0 20

1 (

N

1 ( 1f 1xy 2f 2xy )

10 5.0 10 2.0 ) 20

7 CVD

Page 10: Cap. 11  Dipendenza e correlazione

Varianze marginali e condizionate al genere

0 1 2

M

F

Incidenti

Genere

6 3 1

8 2 0

14 5 1

10

10

20

5.010

5My

45.05.010

7 22 MY

2.010

2Fy

16.02.010

2 22 FY

35.020

7y

328.035.020

9 22 Y

Quale distribuzione è più variabile?

M

MY

y

F

FY

y

5.0

45.0 2.0

16.034.1 00.2

Page 11: Cap. 11  Dipendenza e correlazione

Scomponibilità della varianza marginale(corrisponde all’associatività delle medie ma è un po’ diversa)

La media marginale è uguale alla media (ponderata) delle medie condizionate

La varianza marginale è (?) uguale alla media (ponderata) delle varianze condizionate

+ la varianza delle medie condizionate

0 1 2

M

F

Incidenti

Genere

6 3 1

8 2 0

14 5 1

10

10

20

5.0My

45.02 MY

2.0Fy

16.02 FY

35.0y

328.02 Y

35.020.0105.01020

1

yN

1 1i

k

if ixyyN

1 1i

k

if ixyN

1 ( 1f 1xy 2f 2xy )

305.020

1.6

20

6.15.416.01045.010

20

1

328.0

Page 12: Cap. 11  Dipendenza e correlazione

Scomponibilità della varianza marginale(corrisponde all’associatività delle medie ma è un po’ diversa)

La media marginale è uguale alla media (ponderata) delle medie condizionate

La varianza marginale è uguale alla media (ponderata) delle varianze condizionate

+ la varianza delle medie condizionate

0 1 2

M

F

Incidenti

Genere

6 3 1

8 2 0

14 5 1

10

10

20

5.0My

45.02 MY

2.0Fy

16.02 FY

35.0y

328.02 Y

35.020.0105.01020

1

yN

1 1i

k

if ixyyN

1 1i

k

if ixyN

1 ( 1f 1xy 2f 2xy )

305.020

1.6

20

6.15.416.01045.010

20

1

328.0

VARIANZA NEI GRUPPI2NEI

2

ixY 2

1xY2

2xY

Page 13: Cap. 11  Dipendenza e correlazione

Scomponibilità della varianza marginale(corrisponde all’associatività delle medie ma è un po’ diversa)

La varianza marginale è uguale alla media (ponderata) delle varianze condizionate

+ la varianza delle medie condizionate

0 1 2

M

F

Incidenti

Genere

6 3 1

8 2 0

14 5 1

10

10

20

5.0My

45.02 MY

2.0Fy

16.02 FY

35.0y

328.02 Y

305.020

1.6

20

6.15.416.01045.010

20

1

328.0

VARIANZA NEI GRUPPI yN

1 1i

k

if ixyyN

1 1i

k

if ixyN

1 ( 1f 1xy 2f 2xy )2

NEI2

ixY 2

1xY2

2xY

2FRA

VARIANZA FRA GRUPPI

N

1

k

i 1if 2yy

ix

235.05.0 235.02.0 10 10 20

1 0225.0

Page 14: Cap. 11  Dipendenza e correlazione

Scomponibilità della varianza marginale(corrisponde all’associatività delle medie ma è un po’ diversa)

La varianza marginale è uguale alla media (ponderata) delle varianze condizionate

+ la varianza delle medie condizionate

0 1 2

M

F

Incidenti

Genere

6 3 1

8 2 0

14 5 1

10

10

20

5.0My

45.02 MY

2.0Fy

16.02 FY

35.0y

328.02 Y

305.0

VARIANZA NEI GRUPPI VARIANZA FRA GRUPPI

2FRA

N

1

k

i 1if 2yy

ix

0225.0

2NEI

N

1

k

i 1if

2

ixY

3275.0

222FRANEIY

With

inBetween

Page 15: Cap. 11  Dipendenza e correlazione

Scomponibilità della varianza

222FRANEIY

2NEI

N

1

k

i 1if

2

ixY 2FRA

N

1

k

i 1if 2yy

ix

k

i xYiXNEI ixp

1

22 21

2

k

i YxYiXFRA ixp

iXii xpp

N

f

Media delle varianze (condizionate)

Varianza delle medie (condizionate)

Page 16: Cap. 11  Dipendenza e correlazione

X qualsiasi e Y quantitativo

Studio della dipendenza in media

Page 17: Cap. 11  Dipendenza e correlazione

Un’interpretazione grafica e alcune formule alternative

ypixY

yp xY 2

yp xY 1 ypY

k

i jxYiXjY ypxpypi1

k

i xYiXY ixp

1

211

22

k

i YxYiX

k

i xYiXY iixpxp

i

ijjxY f

fyp

i

N

fyp j

jY

Marginale

Condizionate

N

fxp i

iX

2NEI

2FRA

102

2

Y

FRA

Parte di variabilità di Y dovuta alla differenza tra

le medie condizionate

Page 18: Cap. 11  Dipendenza e correlazione

Interpretazione del rapporto

21

22

k

i YxYiXY ixp

Parte di variabilità dovuta ad X

ypixY

yp xY 2

yp xY 1 ypY

Marginale

Condizionate

ypixY

yp xY 2

yp xY 1 ypY

Marginale

Condizionate

211

22

k

i YxYiX

k

i xYiXY iixpxp

iixY 22

Quando accade che

2

22

Y

FRAXY

Si può interpretare come parte di variabilità di Y spiegata da X

Page 19: Cap. 11  Dipendenza e correlazione

211

22

k

i YxYiX

k

i xYiXY iixpxp

Indice di dipendenza (rapporto di correlazione)

2

22

Y

FRAXY

In questo caso, soprattutto se già si sa che X è causa di Y, il rapporto si può interpretare come misura di quanto Y dipende da X

N.B. in tutti i libri di testo l’ interpretazione (1) viene estesa anche al caso in cui le varianze condizionate siano diverse, ma a parer nostro è azzardata

Solo se le varianze condizionate sono (quasi) uguali iixY 22

Ma di per sé un elevato rapporto non significa necessariamente che X sia causa di Y

Si può interpretare come parte di variabilità di Y spiegata da X 1

Se le varianze condizionate sono molto diverse il rapporto si può interpretare solo come parte di variabilità di Y

“dovuta alla differenza tra le medie”

Page 20: Cap. 11  Dipendenza e correlazione

ypixY

ypixY

Fissate le varianze condizionate

Aumenta la varianza marginale e quella FRA gruppi

2

2

Y

FRA

Aumenta

211

22

k

i YxYiX

k

i xYiXY iixpxp

2NEI

2FRA

102

2

Y

FRA

Se cresce la distanza tra le medie

Page 21: Cap. 11  Dipendenza e correlazione

ypixY

ypixY

Se le varianze condizionate tendono

a ridursi

2

2

Y

FRA

Aumenta

211

22

k

i YxYiX

k

i xYiXY iixpxp

2NEI

2FRA

102

2

Y

FRA

Fissate le distanze tra le medie

Si riduce la varianza marginale e quella NEI

gruppi

In particolare

1

0

0

2

2

2

2

Y

FRA

NEI

xY ii

Page 22: Cap. 11  Dipendenza e correlazione

02

22

Y

FRAXY

Se tra X e Y ci fosse I.S. allora le distribuzioni

condizionate sarebbero tutte uguali alle marginali

ypixY

211

22

k

i YxYiX

k

i xYiXY iixpxp

Indipendenza Statistica e Rapporto di correlazione

i μYxY i

Quando il rapporto è pari a zero si dice anche che c’è

indipendenza in media di Y da X

Page 23: Cap. 11  Dipendenza e correlazione

211

22

k

i YxYiX

k

i xYiXY iixpxp

2NEI

2FRA 10

2

2

Y

FRA

2

22

Y

FRAXY

Indice di dipendenza di Y da X

Rapporto di correlazione di Y da X

0 1

ypixY

ypixY

Forte dipendenza di Y da X

In genere non si sa se X causa Y, ma se il rapporto è molto alto, questo fa sorgere il dubbio che sia così

Indipendenza in media di Y da X

Page 24: Cap. 11  Dipendenza e correlazione

2

22

Y

FRAXY

ypyp YxY i

211

22

k

i YxYiX

k

i xYiXY iixpxp

2FRA

2NEI 10

2

2

Y

FRA

211

22

k

i YxYiX

k

i xYiXY iixpxp

2FRA2FRA

2NEI 10

2

2

Y

FRA

2NEI2NEI 10

2

2

Y

FRA

Se il rapporto è uguale a zero si dice che

Y è indipendente in media da X i μYxY

XY

i

02

ypyp YxY i

X e Y statisticamente indipendenti

X e Y non statisticamente

indipendenti

L’Indipendenza in Media non implica

l’Indipendenza Statistica

L’Indipendenza Statistica implica

l’Indipendenza in Media

00 22 XY 00 22 XY

Page 25: Cap. 11  Dipendenza e correlazione

Se NON c’è Indipendenza in Media

NON ci può essere Indipendenza Statistica

ypixY

yp xY 2

yp xY 1 ypY

Marginale

Condizionate

ypixY

yp xY 2

yp xY 1 ypY

Marginale

Condizionate

ypyp YxY i

0 0 22 XY

Page 26: Cap. 11  Dipendenza e correlazione

Alcuni elementi di riflessione importanti

211

22

k

i YxYiX

k

i xYiXY iixpxp

2FRA

2NEI 10

2

2

Y

FRA

211

22

k

i YxYiX

k

i xYiXY iixpxp

2FRA2FRA

2NEI 10

2

2

Y

FRA

2NEI2NEI 10

2

2

Y

FRA

2XY

Se si è sicuri che X sia causa di Y come segue:a) a valori diversi di X corrispondono valori diversi delle medie di Y|xb) e le varianze condizionate sono quasi uguali

misura la parte di variabilità di Y dovuta ad X

2XY molto vicino ad 1, allora è possibile

pensare che X sia causa di Y

Un alto rapporto di correlazione non garantisce l’esistenza di una relazione di causa – effetto (quanto meno necessario affiancare una teoria)

Se non vale b) allora solo “Parte di variabilità dovuta alla diversità delle medie”

Page 27: Cap. 11  Dipendenza e correlazione

Esempio: Genere e Incidenti stradali

0 1 2

M

F

Incidenti

Genere

6 3 1

8 2 0

14 5 1

10

10

20

5.0My

45.02 MY

2.0Fy

16.02 FY

35.0y

328.02 Y

305.0

VARIANZA NEI GRUPPI VARIANZA FRA GRUPPI

2FRA

N

1

k

i 1if 2yy

ix

0225.0

2NEI

N

1

k

i 1if

2

ixY

3275.0

222FRANEIY

With

inBetween

2

22

Y

FRAXY

07.03275.0

0225.0

Tuttavia le varianze

sono molto diverse

Page 28: Cap. 11  Dipendenza e correlazione

Esempio

28

Page 29: Cap. 11  Dipendenza e correlazione

29

• La scomposizione ci dice che la variabilità della speranza di vita nei Paesi ONU (cioè il fatto che Paesi diversi abbiano una diversa speranza di vita) è complessivamente misurabile con la varianza marginale s2

Y = 118.74 che per la parte s2

FRA = 33.31 dipende dall’accesso all’acqua potabile e per la parte s2

NEI = 85.43 non dipende dall’accesso all’acqua potabile.

Senza dubbio l’accesso all’acqua influisce sulla speranza di vita per cui in questo caso il rapporto ci dice quanta parte (28%) della variabilità della

speranza di vita dipende da tale accesso

28.074.118

31.332 XY

Page 30: Cap. 11  Dipendenza e correlazione

• X e Y non sono indipendenti. Ad esempio:(il c2 normalizzato è intorno al 10%).

• La connessione però sparisce se si sintetizzano le distribuzioni condizionate nelle loro medie

30

00 22 XY

Page 31: Cap. 11  Dipendenza e correlazione

31

211

22

k

i YxYiX

k

i xYiXY iixpxp

2FRA

2NEI 10

2

2

Y

FRA

211

22

k

i YxYiX

k

i xYiXY iixpxp

2FRA2FRA

2NEI 10

2

2

Y

FRA

2NEI2NEI 10

2

2

Y

FRA

La varianza NEI è pari a 0, tutta la varianza totale è dunque varianza FRA; l’indice di dipendenza è pari a 1

L’elevato valore del rapporto di correlazione induce a

pensare ad una relazione di causa-effetto tra X e Y

Page 32: Cap. 11  Dipendenza e correlazione

• Esempio:

• Y è indipendente in media da X:

• X dipende perfettamente da Y:

32

00 22 YXXY

Page 33: Cap. 11  Dipendenza e correlazione

X e Y entrambi quantitativi

Covarianza e correlazione

Page 34: Cap. 11  Dipendenza e correlazione

Nu

1u

ju

jx

Successioni doppie (X, Y) quantitative: rappresentazione mediante scatterplot

2u

iu

Nx 1x ix2x

Successione dei dati statistici

X : statura

jy

Y : peso

juYX ,

Successione dei dati statistici

NNjj yxyxyx ,,,,,,, 11

La struttura della nuvola è

indicativa dell’eventuale

tipo di relazione

esistente tra X e Y

Page 35: Cap. 11  Dipendenza e correlazione

Diagramma a dispersione (scatter plot)• La tabella osservata viene rappresentata sul diagramma come una

nuvola di k × h punti. Le coppie di valori osservati (xi,yj) sono le coordinate.• Se X e Y sono statisticamente indipendenti, i punti si presentano sparpagliati

sul diagramma, senza alcuna struttura.• Se tra X e Y c’è una relazione statistica, la nuvola di punti si presenta

strutturata. Questa struttura ci dà informazioni sul tipo di relazione esistente.

35

x

y

Le variabili sono indipendenti tra loro

Page 36: Cap. 11  Dipendenza e correlazione

Maggiore è (X) la

durata dell’eruzione

più alto è (Y)

l’intervallo di tempo tra due eruzioni

successive

Posso avvicinarmi alla bocca del geiser “Old Faithful”?

Dovrei avere almeno 68’ di tempo

(ma meglio venire via prima)

Page 37: Cap. 11  Dipendenza e correlazione

x

y

minx maxx

miny

maxy

x

y

I quadrante

0 xxi

0 yyi

0 yyxx ii

II quadrante

0 xxi

0 yyi

0 yyxx ii

III quadrante

0 xxi

0 yyi

0 yyxx ii

VI quadrante

0 xxi

0 yyi

0 yyxx ii

N

iiiXY yyxx

N 1

1

Tenderà ad assumere il segno dei quadranti in cui si concentrano i

punti

0XY

0XY

0XY

Covarianza: misura di variabilità congiunta

Page 38: Cap. 11  Dipendenza e correlazione

La covarianza: misura la variabilità congiunta

N

iiiXY yyxx

N 1

1Successione dei dati statistici

NNjj yxyxyx ,,,,,,, 11

k

iXY N 1

1

h

j 1ijf yyxx ji

Tabella di frequenza doppia

Page 39: Cap. 11  Dipendenza e correlazione

N

iXY N 1

1

ii yxx yxxi

Una formula alternativa

N

iiiXY yyxx

N 1

1

N

1

N

i 1

ii yxx

N

i 1

xxi y

N

1

N

i 1

ii yxx N

1

N

i 1ii yx

N

1

N

i 1

x iy

XYM yx

Page 40: Cap. 11  Dipendenza e correlazione

La covarianza: formula alternativa

yxyxN

N

iiiXY

1

1

Successione dei dati statistici

NNjj yxyxyx ,,,,,,, 11

k

iXY N 1

1

h

j 1ijf ji yx

Tabella di frequenza doppia

yx

yxM XYXY

Page 41: Cap. 11  Dipendenza e correlazione

Covarianza: proprietà

YXXYYX

0

YXXY 0XY0XY 0XY YXXY

Tanto più la covarianza si avvicina al limite inferiore o superiore, tanto più la nuvola di punti tende a concentrarsi su una retta y = a + b x inclinata negativamente o

positivamente a seconda del segno della covarianza

Page 42: Cap. 11  Dipendenza e correlazione

Esercizio teorico

Dimostrare che se Y = a + b X allora YXXY

dove il segno è determinato da quello di b

N

iiiXY yyxx

N 1

1 xbay Linearità della media

N

iXY N 1

1 xxi xbabxa i

N

iN 1

1 xxi xbbxi

N

iN 1

1 xxi xxb i

N

iNb

1

1 xxi 2Xb

XY b

Omogeneità della deviazione standard

XXbbsign

Correggere diapositive e appunti

2

Page 43: Cap. 11  Dipendenza e correlazione

Coefficiente di correlazione

YXXYYX

0

YXXY 0XY0XY 0XY YXXY

YX

YX

YX

XY

YX

YX

1 1

XY

Page 44: Cap. 11  Dipendenza e correlazione

Coefficiente di correlazione

11 YX

XYXY

0

1XY 0XY0XY 0XY 1XY

Il coefficiente di correlazione misura il grado di relazione lineare tra X e YTanto più vicino a 1 (in valore assoluto) l’indice, tanto più vicina ad una relazione

lineare perfetta la relazione (e viceversa visto l’esercizio teorico)

Page 45: Cap. 11  Dipendenza e correlazione

45

In un diagramma a dispersione, le osservazioni con la stessa coppia di modalità sono punti sovrapposti. Per

rappresentare graficamente una coppia di fenomeni con frequenze congiunte molto differenziate (da valori piccoli a

valori grandi) è allora meglio utilizzare un diagramma a bolle

“Bolle” con area pari alla frequenza

Page 46: Cap. 11  Dipendenza e correlazione

Calcolare il coefficiente di correlazione lineare

46

03.78x

54.24y

72.1352 X

31.122 Y

83.1947XY

YX

XYXY

YX

XY yx

31.1272.135

54.2403.7883.1947 81.0

Page 47: Cap. 11  Dipendenza e correlazione

Prendendo la retta tracciata come “rappresentativa” della relazione tra X e Y individuare il voto medio che si può

attendere uno studente con voto alla maturità pari ad 80

Page 48: Cap. 11  Dipendenza e correlazione

Correlazione spuria

Attenzione: una (elevata) correlazione tra X e Y non implica necessariamente una relazione di causa-effetto.

Di fronte ad una elevata correlazione tra X e Y è probabile vi possa essere una relazione di causa-effetto, ma questa va giustificata

sempre sulla base di ragionamenti teoricamente validi

Origin of conceptThe term comes from a 1950 paper by William S. Robinson.[11] For each of the 48 states + District of Columbia in the US as of the 1930 census, he computed the literacy rate and the proportion of the population born outside the US. He showed that these two figures were associated with a positive correlation of 0.53 — in other words, the greater the proportion of immigrants in a state, the higher its average literacy. However, when individuals are considered, the correlation was −0.11 — immigrants were on average less literate than native citizens. Robinson showed that the positive correlation at the level of state populations was because immigrants tended to settle in states where the native population was more literate. He cautioned against deducing conclusions about individuals on the basis of population-level, or "ecological" data. In 2011, it was found that Robinson's calculations of the ecological correlations are based on the wrong state level data. The correlation of 0.53 mentioned above is in fact 0.46.[12]An early example of the ecological fallacy was Émile Durkheim's 1897 study of suicide in France although this has been debated by some.[13][14]

Numero di gelati consumati e numero di accessi in piscina (positiva)Alta marea e numero di auto che passano su un ponte (negativa)

Correlazione “ecologica”

Minuti di eruzione di un geiser e minuti all’eruzione successiva (positiva)