appunti 2 regressione e correlazione · 2008-07-04 · il coefficiente di correlazione lineare r è...

Pagina 1

Correlazione lineare

05

101520253035404550

0 5 10 15 20 25 30

Consumo di alcool

Mor

talit

à pe

r ci

rros

i

Variabile indipendente

Var

iab

ile d

ipe n

de n

t e

Metodologia per l’analisi dei dati sperimentali

L’analisi di studi con variabili di risposta multip le

La correlazione studia il rapporto di dipendenza tra due variabili, una della quali (Y) è definita come variabile dipendente ed una (X) come variabile indipendente.

Pagina 2


• Viene utilizzata quando si voglia valutare la relazione lineare tra due o più variabili

• Viene di solito rappresentata come diagramma di dispersione sul piano cartesiano

• La correlazione significativa tra due variabili NON IMPLICA NECESSARIAMENTE un nesso di casualità

Pagina 3

Coefficiente di correlazione lineare

r=0

r=1r=0.60

Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili che variano in modo congiunto. Il valore di r varia tra -1 (correlazione negativa perfetta) a 0 (assenza totale di correlazione ad 1 (correlazione positiva perfetta).

Pagina 4


( ) ( )( )( )

( )( )1n

n

yxxy

1n

yyxxyx,COV ii

−

−=

−−−

=∑ ∑∑

∑

( )( )( ) ( )

( )( )

( ) ( )

−

−

−=

−−

−−=

∑ ∑∑ ∑

∑ ∑∑

∑∑

n

yy²

n

xx²

n

yxxy

yyxx

yyxxr

222i

2i

ii

Pagina 5


La statistica:

21

2

r

nrt

−−⋅=

è distribuita come t di Student con (n-2) gradi di libertà

Pagina 6

05

101520253035404550

0 5 10 15 20 25 30

X

Y

Il metodo matematico per individuare la retta di regressione è il metodo dei minimi quadrati , che minimizza la somma degli scarti quadratici tra y osservataed y attesa.

Pagina 7

Funzione lineare

05

101520253035404550

0 5 10 15 20 25 30

X

Y

i10i xbby += i10i xbby +=

Pagina 8


xb-y b 1 0 =

( )( ) ( )

n

xx

n

yxyx

xDEVyx,COD

b 2

i2i

iiii

1

∑∑

∑ ∑∑

−

−==

xbb y 10 +=

Pagina 9

Scomposizione della devianza

( ) ( )2

i yyyDEV ∑ −=

( ) ( ) ( )yyyyyyyyyy iiiiiii −−−=−+−=−

( ) ( ) ( ) ( )( )∑ ∑ ∑∑ −−+−+−=− iii2

i2

i2

i yyyy2yyyyyy

( ) ( ) ( )∑ ∑ ∑ −+−=− 2i

2i

2i yyyyyy

SS(b1) SS(e)

devianza DOVUTA alla regressione

devianza RESIDUA

Ma la regressione può essere analizzata come un modello di analisi della varianza. L’analisi è concettualmente simile a quella dell’ANOVA ad un criterio di classificazione.

Pagina 10

Devianza dovuta alla regressione

( )( )[ ]( )

( )[ ]( )

( )

n

)x(x

n

yxxy

xDEVyx,COD

xx

yyxx)SS(b 2

2

2

2

2i

2

ii1 ∑∑

∑ ∑∑

∑∑

−

−

==−

−−=

Pagina 11

ANOVA applicata alla regressione

n-1SS(y)TOTALE

MS(e)n-2Per differenza

Residuo

MS(b1)1SS(b1)Regressione

MSg.l.SSFonte di variazione

Pagina 12

A differenza degli studi che riportano media e deviazione standard delle variabili di risposta, quelli che descrivono i dati come regressione sono difficilmente ricostruibili a partire dai risultati.

Utilizziamo quindi i risultati di un esempio di Armitage, che descrivono un gruppo di lavoratori dell’industria del cadmio, esposti da più di 10 anni.

Pagina 13

0

1

2

3

4

5

6

35 40 45 50 55 60 65 70

La rappresentazione grafica ci lascia intuire la possibilità di una relazione inversa tra le variabili.

Analizzare graficamente i risultati è una pratica utile, prima di procedere all’analisi, perché consente di individuare outliers (punti molto scostati dai rimanenti) ed influence points (punti che da soli influenzano la direzione della retta.

E’ corretto verificare l’esattezza di questi dati, ma non eliminarli per le loro caratteristiche.

Pagina 14

Pagina 15

Agli elementi di calcolo per le formula semplificate che abbiamo utilizzato per una singola varriabile, SOMMA(x) e SOMMA.Q(x) diviene necessaria la somma dei prodotti. E’ conveniente generare la colonna dei prodotti xy e calcolarne lasommatoria.

Pagina 16

( )( ) ( )

0.085912.2577.642

n

xx

n

yxyx

xDEVyx,COD

b 2

i2i

iiii

1

−=−=

=

−

−==

∑∑

∑ ∑∑

8.18312597

0.08512

47.39

xb-y b 1 0

=

⋅−−=

==

Pagina 17

0

1

2

3

4

5

6

35 40 45 50 55 60 65 70

La retta stimata è effettivamente indicativa di una relazione inversa. La rappresentazione della retta è effettuata correttamente solo entro i limiti di valori di x presenti nella regressione.

Pagina 18

( )[ ]( )

( )

6.608912.2577.6425][

n

)x(x

n

yxxy

xDEVyx,COD

)SS(b

2

22

1

=−=

=−

−

==∑∑

∑ ∑∑2

2

La devianza dovuta alla regressione si calcola a partire dagli stessi termini.

Pagina 19


n-111.739TOTALE

MS(e)n-2Per differenza

Residuo

MS(b1)16.608Regressione


Pagina 20


1111.739TOTALE

0.513 105.131Residuo

6.60816.608Regressione


Pagina 21


Il rapporto:

( )( )eMSbMS

F 1=

segue la distribuzione F con 1 ed (n-2) gradi di libertà

Pagina 22


F=12.871111.739TOTALE

0.513 105.131Residuo

6.60816.608Regressione


Il valore di F consente di rifiutare l’ipotesi nulla ad un livello di significatività di 0.0049

Pagina 23

Pagina 24

Intervallo di confidenza del coefficiente angolare

SS(x)MS(e)

sb1 =

L'errore standard del coefficiente angolare è:

b11 st b ⋅± α

Per cui il suo intervallo di confidenza è:

Pagina 25

0.1370.0320.02372.2280.085st b b11 −÷−=⋅±−=⋅± α

Pagina 26

Intervallo di confidenza della stima di y

−++⋅=SS(x)

)xxn1

12)-(n

SS(e)s

2i

yi

(

L'errore standard di è:

iyi st y ⋅± αˆ

Per cui il suo intervallo di confidenza è:

y

Pagina 27

Pagina 28

Coefficiente di determinazione

La quota di variazione della Y attribuibile alla associazione lineare con la x è valutata come:

( )( )ySSbSS 12 =r

Questo rapporto, riferito come coefficiente di determinazione, varia da 0 ad 1:- è 0 quando tra le variabili non c'è associazione lineare- è 1 quando tutta la variazione della y è determinata dalla relazione lineare con la x.

Pagina 29

Analisi della covarianza

• L’analisi della covarianza (ANCOVA) èadatta all’analisi di dati in cui la variabile oggetto di studio è influenzata da cause sistematiche, ed associata ad una covariata per la quale sia difficile formare gruppi omogenei

Pagina 30

Analisi della covarianza

x

y

x

y

y

x

y

x x

y

x

y

Pagina 31

L’esempio riporta i dati di lavoratori dell’industria del candmio, rispettivamente esposti da più di 10 anni, esposti da 10 anni, e non esposti.

Pagina 32

Abbiamo già visto come le misure di sintesi, somme, somme dei quadrati e somme dei prodotti, contengano tutta l’informazione che ci sarà necessaria.

Pagina 33

( )( ) ( ) 0.0195

9392.123183.623

n

xx

n

yxyx

xDEVyx,COD

b 2

i2i

iiii

com −=−==

−

−==

∑∑

∑ ∑∑

Il beta comune (cioè il coefficiente di regressione che tiene conto di tutti i dati,trascurando la loro divisione in gruppi) si calcola a partire dalle somme delle devianze e delle codevianze dei tre gruppi.

Pagina 34

gruppi entro residua

moparallelis

MS

MSF =

• Consente di rifiutare l’ipotesi di parallelismo tra i gruppi.

• Se il test non è significativo i dati non mostrano eterogeneità dovuta a mancato parallelismo, e si può rappresentare la relazione tra X e Y con il coefficiente di regressione comune

• Se non si rifiuta l’ipotesi di parallelismo, può essere condotta l’analisi della covarianza

Pagina 35

Un problema dell’analisi della covarianza è che alcuni software, anche piuttosto avanzati, quali STATA o SAS, non hanno un programma specifico per eseguirlo, ma richiedono l’uso di artifici di calcolo.

Nell’esempio STATA: l’assenza di interazione è indicativa di parallelismo.

Pagina 36

Il termine può quindi venire rimosso dall’analisi. Non risulta alcuna differenza tra i gruppi; le differenze sono tutte spiegate dall’età.

Pagina 37

4.484.523.77CV “aggiustata”

4.46±0.694.47±0.683.94±1.03CV

39.8±1237.8±9.249.8±9.1Età

Non esposti

Esposti < 10 anni

Esposti > 10 anni

Variabile

)xx(byy i1ci*i −−=

L’ANCOVA consente il calcolo delle medie “aggiustate”, cioè di quelle che sarebbero state le medie delle y se il valore delle x fosse stato uguale in tutti i gruppi, e pari al valore di x medio. Il cacolo è molto semplice, anche quando il software a disposizione non lo effettui (sono denominate anche LS means)

Pagina 38

Un uso improprio della correlazione

0

100

200

300

400

500

600

700

0 200 400 600 800

Strumento 1

Str

um

e nto

2

Viene spesso utilizzata in modo improprio la correlazione per definire la concordanza di due metodi o due strumenti di misura.

La correlazione significa la presenza di dipendenza tra le misure, ma è difficile immaginare che due misure della stessa unità sperimentale siano indipendenti!

Pagina 39

Una presentazione alternativa

-100

-80

-60

-40

-20

0

20

40

60

80

0 200 400 600 800

PEFR medio

Dif

fere

nza

tra

le d

ue m

isur

e

-100

-80

-60

-40

-20

0

20

40

60

80

0 200 400 600 800

PEFR medio

Dif

fere

nza

tra

le d

ue m

isur

e

Il metodo più utilizzato è il grafico di Brandt e Altman: se una delle due misure rappresenta uno standard consolidato, va in ascissa, altrimenti ci si mette la media delle due misure. In ordinata la corrispondente differenza tra le due misure. Non è associato un test inferenziale.

Pagina 40

Misure di concordanza per dati qualitativi

3004515240Totale

303000Severamente ridotta

3031215Mediamente ridotta

240123225Efficienza conservata

TotaleSeveramente ridotta

Mediamente ridotta

Efficienza conservata

OSSERVATORE A

OSSERVATORE B

Il problema della concordanza si pone anche per valutazioni di tipo qualitativo. Vediamo questo esempio immaginario. I numeri sono frequenze assolute.

Pagina 41


3004515240Totale

3030Severamente ridotta

3012Mediamente ridotta

240225Efficienza conservata


Mediamente ridotta


OSSERVATORE A

OSSERVATORE B

2673012225ff ii0 =++==∑ =

k

i 1Concordanza osservata:

Pagina 42


3004515240Totale

3030 (4.5)Severamente ridotta

3012 (1.5)Mediamente ridotta

240225 (192)Efficienza conservata


Mediamente ridotta


OSSERVATORE A

OSSERVATORE B

Concordanza dovuta al caso: 1984.51.5192fff .ii.e =++=⋅=∑ =

k

i 1

La concordanza dovuta al caso è stimata dal valore atteso (come al solito, totale di riga per totale di colonna divisio gran totale)

Pagina 43

Statistica k di Cohen

0.67610269

198300198267

f-Nff

=ke

eo ==−−=−

Concordanza completa: k=1

Eccellente concordanza: k>0.75

Scarsa concordanza: k<0.40

Pagina 44


E’ distribuita come una deviata gaussiana standardizzata, quando N>100

se(k)k

Pagina 45


0.0830600198

198)(300300198

)f(NNf

=se(k)e

e ==−⋅

=−⋅

ha distribuzione gaussiana

8.450.08

0.676se(k)

k ==

appunti 2 regressione e correlazione · 2008-07-04 · il coefficiente di correlazione lineare r è...

Documents