appunti 2 regressione e correlazione · 2008-07-04 · il coefficiente di correlazione lineare r è...
TRANSCRIPT
Pagina 1
Correlazione lineare
05
101520253035404550
0 5 10 15 20 25 30
Consumo di alcool
Mor
talit
à pe
r ci
rros
i
Variabile indipendente
Var
iab
ile d
ipe n
de n
t e
Metodologia per l’analisi dei dati sperimentali
L’analisi di studi con variabili di risposta multip le
La correlazione studia il rapporto di dipendenza tra due variabili, una della quali (Y) è definita come variabile dipendente ed una (X) come variabile indipendente.
Pagina 2
Correlazione lineare
• Viene utilizzata quando si voglia valutare la relazione lineare tra due o più variabili
• Viene di solito rappresentata come diagramma di dispersione sul piano cartesiano
• La correlazione significativa tra due variabili NON IMPLICA NECESSARIAMENTE un nesso di casualità
Pagina 3
Coefficiente di correlazione lineare
r=0
r=1r=0.60
Il coefficiente di correlazione lineare r è una misura di associazione tra due variabili che variano in modo congiunto. Il valore di r varia tra -1 (correlazione negativa perfetta) a 0 (assenza totale di correlazione ad 1 (correlazione positiva perfetta).
Pagina 4
Coefficiente di correlazione lineare
( ) ( )( )( )
( )( )1n
n
yxxy
1n
yyxxyx,COV ii
−
−=
−−−
=∑ ∑∑
∑
( )( )( ) ( )
( )( )
( ) ( )
−
−
−=
−−
−−=
∑ ∑∑ ∑
∑ ∑∑
∑∑
n
yy²
n
xx²
n
yxxy
yyxx
yyxxr
222i
2i
ii
Pagina 5
Coefficiente di correlazione lineare
La statistica:
21
2
r
nrt
−−⋅=
è distribuita come t di Student con (n-2) gradi di libertà
Pagina 6
05
101520253035404550
0 5 10 15 20 25 30
X
Y
Il metodo matematico per individuare la retta di regressione è il metodo dei minimi quadrati , che minimizza la somma degli scarti quadratici tra y osservataed y attesa.
Pagina 7
Funzione lineare
05
101520253035404550
0 5 10 15 20 25 30
X
Y
i10i xbby += i10i xbby +=
Pagina 8
Correlazione lineare
xb-y b 1 0 =
( )( ) ( )
n
xx
n
yxyx
xDEVyx,COD
b 2
i2i
iiii
1
∑∑
∑ ∑∑
−
−==
xbb y 10 +=
Pagina 9
Scomposizione della devianza
( ) ( )2
i yyyDEV ∑ −=
( ) ( ) ( )yyyyyyyyyy iiiiiii −−−=−+−=−
( ) ( ) ( ) ( )( )∑ ∑ ∑∑ −−+−+−=− iii2
i2
i2
i yyyy2yyyyyy
( ) ( ) ( )∑ ∑ ∑ −+−=− 2i
2i
2i yyyyyy
SS(b1) SS(e)
devianza DOVUTA alla regressione
devianza RESIDUA
Ma la regressione può essere analizzata come un modello di analisi della varianza. L’analisi è concettualmente simile a quella dell’ANOVA ad un criterio di classificazione.
Pagina 10
Devianza dovuta alla regressione
( )( )[ ]( )
( )[ ]( )
( )
n
)x(x
n
yxxy
xDEVyx,COD
xx
yyxx)SS(b 2
2
2
2
2i
2
ii1 ∑∑
∑ ∑∑
∑∑
−
−
==−
−−=
Pagina 11
ANOVA applicata alla regressione
n-1SS(y)TOTALE
MS(e)n-2Per differenza
Residuo
MS(b1)1SS(b1)Regressione
MSg.l.SSFonte di variazione
Pagina 12
A differenza degli studi che riportano media e deviazione standard delle variabili di risposta, quelli che descrivono i dati come regressione sono difficilmente ricostruibili a partire dai risultati.
Utilizziamo quindi i risultati di un esempio di Armitage, che descrivono un gruppo di lavoratori dell’industria del cadmio, esposti da più di 10 anni.
Pagina 13
0
1
2
3
4
5
6
35 40 45 50 55 60 65 70
La rappresentazione grafica ci lascia intuire la possibilità di una relazione inversa tra le variabili.
Analizzare graficamente i risultati è una pratica utile, prima di procedere all’analisi, perché consente di individuare outliers (punti molto scostati dai rimanenti) ed influence points (punti che da soli influenzano la direzione della retta.
E’ corretto verificare l’esattezza di questi dati, ma non eliminarli per le loro caratteristiche.
Pagina 14
Pagina 15
Agli elementi di calcolo per le formula semplificate che abbiamo utilizzato per una singola varriabile, SOMMA(x) e SOMMA.Q(x) diviene necessaria la somma dei prodotti. E’ conveniente generare la colonna dei prodotti xy e calcolarne lasommatoria.
Pagina 16
( )( ) ( )
0.085912.2577.642
n
xx
n
yxyx
xDEVyx,COD
b 2
i2i
iiii
1
−=−=
=
−
−==
∑∑
∑ ∑∑
8.18312597
0.08512
47.39
xb-y b 1 0
=
⋅−−=
==
Pagina 17
0
1
2
3
4
5
6
35 40 45 50 55 60 65 70
La retta stimata è effettivamente indicativa di una relazione inversa. La rappresentazione della retta è effettuata correttamente solo entro i limiti di valori di x presenti nella regressione.
Pagina 18
( )[ ]( )
( )
6.608912.2577.6425][
n
)x(x
n
yxxy
xDEVyx,COD
)SS(b
2
22
1
=−=
=−
−
==∑∑
∑ ∑∑2
2
La devianza dovuta alla regressione si calcola a partire dagli stessi termini.
Pagina 19
ANOVA applicata alla regressione
n-111.739TOTALE
MS(e)n-2Per differenza
Residuo
MS(b1)16.608Regressione
MSg.l.SSFonte di variazione
Pagina 20
ANOVA applicata alla regressione
1111.739TOTALE
0.513 105.131Residuo
6.60816.608Regressione
MSg.l.SSFonte di variazione
Pagina 21
ANOVA applicata alla regressione
Il rapporto:
( )( )eMSbMS
F 1=
segue la distribuzione F con 1 ed (n-2) gradi di libertà
Pagina 22
ANOVA applicata alla regressione
F=12.871111.739TOTALE
0.513 105.131Residuo
6.60816.608Regressione
MSg.l.SSFonte di variazione
Il valore di F consente di rifiutare l’ipotesi nulla ad un livello di significatività di 0.0049
Pagina 23
Pagina 24
Intervallo di confidenza del coefficiente angolare
SS(x)MS(e)
sb1 =
L'errore standard del coefficiente angolare è:
b11 st b ⋅± α
Per cui il suo intervallo di confidenza è:
Pagina 25
0.1370.0320.02372.2280.085st b b11 −÷−=⋅±−=⋅± α
Pagina 26
Intervallo di confidenza della stima di y
−++⋅=SS(x)
)xxn1
12)-(n
SS(e)s
2i
yi
(
L'errore standard di è:
iyi st y ⋅± αˆ
Per cui il suo intervallo di confidenza è:
y
Pagina 27
Pagina 28
Coefficiente di determinazione
La quota di variazione della Y attribuibile alla associazione lineare con la x è valutata come:
( )( )ySSbSS 12 =r
Questo rapporto, riferito come coefficiente di determinazione, varia da 0 ad 1:- è 0 quando tra le variabili non c'è associazione lineare- è 1 quando tutta la variazione della y è determinata dalla relazione lineare con la x.
Pagina 29
Analisi della covarianza
• L’analisi della covarianza (ANCOVA) èadatta all’analisi di dati in cui la variabile oggetto di studio è influenzata da cause sistematiche, ed associata ad una covariata per la quale sia difficile formare gruppi omogenei
Pagina 30
Analisi della covarianza
x
y
x
y
y
x
y
x x
y
x
y
Pagina 31
L’esempio riporta i dati di lavoratori dell’industria del candmio, rispettivamente esposti da più di 10 anni, esposti da 10 anni, e non esposti.
Pagina 32
Abbiamo già visto come le misure di sintesi, somme, somme dei quadrati e somme dei prodotti, contengano tutta l’informazione che ci sarà necessaria.
Pagina 33
( )( ) ( ) 0.0195
9392.123183.623
n
xx
n
yxyx
xDEVyx,COD
b 2
i2i
iiii
com −=−==
−
−==
∑∑
∑ ∑∑
Il beta comune (cioè il coefficiente di regressione che tiene conto di tutti i dati,trascurando la loro divisione in gruppi) si calcola a partire dalle somme delle devianze e delle codevianze dei tre gruppi.
Pagina 34
gruppi entro residua
moparallelis
MS
MSF =
• Consente di rifiutare l’ipotesi di parallelismo tra i gruppi.
• Se il test non è significativo i dati non mostrano eterogeneità dovuta a mancato parallelismo, e si può rappresentare la relazione tra X e Y con il coefficiente di regressione comune
• Se non si rifiuta l’ipotesi di parallelismo, può essere condotta l’analisi della covarianza
Pagina 35
Un problema dell’analisi della covarianza è che alcuni software, anche piuttosto avanzati, quali STATA o SAS, non hanno un programma specifico per eseguirlo, ma richiedono l’uso di artifici di calcolo.
Nell’esempio STATA: l’assenza di interazione è indicativa di parallelismo.
Pagina 36
Il termine può quindi venire rimosso dall’analisi. Non risulta alcuna differenza tra i gruppi; le differenze sono tutte spiegate dall’età.
Pagina 37
4.484.523.77CV “aggiustata”
4.46±0.694.47±0.683.94±1.03CV
39.8±1237.8±9.249.8±9.1Età
Non esposti
Esposti < 10 anni
Esposti > 10 anni
Variabile
)xx(byy i1ci*i −−=
L’ANCOVA consente il calcolo delle medie “aggiustate”, cioè di quelle che sarebbero state le medie delle y se il valore delle x fosse stato uguale in tutti i gruppi, e pari al valore di x medio. Il cacolo è molto semplice, anche quando il software a disposizione non lo effettui (sono denominate anche LS means)
Pagina 38
Un uso improprio della correlazione
0
100
200
300
400
500
600
700
0 200 400 600 800
Strumento 1
Str
um
e nto
2
Viene spesso utilizzata in modo improprio la correlazione per definire la concordanza di due metodi o due strumenti di misura.
La correlazione significa la presenza di dipendenza tra le misure, ma è difficile immaginare che due misure della stessa unità sperimentale siano indipendenti!
Pagina 39
Una presentazione alternativa
-100
-80
-60
-40
-20
0
20
40
60
80
0 200 400 600 800
PEFR medio
Dif
fere
nza
tra
le d
ue m
isur
e
-100
-80
-60
-40
-20
0
20
40
60
80
0 200 400 600 800
PEFR medio
Dif
fere
nza
tra
le d
ue m
isur
e
Il metodo più utilizzato è il grafico di Brandt e Altman: se una delle due misure rappresenta uno standard consolidato, va in ascissa, altrimenti ci si mette la media delle due misure. In ordinata la corrispondente differenza tra le due misure. Non è associato un test inferenziale.
Pagina 40
Misure di concordanza per dati qualitativi
3004515240Totale
303000Severamente ridotta
3031215Mediamente ridotta
240123225Efficienza conservata
TotaleSeveramente ridotta
Mediamente ridotta
Efficienza conservata
OSSERVATORE A
OSSERVATORE B
Il problema della concordanza si pone anche per valutazioni di tipo qualitativo. Vediamo questo esempio immaginario. I numeri sono frequenze assolute.
Pagina 41
Misure di concordanza per dati qualitativi
3004515240Totale
3030Severamente ridotta
3012Mediamente ridotta
240225Efficienza conservata
TotaleSeveramente ridotta
Mediamente ridotta
Efficienza conservata
OSSERVATORE A
OSSERVATORE B
2673012225ff ii0 =++==∑ =
k
i 1Concordanza osservata:
Pagina 42
Misure di concordanza per dati qualitativi
3004515240Totale
3030 (4.5)Severamente ridotta
3012 (1.5)Mediamente ridotta
240225 (192)Efficienza conservata
TotaleSeveramente ridotta
Mediamente ridotta
Efficienza conservata
OSSERVATORE A
OSSERVATORE B
Concordanza dovuta al caso: 1984.51.5192fff .ii.e =++=⋅=∑ =
k
i 1
La concordanza dovuta al caso è stimata dal valore atteso (come al solito, totale di riga per totale di colonna divisio gran totale)
Pagina 43
Statistica k di Cohen
0.67610269
198300198267
f-Nff
=ke
eo ==−−=−
Concordanza completa: k=1
Eccellente concordanza: k>0.75
Scarsa concordanza: k<0.40
Pagina 44
Statistica k di Cohen
E’ distribuita come una deviata gaussiana standardizzata, quando N>100
se(k)k
Pagina 45
Statistica k di Cohen
0.0830600198
198)(300300198
)f(NNf
=se(k)e
e ==−⋅
=−⋅
ha distribuzione gaussiana
8.450.08
0.676se(k)
k ==