tecniche statistiche di analisi del cambiamento · tecniche statistiche di analisi del cambiamento...

56
Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2018-19 G. Rossi (Dip. Psicologia) Tsac 2018-19 1 / 53

Upload: vandang

Post on 18-Feb-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Tecniche statistiche di analisi del cambiamento06-Ripasso: correlazione, regressione semplice

(v. 1.7, 18 ottobre 2018)

Germano Rossi1

[email protected]

1Dipartimento di Psicologia, Università di Milano-Bicocca

2018-19

G. Rossi (Dip. Psicologia) Tsac 2018-19 1 / 53

Page 2: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Correlazione

È un indice statistico che misura l’associazione (relazione) fra duevariabiliMisura come le due variabili si muovono assieme, ossia comeco-relano.Viene espresso come un valore che oscilla fra -1 e 1Per ora vedremo la correlazione lineare prodotto-momento diBravais-Pearson più conosciuta come correlazione di Pearson e acui ci si riferisce per antonomasia quando si parla di correlazioneè generalmente indicata con r

G. Rossi (Dip. Psicologia) Tsac 2018-19 2 / 53

Page 3: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Coefficiente di correlazione

Riassunto numerico della forza della relazione fra due variabiliPermette di sostituire un diagramma a dispersione con unsemplice indiceÈ costituito da due parti:

Un segno che indica la direzione della relazioneUn numero fra 0.00 e 1.00 che indica la forza della relazione

1.00 indica una relazione perfetta, esprimibile tramite una formulamatematica precisaCon valori r < 1 ma r > 0, la relazione sempre più sfumata0.00 indica la mancanza di qualunque relazione fra le due variabili

G. Rossi (Dip. Psicologia) Tsac 2018-19 3 / 53

Page 4: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Es. di correlazione positiva

●●

●●

●●

● ●●

●●

●●

● ●

● ●

●●

−2 −1 0 1 2

−2

−1

01

2

x

y

r = 0.91

2 4 6 8 10 12

46

810

1214

16

r= 0.92

X

Y

All’aumentare di X aumenta anche Y, ciascuna variabile a modo suo. Eviceversa. È una relazione lineare proporzionale.

G. Rossi (Dip. Psicologia) Tsac 2018-19 4 / 53

Page 5: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Es. di correlazione negativa

●●

●●

●● ●

●●

●●

●●●

● ●●●

●●

−2 −1 0 1 2

−2

−1

01

2

x

y

r = −0.91

8 10 12 14 16

46

810

12

r= −0.85

Z

W

All’aumentare di X diminuisce Y, ciascuna variabile a modo suo. Eviceversa. È una relazione lineare inversamente proporzionale.

G. Rossi (Dip. Psicologia) Tsac 2018-19 5 / 53

Page 6: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Es. correlazione nulla

●●

● ●

● ● ●

● ●

●●

● ●

●●

●●

●● ●

−2 −1 0 1 2

−2

−1

01

2

x

y

r = 0

2 4 6 8 10 12 14 16

46

810

1214

16

r= 0.07

X

Y

Non c’è alcun legame lineare fra X e Y. Ciascuna variaindipendentemente dall’altra (linearmente parlando).

G. Rossi (Dip. Psicologia) Tsac 2018-19 6 / 53

Page 7: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Correlazione e covarianza

Il coefficiente di correlazione è un indice che esprime la quantitàdi co-varianza dei datirispetto al grafico a dispersione, è un indice di quanto i dati sonodispersi attorno ad una ipotetica retta che venga sovrapposta algrafico

la covarianza è un indice che esprime la quantità di varianza chedue variabili anno in comunela formula deriva da quella della varianzala correlazione è la versione standardizzata della covarianza

G. Rossi (Dip. Psicologia) Tsac 2018-19 7 / 53

Page 8: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Esempio numerico

X Y Z W

a 1 5 13 7b 3 7 11 13c 5 9 9 9d 7 11 7 5e 9 13 5 11

M 5 9 9 9

s 2.828 2.828 2.828 2.828

La relazione fra X e Y è lineare crescente (Y = X + 4)La relazione fra X e Z è lineare decrescente (Z = −X + 14 ovveroZ = 14 − X )La relazione fra X e W non è riconducibile ad una regola lineare

G. Rossi (Dip. Psicologia) Tsac 2018-19 8 / 53

Page 9: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Esempio numerico

X Y Z W

a 1 5 13 7b 3 7 11 13c 5 9 9 9d 7 11 7 5e 9 13 5 11

M 5 9 9 9

s 2.828 2.828 2.828 2.828

La relazione fra X e Y è lineare crescente (Y = X + 4)La relazione fra X e Z è lineare decrescente (Z = −X + 14 ovveroZ = 14 − X )La relazione fra X e W non è riconducibile ad una regola lineare

G. Rossi (Dip. Psicologia) Tsac 2018-19 8 / 53

Page 10: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Esempio numerico

X Y Z W

a 1 5 13 7b 3 7 11 13c 5 9 9 9d 7 11 7 5e 9 13 5 11

M 5 9 9 9

s 2.828 2.828 2.828 2.828

La relazione fra X e Y è lineare crescente (Y = X + 4)La relazione fra X e Z è lineare decrescente (Z = −X + 14 ovveroZ = 14 − X )La relazione fra X e W non è riconducibile ad una regola lineare

G. Rossi (Dip. Psicologia) Tsac 2018-19 8 / 53

Page 11: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Esempio numerico

X Y Z W

a 1 5 13 7b 3 7 11 13c 5 9 9 9d 7 11 7 5e 9 13 5 11

M 5 9 9 9

s 2.828 2.828 2.828 2.828

La relazione fra X e Y è lineare crescente (Y = X + 4)La relazione fra X e Z è lineare decrescente (Z = −X + 14 ovveroZ = 14 − X )La relazione fra X e W non è riconducibile ad una regola lineare

G. Rossi (Dip. Psicologia) Tsac 2018-19 8 / 53

Page 12: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Grafico relativo

X con Z è unarelazione negativa(decrescente)X con W nonsembra averelegami (cioè,nessuna relazionelineare)X con Y è unarelazione positiva(crescente)

G. Rossi (Dip. Psicologia) Tsac 2018-19 9 / 53

Page 13: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Relazione varianza/covarianza

La varianza è:

var(X ) =

∑(X − X )2

N=

∑(X − X )(X − X )

N

La covarianza è:

cov(X ,Y ) =

∑(X − X )(Y − Y )

N

In entrambi i casi è la somma dei prodotti degli scarti dalla mediaNella varianza sono gli scarti della singola variabileNella covarianza sono gli scarti delle due variabili

G. Rossi (Dip. Psicologia) Tsac 2018-19 10 / 53

Page 14: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Standardizziamo

Standardizzando la co-varianza per entrambe le variabili

r =cov(X ,Y )

sxsy

otteniamo la correlazioneTrasformando i punteggi grezzi in punti z di entrambe le variabilimoltiplicando fra loro i punti z per ogni caso statisticoe facendo poi la media

r =

∑zxzy

Notteniamo la correlazione

G. Rossi (Dip. Psicologia) Tsac 2018-19 11 / 53

Page 15: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Formule della correlazione di Pearson

r =cov(X ,Y )√

var(X )var(Y )=

cov(X ,Y )

sxsy=

∑xy

N− X Y

sxsy

r =

∑zxzy

N

r =

∑XY −

∑X∑

YN√

(∑

X 2 − (∑

X )2

N)(∑

Y 2 − (∑

Y )2

N)

r =N∑

XY −∑

X∑

Y√[N

∑X 2 − (

∑X )2][N

∑Y 2 − (

∑Y )2]

G. Rossi (Dip. Psicologia) Tsac 2018-19 12 / 53

Page 16: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Matrice varianza/covarianza

Nel futuro lavoreremo molto con varianze e covarianze

Spesso in una formaparticolare: la tabellavarianze/covarianzeVarianze lungo ladiagonaleCovarianze fuoriPer una tabella dicorrelazioni, 1 lungo ladiagonaleCorrelazioni fuori dalladiagonale

VAR Authori Malleab World

Authori 38.694 16.891 16.733Malleab 16.891 37.106 10.137World 16.733 10.137 33.323

COR Authori Malleab World

Authori 1.000 0.446 0.466Malleab 0.446 1.000 0.288World 0.466 0.288 1.000

cov(X ,X )/√

s * s = 1

La correlazione di una variabile con se stessa è 1

G. Rossi (Dip. Psicologia) Tsac 2018-19 13 / 53

Page 17: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Interpretazione di r

L’interpretazione si applica al valore della correlazioneindipendentemente dal segnoLa regola generale è che più è grande, più la correlazione è forte,ma è comunque arbitrariaIn linea di massima

Valore di r Correlazione Relazione

0.00-0.20 Piccola Molto poco intensa, quasi inesistente0.20-0.40 Bassa Piccola, appena appena apprezzabile0.40-0.60 Regolare Considerevole0.60-0.80 Alta Intensa0.80-1.00 Molto alta Molto intensa

Il segno indica solo la relazione proporzionale (positiva) oinversamente proporzionale (negativa)

G. Rossi (Dip. Psicologia) Tsac 2018-19 14 / 53

Page 18: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Rappresentazione grafica di r

Possiamo rappresentare l’area di una varianza/covarianza comeun’area

due variabili NON correlate

due variabili correlate

L’area in comune rappresenta la varianza che le due variabilicondividono fra loroIn termini di contenuto è qualcosa che è misuratocontemporaneamente da entrambe le variabili

G. Rossi (Dip. Psicologia) Tsac 2018-19 15 / 53

Page 19: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Coefficiente di determinazione

La correlazione indica quanto sono associate le variabiliIl quadrato della correlazione indica esattamente quanta varianzahanno in comune le variabiliSe poi si moltiplica per 100 si ha la % di varianza comune

r r2 % r r2 %

r = .90 r2 = .81 81% r = .50 r2 = .25 25%r = .80 r2 = .64 64% r = .40 r2 = .16 16%r = .70 r2 = .49 49% r = .30 r2 = .09 9%r = .60 r2 = .36 36% r = .20 r2 = .04 4%

Ecco perché r=.20 è considerata “quasi inesistente”, indica chesolo il 4% della varianza è in comume

G. Rossi (Dip. Psicologia) Tsac 2018-19 16 / 53

Page 20: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Legame fra le variabili

È importante ricordare che se esiste una correlazione fra duevariabili (che calcoliamo con r), questo indice non ci dà nessunainformazione sui legami di causa-effetto.Le due variabili “si muovono assieme”. STOP!È possibile che esista una terza variabile che ha influenza suentrambe e che la correlazione che abbiamo calcolato sia dovutaa questa influenza

Y

X

Z

G. Rossi (Dip. Psicologia) Tsac 2018-19 17 / 53

Page 21: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

False correlazioni (o spurie)

Y

X È falsa una correlazione esistente che non ha senso logico mache può portare ad una interpretazione apparentemente“accettabile”

X è il numero di vigili del fuoco mandato a spegnere unincendio

Y è l’entità del danno prodotto dall’incendio

La loro correlazione vuol dire che più vigili del fuoco produconopiù danni?

Y

X

Z

Nel momento in cui si identifica unavariabile antecedente ad entrambe, lacorrelazione spuria acquista senso

Z è l’ampiezza dell’incendio

Più ampio l’incendio, più vigili del fuocovengono inviati a spegnerlo

più ampio l’incendio, più danni prodotti

G. Rossi (Dip. Psicologia) Tsac 2018-19 18 / 53

Page 22: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Inferenza sulla correlazione

Immaginate di aver raccolto un campione di 20 personedi aver misurato 2 variabilie di aver trovato un valore di .56

In termini assoluti è una buona correlazione ma. . .

Siamo sicuri che il valore di .56 con un campione di 20 personesia una buona stima della correlazione della popolazione?Potrebbe essere un campione “balordo” con una correlazioneeccessivamente alta (o bassa)

Usiamo la logica della distribuzione campionaria

G. Rossi (Dip. Psicologia) Tsac 2018-19 19 / 53

Page 23: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Distribuzione campionaria della correlazione

Da una popolazione statistica, estraiamo dei campioni diampiezza 20Su ogni campione misuriamo 2 variabili continue (sempre lestesse)e ipotizziamo che queste due variabili NON correlino fra loroCalcoliamo la correlazione per ciascuno dei campioni. . .Facciamo la rappresentazione grafica per vedere come:

i valori vicini a 0 sono i più frequentivalori (positivi e negativi) vicini a 0 sono leggermente menofrequenti di 0man mano i valori si allontanano da 0, meno frequenti diventano

In pratica i valori della distribuzione campionaria della correlazionesi distribuiscono approssimativamente come una normale.

G. Rossi (Dip. Psicologia) Tsac 2018-19 20 / 53

Page 24: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Distribuzione campionaria della correlazione

L’approssimazione alla normale è sempre migliore all’aumentaredell’ampiezza dei campioni (per N piccoli si può aggiustare ladistribuzione)Se la correlazione trovata nel nostro campione di partenza ècompresa nel 95% attorno alla media di 0, allora la nostracorrelazione sarà non significativa ovvero casualmente estrattada una popolazione con correlazione 0Se la correlazione trovata sarà compresa nel 5% delle due codedella normale, allora sarà considerata significativa, cioè un valorepoco probabile da ottenere casualmente.

G. Rossi (Dip. Psicologia) Tsac 2018-19 21 / 53

Page 25: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Dimostrazione (o verifica) dell’ipotesi

Quello che abbiamo fatto può essere considerato una dimostrazione diun’ipotesi

1 Abbiamo ipotizzato che nella popolazione da cui abbiamo estrattoil campione, la correlazione fra le due variabili sia 0

2 Abbiamo costruito una distribuzione campionaria dellacorrelazione

3 E abbiamo confrontato la correlazione calcolata con ladistribuzione delle correlazioni

4 Se la probabilità associata alla nostra correlazione è ≤ 2.5%allora riteniamo che sia improbabile che il nostro campione siastato estratto da quella popolazione (che ha r=0)

5 In tal caso, concludiamo che il campione viene da unapopolazione diversa

G. Rossi (Dip. Psicologia) Tsac 2018-19 22 / 53

Page 26: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Correlazione lineare. . .

Se i dati non sono “lineari” la correlazione non è “buona”; la relazione potrebbe nonessere affatto lineare. Per questo l’inferenza sulla correlazione verifica che sia estrattada una popolazione con correlazione nulla, cioè H0 : 𝜌 = 0 (rho)

0 2 4 6 8 10 12

02

46

810

1214

r= 0.58

Var 1

Var

2

● ●

0 2 4 6 8 10 12 14

01

23

45

6

r= 0

Var 1

Var

2

G. Rossi (Dip. Psicologia) Tsac 2018-19 23 / 53

Page 27: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Inferenza

Ipotizziamo di usare i dati qua sotto comepopolazione e di estrarre due campioni

0 100 200 300 400 500

010

020

030

040

0

r= 0.07

Var 1

Var

2

Nel primo caso, la relazione non è linearema il campione che abbiamo estratto(quadrati) ce lo fa credere: r=.95

Nel secondo (cerchi) è il contrario: r=-.08

G. Rossi (Dip. Psicologia) Tsac 2018-19 24 / 53

Page 28: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Inferenza

Nell’inferenza per la correlazione,H0 è sempre uguale (H0 : 𝜌 = 0),mentre le ipotesi alternativepotrebbero essere:

H1 : 𝜌 = 0H1 : 𝜌 > 0H1 : 𝜌 < 0

con gl = N − 2

In pratica ci chiediamo se il valore da noi trovato viene da una popolazionecon correlazione nulla. Se accettiamo H0, sì e quindi la correlazionetrovata (qualunque sia il suo valore) non deve neppure essere presa inconsiderazione (non va interpretata).

G. Rossi (Dip. Psicologia) Tsac 2018-19 25 / 53

Page 29: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Inferenza

La tavola dei valori critici riporta i valori (per i gradi di libertà, per diversi 𝛼 eper le due ipotesi, mono e bi-direzionali) sotto i quali accettare l’ipotesi nulla.

Tavole statistiche 475

Tabella CValori critici del coefficiente r di Pearsonr

Livello di significatività per il test a una coda

Livello di significatività per il test a due code0,10 0,05 0,02 0,01

1 0,988 0,997 0,9995 0,99992 0,900 0,950 0,980 0,9903 0,805 0,878 0,934 0,9594 0,729 0,811 0,882 0,9175 0,669 0,754 0,833 0,874

6 0,622 0,707 0,789 0,8347 0,582 0,666 0,750 0,7988 0,549 0,632 0,716 0,7659 0,521 0,602 0,685 0,735

10 0,497 0,576 0,658 0,708

11 0,476 0,553 0,634 0,68412 0,458 0,532 0,612 0,66113 0,441 0,514 0,592 0,64114 0,426 0,497 0,574 0,62315 0,412 0,482 0,558 0,606

16 0,400 0,468 0,542 0,59017 0,389 0,456 0,528 0,57518 0,378 0,444 0,516 0,56119 0,369 0,433 0,503 0,54920 0,360 0,423 0,492 0,537

21 0,352 0,413 0,482 0,52622 0,344 0,404 0,472 0,51523 0,337 0,396 0,462 0,50524 0,330 0,388 0,453 0,49625 0,323 0,381 0,445 0,487

26 0,317 0,374 0,437 0,47927 0,311 0,367 0,430 0,47128 0,306 0,361 0,423 0,46329 0,301 0,355 0,416 0,45630 0,296 0,349 0,409 0,449

35 0,275 0,325 0,381 0,41840 0,257 0,304 0,358 0,39345 0,243 0,288 0,338 0,37250 0,231 0,273 0,322 0,35460 0,211 0,250 0,295 0,325

70 0,195 0,232 0,274 0,30280 0,183 0,217 0,256 0,28390 0,173 0,205 0,242 0,267

100 0,164 0,195 0,230 0,254

df(= N - 2; 0,05 0,025 0,01 0,005

N = numerodi coppiedi dati)

AppeA.qxd 22-07-2009 11:12 Pagina 475

N = 7 𝛼 = .05(bi) rt = .65 ⇒ H0 rt = .79 ⇒ H1

G. Rossi (Dip. Psicologia) Tsac 2018-19 26 / 53

Page 30: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Correlazione di Spearman

Si usa convariabili ordinali (con più valori)variabili intervallo discrete con N piccolovariabili che tendono ad essere leggermente curvilineevariabili con andamento “non normale” o molto asimmetrico (ades. campioni patologici)

I valori vengono trasformati in ranghi sulla base della loroposizionesui ranghi, si applica Pearsonoppure

rs = 1 − 6∑

d2

n(n2 − 1)

G. Rossi (Dip. Psicologia) Tsac 2018-19 27 / 53

Page 31: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Trasformazione in ranghi

Esempio: X è ordinale; Y può essere a intervallo/rapporto

X Y

A 3B 3A 1D 2C 3B 2

valori A A B B C Dpos. 1 2 3 4 5 6rango 1.5 1.5 3.5 3.5 5 6

valori 1 2 2 3 3 3pos. 1 2 3 4 5 6rango 1 2.5 2.5 5 5 5

A valore uguali deve essere assegnato lo stessorango, quindi ai due valori A viene assegnato lamedia dei due ranghi (1 + 2)/2 = 1.5

G. Rossi (Dip. Psicologia) Tsac 2018-19 28 / 53

Page 32: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Correlazione di Spearman

Ordinare i valoriIndicare laposizioneAssegnare iranghiLa somma deiranghi devecoincidere

X rango Y rangoX Y d d2

A 1.5 3 5 -4 12B 3.5 3 5 -2 2,3A 1.5 1 1 0,5 0,3D 5 2 2.5 2,5 6,3C 6 3 5 1 1B 3.5 2 2.5 1 1∑

21 21 23

G. Rossi (Dip. Psicologia) Tsac 2018-19 29 / 53

Page 33: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Correlazione in SPSS

Analizza |Correlazione |Bivariata

Dal riquadro“Coefficienti dicorrelazione”scegliere Pearson oSpearman

G. Rossi (Dip. Psicologia) Tsac 2018-19 30 / 53

Page 34: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Correlazione in SPSS

Il riquadro “Test disignificatività” permettedi scegliere l’opzionebidirezionalee (“A duecode”, preferibile) omonodirezionale (“A unacoda”)

Il riquadro “Evidenziacorrelazioni significative”permette di aggiungeredegli asterischi disignificatività

G. Rossi (Dip. Psicologia) Tsac 2018-19 31 / 53

Page 35: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Correlazione in SPSS

Opzioni permette discegliere le opzioni“Esclusioni a coppie”(pairwise) o“Esclusione listwise”per i valori mancantiLo stesso bottonepermette di chiedere lestatistiche descrittive(media e dev.st.) e lamatrice dellecovarianze

G. Rossi (Dip. Psicologia) Tsac 2018-19 32 / 53

Page 36: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Matrice correlazioni completa

Ogni cella contiene: il coefficiente di correlazione, la probabilità ela numerosità

G. Rossi (Dip. Psicologia) Tsac 2018-19 33 / 53

Page 37: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Matrice correlazioni compatta

G. Rossi (Dip. Psicologia) Tsac 2018-19 34 / 53

Page 38: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Correlazione e causalità

La correlazione fra due variabili (X e Y) non implica causalitàVi sono diverse possibili spiegazioni

X causa Y [regr. semplice]Y causa X [regr. semplice]X e Y sono causati da Z (analisi fatt.)X e Y sono causati da Z1, Z2, Z3... Zn (equaz. strutturale)

X Y

Y XY

X

Z

G. Rossi (Dip. Psicologia) Tsac 2018-19 35 / 53

Page 39: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Cos’è la regressione semplice

A B C D E F G H

Test 12 10 14 9 9 13 11 8Voto 8 7 8 5 6 9 7 5

regressione lineare semplice:ipotizziamo che la correlazionesia invece X che influenza Y

Quale variabile sia ladipendente (Y) e qualel’indipendente (X), è unascelta teorica (ipotizzo che iltest di metà anno spieghi ilvoto finale)Il Test di metà anno puòspiegare il Voto finale) tramitel’equazione di una retta?

G. Rossi (Dip. Psicologia) Tsac 2018-19 36 / 53

Page 40: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Grafico retta

La formula dellaretta è

Yi = a + bXi

oppure

Yi = b0 + b1Xi

dove X e Y sonole variabilimisurate

b o b1 è la pendenza della rettaa o b0 è l’intercetta sull’asse delle ordinate

G. Rossi (Dip. Psicologia) Tsac 2018-19 37 / 53

Page 41: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Equazione

In teoria, la formula della retta che interpola meglio è:

Yi = a + bXi

ma sarebbe vero se i dati fossero perfettamente posizionati sullaretta, mentre invece non lo sono affattoper cui consideriamo i risultati della retta come una stima di dovecadrebbero i punti reali se fosse vera l’equazione della retta

Yi = a + bXi

Per ottenere i veri valori osservati, bisogna aggiungere unavariabile che corregga la rettaquesta è l’equazione esatta, perché considera anche l’errore chepermette di aggiustare i dati:

Yi = a + bXi + ei

G. Rossi (Dip. Psicologia) Tsac 2018-19 38 / 53

Page 42: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Riepilogo

G. Rossi (Dip. Psicologia) Tsac 2018-19 39 / 53

Page 43: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Grafico fra x e y’ (stime basate sulla retta migliore)

Se stimo i valori y usando la rettai punti cadono esattamente sullarettaFra tutte le possibili rette,selezioniamo la migliore, ovveroquella che è alla minor distanzapossibile da tutti i punti osservatiovvero, in cui la somma deglierrori è la minima possibile

Obiettivo: minimizzare∑

ei

ei = Yi − Yi = Yi − bXi + a

Bisogna che questi errori siano i più piccoli possibili e quindiusiamo il “metodo dei minimi quadrati”

G. Rossi (Dip. Psicologia) Tsac 2018-19 40 / 53

Page 44: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Formule algebriche

Inclinazione, pendenza, coefficiente angolare:

b =

∑(Xi − X )(Yi − Y )∑

(Xi − X )2=

cov(X,Y)

var(X)=

sxy

s2x

= rsy

sx

=N∑

XiYi −∑

Xi∑

Yi

N∑

X 2i − (

∑Xi)2

Intercetta o costante:

a = Y − b X =

∑Y

N− b

∑X

N

è il valore assunto da Y quando X è 0

G. Rossi (Dip. Psicologia) Tsac 2018-19 41 / 53

Page 45: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Confronto delle pendenze

Il coefficiente angolare dipende dal modo in cui è espressa lavariabile Xnon si può dire se sia piccolo o grande se non conoscendo lagamma (differenza fra massimo e minimo) di Xoppure facendo una rappresentazione grafica

grande piccola

G. Rossi (Dip. Psicologia) Tsac 2018-19 42 / 53

Page 46: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Con dati standardizzati

Se usiamo X e Y trasformati inpunti z, la formula della rettacambia in

zy = rzx

perché tutti dati sono espressicon media 0 e dev.st 1, quindi

b = rsy

sx

diventab* = r

b* è la pendenzastandardizzatal’intercetta è 0 perchéa = Y − bX e le medie sono 0Ne consegue che:

In una regressione linearesemplicela pendenza standardizzatacoincide con la correlazionefra le due variabili

G. Rossi (Dip. Psicologia) Tsac 2018-19 43 / 53

Page 47: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

I residui e le loro sommatorie

Senza interferenzeesterne,Yi = E(Y ) = Y

Y − Y può esserediviso in due partiL’introduzione di X,giustifica la parte

Y − Y

Y − Y non abbiamo idea di cosa lo produca

Possiamo dire che Y − Y è divisibile in una parte spiegata da X

Y − Y e in una parte non spiegata (il residuo) Y − Y

G. Rossi (Dip. Psicologia) Tsac 2018-19 44 / 53

Page 48: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Residui e varianze

Dal momento che la somma al quadrato degli scarti dalla mediacorrisponde alla varianza... possiamo trasformare la relazione

Y − Y = ( Y − Y ) + ( Y − Y )

in ∑( Y − Y )2 =

∑( Y − Y )2 +

∑( Y − Y )2

totale non spiegata spiegata

facendo il rapporto fra la varianza spiegata e quella totale, lapossiamo esprimere come proporzione di varianza spiegata

r2 = (r)2 =

∑(Y − Y )2∑(Y − Y )2

=

∑(Y − Y )2 −

∑(Y − Y )2∑

(Y − Y )2

G. Rossi (Dip. Psicologia) Tsac 2018-19 45 / 53

Page 49: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Proporzione di varianza spiegata

La proporzione di varianza spiegata è anche chiamata“Coefficiente di determinazione”, “r quadro” oppure “varianzacomune”La parte complementare è chiamata “Coefficiente diindeterminazione” o “di alienazione” (1 − r2)

Proporzione di varianza comune a due variabiliL’R2 ci dice quanta parte della varianza di Y è “spiegata” da X.

G. Rossi (Dip. Psicologia) Tsac 2018-19 46 / 53

Page 50: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Errore standard delle stime

Varianza degli errori previsti∑( Y − Y )2

N − 2

e la relativa deviazione standard

sy .x =

√∑(Y − Y )2

N − 2= sy

√1 − r2

Ne consegue che se r = 1, va a 0 (nessun errore)se r = 0, va a sy (massimo errore)

G. Rossi (Dip. Psicologia) Tsac 2018-19 47 / 53

Page 51: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Errore standard delle stime

A cosa serve l’errore standard delle stime?

Essendo una deviazione standard, e presumendo che X e Y sianodistribuite normalmente, possiamo stimare che il 95% dei valori Ystimati a partire da un certo valore X sarà compreso fra:

Y − 1.96sy .x e Y + 1.96sy .x

dove 1.96 è il punto |z| corrispondente all’area 95% attorno allamedia

G. Rossi (Dip. Psicologia) Tsac 2018-19 48 / 53

Page 52: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Test di significatività

Sui parametri della regressione semplice vengono calcolati dei test disignificatività.

Un test globale (l’intero modello)Anova globale (quasi sempre significativa)

Un test per ogni parametro (intercetta, pendenza)viene calcolato un t-testse il t è significativo il parametro è statisticamente necessario perspiegare la dipendente

Viene calcolata anche la percentuale spiegata. Maggiore la %,migliore è il modello (ovvero l’ipotesi che X spieghi Y).

G. Rossi (Dip. Psicologia) Tsac 2018-19 49 / 53

Page 53: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

In SPSS

Analizza | Regressione | Lineare...

La Y va inDipendente(la variabileche voletespiegare)

La X va in Indipendenti (la variabile che volete usare perspiegare)Date l’OK

G. Rossi (Dip. Psicologia) Tsac 2018-19 50 / 53

Page 54: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

In SPSS

Nell’esempio, Yè Fundament,X è Politica

la pendenza e l’intercetta (chiamata (Costante)) sono presentaticome non standardizzati e standardizzati.360 è anche la correlazione fra le variabilil’intercetta è 0 (se standardizzata)test statistici: sia la costante sia Politica sono fondamentaliper spiegare Y tramite X

G. Rossi (Dip. Psicologia) Tsac 2018-19 51 / 53

Page 55: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

In SPSS

Un’altro risultatoriportato è l’R2

(R-quadrato)che è il quadratodellacorrelazionee le statistichesui residui (chevedremo meglionella multipla)

G. Rossi (Dip. Psicologia) Tsac 2018-19 52 / 53

Page 56: Tecniche statistiche di analisi del cambiamento · Tecniche statistiche di analisi del cambiamento 06-Ripasso: correlazione, regressione semplice (v. 1.7, 18 ottobre 2018) ... di

Riassunto terminologico

Regressione lineare semplice = regressione bivariata = predizionebivariataX = variabile indipendente, variabile predittivaY = variabile dipendente, variabile predetta, variabile criterioY ′, Y = valore stimato, valore previstoa, b0 = intercetta, costanteb, b1 = coeff. angolare, coeff. di regressione, pendenza,parametro di regressione𝛽, b* = coeff. angolare standardizzato, coeff. standardizzator = correlazione fra X e Y (anche 𝛽 nella semplice)R2 = quadrato di r, varianza di Y spiegata da X

G. Rossi (Dip. Psicologia) Tsac 2018-19 53 / 53