Download - Statistica descrittiva in due variabili
Statistica descrittiva in due variabili
Supponiamo di misurare su un campione statistico due diversevariabili X e Y. Indichiamo come al solito con
X = (x1, . . . ,xN) Y = (y1, . . . ,yN)
i valori osservati. In questo caso abbiamo due possibilità• Studiare le due variabili separatamente• Studiare se esistono dei legami tra le due variabili
Di fatto la cosa più importante, quando si misurano duecaratteri sullo stesso campione, è capire se le due variabilisono dipendenti, cioè se variazioni di una producono variazionidell’altra.
1 / 69
Tabella di contingenza
Per determinare se due variabili sono dipendenti o indipendentisi procede nel modo seguente.Si costruisce per primo una tabella a doppia entrata, o dicontingenza, che, per semplicità, descriveremo con unesempio.
2 / 69
Dati i vettori
X = (4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19,11,15,10,12,9,17,8,6,13)
Y = (27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10,6,30,8,24,8,20,28,26,29,30)
suddividiamo le ampiezze di X e Y in sotto intervalli, allo stessomodo con cui abbiamo operato per il calcolo delle frequenzeassolute.Nell’esempio X ha ampiezza 18 mentre quella di Y è 28.Possiamo quindi dividere l’ampiezza di X in due sotto intervallidi lunghezza 10 e quella di Y in tre di lunghezza 10.Si ottiene la seguente tabella
X ↓ Y→ J1 = [1,11) J2 = [11,21) J3 = [21,31)I1 = [1,11)
I2 = [11,21)
3 / 69
Tabella di contingenza
Adesso andiamo a riempire le caselle vuote della tabelle con lefrequenze osservate definite nel modo seguente
DefinizioneLa frequenza osservata nij rappresenta il numero di unitàstatistiche il cui valore della variabile X si trova nell’intervallo Ii
e simultaneamente il valore della variabile Y si trovanell’intervallo Jj.
Per calcolare le frequenze osservate conviene dare dei colori aisotto intervalli. Per esempio, usando il blu, il rosso ed il verde
X ↓ Y→ J1 = [1,11) J2 = [11,21) J3 = [21,31)I1 = [1,11)
I2 = [11,21)
4 / 69
Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.
X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10
17 32 2410 113 1518 74 1019 611 3015 810 2412 89 2017 288 266 2913 30
5 / 69
Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.
X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10
17 32 24
10 113 15
18 74 10
19 611 3015 810 2412 89 20
17 288 266 29
13 30
X ↓ Y→ [1,11) [11,21) [21,31)[1,11)[11,21)
6 / 69
Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.
X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10
17 32 24
10 113 15
18 74 10
19 611 3015 810 2412 89 20
17 288 266 29
13 30
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2[11,21)
7 / 69
Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.
X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10
17 32 24
10 113 15
18 74 10
19 611 3015 810 2412 89 20
17 288 266 29
13 30
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5[11,21)
8 / 69
Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.
X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10
17 32 24
10 113 15
18 74 10
19 611 3015 810 2412 89 20
17 288 266 29
13 30
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21)
9 / 69
Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.
X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10
17 32 24
10 113 15
18 74 10
19 611 3015 810 2412 89 20
17 288 266 29
13 30
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7
10 / 69
Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.
X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10
17 32 24
10 113 15
18 74 10
19 611 3015 810 2412 89 20
17 288 266 29
13 30
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7 3
11 / 69
Adesso disponiamo i valori dei vettori X e Y in verticale ecoloriamo le componenti con il colore dell’intervallo a cuiappartengono.
X Y4 2718 1310 2316 171 1910 261 239 211 259 2118 315 118 1412 10
17 32 24
10 113 15
18 74 10
19 611 3015 810 2412 89 20
17 288 266 29
13 30
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7 3 4
12 / 69
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9[11,21) 7 3 4
Questa rappresenta la tabella di contingenza e le entraterappresentano le frequenze osservate.Completiamo la tabella inserendo le distribuzioni marginali chesi ottengono sommando in verticale ed in orizzontale lefrequenze osservate.
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9 16[11,21) 7 3 4 14
9 8 13 30
Il numero in basso a destra, corrispondente alla somma dellefrequenze marginali, è pari al numero delle unità statistiche.
13 / 69
La tabella di contingenza permette di valutare come cambia ladistribuzione di una variabile (per esempio della Y)condizionata a particolari valori dell’altra (per esempio X).Nel nostro caso la distribuzione marginale orizzontale
9 8 13
dice come è distribuita la variabile Y nei tre sotto intervallisenza nessuna condizione della variabile X.Mentre la distribuzione
2 5 9
dice come è distribuita la variabile Y nei tre sotto intervallicondizionata ad avere la variabile X nell’intervallo [1,11)
14 / 69
Se le tre distribuzioni
2 5 9
7 3 4
9 8 13
sono equivalenti, allora la variabile Y non è condizionata dallavariabile X e quindi le variabili si dicono indipendenti.Ma cosa vuol dire equivalenti?Per confrontarle bisogna trasformarle in frequenze relativedividendole per i rispettivi totali di riga.Nel nostro caso si ha
2/16 5/16 9/16
7/14 3/14 4/14
9/30 8/30 13/30
che, trasformate in percentuale, diventano15 / 69
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 12.5% 31.25% 56.25[11,21) 50% 21.43% 28.57
30% 26.67% 43.33%
DefinizioneDue variabili sono indipendenti se le distribuzioni orizzontali,trasformate in percentuale, coincidono.
16 / 69
In generale, indicata con nij la frequenza osservatacorrispondente alla i-sima riga e alla j-sima colonna, la tabelladi contingenza diventa
X ↓ Y→ J1 J2 · · · Jc MarginaleI1 n11 n12 · · · n1c n1•I2 n21 n22 · · · n2c n2•... · · · · · · · · · · · ·
...Ir nr1 nr2 · · · nrc nr•
Marginale n•1 n•2 · · · n•c N
Con queste notazioni segue che due variabili sono indipendentise le distribuzioni
n11n1•
n12n1•· · · n1c
n1•... · · · · · ·
...nr1nr•
nr2nr•· · · nrc
nr•
sono uguali alla distribuzionen•1N
n•2N · · · n•c
N17 / 69
Considerando ciascuna componente si ottiene
nij
ni•=
n•jN
∀i, j
o, equivalentemente,
nij =ni• n•j
N∀i, j
DefinizioneI numeri
νij =ni• n•j
Nsono chiamati frequenze attese.
Quindi due variabili sono indipendenti se le frequenzeosservate coincidono con quelle attese.Ma noi stavamo cercando di capire quando due variabili sonoDIPENDENTI!
18 / 69
DefinizioneDiremo che due variabili sono dipendenti se le frequenzeosservate sono molto diverse da quelle attese.
ma cosa vuol dire molto diverse?
Per capire quanto sono diverse si può calcolare la distanzadelle frequenze osservate da quelle attese.
Tale distanza si può calcolare, tenendo conto del quadrato delledifferenze nij−νij, introducendo la quantità
χ2 =
r
∑i=1
c
∑j=1
(nij−νij)2
νij
19 / 69
Torniamo all’esempio
Frequenze osservate
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9 16[11,21) 7 3 4 14
9 8 13 30
Frequenze attese
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 9·16
308·1630
13·1630 16
[11,21) 9·1430
8·1430
13·1430 14
9 8 13 30
20 / 69
Torniamo all’esempio
Frequenze osservate
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 2 5 9 16[11,21) 7 3 4 14
9 8 13 30
Frequenze attese
X ↓ Y→ [1,11) [11,21) [21,31)[1,11) 4.8 4.3 6.9 16[11,21) 4.2 3.7 6.1 14
9 8 13 30
χ2 =
(2−4.8)2
4.8+
(5−4.3)2
4.3+
(9−6.9)2
6.9
+(7−4.2)2
4.2+
(3−3.7)2
3.7+
(4−6.1)2
6.1' 5.11
21 / 69
Utilizzo del χ2
Ovviamente χ2 = 0 se e solo se le variabili sonomatematicamente indipendenti.
Da un punto di vista qualitativo si può dire che:• per valori di χ2 grandi le variabili sono dipendenti• per valori di χ2 piccoli le variabili sono indipendenti
In statistica è stato elaborato un test per calcolare con chefiducia, noto il valore del χ2, si possa affermare che duevariabili siano dipendenti.
Questo test prende il nome di Test del χ2
22 / 69
Calcolo della fiducia
Per calcolare la fiducia si calcola per primo un numero,denotato con df , che misura i gradi di libertà, definito come
df = (r−1)(c−1)
Calcolati il χ2 ed il df si utilizza la seguente tabella.df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.832 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.823 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79
23 / 69
Il df individua una riga della tabella. Nella riga individuata sicerca il più grande numero minore del χ2. Partendo da questonumero si procede in verticale sino ad incontrare una casellanella prima riga della tabella. In questa tabella si troverà unvalore di α. Il valore di α rappresenta la sfiducia, cioè lapercentuale di errore che si commette nell’affermare che duevariabili sono dipendenti. Trasformando in percentuale si hache la fiducia è data da
F = 100(1−α)
24 / 69
Vediamo il nostro esempio
χ2 = 5.11 df = (2−1)(3−1) = 2
df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.832 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.823 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79
25 / 69
Vediamo il nostro esempio
χ2 = 5.11 df = (2−1)(3−1) = 2
df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79
26 / 69
Vediamo il nostro esempio
χ2 = 5.11 df = (2−1)(3−1) = 2
df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.0011 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82
3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.475 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.526 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.467 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.328 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.129 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.8810 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.5911 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.2612 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.9113 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.5314 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.1215 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.716 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.2517 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79
27 / 69
Quindi α = 0.1, da cui la fiducia risulta:
F = 100(1−α) = 100(1−0.1) = 100(0.9) = 90%
Possiamo affermare che le due variabili sono dipendenti conuna fiducia del 90%.
28 / 69
Il caso 2×2
Se la tabella di contingenza è 2×2, cioè del tipo
X ↓ Y→ J1 J2
I1 a b a+bI2 c d c+d
a+ c b+d N
si può calcolare il χ2 senza calcolare le frequenze attesetramite la formula
χ2 = N
(ad−bc)2
(a+b)(c+d)(a+ c)(b+d)
29 / 69
Uso del test del χ2
Di solito l’uso del test del χ2 è riservato allo studio di duevariabili qualitative rilevate su un campione statistico.
Esempio
In uno studio di immunologia, vengono studiate 111 cavie nelmodo seguente:• 57 di esse ricevono una dose di batteri patogeni seguiti da
un antisiero;• le restanti 54 ricevono solo i batteri ma non l’antisiero.
Dopo un tempo sufficiente per il periodo di incubazione e per ildecorso della malattia si contano 38 cavie morte di cui:
• 12 avevano ricevuto il siero• 26 solo i batteri
L’antisiero è efficace?
30 / 69
Per valutare l’efficacia costruiamo una tabella di contingenzaindicando con:
BA = cavia inoculata con batteri e antisieroB = cavia inoculata con solo batteriD = cavia decedutaS = cavia sopravissuta
Si ottiene la seguente tabella di contingenza:
D SBA 12 57B 26 54
38 111
D SBA 12 45 57B 26 28 54
38 73 111
Dalla formula per il calcolo del χ2 per una tabella 2×2 si ottiene
χ2 = 111
(12 ·28−45 ·26)2
57 ·54 ·38 ·73w 9.042
31 / 69
Dalla tabella del χ2
df α = 0.2 α = 0.15 α = 0.1 α = 0.05 α = 0.025 α = 0.01 α = 0.005 α = 0.001
1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.823 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.274 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47
si ottiene α = 0.005 da cui la fiducia
F = 100(1−0.005) = 99.5%
Possiamo quindi affermare che le due variabili sono dipendenticon una fiducia del 99.5. Questo significa che il l’antisiero èefficace.
32 / 69
Diagramma di dispersione
Supponiamo di misurare su un campione statistico due diversevariabili X e Y. Indichiamo come al solito con
X = (X1, . . . ,XN) Y = (Y1, . . . ,YN)
i valori osservati. Supponiamo inoltre di aver verificato che ledue variabili sono statisticamente dipendenti.Il problema naturale è capire quale tipo di dipendenzamatematica intercorre tra le due variabili. In altre parole ci sichiede se sia possibile determinare una funzione y = f (x) che,con una buona approssimazione, soddisfi:
Yi = f (Xi) i = 1, . . . ,N
Un primo tentativo è osservare il diagramma di dispersioneassociato alle variabili X e Y e costruito nel modo seguente.
33 / 69
Nuvole di punti
Si costruisce un nuovo vettore
P = X×Y = ((X1,Y1), . . . ,(XN ,XN)) = (P1, . . . ,PN)
In un sistema di riferimento cartesiano si traccia per ogniPi = (Xi,Yi) un punto di coordinate (Xi,Yi). Si ottiene in questomodo un diagramma di dispersione.Per esempio per i vettori
X = (4,18,10,16,1,10,0,9,11,9,18,15,8,12,17,2,10,3,18,4,19,11,15,10,12,9,17,8,6,13)
Y = (27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10,6,30,8,24,8,20,28,26,29,30)
si ottiene
34 / 69
2.5 5 7.5 10 12.5 15 17.5
5
10
15
20
25
30
35 / 69
Tipi di diagrammi di dispersione
5 10 15 20 25 30 35
10
20
30
40
36 / 69
Tipo retta y = x+3
5 10 15 20 25 30 35
10
20
30
40
37 / 69
Tipi di diagrammi di dispersione
5 10 15 20 25 30 35
200
400
600
800
1000
1200
38 / 69
Tipo parabola y = x2
5 10 15 20 25 30 35
200
400
600
800
1000
1200
39 / 69
Tipi di diagrammi di dispersione
5 10 15 20 25 30 35
0.2
0.4
0.6
0.8
1
40 / 69
Tipo iperbole y = 1x
5 10 15 20 25 30 35
0.2
0.4
0.6
0.8
1
41 / 69
Regressione lineare
La situazione più semplice è quando il diagramma didispersione segue l’andamento di una retta. I problemi darisolvere in questa situazione sono essenzialmente due• esiste un modo quantitativo per decidere quanto il
diagramma di dispersione sia sufficientemente vicino aduna retta?
• nel caso fosse sufficientemente vicino come calcolol’equazione della retta?
Per dare una risposta a questi quesiti dobbiamo introdurre unnuovo indice.
42 / 69
La covarianza
Siano X e Y due variabili indicate, come al solito, con
X = (X1, . . . ,XN) Y = (Y1, . . . ,YN)
DefinizioneSi chiama covarianza di X e Y il numero
Cov(X,Y) =1N
N
∑k=1
(Xk−X)(Yk−Y)
La covarianza misura come le due variabili covariano nel sensoseguente: se pensiamo ai singoli addendi della somma, cioè aitermini
(Xk−X)(Yk−Y)
questi saranno:• positivi se entrambi sono positivi o entrambi negativi• negativi se hanno segni opposti 43 / 69
quindi• se Cov(X,Y)> 0 vuol dire che mediamente ci sono più
termini positivi e questo implica che mediamente a valori diX maggiori della media corrispondono valori di Y maggioridella media e viceversa
• se Cov(X,Y)< 0 vuol dire che mediamente ci sono piùtermini negativi e questo implica che mediamente a valoridi X maggiori della media corrispondono valori di Y minoridella media e viceversa
44 / 69
Calcolo della covarianza
Calcoliamo la covarianza dei vettori
X = (8,3,4,1) Y = (2,9,6,3)
Le medie sonoX = 4 Y = 5
Adesso costruiamo la tabella
Xk−X Yk−Y
45 / 69
Calcolo della covarianza
Calcoliamo la covarianza dei vettori
X = (8,3,4,1) Y = (2,9,6,3)
Le medie sonoX = 4 Y = 5
Adesso costruiamo la tabella
Xk−X Yk−Y8−4 2−53−4 9−54−4 6−51−4 3−5
46 / 69
Calcolo della covarianza
Calcoliamo la covarianza dei vettori
X = (8,3,4,1) Y = (2,9,6,3)
Le medie sonoX = 4 Y = 5
Adesso costruiamo la tabella
Xk−X Yk−Y4 −3−1 40 1−3 −2
47 / 69
Calcolo della covarianza
Calcoliamo la covarianza dei vettori
X = (8,3,4,1) Y = (2,9,6,3)
Le medie sonoX = 4 Y = 5
Adesso costruiamo la tabella
Xk−X Yk−Y prodotto4 −3−1 40 1−3 −2
48 / 69
Calcolo della covarianza
Calcoliamo la covarianza dei vettori
X = (8,3,4,1) Y = (2,9,6,3)
Le medie sonoX = 4 Y = 5
Adesso costruiamo la tabella
Xk−X Yk−Y prodotto4 −3 −12−1 4 −40 1 0−3 −2 6
49 / 69
Calcolo della covarianza
Calcoliamo la covarianza dei vettori
X = (8,3,4,1) Y = (2,9,6,3)
Le medie sonoX = 4 Y = 5
Adesso costruiamo la tabella
Xk−X Yk−Y prodotto4 −3 −12−1 4 −40 1 0−3 −2 6
−10
Cov(X,Y) =−10
4=−2.5
50 / 69
Il coefficiente di correlazione lineare
A partire dalla covarianza si introduce un nuovo indicechiamato coefficiente di correlazione lineare è definito come
ρ(X,Y) =Cov(X,Y)
σX σY
Questo coefficiente indicherà, come vedremo più avanti, conche bontà una retta approssima il diagramma di dispersione diX e Y.
51 / 69
Retta di regressione lineare
In questa lezione andiamo a determinare uno strumentoqualitativo che ci permetta di individuare quanto due variabilidipendano da un legge di tipo lineare. Cioè del tipo
Y = mX+q
L’idea è di misurare quale errore si commette nel rappresentareil diagramma di dispersione di due variabili con una singolaretta.
52 / 69
Retta di regressione lineare
Nella figura
5 10 15 20 25 30 35
10
20
30
40
la retta verde non passa per tutti i punti, ma forse tra tutte lerette è quella che meglio rappresenta il diagramma didispersione.
• Come facciamo a determinare l’equazione della rettaverde in modo che sia la migliore possibile?
• Qual’è l’errore nel rappresentare il legame tra le duevariabili tramite l’equazione della retta verde?
53 / 69
Retta di regressione lineare sulla X
Dati i vettori
X = (X1,X2,X3,X4) Y = (Y1,Y2,Y3,Y4)
tracciamo assieme alla nuvola di punti una generica retta diequazione y = mx+q.
-1 1 2 3 4
1
2
3
4
5
y = mx+q
54 / 69
-1 1 2 3 4
1
2
3
4
5
}Pk = (Xk,Yk)
(Xk,mXk +q)
Per ogni punto Pk = (Xk,Yk) misuriamo la differenza tral’ordinata del punto Pk e l’ordinate del punto sulla retta diascissa Xk. In questo modo stiamo misurando l’errore che sicommette sulle ordinate a considerare il punto appartenentealla retta.
55 / 69
-1 1 2 3 4
1
2
3
4
5
}εk
Pk = (Xk,Yk)
(Xk,mXk +q)
Indicando con εk = Yk− (mXk +q) si ottiene un nuovo vettore
ε = (ε1, . . . ,εN).
Osservazioneεk > 0 se Pk si trova sopra la rettaεk < 0 se Pk si trova sotto la retta.
56 / 69
Gli erroriε = (ε1, . . . ,εN)
dipendono dalla scelta delle retta y = mx+q.Cerchiamo quindi delle condizioni sui coefficienti m e q in modoche gli errori siano il più possibile contenuti.Per fare questo utilizziamo i seguenti criteri:• la retta dovrebbe passare il più possibile al centro del
diagramma di dispersione, cioè per un punto che si trovasopra la retta dovrebbe esserci un altro punto che si trovasotto alla stessa distanza.
• il vettore degli errori dovrebbe essere il meno dispersopossibile.
I due criteri sono soddisfati se:1 la media di ε è zero;2 la deviazione standard di ε è la minore possibile.
57 / 69
La condizione ε = 0
CriterioLa media degli errori è zero se e solo se
Y−mX−q = 0 equivalentemente Y = mX+q
cioè il punto P = (X,Y) appartiene alla retta
58 / 69
La prima condizione ci permette di scrivere la retta cercatanella forma
y−Y = m(x−X)
Questo vuol dire che tutte le rette con media degli errori zeropassano per il punto del piano le cui coordinate sono le mediedi X e Y.
-1 1 2 3 4
-2
2
4
6
P = (X,Y)
59 / 69
La condizione σε minima
Per individuare univocamente la retta
y−Y = m(x−X)
dobbiamo determinare il coefficiente angolare m.
A questo scopo utilizziamo la seconda condizione, cioè quellache richiede che la deviazione standard σε degli errori sia laminore possibile.
Si trova
m =Cov(X,Y)
Var(X)
60 / 69
Retta di regressione lineare sulla X
In conclusione abbiamo ottenuto la seguente
Proposizione
Una retta soddisfa alle due condizioni• la media di ε è zero,• la deviazione standard di ε è la minore possibile,
se ha equazione
y−Y =Cov(X,Y)
Var(X)(x−X)
61 / 69
Retta di regressione lineare sulla Y
Torniamo alla definizione degli εk.
-1 1 2 3 4
1
2
3
4
5
}εk
Pk = (Xk,Yk)
(Xk,mXk +q)
Pensiamo adesso di definire gli εk tenendo conto degli erroriorizzontali, cioè
62 / 69
Retta di regressione lineare sulla Y
-1 1 2 3 4
1
2
3
4
5
εk
63 / 69
Retta di regressione lineare sulla Y
Con calcoli analoghi a quelli vista prima si ottiene la retta
y−Y =Var(Y)
Cov(X,Y)(x−X)
In conclusione si ottengono due rette di regressione lineare,una sulla X ed una sulla Y le cui equazioni sono:
rettasullaX y−Y = mX(x−X) mX = Cov(X,Y)Var(X)
rettasullaY y−Y = mY(x−X) mY = Var(Y)Cov(X,Y)
64 / 69
Rette di regressione lineare
Le due rette di regressione lineare rX e rY passano entrambeper lo stesso punto P = (X,Y) e formano un angolo α tra di loro.
-1 1 2 3 4
-2
2
4
6
P = (X,Y)
α rX
rY
65 / 69
Rette di regressione lineare
Possiamo distinguere i seguenti casi limite
• α w 0, in questo caso le due rette coincidono e la nuvola dipunti può essere ben rappresentata dall’unica retta diregressione lineare;
• α w π
2 , in questo caso le due rette sono ortogonali e lanuvola di punti non può essere rappresentata dalle rette diregressione lineare.
66 / 69
Rette di regressione lineare
2 4 6 8 10
2.5
5
7.5
10
12.5
15
17.5
2 4 6 8 10 12
2
4
6
8
10
α w 0 α grande
67 / 69
Analisi dell’angolo α
• se α w 0, le due rette coincidono e quindi mX w mY ;• se α w π
2 , in questo caso le due rette sono ortogonali ed inpiù quella sulla X diviene orizzontale (mX = 0) mentrequella sulla Y verticale (mY = ∞).
Possiamo quindi considerare la quantità
mX
mY
Dalle formule trovate prima si ha
mX
mY=
Cov(X,Y)Var(X)Var(Y)
Cov(X,Y)
=Cov(X,Y)2
Var(X)Var(Y)=
(Cov(X,Y)
σX σY
)2
= ρ2
68 / 69
Il coefficiente di correlazione lineare
Abbiamo quindi dimostrato che il coefficiente di correlazionelineare soddisfa mX
mY= ρ
2
da cui segue che• se ρ2 w 1, allora mX w mY ed in più
• se ρ w 1 la retta è crescente• se ρ w−1 la retta è decrescente
• se ρ2 w 0, le due rette sono quasi ortogonali.In termini di dipendenza lineare delle variabili X e Y si ha• se ρ2 w 1, le due variabili sono dipendenti da una legge
lineare• se ρ w 1 la nuvola di punti è crescente• se ρ w−1 la nuvola di punti è decrescente
• se ρ2 w 0, le due variabili non sono dipendenti da unalegge lineare.
69 / 69