statistica ii partescienzepolitiche.unical.it/bacheca/archivio/materiale...03/03/2012 1 1...
TRANSCRIPT
-
03/03/2012
1
1
Università della Calabria
Corso di statisticaCorso di statistica
RENDE RENDE a.aa.a 20112011--20122012
Campus di Arcavacata
IL CONCETTO DI MEDIA
I) Criterio di internalità (Chisini)
La media di una variabile X è qualunque valore reale Mintermedio tra il minimo x(1) ed il massimo x(n) di unadistribuzione. ( ) ( )1 nx M x≤ ≤
II) Logica della trasferibilità di una variabile (Chisini)
La media di una variabile X è quel valore M, intermediotra il minimo x(1) ed il massimo x(n) di una distribuzioneche, rispetto ad una funzione sintetica delle osservazioni,ne lascia inalterato il valore.
( ) ( )1
, , , ,nn v o l t e
f x x f M M=K K1 44 2 4 43
Il valore della funzione f(•) non cambia se si sostituisce ad ogni intensità di X il valore M.
-
03/03/2012
2
III) Minimizzazione della perdita globale (Wald)
La media di una variabile X è quel valore M che minimizzala funzione di perdita complessiva che si ottiene quando allesingole osservazioni (x1,………,xn) si sostituisce M.
( )( ), m i n s e id x Mθ θ= =l( ),id x θ = Perdita subita nel sottrarre ���� da xi, per i=1,2,……..,n( )⋅ =l Funzione che sintetizza le singole perdite in un unico valore
( ) ( ) ( ) ( ) ( ) ( )
( ) ( )
1 2
1
n
n
ii
x x x M M M
x n M=
+ + + = + + +
= ⋅∑
l l K l l l K l
c
l l
IV) Principio della equiripartizione (Naguno-Kolmogorov-De Finetti)
La media di una variabile X è quel valore M che realizzal’equiripartizione rispetto ad una funzione( )⋅l
LA MEDIA ARITMETICALa sua individuazione deriva dalla logica della trasferibilità di una variabile (Chisini).
( ) ( )1
, , , ,nn v o l t e
f x x f µ µ=K K1 4 2 4 3
Se la funzione f(•) corrisponde alla somma:
1 2
n
n v o l t e
x x x µ µ µ+ + + = + + +K K1 44 2 4 43
1 1 2
1
=
n
ini n
i Xi
xx x x
x nn n
µ µ ==
+ + += ⇒ =∑
∑K
-
03/03/2012
3
Media aritmetica: modalità di calcolo
Distribuzione di frequenze
Successione di n intensità1 =
n
ii
X
x
nµ =
∑
1=
k
i ii
X
x n
nµ =
⋅∑1
=k
X i ii
x fµ=
⋅∑Frequenze assolute Frequenze relative
1
ˆ
=
k
i ii
X
x n
nµ =
⋅∑Distribuzioni in classi
1ˆ p e r 1 , 2 , ,2
i ii
x xx i n−
+= = K
Valore centrale dell’i-esima classe
Il calcolo dei valori centrali introduce un’approssimazione perchéequivale ad attribuire una ripartizione uniforme delle frequenzeall’interno di ciascuna classe.
Carattere NUMERO DI BOTTIGLIE
1 1 1 2 2 2 2 33 3 4 4 4 4 4 55 5 5 5 5 5 5 5 5 5 6 6 6 6
n
ii 1
x1 1 6 1 1 9
3 9 7n 3 0 3 0
,=+ + +
µ = = = =∑ L
( ) ( )
( ) ( )
n
i i ni 1
i ii 1
x n
x fn
1 0 1 0 2 0 1 3
3 0 1 0 6 0 1 3 3 9 7
, ,
, , ,
=
=µ = = =
= × + × +
+ × + + × =
∑∑
L
N. bottiglie ni fi1 3 0,10
2 4 0,13
3 3 0,10
4 5 0,17
5 11 0,37
6 4 0,13
Totale 30 1
-
03/03/2012
4
Carattere PREZZO CH, classi equiampie (primi 20 consumatori)
Classe ci ni fi
1,69 |—| 1,77 1,73 3 0,15
1,77 —| 1,85 1,81 0 0
1,85 —| 1,93 1,89 3 0,15
1,93 —| 2,01 1,97 5 0,25
2,01 —| 2,09 2,05 9 0,45
Totale 20 1
( ) ( ) ( )
k
i ii 1
c n
n
1 7 3 3 1 8 1 0 2 0 5 9
2 0
1 9 5 8
, , ,
,
=µ = =
× + × + + ×= =
=
∑
L
0 11
x x 1 6 9 1 7 7c 1 7 3
2 2
, ,,
+ += = =
1 22
x x 1 7 7 1 8 5c 1 8 1
2 2
, ,,
+ += = =
k 1 kk
x xc
2
− +=
i 1 ii
x xc
2
− +=
Proprietà della media aritmeticaI) Internalità ( ) ( )1 X nx xµ≤ ≤
Dim: ( ) ( ) ( )1 p e r 1 , ,i nx x x i n≤ ≤ = K
( ) ( ) ( )11 1 1
n n n
i ni i i
x x x= = =
≤ ≤∑ ∑ ∑
( ) ( ) ( )11
n
i ni
n x x n x=
⋅ ≤ ≤ ⋅∑
( )
( )
( ) ( ) ( )1
1 1
n
ii
Xn n
x
x x x xn
µ=≤ ≤ ⇔ ≤ ≤∑
II) Proprietà Baricentrica ( )1
0n
i Xi
x µ=
− =∑
Dim: ( )
1 1 1 1
1 1 1 1
0
n n n n
i X i X i Xi i i i
n n n n
i i i ii i i i
x x x n
x n x n x x
µ µ µ= = = =
= = = =
− = − = − =
= − = − =
∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
-
03/03/2012
5
III) Linearità
{ } { }1 1 1, , , ,n n nx x y x y xα β α β→ = ± = ±K K
t r a s f o r m a z i o n e l i n e a r eY X
X Yα β= ± →
( )
( )
1 1 1
1
1 1 1
1 1 =
n n n
Y i ii i i
n
i Xi
x xn n n
n xn n
µ α β α β
α β α β µ
= = =
=
= ± = ± =
± = ±
∑ ∑ ∑
∑
Y Xµ α β µ= ±
Corollari:
{ } { }1 1 1, , , ,n n nx x y x y xβ β→ = ± = ±K K
Y Xµ β µ= ±
{ } { }1 1 1, , , ,n n nx x y x y xα α→ = ± = ±K K
Y Xµ α µ= ±a)
b)
( ),α β ∈ ℜDim:
Scelta Prezzo MM
MM 1,99
MM 1,99
MM 1,99
MM 2,09
MM 2,09
MM 2,09
MM 2,09
MM 2,09
MM 2,13
Per i soli succhi di frutta MM considerare il carattere PREZZO MM. La casa produttrice decide di cambiare il prezzo di vendita del prodotto: per ogni acquirente il nuovo prezzo sarà pari al prezzo di vendita mediano attuale più il 18.75% del prezzo attuale. Qual è la media dei nuovi prezzi di vendita?
9 1 5
2
M e x x 2 0 9,+= = =
La nuova serie dei prezzi p* sarà dunque ottenuta dalla trasformazione lineare:
p* = 2,09 + 0,1875 p
0629
5518
9
p9
1ii
,, ===µ
∑=
2 0 9 0 1 8 7 5 2 0 9 0 1 8 7 5 2 0 6 2 4 7* , , , , , ,µ = + ⋅ µ = + ⋅ =
* * *1 2 3p = p = p = 2 , 0 9 + 0 , 1 8 7 5 1 , 9 9 = 2 , 4 6×
*9p = 2 , 0 9 + 0 , 1 8 7 5 2 , 1 3 = 2 , 4 9×
* *4 8p = = p = 2 , 0 9 + 0 , 1 8 7 5 2 , 0 9 = 2 , 4 8×L
9
ii 1
1 2 4 6 2 4 6 2 4 9p 2 4 7
9 9
* * , , , ,=
+ + +µ = = =∑
L
-
03/03/2012
6
IV) Associatività1
1
=
= ∑G
X j jj
nn
µ µ
G = numero di gruppi
nj = numerosità del j-esimo gruppo (j=1,….,G)
( )1 2
1 , ,=
+ + + + + =K
K K1 4 4 4 44 2 4 4 4 4 43
j
j G
s u d d i v i s i o n e d e l l e i n t e n s i t à i n G g r u p p i d i n u m e r o s i t à n j G
n n n n n
1 1 1= = =
=∑ ∑ ∑1 4 4 2 4 4 3
jnn G
i i ji j i
s o m m a d e l l e i n t e n s i t à
x x
1
1 11 1 1 1
1 1 1; ; ; ;
= = =
= = =∑ ∑ ∑K K1 4 4 4 4 4 4 4 4 442 4 4 4 4 4 4 4 4 443
j Gn nn
i j i j G G ij Gi i i
m e d i e d e i g r u p p i
x x xn n n
µ µ µ
1 1 1
1 1 1
1 1
1 1 1
= = =
= = =
= =
= =
∑ ∑ ∑
∑ ∑ ∑
j
j
nn G
X i i ji j i
nG G
i j j j jjj i j
x xn n
x n nn n n
µ
µ
xij = j-esima intensità dell’i-esimo gruppo
Scomposizione della media generale
Media aritmetica delle medie dei
gruppi
Dim:
nj Rivenditoren.bottiglie
bis
Bar 6
Bar 6
Bar 5
Bar 5
Bar 6
Bar 3
Bar 5
Bar 4
9 Bar 5
Coloniali 3
Coloniali 6
Coloniali 4
Coloniali 5
Coloniali 3
Coloniali 4
Coloniali 5
Coloniali 2
9 Coloniali 4
D. Automatico 2
D. Automatico 5
D. Automatico 3
4 D. Automatico 6
S.market 4
S.market 6
S.market 5
S.market 2
S.market 3
S.market 6
S.market 5
8 S.market 1
30 129
3 0
ii 1
x=∑
45
36
16
32
b a r b a rb a rb a r
1x
nµ = ∑
c o l c o lc o lc o l
1x
nµ = ∑
d a d ad ad a
1x
nµ = ∑
s m s ms ms m
1x
nµ = ∑
( ) ( ) ( ) ( )b a r c o l d a s m9 9 4 83 0
µ × + µ × + µ × + µ ×µ =
ii
1 1 2 9x 4 3
n 3 0,µ = = =∑
-
03/03/2012
7
Gruppi/modalitàG
njj = 1, …, G
Bar 9 45
Coloniali 9 36
D. Automatico 4 16
Supermarket 8 32
Totali 30 129
jn
ii 1
x=∑
( ) ( ) ( ) ( )b a r b a r c o l c o l d a d a s m s mn n n nn
µ =
µ × + µ × + µ × + µ ×=
b a r b a rb a rb a r
1 1x 4 5 5
n 9µ = = × =∑
c o l c o lc o lc o l
1 1x 3 6 4
n 9µ = = × =∑
d a d ad ad a
1 1x 1 6 4
n 4µ = = × =∑
s m s ms ms m
1 1x 3 2 4
n 8µ = = =∑
( ) ( ) ( ) ( )5 9 4 9 4 4 4 8 1 2 94 3
3 0 3 0,
× + × + × + ×µ = = =
V) Minimizzazione della somma degli scarti al quadrato
( )21
m i n s e e s o l o s e n
i Xi
x δ δ µ=
− = =∑
Dim: ( ) ( )2 2
1 1
s e n n
X i i Xi i
x xδ µ δ µ= =
≠ ⇒ − > −∑ ∑
( ) ( )
( ) ( )
( ) ( )
2 2
1 1
2 2
1
1
2
n n
i i X Xi i
n
i X Xi
n
X i Xi
x x
x n
x
δ µ µ δ
µ µ δ
µ δ µ
= =
=
=
− = + − − =
= − + − +
+ − −
∑ ∑
∑
∑
( ) ( ) ( )
( ) ( )
2 2 2
1 1
2 2
1 1
n n
i i X Xi i
n n
i i Xi i
x x n
x x
δ µ µ δ
δ µ
= =
= =
− = − + −
⇒ − > −
∑ ∑
∑ ∑
Termine nullo per la II proprie-tà della media arit-metica
-
03/03/2012
8
Quale indice di posizione scegliere?
La mediana minimizza la somma degli scarti in valore assoluto:
n
ii 1
x c c M em i n=
− = ⇒ =∑
La mediana è un indice robustorobusto: non subisce l’influenza di valori anomali
CRITERIO:
� Se occorre un indice che tenga conto di tutti i tutti i valorivalori, si utilizza la media.
� Se non si vuole che i valori estremivalori estremi alterino il valore dell’indice, allora si utilizza la mediana
esempio:Scelta del luogo in cui situare il deposito di n punti vendita, in modo da minimizzare le distanze complessive (quindi i costi):
il luogo che soddisfa tale condizione è la mediana dei punti vendita
INDICI STATISTICI DI VARIABILITA’Variabilità: Attitudine di un fenomeno ad assumerediverse intensità
Caratteristiche di un indice di variabilità
• Dispersione rispetto ad un centro
• Mutua variabilità
• Mutevolezza delle frequenze(Concentrazione per caratteri trasferibili)
Come si misura la variabilità?
( )( )( ) ( )
( ) ( )
1
1 1
1 1
) , , 0
) , , 0
) , , ,
) S e , , , X è p i ù v a r i a b i l e d i Y
n
n n
n n
i V x x
i i V c c
i i i V x c x c V x x
i v V x x V y y
≥
=
+ + =
≥ →
K
K
K K
K K
V(••••): Indice di variabilità; c: costante nota
N.B. Un indice di variabilità è sempre maggiore o uguale a zero.
-
03/03/2012
9
Variabilità e funzione di ripartizione empirica
Una funzione di ripartizione empirica molto ripida (che subitoraggiunge 1) indica scarsa variabilità. Viceversa, unafunzione di ripartizione empirica che raggiunge 1 moltolentamente indica elevata variabilità.
Campo di Variazione
È molto sensibile alla presenza di valori anomali
Differenza Interquantile
Differenza tra due quantili equidistanti dagli estremi delladistribuzione
Via via meno sensibile alla presenza di valori anomali, mamano che r ed s si avvicinano.
r > s
Differenza Interquartile
È un indice più robusto del campo di variazione
Coefficiente di Variazione Interquartile
� Non dipende dall’unità di misura del carattere osservato(come il Range e l’IQR) ma solo dal rapporto tra quartili
� Se Me→→→→ 0 allora CQV →→→→ ∞∞∞∞
-
03/03/2012
10
Variabilità rispetto ad un centroObiettivo: Sintetizzare una opportuna funzione degli scartidelle singole intensità dall’indice di posizione M prescelto
Successione degli scarti:( ) ( ) ( ) ( )1 2, , , , ,i nx M x M x M x M− − − −K K
( )
( )1
2
1
0
S e
m i n
n
ii
n
ii
x
M
x
µµ
µ
=
=
− == ⇒ − =
∑
∑
1
S e m i nn
ii
M M e x M e=
= ⇒ − =∑
Ogni scarto esprime la distanza di ciascuna intensità dall’indiceM.
La variabilità rispetto ad un centro può essere definitaspecificando in diversi modi M.
Ricordiamo che:
VARIANZA
� Misura la dispersione media intorno alla media aritmetica.
� Si calcola come media aritmetica dei quadrati degli scarti.
1. Per una successione di valori:
2. Per una distribuzione di frequenza:
3. Per una distribuzione in classi di frequenza:
-
03/03/2012
11
N. bottiglie ni fi1 3 0,10
2 4 0,13
3 3 0,10
4 5 0,17
5 11 0,37
6 4 0,13
Totale 30 1( )
( ) ( ) ( )
2
2 1
2 2 21 3 , 9 7 3 2 3 , 9 7 4 6 3 , 9 7 4
3 0
7 2 , 9 72 , 4 1
3 0
n
i ii
x n
n
=
−= =
− × + − × + + − × = =
= =
∑
L
µσ
( ) ( ) ( )
2
2 21
2 2 2
21 3 2 4 6 4
3 , 9 73 0
5 4 51 5 , 7 3 2 , 4 1
3 0
n
i ii
x n
n
== − =
× + × + + ×= − =
= − =
∑
L
σ µ
Formula alternativa:
Classe ci ni fi
1,69 |—| 1,77 1,73 3 0,15
1,77 —| 1,85 1,81 0 0
1,85 —| 1,93 1,89 3 0,15
1,93 —| 2,01 1,97 5 0,25
2,01 —| 2,09 2,05 9 0,45
Totale 20 1
( )( )
( ) ( )
( )
2
22 1
1
2 2
2
1 , 7 3 1 , 9 6 0 , 1 5 1 , 8 1 1 , 9 6 0
2 , 0 5 1 , 9 6 0 , 4 5 0 , 0 0 4
k
i i ki
i ii
c n
c fn
=
=
−= = − =
= − × + − × + +
+ − × =
∑∑
L
µσ µ
( ) ( )
n
i i ni 1
i ii 1
c n
c f 1 7 3 0 1 5 2 0 5 0 4 5 1 9 6n
, , , , ,=
=µ = = = × + + × =
∑∑ L
( ) ( )( )
2
2 2 2 21
1
2 2
2 2
1 , 7 3 0 , 1 5 1 , 8 1 0
2 , 0 5 0 , 4 5 1 , 9 6 0 , 0 0 4
n
i i ni
i ii
c n
c fn
=
=
= − = − =
= × + × + +
+ × − =
∑∑
L
σ µ µ
Formula alternativa:
-
03/03/2012
12
Proprietà della varianza
I)20 X≤ ≤ ∞σ
II) Esprime la variabilità nella stessa unità di misuradel carattere osservato, ma elevata al quadrato
III) ( )22
2X = −σ µ µ
Dim: ( )
( ) ( )
( ) ( ) ( )
( )
22
1
2 2
1 1 1
2 2
1
2 2
1
1=
1 1 12
12
1
n
X ii
n n n
i ii i i
n
ii
n
ii
xn
x xn n n
xn
xn
=
= = =
=
=
− =
= − + =
= − + =
= −
∑
∑ ∑ ∑
∑
∑
σ µ
µ µ
µ µ µ
µ
Formula alternativa per il calcolo della varianza
IV)t r a s f o r m a z i o n e l i n e a r e
Y XX Y= ± →α β
( ),α β ∈ ℜ
Dim:
e i i Y Xy x= + = +α β µ α β µ
( ) ( )
( )
2 22
1 1
22 2 2
1
1 1
1
n n
Y i Y i Xi i
n
i X Xi
y xn n
xn
σ µ α β α β µ
β µ β σ
= =
=
= − = + − − =
= − =
∑ ∑
∑
quindi:
-
03/03/2012
13
Esempio
Scelta Prezzo MM
MM 1,99
MM 1,99
MM 1,99
MM 2,09
MM Me ���� 2,09
MM 2,09
MM 2,09
MM 2,09
MM 2,13
Nuovo prezzo = prezzo mediano attuale + 18.75% del prezzo attuale.
Qual è la varianzavarianza del nuovo prezzo?
Trasformazione lineare:
p* = 2,09 + 0,1875 p
2 * 2 20 , 1 8 7 5 0 , 0 3 5 0 , 0 0 2 0 , 0 0 0 0 7 5= × = × =σ σ
Calcolo della nuova varianza:
αααα = 2,09; ββββ = 0,1875
2 * 2 2=σ β σ
V) Decomposizione della varianza
La varianza di X è data dalla somma della mediadelle varianze di gruppo (varianza interna) e dallavarianza delle medie di gruppo (varianza esterna).
( )22 21 1
V A R I A N Z A I N T E R N A V A R I A N Z A E S T E R N A
1 1G GX j j j X j
j j
n nn n= =
= + −∑ ∑1 4 2 43 1 4 4 4 2 4 4 43
σ σ µ µ
Se:
G = numero di gruppi;
µµµµj: media dell’i-esimo gruppo;
nj = numerosità dell’j-esimo gruppo (j = 1,….,G);
allora:
2 2 2T O T I N T E X T= +σ σ σossia:
-
03/03/2012
14
Dim:
( )
1 2
s u d d i v i s i o n e d e l l e i n t e n s i t à i n G g r u p p i d i n u m e r o s i t à 1 , ,
j
j G
nj G
n n n n n
=
+ + + + + =
K
K K1 4 4 4 4 44 2 4 4 4 4 4 43
( ) ( )
( )
( ) ( )
( ) ( )
222
1 1 1
V a r i a n z a d e l l a p a r t i z i o n e i n g r u p p i
2
1 1
2 2
1 1 1 1
1 1
1 1
1
1 1
12
i
i
i i
i
nn G
X i X i j Xi j i
nG
i j j j Xj i
n nG G
i j j j Xj i j i
nG
i j j j Xj i
x xn n
xn
xn n
xn
= = =
= =
= = = =
= =
= − = − =
= − + − =
= − + − +
+ − −
∑ ∑ ∑
∑ ∑
∑ ∑ ∑ ∑
∑ ∑
1 4 4 4 2 4 4 43
σ µ µ
µ µ µ
µ µ µ
µ µ µ
1
1 jn
j i jj i
xn =
= ∑µMedia aritmetica delle intensità appartenenti all’i-esimo gruppo.
( ) ( ) ( ) ( )1 1 1 1
è u g u a l e a z e r o p e r l a I p r o p r i e t à d i
1 22 0
i in nG G
i j j j X j X i j jj i j i
x xn n= = = =
− − = − − =
∑ ∑ ∑ ∑1 44 2 4 43
µ
µ µ µ µ µ µ
3° Addendo
Quindi:
1° Addendo
( )
( )
2
1 1
2 2 2
1 1 1
V a r i a n z a d e l l ' i - e s i m o g r u p p o
1
1 1 1
i
j
I N T
nG
i j jj i
nG G
i j j j j jj i jj
xn
x n nn n n
= =
= = =
− =
= − = =
∑ ∑
∑ ∑ ∑1 4 4 4 2 4 4 43
µ
µ σ σ
2° Addendo
( ) ( )2 2 21 1 1
V a r i a n z a d e l l e m e d i e d i g r u p p o
1 1i
E X T
nG G
j X j X jj i j
nn n= = =
− = − =∑ ∑ ∑1 4 4 4 2 4 4 43
µ µ µ µ σ
-
03/03/2012
15
Esempio sceltabottiglie CH MM Totale
1 1 2 3
2 2 2 4
3 2 1 3
4 5 0 5
5 7 4 11
6 4 0 4
Totale 21 9 30
( ) ( ) ( )
6
11
2 1
1 1 2 2 6 44 , 2 8
2 1
iC H ii
C H
x n== = =
× + × + + ×= =
∑
L
µ µ
( ) ( ) ( )
6
12
9
1 2 2 2 5 43 , 2 2
9
iM M ii
M M
x n== = =
× + × + + ×= =
∑
L
µ µ
G = 2 (1 = CH; 2 = MM)
( )
( ) ( )
6 2
2 2 11
2 2
2 1
1 4 , 2 8 1 6 4 , 2 8 4 4 0 , 2 91 , 9 2
2 1 2 1
iC H C H ii
C H
x n=
−= = =
− × + + − ×= = =
∑
L
µσ σ
( )
( ) ( )
6 2
2 2 12
2 2
9
1 3 , 2 2 2 6 3 , 2 2 0 2 5 , 5 62 , 8 3
9 9
iM M M M ii
M M
x n=
−= = =
− × + + − ×= = =
∑
L
µσ σ
( ) ( )2 21
1 1 , 9 2 2 1 2 , 8 3 92 , 1 9
3 0
G
I N T j jj
nn =
× + ×= = =∑σ σ
( )
( ) ( )
22
1
2 2
1
4 , 2 8 3 , 9 7 2 1 3 , 2 2 3 , 9 7 90 , 2 4
3 0
G
E S T j X jj
nn =
= − =
− × + − ×= =
∑σ µ µ
-
03/03/2012
16
SCARTO QUADRATICO MEDIO
(o scostamento quadratico medio, o deviazione standard)
� E’ uguale alla radice quadrata della varianza.
� Esprime la variabilità nella stessa unità di misura delcarattere osservato.
1. Per una successione di valori:
2. Per una distribuzione di frequenza:
3. Per una distribuzione in classi di frequenza:
σ è interpretabile come scarto medio intorno alla media; la maggior parte dei valori sono compresi nell’intervallo:
[µµµµ - σσσσ; µµµµ + σσσσ]
s i t u a z i o n e d i m a s s i m a v a r i a b i l i t à
0 p e r 1 , , 1 i nx i n x n= = − =K1 4 4 4 4 4 4 4 4 44 2 4 4 4 4 4 4 4 4 4 43µ
( )
( ) ( ) ( )
( )
( ) ( )
22
1
2 2
2 2 2 2 2
2 2 2 2 2 2
2
2 2 2 2
1
10 1 1
11 2
12
111
n
ii
xn
n nn
n n nn
n n nn
n nn n n
n n
=
= − =
= − − + − ⋅ =
= − + + − =
= − + + − =
− = − = = −
∑σ µ
µ µ µ
µ µ µ µ
µ µ µ µ µ
µµ µ µ
Nella situazione di massima variabilità
σ 2= µ 2(n-1) e 1nσ µ= −
MASSIMA VARIABILITA’
( ) ( )2 2 1 1n nσ σ µ µ= = − = −Quindi:
-
03/03/2012
17
INDICI DI VARIABILITA’ RELATIVA
Coefficiente di variazione
E’ un indice indipendente dall’unità di misura (è un numeropuro) e può essere utilizzato per confrontare distribuzionidiverse
( ) ( )2 20 1 e 0 1n n≤ ≤ − ≤ ≤ −σ µ σ µPoiché:
INDICE DI VARIABILITA’ RELATIVI NORMALIZZATI (compresi tra 0 ed 1)
Scarto quadratico medio relativo
Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo che esso può assumere per la distribuzione:
5614322 ,, ==σ=σ
07029973
561
1nrel ,
,
, ==−µ
σ=σ
390973
561CV ,
,
, ==µσ=
N. bottiglie ni fi1 3 0,10
2 4 0,13
3 3 0,10
4 5 0,17
5 11 0,37
6 4 0,13
Totale 30 1
Scarto quadratico medio:
Coefficiente di variazione:
Scarto quadratico medio relativo:
Esempio
-
03/03/2012
18
INDICI DI MUTUA VARIABILITÀ
DIFFERENZE MEDIEDifferenza Media Semplice (senza ripetizione)
Differenza Media Quadratica
Misurano quanto le unità statistiche differiscono tra di lorotra di loro(non più rispetto ad un punto fisso).
Il calcolo si basa sulle differenze tra tutte le coppie di unità statistiche.
Successione di valori Distribuzione di frequenza
Successione di valori Distribuzione di frequenza
A B C D E F G
xi 3 6 5 10 3 6 7
A 3 3 2 7 0 3 4
B 6 3 1 4 3 0 1
C 5 2 1 5 2 1 2
D 10 7 4 5 7 4 3
E 3 0 3 2 7 3 4
F 6 3 0 1 4 3 1
G 7 4 1 2 3 4 1
Scarti semplici in valore assoluto
Impresa Addetti
A 3
B 6
C 5
D 10
E 3
F 6
G 7
totale 40
n
ii 1
x4 0
5 7 1n 7
,=µ = = =∑
Calcolo della Differenza Media Semplice:
-
03/03/2012
19
Impresa Addetti
A 0
B 0
C 0
D 0
E 0
F 0
G 40
totale 40
Impresa Addetti
A 5,71
B 5,71
C 5,71
D 5,71
E 5,71
F 5,71
G 5,71
totale 40
Equidistribuzione degli addetti Massima concentrazione di addetti
xi = xj ∀∀∀∀ i,j ∆∆∆∆ = 0A B C D E F G
xi 0 0 0 0 0 0 40
A 0 0 0 0 0 0 40
B 0 0 0 0 0 0 40
C 0 0 0 0 0 0 40
D 0 0 0 0 0 0 40
E 0 0 0 0 0 0 40
F 0 0 0 0 0 0 40
G 40 40 40 40 40 40 40
∆∆∆∆ = 2µµµµ
( )
( )
( )
n n
i j ii j 1 i 1
x x 2 n 1 x
2n n 1 n n 1
≠ = =
− −∆ = = = µ
− −
∑ ∑
INDICE DI CONCENTRAZIONE
R = 0 se ∆∆∆∆ = 0Caso di equidistribuzioneequidistribuzione del carattere
R = 1 se ∆∆∆∆ = 2µµµµCaso di massima concentrazionemassima concentrazione del carattere
0 ≤≤≤≤ R ≤≤≤≤ 1
2 8 6,∆ = 2 2 5 7 1 1 1 4 2m a x , ,∆ = µ = × =
Se:
-
03/03/2012
20
auto ni1 3
2 8
3 6
4 2
5 1
tot 20
X = NUMERO DI AUTO POSSEDUTE relativo ad un collettivo di 20 famiglie
Caso di distribuzione di frequenza
nj 3 8 6 2 1
ni auto 1 2 3 4 5
3 1 24 36 18 12
8 2 24 48 32 24
6 3 36 48 12 12
2 4 18 32 12 2
1 5 12 24 12 2
( )
( ) ( ) ( )
1
1
1 2 3 8 1 3 3 6 5 4 1 2 4 4 01 , 1 6
2 0 1 9 3 8 0
K
i j i ji j
x x n n
N N
≠ =− ⋅
∆ = =−
− ⋅ ⋅ + − ⋅ ⋅ + + − ⋅ ⋅= =
⋅
∑
L
Scarti semplici in valore assoluto
55,222MAX =×=µ=∆
INDICI DI
ETEROGENEITÀ ED OMOGENEITÀ
Mutabilità: Attitudine di un fenomeno ad assumerediverse modalità
Distribuzione Massimamente Omogenea: le n unitàstatistiche presentano tutte la stessa modalità
Distribuzione Massimamente Eterogenea: nelladistribuzione di frequenza appaiono tutte le k modalità, ead ognuna di esse è associata la medesima frequenza.
Caratteristiche di un indice di mutabilità
M(••••): Indice di mutabilità
( ) ( )
( ) ( )
( ) ( ) ( )
1
1
1
) , , m i n
m a s s i m a o m o g e n e i t à
) , , m a x
m a s s i m a e t e r o g e n e i t à
) m i n , , m a x
o m o g . / e t e r o g . i
n
n
n
i M x x M
i i M x x M
i i i M M x x M
=
=
< <
K
K
K
n t e r m e d i a
-
03/03/2012
21
INDICI DI ETEROGENEITA’ ED OMOGENEITA’
( ) 2 21 1 1 1
1 1k k k k
i i i i ii i i i
G f f f f f= = = =
= − = − = −∑ ∑ ∑ ∑
INDICE DI GINI
kii kfG ,,2,1max
1L=∀=≡
m a x 2 21
1 11 1 1
k
i
kG
k k k=⇒ = − = − = −∑
X: carattere qualitativo con k modalità
INDICE DI GINI NORMALIZZATO
( )11
11
1
12
2
max
*
−=
−−=
−
−== ∑∑ k
kG
k
kf
k
f
G
GG i
i
Massima eterogeneità (minima omogeneità)
Modalità fix1 0,2
x2 0,2
x3 0,2
x4 0,2
x5 0,2
Totale 1
Modalità fix1 0
x2 0
x3 1
x4 0
x5 0
Totale 1
Minima eterogeneità (massima omogeneità)
( )( )
K2i
i 1
2
G 1 f
1 5 0 , 2
1 5 0 0 4 0 8, ,
== − =
= − ×
= − × =
∑
K2i
i 1
G 1 f
1 1 0
== − =
= − =
∑
i
1f , i 1 , , k
k= ∀ = K
-
03/03/2012
22
SCELTA ni fiCH 21 0,7
MM 9 0,3
Totale 30 1
( ) ( )
K2i
i 1
2 2
G 1 f
1 0 , 7 0 , 3 1 0 4 9 0 0 9 0 4 2, , ,
== − =
= − + = − + =
∑
502
11
K
11G ,max =−=−=
Indice di eterogeneità normalizzato di Gini (0 ≤ G* ≤1)
Indice di eterogeneità di Gini
84050
420
G
GG ,
,
,*
max
===
ConclusioneG* è abbastanza elevato →→→→ la distribuzione è abbastanza eterogenea: entrambe le modalità sono presenti, ma con frequenze non equilibrate tra loro.
Esempio 1
Negozio ni fiBar 9 0,30
Coloniali 9 0,30
D. automatico 4 0,13
Supermarket 8 0,27
Totale 30 1
( )( )
42i
i 1
2 2 2 2
G 1 f
1 0 , 3 0 , 3 0 , 1 3 0 , 2 7
1 0 , 0 9 0 , 0 9 0 , 0 2 0 , 0 7 0 , 7 3
=
= − =
= − + + + =
= − + + + =
∑
7504
11
K
11G ,max =−=−=
970750
730
G
GG ,
,
,*
max
===
ConclusioneG* molto prossimo ad 1 →→→→ la distribuzione è molto eterogenea: tutte le modalità sono presenti e con frequenze molto simili tra loro.
Esempio 2
-
03/03/2012
23
FORMA DI UNA DISTRIBUZIONE
Due distribuzioni che presentano gli stessi valori degliindici di posizione e degli indici di variabilità possonodifferire per il peso dei valori più grandi e/o più piccolirispetto al valore centrale a causa del comportamentodifferenziato nelle code della distribuzione.
La forma di una distribuzione è importante proprio pervalutare l’effetto delle intensità posizionate sulle codedella distribuzione.
Obiettivo dello studio della forma di una distribuzione èmisurare se una distribuzione è simmetrica oppure diquanto essa si discosta dalla situazione di simmetria.
In una distribuzione simmetrica le intensità posizionatealla stessa distanza da un indice di posizione (ad es. lamedia aritmetica) ma in posizione opposta rispetto a taleindice presentano la stessa frequenza (o densità difrequenza).
Una distribuzione che non risulta simmetrica si diceasimmetrica
-2 0 2 4
050
010
0015
00
Intensità
Den
sità
di f
requ
enza
SIMMETRIA E ASIMMETRIA
Distribuzione simmetrica
Proprietà:
1 3 1 3
)
) ( p e r d i t r i b u z i o n i u n i m o d a l i )
) ( e s o n o e q u i d i s t a n t i d a )
X
X
i M e
i i M e M o
i i i Q M e Q M e Q Q M e
== =
− = −
µµ
N.B. Queste proprietà valgono in una sola direzione
-
03/03/2012
24
0 10 20 30
050
010
0015
00
Intensità
Den
sità
di f
requ
enza
-30 -20 -10 0
050
010
0015
00
Intensità
Den
sità
di f
requ
enza
Asimmetria positiva
Distribuzioni asimmetriche
Asimmetria negativa
• Le intensità si attardano sullacoda di destra delladistribuzione
• Per distribuzioni unimo-dali:
X M e M o> >µ
• Le intensità si attardano sullacoda di sinistra delladistribuzione
• Per distribuzioni unimo-dali:
XM o M e> > µ
INDICI DI FORMAForniscono informazioni sulla forma di una distribuzione (simmetria, asimmetria positiva o negativa).
Indice di Hotelling e SolomonIndice di Hotelling e Solomon
0
1 0
0 1
H S
H S
H S
A S i m m e t r i a
A A s i m m e t r i a P o s i t i v a
A A s i m m e t r i a N e g a t i v a
=− ≤ <
< ≤
Poiché vale la seguente relazione: X XM eµ σ− ≤allora: 1 1H SA− ≤ ≤
N.B. Nel caso in cui AHS = 0 la distribuzione non è necessariamente simmetrica
Indice di Yule e BowleyIndice di Yule e Bowley
0
0
0
Y B
Y B
Y B
A S i m m e t r i a
A A s i m m e t r i a P o s i t i v a
A A s i m m e t r i a N e g a t i v a
=<>
-
03/03/2012
25
INDICI DI FORMA BASATI SULLA STANDARDIZZAZIONE
Tale indici neutralizzano l’effetto di qualunque indice diposizione e di variabilità attraverso una operazione distandardizzazione del tipo:
p e r 1 , ,X i XiX X
X xX Z Z z i n
− −→ = = = Kµ µσ σ
Z è la variabile standardizzata. Essa, oltre a non dipendere dall’unità di misura del carattere osservato, presenta sempre media pari a zero e varianza pari ad uno. Infatti:
11 , , , ,
X i X n Xi n
X X X
x x xz z z
− − −= = =K Kµ µ µσ σ σ
( )1 1
1
1 1
1 1 1 1 0 0
n ni X
Z ii i X
n
i XiX X
xz
n n
xn n
= =
=
−= = =
= − = ⋅ ⋅ =
∑ ∑
∑
µµσ
µσ σ
( ) ( )2 221 1
2
2 2
2 21 1
1 10
1 1 1 1
n n
Z i Z ii i
n ni X
i Xi i X X
z zn n
xz
n n
= =
= =
= − = − =
−= = = ⋅ =
∑ ∑
∑ ∑
σ µ
µ σσ σ
Indice di FisherIndice di Fisher
FA− ∞ ≤ ≤ ∞0
0
0
F
F
F
A S i m m e t r i a
A A s i m m e t r i a p o s i t i v a
A A s i m m e t r i a n e g a t i v a
=><
Successione di valori
Distribuzione di frequenza
-
03/03/2012
26
Indici di curtosiIndici di curtosi
• Misurano la maggiore o minore frequenza delleosservazioni situate nelle code della distribuzione, ossia diquelle che presentano gli scarti dalla media più elevati.
• Sono basati su un confronto tra la distribuzione empirica ed un modello teorico di riferimento quale la distribuzione distribuzione NormaleNormale.
Intensità
Den
sità
di f
requ
enza
-4 -2 0 2 4
0.0
0.1
0.2
0.3
Distribuzione Normale (Gauss-Laplace)
• E’ utilizzata come modello teorico di riferimento perché frequentemente presente come distribuzione di fenomeni naturali• E’ una distribuzione simmetrica unimodale
è un indice di disnormalità basato sul confronto tra la distribuzione empirica ed il modello della distribuzione Normale
Successione di valori
Distribuzione di frequenza
Indice di curtosi di PearsonIndice di curtosi di Pearson
Per la distribuzione Normale:
AK = 3
K = AK – 3
-
03/03/2012
27
0
0 l e p t o c u r t i c a
0 p l a t i c u r t i c
K D i s t r i b u z i o n e N o r m a l e
K D i s t r i b u z i o n e
K D i s t r i b u z i o n e a
= > 0
K = 0
K < 0
Distribuzione leptocurticaDistribuzione leptocurtica: i valori si accentrano intorno alla media più di quanto accade per la distribuzione Normale
Distribuzione platicurticaDistribuzione platicurtica: presenta delle densità di frequenza nella coda della distribuzione più di quanto accade per la distribuzione Normale.
N. bottiglie CH ni fi Fi
1 1 0,05 0,05
2 2 0,09 0,14
3 2 0,09 0,23
4 5 0,25 0,48
5 7 0,33 0,81
6 4 0,19 1
Totale 21 1
N. bottiglie MM ni fi Fi
1 2 0,22 0,22
2 2 0,22 0,44
3 1 0,11 0,55
4 0 0 0,55
5 4 0,45 1
6 0 0 1
Totale 9 1
( )3
1
3 3 3
3 3 3
1
1 1 4 , 2 9 2 4 , 2 9 3 4 , 2 92 2
2 1 1 , 3 9 1 , 3 9 1 , 3 9
4 4 , 2 9 5 4 , 2 9 6 4 , 2 95 7 4
1 , 3 9 1 , 3 9 1 , 3 9
11 3 , 3 5 8 , 9 9 1 , 6 0 ,
2 1
C Hn C HC H iC H i
iC H C H
xA F n
n =
− = ⋅ =
− − − + ⋅ + ⋅ +
− − −+ ⋅ + ⋅ + ⋅ =
= − − − −
∑µ
σ
( )0 4 0 , 9 6 7 , 5 8
1 5 , 4 40 , 7 4
2 1
+ + =
= − = −
µµµµCH = 4,29 µµµµMM = 3,22σσσσCH = 1,39 σσσσMM = 1,69
-
03/03/2012
28
( )
( )
M M3
nM MM M i
M M ii 1M M M M
3 3
3 3
x1A F n
n
1 1 3 , 2 2 2 3 , 2 22 2
9 1 , 6 9 1 , 6 9
3 3 , 2 2 5 3 , 2 24
1 , 6 9 1 , 6 9
1 0 , 6 64 , 5 9 0 , 7 6 0 , 0 0 2 4 , 7 0 , 0 7
9 2 1
=
− µ = ⋅ = σ
− −= ⋅ + ⋅ +
− −+ + ⋅ =
= − − − + = − = −
∑
Dal confronto risulta che entrambe le distribuzioni presentano un valore negativo dell’indice di Fisher, quindi un’asimmetria negativa, che è leggermente più accentuata per i consumatori CH.
IL BOXPLOTPermette di studiare graficamente la forma di una distribuzioneCostruzione del boxplot:Costruzione del boxplot:
1. Si determinano i quantili: x(1), Q1, Q2 = Me, Q3, x(n)2. Si disegna una scatola di estremi Q1 e Q3 tagliata
sulla mediana
Q 1 Me Q 3
3. Si calcolano i valori a e b:( ) ( )1 3 1 3 3 11 , 5 ; 1 , 5a Q Q Q b Q Q Q= − − = + −
4. Si calcolano i valori αααα e ββββ:αααα = minimo dei valori maggiore di aββββ = massimo dei valori minori di b
-
03/03/2012
29
5. Si disegnano i baffi sui valori αααα e ββββ
Q 1 Me Q 3 ��
5. I valori oltre a e b sono disegnati con dei puntini(valori anomali)
Q 1 Me Q 3 ��
Caratteristiche del boxplot:
• Permette di visualizzare le informazioni sullaforma e la variabilità di una distribuzione
• Consente di confrontare graficamente la forma dipiù distribuzioni
Esempi
Distribuzione simmetrica
Distribuzioneasimmetricapositiva
Distribuzioneasimmetricanegativa
3.54.04.55.05.56.06.5
510152025
-25-20-15-10-5
-
03/03/2012
30
Distribuzione CHESEMPI
Q1 = 4Q2 = Me = 5Q3 = 5
( ) 52QQ51Qa 131 ,, =−−=
{ } 3ax i =≥=α min( ) 56QQ51Qb 133 ,, =−+=
{ } 6bx i =≤=β max
Q1 = 2Q2 = Me = 3Q3 = 5
Distribuzione MM
( ) 52QQ51Qa 131 ,, −=−−=( ) 59QQ51Qb 133 ,, =−+=
{ } 1ax i =≥=α min{ }im a x x b 5β = ≤ = 1
2
3
4
5
n. b
ottig
lie s
ucch
i MM
1
2
3
4
5
6
n. b
ottig
lie s
ucch
i CH
02
46
810
Boxplot Numero di stabilimenti (n=50)
02
46
8
Boxplot Numero di stabilimenti (n=49)
( )1 3 11 , 5 1 4 , 5 3 , 5 0a Q Q Q= − − = − = − ⇒ =α
( )3 3 11 , 5 4 4 , 5 8 , 5 8b Q Q Q= + − = + = ⇒ =β
Caso a) n=50:
Caso b) n=49:
Q1 = 1; Me = 2; Q3 = 4
Q1 = 1; Me = 2; Q3 = 4( )1 3 11 , 5 1 4 , 5 3 , 5 0a Q Q Q= − − = − = − ⇒ =α
( )3 3 11 , 5 4 4 , 5 8 , 5 8b Q Q Q= + − = + = ⇒ =β
-
03/03/2012
31
Le relazioni statistiche per distribuzioni doppie possono essere di due tipi:
• Connessione: esistenza di una relazione reciproca tra i due caratteri
–Dipendenza assoluta
• Dipendenza: esistenza di una relazione di causa-effetto tra i due caratteri
–Dipendenza lineare–Dipendenza in media
• Correlazione (o intedipendenza): esistenza di una relazione di dipendenza reciproca tra i due caratteri.
Relazioni statistiche
INDICI DI CONNESSIONE
Indice ChiIndice Chi--quadro di Pearson (quadro di Pearson (χχχχχχχχ22))
ˆ = f r e q u e n z e t e o r i c h ei ji jn n
nn
• •=
Per misurare la connessione bisogna considerare ledifferenze tra le frequenze teoriche e le frequenzeosservate.
( )1 1 1 1 1 1
1 1 1 1
ˆ ˆ
1 1
10
k h k h k h
i j i j i j i ji j i j i j
k h k h
i j i ji j i j
n n n n
n n n n n nn n
n n n n nn
= = = = = =
• • • •= = = =
− = − =
= − = − =
= − ⋅ = − =
∑ ∑ ∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
-
03/03/2012
32
20 χ≤ ≤ ∞
2 0χ = Non esiste connessione (esiste indipendenza)tra X ed Y. Ogni frequenza congiunta è pari allarispettiva frequenza teorica.
2 0χ > Esiste connessione (non esiste indipendenza)tra X ed Y. Almeno una frequenza congiunta èdiversa dalla rispettiva frequenza teorica.
L’indice chi-quadro è pari alla somma dei quadrati delledifferenze tra le frequenze teoriche e le frequenzeosservate.
Formulazione alternativaFormulazione alternativa
( )22 ˆˆ
i j i j
i ji j
n n
n
−= ∑ ∑χ
2
ˆ
i j
i j i j
n
n= +∑ ∑
2ˆ
ˆ
i j
i j i j
n
n−∑ ∑
ˆ2
ˆ
i j i j
i j i j
n n
n− =∑ ∑
2
ˆ 2ˆ
i ji j i j
i j i j i ji j
nn n
n n
n
• •= + − =∑ ∑ ∑ ∑ ∑ ∑
2
2i j
i j i j
nn n n
n n• •= + − =∑ ∑
-
03/03/2012
33
Indice PhiIndice Phi--quadro di Fisher (quadro di Fisher (φφφφφφφφ 22))
{ }20 m i n 1 , 1k h≤ ≤ − −φ
2 1 1 i j j ih k n n n• •= − = − ⇒ = =φ
2 1 i j ih n n •= − ⇒ =φ
Perfetta dipendenza bilaterale in tabelle quadrate
Perfetta dipendenza di Y da X in tabelle rettangolari
2 1 i j jk n n •= − ⇒ =φ
Perfetta dipendenza di X da Y in tabelle rettangolari
h < k
k < h
negozio scelta Bar Coloniali D. Autom. S.market Totale
CH 9 8 1 3 21
MM 0 1 3 5 9
Totale 9 9 4 8 30
( )∑ ∑
= =
−=χ
k
1i
h
1j ij
2
ijij2
n
nn
ˆ
ˆ
negozio scelta Bar Coloniali D. Autom. S.market Totale
CH 6,3 6,3 2,8 5,6 21
MM 2,7 2,7 1,2 2,4 9
Totale 9 9 4 8 30
Frequenze teoriche ijn̂
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
2 2 2 2
2
2 2 2 2
9 6 , 3 8 6 , 3 1 2 , 8 3 5 , 6
6 , 3 6 , 3 2 , 8 5 , 6
0 2 , 7 1 2 , 7 3 1 , 2 5 2 , 4
2 , 7 2 , 7 1 , 2 2 , 4
1 , 1 6 0 , 4 6 2 , 8 2 1 3 , 2 7
− − − −= + + + +
− − − −+ + + + =
= + + =L
χ
Metodo A.
-
03/03/2012
34
negozio scelta Bar Coloniali D. Autom. S.market
CH 81 64 1 9
MM 0 1 9 25
Frequenze teoriche 2ijn
negozio scelta Bar Coloniali D. Autom. S.market
CH 189 189 84 168
MM 81 81 36 72
ji nn .. ×
[ ]
2 8 1 6 4 1 9 1 9 2 53 0 11 8 9 1 8 9 8 4 1 6 8 8 1 3 6 7 2
3 0 1 , 4 4 1 1 3 , 2 7
= × + + + + + + − =
= × − =
χ
−
⋅=χ ∑ ∑
= =
1nn
nn
k
1i
h
1j ji
2ij2
..Metodo B.
44030
2713
n
1 22 ,, ==χ=Φ 20 1≤ ≤φ
negozio
scelta Bar Coloniali D. Autom S.market Totale
CH 9 0 4 0 13
MM 0 9 0 8 17
Totale 9 9 4 8 30
Esempi di perfetta dipendenza unilateraleEsempi di perfetta dipendenza unilaterale
Massima dipendenza unilaterale del carattere SCELTA (X) dal carattere NEGOZIO (Y)
jij nn .=
negozio
scelta Bar Coloniali D. Autom S.market Totale
CH 21 0 0 0 21
MM 0 0 9 0 9
Totale 21 0 9 8 30
Massima dipendenza unilaterale del carattere NEGOZIO (Y) dal carattere SCELTA (X)
.iij nn =
-
03/03/2012
35
DIPENDENZA IN MEDIA
Y quantitativo Y quantitativo X qualitativo X qualitativo
Indipendenza in media di Y da X:
al variare delle modalità di X le medie delle distribuzioni condizionate di Y rimangono costanti.
X quantitativo X quantitativo Y qualitativo Y qualitativo
Indipendenza in media di X da Y:
al variare delle modalità di Y le medie delle distribuzioni condizionate di X rimangono costanti.
( )
( )
2
2 |1
| 2 2
1
ˆ
i
X
k
X Y y x iE X T i
X Yh
X
j X jj
n
x n
= •=
•=
−= =
−
∑
∑
µ µση
σµ
( )( )
2
2 |1
| 2 2
1
j
Y
h
Y X x Y jE X T j
Y Xk
Y
i Y ii
n
y n
= •=
•=
−= =
−
∑
∑
µ µση
σµ
Rapporto di correlazione di PearsonRapporto di correlazione di Pearson
MMMM
XY x0 – x1 x1 – x2 … xh-1 - xh tot
y1 n11 n12 … n1h n1.
y2 n21 n22 … n2h n2.
nij ni.
yk nk1 nk2 … nkh nk.
tot n.1 n.2 n.j n.h n
Se y è quantitativo:
-
03/03/2012
36
Proprietà:
|0 1X Y≤ ≤η
| 0X Y =ηPerfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (µX)
| 1X Y =η
Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla
I)
II) |0 1Y X≤ ≤η
III) L’indice non è simmetrico
| |Y X X Y≠η η
IV) | | | | X Y = Y X X Y Y X X Y= ⇒ =η η η η ρ
ESEMPIOFatturato (Y) Settore
merceologico (X) � 200
200-|300
300-|400
400-|500 >500 Totale
Alimentare 11 1 5 1 3 21 Bevande 1 1 0 1 0 3 Health Care 6 1 1 2 2 12 I. Packaging 7 2 1 1 3 14 Totale 25 5 7 5 7 50
( )1| 1
11
1ˆ
1 5 0 1 1 2 5 0 1 3 5 0 5 4 5 0 1 1 2 5 6 3
2 1
3 4 8 , 4 8
h
Y X x j jj
y nn
==•
= =
⋅ + ⋅ + ⋅ + ⋅ + ⋅= =
=
∑µ
( )
( )
2
2 |1
| 2 2
1
i
Y
k
Y X x Y iE X T i
Y Xh
Y
j Y jj
n
y n
= •=
•=
−= =
−
∑
∑
µ µση
σµ
-
03/03/2012
37
( )2| 2
12
1ˆ
1 5 0 1 2 5 0 1 4 5 0 12 6 6 , 6 7
3
h
Y X x j jj
y nn
==•
= =
⋅ + ⋅ + ⋅= =
∑µ
( )3| 3
13
1ˆ
1 5 0 6 2 5 0 1 3 5 0 1 4 5 0 2 1 2 5 6 23 8 4 , 3 3
1 2
h
Y X x j jj
y nn
==•
= =
⋅ + ⋅ + ⋅ + ⋅ + ⋅= =
∑µ
( )4| 4
14
1ˆ
1 5 0 7 2 5 0 2 3 5 0 1 4 5 0 1 1 2 5 6 34 1 2
1 4
h
Y X x j jj
y nn
==•
= =
⋅ + ⋅ + ⋅ + ⋅ + ⋅= =
∑µ
( )1
1ˆ
1 5 0 2 5 2 5 0 5 3 5 0 7 4 5 0 5 1 2 5 6 73 4 4 , 8 4
5 0
h
Y j jj
y nn
•=
= =
⋅ + ⋅ + ⋅ + ⋅ + ⋅= =
∑µ
Le medie delle distribuzioni condizionate sono tutte diverse dalla media di Y per cui esiste dipendenza in media
( )( ) ( )( ) ( )
2
|1
2 2
2 2
3 4 8 , 4 8 3 4 4 , 8 4 2 1 2 6 6 , 6 7 3 4 4 , 8 4 3
3 8 4 , 3 3 3 4 4 , 8 4 1 2 4 1 2 3 4 4 , 8 4 1 4 1 0 0 . 4 7 4 , 1
i
k
Y X x Y ii
n= •=
− =
= − + − +
+ − + − =
∑ µ µ
( )( ) ( )( ) ( )( )
2
1
2 2
2 2
2
ˆ
1 5 0 3 4 4 , 8 4 2 5 2 5 0 3 4 4 , 8 4 5
3 5 0 3 4 4 , 8 4 7 4 5 0 3 4 4 , 8 4 5
1 . 2 5 6 3 4 4 , 8 4 7 7 . 4 1 0 . 6 0 6
h
j Y jj
y n •=
− =
= − + − +
+ − + −
+ − =
∑ µ
-
03/03/2012
38
( )
( )
2
2 |1
| 2 2
1
1 0 0 . 4 7 4 , 10 , 1 1 6
7 . 4 1 0 . 6 0 6
i
Y
k
Y X x Y iE X T i
Y Xh
Y
j Y jj
n
y n
= •=
•=
−= = =
−
= =
∑
∑
µ µση
σµ
La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è piuttosto debole.
CORRELAZIONE
Misura del grado di interdipendeza (dipendenza reciproca) tra due caratteri quantitativi (variabili).
Coefficiente di correlazione di Bravais-Pearson (ρρρρ)
1 1
2 2
n n
X Y
x y
x y
x y
M M
( ) ( )i x i YX Y
X Y
1x y
n− µ − µ
ρ =σ σ
∑
X YX Y
X Y
σρ =
σ σ
= covarianza tra X ed YX Yσ
-
03/03/2012
39
La covarianza ci fornisce informazioni su come variano (co-variano) simultaneamente le due variabili considerate.
0 I n d i p e n d e n z a
0 I n t e r d i p e n d e n z a p o s i t i v a
0 I n t e r d i p e n d e n z a n e g a t i v a
X Y
X Y
X Y
=><
σσσ
X Y− ∞ ≤ ≤ ∞σ
1 1− ≤ ≤ρ
0 I n c o r r e l a z i o n e
0 C o r r e l a z i o n e p o s i t i v a
0 C o r r e l a z i o n e p e g a t i v a
1 M a s s i m a c o r r e l a z i o n e p o s i t i v a
1 M a s s i m a c o r r e l a z i o n e n e g a t i v a
=><
== −
ρρρ
ρρ
XYρIl segno di XYσdipende da
INTERPRETAZIONE GRAFICAIncorrelazione
Xi
Yi
-3 -2 -1 0 1 2 3
-3-2
-10
12
3
Xi
ρ=1ρ=1ρ=1ρ=1
Correlazione diretta
Yi
-3 -2 -1 0 1 2
-3-2
-10
12
Yi
Xi
ρ=0,8ρ=0,8ρ=0,8ρ=0,8
Correlazione diretta
-2 -1 0 1 2 3
-2-1
01
23
ρ=0,3ρ=0,3ρ=0,3ρ=0,3Correlazione diretta
Xi
Yi
-3 -2 -1 0 1 2
-3-2
-10
12
ρ=ρ=ρ=ρ=−−−−1111Correlazione inversa
Xi
Yi
-2 -1 0 1 2 3
-3-2
-10
12
ρ=ρ=ρ=ρ=−−−−0,80,80,80,8
Correlazione inversa
Xi
Yi
-3 -2 -1 0 1 2
-3-2
-10
12
ρ=ρ=ρ=ρ=−−−−0,30,30,30,3
Correlazione inversa
Xi
Yi
-2 0 2 4
-20
2
-
03/03/2012
40
Formula alternativa per la covarianza
( ) ( )1
1
1
1
n
X Y i X i Yi
n
i i X Yi
x yn
x yn
=
=
= − − =
= −
∑
∑
σ µ µ
µ µ
Correlazione per successione di valori
1
2 22 2
1 1
1
1 1
n
i i X Yi
X Yn n
i X i Yi i
x yn
x yn n
=
= =
−=
− −
∑
∑ ∑
µ µρ
µ µ
Ricordando che:
22 2
1
1 nX i X
i
xn =
= −∑σ µ 22 21
1 nY i Y
i
yn =
= −∑σ µe
ii yx2ix
2iy
Cliente fedele CH(X)
fedele MM(Y)
1 0,933 0,067 0,063 0,870 0,004
2 0,400 0,600 0,240 0,160 0,360
3 0,820 0,180 0,148 0,672 0,032
4 0,978 0,022 0,022 0,956 0,000
5 0,795 0,205 0,163 0,632 0,042
6 0,384 0,616 0,237 0,147 0,379
7 0,986 0,014 0,014 0,972 0,000
8 0,993 0,007 0,007 0,986 0,000
9 0,994 0,006 0,006 0,988 0,000
10 1,000 0,000 0,000 1,000 0,000
Totale 8,283 1,717 0,898 7,385 0,819
Relativamente ai primi 10 consumatori misurare la correlazione tra i caratteri FEDELE CH e FEDELE MM.
ESEMPIO
1
2 22 2
1 1
1
1 1
n
i i X Yi
X Yn n
i X i Yi i
x yn
x yn n
=
= =
−=
− −
∑
∑ ∑
µ µρ
µ µ
-
03/03/2012
41
830
10
2838
n
xn
1ii
X ,,
===µ∑
=
170
10
7171
n
yn
1ii
Y ,,
===µ∑
=
( )
N
i ii 1
X Y x y
x y0 8 9 8
0 8 3 0 1 7 0 0 5 2N 1 0
,, , ,=σ = − µ µ = − × = −
∑
n2i
i 1
x7 3 8 5
0 7 3 8n 1 0
,,= = =
∑n
2i
i 1
y0 8 1 9
0 0 8 2n 1 0
,,= = =
∑
( ) ( )2 20 0 5 2
10 7 3 8 0 8 3 0 0 8 2 0 1 7
,
, , , ,
−ρ = = −
− −
Massima correlazione positiva
Correlazione per tabelle a doppia entrata
1 1
2 22 2
1 1
1ˆ ˆ
1 1ˆ ˆ
k h
i i i j X Yi j
X Yk k
i i X i j Yi i
x y nn
x n y nn n
= =
• •= =
−=
− −
∑ ∑
∑ ∑
µ µρ
µ µ
ESEMPIO
A d d e t t i ( Y ) F a t t u r a t o ( X ) ≤ 2 0 0 2 0 0 - | 3 0 0 3 0 0 - | 5 5 0 5 5 0 - | 9 5 0 > 9 5 0 T o t a le
≤ 2 0 0 5 9 7 2 2 2 5 2 0 0 - | 3 0 0 1 1 1 2 0 5 3 0 0 - | 4 0 0 1 2 1 3 0 7 4 0 0 - | 5 0 0 0 0 0 2 3 5 > 5 0 0 0 1 0 2 5 8 T o t a le 7 1 3 9 1 1 1 0 5 0
-
03/03/2012
42
Per calcolare il termine è consigliabilecostruire la tabella delle , ossia:
ˆ ˆi j i ji j x y n∑ ∑
ˆ ˆi j i jx y n
100 250 425 750 3.608 100 50.000 225.000 297.500 150.000 721.600 250 25.000 62.500 106.250 375.000 0 350 35.000 175.000 148.750 787.500 0 450 0 0 0 675.000 4.870.800 1.256 0 314.000 0 1.884.000 22.658.240
La somma degli elementi all’interno di tale tabella è pari a:
ˆ ˆ 3 3 . 5 6 1 . 1 4 0i j i ji j x y n =∑ ∑
da cui
ˆ ˆ 3 3 . 5 6 1 1 4 06 7 1 . 2 2 3
5 0
i j i ji jx y n
n= =
∑ ∑
Per il calcolo gli altri termini:
ˆ ix in ˆ jy jn ˆ i ix n ˆ j jy n 2ˆ ix
2ˆ i ix n 2ˆj
y
2ˆj j
y n
100 25 100 7 2.500 700 10.000 250.000 10.000 70.000 250 5 250 13 1.250 3.250 62.500 312.500 62.500 812.500 350 7 425 9 2.450 3.825 122.500 857.500 180.625 1.625.625 450 5 750 11 2.250 8.250 202.500 1.012.500 562.500 6.187.500
1.256 8 3.608 10 10.048 36.080 1.577.536 12.620.288 13.017.664 130.176.640 18.498 52.105 15.052.788 138.872.265
1 1ˆ 1 8 . 4 9 8 3 6 9 , 9 6
5 0X i i
i
x nn
= = =∑µ
1 1ˆ 5 2 . 1 0 5 1 . 0 4 2 , 1
5 0Y j j
j
y nn
= = =∑µ
6 7 1 . 2 2 3 3 6 9 , 9 6 1 . 0 4 2 , 1 2 8 5 . 6 8 7X Y = − ⋅ =σ
2
1
1 1ˆ 1 5 .0 5 2 . 7 8 8 3 0 1 .0 5 6
5 0i
k
i
i
x nn =
= =∑
2
1
1 1ˆ 1 3 8 . 8 7 2 . 2 7 5 2 .7 7 7 . 4 4 5
5 0
h
j j
j
y nn =
= =∑
( ) ( )2 22 8 5 . 6 8 7
3 0 1 . 0 5 6 3 6 9 , 9 6 2 . 7 7 7 . 4 4 5 1 . 0 4 2 , 1
0 , 5 4 2
X Y = =− −
=
ρ
Correlazione diretta