statistica ii parte -...
TRANSCRIPT
Prof. Massimiliano Giacalone
1
1
Universit della Calabria
Corso di statisticaCorso di statistica
ARCAVACATA ARCAVACATA a.aa.a 20102010--20112011
Campus di Arcavacata
IL CONCETTO DI MEDIA
I) Criterio di internalit (Chisini)
La media di una variabile X qualunque valore realeMintermedio tra il minimo x(1) ed il massimo x(n) di unadistribuzione. ( ) ( )1 nx M x
II) Logica della trasferibilit di una variabile (Chisini)
La media di una variabile X quel valoreM, intermediotra il minimo x(1) ed il massimox(n) di una distribuzioneche, rispetto ad una funzione sintetica delle osservazioni,ne lascia inalterato il valore.
( ) ( )1
, , , ,nn v o l t e
f x x f M M=K K1 44 2 4 43
Il valore della funzione f( ) non cambia se si sostituisce ad ogni intensit di X il valore M.
Prof. Massimiliano Giacalone
2
III) Minimizzazione della perdita globale (Wald)
La media di una variabile X quel valoreM che minimizzala funzione di perdita complessiva che si ottiene quando allesingole osservazioni(x1,,xn) si sostituisceM.
( )( ), m i n s e id x M = =l( ),id x = Perdita subita nel sottrarre da xi, per i=1,2,..,n( ) =l Funzione che sintetizza le singole perdite in un unico valore
( ) ( ) ( ) ( ) ( ) ( )
( ) ( )
1 2
1
n
n
ii
x x x M M M
x n M=
+ + + = + + +
=
l l K l l l K l
c
l l
IV) Principio della equiripartizione (Naguno-Kolmogorov-De Finetti)
La media di una variabile X quel valore M che realizzalequiripartizione rispetto ad una funzione( )l
LA MEDIA ARITMETICALa sua individuazione deriva dalla logica della trasferibilit di una variabile (Chisini).
( ) ( )1
, , , ,nn v o l t e
f x x f =K K1 4 2 4 3
Se la funzione f( ) corrisponde alla somma:
1 2
n
n v o l t e
x x x + + + = + + +K K1 44 2 4 43
1 1 2
1
=
n
ini n
i Xi
xx x x
x nn n
==
+ + += =
K
Prof. Massimiliano Giacalone
3
Media aritmetica: modalit di calcolo
Distribuzione di frequenze
Successione di n intensit1 =
n
ii
X
x
n =
1=
k
i ii
X
x n
n =
1
=k
X i ii
x f=
Frequenze assolute Frequenze relative
1
=
k
i ii
X
x n
n =
Distribuzioni in classi
1 p e r 1 , 2 , ,2
i ii
x xx i n
+= = K
Valore centrale delli-esima classe
Il calcolo dei valori centrali introduce unapprossimazione perchequivale ad attribuire una ripartizione uniforme delle frequenzeallinterno di ciascuna classe.
Carattere NUMERO DI BOTTIGLIE
1 1 1 2 2 2 2 33 3 4 4 4 4 4 55 5 5 5 5 5 5 5 5 5 6 6 6 6
n
ii 1
x1 1 6 1 1 9
3 9 7n 3 0 3 0
,=+ + +
= = = = L
( ) ( )
( ) ( )
n
i i ni 1
i ii 1
x n
x fn
1 0 1 0 2 0 1 3
3 0 1 0 6 0 1 3 3 9 7
, ,
, , ,
=
= = = =
= + +
+ + + =
L
N. bottiglie ni fi1 3 0,10
2 4 0,13
3 3 0,10
4 5 0,17
5 11 0,37
6 4 0,13
Totale 30 1
Prof. Massimiliano Giacalone
4
Carattere PREZZO CH, classi equiampie (primi 20 consumatori)
Classe ci ni fi
1,69 || 1,77 1,73 3 0,15
1,77 | 1,85 1,81 0 0
1,85 | 1,93 1,89 3 0,15
1,93 | 2,01 1,97 5 0,25
2,01 | 2,09 2,05 9 0,45
Totale 20 1
( ) ( ) ( )
k
i ii 1
c n
n
1 7 3 3 1 8 1 0 2 0 5 9
2 0
1 9 5 8
, , ,
,
= = =
+ + + = =
=
L
0 11
x x 1 6 9 1 7 7c 1 7 3
2 2
, ,,
+ += = =
1 22
x x 1 7 7 1 8 5c 1 8 1
2 2
, ,,
+ += = =
k 1 kk
x xc
2
+=
i 1 ii
x xc
2
+=
Propriet della media aritmeticaI) Internalit ( ) ( )1 X nx x
Dim: ( ) ( ) ( )1 p e r 1 , ,i nx x x i n = K
( ) ( ) ( )11 1 1
n n n
i ni i i
x x x= = =
( ) ( ) ( )11
n
i ni
n x x n x=
( )
( )
( ) ( ) ( )1
1 1
n
ii
Xn n
x
x x x xn
=
II) Propriet Baricentrica ( )1
0n
i Xi
x =
=
Dim: ( )
1 1 1 1
1 1 1 1
0
n n n n
i X i X i Xi i i i
n n n n
i i i ii i i i
x x x n
x n x n x x
= = = =
= = = =
= = =
= = =
Prof. Massimiliano Giacalone
5
III) Linearit
{ } { }1 1 1, , , ,n n nx x y x y x = = K K
t r a s f o r m a z i o n e l i n e a r eY X
X Y =
( )
( )
1 1 1
1
1 1 1
1 1 =
n n n
Y i ii i i
n
i Xi
x xn n n
n xn n
= = =
=
= = =
=
Y X =
Corollari:
{ } { }1 1 1, , , ,n n nx x y x y x = = K K
Y X =
{ } { }1 1 1, , , ,n n nx x y x y x = = K K
Y X = a)
b)
( ), Dim:
Scelta Prezzo MM
MM 1,99
MM 1,99
MM 1,99
MM 2,09
MM 2,09
MM 2,09
MM 2,09
MM 2,09
MM 2,13
Per i soli succhi di frutta MM considerare il carattere PREZZO MM. La casa produttrice decide di cambiare il prezzo di vendita del prodotto: per ogni acquirente il nuovo prezzo sar pari al prezzo di vendita mediano attuale pi il 18.75% del prezzo attuale. Qual la media dei nuovi prezzi di vendita?
9 1 5
2
M e x x 2 0 9,+= = =
La nuova serie dei prezzi p* sar dunque ottenuta dalla trasformazione lineare:
p* = 2,09 + 0,1875 p
0629
5518
9
p9
1ii
,, ===
=
2 0 9 0 1 8 7 5 2 0 9 0 1 8 7 5 2 0 6 2 4 7* , , , , , , = + = + =
* * *1 2 3p = p = p = 2 , 0 9 + 0 , 1 8 7 5 1 , 9 9 = 2 , 4 6
*9p = 2 , 0 9 + 0 , 1 8 7 5 2 , 1 3 = 2 , 4 9
* *4 8p = = p = 2 , 0 9 + 0 , 1 8 7 5 2 , 0 9 = 2 , 4 8L
9
ii 1
1 2 4 6 2 4 6 2 4 9p 2 4 7
9 9
* * , , , ,=
+ + + = = =
L
Prof. Massimiliano Giacalone
6
IV) Associativit1
1
=
= G
X j jj
nn
G = numero di gruppi
nj = numerosit del j-esimo gruppo (j=1,.,G)
( )1 2
1 , ,=
+ + + + + =K
K K1 4 4 4 44 2 4 4 4 4 43
j
j G
s u d d i v i s i o n e d e l l e i n t e n s i t i n G g r u p p i d i n u m e r o s i t n j G
n n n n n
1 1 1= = =
= 1 4 4 2 4 4 3
jnn G
i i ji j i
s o m m a d e l l e i n t e n s i t
x x
1
1 11 1 1 1
1 1 1; ; ; ;
= = =
= = = K K1 4 4 4 4 4 4 4 4 442 4 4 4 4 4 4 4 4 443
j Gn nn
i j i j G G ij Gi i i
m e d i e d e i g r u p p i
x x xn n n
1 1 1
1 1 1
1 1
1 1 1
= = =
= = =
= =
= =
j
j
nn G
X i i ji j i
nG G
i j j j jjj i j
x xn n
x n nn n n
xij = j-esima intensit delli-esimo gruppo
Scomposizione della media generale
Media aritmetica delle medie dei
gruppi
Dim:
nj Rivenditoren.bottiglie
bis
Bar 6
Bar 6
Bar 5
Bar 5
Bar 6
Bar 3
Bar 5
Bar 4
9 Bar 5
Coloniali 3
Coloniali 6
Coloniali 4
Coloniali 5
Coloniali 3
Coloniali 4
Coloniali 5
Coloniali 2
9 Coloniali 4
D. Automatico 2
D. Automatico 5
D. Automatico 3
4 D. Automatico 6
S.market 4
S.market 6
S.market 5
S.market 2
S.market 3
S.market 6
S.market 5
8 S.market 1
30 129
3 0
ii 1
x=
45
36
16
32
b a r b a rb a rb a r
1x
n =
c o l c o lc o lc o l
1x
n =
d a d ad ad a
1x
n =
s m s ms ms m
1x
n =
( ) ( ) ( ) ( )b a r c o l d a s m9 9 4 83 0
+ + + =
ii
1 1 2 9x 4 3
n 3 0, = = =
Prof. Massimiliano Giacalone
7
Gruppi/modalitG
njj = 1, , G
Bar 9 45
Coloniali 9 36
D. Automatico 4 16
Supermarket 8 32
Totali 30 129
jn
ii 1
x=
( ) ( ) ( ) ( )b a r b a r c o l c o l d a d a s m s mn n n nn
=
+ + + =
b a r b a rb a rb a r
1 1x 4 5 5
n 9 = = =
c o l c o lc o lc o l
1 1x 3 6 4
n 9 = = =
d a d ad ad a
1 1x 1 6 4
n 4 = = =
s m s ms ms m
1 1x 3 2 4
n 8 = = =
( ) ( ) ( ) ( )5 9 4 9 4 4 4 8 1 2 94 3
3 0 3 0,
+ + + = = =
V) Minimizzazione della somma degli scarti al quadrato
( )21
m i n s e e s o l o s e n
i Xi
x =
= =
Dim: ( ) ( )2 2
1 1
s e n n
X i i Xi i
x x = =
>
( ) ( )
( ) ( )
( ) ( )
2 2
1 1
2 2
1
1
2
n n
i i X Xi i
n
i X Xi
n
X i Xi
x x
x n
x
= =
=
=
= + =
= + +
+
( ) ( ) ( )
( ) ( )
2 2 2
1 1
2 2
1 1
n n
i i X Xi i
n n
i i Xi i
x x n
x x
= =
= =
= +
>
Termine nullo per la II proprie-t della media arit-metica
Prof. Massimiliano Giacalone
8
Quale indice di posizione scegliere?
La mediana minimizza la somma degli scarti in valore assoluto:
n
ii 1
x c c M em i n=
= =
La mediana un indice robustorobusto: non subisce linfluenza di valori anomali
CRITERIO:
Se occorre un indice che tenga conto di tutti i tutti i valorivalori, si utilizza la media.
Se non si vuole che i valori estremivalori estremi alterino il valore dellindice, allora si utilizza la mediana
esempio:Scelta del luogo in cui situare il deposito di n punti vendita, in modo da minimizzare le distanze complessive (quindi i costi):
il luogo che soddisfa tale condizione la mediana dei punti vendita
INDICI STATISTICI DI VARIABILITAVariabilit: Attitudine di un fenomeno ad assumerediverse intensit
Caratteristiche di un indice di variabilit
Dispersione rispetto ad un centro
Mutua variabilit
Mutevolezza delle frequenze(Concentrazione per caratteri trasferibili)
Come si misura la variabilit?
( )( )( ) ( )
( ) ( )
1
1 1
1 1
) , , 0
) , , 0
) , , ,
) S e , , , X p i v a r i a b i l e d i Y
n
n n
n n
i V x x
i i V c c
i i i V x c x c V x x
i v V x x V y y
=
+ + =
K
K
K K
K K
V(): Indice di variabilit; c: costante nota
N.B. Un indice di variabilit sempre maggiore o uguale a zero.
Prof. Massimiliano Giacalone
9
Variabilit e funzione di ripartizione empirica
Una funzione di ripartizione empirica molto ripida (che subitoraggiunge 1) indica scarsa variabilit. Viceversa, unafunzione di ripartizione empirica che raggiunge 1 moltolentamente indica elevata variabilit.
Campo di Variazione
molto sensibile alla presenza di valori anomali
Differenza Interquantile
Differenza tra due quantili equidistanti dagli estremi delladistribuzione
Via via meno sensibile alla presenza di valori anomali, mamano che r ed s si avvicinano.
r > s
Differenza Interquartile
un indice pi robusto del campo di variazione
Coefficiente di Variazione Interquartile
Non dipende dallunit di misura del carattere osservato(come il Range e lIQR) ma solo dal rapporto tra quartili
Se Me 0 allora CQV
Prof. Massimiliano Giacalone
10
Variabilit rispetto ad un centroObiettivo:Sintetizzare una opportuna funzione degliscartidelle singole intensit dallindice di posizioneM prescelto
Successione degli scarti:( ) ( ) ( ) ( )1 2, , , , ,i nx M x M x M x M K K
( )
( )1
2
1
0
S e
m i n
n
ii
n
ii
x
M
x
=
=
== =
1
S e m i nn
ii
M M e x M e=
= =
Ogni scarto esprime la distanza di ciascuna intensit dallindiceM.
La variabilit rispetto ad un centro pu essere definitaspecificando in diversi modiM.
Ricordiamo che:
VARIANZA
Misura la dispersione media intorno alla media aritmetica.
Si calcola come media aritmetica dei quadrati degli scarti.
1. Per una successione di valori:
2. Per una distribuzione di frequenza:
3. Per una distribuzione in classi di frequenza:
Prof. Massimiliano Giacalone
11
N. bottiglie ni fi1 3 0,10
2 4 0,13
3 3 0,10
4 5 0,17
5 11 0,37
6 4 0,13
Totale 30 1( )
( ) ( ) ( )
2
2 1
2 2 21 3 , 9 7 3 2 3 , 9 7 4 6 3 , 9 7 4
3 0
7 2 , 9 72 , 4 1
3 0
n
i ii
x n
n
=
= =
+ + + = =
= =
L
( ) ( ) ( )
2
2 21
2 2 2
21 3 2 4 6 4
3 , 9 73 0
5 4 51 5 , 7 3 2 , 4 1
3 0
n
i ii
x n
n
== =
+ + + = =
= =
L
Formula alternativa:
Classe ci ni fi
1,69 || 1,77 1,73 3 0,15
1,77 | 1,85 1,81 0 0
1,85 | 1,93 1,89 3 0,15
1,93 | 2,01 1,97 5 0,25
2,01 | 2,09 2,05 9 0,45
Totale 20 1
( )( )
( ) ( )
( )
2
22 1
1
2 2
2
1 , 7 3 1 , 9 6 0 , 1 5 1 , 8 1 1 , 9 6 0
2 , 0 5 1 , 9 6 0 , 4 5 0 , 0 0 4
k
i i ki
i ii
c n
c fn
=
=
= = =
= + + +
+ =
L
( ) ( )
n
i i ni 1
i ii 1
c n
c f 1 7 3 0 1 5 2 0 5 0 4 5 1 9 6n
, , , , ,=
= = = = + + =
L
( ) ( )( )
2
2 2 2 21
1
2 2
2 2
1 , 7 3 0 , 1 5 1 , 8 1 0
2 , 0 5 0 , 4 5 1 , 9 6 0 , 0 0 4
n
i i ni
i ii
c n
c fn
=
=
= = =
= + + +
+ =
L
Formula alternativa:
Prof. Massimiliano Giacalone
12
Propriet della varianza
I)20 X
II) Esprime la variabilit nella stessa unit di misuradel carattere osservato, ma elevata al quadrato
III) ( )22
2X =
Dim: ( )
( ) ( )
( ) ( ) ( )
( )
22
1
2 2
1 1 1
2 2
1
2 2
1
1=
1 1 12
12
1
n
X ii
n n n
i ii i i
n
ii
n
ii
xn
x xn n n
xn
xn
=
= = =
=
=
=
= + =
= + =
=
Formula alternativa per il calcolo della varianza
IV)t r a s f o r m a z i o n e l i n e a r e
Y XX Y=
( ),
Dim:
e i i Y Xy x= + = +
( ) ( )
( )
2 22
1 1
22 2 2
1
1 1
1
n n
Y i Y i Xi i
n
i X Xi
y xn n
xn
= =
=
= = + =
= =
quindi:
Prof. Massimiliano Giacalone
13
Esempio
Scelta Prezzo MM
MM 1,99
MM 1,99
MM 1,99
MM 2,09
MM Me 2,09
MM 2,09
MM 2,09
MM 2,09
MM 2,13
Nuovo prezzo = prezzo mediano attuale + 18.75% del prezzo attuale.
Qual la varianzavarianza del nuovo prezzo?
Trasformazione lineare:
p* = 2,09 + 0,1875 p
2 * 2 20 , 1 8 7 5 0 , 0 3 5 0 , 0 0 2 0 , 0 0 0 0 7 5= = =
Calcolo della nuova varianza:
= 2,09; = 0,1875
2 * 2 2=
V) Decomposizione della varianza
La varianza di X data dalla somma della mediadelle varianze di gruppo (varianza interna) e dallavarianza delle medie di gruppo (varianza esterna).
( )22 21 1
V A R I A N Z A I N T E R N A V A R I A N Z A E S T E R N A
1 1G GX j j j X j
j j
n nn n= =
= + 1 4 2 43 1 4 4 4 2 4 4 43
Se:
G = numero di gruppi;
j: media delli-esimo gruppo;
nj = numerosit dellj-esimo gruppo (j = 1,.,G);
allora:
2 2 2T O T I N T E X T= + ossia:
Prof. Massimiliano Giacalone
14
Dim:
( )
1 2
s u d d i v i s i o n e d e l l e i n t e n s i t i n G g r u p p i d i n u m e r o s i t 1 , ,
j
j G
nj G
n n n n n
=
+ + + + + =
K
K K1 4 4 4 4 44 2 4 4 4 4 4 43
( ) ( )
( )
( ) ( )
( ) ( )
222
1 1 1
V a r i a n z a d e l l a p a r t i z i o n e i n g r u p p i
2
1 1
2 2
1 1 1 1
1 1
1 1
1
1 1
12
i
i
i i
i
nn G
X i X i j Xi j i
nG
i j j j Xj i
n nG G
i j j j Xj i j i
nG
i j j j Xj i
x xn n
xn
xn n
xn
= = =
= =
= = = =
= =
= = =
= + =
= + +
+
1 4 4 4 2 4 4 43
1
1 jn
j i jj i
xn =
= Media aritmetica delle intensit appartenenti alli-esimo gruppo.
( ) ( ) ( ) ( )1 1 1 1
u g u a l e a z e r o p e r l a I p r o p r i e t d i
1 22 0
i in nG G
i j j j X j X i j jj i j i
x xn n= = = =
= =
1 44 2 4 43
3 Addendo
Quindi:
1 Addendo
( )
( )
2
1 1
2 2 2
1 1 1
V a r i a n z a d e l l ' i - e s i m o g r u p p o
1
1 1 1
i
j
I N T
nG
i j jj i
nG G
i j j j j jj i jj
xn
x n nn n n
= =
= = =
=
= = =
1 4 4 4 2 4 4 43
2 Addendo
( ) ( )2 2 21 1 1
V a r i a n z a d e l l e m e d i e d i g r u p p o
1 1i
E X T
nG G
j X j X jj i j
nn n= = =
= = 1 4 4 4 2 4 4 43
Prof. Massimiliano Giacalone
15
Esempio sceltabottiglie CH MM Totale
1 1 2 3
2 2 2 4
3 2 1 3
4 5 0 5
5 7 4 11
6 4 0 4
Totale 21 9 30
( ) ( ) ( )
6
11
2 1
1 1 2 2 6 44 , 2 8
2 1
iC H ii
C H
x n== = =
+ + + = =
L
( ) ( ) ( )
6
12
9
1 2 2 2 5 43 , 2 2
9
iM M ii
M M
x n== = =
+ + + = =
L
G = 2 (1 = CH; 2 = MM)
( )
( ) ( )
6 2
2 2 11
2 2
2 1
1 4 , 2 8 1 6 4 , 2 8 4 4 0 , 2 91 , 9 2
2 1 2 1
iC H C H ii
C H
x n=
= = =
+ + = = =
L
( )
( ) ( )
6 2
2 2 12
2 2
9
1 3 , 2 2 2 6 3 , 2 2 0 2 5 , 5 62 , 8 3
9 9
iM M M M ii
M M
x n=
= = =
+ + = = =
L
( ) ( )2 21
1 1 , 9 2 2 1 2 , 8 3 92 , 1 9
3 0
G
I N T j jj
nn =
+ = = =
( )
( ) ( )
22
1
2 2
1
4 , 2 8 3 , 9 7 2 1 3 , 2 2 3 , 9 7 90 , 2 4
3 0
G
E S T j X jj
nn =
= =
+ = =
Prof. Massimiliano Giacalone
16
SCARTO QUADRATICO MEDIO
(o scostamento quadratico medio, o deviazione standard)
E uguale alla radice quadrata della varianza.
Esprime la variabilit nella stessa unit di misura delcarattere osservato.
1. Per una successione di valori:
2. Per una distribuzione di frequenza:
3. Per una distribuzione in classi di frequenza:
interpretabile come scarto medio intorno alla media; la maggior parte dei valori sono compresi nellintervallo:
[ - ; + ]
s i t u a z i o n e d i m a s s i m a v a r i a b i l i t
0 p e r 1 , , 1 i nx i n x n= = =K1 4 4 4 4 4 4 4 4 44 2 4 4 4 4 4 4 4 4 4 43
( )
( ) ( ) ( )
( )
( ) ( )
22
1
2 2
2 2 2 2 2
2 2 2 2 2 2
2
2 2 2 2
1
10 1 1
11 2
12
111
n
ii
xn
n nn
n n nn
n n nn
n nn n n
n n
=
= =
= + =
= + + =
= + + =
= = =
Nella situazione di massima variabilit
2= 2(n-1) e 1n =
MASSIMA VARIABILITA
( ) ( )2 2 1 1n n = = = Quindi:
Prof. Massimiliano Giacalone
17
INDICI DI VARIABILITA RELATIVA
Coefficiente di variazione
E un indice indipendente dallunit di misura ( un numeropuro) e pu essere utilizzato per confrontare distribuzionidiverse
( ) ( )2 20 1 e 0 1n n Poich:
INDICE DI VARIABILITA RELATIVI NORMALIZZATI (compresi tra 0 ed 1)
Scarto quadratico medio relativo
Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo che esso pu assumere per la distribuzione:
5614322 ,, ===
07029973
561
1nrel ,
,
, ==
=
390973
561CV ,
,
, ===
N. bottiglie ni fi1 3 0,10
2 4 0,13
3 3 0,10
4 5 0,17
5 11 0,37
6 4 0,13
Totale 30 1
Scarto quadratico medio:
Coefficiente di variazione:
Scarto quadratico medio relativo:
Esempio
Prof. Massimiliano Giacalone
18
INDICI DI MUTUA VARIABILIT
DIFFERENZE MEDIEDifferenza Media Semplice (senza ripetizione)
Differenza Media Quadratica
Misurano quanto le unit statistiche differiscono tra di lorotra di loro(non pi rispetto ad un punto fisso).
Il calcolo si basa sulle differenze tra tutte le coppie di unit statistiche.
Successione di valori Distribuzione di frequenza
Successione di valori Distribuzione di frequenza
A B C D E F G
xi 3 6 5 10 3 6 7
A 3 3 2 7 0 3 4
B 6 3 1 4 3 0 1
C 5 2 1 5 2 1 2
D 10 7 4 5 7 4 3
E 3 0 3 2 7 3 4
F 6 3 0 1 4 3 1
G 7 4 1 2 3 4 1
Scarti semplici in valore assoluto
Impresa Addetti
A 3
B 6
C 5
D 10
E 3
F 6
G 7
totale 40
n
ii 1
x4 0
5 7 1n 7
,= = = =
Calcolo della Differenza Media Semplice:
Prof. Massimiliano Giacalone
19
Impresa Addetti
A 0
B 0
C 0
D 0
E 0
F 0
G 40
totale 40
Impresa Addetti
A 5,71
B 5,71
C 5,71
D 5,71
E 5,71
F 5,71
G 5,71
totale 40
Equidistribuzione degli addetti Massima concentrazione di addetti
xi = xj i,j = 0A B C D E F G
xi 0 0 0 0 0 0 40
A 0 0 0 0 0 0 40
B 0 0 0 0 0 0 40
C 0 0 0 0 0 0 40
D 0 0 0 0 0 0 40
E 0 0 0 0 0 0 40
F 0 0 0 0 0 0 40
G 40 40 40 40 40 40 40
= 2
( )
( )
( )
n n
i j ii j 1 i 1
x x 2 n 1 x
2n n 1 n n 1
= =
= = =
INDICE DI CONCENTRAZIONE
R = 0 se = 0Caso di equidistribuzioneequidistribuzione del carattere
R = 1 se = 2Caso di massima concentrazionemassima concentrazione del carattere
0 R 1
2 8 6, = 2 2 5 7 1 1 1 4 2m a x , , = = =
Se:
Prof. Massimiliano Giacalone
20
auto ni1 3
2 8
3 6
4 2
5 1
tot 20
X = NUMERO DI AUTO POSSEDUTE relativo ad un collettivo di 20 famiglie
Caso di distribuzione di frequenza
nj 3 8 6 2 1
ni auto 1 2 3 4 5
3 1 24 36 18 12
8 2 24 48 32 24
6 3 36 48 12 12
2 4 18 32 12 2
1 5 12 24 12 2
( )
( ) ( ) ( )
1
1
1 2 3 8 1 3 3 6 5 4 1 2 4 4 01 , 1 6
2 0 1 9 3 8 0
K
i j i ji j
x x n n
N N
=
= =
+ + + = =
L
Scarti semplici in valore assoluto
55,222MAX ===
INDICI DI
ETEROGENEIT ED OMOGENEIT
Mutabilit: Attitudine di un fenomeno ad assumerediverse modalit
Distribuzione Massimamente Omogenea: le n unitstatistiche presentano tutte la stessa modalit
Distribuzione Massimamente Eterogenea: nelladistribuzione di frequenza appaiono tutte le k modalit, ead ognuna di esse associata la medesima frequenza.
Caratteristiche di un indice di mutabilit
M(): Indice di mutabilit
( ) ( )
( ) ( )
( ) ( ) ( )
1
1
1
) , , m i n
m a s s i m a o m o g e n e i t
) , , m a x
m a s s i m a e t e r o g e n e i t
) m i n , , m a x
o m o g . / e t e r o g . i
n
n
n
i M x x M
i i M x x M
i i i M M x x M
=
=
< >
Le intensit si attardano sullacoda di sinistra delladistribuzione
Per distribuzioni unimo-dali:
XM o M e> >
INDICI DI FORMAForniscono informazioni sulla forma di una distribuzione (simmetria, asimmetria positiva o negativa).
Indice di Hotelling e SolomonIndice di Hotelling e Solomon
0
1 0
0 1
H S
H S
H S
A S i m m e t r i a
A A s i m m e t r i a P o s i t i v a
A A s i m m e t r i a N e g a t i v a
= 0
K = 0
K < 0
Distribuzione leptocurticaDistribuzione leptocurtica: i valori si accentrano intorno alla media pi di quanto accade per la distribuzione Normale
Distribuzione platicurticaDistribuzione platicurtica: presenta delle densit di frequenza nella coda della distribuzione pi di quanto accade per la distribuzione Normale.
N. bottiglie CH ni fi Fi
1 1 0,05 0,05
2 2 0,09 0,14
3 2 0,09 0,23
4 5 0,25 0,48
5 7 0,33 0,81
6 4 0,19 1
Totale 21 1
N. bottiglie MM ni fi Fi
1 2 0,22 0,22
2 2 0,22 0,44
3 1 0,11 0,55
4 0 0 0,55
5 4 0,45 1
6 0 0 1
Totale 9 1
( )3
1
3 3 3
3 3 3
1
1 1 4 , 2 9 2 4 , 2 9 3 4 , 2 92 2
2 1 1 , 3 9 1 , 3 9 1 , 3 9
4 4 , 2 9 5 4 , 2 9 6 4 , 2 95 7 4
1 , 3 9 1 , 3 9 1 , 3 9
11 3 , 3 5 8 , 9 9 1 , 6 0 ,
2 1
C Hn C HC H iC H i
iC H C H
xA F n
n =
= =
+ + +
+ + + =
=
( )0 4 0 , 9 6 7 , 5 8
1 5 , 4 40 , 7 4
2 1
+ + =
= =
CH = 4,29 MM = 3,22CH = 1,39 MM = 1,69
Prof. Massimiliano Giacalone
28
( )
( )
M M3
nM MM M i
M M ii 1M M M M
3 3
3 3
x1A F n
n
1 1 3 , 2 2 2 3 , 2 22 2
9 1 , 6 9 1 , 6 9
3 3 , 2 2 5 3 , 2 24
1 , 6 9 1 , 6 9
1 0 , 6 64 , 5 9 0 , 7 6 0 , 0 0 2 4 , 7 0 , 0 7
9 2 1
=
= =
= + +
+ + =
= + = =
Dal confronto risulta che entrambe le distribuzioni presentano un valore negativo dellindice di Fisher, quindi unasimmetria negativa, che leggermente pi accentuata per i consumatori CH.
IL BOXPLOTPermette di studiare graficamente la forma di una distribuzioneCostruzione del boxplot:Costruzione del boxplot:
1. Si determinano i quantili: x(1), Q1, Q2 = Me, Q3, x(n)2. Si disegna una scatola di estremi Q1 e Q3 tagliata
sulla mediana
Q 1 Me Q3
3. Si calcolano i valori a e b:( ) ( )1 3 1 3 3 11 , 5 ; 1 , 5a Q Q Q b Q Q Q= = +
4. Si calcolano i valori e : = minimo dei valori maggiore di a = massimo dei valori minori di b
Prof. Massimiliano Giacalone
29
5. Si disegnano i baffi sui valori e
Q 1 Me Q3
5. I valori oltre a e b sono disegnati con dei puntini(valori anomali)
Q 1 Me Q3
Caratteristiche del boxplot:
Permette di visualizzare le informazioni sullaforma e la variabilit di una distribuzione
Consente di confrontare graficamente la forma dipi distribuzioni
Esempi
Distribuzione simmetrica
Distribuzioneasimmetricapositiva
Distribuzioneasimmetricanegativa
3.54.04.55.05.56.06.5
510152025
-25-20-15-10-5
Prof. Massimiliano Giacalone
30
Distribuzione CHESEMPI
Q1 = 4Q2 = Me = 5Q3 = 5
( ) 52QQ51Qa 131 ,, ==
{ } 3ax i == min( ) 56QQ51Qb 133 ,, =+=
{ } 6bx i == max
Q1 = 2Q2 = Me = 3Q3 = 5
Distribuzione MM
( ) 52QQ51Qa 131 ,, ==( ) 59QQ51Qb 133 ,, =+=
{ } 1ax i == min{ }im a x x b 5 = = 1
2
3
4
5
n. b
ottig
lie s
ucch
i MM
1
2
3
4
5
6
n. b
ottig
lie s
ucch
i CH
02
46
810
Boxplot Numero di stabilimenti (n=50)
02
46
8
Boxplot Numero di stabilimenti (n=49)
( )1 3 11 , 5 1 4 , 5 3 , 5 0a Q Q Q= = = =
( )3 3 11 , 5 4 4 , 5 8 , 5 8b Q Q Q= + = + = =
Caso a) n=50:
Caso b) n=49:
Q1 = 1; Me = 2; Q3 = 4
Q1 = 1; Me = 2; Q3 = 4( )1 3 11 , 5 1 4 , 5 3 , 5 0a Q Q Q= = = =
( )3 3 11 , 5 4 4 , 5 8 , 5 8b Q Q Q= + = + = =
Prof. Massimiliano Giacalone
31
Le relazioni statistiche per distribuzioni doppie possono essere di due tipi:
Connessione: esistenza di una relazione reciproca tra i due caratteri
Dipendenza assoluta
Dipendenza: esistenza di una relazione di causa-effetto tra i due caratteri
Dipendenza lineareDipendenza in media
Correlazione (o intedipendenza): esistenza di una relazione di dipendenza reciproca tra i due caratteri.
Relazioni statistiche
INDICI DI CONNESSIONE
Indice ChiIndice Chi--quadro di Pearson (quadro di Pearson (22))
= f r e q u e n z e t e o r i c h ei ji jn n
nn
=
Per misurare la connessione bisogna considerare ledifferenze tra le frequenze teoriche e le frequenzeosservate.
( )1 1 1 1 1 1
1 1 1 1
1 1
10
k h k h k h
i j i j i j i ji j i j i j
k h k h
i j i ji j i j
n n n n
n n n n n nn n
n n n n nn
= = = = = =
= = = =
= =
= = =
= = =
Prof. Massimiliano Giacalone
32
20
2 0 = Non esiste connessione (esiste indipendenza)tra X ed Y. Ogni frequenza congiunta pari allarispettiva frequenza teorica.
2 0 > Esiste connessione (non esiste indipendenza)tra X ed Y. Almeno una frequenza congiunta diversa dalla rispettiva frequenza teorica.
Lindice chi-quadro pari alla somma dei quadrati delledifferenze tra le frequenze teoriche e le frequenzeosservate.
Formulazione alternativaFormulazione alternativa
( )22
i j i j
i ji j
n n
n
=
2
i j
i j i j
n
n= +
2
i j
i j i j
n
n
2
i j i j
i j i j
n n
n =
2
2
i ji j i j
i j i j i ji j
nn n
n n
n
= + =
2
2i j
i j i j
nn n n
n n = + =
Prof. Massimiliano Giacalone
33
Indice PhiIndice Phi--quadro di Fisher (quadro di Fisher ( 22))
{ }20 m i n 1 , 1k h
2 1 1 i j j ih k n n n = = = =
2 1 i j ih n n = =
Perfetta dipendenza bilaterale in tabelle quadrate
Perfetta dipendenza di Y da X in tabelle rettangolari
2 1 i j jk n n = =
Perfetta dipendenza di X da Y in tabelle rettangolari
h < k
k < h
negozio scelta Bar Coloniali D. Autom. S.market Totale
CH 9 8 1 3 21
MM 0 1 3 5 9
Totale 9 9 4 8 30
( )
= =
=
k
1i
h
1j ij
2
ijij2
n
nn
negozio scelta Bar Coloniali D. Autom. S.market Totale
CH 6,3 6,3 2,8 5,6 21
MM 2,7 2,7 1,2 2,4 9
Totale 9 9 4 8 30
Frequenze teoriche ijn
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
2 2 2 2
2
2 2 2 2
9 6 , 3 8 6 , 3 1 2 , 8 3 5 , 6
6 , 3 6 , 3 2 , 8 5 , 6
0 2 , 7 1 2 , 7 3 1 , 2 5 2 , 4
2 , 7 2 , 7 1 , 2 2 , 4
1 , 1 6 0 , 4 6 2 , 8 2 1 3 , 2 7
= + + + +
+ + + + =
= + + =L
Metodo A.
Prof. Massimiliano Giacalone
34
negozio scelta Bar Coloniali D. Autom. S.market
CH 81 64 1 9
MM 0 1 9 25
Frequenze teoriche 2ijn
negozio scelta Bar Coloniali D. Autom. S.market
CH 189 189 84 168
MM 81 81 36 72
ji nn ..
[ ]
2 8 1 6 4 1 9 1 9 2 53 0 11 8 9 1 8 9 8 4 1 6 8 8 1 3 6 7 2
3 0 1 , 4 4 1 1 3 , 2 7
= + + + + + + =
= =
=
= =
1nn
nn
k
1i
h
1j ji
2ij2
..Metodo B.
44030
2713
n
1 22 ,, === 20 1
negozio
scelta Bar Coloniali D. Autom S.market Totale
CH 9 0 4 0 13
MM 0 9 0 8 17
Totale 9 9 4 8 30
Esempi di perfetta dipendenza unilateraleEsempi di perfetta dipendenza unilaterale
Massima dipendenza unilaterale del carattere SCELTA (X) dal carattere NEGOZIO (Y)
jij nn .=
negozio
scelta Bar Coloniali D. Autom S.market Totale
CH 21 0 0 0 21
MM 0 0 9 0 9
Totale 21 0 9 8 30
Massima dipendenza unilaterale del carattere NEGOZIO (Y) dal carattere SCELTA (X)
.iij nn =
Prof. Massimiliano Giacalone
35
DIPENDENZA IN MEDIA
Y quantitativo Y quantitativo X qualitativo X qualitativo
Indipendenza in media di Y da X:
al variare delle modalit di X le medie delle distribuzioni condizionate di Y rimangono costanti.
X quantitativo X quantitativo Y qualitativo Y qualitativo
Indipendenza in media di X da Y:
al variare delle modalit di Y le medie delle distribuzioni condizionate di X rimangono costanti.
( )
( )
2
2 |1
| 2 2
1
i
X
k
X Y y x iE X T i
X Yh
X
j X jj
n
x n
= =
=
= =
( )( )
2
2 |1
| 2 2
1
j
Y
h
Y X x Y jE X T j
Y Xk
Y
i Y ii
n
y n
= =
=
= =
Rapporto di correlazione di PearsonRapporto di correlazione di Pearson
MMMM
XY x0 x1 x1 x2 xh-1 - xh tot
y1 n11 n12 n1h n1.
y2 n21 n22 n2h n2.
nij ni.
yk nk1 nk2 nkh nk.
tot n.1 n.2 n.j n.h n
Se y quantitativo:
Prof. Massimiliano Giacalone
36
Propriet:
|0 1X Y
| 0X Y =Perfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (X)
| 1X Y =
Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalit di Y corrisponde una sola intensit di X che presenta frequenza non nulla
I)
II) |0 1Y X
III) Lindice non simmetrico
| |Y X X Y
IV) | | | | X Y = Y X X Y Y X X Y= =
ESEMPIOFatturato (Y) Settore
merceologico (X) 200
200-|300
300-|400
400-|500 >500 Totale
Alimentare 11 1 5 1 3 21 Bevande 1 1 0 1 0 3 Health Care 6 1 1 2 2 12 I. Packaging 7 2 1 1 3 14 Totale 25 5 7 5 7 50
( )1| 1
11
1
1 5 0 1 1 2 5 0 1 3 5 0 5 4 5 0 1 1 2 5 6 3
2 1
3 4 8 , 4 8
h
Y X x j jj
y nn
==
= =
+ + + + = =
=
( )
( )
2
2 |1
| 2 2
1
i
Y
k
Y X x Y iE X T i
Y Xh
Y
j Y jj
n
y n
= =
=
= =
Prof. Massimiliano Giacalone
37
( )2| 2
12
1
1 5 0 1 2 5 0 1 4 5 0 12 6 6 , 6 7
3
h
Y X x j jj
y nn
==
= =
+ + = =
( )3| 3
13
1
1 5 0 6 2 5 0 1 3 5 0 1 4 5 0 2 1 2 5 6 23 8 4 , 3 3
1 2
h
Y X x j jj
y nn
==
= =
+ + + + = =
( )4| 4
14
1
1 5 0 7 2 5 0 2 3 5 0 1 4 5 0 1 1 2 5 6 34 1 2
1 4
h
Y X x j jj
y nn
==
= =
+ + + + = =
( )1
1
1 5 0 2 5 2 5 0 5 3 5 0 7 4 5 0 5 1 2 5 6 73 4 4 , 8 4
5 0
h
Y j jj
y nn
=
= =
+ + + + = =
Le medie delle distribuzioni condizionate sono tutte diverse dalla media di Y per cui esiste dipendenza in media
( )( ) ( )( ) ( )
2
|1
2 2
2 2
3 4 8 , 4 8 3 4 4 , 8 4 2 1 2 6 6 , 6 7 3 4 4 , 8 4 3
3 8 4 , 3 3 3 4 4 , 8 4 1 2 4 1 2 3 4 4 , 8 4 1 4 1 0 0 . 4 7 4 , 1
i
k
Y X x Y ii
n= =
=
= + +
+ + =
( )( ) ( )( ) ( )( )
2
1
2 2
2 2
2
1 5 0 3 4 4 , 8 4 2 5 2 5 0 3 4 4 , 8 4 5
3 5 0 3 4 4 , 8 4 7 4 5 0 3 4 4 , 8 4 5
1 . 2 5 6 3 4 4 , 8 4 7 7 . 4 1 0 . 6 0 6
h
j Y jj
y n =
=
= + +
+ +
+ =
Prof. Massimiliano Giacalone
38
( )
( )
2
2 |1
| 2 2
1
1 0 0 . 4 7 4 , 10 , 1 1 6
7 . 4 1 0 . 6 0 6
i
Y
k
Y X x Y iE X T i
Y Xh
Y
j Y jj
n
y n
= =
=
= = =
= =
La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO piuttosto debole.
CORRELAZIONE
Misura del grado di interdipendeza (dipendenza reciproca) tra due caratteri quantitativi (variabili).
Coefficiente di correlazione di Bravais-Pearson ()
1 1
2 2
n n
X Y
x y
x y
x y
M M
( ) ( )i x i YX Y
X Y
1x y
n
=
X YX Y
X Y
=
= covarianza tra X ed YX Y
Prof. Massimiliano Giacalone
39
La covarianza ci fornisce informazioni su come variano (co-variano) simultaneamente le due variabili considerate.
0 I n d i p e n d e n z a
0 I n t e r d i p e n d e n z a p o s i t i v a
0 I n t e r d i p e n d e n z a n e g a t i v a
X Y
X Y
X Y
=> 9 5 0 T o t a le
2 0 0 5 9 7 2 2 2 5 2 0 0 - | 3 0 0 1 1 1 2 0 5 3 0 0 - | 4 0 0 1 2 1 3 0 7 4 0 0 - | 5 0 0 0 0 0 2 3 5 > 5 0 0 0 1 0 2 5 8 T o t a le 7 1 3 9 1 1 1 0 5 0
Prof. Massimiliano Giacalone
42
Per calcolare il termine consigliabilecostruire la tabella delle , ossia:
i j i ji j x y n
i j i jx y n
100 250 425 750 3.608 100 50.000 225.000 297.500 150.000 721.600 250 25.000 62.500 106.250 375.000 0 350 35.000 175.000 148.750 787.500 0 450 0 0 0 675.000 4.870.800 1.256 0 314.000 0 1.884.000 22.658.240
La somma degli elementi allinterno di tale tabella pari a:
3 3 . 5 6 1 . 1 4 0i j i ji j x y n =
da cui
3 3 . 5 6 1 1 4 06 7 1 . 2 2 3
5 0
i j i ji jx y n
n= =
Per il calcolo gli altri termini:
ix in jy jn i ix n j jy n 2 ix
2 i ix n 2j
y
2j j
y n
100 25 100 7 2.500 700 10.000 250.000 10.000 70.000 250 5 250 13 1.250 3.250 62.500 312.500 62.500 812.500 350 7 425 9 2.450 3.825 122.500 857.500 180.625 1.625.625 450 5 750 11 2.250 8.250 202.500 1.012.500 562.500 6.187.500
1.256 8 3.608 10 10.048 36.080 1.577.536 12.620.288 13.017.664 130.176.640 18.498 52.105 15.052.788 138.872.265
1 1 1 8 . 4 9 8 3 6 9 , 9 6
5 0X i i
i
x nn
= = =
1 1 5 2 . 1 0 5 1 . 0 4 2 , 1
5 0Y j j
j
y nn
= = =
6 7 1 . 2 2 3 3 6 9 , 9 6 1 . 0 4 2 , 1 2 8 5 . 6 8 7X Y = =
2
1
1 1 1 5 .0 5 2 . 7 8 8 3 0 1 .0 5 6
5 0i
k
i
i
x nn =
= =
2
1
1 1 1 3 8 . 8 7 2 . 2 7 5 2 .7 7 7 . 4 4 5
5 0
h
j j
j
y nn =
= =
( ) ( )2 22 8 5 . 6 8 7
3 0 1 . 0 5 6 3 6 9 , 9 6 2 . 7 7 7 . 4 4 5 1 . 0 4 2 , 1
0 , 5 4 2
X Y = =
=
Correlazione diretta