statistica ii parte -...

42
Prof. Massimiliano Giacalone 1 1 Università della Calabria Corso di statistica Corso di statistica ARCAVACATA ARCAVACATA a.a a.a 2010 2010-2011 2011 Campus di Arcavacata IL CONCETTO DI MEDIA I) Criterio di internalità (Chisini) La media di una variabile X è qualunque valore reale M intermedio tra il minimo x (1) ed il massimo x (n) di una distribuzione. (29 ( 29 1 n x M x II) Logica della trasferibilità di una variabile (Chisini) La media di una variabile X è quel valore M, intermedio tra il minimo x (1) ed il massimo x (n) di una distribuzione che, rispetto ad una funzione sintetica delle osservazioni, ne lascia inalterato il valore. ( ( 1 , , , , n n volte f x x f M M = K K 1 442 4 43 Il valore della funzione f() non cambia se si sostituisce ad ogni intensità di X il valore M.

Upload: vandien

Post on 22-Feb-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Prof. Massimiliano Giacalone

1

1

Universit della Calabria

Corso di statisticaCorso di statistica

ARCAVACATA ARCAVACATA a.aa.a 20102010--20112011

Campus di Arcavacata

IL CONCETTO DI MEDIA

I) Criterio di internalit (Chisini)

La media di una variabile X qualunque valore realeMintermedio tra il minimo x(1) ed il massimo x(n) di unadistribuzione. ( ) ( )1 nx M x

II) Logica della trasferibilit di una variabile (Chisini)

La media di una variabile X quel valoreM, intermediotra il minimo x(1) ed il massimox(n) di una distribuzioneche, rispetto ad una funzione sintetica delle osservazioni,ne lascia inalterato il valore.

( ) ( )1

, , , ,nn v o l t e

f x x f M M=K K1 44 2 4 43

Il valore della funzione f( ) non cambia se si sostituisce ad ogni intensit di X il valore M.

Prof. Massimiliano Giacalone

2

III) Minimizzazione della perdita globale (Wald)

La media di una variabile X quel valoreM che minimizzala funzione di perdita complessiva che si ottiene quando allesingole osservazioni(x1,,xn) si sostituisceM.

( )( ), m i n s e id x M = =l( ),id x = Perdita subita nel sottrarre da xi, per i=1,2,..,n( ) =l Funzione che sintetizza le singole perdite in un unico valore

( ) ( ) ( ) ( ) ( ) ( )

( ) ( )

1 2

1

n

n

ii

x x x M M M

x n M=

+ + + = + + +

=

l l K l l l K l

c

l l

IV) Principio della equiripartizione (Naguno-Kolmogorov-De Finetti)

La media di una variabile X quel valore M che realizzalequiripartizione rispetto ad una funzione( )l

LA MEDIA ARITMETICALa sua individuazione deriva dalla logica della trasferibilit di una variabile (Chisini).

( ) ( )1

, , , ,nn v o l t e

f x x f =K K1 4 2 4 3

Se la funzione f( ) corrisponde alla somma:

1 2

n

n v o l t e

x x x + + + = + + +K K1 44 2 4 43

1 1 2

1

=

n

ini n

i Xi

xx x x

x nn n

==

+ + += =

K

Prof. Massimiliano Giacalone

3

Media aritmetica: modalit di calcolo

Distribuzione di frequenze

Successione di n intensit1 =

n

ii

X

x

n =

1=

k

i ii

X

x n

n =

1

=k

X i ii

x f=

Frequenze assolute Frequenze relative

1

=

k

i ii

X

x n

n =

Distribuzioni in classi

1 p e r 1 , 2 , ,2

i ii

x xx i n

+= = K

Valore centrale delli-esima classe

Il calcolo dei valori centrali introduce unapprossimazione perchequivale ad attribuire una ripartizione uniforme delle frequenzeallinterno di ciascuna classe.

Carattere NUMERO DI BOTTIGLIE

1 1 1 2 2 2 2 33 3 4 4 4 4 4 55 5 5 5 5 5 5 5 5 5 6 6 6 6

n

ii 1

x1 1 6 1 1 9

3 9 7n 3 0 3 0

,=+ + +

= = = = L

( ) ( )

( ) ( )

n

i i ni 1

i ii 1

x n

x fn

1 0 1 0 2 0 1 3

3 0 1 0 6 0 1 3 3 9 7

, ,

, , ,

=

= = = =

= + +

+ + + =

L

N. bottiglie ni fi1 3 0,10

2 4 0,13

3 3 0,10

4 5 0,17

5 11 0,37

6 4 0,13

Totale 30 1

Prof. Massimiliano Giacalone

4

Carattere PREZZO CH, classi equiampie (primi 20 consumatori)

Classe ci ni fi

1,69 || 1,77 1,73 3 0,15

1,77 | 1,85 1,81 0 0

1,85 | 1,93 1,89 3 0,15

1,93 | 2,01 1,97 5 0,25

2,01 | 2,09 2,05 9 0,45

Totale 20 1

( ) ( ) ( )

k

i ii 1

c n

n

1 7 3 3 1 8 1 0 2 0 5 9

2 0

1 9 5 8

, , ,

,

= = =

+ + + = =

=

L

0 11

x x 1 6 9 1 7 7c 1 7 3

2 2

, ,,

+ += = =

1 22

x x 1 7 7 1 8 5c 1 8 1

2 2

, ,,

+ += = =

k 1 kk

x xc

2

+=

i 1 ii

x xc

2

+=

Propriet della media aritmeticaI) Internalit ( ) ( )1 X nx x

Dim: ( ) ( ) ( )1 p e r 1 , ,i nx x x i n = K

( ) ( ) ( )11 1 1

n n n

i ni i i

x x x= = =

( ) ( ) ( )11

n

i ni

n x x n x=

( )

( )

( ) ( ) ( )1

1 1

n

ii

Xn n

x

x x x xn

=

II) Propriet Baricentrica ( )1

0n

i Xi

x =

=

Dim: ( )

1 1 1 1

1 1 1 1

0

n n n n

i X i X i Xi i i i

n n n n

i i i ii i i i

x x x n

x n x n x x

= = = =

= = = =

= = =

= = =

Prof. Massimiliano Giacalone

5

III) Linearit

{ } { }1 1 1, , , ,n n nx x y x y x = = K K

t r a s f o r m a z i o n e l i n e a r eY X

X Y =

( )

( )

1 1 1

1

1 1 1

1 1 =

n n n

Y i ii i i

n

i Xi

x xn n n

n xn n

= = =

=

= = =

=

Y X =

Corollari:

{ } { }1 1 1, , , ,n n nx x y x y x = = K K

Y X =

{ } { }1 1 1, , , ,n n nx x y x y x = = K K

Y X = a)

b)

( ), Dim:

Scelta Prezzo MM

MM 1,99

MM 1,99

MM 1,99

MM 2,09

MM 2,09

MM 2,09

MM 2,09

MM 2,09

MM 2,13

Per i soli succhi di frutta MM considerare il carattere PREZZO MM. La casa produttrice decide di cambiare il prezzo di vendita del prodotto: per ogni acquirente il nuovo prezzo sar pari al prezzo di vendita mediano attuale pi il 18.75% del prezzo attuale. Qual la media dei nuovi prezzi di vendita?

9 1 5

2

M e x x 2 0 9,+= = =

La nuova serie dei prezzi p* sar dunque ottenuta dalla trasformazione lineare:

p* = 2,09 + 0,1875 p

0629

5518

9

p9

1ii

,, ===

=

2 0 9 0 1 8 7 5 2 0 9 0 1 8 7 5 2 0 6 2 4 7* , , , , , , = + = + =

* * *1 2 3p = p = p = 2 , 0 9 + 0 , 1 8 7 5 1 , 9 9 = 2 , 4 6

*9p = 2 , 0 9 + 0 , 1 8 7 5 2 , 1 3 = 2 , 4 9

* *4 8p = = p = 2 , 0 9 + 0 , 1 8 7 5 2 , 0 9 = 2 , 4 8L

9

ii 1

1 2 4 6 2 4 6 2 4 9p 2 4 7

9 9

* * , , , ,=

+ + + = = =

L

Prof. Massimiliano Giacalone

6

IV) Associativit1

1

=

= G

X j jj

nn

G = numero di gruppi

nj = numerosit del j-esimo gruppo (j=1,.,G)

( )1 2

1 , ,=

+ + + + + =K

K K1 4 4 4 44 2 4 4 4 4 43

j

j G

s u d d i v i s i o n e d e l l e i n t e n s i t i n G g r u p p i d i n u m e r o s i t n j G

n n n n n

1 1 1= = =

= 1 4 4 2 4 4 3

jnn G

i i ji j i

s o m m a d e l l e i n t e n s i t

x x

1

1 11 1 1 1

1 1 1; ; ; ;

= = =

= = = K K1 4 4 4 4 4 4 4 4 442 4 4 4 4 4 4 4 4 443

j Gn nn

i j i j G G ij Gi i i

m e d i e d e i g r u p p i

x x xn n n

1 1 1

1 1 1

1 1

1 1 1

= = =

= = =

= =

= =

j

j

nn G

X i i ji j i

nG G

i j j j jjj i j

x xn n

x n nn n n

xij = j-esima intensit delli-esimo gruppo

Scomposizione della media generale

Media aritmetica delle medie dei

gruppi

Dim:

nj Rivenditoren.bottiglie

bis

Bar 6

Bar 6

Bar 5

Bar 5

Bar 6

Bar 3

Bar 5

Bar 4

9 Bar 5

Coloniali 3

Coloniali 6

Coloniali 4

Coloniali 5

Coloniali 3

Coloniali 4

Coloniali 5

Coloniali 2

9 Coloniali 4

D. Automatico 2

D. Automatico 5

D. Automatico 3

4 D. Automatico 6

S.market 4

S.market 6

S.market 5

S.market 2

S.market 3

S.market 6

S.market 5

8 S.market 1

30 129

3 0

ii 1

x=

45

36

16

32

b a r b a rb a rb a r

1x

n =

c o l c o lc o lc o l

1x

n =

d a d ad ad a

1x

n =

s m s ms ms m

1x

n =

( ) ( ) ( ) ( )b a r c o l d a s m9 9 4 83 0

+ + + =

ii

1 1 2 9x 4 3

n 3 0, = = =

Prof. Massimiliano Giacalone

7

Gruppi/modalitG

njj = 1, , G

Bar 9 45

Coloniali 9 36

D. Automatico 4 16

Supermarket 8 32

Totali 30 129

jn

ii 1

x=

( ) ( ) ( ) ( )b a r b a r c o l c o l d a d a s m s mn n n nn

=

+ + + =

b a r b a rb a rb a r

1 1x 4 5 5

n 9 = = =

c o l c o lc o lc o l

1 1x 3 6 4

n 9 = = =

d a d ad ad a

1 1x 1 6 4

n 4 = = =

s m s ms ms m

1 1x 3 2 4

n 8 = = =

( ) ( ) ( ) ( )5 9 4 9 4 4 4 8 1 2 94 3

3 0 3 0,

+ + + = = =

V) Minimizzazione della somma degli scarti al quadrato

( )21

m i n s e e s o l o s e n

i Xi

x =

= =

Dim: ( ) ( )2 2

1 1

s e n n

X i i Xi i

x x = =

>

( ) ( )

( ) ( )

( ) ( )

2 2

1 1

2 2

1

1

2

n n

i i X Xi i

n

i X Xi

n

X i Xi

x x

x n

x

= =

=

=

= + =

= + +

+

( ) ( ) ( )

( ) ( )

2 2 2

1 1

2 2

1 1

n n

i i X Xi i

n n

i i Xi i

x x n

x x

= =

= =

= +

>

Termine nullo per la II proprie-t della media arit-metica

Prof. Massimiliano Giacalone

8

Quale indice di posizione scegliere?

La mediana minimizza la somma degli scarti in valore assoluto:

n

ii 1

x c c M em i n=

= =

La mediana un indice robustorobusto: non subisce linfluenza di valori anomali

CRITERIO:

Se occorre un indice che tenga conto di tutti i tutti i valorivalori, si utilizza la media.

Se non si vuole che i valori estremivalori estremi alterino il valore dellindice, allora si utilizza la mediana

esempio:Scelta del luogo in cui situare il deposito di n punti vendita, in modo da minimizzare le distanze complessive (quindi i costi):

il luogo che soddisfa tale condizione la mediana dei punti vendita

INDICI STATISTICI DI VARIABILITAVariabilit: Attitudine di un fenomeno ad assumerediverse intensit

Caratteristiche di un indice di variabilit

Dispersione rispetto ad un centro

Mutua variabilit

Mutevolezza delle frequenze(Concentrazione per caratteri trasferibili)

Come si misura la variabilit?

( )( )( ) ( )

( ) ( )

1

1 1

1 1

) , , 0

) , , 0

) , , ,

) S e , , , X p i v a r i a b i l e d i Y

n

n n

n n

i V x x

i i V c c

i i i V x c x c V x x

i v V x x V y y

=

+ + =

K

K

K K

K K

V(): Indice di variabilit; c: costante nota

N.B. Un indice di variabilit sempre maggiore o uguale a zero.

Prof. Massimiliano Giacalone

9

Variabilit e funzione di ripartizione empirica

Una funzione di ripartizione empirica molto ripida (che subitoraggiunge 1) indica scarsa variabilit. Viceversa, unafunzione di ripartizione empirica che raggiunge 1 moltolentamente indica elevata variabilit.

Campo di Variazione

molto sensibile alla presenza di valori anomali

Differenza Interquantile

Differenza tra due quantili equidistanti dagli estremi delladistribuzione

Via via meno sensibile alla presenza di valori anomali, mamano che r ed s si avvicinano.

r > s

Differenza Interquartile

un indice pi robusto del campo di variazione

Coefficiente di Variazione Interquartile

Non dipende dallunit di misura del carattere osservato(come il Range e lIQR) ma solo dal rapporto tra quartili

Se Me 0 allora CQV

Prof. Massimiliano Giacalone

10

Variabilit rispetto ad un centroObiettivo:Sintetizzare una opportuna funzione degliscartidelle singole intensit dallindice di posizioneM prescelto

Successione degli scarti:( ) ( ) ( ) ( )1 2, , , , ,i nx M x M x M x M K K

( )

( )1

2

1

0

S e

m i n

n

ii

n

ii

x

M

x

=

=

== =

1

S e m i nn

ii

M M e x M e=

= =

Ogni scarto esprime la distanza di ciascuna intensit dallindiceM.

La variabilit rispetto ad un centro pu essere definitaspecificando in diversi modiM.

Ricordiamo che:

VARIANZA

Misura la dispersione media intorno alla media aritmetica.

Si calcola come media aritmetica dei quadrati degli scarti.

1. Per una successione di valori:

2. Per una distribuzione di frequenza:

3. Per una distribuzione in classi di frequenza:

Prof. Massimiliano Giacalone

11

N. bottiglie ni fi1 3 0,10

2 4 0,13

3 3 0,10

4 5 0,17

5 11 0,37

6 4 0,13

Totale 30 1( )

( ) ( ) ( )

2

2 1

2 2 21 3 , 9 7 3 2 3 , 9 7 4 6 3 , 9 7 4

3 0

7 2 , 9 72 , 4 1

3 0

n

i ii

x n

n

=

= =

+ + + = =

= =

L

( ) ( ) ( )

2

2 21

2 2 2

21 3 2 4 6 4

3 , 9 73 0

5 4 51 5 , 7 3 2 , 4 1

3 0

n

i ii

x n

n

== =

+ + + = =

= =

L

Formula alternativa:

Classe ci ni fi

1,69 || 1,77 1,73 3 0,15

1,77 | 1,85 1,81 0 0

1,85 | 1,93 1,89 3 0,15

1,93 | 2,01 1,97 5 0,25

2,01 | 2,09 2,05 9 0,45

Totale 20 1

( )( )

( ) ( )

( )

2

22 1

1

2 2

2

1 , 7 3 1 , 9 6 0 , 1 5 1 , 8 1 1 , 9 6 0

2 , 0 5 1 , 9 6 0 , 4 5 0 , 0 0 4

k

i i ki

i ii

c n

c fn

=

=

= = =

= + + +

+ =

L

( ) ( )

n

i i ni 1

i ii 1

c n

c f 1 7 3 0 1 5 2 0 5 0 4 5 1 9 6n

, , , , ,=

= = = = + + =

L

( ) ( )( )

2

2 2 2 21

1

2 2

2 2

1 , 7 3 0 , 1 5 1 , 8 1 0

2 , 0 5 0 , 4 5 1 , 9 6 0 , 0 0 4

n

i i ni

i ii

c n

c fn

=

=

= = =

= + + +

+ =

L

Formula alternativa:

Prof. Massimiliano Giacalone

12

Propriet della varianza

I)20 X

II) Esprime la variabilit nella stessa unit di misuradel carattere osservato, ma elevata al quadrato

III) ( )22

2X =

Dim: ( )

( ) ( )

( ) ( ) ( )

( )

22

1

2 2

1 1 1

2 2

1

2 2

1

1=

1 1 12

12

1

n

X ii

n n n

i ii i i

n

ii

n

ii

xn

x xn n n

xn

xn

=

= = =

=

=

=

= + =

= + =

=

Formula alternativa per il calcolo della varianza

IV)t r a s f o r m a z i o n e l i n e a r e

Y XX Y=

( ),

Dim:

e i i Y Xy x= + = +

( ) ( )

( )

2 22

1 1

22 2 2

1

1 1

1

n n

Y i Y i Xi i

n

i X Xi

y xn n

xn

= =

=

= = + =

= =

quindi:

Prof. Massimiliano Giacalone

13

Esempio

Scelta Prezzo MM

MM 1,99

MM 1,99

MM 1,99

MM 2,09

MM Me 2,09

MM 2,09

MM 2,09

MM 2,09

MM 2,13

Nuovo prezzo = prezzo mediano attuale + 18.75% del prezzo attuale.

Qual la varianzavarianza del nuovo prezzo?

Trasformazione lineare:

p* = 2,09 + 0,1875 p

2 * 2 20 , 1 8 7 5 0 , 0 3 5 0 , 0 0 2 0 , 0 0 0 0 7 5= = =

Calcolo della nuova varianza:

= 2,09; = 0,1875

2 * 2 2=

V) Decomposizione della varianza

La varianza di X data dalla somma della mediadelle varianze di gruppo (varianza interna) e dallavarianza delle medie di gruppo (varianza esterna).

( )22 21 1

V A R I A N Z A I N T E R N A V A R I A N Z A E S T E R N A

1 1G GX j j j X j

j j

n nn n= =

= + 1 4 2 43 1 4 4 4 2 4 4 43

Se:

G = numero di gruppi;

j: media delli-esimo gruppo;

nj = numerosit dellj-esimo gruppo (j = 1,.,G);

allora:

2 2 2T O T I N T E X T= + ossia:

Prof. Massimiliano Giacalone

14

Dim:

( )

1 2

s u d d i v i s i o n e d e l l e i n t e n s i t i n G g r u p p i d i n u m e r o s i t 1 , ,

j

j G

nj G

n n n n n

=

+ + + + + =

K

K K1 4 4 4 4 44 2 4 4 4 4 4 43

( ) ( )

( )

( ) ( )

( ) ( )

222

1 1 1

V a r i a n z a d e l l a p a r t i z i o n e i n g r u p p i

2

1 1

2 2

1 1 1 1

1 1

1 1

1

1 1

12

i

i

i i

i

nn G

X i X i j Xi j i

nG

i j j j Xj i

n nG G

i j j j Xj i j i

nG

i j j j Xj i

x xn n

xn

xn n

xn

= = =

= =

= = = =

= =

= = =

= + =

= + +

+

1 4 4 4 2 4 4 43

1

1 jn

j i jj i

xn =

= Media aritmetica delle intensit appartenenti alli-esimo gruppo.

( ) ( ) ( ) ( )1 1 1 1

u g u a l e a z e r o p e r l a I p r o p r i e t d i

1 22 0

i in nG G

i j j j X j X i j jj i j i

x xn n= = = =

= =

1 44 2 4 43

3 Addendo

Quindi:

1 Addendo

( )

( )

2

1 1

2 2 2

1 1 1

V a r i a n z a d e l l ' i - e s i m o g r u p p o

1

1 1 1

i

j

I N T

nG

i j jj i

nG G

i j j j j jj i jj

xn

x n nn n n

= =

= = =

=

= = =

1 4 4 4 2 4 4 43

2 Addendo

( ) ( )2 2 21 1 1

V a r i a n z a d e l l e m e d i e d i g r u p p o

1 1i

E X T

nG G

j X j X jj i j

nn n= = =

= = 1 4 4 4 2 4 4 43

Prof. Massimiliano Giacalone

15

Esempio sceltabottiglie CH MM Totale

1 1 2 3

2 2 2 4

3 2 1 3

4 5 0 5

5 7 4 11

6 4 0 4

Totale 21 9 30

( ) ( ) ( )

6

11

2 1

1 1 2 2 6 44 , 2 8

2 1

iC H ii

C H

x n== = =

+ + + = =

L

( ) ( ) ( )

6

12

9

1 2 2 2 5 43 , 2 2

9

iM M ii

M M

x n== = =

+ + + = =

L

G = 2 (1 = CH; 2 = MM)

( )

( ) ( )

6 2

2 2 11

2 2

2 1

1 4 , 2 8 1 6 4 , 2 8 4 4 0 , 2 91 , 9 2

2 1 2 1

iC H C H ii

C H

x n=

= = =

+ + = = =

L

( )

( ) ( )

6 2

2 2 12

2 2

9

1 3 , 2 2 2 6 3 , 2 2 0 2 5 , 5 62 , 8 3

9 9

iM M M M ii

M M

x n=

= = =

+ + = = =

L

( ) ( )2 21

1 1 , 9 2 2 1 2 , 8 3 92 , 1 9

3 0

G

I N T j jj

nn =

+ = = =

( )

( ) ( )

22

1

2 2

1

4 , 2 8 3 , 9 7 2 1 3 , 2 2 3 , 9 7 90 , 2 4

3 0

G

E S T j X jj

nn =

= =

+ = =

Prof. Massimiliano Giacalone

16

SCARTO QUADRATICO MEDIO

(o scostamento quadratico medio, o deviazione standard)

E uguale alla radice quadrata della varianza.

Esprime la variabilit nella stessa unit di misura delcarattere osservato.

1. Per una successione di valori:

2. Per una distribuzione di frequenza:

3. Per una distribuzione in classi di frequenza:

interpretabile come scarto medio intorno alla media; la maggior parte dei valori sono compresi nellintervallo:

[ - ; + ]

s i t u a z i o n e d i m a s s i m a v a r i a b i l i t

0 p e r 1 , , 1 i nx i n x n= = =K1 4 4 4 4 4 4 4 4 44 2 4 4 4 4 4 4 4 4 4 43

( )

( ) ( ) ( )

( )

( ) ( )

22

1

2 2

2 2 2 2 2

2 2 2 2 2 2

2

2 2 2 2

1

10 1 1

11 2

12

111

n

ii

xn

n nn

n n nn

n n nn

n nn n n

n n

=

= =

= + =

= + + =

= + + =

= = =

Nella situazione di massima variabilit

2= 2(n-1) e 1n =

MASSIMA VARIABILITA

( ) ( )2 2 1 1n n = = = Quindi:

Prof. Massimiliano Giacalone

17

INDICI DI VARIABILITA RELATIVA

Coefficiente di variazione

E un indice indipendente dallunit di misura ( un numeropuro) e pu essere utilizzato per confrontare distribuzionidiverse

( ) ( )2 20 1 e 0 1n n Poich:

INDICE DI VARIABILITA RELATIVI NORMALIZZATI (compresi tra 0 ed 1)

Scarto quadratico medio relativo

Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo che esso pu assumere per la distribuzione:

5614322 ,, ===

07029973

561

1nrel ,

,

, ==

=

390973

561CV ,

,

, ===

N. bottiglie ni fi1 3 0,10

2 4 0,13

3 3 0,10

4 5 0,17

5 11 0,37

6 4 0,13

Totale 30 1

Scarto quadratico medio:

Coefficiente di variazione:

Scarto quadratico medio relativo:

Esempio

Prof. Massimiliano Giacalone

18

INDICI DI MUTUA VARIABILIT

DIFFERENZE MEDIEDifferenza Media Semplice (senza ripetizione)

Differenza Media Quadratica

Misurano quanto le unit statistiche differiscono tra di lorotra di loro(non pi rispetto ad un punto fisso).

Il calcolo si basa sulle differenze tra tutte le coppie di unit statistiche.

Successione di valori Distribuzione di frequenza

Successione di valori Distribuzione di frequenza

A B C D E F G

xi 3 6 5 10 3 6 7

A 3 3 2 7 0 3 4

B 6 3 1 4 3 0 1

C 5 2 1 5 2 1 2

D 10 7 4 5 7 4 3

E 3 0 3 2 7 3 4

F 6 3 0 1 4 3 1

G 7 4 1 2 3 4 1

Scarti semplici in valore assoluto

Impresa Addetti

A 3

B 6

C 5

D 10

E 3

F 6

G 7

totale 40

n

ii 1

x4 0

5 7 1n 7

,= = = =

Calcolo della Differenza Media Semplice:

Prof. Massimiliano Giacalone

19

Impresa Addetti

A 0

B 0

C 0

D 0

E 0

F 0

G 40

totale 40

Impresa Addetti

A 5,71

B 5,71

C 5,71

D 5,71

E 5,71

F 5,71

G 5,71

totale 40

Equidistribuzione degli addetti Massima concentrazione di addetti

xi = xj i,j = 0A B C D E F G

xi 0 0 0 0 0 0 40

A 0 0 0 0 0 0 40

B 0 0 0 0 0 0 40

C 0 0 0 0 0 0 40

D 0 0 0 0 0 0 40

E 0 0 0 0 0 0 40

F 0 0 0 0 0 0 40

G 40 40 40 40 40 40 40

= 2

( )

( )

( )

n n

i j ii j 1 i 1

x x 2 n 1 x

2n n 1 n n 1

= =

= = =

INDICE DI CONCENTRAZIONE

R = 0 se = 0Caso di equidistribuzioneequidistribuzione del carattere

R = 1 se = 2Caso di massima concentrazionemassima concentrazione del carattere

0 R 1

2 8 6, = 2 2 5 7 1 1 1 4 2m a x , , = = =

Se:

Prof. Massimiliano Giacalone

20

auto ni1 3

2 8

3 6

4 2

5 1

tot 20

X = NUMERO DI AUTO POSSEDUTE relativo ad un collettivo di 20 famiglie

Caso di distribuzione di frequenza

nj 3 8 6 2 1

ni auto 1 2 3 4 5

3 1 24 36 18 12

8 2 24 48 32 24

6 3 36 48 12 12

2 4 18 32 12 2

1 5 12 24 12 2

( )

( ) ( ) ( )

1

1

1 2 3 8 1 3 3 6 5 4 1 2 4 4 01 , 1 6

2 0 1 9 3 8 0

K

i j i ji j

x x n n

N N

=

= =

+ + + = =

L

Scarti semplici in valore assoluto

55,222MAX ===

INDICI DI

ETEROGENEIT ED OMOGENEIT

Mutabilit: Attitudine di un fenomeno ad assumerediverse modalit

Distribuzione Massimamente Omogenea: le n unitstatistiche presentano tutte la stessa modalit

Distribuzione Massimamente Eterogenea: nelladistribuzione di frequenza appaiono tutte le k modalit, ead ognuna di esse associata la medesima frequenza.

Caratteristiche di un indice di mutabilit

M(): Indice di mutabilit

( ) ( )

( ) ( )

( ) ( ) ( )

1

1

1

) , , m i n

m a s s i m a o m o g e n e i t

) , , m a x

m a s s i m a e t e r o g e n e i t

) m i n , , m a x

o m o g . / e t e r o g . i

n

n

n

i M x x M

i i M x x M

i i i M M x x M

=

=

< >

Le intensit si attardano sullacoda di sinistra delladistribuzione

Per distribuzioni unimo-dali:

XM o M e> >

INDICI DI FORMAForniscono informazioni sulla forma di una distribuzione (simmetria, asimmetria positiva o negativa).

Indice di Hotelling e SolomonIndice di Hotelling e Solomon

0

1 0

0 1

H S

H S

H S

A S i m m e t r i a

A A s i m m e t r i a P o s i t i v a

A A s i m m e t r i a N e g a t i v a

= 0

K = 0

K < 0

Distribuzione leptocurticaDistribuzione leptocurtica: i valori si accentrano intorno alla media pi di quanto accade per la distribuzione Normale

Distribuzione platicurticaDistribuzione platicurtica: presenta delle densit di frequenza nella coda della distribuzione pi di quanto accade per la distribuzione Normale.

N. bottiglie CH ni fi Fi

1 1 0,05 0,05

2 2 0,09 0,14

3 2 0,09 0,23

4 5 0,25 0,48

5 7 0,33 0,81

6 4 0,19 1

Totale 21 1

N. bottiglie MM ni fi Fi

1 2 0,22 0,22

2 2 0,22 0,44

3 1 0,11 0,55

4 0 0 0,55

5 4 0,45 1

6 0 0 1

Totale 9 1

( )3

1

3 3 3

3 3 3

1

1 1 4 , 2 9 2 4 , 2 9 3 4 , 2 92 2

2 1 1 , 3 9 1 , 3 9 1 , 3 9

4 4 , 2 9 5 4 , 2 9 6 4 , 2 95 7 4

1 , 3 9 1 , 3 9 1 , 3 9

11 3 , 3 5 8 , 9 9 1 , 6 0 ,

2 1

C Hn C HC H iC H i

iC H C H

xA F n

n =

= =

+ + +

+ + + =

=

( )0 4 0 , 9 6 7 , 5 8

1 5 , 4 40 , 7 4

2 1

+ + =

= =

CH = 4,29 MM = 3,22CH = 1,39 MM = 1,69

Prof. Massimiliano Giacalone

28

( )

( )

M M3

nM MM M i

M M ii 1M M M M

3 3

3 3

x1A F n

n

1 1 3 , 2 2 2 3 , 2 22 2

9 1 , 6 9 1 , 6 9

3 3 , 2 2 5 3 , 2 24

1 , 6 9 1 , 6 9

1 0 , 6 64 , 5 9 0 , 7 6 0 , 0 0 2 4 , 7 0 , 0 7

9 2 1

=

= =

= + +

+ + =

= + = =

Dal confronto risulta che entrambe le distribuzioni presentano un valore negativo dellindice di Fisher, quindi unasimmetria negativa, che leggermente pi accentuata per i consumatori CH.

IL BOXPLOTPermette di studiare graficamente la forma di una distribuzioneCostruzione del boxplot:Costruzione del boxplot:

1. Si determinano i quantili: x(1), Q1, Q2 = Me, Q3, x(n)2. Si disegna una scatola di estremi Q1 e Q3 tagliata

sulla mediana

Q 1 Me Q3

3. Si calcolano i valori a e b:( ) ( )1 3 1 3 3 11 , 5 ; 1 , 5a Q Q Q b Q Q Q= = +

4. Si calcolano i valori e : = minimo dei valori maggiore di a = massimo dei valori minori di b

Prof. Massimiliano Giacalone

29

5. Si disegnano i baffi sui valori e

Q 1 Me Q3

5. I valori oltre a e b sono disegnati con dei puntini(valori anomali)

Q 1 Me Q3

Caratteristiche del boxplot:

Permette di visualizzare le informazioni sullaforma e la variabilit di una distribuzione

Consente di confrontare graficamente la forma dipi distribuzioni

Esempi

Distribuzione simmetrica

Distribuzioneasimmetricapositiva

Distribuzioneasimmetricanegativa

3.54.04.55.05.56.06.5

510152025

-25-20-15-10-5

Prof. Massimiliano Giacalone

30

Distribuzione CHESEMPI

Q1 = 4Q2 = Me = 5Q3 = 5

( ) 52QQ51Qa 131 ,, ==

{ } 3ax i == min( ) 56QQ51Qb 133 ,, =+=

{ } 6bx i == max

Q1 = 2Q2 = Me = 3Q3 = 5

Distribuzione MM

( ) 52QQ51Qa 131 ,, ==( ) 59QQ51Qb 133 ,, =+=

{ } 1ax i == min{ }im a x x b 5 = = 1

2

3

4

5

n. b

ottig

lie s

ucch

i MM

1

2

3

4

5

6

n. b

ottig

lie s

ucch

i CH

02

46

810

Boxplot Numero di stabilimenti (n=50)

02

46

8

Boxplot Numero di stabilimenti (n=49)

( )1 3 11 , 5 1 4 , 5 3 , 5 0a Q Q Q= = = =

( )3 3 11 , 5 4 4 , 5 8 , 5 8b Q Q Q= + = + = =

Caso a) n=50:

Caso b) n=49:

Q1 = 1; Me = 2; Q3 = 4

Q1 = 1; Me = 2; Q3 = 4( )1 3 11 , 5 1 4 , 5 3 , 5 0a Q Q Q= = = =

( )3 3 11 , 5 4 4 , 5 8 , 5 8b Q Q Q= + = + = =

Prof. Massimiliano Giacalone

31

Le relazioni statistiche per distribuzioni doppie possono essere di due tipi:

Connessione: esistenza di una relazione reciproca tra i due caratteri

Dipendenza assoluta

Dipendenza: esistenza di una relazione di causa-effetto tra i due caratteri

Dipendenza lineareDipendenza in media

Correlazione (o intedipendenza): esistenza di una relazione di dipendenza reciproca tra i due caratteri.

Relazioni statistiche

INDICI DI CONNESSIONE

Indice ChiIndice Chi--quadro di Pearson (quadro di Pearson (22))

= f r e q u e n z e t e o r i c h ei ji jn n

nn

=

Per misurare la connessione bisogna considerare ledifferenze tra le frequenze teoriche e le frequenzeosservate.

( )1 1 1 1 1 1

1 1 1 1

1 1

10

k h k h k h

i j i j i j i ji j i j i j

k h k h

i j i ji j i j

n n n n

n n n n n nn n

n n n n nn

= = = = = =

= = = =

= =

= = =

= = =

Prof. Massimiliano Giacalone

32

20

2 0 = Non esiste connessione (esiste indipendenza)tra X ed Y. Ogni frequenza congiunta pari allarispettiva frequenza teorica.

2 0 > Esiste connessione (non esiste indipendenza)tra X ed Y. Almeno una frequenza congiunta diversa dalla rispettiva frequenza teorica.

Lindice chi-quadro pari alla somma dei quadrati delledifferenze tra le frequenze teoriche e le frequenzeosservate.

Formulazione alternativaFormulazione alternativa

( )22

i j i j

i ji j

n n

n

=

2

i j

i j i j

n

n= +

2

i j

i j i j

n

n

2

i j i j

i j i j

n n

n =

2

2

i ji j i j

i j i j i ji j

nn n

n n

n

= + =

2

2i j

i j i j

nn n n

n n = + =

Prof. Massimiliano Giacalone

33

Indice PhiIndice Phi--quadro di Fisher (quadro di Fisher ( 22))

{ }20 m i n 1 , 1k h

2 1 1 i j j ih k n n n = = = =

2 1 i j ih n n = =

Perfetta dipendenza bilaterale in tabelle quadrate

Perfetta dipendenza di Y da X in tabelle rettangolari

2 1 i j jk n n = =

Perfetta dipendenza di X da Y in tabelle rettangolari

h < k

k < h

negozio scelta Bar Coloniali D. Autom. S.market Totale

CH 9 8 1 3 21

MM 0 1 3 5 9

Totale 9 9 4 8 30

( )

= =

=

k

1i

h

1j ij

2

ijij2

n

nn

negozio scelta Bar Coloniali D. Autom. S.market Totale

CH 6,3 6,3 2,8 5,6 21

MM 2,7 2,7 1,2 2,4 9

Totale 9 9 4 8 30

Frequenze teoriche ijn

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

2 2 2 2

2

2 2 2 2

9 6 , 3 8 6 , 3 1 2 , 8 3 5 , 6

6 , 3 6 , 3 2 , 8 5 , 6

0 2 , 7 1 2 , 7 3 1 , 2 5 2 , 4

2 , 7 2 , 7 1 , 2 2 , 4

1 , 1 6 0 , 4 6 2 , 8 2 1 3 , 2 7

= + + + +

+ + + + =

= + + =L

Metodo A.

Prof. Massimiliano Giacalone

34

negozio scelta Bar Coloniali D. Autom. S.market

CH 81 64 1 9

MM 0 1 9 25

Frequenze teoriche 2ijn

negozio scelta Bar Coloniali D. Autom. S.market

CH 189 189 84 168

MM 81 81 36 72

ji nn ..

[ ]

2 8 1 6 4 1 9 1 9 2 53 0 11 8 9 1 8 9 8 4 1 6 8 8 1 3 6 7 2

3 0 1 , 4 4 1 1 3 , 2 7

= + + + + + + =

= =

=

= =

1nn

nn

k

1i

h

1j ji

2ij2

..Metodo B.

44030

2713

n

1 22 ,, === 20 1

negozio

scelta Bar Coloniali D. Autom S.market Totale

CH 9 0 4 0 13

MM 0 9 0 8 17

Totale 9 9 4 8 30

Esempi di perfetta dipendenza unilateraleEsempi di perfetta dipendenza unilaterale

Massima dipendenza unilaterale del carattere SCELTA (X) dal carattere NEGOZIO (Y)

jij nn .=

negozio

scelta Bar Coloniali D. Autom S.market Totale

CH 21 0 0 0 21

MM 0 0 9 0 9

Totale 21 0 9 8 30

Massima dipendenza unilaterale del carattere NEGOZIO (Y) dal carattere SCELTA (X)

.iij nn =

Prof. Massimiliano Giacalone

35

DIPENDENZA IN MEDIA

Y quantitativo Y quantitativo X qualitativo X qualitativo

Indipendenza in media di Y da X:

al variare delle modalit di X le medie delle distribuzioni condizionate di Y rimangono costanti.

X quantitativo X quantitativo Y qualitativo Y qualitativo

Indipendenza in media di X da Y:

al variare delle modalit di Y le medie delle distribuzioni condizionate di X rimangono costanti.

( )

( )

2

2 |1

| 2 2

1

i

X

k

X Y y x iE X T i

X Yh

X

j X jj

n

x n

= =

=

= =

( )( )

2

2 |1

| 2 2

1

j

Y

h

Y X x Y jE X T j

Y Xk

Y

i Y ii

n

y n

= =

=

= =

Rapporto di correlazione di PearsonRapporto di correlazione di Pearson

MMMM

XY x0 x1 x1 x2 xh-1 - xh tot

y1 n11 n12 n1h n1.

y2 n21 n22 n2h n2.

nij ni.

yk nk1 nk2 nkh nk.

tot n.1 n.2 n.j n.h n

Se y quantitativo:

Prof. Massimiliano Giacalone

36

Propriet:

|0 1X Y

| 0X Y =Perfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (X)

| 1X Y =

Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalit di Y corrisponde una sola intensit di X che presenta frequenza non nulla

I)

II) |0 1Y X

III) Lindice non simmetrico

| |Y X X Y

IV) | | | | X Y = Y X X Y Y X X Y= =

ESEMPIOFatturato (Y) Settore

merceologico (X) 200

200-|300

300-|400

400-|500 >500 Totale

Alimentare 11 1 5 1 3 21 Bevande 1 1 0 1 0 3 Health Care 6 1 1 2 2 12 I. Packaging 7 2 1 1 3 14 Totale 25 5 7 5 7 50

( )1| 1

11

1

1 5 0 1 1 2 5 0 1 3 5 0 5 4 5 0 1 1 2 5 6 3

2 1

3 4 8 , 4 8

h

Y X x j jj

y nn

==

= =

+ + + + = =

=

( )

( )

2

2 |1

| 2 2

1

i

Y

k

Y X x Y iE X T i

Y Xh

Y

j Y jj

n

y n

= =

=

= =

Prof. Massimiliano Giacalone

37

( )2| 2

12

1

1 5 0 1 2 5 0 1 4 5 0 12 6 6 , 6 7

3

h

Y X x j jj

y nn

==

= =

+ + = =

( )3| 3

13

1

1 5 0 6 2 5 0 1 3 5 0 1 4 5 0 2 1 2 5 6 23 8 4 , 3 3

1 2

h

Y X x j jj

y nn

==

= =

+ + + + = =

( )4| 4

14

1

1 5 0 7 2 5 0 2 3 5 0 1 4 5 0 1 1 2 5 6 34 1 2

1 4

h

Y X x j jj

y nn

==

= =

+ + + + = =

( )1

1

1 5 0 2 5 2 5 0 5 3 5 0 7 4 5 0 5 1 2 5 6 73 4 4 , 8 4

5 0

h

Y j jj

y nn

=

= =

+ + + + = =

Le medie delle distribuzioni condizionate sono tutte diverse dalla media di Y per cui esiste dipendenza in media

( )( ) ( )( ) ( )

2

|1

2 2

2 2

3 4 8 , 4 8 3 4 4 , 8 4 2 1 2 6 6 , 6 7 3 4 4 , 8 4 3

3 8 4 , 3 3 3 4 4 , 8 4 1 2 4 1 2 3 4 4 , 8 4 1 4 1 0 0 . 4 7 4 , 1

i

k

Y X x Y ii

n= =

=

= + +

+ + =

( )( ) ( )( ) ( )( )

2

1

2 2

2 2

2

1 5 0 3 4 4 , 8 4 2 5 2 5 0 3 4 4 , 8 4 5

3 5 0 3 4 4 , 8 4 7 4 5 0 3 4 4 , 8 4 5

1 . 2 5 6 3 4 4 , 8 4 7 7 . 4 1 0 . 6 0 6

h

j Y jj

y n =

=

= + +

+ +

+ =

Prof. Massimiliano Giacalone

38

( )

( )

2

2 |1

| 2 2

1

1 0 0 . 4 7 4 , 10 , 1 1 6

7 . 4 1 0 . 6 0 6

i

Y

k

Y X x Y iE X T i

Y Xh

Y

j Y jj

n

y n

= =

=

= = =

= =

La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO piuttosto debole.

CORRELAZIONE

Misura del grado di interdipendeza (dipendenza reciproca) tra due caratteri quantitativi (variabili).

Coefficiente di correlazione di Bravais-Pearson ()

1 1

2 2

n n

X Y

x y

x y

x y

M M

( ) ( )i x i YX Y

X Y

1x y

n

=

X YX Y

X Y

=

= covarianza tra X ed YX Y

Prof. Massimiliano Giacalone

39

La covarianza ci fornisce informazioni su come variano (co-variano) simultaneamente le due variabili considerate.

0 I n d i p e n d e n z a

0 I n t e r d i p e n d e n z a p o s i t i v a

0 I n t e r d i p e n d e n z a n e g a t i v a

X Y

X Y

X Y

=> 9 5 0 T o t a le

2 0 0 5 9 7 2 2 2 5 2 0 0 - | 3 0 0 1 1 1 2 0 5 3 0 0 - | 4 0 0 1 2 1 3 0 7 4 0 0 - | 5 0 0 0 0 0 2 3 5 > 5 0 0 0 1 0 2 5 8 T o t a le 7 1 3 9 1 1 1 0 5 0

Prof. Massimiliano Giacalone

42

Per calcolare il termine consigliabilecostruire la tabella delle , ossia:

i j i ji j x y n

i j i jx y n

100 250 425 750 3.608 100 50.000 225.000 297.500 150.000 721.600 250 25.000 62.500 106.250 375.000 0 350 35.000 175.000 148.750 787.500 0 450 0 0 0 675.000 4.870.800 1.256 0 314.000 0 1.884.000 22.658.240

La somma degli elementi allinterno di tale tabella pari a:

3 3 . 5 6 1 . 1 4 0i j i ji j x y n =

da cui

3 3 . 5 6 1 1 4 06 7 1 . 2 2 3

5 0

i j i ji jx y n

n= =

Per il calcolo gli altri termini:

ix in jy jn i ix n j jy n 2 ix

2 i ix n 2j

y

2j j

y n

100 25 100 7 2.500 700 10.000 250.000 10.000 70.000 250 5 250 13 1.250 3.250 62.500 312.500 62.500 812.500 350 7 425 9 2.450 3.825 122.500 857.500 180.625 1.625.625 450 5 750 11 2.250 8.250 202.500 1.012.500 562.500 6.187.500

1.256 8 3.608 10 10.048 36.080 1.577.536 12.620.288 13.017.664 130.176.640 18.498 52.105 15.052.788 138.872.265

1 1 1 8 . 4 9 8 3 6 9 , 9 6

5 0X i i

i

x nn

= = =

1 1 5 2 . 1 0 5 1 . 0 4 2 , 1

5 0Y j j

j

y nn

= = =

6 7 1 . 2 2 3 3 6 9 , 9 6 1 . 0 4 2 , 1 2 8 5 . 6 8 7X Y = =

2

1

1 1 1 5 .0 5 2 . 7 8 8 3 0 1 .0 5 6

5 0i

k

i

i

x nn =

= =

2

1

1 1 1 3 8 . 8 7 2 . 2 7 5 2 .7 7 7 . 4 4 5

5 0

h

j j

j

y nn =

= =

( ) ( )2 22 8 5 . 6 8 7

3 0 1 . 0 5 6 3 6 9 , 9 6 2 . 7 7 7 . 4 4 5 1 . 0 4 2 , 1

0 , 5 4 2

X Y = =

=

Correlazione diretta