Download - LEZIONE A.6 Le distribuzioni cumulate
LEZIONE A.6
Le distribuzioni cumulate
TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
In questa lezione..
In questa lezione impareremo a costruire e a interpretare una fun-zione derivata dalla funzione di frequenza f(x).
Dapprima definiremo e costruiremo funzioni cumulate di frequenza (dette anche funzioni di ripartizione),
Di seguito estenderemo definizioni e procedure di co-struzione alla funzione speculare, detta funzione retro-cumulata.
Funzioni cumulate e retrocumulate ci consentiranno, nella prossima lezione, di introdurre l’ultimo pacchetto di ‘misure centrali’ di una variabile statistica.
Dalla frequenza alla frequenza cumulata
xi
x1
x2
x3
x4
x5
ni
n1
n2
n3
n4
n5
N
Ni =k=1..ink
N1=n1
N2=n1+n2
N3=n1+n2+n3
N4=n1+n2+n3+n4
T=N5=n1+n2+n3+n4+n5
fi
f1
f2
f3
f4
f5
1
Fi =k=1..ifk
F1=f1
F2=f1+f2
F3=f1+f2+f3
F4=f1+f2+f3+f4
1=F5=f1+f2+f3+f4+f5
Si dice frequenza cumulata associata alla modalità xi la frequenza di osservare modalità di X inferiori o al più ugualiinferiori o al più uguali ad xi :
i
kkiiii fffffxXFreqF
1121)(
Una tipologia di scale di misurazione
L’operazione di cumulazione implica il concetto di ordinamento gerar-chico delle modalità, quindi ha senso per le v.s. quantitative e per le v.s. qualitative (o mutabili) che siano ordinali.
Per brevità faremo solo esempi di variabili quantitative, discrete e per intervalli. Soprattutto per la rappresentazione grafica che introdurremo, è buon senso applicarla solo a variabili quantitative.
Scala/proprietà Classificazione Ordinamento Misurazione
Nominale SI’SI’ NONO NONO
Ordinale SI’SI’ SI’SI’ NONO
Quantit.discreta SI’SI’ SI’SI’ SI’SI’
Quantit.per classi SI’SI’ SI’SI’ SI’SI’
Rappresentare le frequenze cumulate
Azionisti per azioni xi ni Ni
10 35 35
50 9 44
100 2 46
Riprendiamo l’esempio di 46 azionisti, distribuiti secondo la dimensione del loro pacchetto azionario.
Per rappresentare graficamente la cu-Per rappresentare graficamente la cu-mulata di una variabile discreta seguia-mulata di una variabile discreta seguia-mo queste mo queste regole di costruzioneregole di costruzione::
xxii
NNii
05
101520253035404550
-20 0 20 40 60 80 100 120La funzione esiste da -La funzione esiste da -, ma fino al pri-, ma fino al pri-mo valore osservato ha valore 0:mo valore osservato ha valore 0:
F(X<10)=0 F(X<10)=0
Quindi la curva viaggia terra terra Quindi la curva viaggia terra terra come come un brucoun bruco fino alle soglie di x=10. Solo a fino alle soglie di x=10. Solo a quel punto la curva si impenna e sale a quel punto la curva si impenna e sale a frequenza 35. Infatti F(Xfrequenza 35. Infatti F(X10)=f(10)=35.10)=f(10)=35.
Questo è il bruco che
striscia e si arrampica..
Variabili discrete, diagrammi a scalini
Azionisti per azioni xi ni Ni
10 35 35
50 9 44
100 2 46
xxii
NNii
0
50
-20 120
0
50
-20 120
05
101520253035404550
-20 0 20 40 60 80 100 120
Continuiamo a seguire il nostro bruco, Continuiamo a seguire il nostro bruco, che striscia lungo la funzione cumulata.che striscia lungo la funzione cumulata.
Tra X=10 e X=50 di nuovo la curva pro-Tra X=10 e X=50 di nuovo la curva pro-seuguea lungo una retta parallela alla seuguea lungo una retta parallela alla ascissa: nessuna modalità è infatti os-ascissa: nessuna modalità è infatti os-servata dopo X=10 e prima di X=50. servata dopo X=10 e prima di X=50.
Di nuovo a X=50 esatto (punto di di-Di nuovo a X=50 esatto (punto di di-scontinuità della funzione) la curva si scontinuità della funzione) la curva si impenna in verticale e raggiunge impenna in verticale e raggiunge F(XF(X50)= f(10)+f(50)= 44. 50)= f(10)+f(50)= 44.
(10,35)
(50,44) (100,46)
E così via… E così via… Risultato di questo per-corso è una funzione spezzata con la caratteristica forma di una scala. Per costruire il grafico è sufficiente individuare i tre punti incorniciati, a partire dalle loro coordinate (xi, Ni), e poi congiungere i diversi tratti della spezzata.
Ancora sui diagrammi a scalini
Nel diagramma ad aste:
La lunghezza delle barre è proporziona-le a ni oppure a fi.
La v.s. discreta assume solo valori di-screti: non esiste per es. f(x) per X=40
La distribuzione di frequenza assume va-lori solo entro il campo di variazione di X
Diagramma a ‘scalini’Diagramma a ‘scalini’
xxii
NNii
0
50
-20 0 20 40 60 80 100 120
010203040
Diagramma ad ‘aste’Diagramma ad ‘aste’
Nel diagramma a scalini:
La lunghezza delle tratte verticali è pro-porzionale ancora a ni o a fi, dato che è pari alla differenza tra due cumulate successive: ffii=F=Fii-F-Fi-1i-1
La funzione assume valore anche per modalità non osservate. Es. F(40)=F(10)
La funzione cumulata assume valore an-che al di fuori del campo di variazione della v.s.: F(-)=0 e F()=1.
(10,35)
(100,46)(50,44)
Confrontiamo allora il diagramma (ad aste) delle frequenze con quello (a scalini) delle cumulate:
Una definizione e un esempioLa distribuzione cumu-lativa di frequenze (funzione di ripar-funzione di ripar-tizionetizione) di una v.s. di-screta è una funzione continuacontinua compresa tra 0 e + (tra – e + se il carattere può assumere valori <0), con m punti di di-con m punti di di-scontinuitàscontinuità.
xi ni fi Fi
0 20 0,10 0,10
1 30 0,15 0,25
2 70 0,35 0,60
3 50 0,25 0,85
4 20 0,10 0,95
5 10 0,05 1
200 1
0
0,2
0,4
0,6
0,8
1
-1 0 1 2 3 4 5 6
F2=F(X2)=0,60 cioè: “Il 60% degli studenti ha dato non più dinon più di due esami” o anche “ha dato due esami o menoo meno”
F1=F(X1)=0,25 cioè: “un quarto degli studenti ha dato al massimo al massimo 1 esame” o anche “ha dato un numero di esami inferiore a 2inferiore a 2”
La differenza tra le due cumulate è pari alla frequenza dell’ultima modalità sommata: F2-F1 = F(X2)- F(X1) = f(X2) = f2
Studenti del II anno secondo il numero di esami già sostenuti
(2,0.60)
(1,0.25)
0.35
Se una variabile è per classixi-xi+1 ni fi Fi
0-400 34 0,34 0,34
400-1000 40 0,40 0.74
1000-2000 26 0,26 1
100 1
Province per num. abitanti/kmq
Leggiamo la tabella a fianco: il 74% delle province italiane ha una densità inferiore ai 1000 abitanti per kmq.
Ma entro quel 74% una parte (quanti?) ha densità molto minore, per es. compresa tra 0 e 550 Ab/kmq. Posso calcolarla?
0
0,02
0,04
0,06
0,08
0,1
0 500 1000 1500 2000 2500
hi
fi=
0,40
Costruendo l’istogramma avevamo sottin-teso un’ipotesi importante: entro un inter-vallo il carattere si presume distribuirsi u-niformemente (distribuzione rettangolare)
Quindi se tra x=400 e x=1000 stanno 40 province, noi ipotizziamo che tra x=400 e x=700 (cioè metà dell’intervallo) stiano 20 province, e tra x=400 e x=550 (cioè un quarto della classe) stiano 10 province e così via, segmentando all’infinito…
Partendo dall’ipotesi di distribuzione uniforme
xi-xi+1 ni fi Fi
0-400 34 0,34 0,34
400-1000 40 0,40 0.74
1000-2000 26 0,26 1
100 1
Province per num. abitanti/kmq
Se entro ciascuna classe le osservazioni si distribuiscono in modo uniforme al crescere continuo di X (cioè a intervalli i piccoli quanto si vuole di X corrisponde una fre-quenza fi=hi·i sempre uguale) allora la cu-mulazione di incrementi infinitesimi co-stanti di frequenza produce una funzione cumulata rettilinea.
0
0,2
0,4
0,6
0,8
1
0 200 400 600 800 1000 1200
Fi
0
0,02
0,04
0,06
0,08
0,1
0 200 400 600 800 1000 1200
Area:
fi= ihihi
ii
fi=
Fi-Fi-1i
ii
i
ii
ii
hf
xx
FF
g
1
1
tan
Variabili per classi e spezzata delle cumulate
xi-xi+1 ni fi Fi
0-400 34 0,34 0,34
400-1000 40 0,40 0.74
1000-2000 26 0,26 1
100 1
Province per num. abitanti/kmq
Per costruire il grafico della cumulata di fre-quenza di una v.s. per classi occorre quindi
Segnare i punti di coordinate (xi, Fi) (il punto corrispondente all’estremo su-periore di una classe coincide con il punto corrispondente all’estremo supe-riore della classe successiva)
Congiungere i punti successivi della spezzata, prolungando a volontà a .
0
0,2
0,4
0,6
0,8
1
-500 500 1500 2500
La funzione di ripartizione di una v. per classi è una spezzata che congiunge i punti di coor-dinate (xi+1,Fi) partendo dal punto (x1,F0=0). L'ipotesi di distribuzione uniforme diventa ipotesi di crescita uniforme. La densità di frequenza corrisponde al coefficiente ango-lare (tang) della spezzata in ogni segmento.
Fi
xi
Un primo esempioxi |-xi+1 fi hi Fi
15 |-25 0,157 1,57 0,157
25 |-35 0,497 4,97 0,654
35 |-45 0,273 2,73 0,927
45 |-65 0,073 0,37 1,000
Struttura per età Immigrati
05
1015202530354045505560
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
0
0,2
0,4
0,6
0,8
1
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
Esempi di lettura dei dati e del grafico:
Il 65,4% degli immigrati ha meno di 35 anni.
I ‘giovani’ immigrati (che non rag-giungono i 25 anni) sono il 15,7%.
Fi 10xhi
xi xi
Un secondo esempioxi |- xi+1
0 |- 20
20 |- 40
40 |- 60
60 |- 80
80 |- 100
100|-160
160|-300
fi
11,5
39,9
31,5
11,2
3,4
2,0
0,5
100
Fi
11,5
51,4
82,9
94,1
97,5
99,5
1,00
0
20
40
60
80
100
0 4 8 12 16 20 24 28 32 36 40
xi
Fi
Famiglie lombarde per reddito annuo
0
4
8
12
16
20
24
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32
hi
Leggere dati e grafici:
L’11,5% delle famiglie lombarde ha un reddito inferiore ai 20 milioni (di lire) annue.
Il 99,5% ha entrate in-feriori ai 100 milioni.
NB: la classe a max densità di frequenza (20-40) nell’i-stogramma è quella a max pendenza della spezzata
Un terzo esempio[xi ; xi+1) ni i hi Ni
0|—15 25 15 1,67 25
15|—30 30 15 2 55
30|—60 75 30 2,5 130
60|—120 90 60 2 220
120|—180 30 60 0,5 250
250
Indagine sui tempi casa-lavoro (N=250)
0
0,5
1
1,5
2
2,5
3
0 15 30 45 60 75 90 105 120 135 150 165 180
0
50
100
150
200
250
-30 0 30 60 90 120 150 180 210
Attenzione:
Il 10% degli intervistati (25 su 250) im-piega meno di un quarto d’ora.
Ma il 12% (30 su 250) impiega più di 2 ore.
Questa frase corrisponde a una funzione ‘cumulata a rovescio’. Approfondiamo questo aspetto.
Retrocumulare[xi ; xi+1) ni Ni Fi NRi FRi
0|—15 25 25 0,10 250 1,00
15|—30 30 55 0,22 225 0,90
30|—60 75 130 0,52 195 0,78
60|—120 90 220 0,88 120 0,48
120|—180 30 250 1,00 30 0,12
250
0
50
100
150
200
250
0 15 30 45 60 75 90 105 120 135 150 165 180 195 210
Il 10% (30 su 250) impiega più dipiù di due ore. Ma anche: quasi la metà (il 48%) impiega non menonon meno di un’ora.
I dati sono gli stessi, ma cumulati a rovescio aprono a giudizi differenti:
Quasi ¼ (22%) impiega meno di ½ ora
Ma quasi la metà impiega più di 1 ora
Si dice frequenza retrocumulata as-sociata alla modalità xi la fre-quenza di osservare modalità di X siperiori o almeno ugualisiperiori o almeno uguali a xi
m
ikkii fxXFreqF )(
0
250
0 210
NB: NB: FFr(i+1)r(i+1)=1-=1-FFii
cumulata
retrocumulata
Un secondo esempio (un classico)
Di 100 bambini nati a Londra nel 1662:64 sopravvivevano a 6 anni40 sopravvivevano a 16 anni25 sopravvivevano a 26 anni16 sopravvivevano a 36 anni 10 sopravvivevano a 46 anni 6 sopravvivevano a 56 anni 3 sopravvivevano a 66 anni1 sopravviverà a 76 anni
Graunt per primo nel 1662 stima una ‘ta-vola di mortalità’ della città di Londra.
Essa consiste in una funzione retrocumu-lata. Da essa si può risalire alla distri-buzione di frequenza dell’età di morte (se 100 nascono e 64 vivono almenoalmeno 6 anni, 100-64=36 sono i decessi tra 0 e 6).
Dalla distribuzione di frequenza si può ovviamente costruire la curva cumulata.
xi-xi+1 NRi
Da 0 a 6 100
Da 6 a 16 64
Da 16 a 26 40
Da 26 a 36 25
Da 36 a 46 16
Da 46 a 56 10
Da 56 a 66 6
Da 66 a 76 3
Da 76 a 86 1
ni Ni
36 36
24 60
15 75
9 84
6 90
4 94
3 97
2 99
1 100
Di 100 nati, ben 36 muoiono prima diprima di 6 anni. In altre parole: di 100 nati solo 64 hanno età di morte maggiore o parimaggiore o pari a 6
Curve (retrocumulate) di “eliminazione”
0
25
50
75
100
0 20 40 60 80 100
xi-xi+1 NRi
Da 0 a 6 64
Da 6 a 16 40
Da 16 a 26 25
Da 26 a 36 16
Da 36 a 46 10
Da 46 a 56 6
Da 56 a 66 3
Da 66 a 76 1
Da 76 a 86 0
NRi(85)
98,5
98,2
97,4
96,4
88,3
75,0
46,6
15,3
1,0
0
0
In rosso a tratto continuo la curva retro-cumulata di sopravvivenza (o di ‘elimina-zione’) della città di Londra nel 1662.
In blu tratteggiata la stessa curva per la po-polazione italiana maschile nel 1985.
Un confronto eloquente..
Questi sono tutti anni ‘guadagnati’!
Un terzo esempio: industrial demography
La funzione retrocumulata non è esclusiva di demografia e epidemiologia. Interessa anche la ricerca operativa (curve di affidabilità di uno stock di pneumatici), l’economia del lavoro (funzione di anzianità di forza lavoro prima della pensione), l’economia industriale (cicli di vita delle imprese). xi-xi+1 Fi
0-1 15,4
1-2 28,7
2-3 39,6
3-4 47,4
4-5 53,6
5-6 58,0
6-7 62,1
7-8 65,2
8-9 67,2
9-10 69,6
Es.:‘mortalità’ di imprese nate nel 1983.ni FRi
15,4 100
13,3 84,6
10,9 71,3
7,8 60,4
6,2 52,6
4,4 46,4
4,1 42,0
3,1 37,9
2,0 34,8
2,4 32,8
69,6 30,4(Fonte: Biggiero, Caroli, 1995)
0
25
50
75
100
0 3 6 9 12
Domanda: la curva non va a zero ma tende a un asintoto intorno a
25. Che vuol dire?
Altra domanda: tracciate l’istogramma della densità di
frequenza di X. Che significato ha?
Ultimo esempio: slittamento dei passaggi
In Friuli, nella coorte di donne nate nel 1946, le % di quelle che non avevano ancora un figlio rispettivamente a 20, 25, 30 e 35 anni era-no del 93%, 49%, 14% e 9%. Questa espressione equivale a leggere una funzione retrocumulata (in rosso). Il confronto con la retrocumu-lata della coorte del 1960 (in blu) è davvero significativo.
xi|-xi+1 FRi(46)
15-20 1,00
20-25 0,93
25-30 0,49
30-35 0,14
35 e + 0,09
xi|-xi+1 FRi(60)
15-20 1,00
20-25 0,89
25-30 0,62
30-35 0,34
35 e + 0,21
0
20
40
60
80
100
15 20 25 30 35
0
15
La % di donne che non hanno esperito la mater-nità cresce (quasi) a ogni età. La % di ‘childles-sness’ (non maternità definitiva) si alza.
Se prendiamo le don-ne che stanno al cen-tro della distribuzione ordinata secondo l’età di maternità (50% della cumulata), la lo-ro età si sposta da 25 a 27 anni.