esercitazioni di biostatistica · 2017-11-08 · diagramma box plot (detto a scatola a baffi oppure...
Post on 18-Feb-2019
221 Views
Preview:
TRANSCRIPT
Esercitazioni di Biostatistica
In collaborazione con la Dott.ssaAntonella Zambon
ESERCIZIO 1
7.7423FMaria
25.0424MAldo
12.3422MGiuseppe
422MMarco
3.2426FAnna
12.0424FLucia
7.5423MClaudio
5.0428MAntonio
Distanza (km)
Livello istruzione
Età (anni compiuti)
GenereNome
1- Licenza elementare 2- Licenza media
3- Diploma scuola superiore 4- Laurea
Unità statistica
Variabile
ESERCIZIO 1: frequenza
Una prima sintesi può essere effettuata costruendo la lista delle modalità di una variabile accompagnate dalle rispettive frequenze assolute: distribuzione di frequenze assolute
nJ…nj…n1Frequenza
totaleyJ…yj…y1Modalità
∑=
=J
jjnn
1
…o relative: distribuzione di frequenze relative
1pJ…pj…p1Frequenza
totaleyJ…yj…y1Modalità
n
fp j
j =
ESERCIZIO 1
1- Licenza elementare 2- Licenza media
3- Diploma scuola superiore 4- Laurea
7.7423FMaria
25.0424MAldo
12.3422MGiuseppe
422MMarco
3.2426FAnna
12.0424FLucia
7.5423MClaudio
5.0428MAntonio
Distanza (km)
Livello istruzione
Età (anni compiuti)
GenereNome
ESERCIZIO 1: distribuzione
8
3
5
Frequenzaassoluta
1Totale
0.375F
0.625M
Frequenzarelativa
Genere
Serie statistica
8
8
Frequenzaassoluta
1Totale
14
Frequenzarelativa
Livello istruzione
Variabile statistica degenere
Come riassumere la variabile distanza?
ESERCIZIO 1
0.142115 25
7
4
2
Frequenzaassoluta
1Totale
0.5725 15
0.2860 5
Frequenzarelativa
Distanza
Seriazione statistica
Classi di modalità
Le classi vanno definite in modo che:
•non siano troppe né troppo poche
•siano disgiunte
•comprendano tutte le modalità osservate
Le classi devono avere la stessa
ampiezza?
ESERCIZIO 1: diagramma a barre
8
3
5
Frequenzaassoluta
1Totale
0.375F
0.625M
Frequenzarelativa
Genere
L’altezza del rettangolo èproporzionale alla frequenza della modalità
Valido sia per variabili nominali o numeriche discrete
M F
5
3
ESERCIZIO 1: istogramma
0.142115 25
7
4
2
Frequenzaassoluta
1Totale
0.5725 15
0.2860 5
Frequenzarelativa
Distanza
0.5
0.3
20
10
2,5
Punto centrale
(5+0)/2
(15+5)/2
(25+15)/2
2,50 5,0 7,5 10,0 12,5 15,0 17,5 20,0 22,5 25,0
0.4
0.20.1
Nell’istogramma sono le aree e non le altezze dei rettangoli ad essere proporzionali alle frequenze.
5*0.4=2
• Indicare la tipologia di ogni variabile considerata.
• Quali indici di posizione è possibile calcolare per le diverse variabili?
• Calcolare tali indici per il genere, livello d’istruzione ed età. Confrontare.
ESERCIZIO : in riferimento all’esercizio 1
La carica virale di HIV-1 è un noto fattore di rischio per la trasmissione eterosessuale dell’HIV; i soggetti con carica virale di HIV-1 più elevata hanno un rischio maggiore di trasmettere il virus al partner non infetto. Alcuni ricercatori hanno misurato la quantità di RNA di HIV-1 presente nel siero ematico di un gruppo di persone con partner sieroconvertiti (ovvero non infetti all’inizio ma divenuti positivi all’HIV durante lo studio):
79725 – 12862 – 18022 – 76712 - 256440 – 14013 – 46083 –6808 – 85781 – 1251 – 6081 – 50397 – 11020 – 13633 – 1064 –496433 – 25308 – 6616 – 11210 – 13900 (copie di RNA/ml).
Rappresentare i dati e calcolare media, mediana e deviazione standard.
ESERCIZIO 2
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/ml
paziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
Copie di RNA/ml
paziente
ESERCIZIO 2
128622
1363314
1390020
1121019
1102013
68088
661618
608111
125110
106415
Copie di RNA/ml
paziente
857819
2564405
49643316
797251
767124
5039712
460837
2530817
180223
140136
Copie di RNA/ml
paziente
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/ml
paziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
Copie di RNA/ml
paziente
ESERCIZIO 2
128622
1363314
1390020
1121019
1102013
68088
661618
608111
125110
106415
Copie di
RNA/ml
paziente
857819
2564405
49643316
797251
767124
5039712
460837
2530817
180223
140136
Copie di
RNA/ml
paziente
20
2
4
2
7
5
Frequenza
1
0.1
0.2
0.1
0.35
0.25
Frequenza relativa
100000 500000
Totale
50000 100000
20000 50000
10000 20000
0 10000
Copie di RNA/ml
ESERCIZIO 2
20
2
4
2
7
5
Frequenza
1
0.1
0.2
0.1
0.35
0.25
Frequenza relativa
100000 500000
Totale
50000 100000
20000 50000
10000 20000
0 10000
Copie di RNA/ml
0 2000010000 30000 40000 50000 60000 70000 80000 90000 100000 110000 … 500000
Poligono di frequenza0.5*10-3
ESERCIZIO 2
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/ml
paziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
Copie di RNA/ml
paziente
n
yy
n
ii∑
== 1 95,6166720
1390011210...1286279725 =++++=
MEDIA
Valida solo per dati quantitativi
Definizione?
ESERCIZIO 2
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/ml
paziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
Copie di RNA/ml
paziente
-54859,958
24113,059
-60416,9510
-15584,957
-47654,956
194772,055
15044,054
-43645,953
-48805,952
18057,051
paziente
-5505218
-5045819
-4776820
-3636017
43765,116
-6060415
-4803514
-5064813
-1127112
-5558711
paziente( )xxi −
( )xxi −
( ) 01
≈−∑=
n
ii yyPrima proprietà
(del baricentro)
ESERCIZIO 2
764405
767124
780223
728622
797251
Copie di RNA/ml
paziente
14405
17124
30223
-21382
47251
Copie di RNA/ml
paziente
2,767521 ==∑
=
n
yy
n
ii
-75000(scelto arbitrariamente)
2,17521 ==∑
=
n
yd
n
ii
2,7675275000 =+= dy
( ) yAAyn
ii =⇔=−∑
=
min1
2Seconda proprietà
ESERCIZIO 2
Terza proprietà
(di Cauchy)
La media è sempre compresa tra l’osservazione più piccola e la più grande
Quarta proprietà
(di linearità)
baxy += ℜ∈ba,
bxay +=
ESERCIZIO 2
Limitazioni:
•dati non quantitativi
•diversi ordini di grandezza (ad es. 0.8 – 7 – 58 – 124)
•presenza di valori estremi (ad es. 28 – 34 – 22.5 – 299)
•Sensibile a variazioni nei dati (non robusta)
ESERCIZIO 2
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/ml
paziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
Copie di RNA/ml
paziente
Valida per dati qualitativi ordinali o
quantitativi
MEDIANA
E’ quel valore della variabile che, rispetto all’ordinamento non decrescente delle osservazioni, risulta preceduto e seguito dalla stessa porzione di osservazioni (50%) a meno di effetti di discretizzazione
ESERCIZIO 2
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/ml
paziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
Copie di RNA/ml
paziente
MEDIANA
La mediana di una variabile èquel valore che soddisfa contemporaneamente alle due condizioni:
•almeno il 50% delle unitàstatistiche presenta modalitàinferiori o pari alla mediana
•almeno il 50% delle unitàstatistiche presenta modalitàsuperiori o pari alla mediana
ESERCIZIO 2
128622
1363314
1390020
1121019
1102013
68088
661618
608111
125110
106415
Copie di RNA/ml
paziente
857819
2564405
49643316
797251
767124
5039712
460837
2530817
180223
140136
Copie di RNA/ml
paziente
5,139562
1401313900 =+=M
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/ml
paziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
Copie di RNA/ml
paziente
dispari èn se 2
1M
pari èn se 12
e 2
+=
+=
n
nnM
ESERCIZIO 2
128622
1363314
1390020
1121019
1102013
68088
661618
608111
125110
106415
Copie di RNA/ml
paziente
857819
2564405
49643316
797251
767124
5039712
460837
2530817
180223
140136
Copie di RNA/ml
paziente
QUANTILI
Un quantile di livello α è quel valore di una variabile qualitativa ordinale o quantitativa che, rispetto all’ordinamento non decrescente delle osservazioni, risulta preceduto da α*100% osservazioni e seguito da (1-α)*100% osservazioni, a meno di effetti dovuti alla discretizzazione
ESERCIZIO 2
128622
1363314
1390020
1121019
1102013
68088
661618
608111
125110
106415
Copie di RNA/ml
paziente
857819
2564405
49643316
797251
767124
5039712
460837
2530817
180223
140136
Copie di RNA/ml
paziente
QUANTILI
La mediana è un particolare quantile, quello di livello α=0.50
I quantili di livello α=0.25, 0,50 e 0,75 sono detti quartili
I quantili di livello α=0.33 e 0,66 sono detti terzili
ESERCIZIO 2
128622
1363314
1390020
1121019
1102013
68088
661618
608111
125110
106415
Copie di RNA/ml
paziente
857819
2564405
49643316
797251
767124
5039712
460837
2530817
180223
140136
Copie di RNA/ml
paziente
QUANTILI
Dai dati ordinati della variabile Y il quantile di livello α è dato dalla:
•modalità che si trova nell’intero successivo a (n*α) se n* α è un numero non intero
•modalità che si trovano nelle posizioni (n*α) e (n*α)+1 se n* α è un numero intero
Achtung!!! Ordinare i dati
128622
1363314
1390020
1121019
1102013
68088
661618
608111
125110
106415
Copie di RNA/ml
paziente
857819
2564405
49643316
797251
767124
5039712
460837
2530817
180223
140136
Copie di RNA/ml
paziente
QUANTILI
Il range interquartile è dato dalla differenza tra il valore del quartilecon livello α=0.75 e quello con livello α=0.25. Questo intervallo indica che il 25% delle osservazioni sono inferiori all’estremo inferiore del range e il 25% sono superiori all’estremo superiore.
QUANTILI
Diagramma box plot (detto a scatola a baffi oppure box and whiskers plot)
min maxQ1 Q3Q2
Il range interquartile può essere un utile indice di dispersione quando si ritiene che la deviazione standard (e quindi la varianza) sia troppo influenzata dalle code della distribuzione
10648914
13956 63554
61668496433
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/mlpaziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
CAMPO DI VARIAZIONE
Min:1064
Max:496433
Campo di variazione:495369
-6 -4 -2 0 2 4 6
Misure della variabilità
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/mlpaziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
( )1
1
2
2
−
−=∑
=
n
yys
n
ii
2ss =
VARIANZA E DEVIAZIONE STANDARD (campionaria)
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/mlpaziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
( )1
1
2
2
−
−=∑
=
n
yys
n
ii
-54860
24113,05
-60417
-15585
-47655
194772,1
15044,05
-43646
-48806
18057,05
-55052
-50458
-47768
-36360
434765,1
-60604
-48035
-50648
-11271
-55587
( )xxi −
30,1*108
5,81*108
36,5*108
2,43*108
22,7*108
379*108
2,26*108
19,0*108
23,8*108
3,26*108
30,3*108
25,5*108
22,8*108
13,2*108
1890*108
36,7*108
23,1*108
25,7*108
1,27*108
30,9*108
( )2xxi −
2,62*1011
1011
2 10*38,119
10*62,2 ==s
29,11753910*38,1 10 ==s
2ss =
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/mlpaziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
( ) ∑∑
∑=
=
=
−=−n
i
n
ii
i
n
ii n
y
yyy1
2
12
1
2
(Σyi)2= 1,52117*1012
( )1
1
2
2
−
−=∑
=
n
yys
n
ii
Σyi=1233359
Varianza: formula ridotta
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/mlpaziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
46348864
7358379961
1565001
2123642889
196364169
6,5761*1010
5884730944
324792484
165431044
6356075625
43771456
125664100
193210000
640494864
2,46446*1011
1132096
185858689
121440400
2539857609
36978561
2ix
(Σy2i)=3,38553*1011
=
−∑∑
=
=n
i
n
ii
i n
y
y1
2
12
11
1211
10*62494,2
20
10*5117,110*38553,3
=
=−=
1011
2 10*38,119
10*62494,2 ==s
ESERCIZIO 2
02 ≥sPrima proprietà
L’uguaglianza si ha solo se la variabile è degenere
Seconda proprietà
(di linearità)
baxy += ℜ∈ba,
222xy sas =
Esercizio: Analogie e differenze tra queste proprietà e quelle della media
68088
857819
125110
460837
140136
2564405
767124
180223
128622
797251
Copie di RNA/mlpaziente
661618
1121019
1390020
2530817
49643316
106415
1363314
1102013
5039712
608111
COEFFICIENTE DI VARIAZIONE
Valido solo per variabili che assumono valori positivi
91.1==x
sCV x
E’ un indice adimensionale di variabilità relativa nel senso che misura la variabilità dei dati tenendo conto dell’ordine di grandezza del fenomeno.
Essendo un numero puro permette di confrontare variabili diverse
35
44
63
62
81
120
FrequenzaNnumero di colonie
Nella seguente tabella è riportata la distribuzione di frequenza del numero di colonie per piastra dopo inoculo con una sospensione batterica
ESERCIZIO 3
35
44
63
62
81
120
Frequenza
Numero di colonie
15
16
18
12
8
0
fi*xi
n
yn
n
yn
y
J
jjj
J
jj
J
jjj ∑
∑
∑=
=
= == 1
1
1
**
6939
77,139
69 ==
Tale procedura equivale a fare la media con la formula precedente sommando 12 volte 0, 8 volte 1 etc e dividendo tale somma per il numero totale di piastre
35
44
63
62
81
120
FrequenzaNumero di colonie
39
36
32
26
20
12
Frequenza cumulata
Qual è la mediana?
N è dispari quindi occorre cercare la modalità della variabile a cui èassociata la frequenza cumulata più piccola per la quale vale la relazione:
2
1+≥ nF cum
j
35
44
63
62
81
120
FrequenzaNumero di colonie
39
36
32
26
20
12
Frequenza cumulata
Qual è la mediana?
Se N fosse pari occorre cercare le modalità della variabile a cui sono associate le frequenze cumulate più piccole per le quali valgono le relazioni:
2
nF cum
j ≥ 12
+≥ nF cum
j
35
44
63
62
81
120
FrequenzaNumero di colonie
10.438
4.976
1.515
0.053
0.592
3.130
(xi-x) 2
Qual è la varianza?
( )∑=
−−
=J
jjj yyn
ns
1
22 *1
171.2=
31.314
19.905
9.089
0.320
4.734
37.562
fi* (xi-x)2
102.923
Nella seguente tabella è riportata la distribuzione di frequenza dell’età di insorgenza di patologie tiroidee in 321 maschi assistiti presso un centro endocrinologico. Determinare la media la mediana e la moda
680-90
4470-80
9460-70
6150-60
5340-50
3230-40
1620-30
1510-20
FrequenzaEtà
ESERCIZIO 4
680-90
4470-80
9460-70
6150-60
5340-50
3230-40
1620-30
1510-20
FrequenzaEtà
∑
∑
=
==k
ii
k
ivcii
n
yny
1
1
*
85
75
65
55
45
35
25
15
Valore centrale
510
3300
6110
3355
2385
1120
400
225
fi*xvci
17405321
22.54321
17405==
Le osservazioni che cadono in una classe coincidono con il punto centrale della classe
Le osservazioni sono distribuite in modo uniforme nella classe di appartenenza
Con questa procedura non si ottiene il valore della media
che si otterrebbe lavorando sui valori individuali. In questo
caso si ottiene una approssimazione. Infatti a tutti i soggetti
nella classe d’età 10-20 si attribuisce una età pari al valore
centrale ovvero 15 il che non è detto che risponda al vero.
Tale ragionamento si ripete anche per le altre classi. Se però
n è abbastanza grande e la distribuzione è poco asimmetrica
tale approssimazione risulta poco importante perchégli
errori tendono a bilanciarsi. Lo stesso risultato si ottiene
utilizzando classi meno ampie
680-90
4470-80
9460-70
6150-60
5340-50
3230-40
1620-30
1510-20
FrequenzaEtà
( )c
n
nn
LMmediana
i
*2inf
∑−+=
321
315
271
177
116
63
31
15
Frequenza cumulata161
2
1321
2
1 =+=+n
La classe mediana è 50-60
Estremo inferiore della classe mediana
Numerosità campionaria
Somma delle frequenza delle classi
prima della classe mediana
Frequenza della classe medianaAmpiezza delle classi
680-90
4470-80
9460-70
6150-60
5340-50
3230-40
1620-30
1510-20
FrequenzaEtà
( )c
n
nn
LMmediana
i
*2inf
∑−+=
321
315
271
177
116
63
31
15
Frequenza cumulata
( )30.5710*
61
1162
321
50 =−
+=
La classe mediana è 50-60
1612
1321
2
1 =+=+n
680-90
4470-80
9460-70
6150-60
5340-50
3230-40
1620-30
1510-20
FrequenzaEtà
cLModa *21
1inf ∆+∆
∆+=
La classe modale è la 6070
Estremo inferiore della classe modale
Eccesso della frequenza della classe modale rispetto alla frequenza della classe
immediatamente precedente
Eccesso della frequenza della classe modale rispetto alla frequenza della classe immediatamente successiva
Ampiezza delle classi
Vale solo se le classi hanno la stessa
ampiezza
680-90
4470-80
9460-70
6150-60
5340-50
3230-40
1620-30
1510-20
FrequenzaEtà
cLModa *21
1inf ∆+∆
∆+=
La classe modale è 60-69
98,6310*5033
3360 =
++=
Dati questi risultati possiamo affermare che i dati si distribuiscono come una Normale?
Vale solo se le classi hanno la stessa
ampiezza
22.54=y 30.572 =Q 98.63=Moda
Come si calcola la moda se le classi non hanno la stessa ampiezza?
ESERCIZIO 5
99501-800
173301-500
304201-300
159151-200
288101-150
36851-100
25126-50
FrequenzaN°posti lettoClasse modale?
99501-800
173301-500
304201-300
159151-200
288101-150
36851-100
25126-50
Frequenza
N°posti letto
300
200
100
50
50
50
25
Ampiezza della classe
0.33
0.87
3.04
3.18
5.76
7.36
10.04
Densità di frequenza
Rapporto tra frequenza e ampiezza della classe
Classe modale
Il numero di mosche presenti in una popolazione di laboratorio di Drosophila melanogaster costituita originariamente da 100 elementi, viene rilevato in tre periodi successivi. Al primo conteggio si rilevano 112 mosche, al secondo 196 e al terzo 369.Qual è il tasso di incremento medio della popolazione?
12,1100
112 = 75,1112
196 = 88,1196
369 =Incrementi osservati nei tre periodi
ESERCIZIO 6
12,1100
112 = 75,1112
196 = 88,1196
369 =Incrementi osservati nei tre periodi
584.13
88.175.112.1 =++=y
100 158 251 398
×1.584 ×1.584 ×1.584
ESERCIZIO 6
Si deve mantenere inalterato il prodotto!!!
12,1100
112 = 75,1112
196 = 88,1196
369 =Incrementi osservati nei tre periodi
nn
i ig yy ∏ ==
1 ∑=
=n
iig y
ny
1
log1
log
100*12,1112=
100*12,1*75,1196=
100*12,1*75,1*88,1369=
ESERCIZIO 6
Si deve mantenere inalterato questo prodotto!!!
∑=
=n
iig y
ny
1
log1
log ( ) 43521.063268.055962.011333.0*3
1 =++=
( ) 545,14352,0exp ==gy La popolazione ha subito un tasso di incremento medio del 54%
nn
i ig yy ∏ ==
1 ∑=
=n
iig y
ny
1
log1
log
Il logaritmo della media geometrica è la media aritmetica del logaritmo delle osservazioni
ESERCIZIO 6
100 155 239 369
×1.545 ×1.545 ×1.545
Usata in microbiologia e sierologia quando le osservazioni sono espresse in titoli i cui valori sono multipli dello stesso fattore di diluizione
ESERCIZIO 6
Adesso si mantiene inalterato il prodotto!!!
Una proteina viene studiata mediante l’elettroforesi per conoscerne la velocità di migrazione media. La proteina viene fatta correre su gel in campo elettrico per 20 mm e viene misurato il tempo di percorrenza in 5 prove diverse.
705
504
303
602
401
Tempo (sec)Prova
ESERCIZIO 7
705
504
303
602
401
Tempo (sec)Prova
20/70=0,29 mm/sec
20/50=0,40 mm/sec
20/30=0,66 mm/sec
20/60=0,33 mm/sec
20/40=0,50 mm/sec
Velocità
n
yy
n
ii∑
== 1 4372,05
29,0...33,050,0 =+++=
Non è la velocità media perché: mm 3,109250*4372,0 =
∑∑==
==n
i i
n
i i
a
y
n
n
y
y
11
111
La media armonica è il reciproco della media aritmetica dei reciproci delle osservazioni. Adatta a valori espressi come rapporti.
705
504
303
602
401
Tempo (sec)Prova
20/70=0,29 mm/sec
20/50=0,40 mm/sec
20/30=0,66 mm/sec
20/60=0,33 mm/sec
20/40=0,50 mm/sec
Velocità
==∑
=
n
y
y n
i i
a
1
11
1/0,29 =3,5
1/0,40 =2,5
1/0,66=1,5
1/0,33 =3
1/0,50=2
1/Velocità
4,0
5
5,35,25,1321 =++++
E’ la velocità media perché: mm 100250*4,0 =
Cinque dietologi rilevano la circonferenza addominale (indice divalutazione del grasso addominale) delle loro pazienti prima di un trattamento dimagrante. Noto il valore medio delle pazienti di ciascun dietologo è possibile determinare la circonferenza media generale di tute le pazienti?
ESERCIZIO 8
9390928588Circonferenza media
1213251015N°pazienti
EDCBADietologi
9390928588Circonferenza media
1213251015N°pazienti
EDCBADietologi
∑
∑
=
==k
ii
k
iii
n
yny
1
1
* ( ) ( ) ( )1.90
75
6756
93...8588
12*93...10*8515*88 ==+++
+++=
Nella seguente tabella sono riportati i carichi di rottura espressi in newton di alcuni cavi di acciaio. Determinare il campo di variazione.
112,8-13,2
312,3-12,7
611,8-12,2
1411,3-11,7
1710,8-11,2
1210,3-10,7
59,8-10,2
29,3-9,7
N°di caviCarico di rottura
ESERCIZIO 9
112,8-13,2
312,3-12,7
611,8-12,2
1411,3-11,7
1710,8-11,2
1210,3-10,7
59,8-10,2
29,3-9,7
N°di caviCarico di rottura
Newton 3,99,3-13,2resistente meno classe della
inferiore estremo-resistentepiù classe della superiore estremo
e variaziondi Campo
==
=
Data la seguente distribuzione di frequenza dei livelli di colesterolo sierico in 1067 maschi di età compresa tra i 25 e i 34 anni, determinare la varianza e la deviazione standard
5360-400
9320-360
34280-320
115240-280
299200-240
442160-200
150120-160
1380-120
FrequenzaLivello di colesterolo sierico (mg/100 ml)
ESERCIZIO 10
5360-400
9320-360
34280-320
115240-280
299200-240
442160-200
150120-160
1380-120
FrequenzaLivello di colesterolo sierico (mg/100 ml)
( ) ( )
∑
∑∑
=
=
∞→
=
−≈
−
−= k
ii
k
ivcii
n
k
ivcii
n
yyn
n
yyns
1
1
2
1
2
2
*
1
*
5360-400
9320-360
34280-320
115240-280
299200-240
442160-200
150120-160
1380-120
FrequenzaLivello di colesterolo sierico
(mg/100 ml)
380
340
300
260
220
180
140
100
Valore centrale
1900
3060
10200
29900
65780
79339
21000
1300
ni*xcvi
2124791067
∑
∑
=
== k
ii
k
ivcii
n
yny
1
1
*
14.1991067
212479== mg/100 ml
5360-400
9320-360
34280-320
115240-280
299200-240
442160-200
150120-160
1380-120
FrequenzaLivello di colesterolo
sierico (mg/100 ml)
380
340
300
260
220
180
140
100
Valore centrale
180,86
140,86
100,86
60,86
20,86
-19,14
-59,14
-99,14
32710,34
19841,54
10172,74
3703,94
435,14
366,34
3497,54
9828,74
163551,70
178573,86
345873,16
425953,1
139076,86
161922,28
524631
127773,62
( )yyvci − ( )2yyvci − ( )2* yyn vcii −
2067355,58
( )
∑
∑
=
=
−=
k
ii
k
ivcii
n
yyns
1
1
2
2
*54,1937
1067
2067355,58== (mg/100 ml)2
2ss = 02,4454,1937 == mg/100 ml
5360-400
9320-360
34280-320
115240-280
299200-240
442160-200
150120-160
1380-120
FrequenzaLivello di colesterolo sierico
(mg/100 ml)
380
340
300
260
220
180
140
100
Valore centrale ( )2* yyn vcii −
180,86
140,86
100,86
60,86
20,86
-19,14
-59,14
-99,14
( )yyvci −
32710,34
19841,54
10172,74
3703,94
435,14
366,34
3497,54
9828,74
( )2yyvci −
163551,70
178573,86
345873,16
425953,1
139076,86
161922,28
524631
127773,62
( )2* yyn vcii −
Confrontare la variabilità dei due gruppi A e B nel caso di osservazioni espresse nella stessa scala (1°) o con diverse scale di misura (2°)
5080,925
5231,213
5201,555
5151,134
5200,816
5000,555
BABA
2°1°
308661728∑ iy
514,3312,834,67y8,010,321,670,94s
100*y
sCV =
1,5631,6259,0120,13CV
ESERCIZIO 11
ESERCIZIO 12
Sono stati raccolti i valori di glicemia in un campione di 10 soggetti sani, espressi in mg di glucosio per 100 ml di sangue. Si stimi il valore medio di glucosio nel sangue, si forniscano tre intervalli di confidenza per l’ignota media a livello di significativitàα rispettivamente pari a 0.10, 0.05, 0.01 e si commentino i risultati ottenuti.
65.5 80.0 92.8 90.2 100.5 95.0 98.0 70.3 80.0 105.5Mg/ml=Y
1 2 3 4 5 6 7 8 9 10Soggetto
a) Stimapuntuale di µ
Utilizzo lo stimatoremedia campionaria
Y mg/ml78.8710
mg/ml8.8771 ===∑
=
n
yn
ii
Stima puntuale di µµµµ
b) Stima intervallare di µ
Utilizzo la formula:
αµ αα −=
+≤≤
− −− 1Pr ,1,1n
sty
n
sty gg
Gli estremi dell’intervallo di confidenza sono dati da:
a) =Y mg/ml78.87
c) s=deviazione standard =( )
1
10
1
2
−
−∑=
n
yyi
i= 13.28
± −n
sty g,1 α
d) Scegliamo un valore tabulare di t con 9 gradi di libertà (n-1) corrispondente ad una probabilità 1-α
1° caso: α = 0.10 t0.90;9=1.833
2° caso: α = 0.05 t0.95;9=2.262
3° caso: α = 0.01 t0.99;9=3.250
Achtung!!!! Y valori di t si riferiscono alla tabella della distribuzione a 2 code.
Se si utilizza la tabella della ripartizione invece si deve dimezzare α.
Estremi 1° intervallo: α = 0.10
=± )10/28.13(833.178.87
Estremi 2° intervallo: α = 0.05
Estremi 3° intervallo: α = 0.01
=± )10/28.13(262.278.87
=± )10/28.13(25.378.87
95.48
80.08
97.28
78.28
101.43
74.13
=Y 78.87
95.4880.08
97.2878.28
101.4374.13
α = 0.10
α = 0.05
α = 0.01
I tre intervalli sono centrati sulla stima fornita dalla media campionaria ma presentano ampiezze diverse. Diminuendo infatti il grado di incertezza (α ) ottengo intervalli via via meno precisi. Diminuendo il grado di incertezza siamo più sicuri ma meno precisi.
mg/ml
mg/ml
mg/ml
Stimare, con confidenza del 95%, l’intervallo di confidenza dell’altezza media di una varietà di pomodoro, attraverso 7 esemplari alti 22, 25, 21, 23, 24, 25, 21 pollici.
237
21252423212522 =++++++=y
( ) ( ) ( ) ( ) ( ) ( )3
17
232123252324232123252322 222222
=−
−+−+−+−+−+−=
( )1
1
2
2
−
−=∑
=
n
yys
n
ii
ESERCIZIO 13
398,217
732,1*447,223 =−=iµ
602,247
732,1*447,223 =+=sµ
αµ αα −=
+≤≤
− −− 1Pr ,1,1n
sty
n
sty gg
Da una popolazione con σ=3 è stato estratto un campione di 10
unità con y=25. Calcolare l’intervallo di confidenza per la vera
media con un errore α pari all’1%.
z0.99=2.57
ESERCIZIO 14
56,2210
3*57,225 =−=iµ 44,27
10
3*57,225 =+=sµ
ασµσαα −=
+≤≤
− −− 1Pr 11n
zyn
zy
Anche in questo caso si considera la distribuzione a 2 code altrimenti si dimezza α
Altezza in centimetri di 5 piantine di mais: 24,26, 30, 28 e 22.
Calcolare l’intervallo di confidenza per l’altezza media della
popolazione. Si consideri un livello di confidenza del 95%
ESERCIZIO 15
265
2228302624 =++++=y
( ) ( )10
4
)2622(...2624
1
221
2
2 =−++−=−
−=∑
=
n
yys
n
ii
08.225
10*78.226 =−=iµ 92.29
5
10*78.226 =+=sµ
t4;0,95=2.78
Si immagini ora di conoscere la varianza della popolazione e
che questa sia pari a 10, come cambiano gli intervalli di
confidenza?
23.235
10*96.126 =−=iµ 77.28
5
10*96.126 =+=sµ
Z0,95=1.96
In questo caso l’ampiezza è minore il che è atteso in base al
fatto che la stima intervallare dipende da una quantità stimata µmentre nel caso precedente all’errore commesso nella stima di
µ si deve aggiungere quello per la stima di σ2.
ESERCIZIO 16
In un campione di 10 individui sani è stata misurata la
glicemia. La media è risultata pari a 80 mg di glucosio/100 ml
di sangue. E’ nota la deviazione standard della popolazione che
è pari a 15.
70.7010
15*96.180 =−=iµ
29.8910
15*96.180 =+=sµ
Volendo ottenere un grado di precisione maggiore, ad esempio
un intervallo pari alla metà di quello ottenuto quante
osservazioni sono necessarie?
z1- α
18.6
~9,3 ~9,3
~4.6 ~4.6
ασµσαα
−=
+≤≤
− −−1Pr 11 n
zyn
zy
80=x
70.70 89.29
3.9
3.9
11
11
1
=
+−
+
=
−−
+
±
−−
−−
−
nzy
nzy
nzy
nzy
nzy
σσ
σσ
σ
αα
αα
α
4096.39
6225.21225
*84.3
6.415
*96.1
65.415
*96.1
65.4
3.9*2
22
2
1
1
≈=
=
=
=
=
=
−
−
n
n
n
n
nz
nz
σ
σ
α
α
Si potrebbe anche risolvere così:
40102
102
11
10
15*96.1
2
115*96.1
=⇒=⇒
⇒=⇒=
nn
nn
Semiampiezza precedente =
Semiampiezza attuale = ½semiampiezza precedente
30.910
15*96.1 =
Perché il risultato è diverso? Quale conviene scegliere?
ESERCIZIO 17
Un campione di 100 osservazioni è estratto da una popolazione
di media ignota e varianza pari a 25. La media campionaria è
pari a 20.
Calcolare gli intervalli di confidenza per la media della
popolazione a livello del 95%.
Quanto dovrebbe essere la numerosità campionaria per
ottenere un intervallo di confidenza al 95% con ampiezza al
più pari a 2.2?
02.1910
5*96.120 =−=iµ 98.20
10
5*96.120 =+=sµ
nnnis
5*96.1*2)
5*96.120(
5*96.120 =−−+=− µµ
2,2≤− is µµ
1.15
*96,12.25
*96,1*2 ≤⇒≤nn
n≤1.1
5*96.1n≤
2
1.1
5*96.1n≤⇒ 80
ESERCIZI
Si vuole stimare il perimetro toracico medio di una certa popolazione. Di conseguenza si considera un campione di 50 soggetti con perimetro toracico medio pari a 90. Se la popolazione si considera distribuita in modo normale σ=10, determinare un intervallo di confidenza per µ al 90%.
Il numero medio di battiti al minuto di un campione di 8 operai vale 71,5 con s=5.1. Si costruisca un intervallo di confidenza al 99% per la media della popolazione.
[Soluzione: 87.67-92.33]
[Soluzione: 65.2-77.8]
ESERCIZI
Si consideri la seguente tabella di frequenza che riporta le merci e i passeggeri sbarcati agli scali portuali di alcune regioni italiane nel 1988
2664937Marche
312627Emilia – Romagna
24821849Veneto
4222806Friuli V. G.
Passeggeri (migliaia)Merci (migliaia di tonnellate)
Regione
Ci si chiede se è più variabile lo sbarco di merci o lo sbarco dei passeggeri.
[Soluzione: CV 0.47 e 0.85]
ESERCIZI
Sia Y la variabile quantitativa discreta che descrive il numero di componenti delle famiglie residenti al censimento del 1981 in Liguria
17077
1175094
297275
65776
9068 o più
1685363
2037092
1979061
FrequenzaN°componenti
Qual è la mediana?
[Soluzione: 2]
ESERCIZI
Si considerino i dati di peso e l’altezza di 6672 statunitensi esaminati tra il 1960 e il 1962 dal Public Health Service. Questi dati sono stati raggruppati in 7 classi d’età e per genere dando origine a 14 gruppi. Quali informazioni si possono dedurre dal grafico?
http://www.science.unitn.it/~matsoc/stat/sezione2/node4.html
Invecchiando la gente non si accorcia!!! Il fatto è che si stanno confrontando in uno specifico istante temporale individui nati in epoche diverse (e quindi probabilmente alimentati in modo diversi durante le giovani età)
ESERCIZI
Si effettuano n=40 misurazioni di una variabile quantitativa (n° di fiori di una pianta) e si ottengono i seguenti risultati
2333332442
2115532444
5223133125
2832134120
Costruire una tabella della distribuzione di frequenza e rappresentarla graficamente. Calcolare media, moda, mediana e deviazione standard
[Soluzione: 2.825, 2, 3, 1.517]
ESERCIZI
La seguente tabella si riferisce a n=20 individui. Le variabili sono:
Puls1=pulsazioni cardiache rilevate a riposo
Puls2=pulsazioni cardiache rilevate dopo 500 metri di passo veloce
Fumo: 1 =fumatore 2= non fumatore
Altezza in cm.
Peso in kg.
Attività sportiva: 1 =bassa, 2=media, 3=alta
ESERCIZI
•Classificare le variabili considerate
•Calcolare media, varianza, Q1, Q2 e Q3 per le variabili quantitative. Quale variabile è la più dispersa?
•Calcolare moda e mediana per le variabili fumo e attivitàsportiva
•Calcolare un intervallo di confidenza per la media delle variabili quantitative.
•Nei fumatori è più variabile Puls1 o Puls2? E nei non fumatori?
ESERCIZI
36117028072
28218817668
37718517270
27917518266
37918325862
37718027660
26617027668
36917818492
27018329680
17318819490
263180211876
28918327562
28618827268
36818328484
17518528474
27017528064
18618517866
37318717662
26618327058
26417028864
Attività sportivaPesoAltezzaFumoPuls2Puls1
ESERCIZI
Puls1 Puls2fumo media 73,42857 80,28571fumo varianza 150,2857 52,57143no fumo media 68,61538 81,30769no fumo varianza 64,92308 206,5641fumo cv 0,166953 0,09031no fumo cv 0,11743 0,176765
Puls1 Puls2 Fumo Altezza Peso Attività sportivamedia 70,3 80,95 180,95 73,65moda 2 2mediana 68 79 2 183 73 2var 94,01053 147,3132 36,68158 66,13421cv 0,137922 0,149935 0,033471 0,110418Q1 63,5 75,75 1 177,25 67,5 2Q3 74,5 84 2 185 79 3min 58 58 1 170 61 1max 92 118 2 188 89 3range 34 60 18 28
Puls1 Puls2 Altezza PesoIc inf 65,76218 75,26958 178,1155 69,84397Ic sup 74,83782 86,63042 183,7845 77,45603
ESERCIZI
La seguente tabella si riferisce al peso (kg) e all’altezza (cm) di n=30 bambini.
1031181725
1101182319
1111251923
1141112019
1051141820
1161081819
1061061515
1171041915
1111081618
1231182118
1081161428
1161023214
1141082021
1181312120
1081251827
AltezzaPeso
ESERCIZI
Suddividere le variabili in 4 classi di uguale ampiezza e costruire la tabella di frequenza. Calcolare media e varianzadai dati originali e da quelli categorizzati e confrontare i risultati.
TotaleTotale
FrequenzaAltezzaFrequenzaPeso
Varianza
Media
Dati divisi in classi
Dati originali
ESERCIZI
Suddividere le variabili in 4 classi di uguale ampiezza e costruire la tabella di frequenza. Calcolare media e varianzadai dati originali e da quelli categorizzati e confrontare i risultati.
30Totale30Totale
3124-132228-34
9116-123422-27
12108-1151816-21
6100-107610-15
FrequenzaAltezzaFrequenzaPeso
22.2317.17Varianza
18.9319.73Media
Dati divisi in classi
Dati originali
53.2250.62Varianza
113.95113.07Media
Dati divisi in classi
Dati originali
ESERCIZI
Sono qui di seguito riportate le durate in anni degli studi compiuti da 20 persone
13-18-18-13-8-8-13-8-8-8-13-19-14-8-8-14-8-13-20-8Rappresentare graficamente la distribuzione degli anni di studio
Quante persone hanno studiato almeno 13 anni?
Completare la tabella seguente e calcolare media e varianza
Totale
20
19
18
14
13
8
y2iniy2
iyi niniAnni di studio (yi)
ESERCIZI
Completare la tabella seguente e calcolare media e varianza
3222151424020Totale
40040020120
36136119119
64832436218
39219628214
84516965513
576647298
y2iniy2
iyi niniAnni di studio (yi)
[Soluzione: 12, 18]
ESERCIZI
Una popolazione è costituita da quattro appartamenti A, B, C e D. La caratteristica in studio è rappresentata dal n° di vani
4D
4C
3B
2A
N°vaniAppartamento
Calcolare media e varianza della variabile nella popolazione
P.S. La varianza nella popolazione è indicata come σ2 ed ècalcolata come:
( )N
yyN
ii∑
=
−= 1
2
2σ
ESERCIZI
Estrarre tutti i 16 possibili campioni di due unitàe calcolare la media campionaria
22 - 2A A
AB
ACAD
BA
B BB C
B D
C AC B
C C
C D
D AD B
D C
D D
Media campionariaValoriAppartamenti
ESERCIZI
Tracciare il grafico della distribuzione della media campionaria
Calcolare la media delle medie campionarie
Calcolare la varianza e lo scarto quadratico medio delle medie campionarie
Confrontare questi valori con quelli ottenuti considerando tutti i campioni
ESERCIZI
Un insieme di dati ha media e deviazione standard
Agli n dati se ne aggiunge uno di valore uguale a
Si ottiene così una nuova media e una nuova deviazione standard
Si può dire quale delle tre relazioni sotto indicate è valida (se SI’evidenziarla; se NO darne una breve giustificazione)
nsny
ny
1+ny1+ns
nn ss <+1 nn ss =+1 nn ss >+1
nn yy <+1 nn yy =+1 nn yy >+1
Si può dire quale delle tre relazioni sotto indicate è valida (se SI’evidenziarla; se NO darne una breve giustificazione
ESERCIZI
Le due figure rappresentano i diagrammi a barre di due insiemi di dati. Indichiamo con e la media e lo scarto della figura 1 e con
e la media e lo scarto della figura 2
1s1y
21 ss < 21 ss = 21 ss >
Delle sei relazioni sotto indicate indicare le due corrette
2s2y
21 yy < 21 yy = 21 yy >
Figura 1 Figura 2
ESERCIZI
Si considerino due osservazioni con valore uguale e sconosciuto s tale che s<t. A questi dati se ne aggiungono 8 tutti con valore t.
Il valore medio dei 10 dati complessivi rispetto a quello dei due iniziali:
aumenta diminuisce rimane invariato
Lo scarto dei 10 dati complessivi rispetto a quello dei due datiiniziali:
aumenta diminuisce rimane invariato
ESERCIZI
Su uno stesso sistema di assi sono riportati i diagrammi a barre di due insiemi di dati: il gruppo A e il gruppo B.
Dire quale dei due insiemi ha media maggiore e quale scarto maggiore.
[Soluzione: media maggiore A, scarto maggiore B]
ESERCIZI
Date 101 osservazioni di cui è noto che:
∑=
=n
iiy
1
6841.51 ∑=
=n
i
iy1
2 2367.50
•stimare media e varianza campionaria
•fornire un intervallo di confidenza per la media a livello α=0.90
[Soluzione: 0.51, 0.24, 0.43-0.59]
ESERCIZI
Si hanno osservazioni di una certa variabile e se ne conosce la media . Si definisce .Allora la media delle osservazioni è:
nxx ,...,1
xnyy ,...,1
53 += ii xy
x 5+x x3 53 +x
ESERCIZI
Quanto vale il primo quartile? Quanto il secondo? Quanto il terzo?
42.132.432.025.319.717.116.815.113.310.7
9.49.08.78.07.97.27.27.06.86.4
5.55.35.24.84.74.74.34.13.63.5
3.33.22.92.82.82.42.42.12.02.0
1.91.71.51.51.41.31.20.90.70.7
ESERCIZI
I biologi che studiano la salute della pelle misurano la velocitàcon cui le nuove cellule tendono a chiudere un taglio fatto con un rasoio sulla pelle di una salamandra anestetizzata. Qui di seguito sono riportati i dati relativi a 18 salamandre misurati in micrometri (un milionesimo di metro) all’ora.
332322111823301235
263514282240342729
Assumendo che la deviazione standard dei tassi di rinnovo della pelle nella popolazione delle salamandre sia pari a 8 micrometriper ora calcolare un intervallo di confidenza per il tasso medio di rinnovo al 90% di confidenza.
[Soluzione: 22,57-28,77]
ESERCIZI
Quanto dovrebbe essere la numerosità campionaria per poter stimare il tasso tasso medio di rinnovo con un errore di non più di 1 micrometro per ora?
[Soluzione: 174]
top related