POLITECNICO DI TORINO
ESERCITAZIONI DI LOGISTICA
Laurea in Ingegneria Logistica e della Produzione
Corso di Logistica e di Distribuzione 1
Docente: Prof. Ing. Giulio Zotteri Tutore: Ing. Giuliano Scapaccino
A.A. 2007/2008 VERSIONE 3
METODI EXPLANATORY
NOTA:
MATERIALE PROPEDEUTICO AL CORSO
NON SOSTITUISCE IL TESTO DI RIFERIMENTO
REGRESSIONE LINEARE SEMPLICE
POLITECNICO DI TORINO - ESERCITAZIONI LOGISTICA DI DISTRIBUZIONE 1 – AUTORE: G. SCAPACCINO - VERSIONE 3.0 – FONTE: DALLA RETE
2
13
- a è l'intercetta della retta di regressione,
- b è il coefficiente angolare; esso indica la quantità unitaria di cui varia Y al variare di una unità di
X.
La rappresentazione grafica evidenzia che il termine costante a , chiamato intercetta, fissa la
posizione della retta rispetto all’asse delle ordinate:
- a è il valore di Y, quando X è uguale a 0.
Due rette che differiscano solo per il valore di a , quindi con b uguale, sono tra loro parallele.
Come evidenzia il diagramma cartesiano precedente, ogni punto sperimentale ha una componente di
errore ie , che rappresenta lo scarto verticale del valore osservato dalla retta (quindi tra la Y osservata
e quella proiettata perpendicolarmente sulla retta). Poiché la retta di regressione serve per predire Y
sulla base di X, l’errore commesso è quanto la Y predetta ( iY ) si avvicina alla Y osservata ( iY ).
Utilizzare un qualsiasi punto sperimentale per stimare a porterebbe ad avere tante stime diverse
quanti sono i punti sperimentali, tutti affetti appunto da un errore diverso. Di conseguenza, come punto
di riferimento
- per stimare a e costruire la retta,
- viene utilizzato il punto identificato dai valori medi di Y e di X (Y e X ),
- che rappresenta il baricentro della distribuzione, attraverso il quale la retta passerà sempre per
costruzione.
14
Nel calcolo della retta di regressione, l'intercetta a è stimata a partire da b e dalle medie delle
variabili X e Y sulla base della relazione
XbYa −=
Di conseguenza, l'unica reale incognita è il valore del coefficiente angolare b .
Per calcolare la retta che meglio approssima la distribuzione dei punti, è utile partire dall'osservazione
che ogni punto osservato Yi si discosta dalla retta di una certa quantità ie detta errore o residuo
iii ebXaY ++=
Ognuno di questi valori ie può essere positivo oppure negativo:
- è positivo quando il punto Yi sperimentale è sopra la retta (come nella figura precedente),
- è negativo quando il punto Yi sperimentale è sotto la retta.
Per costruire la retta che descrive la distribuzione dei punti, i principi ai quali riferirsi possono essere
differenti e da essi derivano metodi diversi.
Gli statistici hanno scelto il metodo dei minimi quadrati. La retta scelta è quella che riduce al
minimo la somma dei quadrati degli scarti di ogni punto dalla sua proiezione verticale (parallelo
all’asse delle Y). E’ un valore del tutto identico alla devianza e permette analisi simili a quelle
dell'ANOVA, che verranno successivamente spiegate.
In modo più formale, indicando con
- iY il valore osservato od empirico e con
- $Y i il corrispondente valore sulla retta,
si stima come migliore interpolante, quella che minimizza la sommatoria del quadrato degli scarti
dei valori osservati (Yi ) rispetto a quelli stimati sulla retta ( $Y i )
( $ )Y Yi ii
n
−=∑
1
2 = minimo
Poiché
)bX(aY=e iii +−
è possibile scrivere
minimo =))bX(a (Y=e 2ii
2i ∑∑ +−
e da essa
minimo =))bX(a (Y=e 2ii
2i ∑∑ +−
15
Eguagliando a zero le derivate parziali, si trova il valore di b che minimizza tale sommatoria
( ) ( ) ( )( )
( )( ) ( )[ ]
( )X X b
X X Y YX X
Y YX X Y Y
X X− ⋅ −
− ⋅ −
−
+ − −
− ⋅ −
−
∑∑∑ ∑
∑∑22
2
22
2
Dopo semplificazione, il valore di b risulta uguale al
rapporto della codevianza di X e Y con la devianza di X,
che è più facile ricordare come
X
XY
DevCodb =
La codevianza è un concetto non ancora incontrato nel corso di statistica, poiché serve nello studio di
due variabili: stima come X e Y variano congiuntamente, rispetto al loro valore medio. E' definita
come la sommatoria degli n prodotti degli scarti di X rispetto alla sua media e di Y rispetto alla
sua media:
( ) ( )∑=
−⋅−=n
iiiXY YYXXCod
1
Come la devianza, anche la codevianza ha una formula empirica od abbreviata che permette un calcolo
più rapido
nYX
YXCod XY∑ ∑∑
⋅−⋅= )(
e preciso a partire dai dati campionari.
Infatti evita l’uso delle medie, che sono quasi sempre valori approssimati e impongono di trascinare
nei vari calcoli alcuni decimali.
In conclusione, il coefficiente angolare b è calcolato dalle coppie dei dati sperimentali X e Y come
bX X Y Y
X X=
− ⋅ −
−∑∑
( ) ( )( )2
che ne definisce il significato,
oppure dalla equivalente formula rapida od empirica
16
nX
X
nYX
YXb
∑∑
∑∑
−
⋅−⋅
= 22 )(
)(
Dopo aver calcolato b , si stima a :
XbYa −=
Noti i valori dell'intercetta a e del coefficiente angolare b , è possibile procedere alla
rappresentazione grafica della retta.
Anche a questo scopo, è importante ricordare che la retta passa sempre dal baricentro del
diagramma di dispersione, individuato dal punto d'incontro delle due medie X e Y.
Di conseguenza, è sufficiente calcolare il valore di iY corrispondente ad un solo qualsiasi valore di
iX (ovviamente diverso dalla media), per tracciare la retta che passa per questo punto calcolato e per
il punto d'incontro tra le due medie.
Se non sono stati commessi errori di calcolo, qualsiasi altro punto iY stimato nella
rappresentazione grafica deve risultare collocato esattamente sulla retta tracciata. E’ un
principio elementare che può servire come un procedimento semplice ed emprico, allo scopo di
verificare la correttezza di tutti i calcoli effettuati fino a quel punto
ESEMPIO. Per sette giovani donne, indicate con un numero progressivo, è stato misurato il peso in
Kg e l'altezza in cm.
17
Individui 1 2 3 4 5 6 7
Peso (Y) in Kg. 52 68 75 71 63 59 57
Altezza (X) in cm. 160 178 183 180 166 175 162
Calcolare la retta di regressione che evidenzi la relazione tra peso ed altezza.
Risposta. Come primo problema è necessario individuare quale è la variabile indipendente, che deve
essere indicata con X, e quale la variabile dipendente, indicata con Y. Se non esiste tale relazione
unidirezionale di causa - effetto, da motivare con conoscenze della disciplina che esulano dalla
statistica, è più corretto utilizzare la correlazione lineare semplice.
Tra le due serie di misure dell’esempio, la variabile indipendente è l'altezza e la variabile dipendente è
il peso. Infatti ha significato stimare quanto dovrebbe pesare un individuo in rapporto alla sua altezza,
ma non viceversa.
Successivamente, dalle 7 coppie di dati si devono calcolare le quantità
∑ ∑∑ ∑ =====⋅ 7 ;207598X ;445 ;1204 ;76945)( 2 nYXYX
che sono necessarie per
- la stima del coefficiente angolare b
796,0
71204207598
7445120476945
)(
)(22
2
=−
⋅−
=−
⋅−⋅
=∑∑
∑ ∑∑
nX
X
nYX
YXb
che risulta uguale a 0,796
- la stima dell’intercetta a
354,73172796,0571,63 −=⋅−=−= XbYa
che risulta uguale a -73,354.
Si è ricavata la retta di regressione
18
$Y i = -73,354 + 0,796 ⋅ Xi
con la quale è possibile stimare i punti sulla retta, corrispondenti a quelli sperimentalmente rilevati.
Per tracciare la retta è sufficiente calcolare un solo altro punto, oltre quello noto individuato
dall’incrocio delle due medie, che identifica il baricentro della distribuzione; di norma, ma non
necessariamente, è scelto entro il campo di variazione delle Xi empiriche. Successivamente, si deve
prolungare il segmento che per estremi ha il punto stimato ed il baricentro della distribuzione, come
nella figura di seguito riportata.
PESO
ALTEZZA
50
55
60
65
70
75
80
155 165 175 185X
Y
Qualsiasi altro valore di $Y i , stimato a partire da un generico Xi , sarà collocato su questa retta, se non
sono stati commessi errori di calcolo in una fase qualsiasi del procedimento.
E’ quindi utile, a dimostrazione empirica della correttezza di calcoli effettuati a mano, verificare
effettivamente tale proprietà per un altro valore della variabile X.
Nel sua interpretazione biologica, il valore calcolato di b indica che in media gli individui che
formano il campione aumentano di 0,796 Kg. al crescere di 1 cm. in altezza.
E’ quindi ovvio che, se l’altezza delle 7 giovani fosse stata misurata in metri (1,60; 1,78; ...), il
coefficiente angolare b sarebbe risultato uguale a 79,6 (cento volte il valore precedentemente
stimato), indicando l’incremento di 79,6 kg. per l’aumento di 1 metro in altezza.
19
Nello stesso modo e simmetricamente, se il peso fosse stato stimato in ettogrammi (520, 680, ...) e
l’altezza sempre in centimetri, il coefficiente angolare b sarebbe risultato uguale a 7,96 indicando un
aumento medio del peso di hg. 7,96 per un aumento di 1 cm in altezza.
Sono concetti utili, quando si devono confrontare due o più coefficienti angolari di rette di regressione
e fornire interpretazioni a carattere biologico o ambientale.
Il valore di a molto spesso non è importante. Serve solamente per calcolare i valori sulla retta; ha
uno scopo strumentale e nessun significato biologico. In questo esempio, nella realtà a non esiste,
poiché è fuori dal campo di variazione della X e soprattutto non esiste alcuna persona con l’altezza 0
(zero).
L’intercetta ha significato solo in pochi casi; ad esempio quando si confrontano due metodi per
stimare la stessa quantità, che potrebbe essere 0.
Se per X = 0, il valore di Y è differente si ha 0≠a : significa che i due strumenti hanno una taratura
differente, la cui quantità è indicata dal valore di a .
Sono concetti che saranno ripresi nel paragrafo dedicato alla significatività e all’intervallo di
confidenza dell’intercetta a .
15.5. VALORE PREDITTIVO DELLA REGRESSIONE
La retta di regressione è sovente usata a scopi predittivi, per stimare una variabile conoscendo il
valore dell’altra. Ma è necessario procedere con cautela: in questa operazione spesso viene
dimenticato che,
- sotto l’aspetto statistico, qualsiasi previsione o stima di Y è valida solamente entro il campo
di variazione sperimentale della variabile indipendente X.
Questo campo di variazione comprende solo i valori osservati della X, usati per la stima della
regressione. Per valori minori o maggiori, non è assolutamente dimostrato che la relazione trovata tra
le due variabili persista e sia dello stesso tipo.
L'ipotesi che la relazione stimata si mantenga costante anche per valori esterni al campo
d’osservazione è totalmente arbitraria; estrapolare i dati all’esterno del reale campo d’osservazione
è un errore di tecnica statistica, accettabile solamente nel contesto specifico della disciplina studiata,
a condizione che sia motivato da una maggiore conoscenza del fenomeno. In alcuni casi, questo
metodo è utilizzato appunto per dimostrare come la legge lineare trovata non possa essere valida per
valori inferiori o superiori, stante l’assurdità della risposta.
20
Nell'esempio del paragrafo precedente, la relazione trovata tra Y e X con la retta di regressione è
valida solamente entro un'altezza compresa tra 160 e 183 centimetri. E' da ritenere statisticamente
errato usare la retta stimata per predire valori di Y in funzione di valori di X che siano minori di 160 o
maggiori di 183 centimetri.
Come dimostrazione semplice di tale principio, nei vari testi di statistica sono riportati esempi anche
divertenti, ma è possibile usare la retta calcolata.
Una bambina alla nascita di norma ha un'altezza (lunghezza) di circa 50 centimetri.
Che peso dovrebbe avere, se la relazione precedente fosse applicabile anche al suo caso?
La prosecuzione della retta stimata
iY = -73,354 + 0,796⋅ Xi
per una lunghezza (Xi) uguale a 50 cm.
-73,354 + 0,796⋅50 = -33,554
fornisce un peso medio (Yi) uguale a Kg. -33,554.
E’ una risposta chiaramente assurda, evidenziata nella figura, poiché la relazione lineare calcolata
per giovani da 160 a 183 cm. di altezza non può essere estesa a dimensioni diverse. E’ intuitivo
che gli effetti saranno tanto più distorti, quanto maggiore è la distanza dai limiti sperimentali utilizzati
per il calcolo della regressione.
PESO
-80-75-70-65-60-55-50-45-40-35-30-25-20-15-10
-505
101520253035404550556065707580
0 20 40 60 80 100 120 140 160 180 200
ALTEZZA
21
Nella ricerca applicata l’evoluzione temporale e la diffusione spaziale di un fenomeno sono casi
ricorrenti di uso della regressione lineare a fini predittivi. I dati,
- se ordinati secondo il periodo, sono chiamati serie temporali o storiche,
- mentre sono chiamate serie territoriali quando ordinate sulla base della distanze dal luogo di
rilevazione.
Sono analisi particolarmente importanti per verificare l’aumento (o della diminuzione) dei tassi di
inquinamento ad iniziare da un certo momento oppure per analizzare la diffusione geografica di un
inquinante a partire da una fonte.
Una serie temporale può essere scomposta in 4 componenti:
- la componente di fondo, detta trend, che ne rappresenta l’evoluzione più importante, a lungo
termine;
- le oscillazioni periodiche, stagionali, o cicliche che si ripetono con regolarità ad intervalli costanti;
- le variazioni casuali, non riconducibili a nessuna causa costante;
- gli eventi eccezionali, che sono in grado di modificare le tendenze di medio o di lungo periodo.
Per esse e per le serie territoriali, tra i metodi specifici è utilizzata la regressione, in particolare per
predire la tendenza di fondo.
Per approfondimenti sull’argomento delle serie storiche o territoriali, si rinvia a trattazioni specifiche.
15.6. SIGNIFICATIVITÀ' DEI PARAMETRI β E α DELLA RETTA DI REGRESSIONE
Con le formule presentate, è sempre possibile ottenere la retta che meglio si adatta ai dati rilevati, con
qualunque forma di dispersione dei punti.
Tuttavia, allo statistico il semplice calcolo della retta non è sufficiente. Essa potrebbe indicare
- una relazione reale tra le due variabili, se la dispersione dei punti intorno alla retta è ridotta,
- una relazione casuale o non significativa, quando la dispersione dei punti intorno alla retta è
approssimativamente uguale a quella intorno alla media.
Le tre figure successive (A, B, C), rappresentando in modo schematico situazioni sperimentali
notevolmente differenti, possono illustrare questi concetti con semplicità e chiarezza.
22
Y
X
Y
X
oo
o
oo
o o
o o o
o o
Y
X
Y
X
o
o
o
o
o
o o
oo
o
o
o
A)B)
Y
X
Y
X
o
o
o
o
o
o
o
o
o
o
o
o
C)
La figura A riporta una retta che, visivamente, esprime la relazione tra le due variabili: i punti hanno
distanze dalla retta di regressione sensibilmente minori di quelle dalla media (Y ). Conoscendo X, il
valore stimato di Y può avvicinarsi molto a quello reale, rappresentato dal punto.
All’opposto, la figura C evidenzia una situazione in cui la retta calcolata non è un miglioramento
effettivo della distribuzione dei punti rispetto alla media. In questo caso, la retta calcolata può essere
interpretata come una variazione casuale della media: con questi dati, la retta ha una pendenza
23
positiva; ma con un altro campione estratto dalla stessa popolazione o con l’aggiunta di un solo dato
della stessa popolazione si potrebbe stimare un coefficiente angolare (b) negativo.
Il caso B raffigura una situazione di maggiore incertezza sulla significatività della retta calcolata; la
semplice rappresentazione grafica risulta insufficiente per decidere se all’aumento di X i valori
di Y tendano realmente a crescere.
E’ sempre necessario ricorrere a metodi che, a partire dagli stessi dati, conducano tutti alle stesse
conclusioni. Sono i test di inferenza. Per rispondere alle domande poste, occorre valutare la
significatività della retta, cioè se il coefficiente angolare b si discosta da zero in modo significativo.
Il coefficiente angolare b è relativo al campione.
La sua generalizzazione nella popolazione è indicata con β (beta) e la sua significatività è saggiata
mediante la verifica dell'ipotesi nulla H0
H : = 00 β
Rifiutando l'ipotesi nulla e senza altre indicazioni, si accetta l'ipotesi alternativa a due code H1
0 :H1 ≠β
Affermare che β è uguale a zero, nella regressione lineare significa che
- al variare di X,
- Y resta costante, uguale al valore dell'intercetta a .
Di conseguenza, non esiste alcun legame di regressione o predittivo tra X e Y, poiché la prima
cambia mentre la seconda, che dovrebbe essere da essa determinata, resta costante.
Rifiutando l'ipotesi nulla, implicitamente si accetta l'ipotesi alternativa H1 che β sia diverso da zero: al
variare di X si ha una corrispondente variazione sistematica di Y. Di conseguenza, si afferma che la
regressione esiste, perché conoscendo X si ha informazione non nulla sul valore di Y.
Per la verifica della significatività della retta calcolata, un metodo semplice e didatticamente utile alla
comprensione del significato statistico della regressione è il test F, fondato sulla scomposizione delle
devianze e dei relativi gdl.
Nelle figure sottostanti A e B, indicando con
- iY il punto sperimentale,
- con $Y i la sua proiezione (parallela all’asse delle ordinate) sulla retta,
- con Y la media,
24
a partire dalla somma dei quadrati delle distanze tra i tre punti (Y, Y$ e Y ) si definiscono tre
devianze, come nell’analisi della varianza ad un criterio:
- la devianza totale, con gdl n-1,
- la devianza della regressione o devianza dovuta alla regressione, con gdl 1,
- la devianza d'errore o devianza dalla regressione o residuo, con gdl n-2.
secondo le formule di seguito riportate con i relativi gdl:
- Devianza totale ∑ − 2i )Y(Y con gdl n-1 (Fig. A)
- Devianza della regressione ∑ − 2i )YY( con gdl 1 (Fig. B, parte inferiore)
- Devianza d’errore ∑ − 2i )ˆ(Y iY con gdl n-2 (Fig. B, parte superiore)
Queste formule definiscono il significato delle 3 devianze. Potrebbero essere usate per stimare i
valori, ma richiedono calcoli lunghi e forniscono risultati approssimati, poiché fondati sulle medie e
sui valori della retta, che non sono quasi mai valori esatti e impongono l’uso di decimali.
Per effettuare in modo più rapido e preciso i calcoli, si utilizzano le formule abbreviate:
- Devianza totale nY
Y ∑∑ −2
2 )( con gdl n-1
25
- Devianza della regressione X
XY
DevCod 2
con gdl 1
ricordando che, sempre con le formule abbreviate,
∑ ∑ ∑⋅−⋅=n
YXYXCod XY )(
e
nX
XDevX∑∑ −=
22 )(
Successivamente, per differenza, si calcola la devianza d'errore:
- Devianza d’errore = (Devianza totale – Devianza della regressione ) con gdl n-2
Dal rapporto
- della devianza della regressione con i suoi gdl si stima la varianza della regressione;
- della devianza d'errore con i suoi gdl si ottiene la varianza d'errore.
Se l’ipotesi nulla è vera, la varianza d’errore e la varianza della regressione stimano le stesse
grandezze e quindi dovrebbero essere simili.
Se invece esiste regressione (H0 falsa), la varianza della regressione è maggiore di quella
d’errore.
Il rapporto tra queste due varianze determina il valore del test F con gdl 1 e n-2
F (1, n-2)=Varianza della regressione
Varianza d errore '
Teoricamente, quando l’ipotesi nulla è falsa, si ottengono valori significativamente maggiori di 1.
In pratica, se il valore di F calcolato è inferiore al valore tabulato, relativo alla probabilità prefissata e
ai gdl corrispondenti, si accetta l'ipotesi nulla: non si ha una regressione lineare statisticamente
significativa.
Al contrario, se il valore calcolato di F supera il valore tabulato, si rifiuta l'ipotesi nulla e pertanto si
accetta l'ipotesi alternativa: la regressione lineare tra le due variabili è significativa.
Gli stessi concetti possono essere espressi con termini più tecnici.
26
- Se β = 0, la varianza dovuta alla regressione e quella d'errore sono stime indipendenti e non
viziate della variabilità dei dati.
- Se β ≠ 0, la varianza d'errore è una stima non viziata della variabilità dei dati, mentre la
varianza dovuta alla regressione è stima di una grandezza maggiore.
- Di conseguenza, il rapporto tra le varianze (varianza d'errore/varianza della regressione)
con d.f. rispettivamente 1 e n-2 è da ritenersi utile alla verifica dell'ipotesi β = 0.
Il test applicato è detto anche test di linearità. Infatti, rifiutare l'ipotesi nulla non significa affermare
che tra X e Y non esista alcuna relazione, ma solamente che non esiste una relazione di tipo lineare
tra le due variabili. Potrebbe esistere una relazione di tipo differente, come quella curvilinea, di
secondo grado o di grado superiore.
ESEMPIO. Con le misure di peso ed altezza rilevati su 7 giovani donne
Individui 1 2 3 4 5 6 7
Peso (Y) in Kg. 52 68 75 71 63 59 57
Altezza (X) in cm. 160 178 183 180 166 175 162
è stata calcolata la retta di regressione
$ , ,Y X= − +73 354 0 796 Valutare la sua significatività mediante il test F.
Risposta. Valutare se esiste regressione tra le due variabili con il test F equivale a verificare l’ipotesi
H0: β = 0
contro l’ipotesi alternativa
H1: β ≠ 0
Dopo i calcoli preliminari dei valori richiesti dalle formule abbreviate
∑ =⋅ 76945)( YX ∑ = 1204X 2075982 =∑ X ∑ = 445Y 286932 =∑Y n = 7
precedentemente riportate, si ottengono le tre devianze:
27
- SQ totale = , ,28693445
728693 28289 285 403 715
2
− = − =
- SQ della regressione =(76945
1204 4457
2075981204
7
76945 76540207598 207088
164025510
321 6182
2
2−⋅
−=
−−
= =) ( )
,
- SQ d’errore = 403 715 321 618 82 097, , ,− =
Per presentare in modo chiaro i risultati, è sempre utile riportare sia le tre devianze e i df relativi, sia le
varianze rispettive, in una tabella riassuntiva,
Devianza DF Varianza F P
Totale 403,715 6 ---- ---
Regressione 321,618 1 321,62 19,59 <0.01
Errore 82,097 5 16,42 ---
che fornisce tutti gli elementi utili al calcolo e all’interpretazione di F.
Con i dati dell'esempio, il valore di F
F( , ),,
,1 5321 6216 42
19 59= =
risulta uguale a 19,59 con df 1 e 5.
I valori critici riportati nelle tavole sinottiche di F per df 1 e 5 sono
- 6,61 alla probabilità α = 0.05
- 16,26 alla probabilità α = 0.01.
Il valore calcolato è superiore a quello tabulato alla probabilità α = 0.01. Pertanto, con probabilità P
inferiore a 0.01 (di commettere un errore di I tipo, cioè di rifiutare l’ipotesi nulla quando in realtà è
vera), si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa: nella popolazione dalla quale è stato
estratto il campione di 7 giovani donne, esiste un relazione lineare tra le variazioni in altezza e quelle
in peso.
28
La verifica della significatività della retta o verifica dell'esistenza di una relazione lineare tra le
due variabili può essere attuata anche mediante il test t di Student, con risultati perfettamente
equivalenti al test F. Come già dimostrato per il confronto tra le medie di due campioni dipendenti od
indipendenti, anche
nel test di linearità il valore di t con df n-2 è uguale alla radice quadrata di F con df 1 e n-2
)2-,1()2-( nn Ft = oppure )2,1(2
)2( −− = nn Ft
Il test t è fondato su calcoli che sono didatticamente meno chiari di quelli del test F, per la
comprensione dei parametri riportati nelle formule; ma per l’inferenza offre due vantaggi
- può essere più facilmente applicato anche a test unilaterali,
H1: β < 0 oppure H1: β > 0
- permettere il confronto con qualsiasi valore (β0), (non solo 0 come con il test F) quindi verificare
l’ipotesi nulla
H0: β = β0
ovviamente sempre con ipotesi alternative H1 bilaterali oppure unilaterali.
I test unilaterali
- non solo sono più potenti di quelli bilaterali,
- ma spesso sono anche logicamente più adeguati e corretti ai fini della ricerca.
Ad esempio, sulla relazione lineare tra altezza e peso fino ad ora utilizzato,
- è più logico un test unilaterale (all’aumentare dell’altezza il peso aumenta)
- che non un test bilaterale (all’aumentare dell’altezza il peso varia),
potendo a priori escludere come accettabile il risultato che all’aumentare dell’altezza il peso medio
possa diminuire.
29
Il test t è fondato sul rapporto tra il valore del coefficiente angolare b ed il suo errore standard bS .
La formula generale può essere scritta come
0)2-(
bn S
bt β−=
dove
- 0β è il valore atteso,
- bS è determinato dalla radice quadrata del rapporto tra la dispersione dei dati sperimentali (Y)
intorno alla retta di regressione ( $Y ) e la devianza totale di X.
bS = ( )∑ −
=⋅⋅⋅⋅⋅⋅
2
2'XX
SXdellatotaleDevianzarettadellaerroredVarianza
i
e
Nella verifica della significatività della regressione β è uguale a 0; ma essa può assumere qualsiasi
valore di confronto o ipotizzato (β0); di conseguenza, la formula può essere utilizzata per
verificare la significatività dello scostamento da qualunque valore atteso.
Un caso relativamente frequente nella ricerca applicata consiste nel verificare se il coefficiente
angolare campionario b può essere in disaccordo con la teoria che Y aumenti di una unità
all’aumentare di una di X, cioè se β = 1. Si ricorre a questo confronto, ad esempio, quando si
raffrontano i risultati di due metodi di valutazione che dovrebbero dare gli stessi valori.
E' importante osservare che
- l'errore standard di b ( bS ) diminuisce, quindi il valore di t diventa più significativo,
- all'aumentare della devianza di X.
L’osservazione ha applicazioni importanti nella programmazione degli esperimenti, per la scelta dei
valori campionari di X.
Si supponga di dover valutare la regressione tra peso ed altezza. Si pone un problema di scegliere gli
individui, ai fini di trovare una regressione significativa. Molti sono incerti se sia preferibile
- scegliere individui di altezza media, con la motivazione che rappresentano il caso “tipico”,
- scegliere individui che coprano tutto il campo di variazione dell’altezza.
Per ottenere più facilmente la significatività della pendenza della retta,
è sempre vantaggioso utilizzare per la variabile X un campo di variazione molto ampio,
con più misure collocate ai valori estremi.
30
Infatti
- se la devianza di X è grande, il valore di bS è piccolo;
- di conseguenza il valore di t è grande e più facilmente significativo.
La varianza d'errore della retta 2eS con df n-2 è chiamata anche errore standard della stima;
è data da
2)ˆ( 2
2
−−
= ∑n
YYS ii
e
E’ fondata sui valori attesi e quindi il suo calcolo richiede vari passaggi. Può essere stimata con le
formule presentate nel test F, dove la devianza d'errore è ottenuta in modo rapido per differenza tra la
devianza totale e quella dovuta alla regressione.
Quando è nota la retta, è possibile calcolare la devianza dovuta alla regressione direttamente dai valori
sperimentali di X e Y mediante
Devianza della regressione = )( - 2 ∑∑∑ ⋅⋅⋅− iiii YXbYaY
ESEMPIO 1. Con le stesse 7 misure di peso ed altezza degli esercizi precedenti, stimare la
significatività della regressione mediante il test t di Student.
Risposta. E’ vantaggioso e più logico ricorrere ad un test unilaterale, quindi verificare se il peso
aumenta in modo significativo al crescere dell'altezza. Tuttavia, in questo caso e solo con lo scopo di
confrontare il risultato del test t con quello del precedente test F, è stato preferito un test bilaterale.
Ricordando dai calcoli precedenti che
b = 0 796, se2 = 16,42 n = 7 ( )∑
=
−n
ii XX
1
2= 510 Sb
2 16 42510
=,
1794,0=bS
il valore di 5t
4,4371794,0796,0
5 ==t
risulta uguale a 4,437.
Come già messo in evidenza in varie altre occasioni, il test F ed il test t danno il medesimo risultato.
Infatti,
F1 5 19 59, ,= corrisponde a t 5 19 59= =, 4, 426
31
(La piccola differenza tra 4,437 e 4,426 dipende dai vari arrotondamenti usati nelle due differenti serie
di calcoli.)
ESEMPIO 2. Con una ricerca bibliografica, è stato trovato che il coefficiente angolare β0 della retta di
regressione tra altezza (X) e peso (Y) in una popolazione è risultato uguale a 0,950.
Il valore di 0,796 calcolato sulle 7 giovani se ne discosta in modo significativo?
Risposta. E’ un test bilaterale, in quanto chiede semplicemente se il valore calcolato b si discosta in
modo significativo da un valore atteso, dove
H0: β = 0,950 e H1: β ≠ 0,950
Applicando la formula
)2-(b
n Sbt β−
=
si trova
t(5) = 0 796 0 950
0 1794, ,
,−
= −0 1540 1794
,,
= - 0,858
un valore di t uguale a -0.858 con 5 df.
E’ un rapporto inferiore all’unità, quindi senza dubbio non significativo. Di conseguenza, si deve
concludere che non è dimostrata l’esistenza di una differenza tra il coefficiente angolare riportato sulla
pubblicazione e quello sperimentalmente calcolato con i 7 dati.
Quando non è possibile rifiutare l'ipotesi nulla in merito al coefficiente angolare b (pertanto la retta
campionaria non può essere assunta come significativa di una relazione lineare tra le due variabili), la
risposta ai diversi valori di X è fornita dalla media di Y, della quale può essere utile la conoscenza
della varianza e della deviazione standard.
Con la simbologia ormai consueta, la varianza ( 2YS ) e la deviazione standard ( YS ) della media Y ,
sono rispettivamente
nSS e
Y
22 = e
nSS e
Y =
Nella ricerca ambientale, oltre alla significatività del coefficiente angolare b spesso è importante
verificare anche
- la significatività dell'intercetta a (rispetto a zero)
32
- la significatività della sua differenza da un valore atteso o prefissato.
Il concetto è identico al confronto tra una media campionaria X e la media reale µ o della
popolazione.
Il confronto è verificato ricorrendo ancora alla distribuzione t, con una formula analoga a quella per la
media X e per il coefficiente angolare b .
Un caso frequente è quando l’origine della retta dovrebbe coincidere con l’origine degli assi; quindi
con X = 0 si dovrebbe Y = 0, cioè una risposta media di a che non si discosta significativamente da
0.
Il test può comunque essere applicato al confronto con qualsiasi valore atteso dell’intercetta e l’ipotesi
alternativa H1 può essere sia unilaterale che bilaterale.
Per la significatività dell’intercetta a , si verifica l’ipotesi nulla
H0: α = 0
mentre per il confronto dell’intercetta a con un generico valore atteso α0 si verifica l’ipotesi nulla
H0: α = α0
dove
- α è il valore della popolazione dalla quale è stato estratto il campione che ha permesso il calcolo
di a.
Il test è effettuato con il calcolo di un valore di t, con gdl n-2 in quanto fondato sulla varianza d’errore
della retta; è dato da
an S
at α−=− )2(
dove
- aS è l'errore standard dell'intercetta
ed è stimato come
))(
1( 2
22
∑ −+⋅=
XXX
nSS
iea
con 2eS che indica la varianza d’errore della retta
(già utilizzata per stimare la significatività del coefficiente angolare b ).
ESEMPIO. Utilizzando gli stessi 7 dati della relazione peso - altezza, in cui
357,73−=a 2eS = 16,101 n = 7 ( )∑
=
−n
ii XX
1
2 = 510 X = 172
33
stimare se l'intercetta a si discosta in modo significativo da zero.
Risposta. Per verificare l’ipotesi nulla
H0: α = 0
con ipotesi alternativa
H1: α ≠ 0
poiché l’errore standard di a
599,30510
17271101,16
2
=
+⋅=aS
è uguale a 30,599
si ottiene un valore del t di Student
397,2599,30357,73
5 −=−
=t
uguale a -2,397 con 5 df.
Per un test bilaterale, il valore critico di t con 5 df alla probabilità α = 0.05 è uguale a 2,571.
Di conseguenza, l'intercetta calcolata non risulta significativamente diversa da zero.
In realtà il valore è così vicino alla significatività che, con un numero maggiore di dati, il test sarebbe
risultato significativo.
Per una interpretazione più attenta e meno affrettata del risultato, si pone il problema di stimare
la potenza del test effettuato, prima di affermare con sufficiente sicurezza che il coefficiente
angolare b oppure, come in questo caso, l’incetta a non sono significativamente differenti da
zero oppure da un qualunque valore atteso.
15.7. CONFRONTO TRA LA SIGNIFICATIVITA’ E LA POTENZA DEL TEST DELLA
REGRESSIONE CON QUELLE DELLA CORRELAZIONE
Come risulterà evidente alla fine della esposizione degli argomenti che riguardano la correlazione, la
regressione lineare semplice e la correlazione lineare semplice hanno
- finalità differenti,
- condizioni di validità differenti,
- nei test di significatività rispondono a domande differenti.
Nella verifica della significatività,
- con la retta di regressione, l’ipotesi nulla verte sul valore del coefficiente angolare b :
H0: β = 0
34
- nella correlazione, l’ipotesi nulla verte sul valore del coefficiente r:
H0: ρ = 0
Come sarà illustrato nei paragrafi successivi, quando si effettua il confronto con un qualsiasi valore
teorico,
- con il coefficiente angolare b, si verifica l’ipotesi nulla
H0: β = β0
- con il coefficiente di correlazione r si verifica l’ipotesi nulla
H0: ρ = ρ0
Tuttavia, la regressione e la correlazione possono essere calcolate sulle stesse coppie di dati.
Per ambedue,
- la significatività può essere stimata sia con il test F sia con il test t,
- i test hanno gli stessi gradi di libertà,
- le ipotesi alternative possono essere ugualmente bilaterali oppure unilaterali.,
- i risultati della significatività sono identici: il test t e il test F per la significatività di b forniscono
lo stesso valore di quello applicato su r .
Sulla base di queste affinità sono uguali anche
- la potenza a priori, cioè il numero di dati (n) che servono affinché il coefficiente angolare b o il
coefficiente di correlazione r risultino significativamente differenti da zero o da un valore
prefissato,
- la potenza a posteriori, cioè la probabilità (1-β) di rifiutare correttamente l’ipotesi nulla, in un
test sulla significatività di un coefficiente angolare b oppure un coefficiente di correlazione r .
Di conseguenza, per il calcolo della potenza della regressione si può utilizzare la procedura per la
correlazione, dopo aver ricavato r dai dati della regressione o da suoi indici.
Questo valore r può essere ricavato a partire
- dal coefficiente di determinazione R2 (spiegato in un paragrafo successivo) con
2Rr =
- dal coefficiente angolare b e dalle due devianze con
35
( )( )∑
∑−
−⋅= 2
2
YY
XXbr
i
i
Nei paragrafi successivi di questo capitolo, saranno presentati anche i metodi per confrontare due
coefficienti angolari b1 e b2, allo scopo di verificare se appartengono alla stessa popolazione con
coefficiente angolare β.
Anche per la correlazione, nel capitolo successivo saranno presentati i metodi per confrontare due
coefficienti di correlazione r1 e r2, per verificare se appartengono alla stessa popolazione con
coefficiente di correlazione ρ.
In modo analogo al caso precedente, anche per questo test di confronto tra i coefficienti di due
campioni indipendenti è possibile stimare
- la potenza a priori, cioè il numero di dati (n) che servono affinché i coefficienti angolari b1 e b2
oppure i coefficienti di correlazione r1 e r2 risultino significativamente differenti tra loro,
- la potenza a posteriori (1-β) di un test di confronto tra due coefficienti angolari oppure tra due
coefficienti di correlazione.
Anche per il calcolo della potenza di un test sul confronto tra due coefficienti di regressione, si
utilizza la procedura della correlazione (spiegata nel capitolo sulla correlazione).
Per quanto riguarda gli aspetti concettuali dell’uso del coefficiente di correlazione r , allo scopo di
valutare la significatività del coefficiente angolare b , si rinvia al paragrafo specifico nel capitolo sulla
correlazione.
15.8. INTERVALLI DI CONFIDENZA DEI PARAMETRI β E α
L’uso della retta di regressione a fini predittivi richiede che possa essere stimato l’errore di
previsione
- del coefficiente angolare β
- dell’intercetta α.
I limiti di confidenza sono utili anche per eventuali confronti con un parametro prefissato, quindi ai
fini dell’inferenza, come già fatto per la media campionaria X . Infatti un qualsiasi valore
campionario b0 oppure un valore β0 di una popolazione, se non è compreso entro i limiti di limiti di
confidenza di un altro coefficiente angolare b, è significativamente differente da esso. Questa
analisi coincide con i risultati di un test t bilaterale, alla stessa probabilità P.
36
Come per la media,
- conoscendo β e la sua deviazione standard βσ
- è possibile determinare l’intervallo di confidenza dei valori campionari b alla probabilità P,
attraverso la distribuzione normale ridotta Z.
βα σβ ⋅±= 2/Zb
In realtà, nella ricerca quasi sempre il procedimento logico ha la direzione opposta: si cerca di
stimare il parametro della popolazione (β oppure α) che di solito è ignoto, a partire dalle statistiche ( b
oppure a ) calcolate su n dati campionari.
Calcolato un valore b , il coefficiente angolare della popolazione (β) con probabilità P si trova
entro i limiti dell’intervallo di confidenza L1 e L2
L1 = bn Stb ⋅− − )2 ,2( α
L2 = bn Stb ⋅+ − )2 ,2( α
spesso scritto più rapidamente come
β = bn Stb ⋅± − )2 ,2( α
dove
- bS è l’errore standard di b
( )∑ −= 2
2
XXSSi
eb
Per l'intercetta campionaria ( a ), il valore reale o della popolazione (α)
si trova entro l’intervallo
α = an Sta ⋅± − )2 ,2( α
dove
- aS è l'errore standard di a
))(
1( 2
22
∑ −+⋅=
XXX
nSS
iea
con
- 2eS che in entrambi i casi indica la varianza d’errore, stimata con il test F
37
ESEMPIO. Ricorrendo agli stessi dati su altezza e peso, con i quali sono stati calcolati la retta e la sua
significatività, si è ottenuto
b = 0,796 bS = 0,1794 t(5,0.025) = 2,571 t(5, 0.005) = 4,032 a = -73,357 aS = 30,599
Stimare alla probabilità α = 0.05 e a quella α = 0.01
a) l’intervallo di confidenza del coefficiente angolare β
b) l’intervallo di confidenza dell’intercetta α.
Risposta.
A) L'intervallo di confidenza del coefficiente angolare β alla probabilità del 95% è
0 796 2 571 0 1794 0 796 2 571 0 1794, , , , , ,− ⋅ ≤ ≤ + ⋅β
cioè
0 335 1 257, ,≤ ≤β
- L1 è uguale a 0,335
- L2 e uguale a 1,257.
Si può anche scrivere che il valore della popolazione con probabilità del 95% è compreso tra il limite
di confidenza inferiore L1 = 0,335 e il limite di confidenza superiore L2 = 1,257.
Alla probabilità del 99% è
0 796 4 032 0 1794 0 796 4 032 0 1794, , , , , ,− ⋅ ≤ ≤ + ⋅β
cioè
519,1073,0 ≤≤ β
il valore reale β è compreso tra L1 = 0,073 e L2 = 1,519.
B) L'intervallo di confidenza per l'intercetta α alla probabilità del 95% è
− − ⋅ ≤ ≤ − + ⋅73 357 2 571 30 599 73 357 2 571 30 599, , , , , ,α
− ≤ ≤152 027 5 313, ,α
compreso tra L1 = –152,027 e L2 = 5,313.
Alla probabilità del 99% è
− − ⋅ ≤ ≤ − + ⋅73 357 4 032 30 599 73 357 4 032 30 599, , , , , ,α
− ≤ ≤196 732 50 018, ,α
compreso tra L1 = –196,732 e L2 = 50,018.
38
Anche in queste applicazioni, come già evidenziato per la media della popolazione (µ) rispetto alla
media campionaria ( X ), l’intervallo di confidenza costruito attorno al valore campionario cresce,
quando si aumenta la probabilità che esso comprenda il valore reale.
Per semplicità didattica e come aiuto alla esecuzione di tutti i calcoli richiesti dalle formule, è stato
utilizzato un numero di dati molto limitato, nettamente inferiore a quello che si usa nella ricerca. Di
conseguenza, i parametri della retta hanno intervalli molto ampi; tale risultato è particolarmente
evidente per l’intercetta a .
15.9. INTERVALLI DI CONFIDENZA DELLA RETTA O INTERVALLI DI PREVISIONE
PER I VALORI MEDI DI kY STIMATI
Nella ricerca applicata all’analisi e alla gestione dell’ambiente, si rilevano utili tre diversi casi di stima
dell’intervallo di confidenza:
- del coefficiente angolare, come nel paragrafo precedente;
- del valore medio di Y stimato ( kY ), corrispondente ad un dato valore k di X; è il caso in cui si
somministra una sostanza tossica ad un gruppo di cavie e si vuole prevedere quale sarà l’effetto
medio sulla loro crescita, supposto che esista la relazione lineare già stimata tra dose e accrescimento;
è chiamato anche intervallo di confidenza della retta, essendo infatti la stima di ogni punto sulla
retta;
- di un singolo valore di Y stimato, sempre corrispondente ad un dato valore di X; è il caso in cui si
voglia predire la risposta di un singolo soggetto, come succede al medico che per un paziente voglia
stimare la risposta individuale possibile alla somministrazione di una dose X di un farmaco.
Il valore medio di kY , collocato sulla retta e corrispondente ad un dato valore kX può essere stimato
attraverso la funzione
kk XbaY ⋅+=ˆ
Ma spesso l’incetta a è fuori dal campo di rappresentazione del grafico, centrato sul baricentro o
incontro dei valori medi X e Y .
E’ quindi possibile utilizzare la formula equivalente
( )XXbYY kk −⋅+=ˆ
ESEMPIO. Calcolare il valore medio kY previsto per kX = 180, con i dati sull’altezza delle 7 ragazze.
39
Risposta. Con
a = -73,35 b = 0,796 Y = 63,57 X = 172,0
per kX = 180
con la prima formula si ricava
93,6928,14335,7318035,73ˆ =+−=⋅+−= bYk
e con la seconda
( ) 93,6936,657,630,172180796,057,63ˆ =+=−⋅+=kY
L’intervallo di confidenza di questo valore medio di kY o valore atteso di kY corrispondente ad
un singolo valore k di iX come può essere l’intervallo di confidenza del peso medio di giovani
donne alte 180 cm.,
è stimato mediante la formula
( )
−
−+⋅⋅±
∑=
− n
ii
kenk
XX
XXn
StY
1
2
22
)2 ,2()(1ˆ
α
dove
- kY è il valore previsto o medio di Y per un dato valore k della variabile X,
- 2eS è la varianza d’errore della regressione (16,62),
- n è la dimensione del campione,
- kX è il valore di X del quale si prevede la risposta media kY ,
- ( )∑=
−n
ii XX
1
2è la devianza di X.
Questa formula elenca i fattori che sono utilizzati nella stima e spiega come essi che influiscono
sull'ampiezza dell'intervallo di confidenza della retta
40
ALTEZZA
PESO
40
50
60
70
80
160 170 180 190
Intervalli di confidenza per valori medi di iY al 5% (linee a punti)
e all'1% (linee tratteggiate)
Per una data probabilità P,
- aumenta al crescere della varianza d'errore,
- diminuisce all'aumentare del numero n di osservazioni, per l'effetto congiunto del valore di
t n−2 2, α e del rapporto 1/n,
- diminuisce al crescere della devianza di X,
- varia in funzione dei valori di X, con valori minimi quando kX è vicino alla sua media e valori
massimi quando kX ha distanza massima dalla media.
E’ importante evidenziare questa ultima caratteristica.
Il valore
( )∑=
−
−n
ii
k
XX
XX
1
2
2)(
è detto valore di leva (leverage) dell’osservazione k sul valore della retta .
41
A differenza di quanto succede per l’intervallo del coefficiente angolare, l'intervallo di confidenza
della retta o valore medio atteso kY non è costante, ma varia con una funzione iperbolica in
rapporto alla vicinanza di kX alla sua media. I valori di kY corrispondenti a valori di kX più
distanti dalla media loro media X hanno una influenza maggiore nella determinazione dei parametri
della retta.
Considerando i 7 dati dell'esempio ricorrente sulla relazione tra peso e altezza, è stato calcolato
l’intervallo di confidenza degli Yk stimati per ogni valore X rilevato; è possibile anche il confronto con
il valore Y campionario.
Valori attesi di Yk con il loro intervallo di confidenza
Altezza Peso α = .0 05 α = .0 01
X Y L1kY L2 L1
kY L2
160 52 47 291 54 018 60 495, ,≤ ≤, 43 468 54 018 64 568, ,≤ ≤,178 68 63 582 68 348 73 114, ,≤ ≤, 60 873 68 348 75 823, ,≤ ≤,183 75 65 968 72 328 78 688, ,≤ ≤, 62 353 72 328 82 303, ,≤ ≤,180 71 64 596 69 940 75 284, ,≤ ≤, 61 560 69 940 78 321, ,≤ ≤,166 63 54 029 58 795 63 561, ,≤ ≤, 51 320 58 795 66 270, ,≤ ≤,175 59 61 827 65 960 70 093, ,≤ ≤, 59 478 65 960 72 442, ,≤ ≤,162 57 49 605 55 611 61 617, ,≤ ≤, 46 192 55 611 65 030, ,≤ ≤,
Nella tabella sono riportati
- i valori medi di kY (al centro)
- i relativi intervalli di confidenza (L1, valore medio, L2)
alla probabilità α = 0.05 e α = 0.01, per alcuni valori di kX elencati in ordine casuale:
I valori di L1 e L2 , insieme con la figura, evidenziano
- la minore dispersione del valore medio di Yk stimato ( kY ) quando il valore di Xk è prossimo alla
media delle X,
- la maggiore dispersione delle stime alla probabilità α = 0.01 rispetto a quelle della probabilità α =
0.05.
La stima dell’errore standard di ogni valore medio permette anche il confronto tra un valore medio
calcolato per una specifica quantità kX ed un valore medio ipotizzato o atteso, (ad esempio,
perché trovato su una pubblicazione)
42
- attraverso il test t con df n-2 ed ipotesi H1 sia bilaterali che unilaterali
( )( )
−
−+⋅
−=
∑=
−
n
ii
ke
ipotizzatocalcolaton
XX
XXn
S
YYt
1
2
22
)2(
1
ˆ
Nel calcolo di singoli valori medi, l’errore standard di a ( aS ) è uguale a quello di b. E’ infatti
semplice osservare che per kX = 0 si ottiene kY = a.
( )( )∑
=
−
−+⋅= n
Ii
kea
XX
XXn
SS
1
2
21
scritto spesso come
( )
−+⋅=
∑=
n
ii
ea
XX
Xn
SS
1
2
22 1
in quanto kX = 0
Tuttavia l’intervallo di confidenza di α è quasi sempre molto grande: la sua distanza dal valore medio
è massima, quindi ( XX k − )2 oppure 2X sono valori molto grandi.
Ponendo l’attenzione sul valore medio di Yk stimato ( kY ) per una specifica quantità Xk, in varie
occasioni il ricercatore può essere interessato a conoscere la medie di m osservazioni.
L’errore standard per quel valore di Yk stimato ( kY ) cioè SYk diventa
( )
−++⋅=
∑=
n
ii
eYk
XX
Xnm
SS
1
2
22 11
dove
43
- m è il numero di osservazioni di cui si cerca la risposta media kY per lo specifico valore XK
15.10. INTERVALLI DI CONFIDENZA O INTERVALLI DI PREVISIONE PER SINGOLI
VALORI DI kY STIMATI
Un'altra esigenza frequente nella ricerca è la previsione dell'intervallo di previsione (detto anche
intervallo di confidenza, seppure in modo meno corretto) per una singola risposta di Yk; in altri
termini, quale è la dispersione dei singoli valori di Y, per un dato valore Xk.
Anche in questo caso, il valore medio collocato sulla retta può essere stimato con
kk XbaY ⋅+=ˆ
oppure con la formula equivalente
( )XXbYY kk −⋅+=ˆ
come illustrato nel paragrafo precedente
L'intervallo di previsione di un singolo valore Y per un valore Xk può essere stimato a partire dal
valore sulla retta kY
mediante
Yk = ( )
−
−++⋅⋅±
∑=
− n
ii
kenk
XX
XXn
StY
1
2
22
)2 ,2()(11ˆ
α
con la consueta simbologia,
usata anche per i valori medi di Yk nel paragrafo precedente.
La figura successiva è costruita con i dati della tabella, per gli stessi valori Xk già utilizzati per il
calcolo dell’intervallo di confidenza dei valori medi kY riportati nel paragrafo precedente.
44
ALTEZZA
PESO
30
40
50
60
70
80
90
160 165 170 175 180 185
Intervalli di confidenza per singoli valori di iY al 5% (linee a punti)
e all'1% (linee tratteggiate)
Valori attesi di Yk con il loro intervallo di confidenza
Altezza Peso α = .0 05 α = .0 01
X Y L1kY L2 L1
kY L2
160 52 41 702 54 018 66 334, ,≤ ≤, 34 703 54 018 73 332, ,≤ ≤,178 68 56 984 68 348 79 712, ,≤ ≤, 50 526 68 348 86 170, ,≤ ≤,183 75 60 208 72 328 84 447, ,≤ ≤, 53 321 72 328 91 335, ,≤ ≤,180 71 58 322 69 940 81 558, ,≤ ≤, 51 719 69 940 88 161, ,≤ ≤,166 63 47 431 58 795 70 159, ,≤ ≤, 40 973 58 795 73 617, ,≤ ≤,175 59 54 846 65 960 77 074, ,≤ ≤, 48 531 65 960 83 389, ,≤ ≤,162 57 43 674 55 611 67 548, ,≤ ≤, 36 890 55 611 74 332, ,≤ ≤,
Anche in questo caso è presente il valore
( )∑=
−
−n
ii
k
XX
XX
1
2
2)(