Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
Corso di Psicometria Progredito4.1 I principali test statistici per la verifica di ipotesi:
Il test t
Gianmarco AltoèDipartimento di Pedagogia, Psicologia e Filosofia
Università di Cagliari, Anno Accademico 2013 - 2014
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
Sommario
1 Introduzione
2 Test t a campione unico
3 Test t per dati appaiati
4 Test t per campioni indipendenti
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
E se la varianza è ignota?
Fino ad ora abbiamo considerato dei problemi di inferenzastatistica in cui la varianza della popolazione da cui è estrattoil campione è nota.
E se la varianza della popolazione non fosse nota (caso assaifrequente nella pratica)?
Potremmo sostituire una stima della varianza. Ma si è vistoche in questo caso, ed in particolare quando la numerositàcampionaria è ridotta, la statistica test sotto H0 non sidistribuisce esattamente come una normale.
Per fortuna uno “statistico birraio”, nei primi del novecento,ha risolto il problema ... ⇒
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
William Sealy Gosset e la distribuzione t di student
Nei primi del 900 lo statistico William Sealy Gosset, chelavorava presso una fabbrica di birra Guinnes a Dublino,risolse il problema proponendo la distribuzione t di Student.Tale distribuzione è simmetrica ed ha la forma di unacampana, ma rispetto alla normale è caratterizzata da codecontenenti una maggiore probabilità.
Gosset pubblicò i suoi risultati in un articolo passato allastoria nel 1908. La direzione della Guinnes non permettevaperò ai suoi dipendenti di pubblicare risultati relativi aesperimenti fatti nei propri laboratori ... e così Gosset fucostretto ad usare lo pseudonimo di “Student”.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
t di Student vs. Normale
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
quantili
Densità
t con 1 grado di libertàt con 2 gradi di libertàt con 5 gradi di libertàt con 10 gradi di libertàt con 20 gradi di libertànormale
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
t di Student, gradi di libertà e Normale
I gradi di libertà (degrees of freedom) sono un parametro chedefinisce la distribuzione t. Esso dipende dalla numerositàcampionaria e dalla statistica test utilizzata.
Ad esempio nel caso del test t per la verifica di ipotesi sullamedia di una popolazione con varianza ignota, i gradi dilibertà della statistica test sono pari alla numerositàcampionaria meno uno (n − 1).
Osservando il grafico precedente si può notare che alcrescere della numerosità e quindi dei gradi di libertà ladistribuzione t e la distribuzione normale tendono acoincidere. In particolare per n > 100 le due distribuzioni sipossono considerare praticamente uguali.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
Varie tipologie di test t
Nel corso della lezione vedremo, attraverso degli esempi, diverseapplicazioni della distribuzione t di Student:
Test t a campione unico, per la verifica di ipotesi sullamedia della popolazione nel caso di varianza ignota.
Test t per dati appaiati, per il confronto tra le medie di duecampioni dipendenti.
Test t per campioni indipendenti, per il confronto tra lemedie di due campioni indipendenti.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
La stima della varianza della popolazione
Nei casi di verifica di ipotesi in cui la varianza dellapopolazione è ignota, si ricorre ad una stima di tale varianzabasata sui dati campionari.
In questi casi utilizzare la formula per il calcolo della varianzastudiata nell’ambito delle statistiche descrittive porta ad unasottostima della varianza della popolazione.
Si utilizzerà quindi uno stimatore non distorto della varianzadella popolazione, detto varianza campionaria:
s2 =
∑ni (Xi −X)2
n − 1
Naturalmente la deviazione standard campionaria sarà:
s =√s2
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
Le bottigliette di birra
In uno stabilimento di birra, una macchina ha il compito diversare 33 cl di birra in ogni bottiglietta prodotta. IlDirettore ha però il sospetto che la macchina non funzionicorrettamente. Per verificare tale ipotesi il Direttore misuracon uno strumento ad alta precisione 8 riempimenti effettuatidalla macchina selezionandoli in maniera casuale. I risultatiottenuti sono i seguenti:
33 ; 35 ; 37 ; 33 ; 30 ; 38 ; 34 ; 32
Verificare ad un livello di significatività del 5% (α = 0.05), sel’eventuale guasto ha prodotto un aumento della quantità dibirra versata dalla macchina.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
Alcune considerazioni
L’esercizio chiede di verificare un’ipotesi monodirezionalesulla media della popolazione. Rispetto agli esempi visti inprecedenza però, la varianza della popolazione è ignota.
Procederemo quindi stimando la varianza della popolazionesulla base dei dati campionari e utilizzando il cosiddetto testt a campione unico.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
1. La costruzione del sistema di Verifica di Ipotesi
{H0 : µ = 33
H1 : µ > 33
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test
Nel caso di test t a campione unico la statistica test da utilizzareè la seguente:
tOSS =X − µX(
s√n
)dove:
X è la media campionaria delle osservazioni
µ è la media nella popolazione se vale H0s è la deviazione standard campionaria delle osservazioni
n la numerosità campionaria
Dalla teoria sappiamo che se vale H0 la statistica test sidistribuisce come una t di Student con n − 1 gradi di libertà.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test:Aspetti computazionali
Calcoliamo la media e la deviazione standard campionaria dei dati:
X =
∑ni=1Xin
= 34
s =
√∑ni (Xi −X)2n − 1 = 2.619
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test
tOSS =X − µX(s√n
) = 34− 33(2.619√8
) = 1.080
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
Per prima cosa determiniamo il valore critico del test per unlivello di significatività critico pari a α = .05
Essendo il test monodirezionale dovremo cercare sulle tavolestatistiche il quantile della distribuzione t di Student conn − 1, nel nostro caso 8-1 = 7, gradi di libertà che lasciadestra della distribuzione un’area totale di .05.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
Distribuzione t di Student con 7 gradi di libertà
t
Densità
0.0
0.1
0.2
0.3
0.4
0.5
0 tOSS = 1.08 tCRIT = 1.895
Rifiuto Ipotesi NullaNon Posso Rifiutare Ipotesi Nulla
α = 0.05
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
3-4. Confronto tra valore osservato e valore critico edecisione finale
Dall’analisi condotta emerge che il valore osservato dellastatistica test è inferiore al valore critico.L’ipotesi nulla che afferma che la media dei riempimentieffettuati dalla macchina è pari a 33 cl non può essererifiutata per un livello di significatività pari al 5%.
... in sostanza, dal punto di vista statistico i dati nonsupportano la sensazione del Direttore.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
Il battito cardiaco prima e dopo un esameNella seguente tabella sono riportati i battiti cardiaci alminuto di 10 studenti, rilevati prima e dopo che gli studentihanno saputo di dover affrontare un compito di latino asorpresa.
Codice studente Battiti - Prima Battiti -Dopo1 60 672 66 753 73 684 62 625 74 896 63 747 64 628 65 739 71 7610 72 84
Verificare ad un livello di significatività del 5% (α = 0.05), sein media i battiti cardiaci sono cambiati tra le due rilevazioni.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
Alcune considerazioni
Considerando che le rilevazioni effettuate si riferiscono aglistessi soggetti, si può parlare di osservazioni dipendenti o didati appaiati.In ogni coppia di valori rilevati prima e dopo la notizia delcompito a sorpresa, le osservazioni non sono indipendenti masi riferiscono allo stessa unità statistica (il soggetto).
In questi casi, quando cioè le osservazioni non sonoindipendenti, il test statistico da utilizzare è il test t per datiappaiati.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
1. La costruzione del sistema di Verifica di Ipotesi
{H0 : µD = 0
H1 : µD 6= 0
Dove µD e la media delle differenze individuali tra prima e dopo lanotizia del compito nella popolazione da cui è estratto ilcampione.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica testNel caso di test t per dati appaiati la statistica test da utilizzare èla seguente:
tOSS =D − µD(sD√n
)dove:
D è la media campionaria delle differenze individuali traprima e dopo
µ è la media nella popolazione delle differenze individuali traprima e dopo se vale H0sD è la deviazione standard campionaria delle differenzeindividuali tra prima e dopo
n la numerosità campionaria
Dalla teoria sappiamo che se vale H0 la statistica test sidistribuisce come una t di student con n − 1 gradi di libertà.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test:Aspetti computazionali
Codice studente Battiti - Prima (X1) Battiti -Dopo (X2) D = X2 −X11 60 67 72 66 75 93 73 68 -54 62 62 05 74 89 156 63 74 117 64 62 -28 65 73 89 71 76 510 72 84 12
Da cui segue che:
D =
∑ni=1Din
= 6 sD =
√∑ni (Di −D)2n − 1 = 6.481
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test
tOSS =D − µD(sD√n
) = 6− 0(6.481√10
) = 2.928
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
Per prima cosa determiniamo il valore critico del test per unlivello di significatività critico pari a α = .05
Essendo il test bidirezionale dovremo cercare sulle tavolestatistiche i quantili della distribuzione t di Student conn − 1, nel nostro caso 10− 1 = 9, gradi di libertà chelasciano sulle code di sinistra e destra della distribuzioneun’area totale di .05.
Essendo la distribuzione t simmetrica, ci basterà trovare ilquantile positivo che lascia a destra un’area di probabilitàpari a α/2 = .025. Il quantile negativo sarà pari al quantilepositivo moltiplicato per -1.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
Distribuzione t di Student con 9 gradi di libertà
t
Densità
0.0
0.1
0.2
0.3
0.4
0.5
− tCRIT = −2.262 0 tCRIT = 2.262 tOSS = 2.928
Rifiuto Ipotesi Nulla Rifiuto Ipotesi NullaNon Posso Rifiutare Ipotesi Nulla
α
2= 0.025
α
2= 0.025
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
3-4. Confronto tra valore osservato e valore critico edecisione finale
Dall’analisi condotta emerge che il valore osservato dellastatistica test non è compreso tra i valori critici.L’ipotesi nulla che afferma che la media delle differenzeindividuali tra i battiti cardiaci rilevati prima e dopo la notiziadel compito a sorpresa è pari a 0, può essere rifiutata per unlivello di significatività pari al 5%.
... in sostanza, la notizia del compito a sorpresa ha fattocambiare in maniera statisticamente significativa il numero dibattiti cardiaci dei soggetti.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
Le cavie nel labirintoIn un laboratorio di ricerca vengono costruiti due labirinti:labirinto A e labirinto B. A un gruppo di 6 cavie (gruppo A)viene fatto percorrere il labirinto A e ad un gruppo di altre 6cavie (gruppo B) il labirinto B. Alla fine dell’esperimento perciascuna cavia viene rilevato il tempo impiegato in secondiper uscire dal labirinto. I dati ottenuti sono:
Gruppo A Gruppo B16 2018 2122 1522 1921 1921 20
Ipotizzando che le varianze dei due gruppi siano omogenee,verificare ad un livello di significatività del 5% (α = .05) se idue labirinti presentano una diversa difficoltà.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
Alcune considerazioni
Considerando che le rilevazioni effettuate provengono da duegruppi che non presentano legami di dipendenza, perverificare l’ipotesi di ricerca, utilizzeremo il test t percampioni indipendenti.Per utilizzare tale test le varianze dei gruppi devono poteressere considerate omogenee, in caso contrario esiste unaversione del t test per campioni indipendenti (test t concorrezione di Welch) che tiene conto della disomogeneitàdelle varianze.Dal punto di vista didattico, per semplicità, ipotizzeremosempre l’omogeneità delle varianze.Dal punto di vista applicativo tuttavia è bene far presenteche la maggior parte dei software statistici permette divalutare l’omogeneità delle varianze e in caso didisomogeneità di utilizzare la versione di Welch del test t percampioni indipendenti.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
1. La costruzione del sistema di Verifica di Ipotesi
{H0 : µa − µb = 0H1 : µa − µb 6= 0
L’ipotesi nulla prevede che la differenza tra le medie delle duepopolazioni da cui sono stati estratti i campioni sia pari a 0. Inpratica ciò significa che se vale H0 i due campioni provengono dauna popolazione con media comune.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica testNel caso di test t per campioni indipendenti la statistica test dautilizzare è la seguente:
tOSS =
(Xa −Xb
)− (µa − µb)
sab
√na + nbnanb
dove:
sab è la deviazione standard campionaria combinata (pooled)
sab =
√(na − 1)s2a + (nb − 1)s2b
na + nb − 2
Xa − Xb è la differenza delle medie campionarie
µa − µb è la differenza delle medie delle popolazioni sotto H0
s2a e s2b sono le varianze campionarie dei due campioni
na e nb sono le numerosità dei due campioni
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test:Distribuzione della statistica test
Nel caso di test t per campioni indipendenti la statistica test sidistribuisce sotto H0 come una t di student con na + nb − 2(6 + 6− 2 = 10, nel nostro caso) gradi di libertà.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test:Aspetti computazionali
Xa = 20 Xb = 19
s2a = 6 s2b = 4.4
⇒ sab = 2.280
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test
tOSS =
(Xa −Xb
)− (µa − µb)
sab
√na + nbnanb
=(20− 19)− (0)
2.280
√6 + 6
6× 6
= 0.760
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
Per prima cosa determiniamo il valore critico del test per unlivello di significatività critico pari a α = .05
Essendo il test bidirezionale dovremo cercare sulle tavolestatistiche i quantili della distribuzione t di Student conna + nb − 2 (6 + 6− 2 = 10, nel nostro caso) gradi di libertàche lasciano sulle code di sinistra e destra della distribuzioneun’area totale di .05.
Essendo la distribuzione t simmetrica, ci basterà trovare ilquantile positivo che lascia a destra un’area di probabilitàpari a α/2 = .025. Il quantile negativo sarà pari al quantilepositivo moltiplicato per -1.
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
Distribuzione t di Student con 10 gradi di libertà
t
Densità
0.0
0.1
0.2
0.3
0.4
0.5
− tCRIT = −2.228 0 tOSS = 0.76 tCRIT = 2.228
Rifiuto Ipotesi Nulla Rifiuto Ipotesi NullaNon Posso Rifiutare Ipotesi Nulla
α
2= 0.025
α
2= 0.025
Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti
3-4. Confronto tra valore osservato e valore critico edecisione finale
Dall’analisi condotta emerge che il valore osservato dellastatistica test è compreso tra i valori critici.L’ipotesi nulla che afferma che i tempi impiegati dalle cavieper uscire dai labirinti provengano da una popolazione conuna media comune, non può essere rifiutata per un livello disignificatività pari al 5%.
... in sostanza, i dati non supportano dal punto di vistastatistico delle differenze, in termini di tempo impiegato peruscire, tra i due labirinti.