la verifica delle ipotesi statistiche - docente.unicas.it · n = media campionaria ... = 72 battiti...
TRANSCRIPT
La verifica delle ipotesi statistiche
Problema pratico:
Quale, tra diverse situazioni possibili, riferite alla popolazione, è quella meglio sostenuta dalle evidenze empiriche?
Coerenza del risultato campionario con un’ipotesi specificata per lapopolazione:
se il risultato campionario si verrà a trovare talmente lontano dal valoreteorizzato per da cadere in un insieme di valori ritenuti non “coerenti” (inquanto troppo poco probabili) con l’ipotesi su , tale risultato avvalorerà lapossibilità di ipotesi alternative a quella specificata.
Test statistico
=
regola di decisione
che ad ogni valore campionario associa una decisione sul parametro .
Informazione su un parametro
Campione
Ipotesi sul parametro: = 0
• Conferma l’ipotesi
• Non conferma l’ipotesi
H0: l’ipotesi sul parametro è vera
H1: l’ipotesi sul parametro è falsa
La vera distribuzione è centrata su 0
La vera distribuzione non è centrata su 0
0
1
La logica della verifica delle ipotesi
Punto di partenza:
Punto di arrivo:
Decisione sul valore del parametro ipotizzato
TEST
Dati:
un campione X1, …, Xn,
un parametro ed
una statistica Tn, il cui valore calcolato sul campione è tn
La probabilità:
ha un senso solo se il valore di è noto (nel qual caso non ha utilità)
nP t 1
Richiamando gli intervalli di confidenza:
A meno che…
n
2 2
P z X z 1n n
L’intervallo è fisso, perché è centrato su
varia al variare del campione tra tutti i possibili campioni,
è fisso
Esempio: tn = media campionaria
2
N ,n
x
2zn
2zn
X
x
Prima di estrarre il campione tn non è fisso bensì una v.c. campionaria (Tn),
quindi si può ragionare sulla probabilità che Tn assuma valore compreso
(ossia che tn cada) in un certo intervallo intorno a .
A che scopo?
Per stabilire se la nostra conoscenza su è avvalorata dall’evidenza empirica
(cioè dal campione)
Se è noto:
x
Ipotesi nulla H0:
Informazione sulla popolazione riconosciuta come valida fino a prima all’esperimento
campionario (valida fino a prova contraria):
H0 : = 0
Ipotesi alternativa H1:
Complemento all’ipotesi nulla. È costituita da un singolo valore o da un insieme di valori
possibili per e considerati alternativi a 0:
H1 : = 1 H1 : < 0 H1 : > 0 H1 : 0
Le ipotesi H0 e H1 sono esaustive e disgiunte: o vale l’una o vale l’altra.
In ogni caso la decisione è presa rispetto ad H0
Ipotesi semplice
Ipotesi unidirezionaleIpotesi
bidirezionale
Ipotesi statistica:
affermazione che specifica completamente o parzialmente
la distribuzione di probabilità di una v.c. X.
Le ipotesi statistiche
Test e regole di decisione
Il test permette di stabilire se le osservazioni campionarie
debbano ritenersi coerenti con l’ipotesi nulla oppure no
Da un punto di vista operativo, effettuare il test significa definire una
statistica, detta statistica-test Tn, la cui distribuzione campionaria sia
nota, così che:
insieme dei valori che la statistica-test può assumere
Spazio campionario:
Distribuzione campionaria: Distribuzione di probabilità della statistica-test
campione casuale
(X1, …, Xn)un valore numerico
coerente con H0
non coerente con H0
Errori di I e II specie
Indipendentemente dalla regola adottata, il test porta sempre a dover
scegliere tra due possibili decisioni, H0 e H1 e a poter commettere due
possibili errori:
• rifiutare un’ipotesi vera
• accettare un’ipotesi falsa
N.B.: non esiste la decisione “giusta”!!!
c’è sempre il rischio di sbagliare, ma è possibile gestirlo e controllarlo
QUANTIFICANDOLO
H0 Vera Falsa
Accetto Ok Errore di II specie
Rifiuto Errore di I specie Ok
H0: piove Piove Non piove
Ombrello SI
Ok Danno meno grave
Ombrello NO
Danno più grave Ok
Esempio:
H0 Vera Falsa
Accetto 1 -
Rifiuto 1 -
H0 Vera Falsa
Accetto OkErrore di II
specie
RifiutoErrore di I
specieOk
Rischio di errori di I e II specie
= probabilità di errore di I specie = livello di significatività del test
1 - = probabilità di accettare correttamente (affidabilità del test)
= probabilità di errore di II specie
1 - = potenza del test = probabilità di rifiutare correttamente (varia al variare di 1, quindi può essere determinato solo se H1 è un’ipotesi “semplice”)
0
1
H0 vera
H0 falsa
Definizioni:
H0 : = 0
H1 : = 1
L’ipotesi nulla è quella che, se vera, lascia invariate le cose
L’ipotesi nulla e l’ipotesi alternativa non sono equivalenti ai fini della decisione, nel senso
che il test non è mai conclusivo circa H1, ma concerne solo la possibilità che dal campione si
possa pervenire al rifiuto o al non rifiuto di H0.
Esempi:
Approccio “conservativo” del test
L’errore di I specie è considerato più grave di quello di II specie
Mai lasciare la via vecchia (H0) per la nuova (H1)…
… fino ad EVIDENTE prova contraria
H0
Il vecchio è migliore
Il nuovo è migliore
Vecchio OkDanno meno
grave
NuovoDanno più
graveok
H1: nuovo farmaco migliore del vecchio
H0 Innocente Colpevole
Assolvo OkDanno meno
grave
CondannoDanno più
graveok
H1: Tizio è colpevole
H0: Tizio è innocenteH0: vecchio farmaco migliore del nuovo
È per questo che:
Livello di significatività osservato (approccio di Fisher):
si cerca (sulle tavole) il p-value, ossia la probabilità di ottenere un valore di Tn
maggiore del valore osservato tn (P[Tn > tn])
Regione critica (approccio di Neymann-Pearson):
si fissa “a priori” il livello di significatività del test 1 - , che identifica sulla distribuzione della statistica-test due regioni:
Regione di accettazione:insieme dei valori di Tn coerenti con H0
Regione di rifiuto (o regione critica): insieme di valori di Tn non coerenti con H0
Come prendere la decisione
p-value = grado di coerenza di H0
tn Tn
Una volta calcolato il valore campionario tn della statistica-test, detto valore-test, si può seguire una delle due seguenti procedure alternative:
nt
t Tn
1 -
Accettazione
Rifiuto
?
p-value
nt
-t/2 0 t/2 Tn
/2
1 -
/2
nt
0 t Tn
1 -
Accettazione
Rifiuto
?Regione critica per un test statistico con ipotesi alternativa unidirezionale:
H0 : = 0
Regione critica per un test statistico con ipotesi alternativa bidirezionale:
H0 : = 0
H1 : > 0
H1 : 0
RifiutoRifiuto
Accettazione
Verifica di ipotesi sulla media
La decisione si basa sui valori critici
Con essi va confrontato il valore-test (valore della statistica-test calcolata sul campione)
I valori critici sono ottenuti dalla distribuzione della statistica-test, fissato il livello di significatività desiderato per il test
Per la media:
n
2 2
XP z z 1
n
X ~ N(, 2) 2 nota
Valori critici Statistica-test
2 = 64 = 8
= 0,05 /2 = 0,025 n = 25
Esempio
La frequenza cardiaca dei maschi giovani sani segue una distribuzione Normale con media
= 72 battiti al minuto (bpm) e varianza 2 = 64.
Si misura la frequenza cardiaca su un campione di 25 atleti maschi e si ottiene una media pari a 68,7 bpm.
Si verifichi, ad un livello di significatività del 5%, che la frequenza cardiaca degli atleti non sia diversa da quella della popolazione di tutti i maschi sani.
Soluzione test sulla media, bilateraledistribuzione normale, varianza nota
Ipotesi H0: = 72H1: ≠ 72
Statistica test
Valori critici
Regola di decisione - 1,96 ≤ vtest ≤ 1,96 si accetta H0
vtest < -1,96 oppure vtest > 1,96 si rifiuta H0
Valore test (vtest)
Decisione -2,06 < -1,96 si rifiuta H0
2z 1,96
test
xX
n
test
68,7 72v 2,06
8 25
x 68,7
Esempio
La quantità di merci in transito negli aeroporti italiani si distribuisce normalmente con una media pari a 18,7 (migliaia di tonnellate) e uno scarto quadratico medio pari a 8.In un campione di 20 aeroporti viene registrato un valore medio pari a 15. Utilizzando un livello di significatività dell’1%:a) Verificare l’ipotesi che il transito medio di merci sia rimasto invariato;b) Verificare l’ipotesi che il transito medio di merci non sia diminuito
Soluzione
test sulla media, bidirezionaledistribuzione normale, varianza nota
a) = 8
= 0,01 /2 = 0,005 n = 20
x 15
Ipotesi H0: = 18,7H1: 18,7
Statistica test
Valori critici
Regola di decisione- 2,58 ≤ vtest ≤ 2,58 si accetta H0
vtest < - 2,58 oppure vtest > 2,58 si rifiuta H0
Valore test (vtest)
Decisione - 2,58 ≤ -2,07 ≤ 2,58 si accetta H0
test
xX
n
2 0,005z z 2,58
test
15 18,7v 2,07
8 20
test sulla media, unidirezionaledistribuzione normale, varianza nota
b)
Ipotesi H0: = 18,7H1: < 18,7
Statistica test
Valore critico
Regola di decisione vtest ≥ - 2,33 si accetta H0vtest < - 2,33 si rifiuta H0
Valore test (vtest)
Decisione - 2,07 ≥ - 2,33 si accetta H0
test
xX
n
0,01z z 2,33
test
15 18,7v 2,07
8 20
Verifica di ipotesi sulla media X ~ N(, 2) 2 non nota
n
n 1 n 12 2
XP t t 1
sn
Valori critici Statistica-test
X ~ N
noto
~ 0,1X
N
n
1 ~ n
Xt
sn
???
si
si
no
no
n > 30no
si
Come scegliere la statistica-test per la media?
s = 8,67
= 0,05 /2 = 0,025 n = 12
Esempio
La frequenza cardiaca dei maschi giovani sani segue una distribuzione Normale con media
= 72 battiti al minuto (bpm).
Si misura la frequenza cardiaca su un campione di 12 atleti maschi e si ottiene una media pari a 68,7 bpm ed una varianza corretta pari a 75,12.
Si verifichi, ad un livello di significatività del 5%, che la frequenza cardiaca degli atleti non sia diversa da quella della popolazione di tutti i maschi sani.
Soluzione test sulla media, bidirezionaledistribuzione normale, varianza non nota
Ipotesi H0: = 72H1: ≠ 72
Statistica test
Valori critici
Regola di decisione - 2,201 ≤ vtest ≤ 2,201 si accetta H0
vtest ≤ -2,201 oppure vtest ≥ 2,201 si rifiuta H0
Valore test (vtest)
Decisione - 2,201 ≤ -1,32 ≤ 2,201 si accetta H0
0,025;11t 2,201
x 68,7
0test
xx
s n
2
s 75,12
test
68,7 72 3,3v 1,32
2,58,67 12
Ipotesi H0: = 0,5H1: ≠ 0,5 (H1: > 0,5)
Statistica test
Valori critici
Regola di decisione - 1,645 ≤ vtest ≤ 1,645 si accetta H0
vtest ≤ -1,645 oppure vtest ≥ 1,645 si rifiuta H0
vtest ≤ 1,28 si accetta H0
vtest > 1,28 si rifiuta H0
Valore test (vtest)
Decisione -1,645 ≤ -0,8 ≤ 1,645 si accetta H0
(0,80 < 1,28 si accetta H0)
= 0,10 p =0,54 n=100
Esempio
In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste. Abbiamo il sospetto che l’amico ci abbia ingannati utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività del 10%.
0test
0 0
px
1
n
0,1z 1,28
Soluzione test sulla proporzione, bidirezionale(unidirezionale)
0,54 0,500,80
0,50 1 0,50
100
0,05z 1,645
( )
Verifica di ipotesi sulla differenza tra 2 medie
si
no
si
si
no
2 2
X X Y Y
x y
s n 1 s n 1s
n n 2
Stimatore corretto dello sqm comune
x y
x y
n n 222yx
x y
X Y ~ t
ss
n n
x y
x y
n n 2
x y
X Y ~ t
1 1s
n n
x y
22yx
x y
X Y ~ N 0,1
n n
x y
x y
X Y ~ N 0,1
1 1
n n
si
no
no
si
X e Y ~ Nnx e ny
> 30
X e Y
note X = Y
X = Y
no???
Se su due campioni X ed Y su cui si osserva lo stesso fenomeno si
calcolano le rispettive medie (campionarie) esse presenteranno
quasi certamente due valori numericamente diversi.
Il problema è: tale differenza è “significativa”, cioè dovuta ad una
differenza strutturale tra i due campioni, oppure è dovuta ad una
naturale oscillazione della media, data la variabilità del fenomeno?
A cosa serve il test sulla differenza tra 2 medie?
Ipotesi H0: x = Y
H1: X ≠ Y
Statistica test
Valori critici
Regola di decisione - 1,96 ≤ vtest ≤ 1,96 si accetta H0
vtest ≤ -1,96 oppure vtest ≥ 1,96 si rifiuta H0
Valore test (vtest)
Decisione - 2,93 < -1,96 si rifiuta H0
Esempio
Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km e una deviazione standard di 2.000 km, uguale per le due marche.
Da un campione di 14 utilizzatori della marca X risulta una durata media di 33.500 Km, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km.
Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%.
Soluzione test sulla differenza tra medie, bidirezionaledistribuzione Normale, varianze note uguali
x y
test
x y
X Yx
1 1
n n
= 0,05
0,025z 1,96
test
33500 36000v 2,93
1 12000
14 9
nX=14
nY=9
X = Y = 2.000
x 33.500 y 36.000
X, Y ~ N
Esempio
Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km e la stessa varianza incognita.
Da un campione di 14 utilizzatori della marca X risulta una durata media di 33.500 Km ed una varianza pari a 4.326.400, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km ed una varianza pari a 3.880.900.
Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%.
Soluzione test sulla differenza tra medie, bidirezionaledistribuzione Normale, varianze non note uguali
= 0,05
nX=14
nY=9
x 33.500 y 36.000
X ~ N
2
Xs 4.326.400
2
Ys 3.880.900
Ipotesi H0: x = Y
H1: X ≠ Y
Statistica test con:
Valori critici
Regola di decisione - 2,08 ≤ vtest ≤ 2,08 si accetta H0
vtest ≤ - 2,08 oppure vtest ≥ 2,08 si rifiuta H0
Valore test (vtest)
Decisione - 2,87 < -2,08 si rifiuta H0
x y
test
x y
X Yx
1 1s
n n
2 2
X X Y Y
x y
s n 1 s n 1s
n n 2
0,025;21t 2,08
13 4.326.400 8 3.880.900s 2038,8
14 9 2
test
33.500 36.000 2500v 2,87
1 1 1 12038,8 2038,8
14 9 14 9
Esempio
Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km ma con varianze diverse e incognite.
Da un campione di 14 utilizzatori della marca X risulta una durata media di 33.500 Km ed una varianza pari a 4.326.400, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km ed una varianza pari a 3.880.900.
Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%.
Soluzione test sulla differenza tra medie, bidirezionaledistribuzione Normale, varianze non note diverse
= 0,05
nX=14
nY=9
x 33.500 y 36.000
X ~ N
2
Xs 4.326.400
2
Ys 3.880.900
Ipotesi H0: x = Y
H1: X ≠ Y
Statistica test
Valori critici
Regola di decisione - 2,08 ≤ vtest ≤ 2,08 si accetta H0
vtest ≤ - 2,08 oppure vtest ≥ 2,08 si rifiuta H0
Valore test (vtest)
Decisione - 2,91 < -2,08 si rifiuta H0
0,025;21t 2,08
test
33.500 36.000v 2,91
4.326.400 3.880.900
14 9
x y
test 22yx
x y
X Yx
ss
n n
3.85
Valore test 1.499
Valore critico 1.725
g.d.l. 20
a 0.05
Decisione: Si accetta H0
IC95%(|mx-my|) = [ -1.4 ; 9.1 ]
Contiene lo 0
x y
Esempio
Nelle 22 regioni italiane si misura il livello di inquinamento ambientale con il numero di denunce emesse dalla popolazione residente.
Nelle 10 regioni del Nord risultano in media 29.21 denunce con s.q.m. 6, mentre nelle 12 del Centro-Sud la media è 33.06 con s.q.m. 6.
Ipotizzando che il numero di denunce segua una distribuzione Normale, verificare l’ipotesi che le due aree geografiche siano caratterizzate dallo stesso livello di inquinamento al livello di significatività del 5%
H0: |x - Y|= 0H1: |X - Y|> 0
La spezzata delle medie
Y
XClassi di REDDITO
Totale Medie
AREA
Geografica20-30 30-40
NORD 2 6 8 32.5
CENTRO 2 4 6 31.7
SUD 6 0 6 25
Totale 10 10 20 30
La varianza di X è data dalla somma di due componenti:
• varianza esterna = varianza delle medie di gruppo
• varianza interna = media delle varianze di gruppo
G G 2
VARIANZA VARIANZ
2 2
j j j jj
A INTERNA ESTERNA
1 j 1
1 1n n
n n
Se:
G = numero di gruppi;
j = media dell’j-esimo gruppo;
nj = numerosità dell’j-esimo gruppo (j = 1,….,G);
allora:
2 2 2TOT INT EXT
ossia:
Decomposizione della varianza
Quanto differiscono le medie tra loro e rispetto alla media generale?
CH MM
n. bot
scelta
A cosa serve scomporre la varianza?
Media e varianza costanti
• Varianza delle medie 2ext = 0
• Media delle varianze 2int = 2
CH MM
n. bot
scelta
Medie diverse, varianza costante
Stesso comportamento tra le due distribuzioni:
il numero di bottiglie acquistate è lo stesso per chi sceglie le due
marche
• Varianza delle medie 2ext ≠ 0
• Media delle varianze 2int < 2
Diverso comportamento tra le due distribuzioni:
il numero di bottiglie acquistate è diverso a seconda della marca
scelta
X
2r
2 i x iEXT i 1
X|Y 2 2cX
j X jj 1
n
x n
Y
2c
2 j Y jEXT j 1
Y|X 2 2rY
i Y ii 1
n
y n
Rapporto di correlazione di Pearson
X
Yx0 – x1 x1 – x2 … Classe jma … xh-1 - xh tot
y1 n11 n12 … … … n1h n1.
y2 n21 n22 … … … n2h n2.
.
.
.
yi...
.
.
.
.
.
.
.
.
.
.
.
.nij...
.
.
.
.
.
.
.
.
.
ni....
yk nk1 nk2 … … … nkh nk.
tot n.1 n.2 … n.j … n.h n
Quando Y è quantitativo:Quando X è quantitativo:
N.B.:Su una tabella mista è possibile misurare anche l’indipendenza assoluta con l’indice del 2
Proprietà e interpretazione
X|Y0 1
X|Y 0 Perfetta indipendenza in media:le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (μX)
X|Y 1 Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla
Y|X X|Y L’indice non è simmetrico (salvo eccezioni)
Esempio
Y
2r
2 i Y iEXT i 1
Y|X 2 2cY
j Y jj 1
n
y n
1. Media generale di Y:
h
Y j jj 1
150 25 250 5 350 7 450 5 1256 81y n
n 50394,96
X 4 modalità
Y 5 classi (2 aperte)
Fatturato (Y)
Settore
Merceologico (X)
≤ 200 200-|300 300-|400 400-|500 >500 Totale
Alimentari 11 1 5 1 3 21
Bevande 1 1 0 1 0 3
Healt Care 6 1 1 2 2 12
Ice Packaging 7 2 1 1 3 14
Totale 25 5 7 5 8 50
Nota:
Il valore centrale della prima classe (aperta) è stato ottenuto considerando che, nella successione di valori del carattere fatturato, i valori più bassi sono di poco superiori a 100 (che si assume, quindi, come estremo inferiore della classe); quello dell’ultima classe è ottenuto considerando come estremo superiore della classe il valore massimo effettivamente osservato:
(2012 + 500)/2 = 1256
c
2 j 2jj 12
150 1 250 1 450 11ˆ 26y n
n 36,67
c
3 j 3jj 13
150 6 250 1 350 1 450 2 1256 21y n
n 12384,33
c
4 j 4jj 14
150 7 250 2 350 1 450 1 1256 31y n
n 14412
c
1 j 1jj 11
150 11 250 1 350 5 450 1 1256 31y n
n 21348,48
2. Medie di Y condizionate alle modalità di X
Commento: si può vedere che le medie delle distribuzioni condizionate differiscono dalla media generale di Y, quindi i due caratteri non sono indipendenti in media.
Ma quanto è forte il legame di dipendenza in media?
2
266,67 3
384,33 4
412 1
348,48
3. Confronto tra le medie condizionate
2r
2 2
i Y ii 1
2 2
n 348,48 394,96 21 266,67 394,96 3
384,33 394,96 12 412 99394, .4696 14 4,14
2c
2 2
j Y jj 1
2 2 2
y n 150 394,96 25 250 394,96 5
350 394,96 7 450 394,96 5 1.2 756 3 .5694,96 8 5.618
Y
2r
2 i Y iEXT i 1
Y|X 2 2cY
j Y jj 1
n99.464,14
7.565.618y n
0,013
La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è praticamente nulla
ossia:
il fatturato in media non dipende dal settore merceologico
4. Calcolo del numeratore dell’indice
5. Calcolo del denominatore dell’indice
6. Calcolo dell’indice
Se le medie sono uguali, la varianza tra i gruppi è nulla:
EXT
INT TOT
Dev 0
Dev DevPiù le medie differiscono, più:
EXT TOT
INT
Dev Dev
Dev 0
Più basso è il rapporto, più realistica è l'ipotesi nulla
Più elevato è il rapporto, meno realistica è l'ipotesi nulla
EXT
G 1;n G;
INT
Dev / G 1P F 1
Dev / n G
Il test F
H0: mi = mj i,j = 1, …, G le medie sono uguali in tutti i gruppi
H1: mi mj almeno una media differisce
dalle altre
Statistica test:
Ipotesi:
Valore criticoStatistica-test
H0
H1
Il test F
H0: mi = mj i,j = 1, …, G le medie sono uguali in tutti i gruppi
H1: mi mj almeno una media differisce
dalle altre
Ipotesi:
EXT
INT
Dev / G 10
Dev / n G
H0:
H1:
EXT
INT
Dev / G 10
Dev / n G
H0: = 0
H1: > 0
Source DF Sum of squares Mean squares F Pr > F
Fra gruppi 3 99464.14 33154.71 0.204271 0.892917
Entro gruppi 46 7466153.86 162307.7
Totale 49 7565618.00
Fatturato e settore merceologico
Il p-value è molto alto:
Si accetta l’ipotesi di vendite medie uguali tra i settori, confermata dal campione osservato.0,204
0,89
2EXT
2INT
F
H0: mi = mj i,j = 1, …, G le vendite medie sono uguali in tutti i settori
H1: mi mj almeno una media differisce dalle altre
Decisione:
Basso valore di F = bassa 2EXT = medie vicine
ANOVA
ANOVA
Source DF
Sum of
squares
Mean
squares F Pr > F
Fra gruppi 2 217.34 108.67 6.5357 0.0078
Entro gruppi 17 282.66 16.63
Totale 19 500
Il p-value è basso:
Si rifiuta l’ipotesi reddito medio uguale nelle tre le aree geografiche.
Y
XClassi di REDDITO
Totale Medie
AREA
Geografica20-30 30-40
NORD 2 6 8 32.5
CENTRO 2 4 6 31.7
SUD 6 0 6 25
Totale 10 10 20 30
Verifica dell’ipotesi di indipendenza
Ipotesi di indipendenza in media
Ipotesi di indipendenza assoluta
Ipotesi di indipendenza lineare
ANOVA: test F
Test del 2
Test su
Test su R2
H0: X ed Y sono indipendenti
H1: X ed Y non sono indipendenti
H0: 2 = 0
H1: 2 > 0
H0: = 0
H1: > 0
H0: R2 = 0
H1: R2 > 0
H0: = 0
H1: > 0
Verifica di ipotesi sull’indipendenza assoluta tra due caratteri
Valore criticoStatistica-test
2
ij ij 2
; r 1 c 1i j ij
n nP 1
n
2
ij ij 2
r 1 c 1i j ij
n n
n
La variabile 2 è continua, non può
essere negativa e varia tra zero e
infinito. La sua forma e il suo centro
dipendono dal numero di gradi di libertà.
La sua forma funzionale è:
g1
2g
2
1 xf(x;g) exp x
2g2
2
g=2
g=4
g=8
0.0
0.1
0.2
0.3
0.4
0.5
5 10 15 20
2
ij ij2
i j ij
n n3,84
n
= 0,05
Conteggio
22 19 29 70
61 57 51 169
25 23 25 73
22 20 28 70
130 119 133 382
Meno di 96
96-105
106-110
110 e lode
VOTO
Totale
Non occupato Precario Occ. stabile
OCCUPAZIONE ATTUALE
Totale
OCCUPAZIONE ATTUALE
VOTO
Verifica di ipotesi sull’indipendenza tra due caratteri
H0: X ed Y indipendenti
H1: X ed Y non indipendenti
2
ij ij
i j ij
n n
n
2
0,05;6 12,59
12,593,84
1-
Zona di accettazione
Zona di rifiuto
Ipotesi H0: 2 = 0
H1: 2 > 0
Statistica test
Valore critico
Regola di decisione
vtest 12,59 si accetta H0
vtest > 12,59 si rifiuta H0
Valore test (vtest)
Decisione 3,84 < 12,59 si accetta H0
2
ij ij
testi j ij
n nx
n
20,05; 6 12,59
2
ij ij
testi j ij
n nv 3,84
n
Distribuzione del chi-quadro
45
Fasi del modello:
Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base
Stima dei parametri:uso di stimatori dei parametri caratteristici della funzione scelta
Uso del modello:ai fini per i quali è stato specificato (descrittivi, previsivi, ecc.)
Verifica: della significatività delle stime del rispetto delle ipotesi di base (rimozione delle ipotesi,
analisi dei residui)
Verifica dell’ipotesi di indipendenza lineare
Modello di regressione lineare semplice
46
IPOTESI DI BASE DEL MODELLO DI REGRESSIONE
Ipotesi deboli:
1. yi = + xi + i
2. E(i) = 0
3. var(i) = var(yi) = 2
4. cov(i, j) = 0 (i j)
5. X nota e senza errore
La varianza di (o di y) 2 rientra tra i parametri da stimareSe ci fosse correlazione tra gli errori significherebbe che esistono altri fattori oltre a X adinfluenzare Y, esclusi dal modello. Inoltre implicherebbe un legame anche tra le yi
L’ipotesi distribuzionale (6) è fondamentale nella fase inferenziale
Ipotesi forte: Necessaria per verificare la significatività delle stime
6. N(0, 2)
Varianza costante, omoschedasticità
Assenza di autocorrelazione
X non stocastica
Necessarie perché le stime godano di proprietà ottimali, ossia siano non distorte e a varianza minima (BLUE, Teorema di Gauss-Markow)
47
Distribuzioni degli errori (intorno alla stima di Y):
media 0,
varianza costante,
indipendenti,
distribuiti Normalmente
RAPPRESENTAZIONE GRAFICA DEL MODELLO
X
Y
x1x2 x3
x4
E(Y|X) = a + bx
f()
yi i.i.d. con media e varianza costanti
48
Significatività dell’R2
Fa,1,n-2
H0: R2 0
H1: R2 > 0
VERIFICA DEL MODELLO
Significatività di a e di b
H0: 0H1: b 0
2
test 1;n 22
dev reg R n 2x F
dev e n 2 1 R
test n 2
b
bx t
s
-ta/2,n-2 ta/2,n-2
a
a/2 a/2
test n 2
a
ax t
s
H0: 0H1: a 0
49
n
2 2i
i 1
1s e
n 2 s
2 22a n
2
ii 1
s xs 1
nx x
2 2b n
2
ii 1
1s s
x x
Varianze della regressione
Varianza dei residui: errore standard della regressione
Varianza di a: errore standard della stima di
Varianza di b:errore standard della stima di
as
bs
2cod X,Y
dev e 1dev X
Devianza dei residui:
2
2cod X,Y dev e
dev X dR
ev Y1
dev y
Da un campione di 7 aziende risultano i seguenti valori del numero totale di dipendenti (X) e del numero di dipendenti laureati (Y):
Dip. totali (X) 5 8 10 11 7 9 6
Dip. Laureati (Y) 3 5 7 6 4 3 2
a)Disegnare la retta di regressione di Y su X;b)misurare la bontà dell’adattamento;
c)sapendo che
n
2 2i
i 1
1s e 3,89
n 2
verificare la significatività del modello al livello dell’1%
ix iy ix x iy y 2
ix x 2
iy y i ix x y y
5 3 -3 -1,29 9 1,65 3,86
8 5 0 0,71 0 0,51 0
10 7 2 2,71 4 7,37 5,43
11 6 3 1,71 9 2,94 5,14
7 4 -1 -0,29 1 0,08 0,29
9 3 1 -1,29 1 1,65 -1,29
6 2 -2 -2,29 4 5,22 4,57
56 30 0 0 28 19,43 18
2
x
cov x,y cod x,y 18b
dev x 28
0,64
a y bx 4,29 0,64 8 -0,86
y 0,86 0,64x
Equazione della retta: x y
0 -0,86
8 4,29
2 2
2 2REG RES
2 2x y
cov x,y cod x,ydev devR 1
dev y dev y dev x dev y
22 18
R28 19,43
0,6
Ipotesi H0: R2 = 0
H1: R2 > 0
Statistica test
Valore critico F0,01;1;5 = 16,258
Regola di decisione vtest ≤ 16,258 si accetta H0
vtest ≥ 16,258 si rifiuta H0
Valore test
Decisione 7,36 ≤ 16,258 si accetta H0
La relazione lineare tra y ed x non è significativaSi rifiuta il modello lineare
2
REGtest 1;n 22
RES
R n 2devX F
dev n 2 1 R
test
0,6 5v 7,36
1 0,6
Test su R2, unilaterale
Source DFSum of squares
Mean squares F Pr > F
Model 1 11.571 11.571 7.364 0.042
Error 5 7.857 1.571
Corrected Total 6 19.429
Source ValueStandard error t Pr > |t|
Lower bound (95%)
Upper bound (95%)
Intercept -0.857 1.954 -0.439 0.679 -5.879 4.165
x 0.643 0.237 2.714 0.042 0.034 1.252
ANOVA
Significatività dei coefficienti
F0,05;1;5 = 6,608
Ipotesi H0: b = 0H1: b ≠ 0
Statistica test
in cui:
Valori critici t0,005;5 = 4,032
Regola di decisione
- 4,032 ≤ vtest ≤ 4,032 si accetta H0
vtest ≤ - 4,032 oppure vtest ≥ 4,032 si rifiuta H0
Valore test
Decisione - 4,032 ≤ 1,72 ≤ 4,032 si accetta H0
La relazione lineare tra y ed x non è significativaSi rifiuta il modello lineare
test n 2
bX t
s
2
n 2
ii 1
1s s
x x
1s 1,57 0,37
28
test
0,64v 1,72
0,37
Test su b, bilaterale
Ipotesi H0: a = 0H1: a ≠ 0
Statistica test
Valori critici t0,005;5 = 4,032
Regola di decisione - 4,032 ≤ vtest ≤ 4,032 si accetta H0
vtest ≤ - 4,032 oppure vtest ≥ 4,032 si rifiuta H0
Valore test
Decisione - 4,032 ≤ -0,63 ≤ 4,032 si accetta H0
test n 2
aX t
s
22
n 2
ii 1
s xs 1
nx x
23,89 8s 1 1,35
7 28
test
0,86v 0,63
1,35
Test su a, bilaterale