1
L’Analisi della Varianza ANOVA
(ANalysis Of VAriance)
2
Concetti generali:
• Confronto simultaneo tra più di due popolazioni, esempi.....
•La analisi della varianza estende il confronto a p gruppi con p>2.
3
Concetti generali• Fattore: variabile utilizzata per differenziare un gruppo
da un altro gruppo.• Livello (o trattamento): uno dei possibili
valori/stati/caratteristiche che il fattore può assumere• Variabile risposta: variabile quantitativa oggetto dello
studio
Esempio:Si vuole verificare se la razza dei vitelli (FATTORE) considerando tre razze (LIVELLI) influenza il peso di 20 vitelli (VARIABILE RISPOSTA):
bovini Razza 1 Razza 2 Razza 3
1 63,3 72,8 82,3
2 ... ... ...
..... ... ...
20 ... ... ...
4
Il disegno completamente randomizzato
E’ il disegno sperimentale più semplice
Si utilizza quando si considera un solo fattore sperimentale a più livelli.
I trattamenti/livelli sono assegnati alle unità sperimentali in modo casuale (randomizzazione).
Se il numero di repliche è uguale per tutti i trattamenti il disegno è detto bilanciato (preferibile), altrimenti è detto sbilanciato.
5
Concetti generali
In genere i livelli o gruppi possono essere non solo numerici ma anche qualitativi.
I fattori che definiscono i gruppi possono essere più di uno.
Con un solo fattore analisi della varianza ad un fattore o ad una via
Con due (o più) fattori analisi della varianza a due ( o più) fattori o a due vie (o più vie)
6
Predisposizione dei dati
Fattore
repliche 1 2 ..... i .... p
1 y11 y21 .... yi1 yp1
2 y12 y22 .... yi2 yp2
... ... .... ...
J y1j y2j .... yij ypj
... ....
ni Y1n(i) Y2n(i) .... Yin(i) Ypn(i)
Medie .... y1y 2y iypy
7
ESEMPIO: peso di 20 vitelliANALISI DELLA VARIANZA
y1 = 68
y2 = 74y3 = 74
y4 = 72 ripetizioni
y5 = 73 i=1 i=2 i=3 i=4=p
y6 = 62 j=1 68 62 65 64
y7 = 64 j=2 74 64 62 65
y8 = 65 j=3 74 65 66 64
y9 = 63 j=4 72 63 68 66
y10 = 68 j=5=ni 73 68 66 65y11 = 65 medie 72,2 64,4 65,4 64,8 66,7
y12 = 62
y13 = 66
y14 = 68
y15 = 66
y16 = 64
y17 = 65
y18 = 64
y19 = 66
y20 = 65
= 66,7
livelli
media
8
Il modello lineare:Il modello lineare:ANALISI DELLA VARIANZA
y1 = 68
y2 = 74y3 = 74
y4 = 72 ripetizioni
y5 = 73 i=1 i=2 i=3 i=4=p
y6 = 62 j=1 68 62 65 64
y7 = 64 j=2 74 64 62 65
y8 = 65 j=3 74 65 66 64
y9 = 63 j=4 72 63 68 66
y10 = 68 j=5=ni 73 68 66 65y11 = 65 medie 72,2 64,4 65,4 64,8 66,7
y12 = 62
y13 = 66
y14 = 68
y15 = 66
y16 = 64
y17 = 65
y18 = 64
y19 = 66
y20 = 65
= 66,7
livelli
media
ijiijy i
ii y
ijiijy )(
iji
kky
y
9
Il modello lineare
Il modello può essere rappresentato in questa forma:
Yij = + αi + εij
• con μ media di tutte le popolazioni rappresentate nell’esperimento• αi = μ − μi effetto dell’i-esimo trattamento/livello
Generalmente si assume i = 1, . . . , p (p numero dei livelli)
j = 1, . . . , ni (ni numero di repliche)
Se il disegno è bilanciato, n1 = n2 = . . . = np = n.
10
Scomposizione della variabilità totale
Variabilità all’interno dei gruppi (SSE) errore sperimentaleVariabilità tra i gruppi (SSA) effetti del trattamento
Si ha che: SST = SSA + SSE
11
Assumendo che i p gruppi (popolazioni) da cui vengono estratte casualmente le osservazioni siano distribuiti normalmente e abbiano uguali varianze, l’ipotesi sottoposta a verifica è:
H0: 1 = 2 = … = p oppure H0 : αi= 0
HA: non tutte le i sono uguali
Come fare inferenza
12
Come costruire il test?
Il test è basato sulle seguenti considerazioni:
•Se è vera l’ipotesi nulla, i dati differiscono tra loro per il solo effetto della variabilità casuale.
•Se invece è vera l’ipotesi alternativa (quindi rifiuto l’H0), entrambe le fonti di variabilità contribuiscono a determinare la variabilità complessiva.
•Il test è quindi basato sull’analisi della variabilità complessiva in funzione delle diverse cause (da cui il termine Analisi della Varianza).
13
La VARIABILITA’ TOTALE è descritta dalla SST: Devianza totale:
Scomposizione della variabilità totale
p
1i
n
1j
2ij
i
yySST
14
La VARIABILITA’ TRA I GRUPPI è descritta dalla SSA (devianza tra i gruppi)
Devianza tra i gruppi:
Scomposizione della variabilità totale
p
1i
2ii yynSSA
FORMULA CALCOLATORIA:
p
iTii ynynSSA
1
22
15
La VARIABILITA’ NEI GRUPPI (o ENTRO I GRUPPI) è descritta dalla SSE: devianza entro i gruppi
Devianza entro i gruppi:
Scomposizione della variabilità totale
p
i
n
jiij
i
yySSE1 1
2
FORMULA CALCOLATORIA
p
i
p
iii
n
jij ynySSE
i
1 1
2
1
2
16
Cosa ci aspettiamo
• Se l’ipotesi nulla è vera, ci possiamo attendere uno scarso contributo della devianza tra gruppi alla devianza totale.
• Sell’ipotesi nulla è falsa, ci possiamo attendere che entrambe le devianze contribuiscano a determinare la devianza totale.
• A questo livello non è però possibile fare confronti, perchè le devianze hanno un numero di addendi diverso.
• Dobbiamo quindi rendere confrontabili le devianze....
17
I gradi di libertà
Ad ognuna delle devianze sono associati i gradi di libertà:
• la devianza totale ha n − 1 gradi di libertà
• la devianza tra gruppi ha p − 1 gradi di libertà
• la devianza entro i gruppi ha n - p gradi di libertà
Dividendo ciascuna devianza per i rispettivi gradi di libertà si ottengono le media dei quadrati, cioè le VARIANZE:
1p
SSAMSA
pnSSE
MSEt
Varianza tra i gruppi Varianza entro i gruppi
18
Test F per la ANOVA a un fattore
Per verificare l’ipotesi di uguaglianza delle medie utilizzo la statistica-test Fstatistica-test F che confronta MSA e MSE.
La statistica F segue una distribuzione F di Fisher con (p-1, nt-p) gradi di libertà.
La regola decisionale è: Rifiuto H0 se F>Fα
gruppientroianzavar
gruppitraianzavar
MSE
MSAF
19
Il valore critico Fu viene determinato in funzione del livello di significatività del test.
Se H0 è falsa ci aspettiamo che F assuma valori maggiori rispetto ai valori tabulati nella tavola della F la variabilità totale è dovuta soprattutto all’effetto del trattamento/fattore.
Se H0 è vera ci aspettiamo che il valore osservato di F sia minore al valore tabulato.
Test F per la ANOVA a un fattore
I valori critici si individuano I valori critici si individuano nelle tavole della distribuzione Fnelle tavole della distribuzione Fin base ai gradi di libertàin base ai gradi di libertàe al livello di significativitàe al livello di significativitàsceltoscelto
20
I risultati del test F per la ANOVA a un fattore vengono sintetizzati in una tabella come quella seguente:
Test F per la ANOVA a un fattore
Fonti di Variabilità
FdV DEVIANZE GDL VARIANZE F
Fra i gruppi SS(A) p-1 MS(A) MS(A)/ MS(E) Entro i gruppi SS(E)
nt-p MS(E)
Totale SSTOT nt-1 MSTOT
21
EsempioEsempio:Peso dei vitelli di 3 razze diverse:
bovini razza 1 razza 2 razza 31 63,33 72,85 82,332 68,32 88,17 89,693 86,66 80,82 81,014 52,82 71,27 85,095 75,01 81,5 74,146 57,99 47,56 75,937 69,48 81,04 74,748 32,68 81,38 81,139 60,88 82,96 76,3610 58,24 75,98 81,7711 45,54 77,35 83,3212 44,92 69,31 81,6613 67,04 61,69 71,7714 62,99 64,87 81,0415 66,63 75,43 78,6716 65,53 59,83 74,8617 59,58 89,65 77,4518 85,65 59,1 79,3719 64,55 76,14 73,8920 83,74 74,46 81,38
Output di excel:
Analisi varianza: ad un fattore
RIEPILOGOGruppi Conteggio Somma Media Varianza
razza 1 20 1271.58 63.579 182.5172razza 2 20 1471.36 73.568 112.556razza 3 20 1585.6 79.28 19.42282
ANALISI VARIANZA
Origine della variazione SQ gdl MQ F
Valore di significatività F crit
Tra gruppi 2526.19 2 1263.095 12.04875 0.000043 3.158843In gruppi 5975.425 57 104.832
Totale 8501.614 59