analiza de varianţă simplă

14
Analiza de varianţă simplă Compararea mediilor dintre grupuri [email protected]

Upload: caesar-conley

Post on 02-Jan-2016

22 views

Category:

Documents


1 download

DESCRIPTION

Analiza de varianţă simplă. Compararea mediilor d intre grupuri [email protected]. C ând se foloseşte metoda?. Uneori d orim să răspun dem la întrebări de tipul: Există diferenţe ale venitului me d iu între persoanele cu ocupaţii d iferite sau educaţie diferită. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Analiza  de  varianţă simplă

Analiza de varianţă simplă

Compararea mediilor dintre grupuri

[email protected]

Page 2: Analiza  de  varianţă simplă

Uneori dorim să răspundem la întrebări de tipul: Există diferenţe ale venitului mediu între persoanele cu ocupaţii

diferite sau educaţie diferită. Există diferenţe în performanţa medie educaţională la copii

proveniţi din medii sociale diferite. Există diferenţe între venitul mediu al gospodăriei şi evaluarea

direcţiei în care se îndreaptă România

În aceste cazuri dorim să evaluăm relaţia dintre valorile unei Variabile măsurate pe o scală de intervale sau rapoarte (Y) In categoriile unei variabile categoriale (X)

Analiza de varianţă este un test explorativ prin care se testează dacă există dovezi în privinţa diferenţelor între un set de

medii ale unor grupuri. dacă există suficiente dovezi în acest sens vom încerca să estimăm mărimea

acestor diferenţe între perechile de medii.

Când se foloseşte metoda?

Page 3: Analiza  de  varianţă simplă

Când se foloseste metoda?Report

Venitul subiectului RON

261.1245 791 275.74036

443.1931 404 309.51487

768.4747 158 622.09700

374.7365 1353 380.77965

Eucatie subiectelementar

mediu

superior

Total

Mean N Std. Deviation

Page 4: Analiza  de  varianţă simplă

Problema de rezolvat: Dorim să evaluăm în ce măsură există diferenţe reale ale (a) variabilei

cantitative în (b) grupurile formate de variabila categorială Să presupunem că avem două seturi de date

a. diferenţele sunt foarte clare:

b. diferenţele sunt mai puţin clare:

În cazul în care grupurile se suprapun parţial, care este criteriul utilizat pentru a decide dacă chiar există diferenţe? Mai ales dacă trebuie să luăm în calcul şi erorile de eşantionare, iar acest caz media nu este un indicator suficient al diferenţelor (ea se generalizează la nivelul populaţiei sub forma unui interval.

Page 5: Analiza  de  varianţă simplă

Formularea problemei de rezolvat:

Ho: Ipoteza nulăMedia variabilei cantitative Y este aceeaşi pentru toate cele m grupuri formate de variabila categorială X.

= 1 = 2 = … = m

Ha: Ipoteza alternativăCel puţin două medii sunt diferite

Page 6: Analiza  de  varianţă simplă

Logica analizei de varianţă: grupuri conturate şi depărtate

Soluţia constă în a evalua în ce măsură grupurile formate (de valorile variabilei

cantitative în clasele formate de variabila categorială) sunt diferite. A. Cât de depărtate sunt grupurile unele de altele B. Gradul de heterogenitate a grupurilor (“mărimea” grupurilor) C. Împărţim distanţa dintre grupuri la hetorogenitatea grupurilor

B. Distanţa dintre grupuri A. Mărimea grupurilor

Page 7: Analiza  de  varianţă simplă

B. “Mărimea” grupurilor: suma intragrupală a distanţelor pătratice faţă de medie

Pentru a calcula mărimea unui grup am putea folosi distanţa dintre cea mai mică şi cea mai mare valoare. Atunci însă mărimea grupului va fi influenţată de valorile extreme.

O altă strategie ar fi să calculăm toate distanţele faţă de un punct dat (de exemplu media) şi să calculăm media acestor distanţe. Dar abaterea standard este tocmai abaterea medie a valorilor de la medie. Prin urmare vom estima mărimea unui grup i cu ajutorul variantei:

σi2 = (Y1j - Y1)2/ ni

Putem calcula mărimile tuturor grupurilor, iar apoi le putem aduna. Adică:

WSS = (Y1j - Y1)2 + (Y2j – Y2)2 + … + (Ymj - Ym)2

Unde m este numărul total de grupuri. Astfel am obţinut o mărime sintetică a mărimi tuturor grupurilor: suma intragrupală

a distanţelor pătratice faţă de medie (Within Sume of Squares)

Page 8: Analiza  de  varianţă simplă

A. Distanţa dintre grupuri: suma intergrupală a distanţelor pătratice faţă de medie

Astfel am obţinut o mărime sintetică a distanţelor tuturor grupurilor unele faţă de altele: suma intergrupală a distanţelor pătratice faţă de medie (Between Sume of Squares)

Y2

Y3

Y1Y

Pentru a calcula cât de depărtate sunt grupurile între ele: calculam distanţele de la fiecare grup la un punct dat (media generală). fiecare grup este sintetizat e valoarea sa medie.

Vom calcula, prin urmare, media distanţelor de la mediile fiecărui grup la media generală, adică o abaterea standard.

σY2 = (Yi - Y)2 /(m-1)

Pentru că fiecare grup este posibil să aibă un număr diferit de cazuri, ponderăm aceste distanţele cu mărimea fiecărui grup

BSS2 = ni(Yi - Y)2 /(m-1)

Page 9: Analiza  de  varianţă simplă

C. Testarea Ho

F = Varianţa estimată intergrupală

Varianţa estimată intragrupalăF =

BSS /(m-1)

WSS /(N-m)

Ipoteza nulă: valoare medie a variabilei Y este aceeaşi pentru toate cele m grupuri create de categoriile variabilei X

= 1 = 2 = … = m

Valoarea de test:

F este mai mare cu cât: Distanţa dintre grupuri este mai mare sau dispersia mediilor grupurilor în jurul

medie generale este mai mare şi Grupurile sunt mai mici sau eroarea reprezentată de dispersia valorilor în

interiorul grupurilor este mai mică

Deci valori relativ mari a lui F reprezintă argumente puternice împotriva Ho. Valoarea P este probabilitatea de a obţine o valoare F care este cel puţin la

fel de mare ca cea observată de noi dacă Ho ar fi adevărară. Prin urmare cu cât este mai mic P cu atât şansele ca Ho să fie adevărate sunt mai mici. Pentru P < 0.05 putem respinge Ho

Page 10: Analiza  de  varianţă simplă

ANOVA

Dar venitul dvs. personal în luna trecutã (septembrie) a fost cam de ...?

3659.794 2 1829.897 154.947 .000

15943.278 1350 11.810

19603.073 1352

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

C. Testarea Ho: Exemplu

Ipoteza nulă: valoare medie a variabilei “venit subiect” este aceeaşi pentru toate cele 3 grupuri create de categoriile variabilei educaţie

= superior = mediu = elementar

Suma intergrupală a pătratelor = 3659,794 grade de libertate = 3-1=2

Suma intragrupală a pătratelor = 15943,278 grade de libertate = 1353-3 = 1350

F = 3659,794/2

15943,278/1350

Ipoteza nulă se respinge: valoarea p = 0.000 este probabilitatea de a obţine o valoare F care este cel puţin la fel de mare ca cea observată dacă ar fi Ho adevărară. Adică este o valoare foarte mică.

Se acceptă ipoteza alternativă: cel puţin două medii sunt egale. Care?

Page 11: Analiza  de  varianţă simplă

O soluţie incompletă: cine este diferit?

Testul F al analizei de varianţe verifică dacă toate mediile variabilei Y sunt egale în categoriile variabilei X. Dacă nu sunt egale şi se confirmă ipoteza alternativă nu ştim care sunt categoriile în care mediile diferă.

De aceea putem compara toate mediile între ele pe rând. Însă şi aici pot interveni erorile de eşantionare: dacă avem m categorii, atunci va trebui să facem m(m-1)/2 comparaţii ne aşteptăm ca în medie doar 95% dintre intervalele de confienţă în jurul

diferenţelor să conţină valoarea reală. Cu cât avem mai multe comparaţii de făcut cu atât este mai mare şansa

de a face o inferenţă greşită

Soluţia se găseşte în intervale de confidenţă simultane: atunci când dorim să facem un număr mare de comparaţii folosim proprietatea că toate intervalele conţin cu o anumită probabilitate adevăratele diferenţe între mediile grupurilor.

Testele Post Hoc

Page 12: Analiza  de  varianţă simplă

Multiple Comparisons

Dependent Variable: Venitul subiectului RON (logaritm natural)

Scheffe

-.64689* .04100 .000 -.7474 -.5464

-1.11142* .05843 .000 -1.2546 -.9682

.64689* .04100 .000 .5464 .7474

-.46453* .06291 .000 -.6187 -.3104

1.11142* .05843 .000 .9682 1.2546

.46453* .06291 .000 .3104 .6187

(J) Eucatie subiectmediu

superior

elementar

superior

elementar

mediu

(I) Eucatie subiectelementar

mediu

superior

MeanDifference

(I-J) Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

The mean difference is significant at the .05 level.*.

Testele Post Hoc

O soluţie incompletă: cine este diferit?

Pentru exemplu nostru iată intervale de confidenţă simultane. Două medii vor fi considerate egale dacă intervalul de confidenţă simultan

conţin valoarea 0 sau dacă nivelul de probabilitate (sig.) <.05

În cazul nostru toate mediile sunt diferite.

Page 13: Analiza  de  varianţă simplă

Asumpţii ale analizei de varianţe

Pentru ca testul F să fie robust şi puternic este nevoie să fie testate trei asumpţii legate de date:

1. Distribuţia variabilei Y este normală în cele m grupuri formate de categoriile lui X

2. Abaterea standard a distribuţiei populaţiei în cele m grupuri este egală

3. Sunt selectate eşantioane aleatorii independente pentru cele m populaţii

Page 14: Analiza  de  varianţă simplă

Asumpţia 2. Abaterea standard în cele m categorii Această asumpţie este testată cu ajutorul testului Levene:

Ho: σ1=σ2=…=σm

Ha: cel puţin două abateri sunt diferite

Dacă L > F(α, m-1, N-m) atunci ipoteza nulă (Ho) este respinsă şi acceptată ipoteza alternativă (Ha). P este probabilitate de a obţine o valoare F cel puţin cât cea observată (L). Dacă P<0.05 atunci ipoteza nulă se respinge.În acest caz se respinge Ho, cel puţin două abateri sunt egale

Violările acestei asumpţii sunt mai moderate dacă mărimea subeşantioanelor este similară n1= n2 =…= nm

Test of Homogeneity of Variances

Venitul subiectului RON (logaritm natural)

20.319 2 1350 .000

LeveneStatistic df1 df2 Sig.