statistički dizajn eksperimenta - mfub.bg.ac.rs · pdf filesas i ds 2011/2012 statistika za...

SAS i DS 2011/2012 Statistika za istraživače Katedra za medicinsku statistiku i informatiku

Statistički dizajn eksperimenta

Analiza varijanse

Jelena Marinković, januar 2012.g

SAS i DS 2011/2012 Statistika za istraživače

Katedra za medicinsku statistiku i informatiku

Šta smo do sada naučili?

p Statističko zaključivanje je proces kojim, koristeći rezultate iz uzorka (podatke koje smo dobili istraživanjem), govorimo nešto o populaciji (ukupnost hipotetičkih podataka koje bi mogli dobiti ponavljanjem istraživanja beskonačan broj puta).

Statističko zaključivanje 1)   Ocenjivanje populacionih parametara

(intervali poverenja) 2)   Testiranje hipoteza - deo statističkog

zaključivanja koji koristi uzoračke podatke za evaluaciju istinitosti hipoteza o populaciji.





Cilj istraživanja

Kvantitativno (iz Gausovski raspodeljene populacije)

Rangovi, skorovi ili kvantitativno

(iz kontinuirano ali ne Gausovski raspodeljene

populacije)

Kategorijalni – Binomni (dva moguća ishoda)

Opisivanje jedne grupe ili

opisivanje razlika među

grupama

Aritmetička sredina,

SD Medijana,

interkvartilni opseg

Proporcija,

binomna varijansa

Tačkaste i intervalne

ocene Tačkaste i intervalne

ocene

Tačkaste i intervalne

ocene

Poređenje jedne grupe

sa hipotetičkom vrednošću

Jednouzorački z

ili t-test Kolmogorov-Smirnov

test

Hi-kvadrat ili

Binomni test

Poređenje dva nezavisna

uzorka z ili t-test za dva

nezavisna uzorka

Man-Vitnijev test ili

Test sume rangova Fišerov test ili

hi-kvadrat test

Poređenje dva zavisna uzorka

z ili t-test za dva

zavisna (mečovana)

uzorka

Vilkoksonov test ekvivalentnih parova MekNemarov test



A šta ćemo danas i narednih dana učiti?

p Kako ispitivati hipoteze kada se radi o: n  Više od dva uzorka i/ili n  Više od dve varijable merene na istim

ispitanicima p Zašto u takvim situacijama višestruko

ponavljanje statističkih testova za dva uzorka nije ispravno?



Primer 1 p U istraživanju psiholoških faktora kod žena

u trudnoći kao instrument istraživanja korišćen je MMPI (Minesota Multiphasic Personality Inventory). On se sastoji od 550 iskaza a ispitanica odgovara sa istina ili neistina (na primer: volela sam svoju majku, često sanjam,...).

p  Posle porođaja žene su klasifikovane u dve kategorije – normalan porođaj ili prevremeni porođaj.



Primer 1 (nastavak) p Za svako od 550 pitanja formirana je

tablica kontingencije 2x2 u kojoj se ukrštaju odgovori na svako pojedinačno pitanje i kategorije - normalan ili prevremen porođaj.

p  Izračunato je 550 hi-kvadrat testova sa odgovarajućim korekcijama a ajtemi kod kojih je dostignuta statistička značajnost na 5% nivou predstavljali su onda personalne diskriminatore među grupama žena.

Primer 1 (nastavak) p  Problem je u tome što kada imamo više

testiranja na istoj jedinici posmatranja, a svaki od pojedinačnih testova ima petoprocentni nivo, obično se pogrešno i za sve njih zajedno podrazumeva taj isti nivo značajnosti.

p Da je svih 550 testiranih nultih hipoteza stvarno tačno tada samo zbog slučajnosti istraživač treba da očekuje da 550 x 0.05 = 28 ajtema pokaže statističku značajnost. SAS i DS 2011/2012

Statistika za istraživače Katedra za medicinsku statistiku i informatiku

Primer 1 (nastavak) p Znači, ne bi trebalo da bude iznenađenje

ako pronađe 28 ajtema značajnih na 5% nivou značajnosti.

p Ako nađe više od 28 on će zasigurno biti ubeđen da stvarno postoje razlike u grupama žena. Naravno, biće nemoguće reći koje su od tih razlika prave, a koje samo odslikavaju očekivanih 28 značajnosti zbog ponovljene primene testa na istim ispitanicama.



Primer 2 p  Kada se testira značajnost skupa gena u različitim

grupama neki od njih mogu biti lažno označeni kao statistički značajni.

p  Ako se 10,000 gena testira u pogledu različitosti njihove eksperesije među grupama, sa nivoom značajnosti od 0.05, tada je očekivani broj gena koji će biti označen kao značajan samo zbog slučajnosti (čak i onda kada nema stvarne razlike u eksperesiji) 500: 10,000 x 0.05 = 500 gena

p  Verovatni broj lažno pozitivnih = (# gena) (p)



Primer 3 p  Ispitivana je efikasnost 5 doza jednog leka na

istom tipu eksperimentalnih životinja (u svakoj grupi po 6 životinja) ili

p  Ispitivano je 5 različitih lekova na istom tipu eksperimentalnih životinja (u svakoj grupi po 6 eksperimentalnih životinja)

p  Ako je izabrani nivo značajnosti za svaki od njih bio 0.05 ukupna značajnost na nivou celog eksperimenta ne bi bila 95%, kako bi to neko mogao pomisliti, nego svega 60%.

p  Suprotno, verovatnoća odbacivanja bar jedne nulte hipoteze, kada je ona tačna, bila bi 0.4. SAS i DS 2008/2009


Kako rešiti ovaj problem? p  Problem koji se javlja je nerazumevanje i

nepoznavanje zajedničkog (ukupnog) nivoa značajnosti (ZNZ) tj. verovatnoće odbacivanja bar jedne, tačne, nulte hipoteze (Ho) u slučaju višestrukih testova.

p  Intuitivno je jasno da, što se više statističkih testova u ovakvoj situaciji uradi, verovatnije je da će se doneti pogrešan zaključak (u smislu odbacivanja Ho koja je tačna). SAS i DS 2011/2012


ZNZ

p ZNZ= 1 - (1 - α)k

p  gde je α nivo značajnosti (obično 0.05 ili 0.01), a k je broj testova.



ZNZ



Broj grupa

Broj potrebnih testova

α

00.5 0.01

2 1 0.05 0.01

3 3 0.14 0.03

4 6 0.26 0.06

5 10 0.40 0.10

10 45 0.90 0.36

15 105 0.99 0.65

2011/2012 Statistika za istraživače


Drugi razlog: Studentov t-test p  3 grupe podataka: A, B i C – 3 t-testa

mogući zaključci n  A:B – A značajno različito od B (p < 0,05) n  A:C – A slučajno različito od C (p > 0,05) n  B:C – B slučajno različito od C (p > 0,05)

p  Pitanje: ako je A ≠ B, i A = C, kako je B = C ? p  Razlog:

n  korišćenje različitih varijansi za različita poređenja

n  izvođenje tri poređenja na istim podacima

Kako rešiti ovaj problem? (nastavak)

p  Potrebna je neka druga, nova, statistička metoda.

p Za ovakve istraživačke situacije metod izbora je

p Analiza varijanse (analiza varijansnog količnika, ANOVA - ANalysis Of VAriance).




Analiza varijanse

Istorijski primer

Prvi put je uvedena 1923.g. u radu Ronalda A. Fishera (1890-1962):

“Studies in crop variation II: The manurial response of different potato varieties” http://digital.library.adelaide.edu.au/dspace/bitstream/2440/15179/1/32.pdf



Dizajn Fišerovog eksperimenta p  Ishod eksperimenta – prinos krompira po jedinici

površine p  Eksperiment br. 1: Više vrsta krompira (5) zasađeno

na zemljištima iste kvalitete, veličine, isto obrađivani – Jedan istraživački faktor sa 5 nivoa

p  Eksperiment br. 2: Više vrsta krompira (5) zasađeno na zemljištima iste kvalitete, veličine (prvobitna parcele podeljena na nekoliko parcela iste površine), ali obrađivani na nekoliko različitih načina (uz dodatak različitih đubriva / 4) – Dva istraživačka faktora sa ukupno 5+4+20 nivoa



Dizajn Fišerovog eksperimenta (2) p  Eksperiment br. 3: Više vrsta krompira (5)

zasađeno na zemljištima iste kvalitete, veličine (prvobitna parcele podeljena na nekoliko parcela iste površine), ali obrađivani na nekoliko različitih načina (uz dodatak različitih đubriva / 4 i različitu količinu vode / 3) – Tri istraživačka faktora sa ukupno 5 +4 +3 +20 +15 +12 + ... nivoa

p  ...

Dizajn Fišerovog eksperimenta (3) p Više grupa u faktoru (jedna nezavisna

varijabla sa više nivoa/gradacija/tretmana/kategorija) ili

p Više faktora (više nezavisnih varijabli) ili p Oba (više nezavisnih varijabli sa više

nivoa/gradacija/tretmana/kategorija) p  Ishod eksperimenta samo jedna varijabla

(rezultujuća, ishodna, zavisna varijabla)




ANOVA Dizajn eksperimenta



Opšte okruženje eksperimenta p  Istraživač kontroliše jednu ili više

nezavisnih varijabli n  ime im je faktori ili varijable tretmana n  svaki faktor ima bar dva nivoa / gradacije,

kategorije, klasifikacije / p  Istraživač meri efekte faktora na zavisnoj

varijabli p  Eksperimentalni dizajn – plan za testiranje

istraživačke hipoteze

Ishod eksperimenta p Rezultujuća varijabla je elementarna

količina ili svojstvo eksperimentalnih jedinica koje se izučava kao rezultat uticaja organizovanih faktora u datom eksperimentu i neorganizovanih u tom istom istraživanju. Rezultujuća varijabla može biti merena bilo kojom skalom merenja (nominalna, ordinalna, intervalna, omerna).

p Može ih biti i više (MANOVA, van okvira ovog kursa) SAS i DS 2008/2009




Faktori p Faktor je svaki uticaj, dejstvo, stanje ili

promena koja se na neki način odražava na rezultujuće obeležje (ishodnu varijablu).

p  Faktori se dele na: n  1) organizovane (koji se ovom analizom mogu

identifikovati i kvantitativno diskriminisati) i n  2) slučajne, rezidualne, neorganizovane i

unutareksperimentalne (koji se mogu samo opisati u ukupnom delovanju, ali ne i razlagati).



Gradacije faktora p  Gradacije (nivoi) faktora predstavljaju, u

logičkom smislu, sistem delovanja faktora zajedno sa odgovarajućim stepenom ili pripadništvo kategorijama izučavanja (pol, starost, školska sprema, na primer).

p  U mnogim slučajevima postoji i tzv. nulta gradacija, tj. ona, koja opisuje kontrolnu grupu na koju, po prirodi stvari, faktor ne deluje.

Način izbora gradacija istraživačkog faktora p Model fiksiranih efekata - u istraživanje

uključeni samo specifični (određeni) nivoi faktora

p Model slučajnih efekata - kada su nivoi slučajno izabrani (od svih mogućih različitih nivoa)



Planiranje eksperimenta p  Planiranje eksperimenta je određivanje specifične

kombinacije nivoa faktora za svaku eksperimentalnu jedinicu.

p  Planiranje eksperimenta definiše strukturu jednog eksperimenta i sastoji se iz: n  a) skupa tretmana uključenih u studiju; n  b) skupa eksperimentalnih jedinica uključenih u studiju; n  c) pravila i procedura po kojima se tretmani dodeljuju

eksperimentalnim jedinicama (ili obrnuto) n  d) merenja koja se obavljaju na eksperimentalnim

jedinicama posle primene tretmana.



Planiranje eksperimenta (2) p U terminologiji eksperimentalnog dizajna

govori se i o jedno, dvo, ili višesmernim (višestrukim) klasifikacijama što zavisi od toga da li je u eksperimentu postojao samo jedan princip za klasifikaciju, tj. jedan razlog za podelu podataka u nekoliko nizova podataka, dve posebne osnove za klasifikaciju ili više njih istovremeno.



Planiranje eksperimenta (3) p Uobičajeno je da se prisustvo dejstva,

koje je istraživač izabrao, naziva faktorom (tretmanom), a prisustvo kriterijuma za organizovanje eksperimentalnih jedinica, koje je takođe istraživač izabrao, klasifikacijom (nezavisni uzorci, blokovi, ponovljena merenja).



Eksperimentalni dizajn / plan, vrste p  Potpuno randomizovani faktorijalni plan

n  eksperimentalne jedinice su slučajno birane i randomizovano se dodeljuju tretmanima

p Randomizovani blok dizajn n  jedinice se dele u blokove i uparuju se jedinice

u različitim uzorcima p Dizajn ponovljenih merenja

n  jedinice se više puta mere



Randomizovani potpuni faktorijalni eksperiment



Subjekt Faktor (sa gradacijama,

kategorijama ili uslovima) A B C

1 Subjekt 1 pod uslovom A Svaki red predstavlja jednog

subjekta kome je randomizovano dodeljena

jedna od gradacija istraživačkog faktora

2 Subjekt 2 pod uslovom B

3 Subjekt 3 pod uslovom C

itd.

Faktor I (sa gradacijama)

Faktor II (sa gradacijama, kategorijama ili uslovima)

A B C I

Subjekt 1 pod uslovima I i A Svaki red predstavlja

jednog subjekta kome je randomizovano dodeljena

jedna od kombinacija gradacija dva istraživačka

faktora

II

Subjekt 2 pod uslovima II i B

III

Subjekt 3 pod

uslovima III i C itd.

Randomizovani potpuni blok dizajn



Blok Faktor (sa gradacijama,

kategorijama ili uslovima)

A

B

C

I

Subjekt 1a pod uslovom A

Subjekt 1b pod

uslovom B

Subjekt 1c pod uslovom C

Svaki red sadrži k mečovanih subjekata od kojih je svaki meren pod jednim ili drugim od k

uslova II

Subjekt 2a pod

uslovom A

Subjekt 2b pod uslovom B

Subjekt 2c pod

uslovom C

III

Subjekt 3a pod uslovom A

Subjekt 3b pod

uslovom B

Subjekt 3c pod uslovom C

itd.

Dizajn ponovljenih merenja



Subjekt Faktor (sa gradacijama,

kategorijama ili uslovima)

A B C

1 Subjekt 1 pod uslovom A

Subjekt 1 pod uslovom B

Subjekt 1 pod uslovom C

Svaki red predstavlja jednog subjekta merenog pod jednim od k uslova







itd.



Skala merenja

(samo jedne) rezultujuće varijable

Eksperimentalni dizajni / Istraživački planovi

Faktorijalni eksperiment Randomizovani

potpuni blok dizajn

Dizajn ponovljenih merenja

1 faktor 2 i više faktora 1 faktor i 1 kriterijum

klasifikacije 1 faktor i 1 kriterijum

klasifikacije

Omerna / Intervalna

Jednofaktorska ANOVA

Dvofaktorska i višefaktorske

ANOVE

Dvosmerna ANOVA (ili jednofaktorska

ANOVA sa blokovima)

Jednofaktorska ANOVA sa

ponovljenim merenjima (ili

dvosmerna ANOVA)

Ordinalna Kraskal-Volisova analiza varijanse

sa rangovima

Fridmanova dvosmerna analiza

varijanse sa rangovima

Fridmanova dvosmerna analiza

varijanse sa rangovima

Nominalna

Fišerov varijansni količnik za proporcije

Loglinearni modeli* Kohrejnov Q test Kohrejnov Q test

χ2 test za učestalosti / proporcije

Eksperimentalni dizajn / plan, vrste (2) p Ravnomeran ili neravnomeran p  Planiran (kontrolisan) ili neplaniran

(nedovoljno kontrolisan ili nekontrolisan) p Kompletan ili nekompletan p  Proporcionalan ili neproporcionalan




ANOVA

Osnove metode

Osnovna ideja p  Upoređivanje dva tipa variranja da bi se

ocenila razlika između prosečnih vrednosti p  Baza za poređenje je odnos varijansi

(Fišerov varijansni količnik)

p  Zašto ANOVA?

n  Test baziran na varijansama je osetljiviji nego test baziran na prosečnim

n  ANOVA ima manji rizik za grešku tipa I

n  ANOVA ima manji rizik za grešku tipa II SAS i DS 2011/2012


Osnovna ideja (2) Razdvajanje varijabiliteta p  Varijabilitet između grupa

n  varijabilitet (razlika između srednjih vrednosti) koji je posledica uticaja faktora koji se ispituje

n  Organizavani, objašnjiv, faktorski, međugrupni varijabilitet

p  Varijabilitet unutar grupa n  varijabilitet koji je posledica uticaja uzorka n  Slučajni, neorganizovani, neobjašnjiv, rezidualni,

unutargrupni varijabilitet p  Ukupan varijabilitet

n  zbir varijabiliteta između grupa i varijabiliteta unutar grupa



Faktorski varijablitet



grupa 1 grupa 2 grupa 3

x1x

2x3x

Slučajni varijablitet




1x2x

3x

Ukupan varijablitet




x

Opšti model analize varijanse p U opštem modelu analize varijanse

odnos variranja uobičajeno se predstavlja sledećim zapisom: Y = X + Z

tj. Ukupno variranje (Y) = variranje čiji je izvor u organizovanom delu eksperimenta (X) + variranje čiji je izvor u neorganizovanom delu eksperimenta (Z)



Šta je ANOVA? p Analiza varijanse (ANOVA) je statistička

metoda zaključivanja zasnovana na generalnim linearnim modelima, koja ukupan varijabilitet skupa podataka deli na bar dve komponente (faktorsku-organizovanu i rezidualnu-slučajnu).



A kako merimo variranje, varijabilitet, varijaciju? p  Disperzijama – C - sume kvadrata odstupanja podataka od

njihovih aritmetičkih sredina p  Faktorska disperzija (Cx ) - mera variranja među

grupama a sastoji se iz određivanja kvadrata odstupanja aritmetičke sredine grupe od zajedničke aritmetičke sredine pomnoženo sa veličinom grupe

p  Rezidualna disperzija (Cz) - mera variranja unutar svake grupe a računamo zbir kvadrata odstupanja pojedinačnih opservacija od aritmetičke sredine te grupe, a zatim saberemo sva takva odstupanja za sve grupe

p  Opšta disperzija (Cy) – ukupno variranje je zbir kvadrata odstupanja svakog podatka od aritmetičke sredine svih podataka u analizi



A kako merimo variranje, varijabilitet, varijaciju? (2)



p Varijansama (SD2 = C / broj stepena slobode je ocena populacione varijanse σ2)

SDx2=

Cxk − 1

=

SDx2= SDz

2 =

kNCz−

dve ocene populacionih varijansi σ2

F =

A koje su pretpostavke za primenu p  opservacije predstavljaju slučajan uzorak, tj. izbor

eksperimentalnih jedinica je slučajan p  opservacije su nezavisne, tj. prisutna je randomizacija (slučajno

dodeljivanje gradacije ili nivoa faktora eksperimentalnoj jedinici) p  homogenost varijansi, populacione varijanse za svaku grupu su

jednake, tj. varijabilnost merenja za svaku gradaciju faktora trebalo bi da je slična, ako već nije jednaka (σ1

2= σ22=…=σk

2) p  vrednosti rezultujućeg obeležja (zavisne varijable) normalno su

raspoređene u svakoj grupi tj. za svaki nivo ili gradaciju faktora (nezavisne varijable). Pri tome rezultujuća varijabla može biti merena u okviru ISJ, ali se može prihvatiti i merenje izvedenim, semikvantitativnim jedinicama ili numerički kodiranim modalitetima.

p  A šta ako neki uslovi nisu ispunjeni?



A koje hipoteze testira? p H 0 : µ 1 = µ 2 = ...

= µ k p H 1: sve µ j nisu

jednake.

Preklapanje krivih kada su im prosečne vrednosti i varijanse jednake

F = različitosti sličnosti

Kao i u t-testu odnos pravimo između...

F = različitost sličnost = 2

2

z

x

SDSD

Fišerov varijansni količnik

F-raspodela

0.95 0.05 2.7 F4;30

R e g i o n prihvatanja

R e g i o n odbacivanja



1F >



1F =

Tablica sheme rezultata analize varijanse

Izvor variranja Disperzija

Broj stepena slobode

Varijansa F

Između grupa Cx dfx = k-1 sdx

2

Unutar grupa Cz dfz = n-k sdz

2

Opšti Cy dfy = n-1

Primer – medicinsko eksperimentalno istraživanje

p  Da bi se ispitalo dejstvo glukoze na oslobađanje insulina planiran je eksperiment u kojem je tkivo pankreasa eksperimentalnih životinja tretirano sa pet različitih koncentracija glukoze i pri tome je merena količina oslobođenog insulina data tabelom:

Količina oslobođenog insulina u funkciji različitih koncentracija glukoze

Koncentracija glukoze 1 2 3 4 5

1.53 3.15 3.89 8.18 5.86

1.61 3.96 4.80 5.64 5.46

3.75 3.59 3.69 7.36 5.69

2.89 1.89 5.70 5.33 6.49

3.26 1.45 5.62 8.82 7.81

2.83 3.49 5.79 5.26 9.03

2.86 1.56 4.75 8.75 7.49

2.59 2.44 5.33 7.10 8.98

Pitanje p  Da li se na osnovu

ovako planiranog eksperimenta može zaključiti: n  da postoje

značajne razlike u prosečnim vrednostima oslobođenog insulina u ovih pet grupa, tj.

n  da li količina oslobođenog insulina zavisi od koncentracije glukoze?

Istraživačka pitanja 1 p Mogu li se opservirane razlike između više

od dva uzorka objasniti slučajem ili stvarnim razlikama među uzorkovanim populacijama?

p Da li su opservirane razlike posledica: n  samo istraživačkog faktora ili n  čitavog niza drugih faktora (samih ispitanika,

posmatrača ili ocenjivača,…) ili n  i jednog i drugog?

Rezultat



Izvor variranja Disperzija DF Varijansa F

Između grupa Cx = 156.0955 DFx = 4 SDx

2= 39.0239 F = 29.83

Unutar grupa Cz = 45.7859 DFz = 35 SDz2= 1.3082

Opšti Cy = 201.8814 DFy = 39

Statistička odluka: p  Poređenjem izračunate vrednosti statistike

F od 29.83 i granične vrednosti statistike F iz tablica F-raspodele: F4;30;0.05 = 2.69 < Fempirijski = 29.83 zaključujemo da nultu hipotezu možemo odbaciti.

p Drugim rečima odbacujemo nultu hipotezu Ho: µ1= µ2= µ3= µ4= µ5 u korist radne hipoteze, H1: sve prosečne vrednosti µj nisu jednake.



Višestruka poređenja p Uvek kada analiza varijanse dovede do

odluke o odbacivanju (neprihvatanju) nulte hipoteze postavlja se pitanje koji je par (ili parovi) prosečnih vrednosti značajno različit, odnosno, koju od (u datom primeru 10 mogućih) pojedinačnih hipoteza treba odbaciti.



Fišerova NZD procedura p Najstarija, a verovatno i najčešće

korišćena, je Fišerova NZD procedura (Najmanja Značajna Razlika, LSD – Least Significance Difference):



21

212

221 )(

nnnn

SDxxFz +

⋅×

−=

pri čemu je broj stepena sloboda 1 i N-k, a značajnost se čita iz tablica za F-raspodelu.

Rezultat - Značajnost višestrukih testova koji proveravaju pojedinačne razike između svake dve grupe



1-2 NZ 2-3 < 0.01 3-4 < 0.01

4-5

NZ

1-3 < 0.01 2-4 < 0.01 3-5 < 0.01

1-4 < 0.01 2-5 < 0.01

1-5 < 0.01

Istraživački zaključak p  Pošto smo odbacili nultu hipotezu

zaključujemo da količina oslobođenog insulina zavisi od koncentracije glukoze.

p  Ili, različite koncentracije glukoze utiču na različitu količinu oslobođenog insulina.

p Na osnovu poređenja svake dve ispitivane grupe znamo i više, naime, da razliku čine samo tri koncentracije i to: treća koncentracija, da su prve dve među sobom jednakog dejstva, što važi i za poslednje dve. SAS i DS 2011/2012


statistički dizajn eksperimenta - mfub.bg.ac.rs · pdf filesas i ds 2011/2012 statistika za...

Documents