föreläsning 4 - ida.liu.sendab01/fo4vt2016.pdfatt transformera innebär att originalvärdena görs...

1

Föreläsning 4 NDAB01

Statistik; teori och tillämpning i biologi

Dagens föreläsning o Icke-parametriska test

• Mann-Whitneys test (kap 8.10 – 8.11)

• Wilcoxons test (kap 9.5)

o Transformationer (kap 13)

o Ev. Andelar (kap 24)

o Binomialfördelning

(kap 24.1)

2

NDAB01

Icke-parametriska test

De metoder som diskuterats hittills bygger på att de

observerade variablerna eller att fördelningen för deras

medelvärden kan anses vara approximativt

normalfördelade. Dessa metoder kallas parametriska.

Men vad gör man om det ej går att anta normalfördelning?

Då kan man använda sig av icke-parametriska test. Dessa

test kallas även för fördelningsfria test, vilket kommer ifrån

att de inte bygger på något antagande om normalfördelning.

Dock måste stickproven vara slumpmässigt dragna och

oberoende av varandra.

3

NDAB01

Icke-parametriska test Mann-Whitney

Mann-Whitneys test används när man vill jämföra två

oberoende stickprov.

Hypoteserna formuleras lite annorlunda vid icke-

parametriska test:

𝐻0: 𝐷𝑒𝑡 𝑓𝑖𝑛𝑛𝑠 𝒊𝒏𝒈𝒂 𝑠𝑘𝑖𝑙𝑙𝑛𝑎𝑑𝑒𝑟 𝑚𝑒𝑙𝑙𝑎𝑛 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1 𝑜𝑐ℎ 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 2

𝐻𝑎: 𝐷𝑒𝑡 𝑓𝑖𝑛𝑛𝑠 𝑠𝑘𝑖𝑙𝑙𝑛𝑎𝑑𝑒𝑟 𝑚𝑒𝑙𝑙𝑎𝑛 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1 𝑜𝑐ℎ 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 2

Det går även att göra enkelsidiga test:

𝐻0: 𝐷𝑒𝑡 𝑓𝑖𝑛𝑛𝑠 𝒊𝒏𝒈𝒂 𝑠𝑘𝑖𝑙𝑙𝑛𝑎𝑑𝑒𝑟 𝑚𝑒𝑙𝑙𝑎𝑛 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1 𝑜𝑐ℎ 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 2

𝐻𝑎: 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1 ℎ𝑎𝑟 ℎö𝑔𝑟𝑒 𝑣ä𝑟𝑑𝑒𝑛 ä𝑛 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 2

För att göra det enkelt för sig då man för testet ska leta upp

kritiskt värde i tabell kan man välja population 1 och

population 2 så att n1 ≤ n2.

4

NDAB01


Det första som görs är att man rangordnar alla

observationer från minsta till största värde. Minsta värdet får

rangtal 1, näst minsta rangtal 2 och så vidare.

Om två eller fler värden får samma rangtal kallas de för

”ties”. Alla dessa värden får då samma rangtal, genom att

man beräknar medelvärdet på de aktuella rangtalen.

Därefter summeras alla rangtal för vardera stickprov,

summan för grupp 1 kallas R1 och för grupp 2 R2.

Vid dubbelsidigt test beräknas två testvariabler: (GB s. 171,

BB s. 163)

𝑈 = 𝑛1𝑛2 +𝑛1(𝑛1 + 1)

2− 𝑅1

𝑈′ = 𝑛1𝑛2 +𝑛2(𝑛2 + 1)

2− 𝑅2

5

NDAB01


Vid en dubbelsidig mothypotes jämförs det största värdet av

𝑈 och 𝑈′ med det kritiska värdet 𝑈𝛼 2 ,𝑛1,𝑛2. H0 förkastas när

𝑈 eller 𝑈′ är större än det kritiska värdet.

Vid enkelsidig mothypotes behövs bara en testvariabel

beräknas, och vilken det är beror på hypotesformuleringen:

(GB s. 174 (c), BB s. 166 (c))

6

NDAB01

Ha: Population 1

har lägre värden

än population 2

Ha: Population 1

har högre värden

än population 2

Testvariabel U U’

Kritiskt värde 𝑈𝛼 1 ,𝑛1,𝑛2 𝑈𝛼 1 ,𝑛1,𝑛2

Icke-parametriska test Exempel Mann-Whitney

Man vill undersöka om det är någon skillnad i hur snabbt

palmplantor växer i lerig respektive sandig jord. De

planteras och växer i sex veckor, sedan mäts deras höjd i

centimeter.

7

NDAB01

Lerig jord Sandig jord

24 22

41 6

17 11

38 15

31 4

13

a) Undersök på 5 % signifikans-

nivå om det är någon skillnad

i växthastighet.

b) Undersök på 1 % signifikans-

nivå om palmplantor växer

snabbare i lerig jord.

Icke-parametriska test Wilcoxons test för parvisa observationer

När man vill göra ett icke-parametriskt test för parvisa

observationer används Wilcoxons test. Hypoteserna

formuleras på samma sätt som för Mann-Whitneys test.

Först beräknas differenserna för varje enhet, och sedan

rangordnas de absoluta differenserna från minsta till

största. Därefter summeras rangtalen för de negativa

differenserna (𝑇−) och de positiva differenserna (𝑇+) var för

sig.

Vid dubbelsidiga test förkastas H0 om någon av dessa

summor är mindre än 𝑇𝛼 2 ;𝑛, där n är antalet differenser

som inte är 0. (GB s. 194, 196(1), BB s. 184, 186(1))

Enkelsidiga test kan också genomföras och beslutsregler för

detta finns att läsa för Wilcoxons test i boken.

8

NDAB01

Icke-parametriska test Exempel: Wilcoxons test för parvisa observationer

Normalfördelningen kan ifrågasättas gällande exemplet för

sprinters prestationer på en okänd bana, speciellt med tanke

på stickprovets storlek. Frågan om sprinters presterar bättre

på en bana de känner till bör då utredas med hjälp av

Wilcoxons test.

9

NDAB01

Sprinter Dag 1 Dag 2

1 20,23 20,19

2 20,10 20,11

3 20,33 20,25

4 20,18 20,16

5 20,41 20,43

6 20,02 19,99

7 20,17 20,17

8 20,36 20,32

9 20,07 20,08

10 20,21 20,15

Transformationer

Istället för att använda sig av icke-parametriska test kan

man välja att transformera datamaterialet.

Att transformera innebär att originalvärdena görs om till nya

värden, som (teoretiskt) uppfyller normalfördelningskravet.

Boken tar upp tre olika transformationer:

1. Logaritm-transformation

2. Kvadratrots-transformation

3. Arcsin-transformation

10

NDAB01

Transformationer Logaritm-transformationen

När datamaterialet är skevt fördelat kan logaritm-

transformationen användas. Det spelar ingen roll om den

naturliga logaritmen eller 10-logaritmen används.

På grund av att log 0 = −∞ och att log(−𝑋) ej är definierat

får datamaterialet ej innehålla 0 eller negativa värden.

Men, om datamaterialet innehåller en relativt stor del små

värden och eventuellt nollor kan X transformeras enligt: (GB

s. 304, BB s. 288)

𝑋′ = log (𝑋 + 1)

11

NDAB01

Transformationer Exempel logaritm-transformationen

12

NDAB01

70605040302010

180

160

140

120

100

80

60

40

20

0

Totalfosfor (μg/l)

Fre

kv

en

s

Histogram över totalfosfor (μg/l)


13

NDAB01


Beräknat medelvärde och konfidensintervall för de

transformerade värdena från Minitab:

14

NDAB01

Variable N Mean 95% CI

C2 1641 3,17554 (3,15763; 3,19346)

För att kunna tolka dessa värden måste de antilogaritmeras!

Och om log (𝑋 + 1) har använts måste 1 subtraheras från

dessa antilogaritmerade värden.

Transformationer Kvadratrots- och arcsintransformation

Kvadratrotstransformation används när variansen är

proportionell mot medelvärdet, dvs. när medelvärdet ökar så

ökar variansen. Transformationen sker enligt: (GB s. 307,

BB s. 291)

𝑋′ = 𝑋 + 0,5

Arcsintransformation används framförallt för binomial-

fördelade datamaterial. Denna fördelning kommer vi att

diskutera nu.

15

NDAB01

Andelar (proportioner)

En andel (proportion) betecknas med p och är en del av en

population med en viss egenskap. Andelen som ej har

denna egenskap betecknas med q = 1 - p.

Angående andelar kommer vi diskutera hur man kan:

• Beräkna sannolikheter utifrån andelar

• Använda hypotesprövning och konfidensintervall för

en andel

• Använda hypotesprövning och konfidensintervall för

att jämföra två andelar

• Använda olika approximationer vid beräkningar av

andelar

16

NDAB01

Binomialfördelningen

Binomialfördelningen är enklast att beskriva med ett

exempel.

Antag att 30 % av invånarna i Sverige är blåögda. Ett

obundet slumpmässigt urval om 10 personer dras. Vi

definierar variabeln X = antal blåögda personer i stickprovet.

Denna variabel X blir binomialfördelad enligt bin(n=10,

p=0.3).

17

NDAB01

109876543210

30

25

20

15

10

5

0

Antalet blåögda personer i stickprovet

Sa

nn

olik

he

t (%

)

Binomialfördelningen

För att beräkna sannolikheter för ett visst antal i stickprovet

används formeln: (GB s. 556, BB s. 520)

𝑃 𝑋 =𝑛𝑋

∗ 𝑝𝑋 ∗ 𝑞 𝑛−𝑋 =𝑛!

𝑋! 𝑛 − 𝑋 !∗ 𝑝𝑋 ∗ 𝑞(𝑛−𝑋)

Beräkna för stickprovet bestående av 10 stycken

slumpmässigt valda svenska invånare:

a) Sannolikheten att exakt två personer i stickprovet är

blåögda

b) Sannolikheten att två personer eller färre i

stickprovet är blåögda

18

NDAB01

Binomialfördelningen Poissonfördelning och normalapproximation

När p är väldigt litet och n är väldigt stort bör

Poissonfördelningen användas. Denna fördelning diskuteras

ej i kursen, men den finns förklarad i kapitel 25.

När vi senare kommer att genomföra hypotesprövning och

konfidensintervall för andelar kommer normal-approximation

att användas. Detta är dock inte helt perfekt:

• Inte bra när p är nära 0 eller 1.

• Inte bra när n är litet.

Författaren föreslår som regel att 𝑝0 ∗ 𝑛 och 𝑞0 ∗ 𝑛 ska vara

minst 5 för att normalapproximation ska kunna användas.

19

NDAB01

Tack för idag!

Nästa tillfälle:

Lektion 2, tisdag 16 feb, kl. 10-12, sal U10

20

föreläsning 4 - ida.liu.sendab01/fo4vt2016.pdfatt transformera innebär att originalvärdena görs...

Documents