föreläsning 4 - ida.liu.sendab01/fo4vt2016.pdfatt transformera innebär att originalvärdena görs...
TRANSCRIPT
1
Föreläsning 4 NDAB01
Statistik; teori och tillämpning i biologi
Dagens föreläsning o Icke-parametriska test
• Mann-Whitneys test (kap 8.10 – 8.11)
• Wilcoxons test (kap 9.5)
o Transformationer (kap 13)
o Ev. Andelar (kap 24)
o Binomialfördelning
(kap 24.1)
2
NDAB01
Icke-parametriska test
De metoder som diskuterats hittills bygger på att de
observerade variablerna eller att fördelningen för deras
medelvärden kan anses vara approximativt
normalfördelade. Dessa metoder kallas parametriska.
Men vad gör man om det ej går att anta normalfördelning?
Då kan man använda sig av icke-parametriska test. Dessa
test kallas även för fördelningsfria test, vilket kommer ifrån
att de inte bygger på något antagande om normalfördelning.
Dock måste stickproven vara slumpmässigt dragna och
oberoende av varandra.
3
NDAB01
Icke-parametriska test Mann-Whitney
Mann-Whitneys test används när man vill jämföra två
oberoende stickprov.
Hypoteserna formuleras lite annorlunda vid icke-
parametriska test:
𝐻0: 𝐷𝑒𝑡 𝑓𝑖𝑛𝑛𝑠 𝒊𝒏𝒈𝒂 𝑠𝑘𝑖𝑙𝑙𝑛𝑎𝑑𝑒𝑟 𝑚𝑒𝑙𝑙𝑎𝑛 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1 𝑜𝑐ℎ 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 2
𝐻𝑎: 𝐷𝑒𝑡 𝑓𝑖𝑛𝑛𝑠 𝑠𝑘𝑖𝑙𝑙𝑛𝑎𝑑𝑒𝑟 𝑚𝑒𝑙𝑙𝑎𝑛 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1 𝑜𝑐ℎ 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 2
Det går även att göra enkelsidiga test:
𝐻0: 𝐷𝑒𝑡 𝑓𝑖𝑛𝑛𝑠 𝒊𝒏𝒈𝒂 𝑠𝑘𝑖𝑙𝑙𝑛𝑎𝑑𝑒𝑟 𝑚𝑒𝑙𝑙𝑎𝑛 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1 𝑜𝑐ℎ 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 2
𝐻𝑎: 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 1 ℎ𝑎𝑟 ℎö𝑔𝑟𝑒 𝑣ä𝑟𝑑𝑒𝑛 ä𝑛 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 2
För att göra det enkelt för sig då man för testet ska leta upp
kritiskt värde i tabell kan man välja population 1 och
population 2 så att n1 ≤ n2.
4
NDAB01
Icke-parametriska test Mann-Whitney
Det första som görs är att man rangordnar alla
observationer från minsta till största värde. Minsta värdet får
rangtal 1, näst minsta rangtal 2 och så vidare.
Om två eller fler värden får samma rangtal kallas de för
”ties”. Alla dessa värden får då samma rangtal, genom att
man beräknar medelvärdet på de aktuella rangtalen.
Därefter summeras alla rangtal för vardera stickprov,
summan för grupp 1 kallas R1 och för grupp 2 R2.
Vid dubbelsidigt test beräknas två testvariabler: (GB s. 171,
BB s. 163)
𝑈 = 𝑛1𝑛2 +𝑛1(𝑛1 + 1)
2− 𝑅1
𝑈′ = 𝑛1𝑛2 +𝑛2(𝑛2 + 1)
2− 𝑅2
5
NDAB01
Icke-parametriska test Mann-Whitney
Vid en dubbelsidig mothypotes jämförs det största värdet av
𝑈 och 𝑈′ med det kritiska värdet 𝑈𝛼 2 ,𝑛1,𝑛2. H0 förkastas när
𝑈 eller 𝑈′ är större än det kritiska värdet.
Vid enkelsidig mothypotes behövs bara en testvariabel
beräknas, och vilken det är beror på hypotesformuleringen:
(GB s. 174 (c), BB s. 166 (c))
6
NDAB01
Ha: Population 1
har lägre värden
än population 2
Ha: Population 1
har högre värden
än population 2
Testvariabel U U’
Kritiskt värde 𝑈𝛼 1 ,𝑛1,𝑛2 𝑈𝛼 1 ,𝑛1,𝑛2
Icke-parametriska test Exempel Mann-Whitney
Man vill undersöka om det är någon skillnad i hur snabbt
palmplantor växer i lerig respektive sandig jord. De
planteras och växer i sex veckor, sedan mäts deras höjd i
centimeter.
7
NDAB01
Lerig jord Sandig jord
24 22
41 6
17 11
38 15
31 4
13
a) Undersök på 5 % signifikans-
nivå om det är någon skillnad
i växthastighet.
b) Undersök på 1 % signifikans-
nivå om palmplantor växer
snabbare i lerig jord.
Icke-parametriska test Wilcoxons test för parvisa observationer
När man vill göra ett icke-parametriskt test för parvisa
observationer används Wilcoxons test. Hypoteserna
formuleras på samma sätt som för Mann-Whitneys test.
Först beräknas differenserna för varje enhet, och sedan
rangordnas de absoluta differenserna från minsta till
största. Därefter summeras rangtalen för de negativa
differenserna (𝑇−) och de positiva differenserna (𝑇+) var för
sig.
Vid dubbelsidiga test förkastas H0 om någon av dessa
summor är mindre än 𝑇𝛼 2 ;𝑛, där n är antalet differenser
som inte är 0. (GB s. 194, 196(1), BB s. 184, 186(1))
Enkelsidiga test kan också genomföras och beslutsregler för
detta finns att läsa för Wilcoxons test i boken.
8
NDAB01
Icke-parametriska test Exempel: Wilcoxons test för parvisa observationer
Normalfördelningen kan ifrågasättas gällande exemplet för
sprinters prestationer på en okänd bana, speciellt med tanke
på stickprovets storlek. Frågan om sprinters presterar bättre
på en bana de känner till bör då utredas med hjälp av
Wilcoxons test.
9
NDAB01
Sprinter Dag 1 Dag 2
1 20,23 20,19
2 20,10 20,11
3 20,33 20,25
4 20,18 20,16
5 20,41 20,43
6 20,02 19,99
7 20,17 20,17
8 20,36 20,32
9 20,07 20,08
10 20,21 20,15
Transformationer
Istället för att använda sig av icke-parametriska test kan
man välja att transformera datamaterialet.
Att transformera innebär att originalvärdena görs om till nya
värden, som (teoretiskt) uppfyller normalfördelningskravet.
Boken tar upp tre olika transformationer:
1. Logaritm-transformation
2. Kvadratrots-transformation
3. Arcsin-transformation
10
NDAB01
Transformationer Logaritm-transformationen
När datamaterialet är skevt fördelat kan logaritm-
transformationen användas. Det spelar ingen roll om den
naturliga logaritmen eller 10-logaritmen används.
På grund av att log 0 = −∞ och att log(−𝑋) ej är definierat
får datamaterialet ej innehålla 0 eller negativa värden.
Men, om datamaterialet innehåller en relativt stor del små
värden och eventuellt nollor kan X transformeras enligt: (GB
s. 304, BB s. 288)
𝑋′ = log (𝑋 + 1)
11
NDAB01
Transformationer Exempel logaritm-transformationen
12
NDAB01
70605040302010
180
160
140
120
100
80
60
40
20
0
Totalfosfor (μg/l)
Fre
kv
en
s
Histogram över totalfosfor (μg/l)
Transformationer Exempel logaritm-transformationen
13
NDAB01
Transformationer Exempel logaritm-transformationen
Beräknat medelvärde och konfidensintervall för de
transformerade värdena från Minitab:
14
NDAB01
Variable N Mean 95% CI
C2 1641 3,17554 (3,15763; 3,19346)
För att kunna tolka dessa värden måste de antilogaritmeras!
Och om log (𝑋 + 1) har använts måste 1 subtraheras från
dessa antilogaritmerade värden.
Transformationer Kvadratrots- och arcsintransformation
Kvadratrotstransformation används när variansen är
proportionell mot medelvärdet, dvs. när medelvärdet ökar så
ökar variansen. Transformationen sker enligt: (GB s. 307,
BB s. 291)
𝑋′ = 𝑋 + 0,5
Arcsintransformation används framförallt för binomial-
fördelade datamaterial. Denna fördelning kommer vi att
diskutera nu.
15
NDAB01
Andelar (proportioner)
En andel (proportion) betecknas med p och är en del av en
population med en viss egenskap. Andelen som ej har
denna egenskap betecknas med q = 1 - p.
Angående andelar kommer vi diskutera hur man kan:
• Beräkna sannolikheter utifrån andelar
• Använda hypotesprövning och konfidensintervall för
en andel
• Använda hypotesprövning och konfidensintervall för
att jämföra två andelar
• Använda olika approximationer vid beräkningar av
andelar
16
NDAB01
Binomialfördelningen
Binomialfördelningen är enklast att beskriva med ett
exempel.
Antag att 30 % av invånarna i Sverige är blåögda. Ett
obundet slumpmässigt urval om 10 personer dras. Vi
definierar variabeln X = antal blåögda personer i stickprovet.
Denna variabel X blir binomialfördelad enligt bin(n=10,
p=0.3).
17
NDAB01
109876543210
30
25
20
15
10
5
0
Antalet blåögda personer i stickprovet
Sa
nn
olik
he
t (%
)
Binomialfördelningen
För att beräkna sannolikheter för ett visst antal i stickprovet
används formeln: (GB s. 556, BB s. 520)
𝑃 𝑋 =𝑛𝑋
∗ 𝑝𝑋 ∗ 𝑞 𝑛−𝑋 =𝑛!
𝑋! 𝑛 − 𝑋 !∗ 𝑝𝑋 ∗ 𝑞(𝑛−𝑋)
Beräkna för stickprovet bestående av 10 stycken
slumpmässigt valda svenska invånare:
a) Sannolikheten att exakt två personer i stickprovet är
blåögda
b) Sannolikheten att två personer eller färre i
stickprovet är blåögda
18
NDAB01
Binomialfördelningen Poissonfördelning och normalapproximation
När p är väldigt litet och n är väldigt stort bör
Poissonfördelningen användas. Denna fördelning diskuteras
ej i kursen, men den finns förklarad i kapitel 25.
När vi senare kommer att genomföra hypotesprövning och
konfidensintervall för andelar kommer normal-approximation
att användas. Detta är dock inte helt perfekt:
• Inte bra när p är nära 0 eller 1.
• Inte bra när n är litet.
Författaren föreslår som regel att 𝑝0 ∗ 𝑛 och 𝑞0 ∗ 𝑛 ska vara
minst 5 för att normalapproximation ska kunna användas.
19
NDAB01
Tack för idag!
Nästa tillfälle:
Lektion 2, tisdag 16 feb, kl. 10-12, sal U10
20