april 2019 statistik för biologi- och kemilärare · 2019-04-01 · statistik för biologi- och...

Statistik för biologi- och kemilärare, 2019-04-01 1/21

April 2019

Statistik för biologi- och kemilärare

En lärarfortbildning i Vetenskapens Hus


Introduktion till matematisk statistik

I många avseenden kan vi betrakta matematiken som något tätt sammankopplat med

verklighetens beskaffenhet. Detta ”något” kan i ena stunden visa upp egenskaper som liknar

språket för att i nästa ögonblick snarare te sig som en konstform, inte alls olik musik. För

den som vill studera livet, verkligheten eller det system vi lever i utgör matematiken en rik

verktygslåda som kan modellera, abstrahera, förenkla, förklara, belysa och utgöra ett

betydande underlag vid beslutsfattande.

Vid studier av mycket komplexa fenomen – så som läran om livet självt – hoppas vi kunna

utnyttja matematiken för att analysera de biologiska processer vi iakttar. Ett av de för detta

ändamål mest användbara områdena i matematikens värld är statistik. Detta är en

sammanställning som ska uppmuntra dig som kursdeltagare att göra egna statistiska

undersökningar i klassrummet. Sist i texten hittar du en lista på referenser som använts för

att ta fram detta material, men det är också tips på vidare läsning, förslag på programvara

att använda samt länkar som du kan gå vidare med tillsammans med dina elever.

När vi arbetar med verkligheten så kan vi väldigt sällan veta att de resultat vi ser är absoluta

sanningar. Naturvetenskapliga studier och vetenskaplighet är ett helt kapitel för sig. Har vi

gjort en studie som vi sedan analyserat och fastställt eller förkastat en viss hypotes så är det

förvisso (med en viss signifikansnivå) ett resultat, men vi ska vara medvetna om att

osäkerhet ändå kan bestå. Kanske använde vi en alldeles för liten datamängd, kanske

förelåg någon väldigt speciell omständighet som vi inte kan identifiera vid försökstillfället och

kanske har vi till och med mätt eller gjort något fel? Nyckeln till att gradvis göra sig av med

sådan osäkerhet är upprepade försök. Går ditt resultat att upprepa?

Vi hoppas att du med nyfikenhet och entusiasm ska känna dig uppmuntrad till att börja

använda den kraftfulla och användbara verktygslåda som vi snart ska bekanta oss med…

Nature is written in the language of mathematics – Galileo Galilei


Vad säger ämnesplanen?

Ämnesplanen i biologi säger att biologiundervisningen ska ge eleverna förutsättning att

utveckla följande:

1. Kunskaper om biologins begrepp, modeller, teorier och arbetsmetoder samt

förståelse av hur dessa utvecklas.

2. Förmåga att analysera och söka svar på ämnesrelaterade frågor samt att identifiera,

formulera och lösa problem. Förmåga att reflektera över och värdera valda

strategier, metoder och resultat.

3. Förmåga att planera, genomföra, tolka och redovisa fältstudier, experiment och

observationer samt förmåga att hantera material och utrustning.

4. Kunskaper om biologins betydelse för individ och samhälle.

5. Förmåga att använda kunskaper i biologi för att kommunicera samt för att granska

och använda information.

Den här kursen behandlar framförallt den del av punkt 3 som handlar om att tolka och

redovisa resultaten från en fältstudie.

Vad säger yrkeskunniga?

Vi frågade Maria Grünewald, doktor och konsult inom biostatistik, Erland Ekheden, doktor

och konsult inom försäkringsstatistik, Sara Maad Sasane universitetslektor i matematik vid

LTH och Elin Ryner, analytiker på konjunkturinstitutet vad de tyckte var viktigast att tänka på

när man ska genomföra en analys av ett datamaterial.

Deras svar sammanställdes till denna lista:

• Titta på data först och gör först en deskriptiv statistik (histogram, sortera data,

begrunda vilken fördelning som antas gälla).

• Vilken typ av test går att använda för din datamängd? Vilka antaganden förutsätter

testet och vad testas (vilken är hypotesen)?

• Lär dig lite R, det är ett av de bästa statistikprogrammen och helt gratis!

• Många problem och felaktiga resultat beror på att man missat något grundläggande

inom sannolikhetslära. Exempelvis kan man ha missat att man hade att göra med

en betingad sannolikhet.

• Oberoende händelser – finns de i verkligheten?

• Det är viktigt att känna till problemen vid multipel testning (att testa mer än en

hypotes åt gången).


Anscombes kvartett

För att belysa vikten av den första punkten i statistikernas lista över de bästa tipsen inför en

analys – alltså att först titta på sin datamängd innan man gör några som helst analyser – så

konstruerade Francis Anscombe (1918-2001) fyra olika datamängder:

Notera att x-värdena är desamma för datamängderna 1-3 (blå, gul och grön). Det visar sig

även om vi beräknar medelvärden och standardavvikelser så sammanfaller dessa för

samtliga av datamängderna. Utfallet vid en linjär regression - ett vanligt förekommande test

där vi kollar om en datamängd uppfyller ett linjärtsamband - antyder dessutom att alla fyra

mängder uppfyller sambandet:

Y = 3,0001 + X/2

I själva verket finns det bara ett linjärt samband i fall 1 och 3. I fall 3 har vi dock en outlier

som måste undersökas vidare eller möjligtvis förkastas och i det senare fallet gör detta att

det linjära sambandet får en mindre brant lutning. Datamängd 2 tycks härstamma från ett

kvadratiskt samband mellan x och y (alltså en andragradsekvation) medan det inte finns

något samband alls mellan x och y i fall 4 – det linjära sambandet uppkommer från den

uppenbart avvikande observationen x=19.

Datamängd 1 Datamängd 2 Datamängd 3 Datamängd 4

x y x y x y x Y

10 8,04 10 9,14 10 7,46 8 6,58

8 6,95 8 8,14 8 6,77 8 5,76

13 7,58 13 8,74 13 12,74 8 7,71 9 8,81 9 8,77 9 7,11 8 8,84

11 8,33 11 9,26 11 7,81 8 8,47

14 9,96 14 8,1 14 8,84 8 7,04

6 7,24 6 6,13 6 6,08 8 5,25

4 4,26 4 3,1 4 5,39 19 12,5

12 10,84 12 9,13 12 8,15 8 5,56

7 4,82 7 7,26 7 6,42 8 7,91 5 5,68 5 4,74 5 5,73 8 6,89


Om vi plottar dessa datamängder (t.ex. i Excel) upptäcker vi att endast i datamängderna 1

och 3 tycks det finnas ett linjärt samband. Vi ser också tydligt samt outliern i datamängd 3

som antagligen bör undersökas vidare eller strykas:

Slutsatsen här är att vi alltså alltid borde inleda varje statistisk undersökning med att

visualisera våra data med hjälp av en lämplig graf och kanske några inledande enklare

beräkningar för att avgöra vilken typ av datamängd vi har att göra med. Det är det här som

kallas för beskrivande (eller deskriptiv) statistik. Även om vi i designen av ett experiment tror

oss veta hur datamängden beter sig så är det rimligt att beskriva den innan vi kan

genomföra några analyser och testa vår forskningshypotes.

0

5

10

15

0 5 10 15

Datamängd 1

0

2

4

6

8

10

0 5 10 15

Datamängd 2

0

5

10

15

0 5 10 15

Datamängd 3

0

5

10

15

0 5 10 15 20

Datamängd 4


Varför statistik?

Med hjälp av statistik kan vi exempelvis:

• beskriva fenomen kvantitativt,

• undersöka samband mellan variabler och

• undersöka skillnader mellan eller inom grupper.

Vanligtvis tar vi ett stickprov ur en population för att göra observationer.

Hypotesprövning

• Formulera nollhypotes och alternativhypotes, vanligtvis säger nollhypotesen att

observationerna är ett resultat av slumpen.

• Identifiera en teststatistika som kan användas för att avgöra sanningshalten i

nollhypotesen (val av test).

• Beräkna P-värdet, dvs sannolikheten att teststatistikan är minst lika extrem som det

observerade givet att nollhypotesen är sann.

• Fatta ett beslut om att förkasta eller inte förkasta nollhypotesen genom att jämföra

P-värdet med ett acceptabelt värde, ett s.k 𝛼-värde, signifikansnivå.

Några viktiga begrepp för hypotesprövning

Nollhypotes, H0: En hypotes om att observerade data i ett försök är ett resultat av slump.

Nollhypotesen antas gälla till dess att data antyder annat och då förkastar vi den.

Alternativhypotes H1: Hypotesen vi önskar undersöka – dvs forskningsfrågan vi är ute efter.

T.ex. att ett vaccin har effekt eller att en växt har allelopatiska egenskaper.

Signifikans och p-värde: Signifikansnivån är ett kvantitativt mått på hur väl en testvariabel

överensstämmer med det värde som är det troligaste värdet om nollhypotesen inte kan

förkastas. Vi kräver är är att sannolikheten för att få observerade data eller mer extrema

värden är mindre än signifikansnivån för att kunna förkasta nollhypotesen.

P-värdet är sannolikheten att, givet att nollhypotesen är sann, ändå erhålla

en teststatistika minst så extrem som den faktiskt observerade. Så om p-värdet är lågt kan vi

förkasta nollhypotesen med viss säkerhet (signifikans).

Konfidensintervall: Ett skattat intervall som tas fram för en parameter utifrån ett stickprov. Vi

då med en viss säkerhet – en viss konfidens – uttala oss om denna populationsparameter.

Exempelvis är det vanligt att titta på ett skattat konfidensintervall för medelvärde och/eller

varians.


Hur väljer vi statistisk metod? Det är viktigt att förstå vilka data en mätning har genererat. Mätningar lagras i variabler.

Variablerna kan ses som egenskaper hos individer/objekt i en population som kan variera.

Exv trädets höjd, preparatets toxicitet, räkans färg, vätskans temperatur, antal värpta ägg

eller personens kön. Du behöver ha klart för dig om variabeln i ditt försök är kvalitativ

(dikotom?) eller kvantitativ (kontinuerlig/diskret)? Är den beroende eller oberoende? Finns

det flera variabler?

Vi kan dela in data i fyra olika skaltyper och beroende vilken typ så har olika matematisk

storheter betydelse eller inte.

• Nominalskala – klassificering av objekt, exv kön, färg eller krona/klave. På

nominalskakan kan variablerna vara dikotoma (typ JA/NEJ).

• Ordinalskala – rangordnade objekt, exv poäng eller betyg. På ordinalskalan finns

en naturlig ordning, men avstånden mellan mätvärden är inte ekvidistanta.

• Intervallskala – avstånd mellan värden har en innebörd, exv temperatur. På

intervallskalan råder ekvidistans mellan mätvärden, men det finns ingen naturlig

nollpunkt och därför kan vi endast tillämpa addition och subtraktion. Variablerna kan

vara kontinuerliga eller diskreta.

• Kvotskala – liknar intervallskalan, men vi kan bilda kvot, exv vikt och avstånd.

Kvotskalan har även den ekvidistan, men här finns en naturlig nollpunkt och det är

således vettigt att tala om kvoter. Är fungerar alla de fyra räknesätten.

Ett exempel på intervallskalan som visar varför det är irrelevant att prata om kvoter är

temperatur. Vad betyder ”dubbelt så varmt” i praktiken? Frågan är förstås nonsens.


På ordinalskalan är det i många fall ointressant att prata om medelvärde eftersom

rangordningen inte behöver säga något om distansens innebörd mellan mätvärden. Ändå är

det ganska vanligt att ta medelvärde av exempelvis betyg. Matematiskt brukar man generellt

dock avråda från att använda just medelvärdet för rangordnad data utan ekvidistans. Det är

oftast mer meningsfullt att titta på typvärde eller andelar av data som faller in under ett visst

värde – t.ex. genom ett stapeldiagram som visualiserar resultatet. Detta är vanligt

exempelvis vid kundundersökningar och nöjdhetsindex då ett medelvärde eventuellt skulle

kunna vara direkt missvisande. En sammanställning av ovan avsnitt:

Datanivå Klassindelning? Rangordning? Ekvidistans? Kvoter?

Nominalskala Ja Nej Nej Nej

Ordinalskala Ja Ja Nej Nej

Intervallskala Ja Ja Ja Nej

Kvotskala Ja Ja Ja Ja

Inledande undersökningar – deskriptiv statistik

För att få bättre förståelse för en datamängd är det bra att först göra en eller flera av följande

inledande undersökningar.

- Frekvensanalys (hur vanliga är vissa värden?)

- Centralmått (var ligger datans tyngdpunkt?)

- Spridningsmått (hur stor är variationen?)

- Visualisera med diagram som är lämpliga för typen av data

Skaltyp Centralmått Spridningsmått

Nominal Typvärde (T) Variationsvidd (r)

Ordinal Median (Md) Kvartilavvikelse (Q)

Intervall- och kvot Medelvärde (M) Standardavvikelse (s)


Några diagramtyper som är användbara för att beskriva datamängder Stapeldiagram

I stapeldiagrammet representerar vi observerade värden som staplar. I ett exempel som tas

upp på Statistiska Centralbyrån tittar vi på antal förvärvsarbetande för åldrarna 16–74 år,

uppdelat efter kön, i Uppsala, Södermanlands och Dalarnas län, år 2008. Är vi intresserade

av hur sysselsättningen ser ut i de olika länen så är det lämpligt att göra ett stapeldiagram.

Källa: SCB och RAMS.

https://www.scb.se/sv_/Hitta-statistik/Artiklar/Ratt-diagram-lyfter-ditt-budskap/

Histogram

Histogrammet visar att det finns ett spann inom vilka de observerade värdena fördelar sig. I

exemplet ser vi samma data som ovan, men den här gången vill vi titta på hur

sysselsättningen ser ut i olika åldrar. Ålder och längd är exempel på kontinuerliga variabler

som generellt sett lämpar sig väl att presentera i ett histogram.


Linjediagram

Den här gången är vi intresserad av trender över tid för sysselsättningen i Uppsala,

Södermanlands och Dalarnas län, månadsvis, år 2006–2009 och vi väljer ut åldrarna 15−64

år, uppdelat efter kön och representerar detta i ett linjediagram:

Källa: Arbetskraftsundersökningarna (AKU)

Låddiagram

Låddiagrammet (Box-and-Whisker plot) påminner i sin utformning om histogrammet. Även

här ser vi hur stor vår datamängds spridning har. Lådan visar all data som ligger inom första

och tredje kvartilen, linjerna (morrhåren – whiskers) visar resterande värdens spridning, ej

inräknat outliers. Outliers illustreras som prickar utanför linjerna. Vi återkopplar till

Anscombes kvartett och ser tydligt att vi kan räkna bort värdet y = 13 och x = 12, 74. Vi kan

därmed hitta det linjära samband som bättre beskriver våra data.


Hypotesprövning – förslag på försök som tar 30-60 minuter

När vi har avgjort vilka typer av variabler vi har, vilken typ av datamängd en observation

genererar är det dags att designa ett försök! Vi har ett antal förslag på datainsamlingar som

är genomförbara under en lektion. Inom parentes står vilka tester som är lämpliga att

genomföra på observerade data.

• Beror husmossans skottlängd på jorddjup? Mät mossan i mm med linjal och jorddjup

i mm med stålsticka/grillpinne och linjal. (regression)

• Är lavarna större på äldre träd? Mät lavdiameter i mm med linjal och trädets omkrets

i cm med måttband. (regression)

• Är lavarna mindre nära vägar? Lavar är känsliga mot luftföroreningar, men bilarnas

avgaser är renare idag än för 30 år sedan. Mät lavdiameter i mm med linjal och

avstånd till väg i meter. (regression)

• Påverkar lönn-näsans längd dess spridningsförmåga? Mät lönn-näsor i mm med

linjal. Släpp näsorna i t ex ett högt trapphus och ta tid med ett tidtagarur hur lång tid

det tar innan de når marken. Funkar även med en del andra frön. (regression)

• Finns det någon reproduktiv kostnad hos björk? Dvs kostar hängena så mycket att

skotten blir kortare? Kolla 25 skott med hängen och 25 skott utan hängen och mät

senaste skottet i mm med linjal. (t-test)

• Påverkas trädens form av var de växer? Välj 25 lönnar som står i skogsbryn. Mät ett

årsskott på ljusa sidan och ett på mörka sidan i mm med linjal. (t-test eller

egentligen parat t-test)

• Påverkar kön om folk köper ekologisk mjölk? Fråga 25 män och 25 kvinnor ifall de

köper vanlig eller ekologisk mjölk. (2 x 2-test)

• Vilken växt är bäst på att locka till sig myror som försvar mot växtätande insekter?

Häckvicker har nektarkörtlar på stiplerna i bladvecken. Vitplister har frön som är

attraktiva för myror. Kolla 25 häckvickrar och 25 vitplistrar och kolla om det sitter

någon myra på växten. (2 x 2-test)

• Påverkar åldern om folk köper ekologisk mjölk? Fråga 50 personer om deras ålder

och ifall de köper vanlig eller ekologisk mjölk. (logistisk regression)

• Påverkar maskrosens stjälklängd risken för flugangrepp? Mät överblommade

maskrosors stjälklängd i mm med linjal (när de har frön alltså!). Kolla om det finns

en svart fläck/grop på fröfästet där en eventuell fluglarv har ätit av fröna. (logistisk

regression)


Vilka tester är lämpliga att använda i vilka situationer?

När vi har identifierat vilken typ av data vår undersökning innehåller så hjälper oss

nedanstående tabell är hämtad ur Ulf Grandins text ”Dataanalys och hypotesprövning för

statistikanvändare” och hjälper dig välja statistiskt test i olika fall av data.

Önskad analys

Typ av data

Normalfördelade mätdata

Rang, poäng, icke

normalfördelade mätdata

Binomialfördelade mätdata (endast två

möjliga utfall)

Skilln

ad

er

Beskrivning av en grupp

Medelvärde, standardavviklese

Median, kvantiler, omfång

Proportion

Jämföra en grupp med

ett hypotetiskt

värde

T-test för ett stickprov Wilcoxons test Chi-två eller binomialtest

Jämföra två oberoende

grupper Oparat t-test

Mann-Whitneys test

Fishers test

Jämföra två beroende grupper

Parat t-test Wilcoxons test McNemars test

Jämföra tre eller fler

oberoende grupper

Envägs ANOVA Kruskal-Wallis

test Chi-två-test

Jämföra tre eller fler

beroende grupper

ANOVA för upprepade mätningar

Friedmans test Cochranes Q-test

Sam

ban

d

Fastställa samband mellan två variabler

Pearsons korrelation Spearmans korrelation

Kontingenskoefficient

Predicera att värde från en

annan uppmätt variabel

Enkel eller icke-linjär regression

Icke-parametrisk regression

Enkel logistisk regression

Predicera ett värde från

flera uppmätta variabler

Multipel linjär eller icke-linjär regression

- Multipel logistisk

regression

OBS! Detta är ett urval av de vanligaste testerna, det finns väldigt många fler.


Grundläggande statistiska begrepp och sannolikhetslära

Detta avsnitt tar upp några grundläggande begrepp inom matematisk statistik och är på intet

sätt en fullständig eller uttömmande genomgång och bara undantagsvis ges matematiska

definitioner. För varje begrepp som tas upp finns en enklare övning du kan göra för att

kontrollera att du har förstått andemeningen i det som tas upp. Detta avsnitt kan läsas vid

behov och som en inledande fördjupning till ämnet. Testerna som tas upp i föregående

avsnitt och teorin för dessa bygger förstås på dessa begrepp, men det går förstås bra att

göra testerna ändå – det finns ju tack och lov många kraftfulla dataprogram att välja på som

kan göra beräkningarna åt oss.

Slumpvariabler

Det mest klassiska exemplet på en slumpvariabel är utfallet vid tärningskast. Vi kan på goda

grunder anta att vart och ett av utfallen 1,2,3,4,5 och 6 har sannolikhet 1/6 att dyka upp vid

ett försök. Mängden av alla möjliga utfall vid ett försök, dvs {1,2,3,4,5,6}, kallas för utfallsrum.

Ett annat sätt att formulera tärningsförsöket (och därmed få ett annat utfallsrum) är att bara

intressera sig för när vi får en sexa. Vi kan då formulera vår slumpvariabel som:

X =

Vi får då en binomialfördelad* slumpvariabel som antar värde 1 med sannolikhet 1/6 och

värde 0 med sannolikhet 5/6.

Mer allmänt så är en slumpvariabel (eller en stokastisk variabel) en variabel som med viss

sannolikhet kan anta ett visst antal värden i utfallsrummet som består av reella tal. Dessa tal

kan vara representationer för händelser som inte med nödvändighet naturligt är kopplade till

tal. Vi kan prata om diskreta slumpvariabler (som i exemplet med tärningskasten ovan) eller

kontinuerliga slumpvariabler. Ett exempel på en kontinuerlig slumpvariabel kan vara längden

på en slumpvis utvald person.

Övning: Ge ett exempel på en slumpvariabel som är kopplat till biologi.

* Ordet ”binomial” är latin och betyder ”två namn” – detta syftar på att variabeln har två möjliga utfall.

1 om vi får en sexa 0 om vi INTE får en sexa


Sannolikheter Vi har nu, tack vare tärningen, en uppfattning om vad sannolikhet är, men vi ska göra några

formella beteckningar för att ringa in sannolikhetsbegreppet.

Låt A beteckna en händelse – exempelvis händelsen att slå en sexa.

Låt Ω beteckna hela utfallsrummet – exempelvis ges utfallsrummet vid tärningskast av alla

möjliga siffror på tärningen, dvs mängden {1,2,3,4,5,6}

Ofta betecknas sannolikheten att en viss händelse A ska inträffa som Pr(A) och denna skall

nu uppfylla följande villkor för att få kallas för en sannolikhet:

1) För alla händelser A som ligger i utfallsrummet Ω så gäller att 0 ≤ 𝑃𝑟(𝐴) ≤ 1

2) Pr(Ω) = 1

3) Om A och B är händelser som utesluter varandra (exempelvis händelsen att få en trea

och händelsen att få en fyra) så gäller att Pr(A eller B inträffar) = Pr(A) + Pr(B)

I allmänhet gäller att om alla utfall i Ω är lika sannolika så är:

Pr(A) = 𝑎𝑛𝑡𝑎𝑙 𝑔𝑦𝑛𝑛𝑠𝑎𝑚𝑚𝑎 𝑢𝑡𝑓𝑎𝑙𝑙

𝐴𝑛𝑡𝑎𝑙 𝑢𝑡𝑓𝑎𝑙𝑙 𝑖 𝛺

Med hjälp av sannolikheter kan vi till exempel göra en slumpmässig insamling av individer i

en population eller uttrycka oförklarlig variation som ett resultat av slumpen.

Vi återgår nu till försöket med två möjliga utfall (som i exemplet med tärningen där vi kan få

antingen en sexa eller allt utom en sexa). Låt p vara sannolikheten att det lyckade utfallet

inträffar. En diskret slumpvariabel X kallas binomialfördelad med parametrar n och p om

𝑃𝑟(𝑋 = 𝑥) = (𝑛𝑥

) 𝑝𝑥(1 − 𝑝)𝑛−𝑥

Att X är binomialfördelad med parametrar n och p brukar betecknas 𝑋 ~ 𝐵𝑖(𝑛, 𝑝).

Uttrycket (𝑛𝑥

) är en binomialkoefficient och den räknar på hur många olika sätt vi ur en

mängd av n stycken objekt kan välja x stycken objekt.

Övning: Skriv upp formeln för binomialkoefficienter och beräkna (104

) .

(Hint: det är tillåtet att slå upp i en bok eller söka på nätet om man har glömt bort formeln…)


Något om betingade sannolikheter

När vi i defintionen för sannolikhet betraktade händelserna A och B så var det underförstått

att dessa två händelser inte kan inträffa samtidigt utan de att det var disjunkta. Vi sa vidare

att det för sannolikheter måste gälla att

𝑃𝑟(𝐴 ∪ 𝐵) = Pr(𝐴) + Pr (𝐵)

måste gälla. Notera här att vi införde notationen 𝐴 ∪ 𝐵 för att beteckna ”någon av A och B

inträffar” Detta kallas för unionen av A och B. Mer allmänt (då vi inte vet om händelserna är

disjunkta) så gäller additionssatsen för sannolikheter:

𝑃𝑟(𝐴 ∪ 𝐵) = Pr(𝐴) + Pr(𝐵) − Pr (𝐴 ∩ 𝐵)

Där 𝐴 ∩ 𝐵 kallas för snittet av A och B. Låt oss illustrera detta i ett Venn-diagram:

𝐴 ∪ 𝐵 ges av båda cirklarna och 𝐴 ∩ 𝐵 ges av området som begränsas av att cirklarna skär

varandra. Ω är som vanligt hela utfallsrummet och ges således av allt innanför rektangeln.

Allt utanför cirklarna (men innanför rektangeln) kallas för komplementhändelsen till 𝐴 ∪ 𝐵.

Ett exempel: Yatzy

Vi kan tänka oss att två personer som spelar Yatzy. Den ena vill ha antingen en tvåa eller en

sexa för att få kåk och den andra vill ha en etta eller en sexa för att få stege. Vi betecknar nu

dessa händelser som 𝐴 = {2,6} och 𝐵 = {1,6} och vi ser att händelserna inte längre är

disjunkta utan både A och B inträffar om vi får en tvåa.

A B

A∩B

Ω


När vi nu har förstått vad union och snitt är så kan vi introducera begreppet betingad

sannolikhet. Sannolikheten att A inträffar givet att B redan inträffat ges av

𝑃𝑟(𝐴|𝐵) =𝑃𝑟(𝐴 ∩ 𝐵)

𝑃𝑟(𝐵)

I vårt Yatzy-exempel är det förstås inte meningsfullt att använda denna formel för att ta reda

på vad sannolikheten att A inträffar givet att B redan inträffat.

Övning: Varför är det inte meningsfullt och vad blir 𝑃𝑟(𝐴|𝐵) i Yatzy-exemplet?

Ett exempel: Sannolikheten att få brun päls

Några forskare inom genetik har kommit fram till att en viss population av råttor som lever i

Stockholms avloppssystem ärver en gen som gör att pälsen i vuxen ålder blir svart enligt

följande sannolikheter

𝐵 - Hona 𝐵𝑐- Hane

𝐴 - Har genen 1/6 1/12

𝐴𝑐- Har inte genen 1/3 5/12

Givet att vi har fångat in en råttunge av honkön, vad är sannolikheten att råttan växer upp

och får svart päls?

Lösning:

Enligt tabellen så är

𝑃𝑟(𝐴 ∩ 𝐵) =1

6

Sannolikheten att vara hona är (rimligt nog) 1

2 men vi kan också se det genom att lägga ihop

alla sannolikheter i första kolumnen 1

6+

1

3 (det kunde ju vara så att forskarna kommit fram till

att sannolikheten att en råttunge är en hona skiljer från sannolikheten för att vara hane). Hur

som helst så är:

𝑃𝑟(𝐵) =1

2


Den betingade sannolikheten är alltså:

𝑃𝑟(𝐴|𝐵) =𝑃𝑟(𝐴 ∩ 𝐵)

𝑃𝑟(𝐵)=

1/6

1/2=

1

3

och vi kan förvänta oss att en tredjedel av alla honor i den studerade råttpopulationen växer

upp och blir svarta.

Övning: Vad är sannolikheten för en råtta (hona eller hane) att bli svart?

(Hint: detta exempel med viss modifikation finns på sidorna 59-61 i boken ”Biometri” av

Olsson, Englund och Engstrand).

Oberoende händelser

Att två händelser är oberoende betyder ungefär vad det låter som. Oberoendet innebär att

huruvida den ena händelsen inträffade eller ej är irrelevant för utfallet i den andra händelsen.

Händelserna har inte med varandra att göra. En svår och filosofisk diskussion är om vi

överhuvudtaget kan anta oberoende i något avseende. Hänger inte allt ihop förr eller

senare? I många avseenden torde dock sambanden mellan händelser vara försumbara och

det går trots allt att anta oberoende.

Definition: Två händelser, A och B, säges vara oberoende om

𝑃𝑟(𝐴 ∩ 𝐵) = Pr(𝐴) ∙ Pr(𝐵)

Övning: I exemplet med råttorna är sannolikheten för en råtta att få svart päls oberoende av

kön? (Hint: detta är exempel 3.14 i boken ”Biometri” av Olsson, Englund och Engstrand).

Väntevärde

Om vi gör en serie av tärningskast så förväntar vi oss att vi ska få en jämn fördelning av

talen 1,2,3,4,5 och 6 eftersom alla utfallen är lika sannolika. Det förväntade värdet –

väntevärdet – på en sådan serie ges alltså av genomsnittet som är 3,5.

Definition: Väntevärdet, 𝐸[𝑋], ges av summan

𝐸[𝑋] = ∑ 𝑥 ∙ 𝑝(𝑥)

𝑥

där är X en stokastisk variabel med sannolikhetsfunktion p(x) och vi summerar över alla x i

utfallsrummet, Ω. Ofta betecknas 𝐸[𝑋] = 𝜇.


Övning: Kontrollera att definitionen ovan ger väntevärde 3,5 i exemplet med tärningskasten.

Då 𝑋 ~ 𝐵𝑖(𝑛, 𝑝) så gäller att

𝜇 = 𝐸[𝑋] = 𝑛 ∙ 𝑝.

Medelvärdets väntevärde

Medelvärdet av n slumpvariabler 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ges av

�̅� = 𝑋1+𝑋2+⋯+𝑋𝑛

𝑛 och om dessa alla har väntevärdet 𝜇 så är 𝐸[�̅�] = 𝜇

Väntevärdet av en summa

Om X och Y är två diskreta slumpvariabler så är:

E[X+Y] = E[X] + E[Y]

Väntevärdet av en linjärtransformation

Om a,b är två godtyckliga reella tal och X är en diskret slumpvariabel så är:

𝐸[𝑎𝑋 + 𝑏] = 𝑎𝐸[𝑋] + 𝑏

Övning: Härled medelvärdets väntevärde med hjälp av definitionen för väntevärde.

Varians

Vi såg i avsnittet om sannolikheter att vi kan uttrycka hur en slumpvariabler fördelar sig.

Väntevärdet kan vara detsamma även om fördelningarna ser väldigt olika ut i termer av hur

utspridda observationer vi gör.

Ett exempel: Lotteri

Betrakta två olika lotterier som båda två kostar 10 kr per lott. I det ena fallet kan vi med 50%

chans dubbla pengarna, med 50% chans förlora våra 10 kr . I det andra lotteriet får vi med

50% chans pengarna tillbaka (alltså gör vi en nollvinst) och med 25% chans förlorar vi

antingen 2 kr (alltså får tillbaka 8 kr) eller vinner 2 kr (alltså får tillbaka 12 kr). Båda dessa

lotterier har väntevärde 0, men det är stor skillnad i variationen på de olika vinsterna.


Exemplet ovan illustrerar varför variansen är ett intressant mått.

Definition: Variansen, 𝜎2, för en diskret slumpvariabel med väntevärde 𝜇 ges av:

𝜎2 = 𝑉𝑎𝑟(𝑋) = ∑(𝑥 − 𝜇)2𝑝(𝑥)

𝑥

Där summering ske över alla 𝑥 med positiv sannolikhet 𝑝(𝑥).

En formel för att beräkna variansen

För en slumpvariabel X är kan vi med hjälp av väntevärdet beräkna variansen enligt följande:

𝑉𝑎𝑟(𝑋) = 𝐸[𝑋2] − 𝐸[𝑋]2

Variansen av en summa

Om X och Y är två oberoende slumpvariabler så är:

Var(X+Y) = Var(X) + Var(Y)

Variansen av en linjärtransformation

Om a,b är två godtyckliga reella tal och X är en diskret slumpvariabel så är:

𝑉𝑎𝑟(𝑎𝑋 + 𝑏) = 𝑎2𝑉𝑎𝑟(𝑥)

Övning: Härled med hjälp av definitionen för variansen formeln 𝑉𝑎𝑟(𝑋) = 𝐸[𝑋2] − 𝐸[𝑋]2.

Normalfördelningen

Vi har hittills betraktat diskreta slumpvariabler (som i exemplet med tärningskast), men

väldigt ofta är det mer rimligt att tänka sig försöken och utfallen som något som hämtats från

hela den reella tallinjen (eller åtminstone en sammanhängande del av den). Exemelvis

kanske vi mäter vingbreddens utveckling på ungarna hos en viss fågelart, dessa mått bör ju

kunna anta vilka värden som helst inom ett rimligt intervall.

Oavsett om vi har diskreta eller kontinuerliga slumpvariabler så kan vi definiera en

fördelningsfunktion enligt följande:

𝐹(𝑥) = Pr (𝑋 ≤ 𝑥)


För en diskret slumpvariabel (som vi hittills pratat om) är fördelningsfunktionen en summa,

medan en kontinuerlig fördelningsfunktion ges av en integral. Normalfördelningen är en

kontinuerlig fördelning vars kurva påminner mycket om en klocka. Vad detta säger är att

observationer av en normalfördelad variabel oftast kommer att ligga nära medelvärdet för

den studerade populationen.

Bilden visar en normalfördelning (bildkälla: Wikipedia)

Normalfördelningen är mycket betydelsefull eftersom det finns en viktig sats inom statistik

som säger att (givet vissa förutsättningar) så är summan av ett stort antal oberoende

slumpvariabler är approximativt normalfördelad. Detta gäller oavsett vad variablerna hade

för fördelning från början. Det här resultatet är fundamentalt för statistikämnet och kallas för

centrala gränsvärdessatsen, CLT (central limit theorem). CLT ger en förklaring till varför just

normalfördelningen så väl kan beskriva företeelser i naturen.

Övning 1: Enligt centrala gränsvärdessatsen kommer summan av 100 myntkast att vara

normalfördelad eftersom varje kast är oberoende. Vilket väntevärde har summan?

Övning 2: Vilken fördelning har ”antal krona” i övning 1?


Referenser Asking questions in biology Chris Barnard, Francis Gilbert, Peter McGregor. Förlag: Benjamin Cummings/Pearson. ISBN: 978-0-273-73468-0 Biometrik – grundläggande biologisk statistik Ulf Olsson, Jan-Eric Englund och Ulla Engstrand. Förlag: Studentlitteratur ISBN: 978-91-44-045777-1 Dataanalys och hypotesprövning för statistikanvändare Ulf Grandin, Naturvårdsverket. https://www.havochvatten.se/download/18.64f5b3211343cffddb2800010137/Dataanalys_och_hypotesprovning_for_statistikanvandare_uppd.pdf Handbook of Biological Statistics John H McDonald, University of Delaware. Gratis onlinebook (på engelska) finns här: http://udel.edu/~mcdonald/statintro.html Pdf-version: http://udel.edu/~mcdonald/HandbookBioStat.pdf Handbook of Biological Statistics Gratis onlinebok, utvecklad av David M. Lane vid Rice University http://onlinestatbook.com Online introduction to R På www.datacamp.com finns kostnadsfria kurser som behandlar programvaran R och ger bra övningar i grundläggande statistik. Här finns också ett antal intressanta datamängder att laborera med. Kahn Academy På Kahn Academy, https://www.khanacademy.org, finns många bra och grundläggande ingångar till olika områden inom matematik. Navigera via menyn till Math -> Statistics & Probability så hittar du förklarande videos och tillhörande quiz om statistik och hypotesprövning. Kvantitativ biologi Lars-Åke Lindahl och Ulf Lindh. Förlag: Liber ISBN: 978-91-47-10058-3

https://www.havochvatten.se/download/18.64f5b3211343cffddb2800010137/Dataanalys_och_hypotesprovning_for_statistikanvandare_uppd.pdf

https://www.havochvatten.se/download/18.64f5b3211343cffddb2800010137/Dataanalys_och_hypotesprovning_for_statistikanvandare_uppd.pdf

http://udel.edu/~mcdonald/statintro.html

http://udel.edu/~mcdonald/HandbookBioStat.pdf

http://www.datacamp.com/

https://www.khanacademy.org/

april 2019 statistik för biologi- och kemilärare · 2019-04-01 · statistik för biologi- och...

Documents