april 2019 statistik för biologi- och kemilärare · 2019-04-01 · statistik för biologi- och...
TRANSCRIPT
Statistik för biologi- och kemilärare, 2019-04-01 1/21
April 2019
Statistik för biologi- och kemilärare
En lärarfortbildning i Vetenskapens Hus
Statistik för biologi- och kemilärare, 2019-04-01 2/21
Introduktion till matematisk statistik
I många avseenden kan vi betrakta matematiken som något tätt sammankopplat med
verklighetens beskaffenhet. Detta ”något” kan i ena stunden visa upp egenskaper som liknar
språket för att i nästa ögonblick snarare te sig som en konstform, inte alls olik musik. För
den som vill studera livet, verkligheten eller det system vi lever i utgör matematiken en rik
verktygslåda som kan modellera, abstrahera, förenkla, förklara, belysa och utgöra ett
betydande underlag vid beslutsfattande.
Vid studier av mycket komplexa fenomen – så som läran om livet självt – hoppas vi kunna
utnyttja matematiken för att analysera de biologiska processer vi iakttar. Ett av de för detta
ändamål mest användbara områdena i matematikens värld är statistik. Detta är en
sammanställning som ska uppmuntra dig som kursdeltagare att göra egna statistiska
undersökningar i klassrummet. Sist i texten hittar du en lista på referenser som använts för
att ta fram detta material, men det är också tips på vidare läsning, förslag på programvara
att använda samt länkar som du kan gå vidare med tillsammans med dina elever.
När vi arbetar med verkligheten så kan vi väldigt sällan veta att de resultat vi ser är absoluta
sanningar. Naturvetenskapliga studier och vetenskaplighet är ett helt kapitel för sig. Har vi
gjort en studie som vi sedan analyserat och fastställt eller förkastat en viss hypotes så är det
förvisso (med en viss signifikansnivå) ett resultat, men vi ska vara medvetna om att
osäkerhet ändå kan bestå. Kanske använde vi en alldeles för liten datamängd, kanske
förelåg någon väldigt speciell omständighet som vi inte kan identifiera vid försökstillfället och
kanske har vi till och med mätt eller gjort något fel? Nyckeln till att gradvis göra sig av med
sådan osäkerhet är upprepade försök. Går ditt resultat att upprepa?
Vi hoppas att du med nyfikenhet och entusiasm ska känna dig uppmuntrad till att börja
använda den kraftfulla och användbara verktygslåda som vi snart ska bekanta oss med…
Nature is written in the language of mathematics – Galileo Galilei
Statistik för biologi- och kemilärare, 2019-04-01 3/21
Vad säger ämnesplanen?
Ämnesplanen i biologi säger att biologiundervisningen ska ge eleverna förutsättning att
utveckla följande:
1. Kunskaper om biologins begrepp, modeller, teorier och arbetsmetoder samt
förståelse av hur dessa utvecklas.
2. Förmåga att analysera och söka svar på ämnesrelaterade frågor samt att identifiera,
formulera och lösa problem. Förmåga att reflektera över och värdera valda
strategier, metoder och resultat.
3. Förmåga att planera, genomföra, tolka och redovisa fältstudier, experiment och
observationer samt förmåga att hantera material och utrustning.
4. Kunskaper om biologins betydelse för individ och samhälle.
5. Förmåga att använda kunskaper i biologi för att kommunicera samt för att granska
och använda information.
Den här kursen behandlar framförallt den del av punkt 3 som handlar om att tolka och
redovisa resultaten från en fältstudie.
Vad säger yrkeskunniga?
Vi frågade Maria Grünewald, doktor och konsult inom biostatistik, Erland Ekheden, doktor
och konsult inom försäkringsstatistik, Sara Maad Sasane universitetslektor i matematik vid
LTH och Elin Ryner, analytiker på konjunkturinstitutet vad de tyckte var viktigast att tänka på
när man ska genomföra en analys av ett datamaterial.
Deras svar sammanställdes till denna lista:
• Titta på data först och gör först en deskriptiv statistik (histogram, sortera data,
begrunda vilken fördelning som antas gälla).
• Vilken typ av test går att använda för din datamängd? Vilka antaganden förutsätter
testet och vad testas (vilken är hypotesen)?
• Lär dig lite R, det är ett av de bästa statistikprogrammen och helt gratis!
• Många problem och felaktiga resultat beror på att man missat något grundläggande
inom sannolikhetslära. Exempelvis kan man ha missat att man hade att göra med
en betingad sannolikhet.
• Oberoende händelser – finns de i verkligheten?
• Det är viktigt att känna till problemen vid multipel testning (att testa mer än en
hypotes åt gången).
Statistik för biologi- och kemilärare, 2019-04-01 4/21
Anscombes kvartett
För att belysa vikten av den första punkten i statistikernas lista över de bästa tipsen inför en
analys – alltså att först titta på sin datamängd innan man gör några som helst analyser – så
konstruerade Francis Anscombe (1918-2001) fyra olika datamängder:
Notera att x-värdena är desamma för datamängderna 1-3 (blå, gul och grön). Det visar sig
även om vi beräknar medelvärden och standardavvikelser så sammanfaller dessa för
samtliga av datamängderna. Utfallet vid en linjär regression - ett vanligt förekommande test
där vi kollar om en datamängd uppfyller ett linjärtsamband - antyder dessutom att alla fyra
mängder uppfyller sambandet:
Y = 3,0001 + X/2
I själva verket finns det bara ett linjärt samband i fall 1 och 3. I fall 3 har vi dock en outlier
som måste undersökas vidare eller möjligtvis förkastas och i det senare fallet gör detta att
det linjära sambandet får en mindre brant lutning. Datamängd 2 tycks härstamma från ett
kvadratiskt samband mellan x och y (alltså en andragradsekvation) medan det inte finns
något samband alls mellan x och y i fall 4 – det linjära sambandet uppkommer från den
uppenbart avvikande observationen x=19.
Datamängd 1 Datamängd 2 Datamängd 3 Datamängd 4
x y x y x y x Y
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71 9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,1 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,1 4 5,39 19 12,5
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91 5 5,68 5 4,74 5 5,73 8 6,89
Statistik för biologi- och kemilärare, 2019-04-01 5/21
Om vi plottar dessa datamängder (t.ex. i Excel) upptäcker vi att endast i datamängderna 1
och 3 tycks det finnas ett linjärt samband. Vi ser också tydligt samt outliern i datamängd 3
som antagligen bör undersökas vidare eller strykas:
Slutsatsen här är att vi alltså alltid borde inleda varje statistisk undersökning med att
visualisera våra data med hjälp av en lämplig graf och kanske några inledande enklare
beräkningar för att avgöra vilken typ av datamängd vi har att göra med. Det är det här som
kallas för beskrivande (eller deskriptiv) statistik. Även om vi i designen av ett experiment tror
oss veta hur datamängden beter sig så är det rimligt att beskriva den innan vi kan
genomföra några analyser och testa vår forskningshypotes.
0
5
10
15
0 5 10 15
Datamängd 1
0
2
4
6
8
10
0 5 10 15
Datamängd 2
0
5
10
15
0 5 10 15
Datamängd 3
0
5
10
15
0 5 10 15 20
Datamängd 4
Statistik för biologi- och kemilärare, 2019-04-01 6/21
Varför statistik?
Med hjälp av statistik kan vi exempelvis:
• beskriva fenomen kvantitativt,
• undersöka samband mellan variabler och
• undersöka skillnader mellan eller inom grupper.
Vanligtvis tar vi ett stickprov ur en population för att göra observationer.
Hypotesprövning
• Formulera nollhypotes och alternativhypotes, vanligtvis säger nollhypotesen att
observationerna är ett resultat av slumpen.
• Identifiera en teststatistika som kan användas för att avgöra sanningshalten i
nollhypotesen (val av test).
• Beräkna P-värdet, dvs sannolikheten att teststatistikan är minst lika extrem som det
observerade givet att nollhypotesen är sann.
• Fatta ett beslut om att förkasta eller inte förkasta nollhypotesen genom att jämföra
P-värdet med ett acceptabelt värde, ett s.k 𝛼-värde, signifikansnivå.
Några viktiga begrepp för hypotesprövning
Nollhypotes, H0: En hypotes om att observerade data i ett försök är ett resultat av slump.
Nollhypotesen antas gälla till dess att data antyder annat och då förkastar vi den.
Alternativhypotes H1: Hypotesen vi önskar undersöka – dvs forskningsfrågan vi är ute efter.
T.ex. att ett vaccin har effekt eller att en växt har allelopatiska egenskaper.
Signifikans och p-värde: Signifikansnivån är ett kvantitativt mått på hur väl en testvariabel
överensstämmer med det värde som är det troligaste värdet om nollhypotesen inte kan
förkastas. Vi kräver är är att sannolikheten för att få observerade data eller mer extrema
värden är mindre än signifikansnivån för att kunna förkasta nollhypotesen.
P-värdet är sannolikheten att, givet att nollhypotesen är sann, ändå erhålla
en teststatistika minst så extrem som den faktiskt observerade. Så om p-värdet är lågt kan vi
förkasta nollhypotesen med viss säkerhet (signifikans).
Konfidensintervall: Ett skattat intervall som tas fram för en parameter utifrån ett stickprov. Vi
då med en viss säkerhet – en viss konfidens – uttala oss om denna populationsparameter.
Exempelvis är det vanligt att titta på ett skattat konfidensintervall för medelvärde och/eller
varians.
Statistik för biologi- och kemilärare, 2019-04-01 7/21
Hur väljer vi statistisk metod? Det är viktigt att förstå vilka data en mätning har genererat. Mätningar lagras i variabler.
Variablerna kan ses som egenskaper hos individer/objekt i en population som kan variera.
Exv trädets höjd, preparatets toxicitet, räkans färg, vätskans temperatur, antal värpta ägg
eller personens kön. Du behöver ha klart för dig om variabeln i ditt försök är kvalitativ
(dikotom?) eller kvantitativ (kontinuerlig/diskret)? Är den beroende eller oberoende? Finns
det flera variabler?
Vi kan dela in data i fyra olika skaltyper och beroende vilken typ så har olika matematisk
storheter betydelse eller inte.
• Nominalskala – klassificering av objekt, exv kön, färg eller krona/klave. På
nominalskakan kan variablerna vara dikotoma (typ JA/NEJ).
• Ordinalskala – rangordnade objekt, exv poäng eller betyg. På ordinalskalan finns
en naturlig ordning, men avstånden mellan mätvärden är inte ekvidistanta.
• Intervallskala – avstånd mellan värden har en innebörd, exv temperatur. På
intervallskalan råder ekvidistans mellan mätvärden, men det finns ingen naturlig
nollpunkt och därför kan vi endast tillämpa addition och subtraktion. Variablerna kan
vara kontinuerliga eller diskreta.
• Kvotskala – liknar intervallskalan, men vi kan bilda kvot, exv vikt och avstånd.
Kvotskalan har även den ekvidistan, men här finns en naturlig nollpunkt och det är
således vettigt att tala om kvoter. Är fungerar alla de fyra räknesätten.
Ett exempel på intervallskalan som visar varför det är irrelevant att prata om kvoter är
temperatur. Vad betyder ”dubbelt så varmt” i praktiken? Frågan är förstås nonsens.
Statistik för biologi- och kemilärare, 2019-04-01 8/21
På ordinalskalan är det i många fall ointressant att prata om medelvärde eftersom
rangordningen inte behöver säga något om distansens innebörd mellan mätvärden. Ändå är
det ganska vanligt att ta medelvärde av exempelvis betyg. Matematiskt brukar man generellt
dock avråda från att använda just medelvärdet för rangordnad data utan ekvidistans. Det är
oftast mer meningsfullt att titta på typvärde eller andelar av data som faller in under ett visst
värde – t.ex. genom ett stapeldiagram som visualiserar resultatet. Detta är vanligt
exempelvis vid kundundersökningar och nöjdhetsindex då ett medelvärde eventuellt skulle
kunna vara direkt missvisande. En sammanställning av ovan avsnitt:
Datanivå Klassindelning? Rangordning? Ekvidistans? Kvoter?
Nominalskala Ja Nej Nej Nej
Ordinalskala Ja Ja Nej Nej
Intervallskala Ja Ja Ja Nej
Kvotskala Ja Ja Ja Ja
Inledande undersökningar – deskriptiv statistik
För att få bättre förståelse för en datamängd är det bra att först göra en eller flera av följande
inledande undersökningar.
- Frekvensanalys (hur vanliga är vissa värden?)
- Centralmått (var ligger datans tyngdpunkt?)
- Spridningsmått (hur stor är variationen?)
- Visualisera med diagram som är lämpliga för typen av data
Skaltyp Centralmått Spridningsmått
Nominal Typvärde (T) Variationsvidd (r)
Ordinal Median (Md) Kvartilavvikelse (Q)
Intervall- och kvot Medelvärde (M) Standardavvikelse (s)
Statistik för biologi- och kemilärare, 2019-04-01 9/21
Några diagramtyper som är användbara för att beskriva datamängder Stapeldiagram
I stapeldiagrammet representerar vi observerade värden som staplar. I ett exempel som tas
upp på Statistiska Centralbyrån tittar vi på antal förvärvsarbetande för åldrarna 16–74 år,
uppdelat efter kön, i Uppsala, Södermanlands och Dalarnas län, år 2008. Är vi intresserade
av hur sysselsättningen ser ut i de olika länen så är det lämpligt att göra ett stapeldiagram.
Källa: SCB och RAMS.
https://www.scb.se/sv_/Hitta-statistik/Artiklar/Ratt-diagram-lyfter-ditt-budskap/
Histogram
Histogrammet visar att det finns ett spann inom vilka de observerade värdena fördelar sig. I
exemplet ser vi samma data som ovan, men den här gången vill vi titta på hur
sysselsättningen ser ut i olika åldrar. Ålder och längd är exempel på kontinuerliga variabler
som generellt sett lämpar sig väl att presentera i ett histogram.
Statistik för biologi- och kemilärare, 2019-04-01 10/21
Linjediagram
Den här gången är vi intresserad av trender över tid för sysselsättningen i Uppsala,
Södermanlands och Dalarnas län, månadsvis, år 2006–2009 och vi väljer ut åldrarna 15−64
år, uppdelat efter kön och representerar detta i ett linjediagram:
Källa: Arbetskraftsundersökningarna (AKU)
Låddiagram
Låddiagrammet (Box-and-Whisker plot) påminner i sin utformning om histogrammet. Även
här ser vi hur stor vår datamängds spridning har. Lådan visar all data som ligger inom första
och tredje kvartilen, linjerna (morrhåren – whiskers) visar resterande värdens spridning, ej
inräknat outliers. Outliers illustreras som prickar utanför linjerna. Vi återkopplar till
Anscombes kvartett och ser tydligt att vi kan räkna bort värdet y = 13 och x = 12, 74. Vi kan
därmed hitta det linjära samband som bättre beskriver våra data.
Statistik för biologi- och kemilärare, 2019-04-01 11/21
Hypotesprövning – förslag på försök som tar 30-60 minuter
När vi har avgjort vilka typer av variabler vi har, vilken typ av datamängd en observation
genererar är det dags att designa ett försök! Vi har ett antal förslag på datainsamlingar som
är genomförbara under en lektion. Inom parentes står vilka tester som är lämpliga att
genomföra på observerade data.
• Beror husmossans skottlängd på jorddjup? Mät mossan i mm med linjal och jorddjup
i mm med stålsticka/grillpinne och linjal. (regression)
• Är lavarna större på äldre träd? Mät lavdiameter i mm med linjal och trädets omkrets
i cm med måttband. (regression)
• Är lavarna mindre nära vägar? Lavar är känsliga mot luftföroreningar, men bilarnas
avgaser är renare idag än för 30 år sedan. Mät lavdiameter i mm med linjal och
avstånd till väg i meter. (regression)
• Påverkar lönn-näsans längd dess spridningsförmåga? Mät lönn-näsor i mm med
linjal. Släpp näsorna i t ex ett högt trapphus och ta tid med ett tidtagarur hur lång tid
det tar innan de når marken. Funkar även med en del andra frön. (regression)
• Finns det någon reproduktiv kostnad hos björk? Dvs kostar hängena så mycket att
skotten blir kortare? Kolla 25 skott med hängen och 25 skott utan hängen och mät
senaste skottet i mm med linjal. (t-test)
• Påverkas trädens form av var de växer? Välj 25 lönnar som står i skogsbryn. Mät ett
årsskott på ljusa sidan och ett på mörka sidan i mm med linjal. (t-test eller
egentligen parat t-test)
• Påverkar kön om folk köper ekologisk mjölk? Fråga 25 män och 25 kvinnor ifall de
köper vanlig eller ekologisk mjölk. (2 x 2-test)
• Vilken växt är bäst på att locka till sig myror som försvar mot växtätande insekter?
Häckvicker har nektarkörtlar på stiplerna i bladvecken. Vitplister har frön som är
attraktiva för myror. Kolla 25 häckvickrar och 25 vitplistrar och kolla om det sitter
någon myra på växten. (2 x 2-test)
• Påverkar åldern om folk köper ekologisk mjölk? Fråga 50 personer om deras ålder
och ifall de köper vanlig eller ekologisk mjölk. (logistisk regression)
• Påverkar maskrosens stjälklängd risken för flugangrepp? Mät överblommade
maskrosors stjälklängd i mm med linjal (när de har frön alltså!). Kolla om det finns
en svart fläck/grop på fröfästet där en eventuell fluglarv har ätit av fröna. (logistisk
regression)
Statistik för biologi- och kemilärare, 2019-04-01 12/21
Vilka tester är lämpliga att använda i vilka situationer?
När vi har identifierat vilken typ av data vår undersökning innehåller så hjälper oss
nedanstående tabell är hämtad ur Ulf Grandins text ”Dataanalys och hypotesprövning för
statistikanvändare” och hjälper dig välja statistiskt test i olika fall av data.
Önskad analys
Typ av data
Normalfördelade mätdata
Rang, poäng, icke
normalfördelade mätdata
Binomialfördelade mätdata (endast två
möjliga utfall)
Skilln
ad
er
Beskrivning av en grupp
Medelvärde, standardavviklese
Median, kvantiler, omfång
Proportion
Jämföra en grupp med
ett hypotetiskt
värde
T-test för ett stickprov Wilcoxons test Chi-två eller binomialtest
Jämföra två oberoende
grupper Oparat t-test
Mann-Whitneys test
Fishers test
Jämföra två beroende grupper
Parat t-test Wilcoxons test McNemars test
Jämföra tre eller fler
oberoende grupper
Envägs ANOVA Kruskal-Wallis
test Chi-två-test
Jämföra tre eller fler
beroende grupper
ANOVA för upprepade mätningar
Friedmans test Cochranes Q-test
Sam
ban
d
Fastställa samband mellan två variabler
Pearsons korrelation Spearmans korrelation
Kontingenskoefficient
Predicera att värde från en
annan uppmätt variabel
Enkel eller icke-linjär regression
Icke-parametrisk regression
Enkel logistisk regression
Predicera ett värde från
flera uppmätta variabler
Multipel linjär eller icke-linjär regression
- Multipel logistisk
regression
OBS! Detta är ett urval av de vanligaste testerna, det finns väldigt många fler.
Statistik för biologi- och kemilärare, 2019-04-01 13/21
Grundläggande statistiska begrepp och sannolikhetslära
Detta avsnitt tar upp några grundläggande begrepp inom matematisk statistik och är på intet
sätt en fullständig eller uttömmande genomgång och bara undantagsvis ges matematiska
definitioner. För varje begrepp som tas upp finns en enklare övning du kan göra för att
kontrollera att du har förstått andemeningen i det som tas upp. Detta avsnitt kan läsas vid
behov och som en inledande fördjupning till ämnet. Testerna som tas upp i föregående
avsnitt och teorin för dessa bygger förstås på dessa begrepp, men det går förstås bra att
göra testerna ändå – det finns ju tack och lov många kraftfulla dataprogram att välja på som
kan göra beräkningarna åt oss.
Slumpvariabler
Det mest klassiska exemplet på en slumpvariabel är utfallet vid tärningskast. Vi kan på goda
grunder anta att vart och ett av utfallen 1,2,3,4,5 och 6 har sannolikhet 1/6 att dyka upp vid
ett försök. Mängden av alla möjliga utfall vid ett försök, dvs {1,2,3,4,5,6}, kallas för utfallsrum.
Ett annat sätt att formulera tärningsförsöket (och därmed få ett annat utfallsrum) är att bara
intressera sig för när vi får en sexa. Vi kan då formulera vår slumpvariabel som:
X =
Vi får då en binomialfördelad* slumpvariabel som antar värde 1 med sannolikhet 1/6 och
värde 0 med sannolikhet 5/6.
Mer allmänt så är en slumpvariabel (eller en stokastisk variabel) en variabel som med viss
sannolikhet kan anta ett visst antal värden i utfallsrummet som består av reella tal. Dessa tal
kan vara representationer för händelser som inte med nödvändighet naturligt är kopplade till
tal. Vi kan prata om diskreta slumpvariabler (som i exemplet med tärningskasten ovan) eller
kontinuerliga slumpvariabler. Ett exempel på en kontinuerlig slumpvariabel kan vara längden
på en slumpvis utvald person.
Övning: Ge ett exempel på en slumpvariabel som är kopplat till biologi.
* Ordet ”binomial” är latin och betyder ”två namn” – detta syftar på att variabeln har två möjliga utfall.
1 om vi får en sexa 0 om vi INTE får en sexa
Statistik för biologi- och kemilärare, 2019-04-01 14/21
Sannolikheter Vi har nu, tack vare tärningen, en uppfattning om vad sannolikhet är, men vi ska göra några
formella beteckningar för att ringa in sannolikhetsbegreppet.
Låt A beteckna en händelse – exempelvis händelsen att slå en sexa.
Låt Ω beteckna hela utfallsrummet – exempelvis ges utfallsrummet vid tärningskast av alla
möjliga siffror på tärningen, dvs mängden {1,2,3,4,5,6}
Ofta betecknas sannolikheten att en viss händelse A ska inträffa som Pr(A) och denna skall
nu uppfylla följande villkor för att få kallas för en sannolikhet:
1) För alla händelser A som ligger i utfallsrummet Ω så gäller att 0 ≤ 𝑃𝑟(𝐴) ≤ 1
2) Pr(Ω) = 1
3) Om A och B är händelser som utesluter varandra (exempelvis händelsen att få en trea
och händelsen att få en fyra) så gäller att Pr(A eller B inträffar) = Pr(A) + Pr(B)
I allmänhet gäller att om alla utfall i Ω är lika sannolika så är:
Pr(A) = 𝑎𝑛𝑡𝑎𝑙 𝑔𝑦𝑛𝑛𝑠𝑎𝑚𝑚𝑎 𝑢𝑡𝑓𝑎𝑙𝑙
𝐴𝑛𝑡𝑎𝑙 𝑢𝑡𝑓𝑎𝑙𝑙 𝑖 𝛺
Med hjälp av sannolikheter kan vi till exempel göra en slumpmässig insamling av individer i
en population eller uttrycka oförklarlig variation som ett resultat av slumpen.
Vi återgår nu till försöket med två möjliga utfall (som i exemplet med tärningen där vi kan få
antingen en sexa eller allt utom en sexa). Låt p vara sannolikheten att det lyckade utfallet
inträffar. En diskret slumpvariabel X kallas binomialfördelad med parametrar n och p om
𝑃𝑟(𝑋 = 𝑥) = (𝑛𝑥
) 𝑝𝑥(1 − 𝑝)𝑛−𝑥
Att X är binomialfördelad med parametrar n och p brukar betecknas 𝑋 ~ 𝐵𝑖(𝑛, 𝑝).
Uttrycket (𝑛𝑥
) är en binomialkoefficient och den räknar på hur många olika sätt vi ur en
mängd av n stycken objekt kan välja x stycken objekt.
Övning: Skriv upp formeln för binomialkoefficienter och beräkna (104
) .
(Hint: det är tillåtet att slå upp i en bok eller söka på nätet om man har glömt bort formeln…)
Statistik för biologi- och kemilärare, 2019-04-01 15/21
Något om betingade sannolikheter
När vi i defintionen för sannolikhet betraktade händelserna A och B så var det underförstått
att dessa två händelser inte kan inträffa samtidigt utan de att det var disjunkta. Vi sa vidare
att det för sannolikheter måste gälla att
𝑃𝑟(𝐴 ∪ 𝐵) = Pr(𝐴) + Pr (𝐵)
måste gälla. Notera här att vi införde notationen 𝐴 ∪ 𝐵 för att beteckna ”någon av A och B
inträffar” Detta kallas för unionen av A och B. Mer allmänt (då vi inte vet om händelserna är
disjunkta) så gäller additionssatsen för sannolikheter:
𝑃𝑟(𝐴 ∪ 𝐵) = Pr(𝐴) + Pr(𝐵) − Pr (𝐴 ∩ 𝐵)
Där 𝐴 ∩ 𝐵 kallas för snittet av A och B. Låt oss illustrera detta i ett Venn-diagram:
𝐴 ∪ 𝐵 ges av båda cirklarna och 𝐴 ∩ 𝐵 ges av området som begränsas av att cirklarna skär
varandra. Ω är som vanligt hela utfallsrummet och ges således av allt innanför rektangeln.
Allt utanför cirklarna (men innanför rektangeln) kallas för komplementhändelsen till 𝐴 ∪ 𝐵.
Ett exempel: Yatzy
Vi kan tänka oss att två personer som spelar Yatzy. Den ena vill ha antingen en tvåa eller en
sexa för att få kåk och den andra vill ha en etta eller en sexa för att få stege. Vi betecknar nu
dessa händelser som 𝐴 = {2,6} och 𝐵 = {1,6} och vi ser att händelserna inte längre är
disjunkta utan både A och B inträffar om vi får en tvåa.
A B
A∩B
Ω
Statistik för biologi- och kemilärare, 2019-04-01 16/21
När vi nu har förstått vad union och snitt är så kan vi introducera begreppet betingad
sannolikhet. Sannolikheten att A inträffar givet att B redan inträffat ges av
𝑃𝑟(𝐴|𝐵) =𝑃𝑟(𝐴 ∩ 𝐵)
𝑃𝑟(𝐵)
I vårt Yatzy-exempel är det förstås inte meningsfullt att använda denna formel för att ta reda
på vad sannolikheten att A inträffar givet att B redan inträffat.
Övning: Varför är det inte meningsfullt och vad blir 𝑃𝑟(𝐴|𝐵) i Yatzy-exemplet?
Ett exempel: Sannolikheten att få brun päls
Några forskare inom genetik har kommit fram till att en viss population av råttor som lever i
Stockholms avloppssystem ärver en gen som gör att pälsen i vuxen ålder blir svart enligt
följande sannolikheter
𝐵 - Hona 𝐵𝑐- Hane
𝐴 - Har genen 1/6 1/12
𝐴𝑐- Har inte genen 1/3 5/12
Givet att vi har fångat in en råttunge av honkön, vad är sannolikheten att råttan växer upp
och får svart päls?
Lösning:
Enligt tabellen så är
𝑃𝑟(𝐴 ∩ 𝐵) =1
6
Sannolikheten att vara hona är (rimligt nog) 1
2 men vi kan också se det genom att lägga ihop
alla sannolikheter i första kolumnen 1
6+
1
3 (det kunde ju vara så att forskarna kommit fram till
att sannolikheten att en råttunge är en hona skiljer från sannolikheten för att vara hane). Hur
som helst så är:
𝑃𝑟(𝐵) =1
2
Statistik för biologi- och kemilärare, 2019-04-01 17/21
Den betingade sannolikheten är alltså:
𝑃𝑟(𝐴|𝐵) =𝑃𝑟(𝐴 ∩ 𝐵)
𝑃𝑟(𝐵)=
1/6
1/2=
1
3
och vi kan förvänta oss att en tredjedel av alla honor i den studerade råttpopulationen växer
upp och blir svarta.
Övning: Vad är sannolikheten för en råtta (hona eller hane) att bli svart?
(Hint: detta exempel med viss modifikation finns på sidorna 59-61 i boken ”Biometri” av
Olsson, Englund och Engstrand).
Oberoende händelser
Att två händelser är oberoende betyder ungefär vad det låter som. Oberoendet innebär att
huruvida den ena händelsen inträffade eller ej är irrelevant för utfallet i den andra händelsen.
Händelserna har inte med varandra att göra. En svår och filosofisk diskussion är om vi
överhuvudtaget kan anta oberoende i något avseende. Hänger inte allt ihop förr eller
senare? I många avseenden torde dock sambanden mellan händelser vara försumbara och
det går trots allt att anta oberoende.
Definition: Två händelser, A och B, säges vara oberoende om
𝑃𝑟(𝐴 ∩ 𝐵) = Pr(𝐴) ∙ Pr(𝐵)
Övning: I exemplet med råttorna är sannolikheten för en råtta att få svart päls oberoende av
kön? (Hint: detta är exempel 3.14 i boken ”Biometri” av Olsson, Englund och Engstrand).
Väntevärde
Om vi gör en serie av tärningskast så förväntar vi oss att vi ska få en jämn fördelning av
talen 1,2,3,4,5 och 6 eftersom alla utfallen är lika sannolika. Det förväntade värdet –
väntevärdet – på en sådan serie ges alltså av genomsnittet som är 3,5.
Definition: Väntevärdet, 𝐸[𝑋], ges av summan
𝐸[𝑋] = ∑ 𝑥 ∙ 𝑝(𝑥)
𝑥
där är X en stokastisk variabel med sannolikhetsfunktion p(x) och vi summerar över alla x i
utfallsrummet, Ω. Ofta betecknas 𝐸[𝑋] = 𝜇.
Statistik för biologi- och kemilärare, 2019-04-01 18/21
Övning: Kontrollera att definitionen ovan ger väntevärde 3,5 i exemplet med tärningskasten.
Då 𝑋 ~ 𝐵𝑖(𝑛, 𝑝) så gäller att
𝜇 = 𝐸[𝑋] = 𝑛 ∙ 𝑝.
Medelvärdets väntevärde
Medelvärdet av n slumpvariabler 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ges av
�̅� = 𝑋1+𝑋2+⋯+𝑋𝑛
𝑛 och om dessa alla har väntevärdet 𝜇 så är 𝐸[�̅�] = 𝜇
Väntevärdet av en summa
Om X och Y är två diskreta slumpvariabler så är:
E[X+Y] = E[X] + E[Y]
Väntevärdet av en linjärtransformation
Om a,b är två godtyckliga reella tal och X är en diskret slumpvariabel så är:
𝐸[𝑎𝑋 + 𝑏] = 𝑎𝐸[𝑋] + 𝑏
Övning: Härled medelvärdets väntevärde med hjälp av definitionen för väntevärde.
Varians
Vi såg i avsnittet om sannolikheter att vi kan uttrycka hur en slumpvariabler fördelar sig.
Väntevärdet kan vara detsamma även om fördelningarna ser väldigt olika ut i termer av hur
utspridda observationer vi gör.
Ett exempel: Lotteri
Betrakta två olika lotterier som båda två kostar 10 kr per lott. I det ena fallet kan vi med 50%
chans dubbla pengarna, med 50% chans förlora våra 10 kr . I det andra lotteriet får vi med
50% chans pengarna tillbaka (alltså gör vi en nollvinst) och med 25% chans förlorar vi
antingen 2 kr (alltså får tillbaka 8 kr) eller vinner 2 kr (alltså får tillbaka 12 kr). Båda dessa
lotterier har väntevärde 0, men det är stor skillnad i variationen på de olika vinsterna.
Statistik för biologi- och kemilärare, 2019-04-01 19/21
Exemplet ovan illustrerar varför variansen är ett intressant mått.
Definition: Variansen, 𝜎2, för en diskret slumpvariabel med väntevärde 𝜇 ges av:
𝜎2 = 𝑉𝑎𝑟(𝑋) = ∑(𝑥 − 𝜇)2𝑝(𝑥)
𝑥
Där summering ske över alla 𝑥 med positiv sannolikhet 𝑝(𝑥).
En formel för att beräkna variansen
För en slumpvariabel X är kan vi med hjälp av väntevärdet beräkna variansen enligt följande:
𝑉𝑎𝑟(𝑋) = 𝐸[𝑋2] − 𝐸[𝑋]2
Variansen av en summa
Om X och Y är två oberoende slumpvariabler så är:
Var(X+Y) = Var(X) + Var(Y)
Variansen av en linjärtransformation
Om a,b är två godtyckliga reella tal och X är en diskret slumpvariabel så är:
𝑉𝑎𝑟(𝑎𝑋 + 𝑏) = 𝑎2𝑉𝑎𝑟(𝑥)
Övning: Härled med hjälp av definitionen för variansen formeln 𝑉𝑎𝑟(𝑋) = 𝐸[𝑋2] − 𝐸[𝑋]2.
Normalfördelningen
Vi har hittills betraktat diskreta slumpvariabler (som i exemplet med tärningskast), men
väldigt ofta är det mer rimligt att tänka sig försöken och utfallen som något som hämtats från
hela den reella tallinjen (eller åtminstone en sammanhängande del av den). Exemelvis
kanske vi mäter vingbreddens utveckling på ungarna hos en viss fågelart, dessa mått bör ju
kunna anta vilka värden som helst inom ett rimligt intervall.
Oavsett om vi har diskreta eller kontinuerliga slumpvariabler så kan vi definiera en
fördelningsfunktion enligt följande:
𝐹(𝑥) = Pr (𝑋 ≤ 𝑥)
Statistik för biologi- och kemilärare, 2019-04-01 20/21
För en diskret slumpvariabel (som vi hittills pratat om) är fördelningsfunktionen en summa,
medan en kontinuerlig fördelningsfunktion ges av en integral. Normalfördelningen är en
kontinuerlig fördelning vars kurva påminner mycket om en klocka. Vad detta säger är att
observationer av en normalfördelad variabel oftast kommer att ligga nära medelvärdet för
den studerade populationen.
Bilden visar en normalfördelning (bildkälla: Wikipedia)
Normalfördelningen är mycket betydelsefull eftersom det finns en viktig sats inom statistik
som säger att (givet vissa förutsättningar) så är summan av ett stort antal oberoende
slumpvariabler är approximativt normalfördelad. Detta gäller oavsett vad variablerna hade
för fördelning från början. Det här resultatet är fundamentalt för statistikämnet och kallas för
centrala gränsvärdessatsen, CLT (central limit theorem). CLT ger en förklaring till varför just
normalfördelningen så väl kan beskriva företeelser i naturen.
Övning 1: Enligt centrala gränsvärdessatsen kommer summan av 100 myntkast att vara
normalfördelad eftersom varje kast är oberoende. Vilket väntevärde har summan?
Övning 2: Vilken fördelning har ”antal krona” i övning 1?
Statistik för biologi- och kemilärare, 2019-04-01 21/21
Referenser Asking questions in biology Chris Barnard, Francis Gilbert, Peter McGregor. Förlag: Benjamin Cummings/Pearson. ISBN: 978-0-273-73468-0 Biometrik – grundläggande biologisk statistik Ulf Olsson, Jan-Eric Englund och Ulla Engstrand. Förlag: Studentlitteratur ISBN: 978-91-44-045777-1 Dataanalys och hypotesprövning för statistikanvändare Ulf Grandin, Naturvårdsverket. https://www.havochvatten.se/download/18.64f5b3211343cffddb2800010137/Dataanalys_och_hypotesprovning_for_statistikanvandare_uppd.pdf Handbook of Biological Statistics John H McDonald, University of Delaware. Gratis onlinebook (på engelska) finns här: http://udel.edu/~mcdonald/statintro.html Pdf-version: http://udel.edu/~mcdonald/HandbookBioStat.pdf Handbook of Biological Statistics Gratis onlinebok, utvecklad av David M. Lane vid Rice University http://onlinestatbook.com Online introduction to R På www.datacamp.com finns kostnadsfria kurser som behandlar programvaran R och ger bra övningar i grundläggande statistik. Här finns också ett antal intressanta datamängder att laborera med. Kahn Academy På Kahn Academy, https://www.khanacademy.org, finns många bra och grundläggande ingångar till olika områden inom matematik. Navigera via menyn till Math -> Statistics & Probability så hittar du förklarande videos och tillhörande quiz om statistik och hypotesprövning. Kvantitativ biologi Lars-Åke Lindahl och Ulf Lindh. Förlag: Liber ISBN: 978-91-47-10058-3