· aalborg universitet institut for matematiske fag c titel: flow medieret vasodilation - en...

110
Flow medieret vasodilation - en statistisk analyse MAT3, Efterår 2006. Anette Luther Christensen Lars Hornbæk Jensen Michael Kjeldahl Møller Anita Abildgaard Sillasen Aalborg Universitet Institut for Matematiske Fag

Upload: others

Post on 03-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Flow medieretvasodilation- en statistisk analyse

MAT3, Efterår 2006.

Anette Luther ChristensenLars Hornbæk JensenMichael Kjeldahl MøllerAnita Abildgaard Sillasen

eAalborg UniversitetInstitut for Matematiske Fag

Page 2:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 3:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Aalborg UniversitetInstitut for Matematiske Fag cTITEL:

Flow medieret vasodilation- en statistisk analyse

TEMA:Statistisk modellering oganalyse

PROJEKT PERIODE:1/9/2006− 22/12/2006

PROJEKT GRUPPE:G4− 105

GRUPPE MEDLEMMER:Anette Luther ChristensenLars Hornbæk JensenMichael Kjeldahl MøllerAnita Abildgaard Sillasen

VEJLEDER:Rasmus Waagepetersen

ANTAL KOPIER: 7

ANTAL SIDER: 110

AFSLUTTET: 22/12− 2006

SYNOPSIS:

Rapporten er en statistisk analyse af FMDsom er rettet mod at bestemme obser-vatørers målepræcision. Efter en introduk-tion til projektet beskrives, i andet kapi-tel, den bayesianske tankegang, samt dengrundlæggende teori. Denne anvendes pånormalfordelingen i det tredje kapitel. Ifjerde kapitel indføres teorien om Markovkæder, som indirekte anvendes sidst i sjettekapitel ved konstruktionen af en model,der estimerer varianskomponenter. Femtekapitel er en præsentation af datasættet,samt den bagved liggende forsøgsopstilling,der ligger forud for, at der i sjette kapitelbehandles målepræcision for observatør-erne ved hjælp af generel lineær modelog hypotese test. Syvende kapitel inde-holder en undersøgelse af forklarende vari-ables indflydelse på FMD, hvor der anven-des trinvis regression. Rapporten afsluttesmed overvejelser angående forbedringer iforsøgsopstillingen.

Rapportens indhold er frit tilgængeligt, men offentliggørelse (med kildeangivelse) må kunske efter aftale med forfatterne.

Page 4:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 5:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Forord

Denne rapport er resultatet af gruppens projektarbejde under MAT3-forløbetved Aalborg Universitet. Projektet er skrevet ved Institut for MatematiskeFag og tager udgangspunkt i temaet Statistisk modellering og analyse.Gruppens medlemmer har modtaget undervisning i forbindelse med projekt-arbejdet i det projektorienterede kursus Statistisk inferens.Rapporten er rettet til alle, der har interesse for statistisk inferens. Doggår vi ud fra, at læserne har et matematisk niveau svarende til at havegennemført Det Teknisk-Naturvidenskabelige Basisår, samt MAT1 og MAT2ved Aalborg Universitet. Vi takker Kardiovaskulært forskningscenter vedAalborg Sygehus for udlån af datasættet. Derudover takkes Claus Dethlefsenfor afholdelse af seminar i Forskningens hus, omhandlende problemstillingervedrørende hjertekarsygdomme og måling af FMD.

Anette Luther Christensen Lars Hornbæk Jensen

Michael Kjeldahl Møller Anita Abildgaard Sillasen

iii

Page 6:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 7:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Indhold

Forord iii

1 Indledning 1

2 Bayesiansk statistik 32.1 Bayesiansk tankegang . . . . . . . . . . . . . . . . . . . . . . 32.2 Prior, observationsmodel og posterior. . . . . . . . . . . . . . 32.3 Valg af prior . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3.1 Konjugerede priors . . . . . . . . . . . . . . . . . . . . 52.3.2 Uegentlige priors . . . . . . . . . . . . . . . . . . . . . 6

2.4 Sufficiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.5 Prædiktiv fordeling . . . . . . . . . . . . . . . . . . . . . . . . 92.6 Maksimum likelihood . . . . . . . . . . . . . . . . . . . . . . . 92.7 Fishers information . . . . . . . . . . . . . . . . . . . . . . . . 102.8 Approksimation af posterior fordelingen . . . . . . . . . . . . 122.9 Jeffreys prior . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.9.1 Flere ukendte parametre . . . . . . . . . . . . . . . . . 152.10 Centralt Posterior Interval . . . . . . . . . . . . . . . . . . . . 16

3 Normalfordelte observationer 193.1 Ukendt middelværdi . . . . . . . . . . . . . . . . . . . . . . . 193.2 Ukendt varians . . . . . . . . . . . . . . . . . . . . . . . . . . 223.3 Ukendt middelværdi og varians . . . . . . . . . . . . . . . . . 23

4 Markov kæde Monte Carlo 274.1 Markov kæder . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.2 Metropolis-Hastings algoritme . . . . . . . . . . . . . . . . . . 31

4.2.1 Metropolis algoritmen . . . . . . . . . . . . . . . . . . 344.2.2 Gibbs sampling . . . . . . . . . . . . . . . . . . . . . . 36

5 Forsøgsopstillingen og datasættet 415.1 Forsøgsbeskrivelse . . . . . . . . . . . . . . . . . . . . . . . . 415.2 Beskrivelse af datasættet . . . . . . . . . . . . . . . . . . . . . 43

v

Page 8:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

vi Indhold

6 Behandling af målepræcision 456.1 Den generelle lineære model . . . . . . . . . . . . . . . . . . . 45

6.1.1 Approksimation ved MLE . . . . . . . . . . . . . . . . 456.1.2 Udledning af posterior . . . . . . . . . . . . . . . . . . 466.1.3 Anvendelse af den generelle lineære model . . . . . . . 48

6.2 Hypotese test . . . . . . . . . . . . . . . . . . . . . . . . . . . 496.2.1 Punkt nul-hypotese . . . . . . . . . . . . . . . . . . . . 506.2.2 Sammenligning af de to observatører . . . . . . . . . . 51

6.3 Model for estimation af varianser . . . . . . . . . . . . . . . . 546.3.1 Konstruktion af model . . . . . . . . . . . . . . . . . . 546.3.2 Klassificering af model . . . . . . . . . . . . . . . . . . 566.3.3 Implementering i WinBUGS . . . . . . . . . . . . . . . 576.3.4 Initial værdier og data . . . . . . . . . . . . . . . . . . 606.3.5 Burn-in . . . . . . . . . . . . . . . . . . . . . . . . . . 606.3.6 Analyse af simulationer . . . . . . . . . . . . . . . . . 616.3.7 Prior-sensitivitet . . . . . . . . . . . . . . . . . . . . . 646.3.8 Alternativ prior fordeling: Flad gamma fordeling . . . 65

7 Behandling af indflydelsesrige forklarende variable 697.1 Udvælgelse af forklarende variable . . . . . . . . . . . . . . . 69

7.1.1 Trinvis regression . . . . . . . . . . . . . . . . . . . . . 707.1.2 Gruppering af forklarende variable . . . . . . . . . . . 707.1.3 Anvendelse af trinvis regression . . . . . . . . . . . . . 71

8 Forsøgsdesign 818.1 Målepræcison . . . . . . . . . . . . . . . . . . . . . . . . . . . 818.2 Indflydelsesrige forklarende variable . . . . . . . . . . . . . . . 82

A Variable i datasættet 85

B Fordelinger 89B.1 Binomialfordeling . . . . . . . . . . . . . . . . . . . . . . . . . 89B.2 Betafordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 89B.3 Uniform fordeling . . . . . . . . . . . . . . . . . . . . . . . . . 89B.4 Normalfordeling . . . . . . . . . . . . . . . . . . . . . . . . . . 90B.5 Skaleret χ2 fordeling . . . . . . . . . . . . . . . . . . . . . . . 90B.6 Skaleret invers χ2 fordeling . . . . . . . . . . . . . . . . . . . 90B.7 t-fordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91B.8 Gamma fordeling . . . . . . . . . . . . . . . . . . . . . . . . . 91B.9 Flerdimensional normalfordeling . . . . . . . . . . . . . . . . . 92B.10 Snedecor’s F fordeling . . . . . . . . . . . . . . . . . . . . . . 92

C Resultater fra WinBUGS 93C.1 FMD målinger i procent . . . . . . . . . . . . . . . . . . . . . 93

Page 9:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

INDHOLD vii

C.2 FMD målinger i mm . . . . . . . . . . . . . . . . . . . . . . . 94

D Mindste kvadraters løsning 97

Page 10:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 11:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Kapitel 1

Indledning

Flere og flere dør på grund af kardiovaskulære sygdomme så som hjertean-fald og for højt blodtryk. I 2003 var 29,2 procent af de globale dødsårsagerforesaget af kardiovaskulære sygdomme [Org]. Sygdomme som disse, der fordet meste forbindes med forkert kost, ingen fysisk aktivitet og rygning er ofteblevet anset for velfærdssygdomme. Dette er imidlertid misvisende da dissesygdomme ikke længere er et problem, som er forbeholdt de højtudvikledelande, men i stadig højere grad er et problem i den tredje verden. Omkring80 procent af alle kardiovaskulære dødsfald foregik i lav til mellem indkomst-lande og det estimeres, at kardiovaskulære dødsfald i 2010 vil være årsagen tilhovedparten af dødsfaldene i udviklingslandene [Org]. Grundet ovenståendeer det ikke overraskende, at der er interesse for at kunne vurdere risikoen forkardiovaskulære sygdomme og udtale sig om indflydelsesrige faktorer.For at kunne udtale sig om risikoen for hjertekarsygdomme, anvendes FlowMedieret Vasodilation (FMD), som er et mål for evnen til udvidelse af blodår-er. En lav FMD værdi kan indikere åreforkalkning og dermed forhøjet risikofor hjertekarsygdomme. I forbindelse med dette mål er det relevant, at videhvor præcist FMD kan måles og ydermere hvilke faktorer der har indflydelsepå FMD. Kardiovaskulært Forskningscenter (KVFC) [kvf], tilknyttet Aal-borg Sygehus, lavede på den baggrund i 2004 en række forsøg samlet under“Phospholipid Ultralydsvariations projekt”. Dette skulle belyse to problem-stillinger.Den ene var at afgøre, hvorvidt samme observatør måler med konstant præ-cision og hvorvidt målinger fra to observatører afviger fra hinanden. Denanden problemstilling var at undersøge, hvilke faktorer der har indflydelsepå FMD, med særlig interesse for kost, lipider og phospholipider. Herudoverhar der været interesse for forskelle i FMD mellem grupperinger, for eksem-pel mænd/kvinder eller alkohol forbrug. Datasættet fra denne undersøgelseer udlånt til Mat3 2006 af Claus Dethlefsen, der er ansat som biostatistikerved KVFC.I dette projekt behandler vi to problemstillinger inspireret af forsøget. Som

1

Page 12:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

2 1. Indledning

det første undersøger vi med hvilken præcision en given observatør måler oghvorvidt målinger fra to observatører afviger fra hinanden. Herefter under-søger vi hvilke faktorer der har indflydelse på FMD og hvordan disse influerer.I den forbindelse udleder vi den nødvendige teori for at kunne opstille statis-tiske modeller for de udleverede data. Datasættet bliver behandlet ved hjælpaf statistikprogrammerne R og WinBUGS. I forbindelse med bearbejdningenaf datasættet omtaler vi fejlkilder og forsøgsdesign.

Page 13:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Kapitel 2

Bayesiansk statistik

Dette kapitel giver den teoretiske baggrund indenfor bayesiansk statistik,som er nødvendig for at kunne belyse de to problemstillinger vedrørendedatasættet. De følgende afsnit er inspireret af [Lee04].

2.1 Bayesiansk tankegang

I modsætning til klassisk statistik bygger bayesiansk statistik på en “før-viden” om en given problemstilling. Denne tankegang kan genkendes i mangeaf hverdagens problemstillinger. Som oftest har man en forestilling om, hvor-dan forskellige ting forholder sig til hinanden. Dette kan være en subjektivviden, idet man ikke har konkrete “beviser” på, at det faktisk forholder sigsådan.Et eksempel kunne være når en arbejdsgiver skal fordele nye arbejdsopgavertil sine ansatte. Vedkommende har en forestilling om, hvem der er bedstkvalificeret til at varetage disse nye opgaver. Arbejdsgiveren ser sig dog nød-saget til at indsamle en objektiv viden om, hvem der har kompetence til atvaretage disse opgaver. Han er nu i stand til at fordele opgaverne ud fra densamlede viden — hans egen forestilling og den indsamlede viden.Kort sagt går bayesiansk statistik ud på, at man som sagt besidder en “før-viden” vedrørende en problemstilling, som derefter modificeres ved hjælp afrelevante objektive data, hvorved man opnår en “efter-viden”. Bayesianskstatistisk inferens baseres på netop denne “efter-viden”.

2.2 Prior, observationsmodel og posterior.

I de følgende afsnit spiller Bayes sætning en vigtig rolle i forståelsen afbayesiansk statistik.

Sætning 2.1 (Bayes sætning). Lad θ = (θ1, . . . ,θk)T og x = (x1, . . . ,xn)T

være stokastiske vektorer med tilhørende tæthedsfunktioner og p(x) 6= 0 så

3

Page 14:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

4 2. Bayesiansk statistik

gælder, at

p(θ|x) =p(θ)p(x|θ)

p(x).

Bevis. Ifølge definitionen på betinget sandsynlighed får vi, at

p(θ|x)p(x) = p(θ ∩ x),p(x|θ)p(θ) = p(θ ∩ x).

Det vil sige, at p(θ|x)p(x) = p(θ)p(x|θ), hvilket beviser sætningen.

Vi er interesserede i at opnå viden om k ≥ 1 ukendte parametre θ =(θ1, . . . ,θk)T . Som udgangspunkt har vi en subjektiv viden vedrørende disse.Denne viden udtrykkes i tæthedsfunktionen p(θ), som kaldes prior viden omθ.Antag, at vi er i stand til at indsamle n relevante objektive data vedrøren-de θ. Disse observationer x = (x1, . . . ,xn)T afhænger af θ og kan derforbeskrives ved hjælp af tæthedsfunktionen p(x|θ). Denne model kaldes enobservationsmodel. Ofte er vi i stedet interesserede i at se på observation-smodellen som en funktion af θ givet x, og da denne funktion ikke er entæthedsfunktion, betegner vi den l(θ|x). Denne funktion kaldes likelihood-funktionen og der gælder, at p(x|θ) ≡ l(θ|x). Idet venstresiden er en funktionaf x og højresiden er en funktion af θ kan der ikke gælde lighedstegn, doger likelihoodfunktionen bestemt op til en multiplikativ konstant af p(x|θ).Vi benytter nu Bayes sætning til at få en viden om θ, hvor både prior videnog likelihoodfunktionen har betydning. Det ses, at

p(θ|x) ∝ p(θ)p(x|θ)≡ p(θ)l(θ|x). (2.1)

Denne kaldes posterior viden om θ givet x. Da vi er interesserede i at findeen passende fordeling for vores posterior viden, skal (2.1) normeres, så vi fåret eksakt udtryk for tæthedsfunktionen for θ givet x. Vi får altså, at

p(θ|x) =p(θ)l(θ|x)∫p(θ)l(θ|x)dθ

. (2.2)

Det ses af det ovenstående, at vi har antaget, at de stokastiske variable erkontinuerte, hvilket ikke altid er tilfældet. Hvis vi har at gøre med diskretestokastiske variable, omhandler ovenstående, i stedet for tæthedsfunktioner,sandsynlighedsfunktioner.

Page 15:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

2.3 Valg af prior 5

2.3 Valg af prior

Umiddelbart kan det virke vanskeligt at skulle udtrykke sin “før-viden” somen kendt tæthedsfunktion1. Det kan være svært at gennemskue, hvilken for-deling der repræsenterer sin prior viden bedst. Ofte er priors valgt ud fraet ønske om at beregningerne skal være pæne og fordelingerne skal værenemme at genkende. Dette kræver måske, at man gennemgår beregningermed forskellige priors for at finde én, der giver et pænt udtryk og som ergenkendeligt, hvilket i praksis ikke er anvendeligt. Man kan derfor udviklemetoder til at vælge disse priors hensigtsmæssigt. Der findes flere redskaber,der kan hjælpe med at bestemme denne fordeling. Vi beskriver her to, derkan være behjælpelige.

2.3.1 Konjugerede priors

Definition 2.2.Lad l(θ|x) være en likelihoodfunktion. En klasse af prior tæthedsfunk-tioner Π udgør en konjugeret familie, hvis posterior tæthedsfunktionenp(θ|x) tilhører Π for alle x, når prior tæthedsfunktionen p(θ) tilhører Π.

Man siger, at p(θ) er en konjugeret prior med hensyn til likelihoodfunktion-en l(θ|x). Denne slags priors kan være behjælpelige i den forstand, at de erpæne at regne med. Det er dog ikke altid, at denne slags priors giver denbedste repræsentation af ens “før-viden”.

Eksempel 2.3.Vi ønsker at bestemme en konjugeret prior med hensyn til likelihood funk-tionen

l(π|k) ∝ πk(1− π)n−k,

det vil sige, at observation k er binomialfordelt med indeks n og parameterπ, se Appendiks B.1. For at finde en konjugeret prior, skal vi altså lede efteren prior, så posterioren bliver af samme klasse som prioren. I dette tilfældekan vi vælge prioren til at være en betafordeling, se Appendiks B.2,

π ∼ Be(α,β),

hvor tæthedsfunktionen er givet ved

p(π) ∝ πα−1(1− π)β−1.

1Med dette menes, at tæthedsfunktionen skal tilhøre en af de velkendte fordelinger, detvære sig enten diskrete eller kontinuerte.

Page 16:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6 2. Bayesiansk statistik

Vi får så posterioren

p(π|k) ∝ p(π)l(π|k)= πα−1(1− π)β−1πk(1− π)n−k

= πk+α−1(1− π)n−k+β−1.

Det ses, at posterior fordelingen også er betafordelt,

π|k ∼ Be(k + α,n− k + β).

Vi har derfor fundet en prior så posterioren tilhører samme klasse som priorenmed hensyn til den binomialfordelte observationsmodel.

u

2.3.2 Uegentlige priors

I visse tilfælde kan man komme ud for, at man ikke besidder megen “før-viden”. I en sådan situation kan man antage, at alle udfald er lige sandsynlige.Det vil sige, at vores “før-viden” kan udtrykkes som

p(θ) = κ, −∞ < θ <∞.

Det ses tydeligt, at ∫ ∞

−∞p(θ)dθ = ∞.

Denne slags prior kaldes uegentlig, da den tilhørende tæthedsfunktion ikke erveldefineret, idet den ikke integrerer til enhed. Ud fra denne prior tætheds-funktion får vi en posterior tæthedsfunktion, der er givet ved

p(θ|x) ∝ p(θ)l(θ|x)∝ l(θ|x).

Ifølge (2.2) på side 4 er posterior fordelingen veldefineret og givet ved

p(θ|x) =l(θ|x)∫l(θ|x)dθ

,

når∫l(θ|x)dθ <∞.

Vores prior fordeling kan i disse tilfælde udtrykkes som for eksempel enuniform fordeling på hele den reelle akse, se Appendiks B.3, eller en normal-fordeling med uendelig varians, se Appendiks B.4, da den tilhørende tætheds-funktion lokalt set er flad.

Page 17:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

2.4 Sufficiens 7

2.4 Sufficiens

Hvis observationernes fordeling afhænger af observationerne på en bestemtmåde, kan man eventuelt erstatte dem i fordelingen med en funktion, der ergivet ved hjælp af disse. På denne måde er denne funktion tilstrækkelig forden ukendte parameter, når vi skal udtrykke likelihoodfunktionen.

Definition 2.4.Lad x = (x1, . . . , xn)T være observationer og t = t(x) være en funktionaf disse observationer, så kaldes t en observator.

Der gælder for alle observatorer t, idet værdien af t er kendt så længe x erkendt, at

p(x|θ) = p(x,t|θ) = p(t|θ)p(x|t,θ). (2.3)

Definition 2.5.Lad t være en observatør, så siges t at være sufficient (tilstrækkelig) forθ givet x, hvis p(x|t,θ) ikke afhænger af θ. Det vil sige, at

p(x|θ) = p(t|θ)p(x|t).

En vigtig sætning til at bestemme om en observator t er sufficient for engiven parameter, er Neymans faktoriseringssætning.

Sætning 2.6 (Neymans faktoriseringssætning). En observator t er suf-ficient for θ givet x, hvis og kun hvis der eksisterer funktioner f og g så

p(x|θ) = f(t,θ)g(x), (2.4)

hvor t = t(x).

Bevis. Kun det diskrete tilfælde bevises, det kontinuerte følger på tilsvarendevis. Hvis t er sufficient for θ givet x kan vi vælge f og g så

f(t,θ) = p(t|θ) og g(x) = p(x|t).

Hvis (2.4) er opfyldt, summer vi over de x, hvor t(x) = t, på begge sider,det vil sige, at vi får

p(t|θ) =∑

x:t(x)=t

p(x|θ) =∑

x:t(x)=t

f(t,θ)g(x) = f(t,θ)G(t),

hvor G(t) =∑g(x). Vi får altså, at

f(t,θ) =p(t|θ)G(t)

,

Page 18:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

8 2. Bayesiansk statistik

og ved at indsætte udtrykket i (2.4) får vi, at

p(x|θ) =p(t|θ)g(x)G(t)

.

Fra (2.3) ved vi, at

p(x|θ) = p(x,t|θ) = p(t|θ)p(x|t,θ)

og vi får så, at

p(x|t,θ) =p(t|θ)g(x)p(t|θ)G(t)

=g(x)G(t)

og da højresiden ikke afhænger af θ, er t altså sufficient for θ givet x.

Eksempel 2.7.Antag, at vi har en vektor x af n uafhængige observationer fra en nor-malfordeling med ukendt middelværdi, θ og kendt varians, φ. Vi viser vedanvendelse af Sætning 2.6, at x = 1

n

∑xi er sufficient for θ givet x.

p(x|θ) =n∏i=1

p(xi|θ) =n∏i=1

1√2πφ

exp(−(xi − θ)2

)

=1√

(2πφ)nexp

(n∑i=1

−x2i + θ2 − 2θxi

)

=1√

(2πφ)nexp

(−12φ

n∑i=1

x2i

)exp

φ

n∑i=1

xi −nθ2

)

= g(x) exp(θ

φnx− nθ2

)= g(x)f(x,θ).

u

Man kan også bestemme om en observator t er sufficient ved hjælp af suffi-ciens princippet.

Sætning 2.8 (Sufficiens princippet). En observator t er sufficient for θgivet x hvis og kun hvis

l(θ|x) ∝ l(θ|t), (2.5)

hvor t = t(x).

Bevis. Hvis t er sufficient for θ givet x gælder der at

l(θ|x) ∝ p(x|θ) = p(t|θ)p(x|t) ∝ p(t|θ) ∝ l(θ|t).

Hvis (2.5) er opfyldt, gælder der at

p(x|θ) ∝ l(θ|x) ∝ l(θ|t) ∝ p(t|θ)

Page 19:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

2.5 Prædiktiv fordeling 9

så for en funktion g(x) har vi, at

p(x|θ) = g(x)p(t|θ).

Hermed får vi ifølge Sætning 2.6, at t er sufficient for θ givet x.

2.5 Prædiktiv fordeling

Nogle gange er man interesseret i at bestemme den marginale fordeling ved-rørende ens observationer. Man er altså interesseret i at bestemme

p(x) =∫p(x|θ)p(θ)dθ,

hvilken vi også betegner som den prædiktive fordeling af x, idet den beskrivervores nuværende forudsigelse (prædiktion) af værdien af x.

Eksempel 2.9.Hvis vi ønsker at bestemme den prædiktive fordeling, hvor x|θ ∼ N(θ, φ) ogθ ∼ N(θ0,φ0), kan vi gøre det ved at betragte

x = (x− θ) + θ,

og indse at x− θ ∼ N(0,φ). Da x− θ og θ er uafhængige, får vi at

x ∼ N(θ0,φ+ φ0),

idet summen af uafhængige normalfordelinger igen er en normalfordeling.

u

2.6 Maksimum likelihood

Et vigtigt begreb i klassisk statistik er maksimum likelihood estimatet (MLE),θ, som er den værdi, der maksimerer likelihoodfunktionen. I bayesiansk sta-tistik er det tilsvarende begreb maksimum a posteriori estimatet (MAP),som analogt er den værdi, der maksimerer posterior tæthedsfunktionen. Hvisp(θ) ∝ 1 gælder der, at MAP = MLE. I det følgende betragter vi funktioner,der kan være behjælpelige til at bestemme θ.I stedet for at betragte likelihoodfunktionen kan det ofte være en fordel atbetragte log-likelihoodfunktionen, som er givet ved

L(θ|x) = log(l(θ|x)).

Da logaritmefunktionen er kontinuert og voksende på hele den positive reelleakse, antager log-likelihoodfunktionen ekstrema samme steder som likelihood-funktionen.

Page 20:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

10 2. Bayesiansk statistik

Den afledte af log-likelihoodfunktionen betegner vi som scorefunktionen

s(θ|x) =dL(θ|x)dθ

=d

dθlog(p(x|θ))

=ddθp(x|θ)p(x|θ)

.

Da θ er et maksimum for likelihoodfunktionen, er den dermed også maksi-mum for log-likelihoodfunktionen, og løser derfor likelihood ligningen

s(θ|x) = 0. (2.6)

Hvis man har flere ukendte parametre, er scorefunktionen givet ved gradien-ten for log-likelihoodfunktionen.

2.7 Fishers information

Omkring 1925 definerede Fisher et mål for den information, som man får fraén observation fra et givet eksperiment [Wika]. Han definerede den som

I(θ) = −Ep(x|θ)[d2

dθ2log(p(x|θ))

],

men da d2

dθ2log(p(x|θ)) = d2

dθ2log(l(θ|x)), definerer vi Fishers information ved

hjælp af log-likelihoodfunktionen.

Definition 2.10.Fishers information er givet ved

I(θ) = −Ep(x|θ)[d2

dθ2L(θ|x)

].

Fremover undlader vi at skrive, at middelværdien skal udregnes med hensyntil p(x|θ) og dermed lade dette være underforstået.Det er vigtigt at bemærke, at informationen ikke afhænger af selve observa-tionen, men derimod af fordelingen af observationen. Det har derfor ingenindflydelse på informationen, hvis vi observerer en bestemt værdi af x.

Lemma 2.11. For scorefunktionen gælder der, at

E[s(θ|x)] = 0.

Page 21:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

2.7 Fishers information 11

Bevis. Kun det kontinuerte tilfælde bevises, det diskrete følger på tilsvarendevis. Endvidere antager vi, at man må bytte rundt på differentiation og inte-gration, hvilket vi benytter i (∗). Der gælder at

E[s(θ|x)] =∫s(θ|x)p(x|θ)dx

=∫ d

dθp(x|θ)p(x|θ)

p(x|θ)dx

(∗)=

d

∫p(x|θ)dx

= 0.

Lemma 2.12. For scorefunktionen gælder der, at

I(θ) = E[s(θ|x)2] = E

[(dL(θ|x)dθ

)2].

Bevis. Igen beviser vi kun det kontinuerte tilfælde, og antager, at man måbytte rundt på differentiation og integration. Vi får dermed at

I(θ) = −E[d2

dθ2log(l(θ|x))

]= −

∫d2 log(p(x|θ))

dθ2p(x|θ)dx

= −∫

d

(ddθp(x|θ)p(x|θ)

)p(x|θ)dx

= −∫ (

d2

dθ2p(x|θ)

)p(x|θ)−

(ddθp(x|θ)

)2p(x|θ)2

p(x|θ)dx

= −∫d2p(x|θ)dθ2

dx+∫ (

ddθp(x|θ)

)2p(x|θ)2

p(x|θ)dx

= − d2

dθ2

∫p(x|θ)dx+

∫ (d log(p(x|θ))

)2

p(x|θ)dx

= − d2

dθ21 + E

[(d log(p(x|θ))

)2]

= E

[(dL(θ|x)dθ

)2].

Page 22:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

12 2. Bayesiansk statistik

Det ses af Lemma 2.11 og Lemma 2.12 at variansen af scorefunktionen ergivet ved informationen af θ, idet

V ar[s(θ|x)] = E[s(θ|x)2]− E[s(θ|x)]2

= I(θ).

Hvis vi har mere end én observation, kan vi udtale os om den information vifår fra observationerne. Lad

In(θ) = E

[d2L(θ|x)dθ2

]betegne informationen vi får fra n uafhængige og ensfordelte observationer,x = (x1, . . . ,xn)T . Da

p(x|θ) = p(x1|θ) · · · p(xn|θ),

får vi atL(θ|x) = L(θ|x1) + L(θ|x2) + . . .+ L(θ|xn)

og dermed atIn(θ) = nI(θ),

idet informationen ikke afhænger af den enkelte observation, men af observa-tionens fordeling, hvilken i dette tilfælde er ens for alle vores observationer.Det virker intuitivt, at jo flere observationer vi har, jo større bliver informa-tionen.

2.8 Approksimation af posterior fordelingen

Ved hjælp af log-likelihoodfunktionen og Fishers information kan vi ap-proksimere posterior fordelingen.Hvis vi laver en Taylor-udvikling af log-likelihoodfunktionen for n uafhængigeog ensfordelte observationer omkring θ, får vi, at

L(θ|x) ≈ L(θ|x) + s(θ|x)(θ − θ) +12d2L(θ|x)dθ2

∣∣∣∣θ=θ

(θ − θ)2

og dermed at

l(θ|x) ≈ exp

(L(θ|x) +

12(θ − θ)2

d2L(θ|x)dθ2

∣∣∣∣θ=θ

)

∝ exp

(12(θ − θ)2

d2L(θ|x)dθ2

∣∣∣∣θ=θ

).

Page 23:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

2.9 Jeffreys prior 13

Fra de store tals lov ved vi, at

1n

d2L(θ|x)dθ2

P−→ 1nE

[d2L(θ|x)dθ2

]=

1n

(−In(θ))

= − 1nnI(θ)

= −I(θ),

når n→∞. Det vil sige, at når n er stor, så antager vi, at

d2L(θ|x)dθ2

∣∣∣∣θ=θ

≈ −nI(θ),

og dermed er

l(θ|x) ≈ exp(−1

2(θ − θ)2nI(θ)

)= exp

(− 1

2(nI(θ))−1(θ − θ)2

).

Det ses, at likelihoodfunktionen approksimativt er proportional til normalfor-delingen N(θ, (nI(θ))−1), og hvis vi har en dominerende likelihoodfunktion,så er posterior fordelingen approksimativt den nævnte fordeling.

2.9 Jeffreys prior

Definition 2.13.Jeffreys prior er givet ved

p(θ) ∝√I(θ).

Brugen af Jeffreys prior bliver også kaldt Jeffreys regel. Grunden til, at Jeff-reys regel er interessant, hænger sammen med hvilken prior vi får, når viudfører en transformation på den ukendte parameter. Lad ψ = g(θ) være entransformation, som er injektiv og C2, og lad L(ψ) = L(g−1(ψ)), så gælderder, at

dL(ψ|x)dψ

=dL(θ|x)dθ

dψ. (2.7)

Ved at lade I(ψ) betegne information vedrørende ψ og ved at kvadrere ogtage middelværdien over værdier af x i (2.7), får vi ifølge Lemma 2.12 påside 11 at

I(ψ) = I(θ)(dθ

)2

,

Page 24:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

14 2. Bayesiansk statistik

idet dθdψ ikke afhænger af x. Hvis vi nu anvender en prior fordeling, som følger

p(θ) ∝√I(θ),

så får vi ved anvendelse af transformationssætningen, at prior tæthedsfunk-tionen p for ψ = g(θ) er

p(ψ) = p(θ)∣∣∣∣ dθdψ

∣∣∣∣∝√I(θ)

∣∣∣∣ dθdψ∣∣∣∣

=

√I(θ)

(dθ

)2

=√I(ψ).

Det vil sige, at vores prior er invariant under transformation, idet vores prioraltid er en Jeffreys prior uanset transformation af parameteren.Det er ikke altid, at vi kan bruge en Jeffreys prior, for eksempel kan denikke bruges når Fishers information divergerer. Det er heller ikke sikkertat Jeffreys prior integrerer til enhed. Men i de tilfælde, hvor vi kan benytteJeffreys prior, er det ofte en fordel at gøre det, idet en eventuel transformationaf parametre ikke ændrer prioren.

Eksempel 2.14.For en normalfordelt observation med kendt middelværdi θ og ukendt variansφ gælder der, at

L(φ|x) = −12

log(φ)− (x− θ)2

2φ+ k,

hvor k er en konstant. Dermed er

s(φ|x) = − 12φ

+(x− θ)2

2φ2,

ogd2L(φ|x)dφ2

=1

2φ2− (x− θ)2

φ3.

Ifølge Definition 2.10 på side 10 er

I(φ) = −E[

12φ2

− (x− θ)2

φ3

]= − 1

2φ2+

φ

φ3

=1

2φ2,

Page 25:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

2.9 Jeffreys prior 15

idet E[(x− θ)2] = V ar[x] = φ. Jeffreys prior er altså her givet ved

p(φ) ∝√

12φ2

∝ 1φ.

u

2.9.1 Flere ukendte parametre

Hvis vi har flere ukendte parametre θ = (θ1, . . . ,θk)T , så er Fisher informa-tionen givet ved matricen I(θ), som består af indgangene

I(θ)i,j = −E[∂2L(θ|x)∂θi∂θj

]. (2.8)

Som i tilfældet med en enkelt ukendt parameter, får vi at informationen fraflere observationer er givet ved

In(θ) = nI(θ).

Udfører vi en transformation ψ = (ψ1, . . . ,ψk) = g(θ), som er injektiv ogC2, får vi ved at kvadrere og tage middelværdien over værdier af x i følgende

∂L(ψ|x)∂ψj

=∂L(θ|x)∂θi

∂θi∂ψj

,

atI(ψ) = JI(θ)JT ,

hvor J er Jacobi-matricen med indgangene Ji,j = ∂θi∂ψj

. Ved at vælge prioren

p(θ) =√

det(I(θ)), ser vi ved hjælp af multitransformationssætningen, at

p(ψ) = p(θ)|det(J)|

∝√

det(I(θ))|det(J)|

=√

det(I(θ))(det(J))2

=√

det(I(ψ)),

og hermed ses det, at den valgte prior er en Jeffreys prior, da den er invariantunder transformation. Ved flere ukendte parametre kan vi altså på tilsvarendevis, som ved én ukendt parameter, definere Jeffreys prior til at være givetved

p(θ) =√

det(I(θ)).

Eksempel 2.15.For en normalfordelt observation med ukendt middelværdi θ og varians φ erlog-likelihoodfunktionen givet ved

L(θ,φ|x) = −12

log(φ)− (x− θ)2

2φ+ k,

Page 26:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

16 2. Bayesiansk statistik

hvor k er en konstant. Vi får, at

∂L(θ,φ|x)∂θ

=x− θ

φ

og∂L(θ,φ|x)

∂φ= − 1

2φ+

(x− θ)2

2φ2.

Dermed bliver

∂2L(θ,φ|x)∂θ2

= − 1φ,

∂2L(θ,φ|x)∂θ∂φ

= −(x− θ)φ2

og∂2L(θ,φ|x)

∂φ2=

12φ2

− (x− θ)2

φ3.

Ifølge (2.8) er

I(θ,φ) =

[1φ 00 1

2φ2

],

idet E[x] = θ og E[(x− θ)2] = V ar[x] = φ. Jeffreys prior er derfor givet ved

p(θ,φ) ∝√

det(I(θ,φ)) =√

12φ3

∝ φ−32 .

u

2.10 Centralt Posterior Interval

Som nævnt tidligere er vi interesseret i at opnå viden om nogle ukendteparametre, det kan for eksempel være middelværdien i en normalfordeltstikprøve eller sandsynlighedsparameteren i en binomialfordelt stikprøve.Ofte er man interesseret i at kunne udtale sig om et interval som parameterentilhører med en given sandsynlighed. [Wikb]

Definition 2.16.Lad 1

2 < α < 1. For(

1−α2

)- og

(1+α

2

)-fraktilerne i en givet posterior

fordelingsfunktion F lad intervallet I være givet ved

I :=(F−1

(1− α

2

), F−1

(1 + α

2

)),

så kaldes I et 100 ·α% Centralt Posterior Interval (CPI) hørende til denpågældende posterior fordeling.

Page 27:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

2.10 Centralt Posterior Interval 17

Med denne definition er vi i stand til at kunne udtale os om sandsynlighedenfor, at en ukendt parameter, θ, ligger indenfor et givet interval.At vi er i stand til at kunne udtale os om dette er en af de store forskellemellem bayesiansk- og klassisk statistik. Den klassiske statistik betragterikke den ukendte parameter θ som en stokastisk variabel, det giver derforikke mening, at tillægge denne parameter en sandsynlighed. Man kan derforikke sige, at med en given sandsynlighed antager θ en værdi indenfor etinterval. Derimod kan man sige, at det er troværdigt.

Page 28:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 29:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Kapitel 3

Normalfordelte observationer

En af de vigtigste sætninger indenfor sandsynlighedsregning er den cen-trale grænseværdisætning, der siger, at hvis man har en række ensfordelteog uafhængige stokastiske variable xi, så nærmer summen af disse sig ennormalfordeling, jo flere stokastiske variable vi betragter. Disse stokastiskevariable kan være af en vilkårlig fordeling endda diskrete stokastiske variable,selvom normalfordelingen er en kontinuert fordeling. Denne sætning har storbetydning indenfor statistik, idet man ofte kan gøre sig den antagelse, atobservationer er normalfordelte. [Olo05] De følgende afsnit er inspireret af[Lee04].

3.1 Ukendt middelværdi

Vi ønsker at opnå viden om en ukendt parameter θ, om hvilken vores priorviden er normalfordelt, så

θ ∼ N(θ0,φ0).

Observationsmodellen giver n uafhængige observationer x = (x1, . . . ,xn)T ,der alle er normalfordelte med kendt varians φ, så

xi ∼ N(θ, φ).

Derved opnår vi, at

p(θ|x) ∝ p(θ)p(x|θ)

= p(θ)n∏i=1

p(xi|θ)

=1√

2πφ0exp

(− 1

2φ0(θ − θ0)2

) n∏i=1

1√2πφ

exp(− 1

2φ(xi − θ)2

)

19

Page 30:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

20 3. Normalfordelte observationer

∝ exp

(−1

2θ2

(1φ0

+n

φ

)+ θ

(θ0φ0

+n∑i=1

xiφ

))

= exp

(−1

2

(1φ0

+n

φ

)(θ2 − 2θ

(θ0φ0

+n∑i=1

xiφ

)(1φ0

+n

φ

)−1))

∝ exp

−12

(1φ0

+n

φ

)(θ −

(1φ0

+n

φ

)−1(θ0φ0

+n∑i=1

xiφ

))2 .

Det ses heraf, at posterioren også er normalfordelt, så

θ|x ∼ N(θ1,φ1),

hvor

φ1 =(

1φ0

+n

φ

)−1

(3.1)

og

θ1 = φ1

(θ0φ0

+∑xiφ

). (3.2)

I henhold til Definition 2.2 på side 5 ses det, at vi her beskæftigerer osmed en konjugeret prior, med hensyn til likelihoodfunktionen, idet posteriorfordelingen tilhører samme klasse som prior fordelingen.Det kan desuden vises, at

x|x,φ ∼ N(θ, φ/n). (3.3)

Eksempel 3.1.Vi har en observationsmodel med 12 uafhængige observationer, der er nor-malfordelte med varians φ = 1. De 12 observationer er

15,644 16,437 17,287 14,448 15,308 15,16918,123 17,635 17,259 16,311 15,390 17,252.

Antag at vi har en prior viden, der er fordelt så θ ∼ N(15,5; 2)1, får vi, igenfra (3.1) og (3.2), at

φ1 =(

12

+121

)−1

=225

og

θ1 =225

(15,52

+12 · 16,35525

1

)= 16,32104.

Det vil sige, atθ|x ∼ N(16,32; 0,080).

1Denne prior er valgt for at vise hvilken forskel et subjektivt valg af prior kan have forposterioren.

Page 31:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

3.1 Ukendt middelværdi 21

Vælger vi en uegentlig prior fordeling givet ved θ ∼ N(θ0,∞), kan vi benytte(3.1) og (3.2) og får, at

θ|x ∼ N(16,36; 0,083).

Det ses på Figur 3.1, at der ikke er den store forskel i posterior tæthedsfunk-tionerne som vi har fundet frem til ved at bruge henholdsvis en uegentlig ogandre forskellige egentlige a priori fordelinger. Vi kan derved sige, at likeli-hoodfunktionen er dominerende overfor de valgte priors.

14.5 15.0 15.5 16.0 16.5 17.0 17.5

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

Theta givet x

Prior N(15,5;2)Uegentlig priorPrior N(8,4)Prior N(12,3)Prior N(10,5)

Figur 3.1: Plots af forskellige priors indflydelse på posterioren.

Ved at se på et 90% CPI for begge fordelinger kan vi se hvor lille forskellener. Til dette benytter vi programmet R. Vi skal ifølge Definition 2.16 findede to fraktiler (1− 0,90)/2 = 0,05 og (1 + 0,90)/2 = 0,95. I R ser koden udsom følger.

> qnorm(c(0.05,0.95), 16.355, sqrt(1/12))[1] 15.88017 16.82983> qnorm(c(0.05,0.95), 16.32, sqrt(2/25))[1] 15.85477 16.78523

Det vil sige, at CPI intervallerne er givet ved

IUegentlig prior = (15,88; 16,83)

IN(15,5;2) = (15,85; 16,79).

Page 32:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

22 3. Normalfordelte observationer

Vi kan nu sige, at der er 90% sandsynlighed for, at θ antager en værdiindenfor disse to intervaller.

u

3.2 Ukendt varians

Vi betragter nu n uafhængige normalfordelte observationer x = (x1, . . . ,xn)T

med kendt middelværdi θ og ukendt varians φ. Likelihoodfunktionen bliverda

l(φ|x) ∝ p(x1|φ) · · · p(xn|φ)

=1√2πφ

exp(− 1

2φ(x1 − θ)2

)· · · 1√

2πφexp

(− 1

2φ(xn − θ)2

)∝ φ−

n2 exp

(− 1

n∑i=1

(xi − θ)2).

For at lette notationen skriver vi Sθ =∑

(xi − θ)2, hvilket viser sig nyttigt,når man skal identificere posterior fordelingen. Vi får så, at

l(φ|x) ∝ φ−n2 exp

(− 1

2φSθ

).

Vi antager, at vores prior viden om φ er skaleret invers χ2 fordelt, så

φ ∼ S0χ−2ν .

Vi får nu, at posterior tæthedsfunktionen er udtrykt ved

p(φ|x) ∝ p(φ)l(φ|x)

∝ φ−ν2−1 exp

(− 1

2φS0

)φ−

n2 exp

(−Sθ

)∝ φ−

ν+n2−1 exp

(− 1

2φ(S0 + Sθ)

),

der også genkendes som en skaleret invers χ2 fordeling,

φ|x ∼ (S0 + Sθ)χ−2ν+n.

Begrænsningerne fra prior fordelingen bliver nu svagere, da S0 + Sθ 6= 0betyder, at S0 godt kan antage værdien nul og af samme grund kan ν = 0. Idette tilfælde får vi en prior tæthedsfunktion, der er givet ved

p(φ) ∝ 1φ,

Page 33:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

3.3 Ukendt middelværdi og varians 23

altså en uegentlig prior.I dette tilfælde, hvor vi har observationer fra en normalfordeling, hvor vari-ansen for disse er ukendt, har vi at gøre med en konjugeret prior fordeling,når S0 6= 0 og ν > 0, med hensyn til likelihoodfunktionen ligesom i detovenstående. Desuden ses det, idet

p(x|φ) ∝ φ−n2 exp

(− 1

2φSθ

),

at hvis vi lader f(t,φ) = φ−n2 exp

(− 1

2φSθ

)og g(x) = 1, så er Sθ er sufficient

for φ givet x ifølge Sætning 2.6 på side 7.

3.3 Ukendt middelværdi og varians

Antag, at både φ og θ er ukendte. Vi vælger en uegentlig prior fordeling, såtæthedsfunktionen er givet ved

p(θ,φ) ∝ 1φ.

Observationsmodellen giver n uafhængige observationer x = (x1, . . . ,xn)T ,der alle er normalfordelte med ukendt middelværdi og varians, så

xi|θ,φ ∼ N(θ,φ).

Der gælder så, at

l(θ,φ|x) ∝n∏i=1

p(xi|θ,φ)

=n∏i=1

1√2πφ

exp(− 1

2φ(xi − θ)2

)

∝ φ−n2 exp

(− 1

n∑i=1

(xi − θ)2)

= φ−n2 exp

(− 1

n∑i=1

(xi − x+ x− θ)2)

= φ−n2 exp

(− 1

(n∑i=1

(xi − x)2 + n(x− θ)2))

= φ−n2 exp

(− 1

2φ(S + n(x− θ)2)

),

hvor S =∑

(xi− x)2. Derved får vi, at posterior tæthedsfunktionen for θ ogφ betinget med observationerne er givet ved

p(θ,φ|x) ∝ φ−n2−1 exp

(− 1

2φ(S + n(x− θ)2)

). (3.4)

Page 34:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

24 3. Normalfordelte observationer

For at få en posterior tæthedsfunktion for θ eller φ skal vi finde marginal-tæthedsfunktionerne i (3.4) ved at integrere henholdsvis φ og θ ud. Ved atintegrere θ ud får vi, at

p(φ|x) ∝∫p(θ,φ|x)dθ

=∫ ∞

−∞φ−

n2−1 exp

(− 1

2φ(S + n(x− θ)2)

)dθ

=∫ ∞

−∞φ−

n−12−1 exp

(− 1

2φS

)φ−

12 exp

(− 1

2φn(x− θ)2

)dθ

∝ φ−n−1

2−1 exp

(− 1

2φS

)∫ ∞

−∞

1√2πφ/n

exp(− 1

2φ/n(x− θ)2

)dθ.

Det ses, at i integralet står den normerede tæthedsfunktion for

x|x,φ ∼ N(θ,φ/n),

såp(φ|x) ∝ φ−

n−12−1 exp

(− 1

2φS

),

hvilket vil sige, atφ|x ∼ Sχ−2

n−1, (3.5)

hvor n ≥ 2. Det virker fornuftigt, at n ≥ 2 både ud fra det synspunkt,at fordelingen skal være veldefineret, men også taget i betragtning at nrepræsenterer antallet af observationer, idet man ikke kan konkludere nogetfornuftigt a posteriori på bare én observation.For at finde posterior fordelingen for θ griber vi sagen lidt anderledes an. Videfinerer en ny stokastisk variabel, der er givet ved transformationen

t =θ − x

s/√n,

hvor s2 = Sn−1 , som kaldes den empiriske varians. Vi omskriver t til

t =θ − x

s/√n

=

θ−x√φ/n√s2/φ

. (3.6)

Fra (3.3) har vi, atθ − x√φ/n

|x,φ ∼ N(0,1).

Ifølge transformationssætningen får vi fra (3.5), og Appendiks B.5, at

S

φ|x ∼ χ2

n−1.

Page 35:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

3.3 Ukendt middelværdi og varians 25

Hvis vi i (3.6) sætter

Z :=θ − x√φ/n

, W :=S

φ=s2

φ(n− 1),

får vi at

t =Z√

W/(n− 1).

Dermed ses det, ifølge Appendiks B.7, at

t|x ∼ tn−1,

idet er Z og W er uafhængige betinget med x. Da |dθ/dt| er en konstantgælder der, at p(t) ∝ p(θ), derfor får vi, at

θ|x ∼ s/√n tn−1 + x.

Det vil sige, at man kan simulere θ ud fra en skaleret og forskudt t-fordeling,idet fordelingen af θ ikke kan genkendes som en af de kendte fordelinger.Vi kan finde et 90% CPI for θ ved at finde det tilsvarende interval for t-fordelingen og derefter skalere intervallet med s/

√n og forskyde den med x.

Dette giver os et interval, hvorom vi som sagt kan sige at det indeholder θmed en sandsynlighed på 90%.Desuden gælder der for alle t-fordelinger, at når frihedsgraden bliver tilstræk-kelig stor, nærmer fordelingen sig standard normalfordelingen. Dette indses,idet

limν→∞

p(x) ∝ limν→∞

[(1 +

x2

ν − 1

)− ν2

]

= limν→∞

((1 +x2

ν − 1

)ν−1)− 1

2 (1 +

x2

ν − 1

) 12

= exp

(−1

2x2

).

På Figur 3.2 ses tydeligt, hvordan t-fordelingen nærmer sig standard nor-malfordelingen, når frihedsgraden stiger.

Page 36:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

26 3. Normalfordelte observationer

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(1,0)t_0,05t_1t_20

Figur 3.2: Eksempler på t-fordelinger med stigende frihedsgrader, der nærmersig standard normalfordelingen.

Der gælder derfor, at posterior fordelingen af t for et tilstrækkeligt stort n,bliver

θ − x√φ/n

|x ∼ N(0,1),

hvilket medfører, atθ|x ∼ N(x,φ/n). (3.7)

Som det ses på Figur 3.2 er t-fordelingen forholdvis tæt på standard normal-fordelingen allerede med en frihedsgrad på 20, altså forholdsvis hurtigt er θa posteriori normalfordelt. Endvidere kan det nævnes at for en t20-fordelinger p(0) = 0,3939886 og for en standard normalfordeling er p(0) = 0,3989423,det er altså først på tredje decimal de to tæthedsfunktionsværdier afviger, sådet giver god mening at tilnærme posterior fordelingen af θ med en normal-fordeling givet ved (3.7), når bare antallet af observationer n er tilstrækkeligstor.

Page 37:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Kapitel 4

Markov kæde Monte Carlo

Antag at vi gerne vil simulere fra en givet fordeling Π med tilhørende tætheds-funktion π, men at vi ikke kan gøre dette direkte. Vi kan så konstruere enMarkov kæde der har Π som sin stationære fordeling og dermed bruge dentilstand som Markov kæden er i efter et stort antal iterationer som voressimulering fra Π. Det er klart, at inden vi kan indse hvorfor dette virker,må vi studere Markov kæder nøjere, og finde ud af hvad det betyder at enMarkov kæde har Π som sin stationære fordeling.Derfor behandler vi i dette kapitel Markov kæder og Markov kæde MonteCarlo (MCMC). Grunden til at vi behandler MCMC er, at Monte Carlometoder kan og ofte anvendes til at konstruere Markov kæder. Disse metoderer simulerings metoder, der anvender pseudo-tilfældige tal til at generereen Markov kæde [Wikc]. Vi betragter specielt Monte Carlo metoden kaldetMetropolis-Hastings algoritme og særtilfælde af denne [Wikd].

4.1 Markov kæder

Definition 4.1.En stokastisk proces (X0,X1, . . .) med udfaldsrum Ω ⊆ Rd siges, at væreen (homogen) Markov kæde med overgangskerne P , hvis der for allen ∈ N0, alle A ⊆ Ω og alle x0, . . . ,xn ∈ Ω gælder, at

P (Xn+1 ∈ A|X0 = x0, . . . , Xn = xn) = P (Xn+1 ∈ A|Xn = xn) (4.1)= P (A|xn). (4.2)

Lighedstegnet i (4.1) kaldes også Markov egenskaben og lighedstegnet i (4.2)kaldes den homogene betingelse. Det, at kæden er homogen, betyder altsåblot, at overgangskernen P forbliver den samme uafhængigt af, hvor mangeiterationer vi vælger at udføre. En inhomogen Markov kæde er altså enMarkov kæde, hvor overgangskernen ændrer sig.

27

Page 38:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

28 4. Markov kæde Monte Carlo

Definition 4.2.Initial fordelingen for Markov kæden (X0,X1, . . .) er fordelingen for X0.Endvidere betegner

Pn(A|x0) = P (Xn ∈ A|X0 = x0)

den betingede fordeling af Xn givet X0 = x0. Pn kaldes også n-trinsovergangskernen.

Den fordeling vi ønsker at simulere fra kaldes for target fordelingen og ergivet ved

Π(A) =∫Aπ(x)dx, A ⊆ Ω,

hvor π kaldes target tæthedsfunktionen.

Definition 4.3.En Markov kæde med overgangskerne P , siges at have π som sin sta-tionære tæthedsfunktion, hvis der for alle A ⊆ Ω gælder, at∫

π(x)P (A|x)dx = Π(A).

Endvidere siges Markov kæden at være reversibel, hvis (Xn,Xn+1) harsamme fordeling som (Xn+1,Xn), når Xn ∼ Π.

Hvis en Markov kæde har π som sin stationære tæthedsfunktion, så kaldes Πtilsvarende for den stationære fordeling. Ifølge definitionen er Π en stationærfordeling hvis Xn ∼ Π ⇒ Xn+1 ∼ Π.

Definition 4.4.Markov kæden siges at tilfredsstille den detaljerede balance betingelse(DBC, detailed balance condition), hvis

π(x)p(y|x) = π(y)p(x|y), for alle x,y ∈ Ω,

hvor p(y|x) opfylder at

P (A|x) =∫Ap(y|x)dy.

Sætning 4.5. Hvis Markov kæden opfylder DBC og Xn ∼ Π, så er kædenreversibel og π er en stationær tæthedsfunktion.

Page 39:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

4.1 Markov kæder 29

Bevis. Kun det diskrete tilfælde bevises, det kontinuerte følger på tilsvarendevis.For at bevise, at Markov kæden er reversibel, antager vi, at Xn ∼ Π. Sågælder der, at

P (Xn = x,Xn+1 = y) = P (Xn = x)P (Xn+1 = y|Xn = x)= π(x)p(y|x)= π(y)p(x|y)= P (Xn = y)P (Xn+1 = x|Xn = y)= P (Xn+1 = x,Xn = y),

hvilket beviser at kæden er reversibel.Der gælder, at

P (Xn+1 = y) =∑x

P (Xn = x,Xn+1 = y)

=∑x

P (Xn = y,Xn+1 = x)

= P (Xn = y) = π(y),

det vil sige, at X1 ∼ Π, hvilket beviser, at Π er en stationær fordeling.

Definition 4.6.Lad en Markov kæde have stationær fordeling Π. Kæden siges, at væreΠ- eller π-irreducibel, hvis der for alle x ∈ Ω og A ⊆ Ω med Π(A) > 0eksisterer et n, så Pn(x,A) > 0. Endvidere er kæden Harris recurrent,hvis

P (Xn ∈ A for uendeligt mange n|X0 = x0) = 1.

I overensstemmelse med definitionen, kan vi også udtrykke Π-irreducibilitetsom, at uanset hvilken tilstand Markov kæden befinder sig i, findes n såder er en (positiv) sandsynlighed for, at den efter n iterationer befindersig i en hvilken som helst tilstand i udfaldsrummet. Lad τA være antal ite-rationer der foretages inden kæden første gang besøger A, det vil sige, atτA = minn ≥ 1|Xn ∈ A. Hvis P (τA < ∞|X0 = x) = 1 for alle x ∈ A,så er kæden Harris reccurent. Med andre ord, for en π-irreducibel Markovkæde, der startes i x ∈ A, er der en positiv sandsynlighed for at kædenvender tilbage til A, og hvis kæden endvidere er Harris recurrent, så er den-ne sandsynlighed 1.Det kan vises, at irreducibilitet medfører entydighed af den stationære for-deling [oKKB04].

Sætning 4.7 (De store tals stærke lov for Markov kæder). Lad(X0,X1, . . .) være en π-irreducibel Markov kæde, hvor π er den stationære

Page 40:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

30 4. Markov kæde Monte Carlo

tæthedsfunktion og lad h : Ω → R være en funktion så middelværdien θ =∫h(x)π(x)dx eksisterer. For et arbitrært m ∈ N0 definerer vi det empiriske

gennemsnit ved

θn =1

n+ 1

m+n∑i=m

h(Xi).

Så eksisterer der en mængde C ⊆ Ω, hvorom der gælder, at Π(C) = 1 og foralle x ∈ C gælder der, at

P (θn → θ når n→∞|X0 = x) = 1. (4.3)

Endvidere gælder der, at hvis kæden er Harris reccurent, så kan vi vælgeC = Ω.

Irreducibiliteten sikrer konsistens af estimatet θn for alle starttilstande x ∈ Cog Harris recurrens sikrer endvidere, at det gælder for alle starttilstandex ∈ Ω.

Sætning 4.8. For en Π-irreducibel Markov kæde med stationær fordelingΠ, gælder der, at hvis Xm er simuleret fra Π, så er

E[θn] = θ,

det vil sige, at θn er en middelværdiret estimator for θ.

Bevis. Idet Xm ∼ Π, hvor Π er den stationære fordeling, så gælder der fork ≥ m, at Xk ∼ Π. Heraf får vi, at

E[θn] = E

[1

n+ 1

m+n∑i=m

h(Xi)

]

=1

n+ 1

m+n∑i=m

E[h(Xi)]

=1

n+ 1(n+ 1)θ

= θ.

Bemærk, at hvis Xm ikke er fra den stationære fordeling, så er θn ikke mid-delværdiret, men ifølge (4.3) har dette ikke den store betydning, da θn kon-vergerer mod θ med sandsynlighed 1, når n→∞.

Definition 4.9.Vi siger at m er et burn-in for Markov kæden, når vi forventer, at kædenhar opnået sin stationære fordeling Π i Xm.

Page 41:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

4.2 Metropolis-Hastings algoritme 31

Definition 4.10.En Π-irreducibel Markov kæde siges at være periodisk med perioden n,hvis der eksisterer en inddeling af udfaldsrummet Ω = A0 ∪ A1 ∪ . . . ∪An−1 ∪ An i n + 1 > 2 disjunkte mængder A0, . . . , An, hvor P (An) = 0og

x ∈ A0 ⇒ P (A1|x) = 1,x ∈ A1 ⇒ P (A2|x) = 1,

...x ∈ An−2 ⇒ P (An−1|x) = 1,x ∈ An−1 ⇒ P (A0|x) = 1.

Hvis kæden ikke er periodisk, siges den at være aperiodisk.

Enhver π-irreducibel Markov kæde er aperiodisk, hvis hændelsen Xn+1 =Xn er mulig, når Xn ∼ Π, det vil sige, at∫

P (x|x)π(x)dx > 0.

Sætning 4.11 (Konvergenssætningen for Markov kæder). For en Π-irreducibel og aperiodisk Markov kæde, hvor Π er den stationære fordeling,eksisterer der en mængde C ⊆ Ω, så Π(C) = 1 og for alle x ∈ C og A ⊆ Ωgælder der, at

P (Xn ∈ A|X0 = x) → Π(A) når n→∞.

Endvidere gælder der, at når kæden er Harris recurrent, så kan vi vælgeC = Ω.

Antagelsen om irreducibilitet sikrer, at der eksisterer en entydig stationærfordeling, mens aperiodicitet sikrer at overgangskernen konvergerer mod den-ne. Så hvis vi har en Π-irreducibel Markov kæde, så kan vi bruge denneMarkov kæde til at simulere fra fordelingen Π.

4.2 Metropolis-Hastings algoritme

Metropolis-Hastings algoritmen er en Monte Carlo metode som anvendersåkaldte forslag genereret fra en forslagsfordeling og acceptsandsynligheder,og samtidig er konstrueret således at DBC er opfyldt.

Page 42:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

32 4. Markov kæde Monte Carlo

Definition 4.12.Lad q(y|x) være en tæthedsfunktion for y givet x på Ω for ethvert x ∈ Ω.Så kaldes q(y|x) en forslagstæthedsfunktion, og Q(A|x), givet ved

Q(A|x) =∫Aq(y|x)dy, A ∈ Ω

kaldes forslagsfordelingen.Lad endvidere a(y|x) være et tal mellem 0 og 1, så er a(y|x) givet xacceptsandsynligheden for Y = y, som er simuleret fra fordelingen Q,altså sandsynligheden for at acceptere forslaget y.Desuden er

r(x) = 1−∫a(y|x)q(y|x)dy

sandsynligheden for, at vi ikke accepterer forslaget, som også kaldetforkastelses sandsynligheden.

Metropolis-Hastings algoritmen genererer en Markov kæde ved hjælp af enforslagsfordeling, en acceptsandsynlighed og en Monte Carlo-metode, og denkonstrueres på følgende måde.

Metropolis-Hastings algoritme

Lad der gælde for X0 = x, at π(x) > 0 1. For n = 0,1, . . ., givet Xn udføresfølgende.

• Generer Un+1 fra den uniforme fordeling på intervallet [0,1] og Yn+1

fra fordelingen Q med tilhørende tæthedsfunktion q(y|Xn).

• Lad

Xn+1 =Yn+1, hvis Un+1 ≤ a(Yn+1|Xn)Xn, ellers.

Specielt for Metropolis-Hastings algoritmen har vi, at

P (A|x) = r(x)1[x ∈ A] +∫Aq(y|x)a(y|x)dy,

og ved at betragte det diskrete tilfælde, ser vi at

p(y|x) = r(x)1[x = y] + a(y|x)q(y|x).

For at DBC er opfyldt, skal der gælde at

π(x)(r(x)1[x = y] + q(y|x)a(y|x)) = π(y)(r(y)1[x = y] + q(x|y)a(x|y)),1Dette antages, for så ved vi at π(Xn) > 0 med sandsynlighed 1 for alle n ≥ 0.

Page 43:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

4.2 Metropolis-Hastings algoritme 33

men da r(x)1[x = y]π(x) = r(y)1[x = y]π(y), kan vi nøjes med at kræve, at

π(x)q(y|x)a(y|x) = π(y)q(x|y)a(x|y)

for at DBC er opfyldt.Hvis π(x)q(y|x) > 0, ser vi at acceptsandsynligheden skal opfylde at

a(y|x) = H(y|x)a(x|y) ≤ H(y|x),

hvor

H(y|x) =π(y)q(x|y)π(x)q(y|x)

er det såkaldte Hastings forhold. Hvis π(x)q(y|x) = 0 lader vi

H(y|x) = ∞.

I Metropolis-Hastings algoritmen anvendes den højeste acceptsandsynlighed,som opfylder DBC, det vil sige, at Metropolis-Hastings algoritmen benytteracceptsandsynligheden

a(y|x) = min1,H(y|x).

Da Metropolis-Hastings algoritmen kun afhænger af π i forbindelse medforholdet π(Yn+1)/π(Xn) fra Hastings forholdet, behøver vi kun at kendeπ op til proportionalitet, hvilket er en af fordelene ved Metropolis-Hastingsalgoritmen. Dette betyder, at vi kan simulere fra en fordeling, posteriorfordelinger, hvor man ikke kender normeringskonstanten.Det ses at Metropolis-Hastings algoritmen genererer en Markov kæde, idetXn+1 kun afhænger af Xn per konstruktion.Da Metropolis-Hastings algoritmen er konstrueret således at DBC er op-fyldt, er Markov kæden, der genereres af denne, reversibel og har Π som sinstationære fordeling, jævnfør Sætning 4.5 på side 28.

Sætning 4.13. Hvis forslagstæthedsfunktionen q(y|x) > 0 for alle x,y ∈Ω, så er Markov kæden der genereres af Metropolis-Hastings algoritmen π-irreducibel.

Bevis. Da

P (A|x) ≥∫Aq(y|x)a(y|x)dy > 0,

er Markov kæden Π-irreducibel ifølge Definition 4.6 på side 29.

Endvidere er Markov kæden aperiodisk, hvis der eksisterer mindst ét y såa(y|x) < 1 givet x ∈ Ai, da der så gælder, at x ∈ Ai ⇒ P (Ai+1|x) < 1.

Page 44:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

34 4. Markov kæde Monte Carlo

4.2.1 Metropolis algoritmen

Metropolis algoritmen er en Metropolis-Hastings algoritme hvor forslagstæt-hedsfunktionen er symmetrisk, det vil sige, at

q(y|x) = q(x|y),

og dermed får vi, at Hastings forholdet for en Metropolis algoritme er givetved

H(y|x) =π(y)π(x)

.

Eksempel 4.14.Vi konstruerer en Markov kæde med udfaldsrum Ω = R ved hjælp af Metropo-lis algoritmen. For x,y ∈ R definerer vi forslagstæthedsfunktionen til at være

q(y|x) =1√2π

exp(−1

2(y − x)2

),

det vil sige, at y|x ∼ N(x,1), og det ses at denne er symmetrisk da q(y|x) =q(x|y).Lad R0,R1, . . . være uafhængige og standard normalfordelte og lad U1, U2, . . .være uafhængige og uniform fordelt på intervallet [0,1] og lad Ui være uaf-hængig af Rj for alle i,j ∈ N0.Desuden lader vi π(x) betegne en arbitrær tæthedsfunktion, hvor π(x) > 0for alle x ∈ R. Vi lader X0 = R0 og

Xn+1 =Yn+1, hvis Un+1 ≤ a(Yn+1|Xn)Xn, ellers

for n = 0,1, . . ., hvor Yn+1 er et forslag, givet ved Yn+1 = Xn +Rn+1.Det ses, at, hvis π(Yn+1) ≥ π(Xn), så accepterer vi forslaget Yn+1, idetUn+1 ≤ 1 = a(Xn,Yn+1) er opfyldt, det vil altså sige, at hvis forslaget Yn+1

er mere sandsynligt endXn, så accepterer vi altid forslaget. Hvis der derimodgælder, at π(Yn+1) < π(Xn), så er der blot en chance for, at vi acceptererforslaget. Chancen er givet ved π(Yn+1)/π(Xn).Denne konstruktion kaldes en Metropolis random walk algoritme og hvis π ertæthedsfunktionen for en standard normalfordeling, kan den implementeresi R ved hjælp af følgende kode.

Metropolis.random.walk <- function(n,x)X <- numeric()X[1] <- xfor(i in 2:(n+1))

Y <- X[i-1]+rnorm(1)if (runif(1)<exp((X[i-1]^2-Y^2)/2)) X[i] <- Yelse X[i] <- X[i-1]

Page 45:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

4.2 Metropolis-Hastings algoritme 35

X

For at se om vi kan genkende fordelingen af de simulerede værdier, laver viet histogram i R ved hjælp af kommandoen

> hist(Metropolis.random.walk(10000,4))

hvor vi har valgt at algoritmen skal foretage 10000 simuleringer, og at viskal starte i x0 = 4 2. Af Figur 4.1, ses det at dette ligner standard normal-fordelingen, hvilket stemmer godt overens med at det var den vi gerne villesimulere fra.

Histogram of Metropolis.random.walk(10000, 4)

Metropolis.random.walk(10000, 4)

Fre

quen

cy

−2 0 2 4

050

010

0015

00

Figur 4.1: Histogrammet for 10000 simulationer fra en standard normal-fordeling.

Fremover henviser vi til denne konstruktion med betegnelsen Metropolis-kæden. Initialfordelingen for denne kæde er givet ved standard normalfor-delingen, idet X0 = R0, hvor R0 ∼ N(0,1). Da Metropolis-kæden er et sær-tilfælde af Metropolis-Hastings algoritmen opfylder Metropolis-kæden DBCog den er derfor også reversibel og har Π som sin stationære fordeling ifølgeSætning 4.5 på side 28. Endvidere er Metropolis-kæden π-irreducibel ifølgeSætning 4.13 på side 33.

2Denne værdi er valgt tilfældigt.

Page 46:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

36 4. Markov kæde Monte Carlo

For at vise at kæden er aperiodisk antager vi, at den er periodisk. Så gælderder, at når x ∈ Ai, så er P (Ai+1|x) = 1 og dermed P (Ai|x) = 0, men detteer en modstrid med konstruktionen af Metropolis-kæden, idet der for dennegælder, at P (Ai|x) > 0, når x ∈ Ai. Dermed er kæden aperiodisk.

u

4.2.2 Gibbs sampling

Gibbs sampling er et særtilfælde af Metropolis-Hastings algoritmen der si-mulerer fra en simultan fordeling, det vil sige, at den simulerer små blokke afkæden ad gangen. For at simplificere fremstillingen nøjes vi med at betragtesimuleringen af blokke af længde to, det vil sige, at vi kan lade Ω = Ω1×Ω2.Vi ønsker at simulere (X1,X2) fra en simultan fordeling. For Metropolis-Hastings gælder der, at der er to forslagstæthedsfunktioner givet ved hen-holdsvis q1(y1|x1,x2) og q2(y2|x1,x2), hvorfra vi først får forslaget (y1,x2)og efter det er blevet afgjort om dette accepteres eller ej, får vi fra q2 etforslag (x1,y2). Tilsvarende er der to acceptsandsynligheder,

a1(y1|x1,x2) = min

1,π(y1,x2)q1(x1|y1,x2)π(x1,x2)q1(y1|x1,x2)

(4.4)

og

a2(y2|x1,x2) = min

1,π(y2,x1)q1(x2|y2,x1)π(x1,x2)q1(y2|x1,x2)

. (4.5)

Ved Gibbs sampling lader vi

q1(y1|x1,x2) = π1(y1|x2) =π(y1,x2)π(x2)

og

q2(y2|x1,x2) = π2(y2|x1) =π(y2,x1)π(x1)

,

hvor π1(y1|x2) og π2(y2|x1) kaldes full conditionals, og endvidere antager vi,for at simplificere, at π(xi,xi+1) > 0 for alle (xi,xi+1) ∈ Ω. Ved indsættelseaf π1(y1|x2) i (4.4), ses det at

a1(y1|x1,x2) = min

1,π(y1,x2)π1(x1|x2)π(x1,x2)π1(y1|x2)

= min

1,π(y1,x2)

π(x1,x2)π(x2)

π(x1,x2)π(y1,x2)π(x2)

= 1,

og på tilsvarende vis ved at indsætte π2(y2|x1) i (4.5) fås at a2(y2|x1,x2) = 1.

Page 47:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

4.2 Metropolis-Hastings algoritme 37

Dette betyder, at forslagene altid accepteres. For Gibbs sampling er fullconditionals altså de eneste tæthedsfunktioner vi skal bruge til simulationen.For at opsummere, så genererer Gibbs sampleren (X1,n,X2,n) ud fra følgende,

X1,n er genereret fra tæthedsfunktionen π1(•|X2,n−1),X2,n er genereret fra tæthedsfunktionen π2(•|X1,n).

Det ses at DBC er opfyldt for hver opdatering i Gibbs sampleren, idet

π(x1,x2)π1(y1|x2) = π(x1,x2)π(y1,x2)π1(x2)

= π(y1,x2)π1(x1|x2),

og dermed kan vi sige, at hver opdatering er reversibel og har stationærfordeling Π. Hvis (X1,X2) ∼ Π, A ⊆ Ω1 og B ⊆ Ω2 får vi at

P (Y1 ∈ A,X2 ∈ B) = P (Y1 ∈ A|X2 ∈ B)P (X1 ∈ Ω1,X2 ∈ B)

=∫

Ω1

∫B

∫Aπ1(y1|x2)π(x1,x2)dy1dx2dx1

=∫B

∫Aπ1(y1|x2)π1(x2)dy1dx2

=∫B

∫Aπ1(y1,x2)dy1dx2

= Π(A×B),

det vil sige, at når (X1,X2) ∼ Π, så er (Y1,X2) ∼ Π og dermed har kæ-den stationær fordeling Π. Endvidere kan det vises, at under antagelsen afat π(xi,xi+1) > 0 for alle (xi,xi+1) ∈ Ω er kæden Harris recurrent og aperi-odisk [oKKB04].For k-dimensioner, hvor k > 2, kan Gibbs sampleren defineres på tilsvarendemåde og dermed kan vi simulere (X1,n,X2,n, . . . ,Xk,n). Når simuleringenaf (X1,n,X2,n, . . . ,Xk,n) foregår ved at man først genererer X1,n, dernæstX2,n, . . . , og til sidst Xk,n, siges Gibbs sampleren at være cyklisk.

Eksempel 4.15.Vi ønsker at simulere fra en to-dimensionel normalfordeling,

π(x1,x2) =1

2π√

1− ρ2exp

(− 1

2(1− ρ2)(x2

1 + x22 − 2ρx1x2)

).

Det ses at X1 ∼ N(0,1) og X2 ∼ N(0,1) og dermed at ρ = Cov(X1,X2).Når vi simulerer fra den to-dimensionelle normalfordeling, skal vi altså ogsågerne få at X1 og X2 er standard normalfordelte.

Page 48:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

38 4. Markov kæde Monte Carlo

Hvis vi betinger med x2, ser vi at

π(x1|x2) ∝ exp(− 1

2(1− ρ2)(x1 − ρx2)2

),

det vil sige, at X1|X2 ∼ N(ρX2, 1− ρ2) og på tilsvarende vis gælder der, atX2|X1 ∼ N(ρX1, 1− ρ2).Gibbs sampleren genererer nu (X1,n,X2,n) ud fra følgende,

X1,n er genereret fra N(ρX2,n−1, 1− ρ2)

X2,n er genereret fra N(ρX1,n, 1− ρ2).

I R kan denne Gibbs sampler implementeres ved hjælp af følgende,

Gibbs.bivariat.normal <- function(n,p,x1,x2)X1 <- numeric()X2 <- numeric()X1[1] <- x1X2[1] <- x2for (i in 2:n)

X1[i] <- rnorm(1,p*X2[i-1],1-p^2)X2[i] <- rnorm(1,p*X1[i],1-p^2)

return(plot(X1,X2),ylim=c(-3,4),xlim=c(-4,4),pch=20)

> Gibbs.bivariat.normal(10000, 0.4, 1,1)

og vi ser outputtet af Gibbs sampleren på Figur 4.2 på modstående side,hvor det ses at dette ligner en to-dimensionel normalfordeling. Endvidereses histogrammer af X1 og X2 på Figur 4.3 og som forventet ligner dissestandard normalfordelinger.

u

Gibbs sampling er en meget anvendt metode til at simulere fra fordelinger,og programmer som blandt andet WinBUGS3 og JAGS4 benytter Gibbssampling.

3Windows-versionen af BUGS = Bayesian inference Using Gibbs Sampling4Just Another Gibbs Sampler

Page 49:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

4.2 Metropolis-Hastings algoritme 39

−4 −2 0 2 4

−3

−2

−1

01

23

4

X1

X2

Figur 4.2: Spredningsplot bestående af 10000 iterationer for den to-dimensionelle normalfordeling, lavet ved hjælp af Gibbs sampleren.

Histogram of X1

X1

Fre

quen

cy

−4 −2 0 2 4

050

010

0015

0020

00

Histogram of X2

X2

Fre

quen

cy

−2 0 2 4

050

010

0015

0020

00

Figur 4.3: Histogrammer for 10000 simulationer af X1 og X2.

Page 50:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 51:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Kapitel 5

Forsøgsopstillingen ogdatasættet

I dette kapitel betragter vi, hvorledes forsøget er udført og hvilke data der erblevet indsamlet og målt. Til forsøget blev der udvalgt 40 forsøgspersoner allemed tilknytning til Forskningens hus [for], hvor KVFC har deres faciliteter.

5.1 Forsøgsbeskrivelse

De fyrre personer har hver især, ved hjælp af et spørgeskema, afgivet informa-tioner om deres livsstil, det vil sige kostvaner, rygevaner og alkoholforbrug.Desuden har de fået taget blodprøver, som er sendt til videre analyse ogderudover er deres FMD og blodtryk blevet målt.Målingen af FMD udføres ved hjælp af ultralydsscanning, og forløber således,at en forsøgsperson lægger sig på briksen og slapper af i nogle minutter forat få pulsen i ro før målingen. Observatøren placerer ultralydsscanneren påunderarmen på en sådan måde, at der på den tilsluttede computer vises et“klart”1 billede af pulsåren. Ultralydsscanneren spændes fast i den ønskedeposition og der optages en filmstreng, der varer fire pulsslag. Nu aktiveresen manchet, som er placeret på forsøgspersonens overarm, hvilket resultereri, at der ikke kommer blod til armen. Når manchetten deaktiveres udviderpulsårerne sig. Efter fem minutter løsnes manchetten og observatøren optagerefter 60 sekunder endnu en filmstreng ligeledes af fire pulsslag. Der er ogsåforetaget målinger med nitroglycerin, som foregår på tilsvarende måde, cirka15 minutter efter manchet målingen, hvor der i stedet for at anvende enmanchet, sprøjtes nitroglycerin under tungen. I det følgende omtaler vi kunforsøget med brug af manchet, da forsøget med brug af nitroglycerin harsamme opbygning.Man beregner FMD ved at fastholde filmstrengen lige før hver af de fire

1Her menes et billede velegnet til at måle på, det vil for eksempel sige tydelig afmærk-ning af blodårens vægge.

41

Page 52:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

42 5. Forsøgsopstillingen og datasættet

pulsslag. Derved opnåes fire målinger, hvortil gennemsnittet kan beregnes.Selve målingen foregår ved, at observatøren måler ortogonalt fra pulsårensene kant til den anden. Denne måling skal foretages samme sted på hvert afde fire billeder. Man beregner både gennemsnittet af de fire målinger for dia-meteren ved baseline2 og for diameteren efter brug af manchet. Differensenmellem disse to gennemsnit er så værdien af FMD målt i mm. Denne værdikan også repræsenteres som procentvis udvidelse udfra følgende,

defter − dfør

dfør· 100%,

hvor dfør og defter betegner gennemsnittet af diametrene målt i mm før ogefter brug af manchet.I måleprocessen er der op til flere potentielle fejlkilder. Billedet af pulsårenskal være tydeligt, for at man efterfølgende kan måle diameteren nøjag-tigt. Det er ligeledes vigtigt, at filmstrengen før og efter manchetten er op-taget samme sted på pulsåren, hvorfor det er væsentligt, at forsøgspersonenforholder sig i ro under forsøget.Efter, at manchetten er løsnet, går der 45-60 sekunder før, at blodåren harnået sin maksimale udvidelse, hvorefter blodåren returnerer til baseline. Deter vigtigt at der ved alle målinger ventes det samme tidsrum for sammen-lignelige målinger. Ved selve målingen på filmstrengen fryses billedet manueltlige før et hjerteslag. Årsagen til dette tidspunkt er, at pulsårerne her er mesti ro. Observatøren skal altså ramme samme sted i hjertecyklusen på beggefilmstrenge. Derudover skal observatøren være omhyggelig med, at målingenpå begge filmstrenge foretages på det samme sted på pulsåren. Ligeledesskal der måles ortogonalt på pulsårens kanter og markøren skal placeres pådet rette sted på kanten. Disse tre vurderinger foretages per øjemål. Densidstnævnte vurdering besværliggøres af opløsningen på computerskærmen.Grundet disse potentielle fejlkilder er det ikke uvæsentligt at undersøge, hvorstor forskel der er i observatørenes målepræcision. Målingerne af FMD er der-for foretaget af to omgange. Først har forsøgspersonerne fået målt blodtrykog FMD af observatør 1 og en måned senere udfører observatør 1 nye målingerog observatør 2 udfører ligeledes målinger af FMD, dog uden forsøget medbrug af nitroglycerin.Det forudsættes at den enkelte forsøgsperson ikke ændrer livsstil i løbet afdenne måned, så evnen til udvidelse af blodåren bør derfor ikke have ændretsig markant. Observatør 1 måler endnu en gang på billederne af sin andenmåling med manchet, men denne gang uden at kunne forbinde billedernemed den enkelte forsøgsperson. Desuden får hver person taget en blodprøveved første og andet besøg.

2Baseline er betegnelsen for diameteren af blodåren i afslappet tilstand.

Page 53:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

5.2 Beskrivelse af datasættet 43

5.2 Beskrivelse af datasættet

Datasættet består af resultaterne fra blodprøverne, målinger af FMD ogblodtryk, samt informationer om forsøgspersonerne, som er indsamlet viaspørgeskema.Til den første problemstilling anvender vi kun den del af datasættet somindeholder målinger af FMD fra de to observatører, hvor observatør 1 harudført tre målinger med manchet og to med nitroglycerin, og observatør 2har udført en måling med manchet.Vi nøjes med at betragte de målinger, der er foretaget ved brug af manchet,idet vi ikke kan udtale os om hvorvidt blodårer udvider sig lige meget vedhjælp af henholdsvis manchet og nitroglycerin, og da der er flest målingermed manchet falder valget på disse. Vi vælger FMD i procent som sammen-ligningsgrundlag, da procentangivelser nedjusterer forskelle i baseline. FMDfor person i noteres ved henholdsvis

fpia, fpib, fpic og fpie,

hvor indekset a svarer til målingen foretaget af observatør 1 første gang, bsvarer til målingen foretaget af observatør 1 anden gang, c svarer til kon-trolmålingen foretaget af observatør 1 og e svarer til målingen foretaget afobservatør 2.Ud over målingerne af FMD består datasættet af nogle fysiologiske vari-able blandt andet alder, køn, BMI og fedtprocent, men over halvdelen afdatamaterialet stammer fra blodprøverne. Desuden er der oplysningerne fraspørgeskemaet vedrørende kost, indtagelse af alkohol og rygevaner. Denne delaf datasættet er beregnet på at undersøge hvilke faktorer, der har indvirkenpå FMD.I Appendiks A ses variabelnavnene på de fysiologiske data, der er blevetindsamlet vedrørende forsøgspersonerne, i Tabel A.1. I Tabel A.2 og A.3 sesvariabelnavnene på de indsamlede data, fra de to blodprøver ved henholdsvisførste og anden måned, hvilket ved Tabel A.2 angives ved 1 eller 2 og ved A.3med f og e. I Tabel A.4 ses variabelnavnene på oplysninger, der er indsamletvedrørende forsøgspersonernes livsstil.

Page 54:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 55:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Kapitel 6

Behandling af målepræcision

I dette kapitel behandler vi den første problemstilling, der går ud på atbestemme en givet observatørs varians og at afgøre hvorvidt målinger frato observatører afviger fra hinanden. Først introducerer vi teorien for dengenerelle lineære model og anvender denne for at beregne observatør 1’smålepræcision. Herefter undersøger vi hvorvidt de to observatører måler detsamme. Til det formål kigger vi på hypotese tests og anvender den teori pådifferenser mellem de to observatørers målinger. Til sidst undersøger vi deto observatørers varians ved at opdele disse i varianskomponenter.

6.1 Den generelle lineære model

I denne model betragter vi en vektor x der består af n uafhængige normal-fordelte observationer med samme varians. Den generelle lineære model kanudtrykkes som

x ∼ N(Aθ,φI),

hvor I er en n×n identitetsmatrix, A er en kendt n× r matrix som designesefter den forestående problemstilling og θ er en ukendt r× 1 vektor. [Lee04]

6.1.1 Approksimation ved MLE

Vi ønsker at approksimere θ og φ. Til dette formål anvender vi først MLE,som er den klassiske tilgangsvinkel.Likelihoodfunktionen for den generelle lineære model, er givet ved

l (θ,φ|x) =1

(2π)n2

√det(φI)

exp(−1

2(x−Aθ)T (φI)−1(x−Aθ)

)= (2πφ)−

n2 exp

(−(x−Aθ)T (x−Aθ)

), (6.1)

se eventuelt Appendiks B.9.

45

Page 56:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

46 6. Behandling af målepræcision

Ved at betragte likelihoodfunktionen ses det, at maksimum likelihood esti-matet for θ svarer til at minimere længden af x−Aθ, hvilket kan gøres vedhjælp af mindste kvadraters metode. Mindste kvadraters løsning er beskreveti appendiks D.Vi bemærker først, at for ethvert valg af θ gælder der, at Aθ ∈ Col A. Dereksisterer dermed en vektor θ, som minimerer ||x−Aθ|| og hvor Aθ er givetved projektionen af x på Col A, se Lemma D.2. Fra Lemma D.3 ved vi at(x−Aθ) ∈ (Col A)⊥.Ved hjælp af det andet udtryk i Lemma D.4 fås dermed at

AT (x−Aθ) = 0

mATx = ATAθ.

Hvis ATA er invertibel så er

θ = (ATA)−1ATx. (6.2)

6.1.2 Udledning af posterior

I dette afsnit følges den bayesianske tilgangsvinkel ved at finde posteriorfordelinger for θ og φ. Vi antager, at vi ikke har nogen prior viden om θ ogφ og derfor vælger vi en prior p(θ,φ) ∝ 1/φ, som er produktet af

p(θ) ∝ 1 og p(φ) ∝ 1φ.

Valget af p(φ) afspejler, at vi anser “små” værdier for φ som værende meresandsynlig end “store”. Med dette valg af prior og (6.1) på foregående side,får vi posterior tæthedsfunktionen givet ved

p (θ,φ|x) ∝ φ−n2−1 exp

(−(x−Aθ)T (x−Aθ)

).

Ved hjælp af (6.2) kan vi omskrive kvadratet i posterior tæthedsfunktionensom

S := (x−Aθ)T (x−Aθ) = θTATAθ − 2θTATx+ xTx

= θTATAθ − 2θTATx+ xTx+(θTATAθ − θTATAθ

)= (θ − θ)TATA(θ − θ) + xTx− θTATAθ= St(θ) + Se,

hvorSt(θ) = (θ − θ)TATA(θ − θ), Se = xTx− θTATAθ.

Page 57:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.1 Den generelle lineære model 47

St(θ) er ikke-negativ, da udtrykket er på formen uTu og den er nul netophvis θ = θ. Se er den mindste værdi som S kan antage og er derfor positiv.Posterioren kan nu udtrykkes som

p(θ,φ|x) ∝ φ−n2−1 exp

(−1

2 (St(θ) + Se)φ

). (6.3)

Betinges med φ er

p(θ|φ,x) ∝ exp

(−1

2St(θ)φ

)(6.4)

= exp(−1

2(θ − θ)T A

TA

φ(θ − θ)

).

Heraf ses, at a posteriori følger θ en flerdimensional normal fordeling (seAppendiks B.9) med

µ = θ, X = θ, Σ−1 =ATA

φ.

I vores senere anvendelse af den generelle lineære model er vi interesserede ipræcisionen og dermed variansen. Derfor finder vi nu den marginale posteriorfordeling for φ, som fremkommer ved at integrere θ ud af (6.3).

p(φ|x) ∝∫φ−

n2−1 exp

(−1

2St(θ) + Se

φ

)dθ

=∫φ−

n2−1 exp

(−1

2St(θ)φ

)exp

(−1

2Seφ

)dθ

= φ−n2−1 exp

(−1

2Seφ

)∫exp

(−1

2St(θ)φ

)dθ. (6.5)

For at kunne håndtere integralet i (6.5) bemærker vi, at udtrykket er enunormeret flerdimensional normalfordeling på samme form som (6.4).Dermed får vi, at

p(φ|x) ∝ φ−n2−1 exp

(−1

2Se

φ

)(2π)

r2

√det (φ(ATA)−1)

= φ−n2−1 exp

(−1

2Se

φ

)(2π)

r2φ

r2

√det ((ATA)−1)

∝ φ−n−r

2−1 exp

(−1

2Seφ

).

Dette er den marginale posterior fordeling for φ og kan genkendes som enskaleret invers χ2 fordeling, så

φ|x ∼ Seχ−2(n−r).

Page 58:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

48 6. Behandling af målepræcision

6.1.3 Anvendelse af den generelle lineære model

Vi kan opstille en generel lineær model og ved hjælp af denne estimere va-riansen for observatør 1. Vi antager, at FMD målingerne er normalfordelte.Derudover antager vi, at der er varianshomogenitet, altså at observatørenmåler med konstant varians. Da observatør 1 har målt fpib og fpic på de sam-me billeder, antager vi endvidere, at disse har samme middelværdi, det vilsige, at vi lader θibc := θib = θic. Vi har altså, at både fpib, fpic ∼ N(θibc,φ).Derimod kan vi ikke være sikre på, at forsøgspersonen ikke har ændret livsstili løbet af den måned der gik mellem første og anden måling og derfor antagervi ikke, at θia = θibc. Vi antager i stedet, at θibc = θia + di, hvor di ∈ R. Vianvender nu den generelle lineære model,

x ∼ N(Aθ,φI),

hvor

xT = (fp1a, . . . , fp40a, fp1b, . . . , fp40b, fp1c, . . . , fp40c)1×120,

A =

I40×40 040×40

I40×40 I40×40

I40×40 I40×40

120×80

og

θT = (θ1a, . . . , θ40a,d1, . . . , d40)1×80. (6.6)

A vælges på denne måde for, at vi ved matrixmultiplikation får θibc = θia+di.Vi udregner Se for at kunne finde den marginale posterior fordeling for φ ogvi får, at

φ|x ∼ 102,71χ−240 .

Middelværdi og varians for denne fordeling er givet ved

E[φ|x] =Seν − 2

, V ar[φ|x] =2S2

e

(ν − 2)2(ν − 4).

Derved får vi en middelværdi på 2,7 og en varians på 0,41. Posterior tætheds-funktionen for φ ses i Figur 6.1, hvor middelværdien også er markeret. Vikan konkludere, at ifølge den opstillede lineære model, er der evidens for, atobservatør 1 måler med varians 2,7.

Page 59:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.2 Hypotese test 49

1 2 3 4 5 6 7

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

x

invc

hisq

(x, 4

0)

Figur 6.1: Den marginale posterior for φ, hvor middelværdien er markeretved den lodrette linie.

6.2 Hypotese test

I hypotese tests ønsker vi at beskæftige os med situationer hvor vi har enukendt parameter θ ∈ Θ og ønsker at vide om θ ∈ Θ0 eller θ ∈ Θ1, hvor

Θ0 ∪Θ1 = Θ og Θ0 ∩Θ1 = ∅.

Vi kalder så H0 : θ ∈ Θ0 for nul-hypotesen og H1 : θ ∈ Θ1 for den alternativehypotese. Givet en mængde observerede data x, fra en observations model,ønsker vi at beregne posterior sandsynlighederne,

p0 = P (θ ∈ Θ0|x) og p1 = P (θ ∈ Θ1|x),

hvor p1 = 1− p0, og ud fra disse konkludere hvilken hypotese, H0 eller H1,der er mest sandsynlig. Vi har prior sandsynligheder π0 = P (θ ∈ Θ0) ogπ1 = P (θ ∈ Θ1) og definerer prior og posterior odds for H0 imod H1 ved

π0

π1og

p0

p1.

Et odds nær én betyder at H0 er tilnærmelsesvis ligeså sandsynlig som H1

a priori eller a posteriori, mens en høj værdi favoriserer H0 og en lav værdiH1. Vi definerer Bayes faktor som

B =p0/p1

π0/π1.

Page 60:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

50 6. Behandling af målepræcision

Idet p0/p1 = Bπ0/π1 og p1 = 1−p0 kan vi beregne posterior sandsynlighedenp0 ud fra prior sandsynlighederne og Bayes faktor ved

p0 = Bπ0

π1(1− p0)

= Bπ0

π1− p0B

π0

π1

og dermed får vi at

p0 =Bπ0/π1

1 +Bπ0/π1

=1

1 + (π1/π0)(1/B). (6.7)

6.2.1 Punkt nul-hypotese

En hypotese test på formen

H0 : θ = θ0 H1 : θ 6= θ0,

kaldes en punkt nul-hypotese. Der testes om θ er en bestemt værdi. Der kandog reelt være tale om en situation hvor

H0 : θ ∈ Θ0 = (θ0 − ε, θ0 + ε), H1 : θ 6∈ Θ0,

hvor ε > 0 er valgt så alle værdier θ ∈ Θ0 betragtes som værende det sammesom θ0. Antag at vi har en hypotese H0 : θ ∈ Θ0 = (θ0 − ε, θ0 + ε), dennekan vi approksimere med hypotesen HA : θ = θ0 såfremt posterior sandsyn-lighederne for de to hypoteser er tilnærmelsesvis ens. Dette er tilfældet, hvislikelihoodfunktionen er tilnærmelsesvis konstant på intervallet Θ0.Idet vi tjekker en punkt nul-hypotese kan vi ikke bruge en kontinuert priorda vi så får P (θ = θ0) = 0. Vi tildeler derfor en prior sandsynlighed π0 > 0for θ = θ0 og π1ρ1(θ) for værdier θ 6= θ0 hvor π1 = 1−π0 og ρ1(θ) integrerertil enhed.Lad x = (x1, . . . , xn)T være observationer så er den prædiktive tæthedsfunk-tion givet ved på formen

p(x) = π0p(x|θ0) + π1

∫ρ1(θ)p(x|θ)dθ.

Sætter vi p1(x) =∫ρ1(θ)p(x|θ)dθ kan vi skrive p(x) = π0p(x|θ0) + π1p1(x)

og får, ved anvendelse af Bayes sætning (Sætning 2.1 på side 3), posteriorsandsynligheder

p0 =π0p(x|θ0)

π0p(x|θ0) + π1p1(x)=π0p(x|θ0)p(x)

,

p1 =π1p1(x)

π0p(x|θ0) + π1p1(x)=π1p1(x)p(x)

.

Page 61:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.2 Hypotese test 51

Derfra kan vi udlede Bayes faktor som

B =p0/p1

π0/π1=p(x|θ0)p1(x)

.

Som nævnt tidligere kan en observator t være sufficient for den ukendteparameter, i dette tilfælde er beregningerne simplere. Antag, at t = t(x) ersufficient for θ givet x, da er

p(x|θ) = p(t|θ)p(x|t),

og

p1(x) =∫ρ1(θ)p(t|θ)p(x|t)dθ

= p(x|t)∫ρ1(θ)p(t|θ)dθ

= p1(t)p(x|t).

Vi har da vores posterior sandsynligheder

p0 =π0p(t|θ0)p(x|t)

π0p(t|θ0)p(x|t) + π1p1(t)p(x|t)=π0p(t|θ0)p(t)

,

p1 =π1p1(t)p(x|t)

π0p(t|θ0)p(x|t) + π1p1(t)p(x|t)=π1p1(t)p(t)

,

og Bayes faktor

B =p0/p1

π0/π1=p(t|θ0)p1(t)

.

6.2.2 Sammenligning af de to observatører

Som nævnt tidligere er en af problemstillingerne at belyse hvorvidt de to ob-servatører er enige i deres målinger. Til det formål kigger vi på differensernemellem FMD målinger i procent for de to observatører. Vi opstiller da envektor d af differenser,

d =

fp1b − fp1e...

fp40b − fp40e

.

Et QQ-norm plot for d laves, se Figur 6.2 på næste side, og det ses at deter en fornuftig antagelse at d er normalfordelt. Vi antager altså at vektorend består af uafhængige normalfordelte observationer, og desuden at di ∼N(θ, s2), hvor s2 = 5,722 er den empiriske varians for d. Grunden til denneantagelse er, at vi primært interesserer os for middelværdien og de følgendeberegninger bliver simplere når vi anvender den empiriske varians.

Page 62:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

52 6. Behandling af målepræcision

−2 −1 0 1 2

−15

−10

−5

05

10

Normal Q−Q Plot for d

Figur 6.2: QQ-norm plot for d.

Vi ønsker så at finde ud af om de to observatører er enige i deres målinger vedat betragte middelværdien for de beregnede differenser. Den ønskede tendenser at denne er nul. Til det formål opstiller vi en hypotese om middelværdiener nul, θ0 = 0 og tester denne. Realistisk set er det dog usandsynligt, at deto måler præcist det samme, vi siger derfor at et promillepoints forskel påmålingen er acceptabel og opstiller følgende hypotese,

H0 : θ ∈ Θ0 = (0− 0,05; 0 + 0,05), H1 : θ 6∈ Θ0. (6.8)

Vi har, at

l(θ|d) ∝ exp(−1

2(θ − d)2

(s2/n)

)Over intervallet Θ0 varierer likelihoodfunktionen med en faktor

exp(−1

2((0+0,05)+0,246)2

(5,722/40)

)exp

(−1

2((0−0,05)+0,246)2

(5,722/40)

) = 0,97.

Vi har altså at likelihoodfunktionen tilnærmelsesvis er konstant på intervalletΘ0, og vi approksimerer derfor vores hypotese test, H0 i (6.8), med en punktnul-hypotese test

H0 : θ = 0 H1 : θ 6= 0. (6.9)

Page 63:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.2 Hypotese test 53

Eftersom d er sufficient for θ, se eksempel 2.7 på side 8, fortsætter vi bereg-ningerne under den. Vi har, fra (3.3) på side 20, at

d|θ ∼ N(θ; 5,722/40).

Vi sætter prior sandsynligheder π0 = 0,5 for nul-hypotesen H0 og 0,5ρ1(θ)for H1. Vi lader ρ1 være tæthedsfunktionen til en normalfordeling med mid-delværdi 0 og varians 5,722. Vi beregner den prædiktive fordeling p1(d) påsamme måde som beskrevet i eksempel 2.9 på side 9, får at

d ∼ N(0; 5,722 + 5,722/40).

Vi får da Bayes faktor til

B =p(d|θ0)p1(d)

=(2π(5,722

40 ))−12 exp

(−1

2(−0,246−0)2

(5,722/40)

)(2π(5,722 + 5,722

40 ))−12 exp

(−1

2(−0,246−0)2

(5,722+5,722/40)

)= 6,18.

Posterior sandsynligheden p0 beregnes ved anvendelse af ligning (6.7), og vifår at

p0 =1

1 +B−1= 0,86. (6.10)

Vi konkluderer ved hjælp af hypotese testen at med 86% sandsynlighed ermiddelværdien for forskellen mellem målingerne fra de to observatører 0.Det kan have interesse at undersøge priorens indflydelse på det endeligeresultat, til det formål konstrueres følgende R kode.

> hypo <- function(test,prior) + z <- abs(mean(d)-test)/sqrt(var(d)/length(d))+ BayesFaktor <- (1+length(d))^(1/2)*+ exp(-(1/2)*z^2*(1+(1/length(d)))^(-1))+ return(1/(1+((1-prior)/prior)*(1/BayesFaktor)))+

Ved at plotte en kurve af hypo(0, x) får vi Figur 6.3 på næste side. Afdenne ses effekten af forskellige valg af priors.

Page 64:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

54 6. Behandling af målepræcision

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Punkt hypotese test for middelværdi 0

Prior

Pos

terio

r

Figur 6.3: Priors indflydelse på posterior.

6.3 Model for estimation af varianser

Til problemstillingen om hvorledes de to observatørers varianser forholder sigtil hinanden konstrueres en model, hvor samtlige parametre har indflydelsepå hinanden a priori. Til dette formål kan programmet WinBUGS anven-des idet programmet kan tage højde for en givet sammenhæng mellem deforskellige observationer i den aktuelle model.

6.3.1 Konstruktion af model

Man kan argumentere for, at ved hver måling er der to slags fejlkilder, derhver kan repræsenteres som en varianskomponent. Det kan deles op så denene varianskomponent består af fejlen i selve målingen af blodårens størrelse.Den anden varianskomponent udtrykker fejlen ved selve forsøgsopstillingen,altså et mål for observatørens evne til at få forsøgspersonen til at ligge stilleog evnen til at placere selve ultralydsscanneren på armen af personen.Som sagt er formålet med at konstruere denne model, at vi bliver i standtil at tage højde for det indbyrdes samspil mellem målingerne, og muligvisfå et mere informativt estimat af variansen for henholdsvis observatør 1 ogobservatør 2. Derudover er vi i stand til at estimere de nævnte varianskom-ponenter.Som tidligere antaget er FMD målingerne normalfordelte, med en given mid-

Page 65:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.3 Model for estimation af varianser 55

delværdi og varians. Vi har flere muligheder med hensyn til at opbygge dennemodel, dog har vi visse begrænsninger i og med at datasættet er forholdsvistlille. Vi er derfor nødsaget til at foretage op til flere antagelser, der eventueltkan resultere i at modellen bliver mindre præcis.Som udgangspunkt antager vi, at der er en vis sammenhæng mellem allemålinger, idet målingerne foretages på de samme 40 personer for både obser-vatør 1 og observatør 2. Denne sammenhæng kan i modellen beskrives ved, atmålingerne for observatør 1 første gang har middelværdi θi og de resterendemålinger for observatør 1 og observatør 2 har middelværdi θi + di, hvor direpræsenterer den eventuelle månedlige ændring, ligesom i Afsnit 6.1.3 påside 48. Som nævnt ovenfor er vi interesseret i at finde et estimat af vari-anserne for de to observatører. Af den årsag tillægger vi FMD målingerne tostøjled, henholdsvis ηi for fejlen under selve billeddannelsen og εi for fejlenunder målingen på billedet. Eftersom observatør 1s tredje sæt af målingerer en kontrolmåling af billederne for det andet sæt af målinger, kan vi påfornuftig vis antage, at ηi-fejlen fra andet sæt målinger gentages. Det vil alti alt sige, at målingerne kan beskrives som følger.

fpia = θi + ηia + εia

fpib = θi + di + ηib + εib

fpic = θi + di + ηib + εic

fpie = θi + di + ηie + εie.

Derudover antager vi, at observatør 1 måler med samme varians ved alle tresæt af målinger, det vil sige, at variansen τ2

a af fejlen forekommende underbilleddannelsen er den samme. Det samme er gældende for variansen af fejlenunder målingen på billedet σ2

a. Altså

ηia, ηib|τa ∼ N(0,τ2a )

εia, εib, εic|σa ∼ N(0,σ2a).

Vi antager a priori, at standard afvigelserne τa og σa begge følger en uniformfordeling på hele den positive reelle akse. Det er nødvendigt, at de kun kanantage positive værdier, idet varianser skal være større end nul. Et alternativtil en uniform fordeling er en flad gamma fordeling1, da denne også kunantager positive værdier. Derimod kan normalfordelingen ikke anvendes, idetobservationer fra en flad normalfordeling altid antager negative værdier medsandsynlighed større end nul.Med hensyn til variansen, med hvilken observatør 2 måler, har vi to valg.Det ene valg forholder sig til hvad vi er i stand til at estimere med voresdatasæt og det andet valg kommer ud af hvordan vi har defineret variansenfor observatør 1. Hvis vi skal følge tankegangen med opdelingen af variansen

1Hermed menes en gamma fordeling med en flad tæthedsfunktion.

Page 66:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

56 6. Behandling af målepræcision

for observatør 1, må det samme gælde for observatør 2, idet han også målermed en vis varians under selve billeddannelsen, τ2

e , og en hvis varians undermålingen af blodåren på billedet, σ2

e . Altså har vi igen to varianskomponenterfor observatør 2, men i modsætning til varianskomponenterne for observatør1 kan vi kun estimere summen af disse.Grunden til, at dette er muligt for observatør 1, er, at vi kan estimere vari-ansen σ2

a, idet fpib − fpic = εib − εic og derved er

εib − εic ∼ N(0,2σ2a).

Denne mulighed har vi ikke med hensyn til observatør 2, derfor kan vi re-ducere antallet af ukendte parametre i modellen med én ved kun at estimeresummen af varianskomponenterne i modsætning til at estimere dem hver forsig. Hvis vi vælger at følge tankegangen fra observatør 1 er estimatet for bådeσe og τe upræcist, da intet i vores datasæt kan indikere hvordan de forholdersig til hinanden. Det vil sige, at de svinger kraftigt, så når den ene er lavvil den anden være tilsvarende høj og omvendt. Dog vil dette valg ikke haveindflydelse på estimatet af den samlede varians for observatør 2.Middelværdien θi antager vi a priori er uniform fordelt på den positive reelleakse, idet en indsnævring af en blodåre ikke er mulig efter brug af en manchet.Eftersom en blodåre ikke kan udvides ubegrænset, kan vi begrænse den uni-forme fordeling på den positive reelle akse. En mulig begrænsning kunnevære, at man antager, at en blodåre maksimalt kan udvides 50%. Vi antageraltså, at

θi ∼ uni(0,50).

Vi kunne dog have valgt at se bort fra at en indsnævring virker ufornuftigtog antage, at a priori følger θi en flad normalfordeling omkring nul, da vi såifølge Afsnit 3.3 ved hvilke posterior fordelinger vores parametre følger, idetvi har ukendte middelværdier og ukendte varianser. Det er dog ligegyldigt,da vi foretager beregninger for vores model i WinBUGS. Rent analytisk villeen normalfordelt prior fordeling være praktisk.Endvidere inkluderer vi som sagt den månedlige personsafvigelse di i voresmodel. A priori antager vi, at denne er normalfordelt. Vi kunne antage, atprior fordelingen for di skulle være en flad normalfordeling omkring nul. Dogkan man også i dette tilfælde argumentere for, at man kan begrænse dennetil en normalfordeling med middelværdi nul og varians 20, idet en ændringpå op til ±1,96 ·

√20 ≈ 9 procentpoint lyder rimeligt i forhold til antagelsen

om at forsøgspersonerne ikke har ændret livsstil i løbet af den måned der gikmellem FMD målingerne.

6.3.2 Klassificering af model

Modellen er opbygget successivt sådan, at modellen simuleres i tre niveauer.På første niveau simuleres σa,τa,σe,τe,θ og d ud fra de respektive fordelinger.

Page 67:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.3 Model for estimation af varianser 57

Derefter simuleres ηb, som er afhængig af τa. Alle disse parametre skalsimuleres førend fpa,fpb,fpc og fpe kan simuleres idet disse er afhængigeaf de ovenstående. En sådan model kaldes hierarkisk, idet der er en form forhierarki med hensyn til simulering af parametrene. Endvidere kaldes priorfordelingerne for parametrene på første og andet niveau for hyperpriors ogselve parametrene kaldes hyperparametre, idet værdien af disse er ukendte[Lee04]. Dette overskues nemt på Figur 6.4.

Figur 6.4: Modellen i hierakisk opbygning.

6.3.3 Implementering i WinBUGS

I WinBUGS koden parametriseres normalfordelinger ved præcisionen (re-ciprok varians). Som output ser vi dog på varianserne som er de parametre vihidtil har beskæftiget os med. Som nævnt ovenfor har vi flere steder valgt enuegentlig prior fordeling, hvilket ikke kan kodes eksplicit2, derfor tilnærmervi disse med andre fordelinger. Den uegentlige uniforme fordeling erstattesmed en uniform fordeling på intervallet I = (0,106) og en uegentlig normal-fordeling erstattes med en normalfordeling med varians φ = 106. Endviderehar vi i koden inkluderet flere variable, som ikke har indflydelse på modellen,men som vi er interesseret i at undersøge. Koden i WinBUGS er som følger.

modelfor( j in 1 : 40 ) theta[j] ~ dunif(0.0,50)d[j] ~ dnorm(0.0,0.05)fp_a[j] ~ dnorm(theta[j],prec_a)fp_b[j] ~ dnorm(thetadeta[j],sigmaprec_a)fp_c[j] ~ dnorm(thetadeta[j],sigmaprec_a)fp_e[j] ~ dnorm(thetad[j],prec_e)eta_b[j] ~ dnorm(0.0,tauprec_a)thetad[j] <- theta[j] + d[j]

2Uegentlige priors er et teoretisk redskab, idet en uendelig varians i en flad normal-fordeling ikke kan kodes, det samme med en uniform fordeling, eksempelvis på hele denreelle akse.

Page 68:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

58 6. Behandling af målepræcision

thetadeta[j] <- theta[j]+d[j]+eta_b[j]sigma_a ~ dunif(0.0,1.0E6)tau_a ~ dunif(0.0,1.0E6)sigma_e ~ dunif(0.0,1.0E6)tau_e ~ dunif(0.0,1.0E6)sigmaprec_a <- 1/(sigma_a*sigma_a)tauprec_a <- 1/(tau_a*tau_a)prec_a <- 1/(tau_a*tau_a + sigma_a*sigma_a)prec_e <- 1/(sigma_e*sigma_e + tau_e*tau_e)var_a <- 1/prec_avar_e <- 1/prec_e

Denne kode kan illustreres i følgende såkaldte doodlemodel, som er en featurei WinBUGS.

Figur 6.5: Modellen i WinBUGS

Vi er nu i stand til at specificere prior fordelingerne, fordelingerne for obser-vationsmodellen og posterior fordelingerne.

Page 69:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.3 Model for estimation af varianser 59

Specifikation af prior fordelinger

Som nævnt ovenfor er prior fordelingerne givet ved hyperpriorne,

σa, τa, σe, τe ∼ uni(0,106),θi ∼ uni(0,50), i = 1, . . . ,40, θi i.i.d.

di ∼ N(0,20), i = 1, . . . ,40, di i.i.d.

ηib|τa ∼ N(0,τ2a ), i = 1, . . . ,40, ηib i.i.d.

Specifikation af observationsfordelinger

Fordelingen af observationerne fpia, er givet ved,

fpia|σa,τa,θi ∼ N(θi,σ2a + τ2

a ).

Fordelingen af henholdsvis fpib og fpic er givet ved

fpib,fpic|σa,τa,θi,ηib,di ∼ N(θi + di + ηib,σ2a + τ2

a ).

Endvidere er fordelingen af fpie givet ved

fpie|σe,τe,θi,di ∼ N(θi + di,σ2e + τ2

e ).

Specifikation af posterior fordeling

Den betingede simultane posterior tæthedsfunktion er givet ved

p(σa,τa,σe,τe,θ,d,ηb|fpa,fpb,fpc,fpe) =p(fpa,fpb,fpc,fpe, σa,τa,σe,τe,θ,d,ηb)

p(fpa,fpb,fpc,fpe)∝ p(fpa,fpb,fpc,fpe, σa,τa,σe,τe,θ,d,ηb)= p(fpa,fpb,fpc,fpe|σa,τa,σe,τe,θ,d,ηb)· p(σa,τa,σe,τe,θ,d,ηb)

= p(fpa|σa,τa,θ)p(fpb|σa,θ,d,ηb)· p(fpc|σa,θ,d,ηb)p(fpe|σe,τe,θ,d)· p(ηb|τa)p(σa,τa,σe,τe,θ)p(d).

De parametre vi er interesseret i at undersøge er de to varianskomponenterfor observatør 1, σ2

a og τ2a , variansen for observatør 2, σ2

e+τ2e , og eventuelt se

på de to varianskomponenter hver for sig med henblik på at belyse problem-stillingen om hvorvidt det er et fornuftigt valg at estimere komponenterneog ikke kun summen, som nævnt tidligere.For at finde disse marginaltæthedsfunktioner skal vi som sædvanligt integrerede resterende parametre ud. Det ses dog tydeligt, at rent analystisk er detteet krævende arbejde. Det er endnu en grund til at simulere modellen i etprogram som WinBUGS.

Page 70:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

60 6. Behandling af målepræcision

6.3.4 Initial værdier og data

Som i enhver anden kæde skal vi initialisere modellen inden vi foretager simu-leringerne. Alle parametre i første og andet niveau på Figur 6.4 på side 57skal initialiseres. Parametrene σa,τa,σe,τe og ηb initialisereres med følgendeværdier

σa,0 = τa,0 = σe,0 = τe,0 = 1ηb,0 = (η1b,0, . . . ,η40b,0) = (0, . . . ,0).

På samme måde kunne vi initialisere θ og d, dog kan dette gøres mere for-nuftigt ved at initialisere de to parametre med værdierne, som er udregnetved hjælp af (6.2) på side 46. Med dette valg af startværdier konverger-er modellen måske ved færre iterationer end hvis man havde valgt andrestartværdier.Vores data fpa,fpb,fpc,fpe er givet ved de fire sæt af FMD målinger foretagetaf de to observatører.

6.3.5 Burn-in

Når vi skal køre modellen i WinBUGS fortager vi først et burn-in. Dog kandet for visse parametre være overflødigt, da disse eventuelt konvergerer meddet samme. Dette er tilsyneladende gældende for σa, hvilket kan indses vedat betragte Figur 6.6 på næste side. På samme figur ses det, hvordan σaallerede ser ud til at befinde sig i et ligevægtsstadie, hvorimod σe foretageret stort spring efter de første få iterationer. Hvis man også betragter deresrespektive middelværdier for n = (50,200,2000,3500) iterationer ses det ogsåtydeligt, at σa konvergerer med det samme, hvorimod σe behøver et burn-in.

n E[σa] E[σe]50 1,622 10,67200 1,579 5,2582000 1,604 3,6393500 1,607 3,496

Ud fra disse middelværdier for σe kan vi argumentere for at et passendeburn-in for denne parameter kunne være n = 2000, da denne tilsyndeladendekonvergerer ved 2000 iterationer. Med samme overvejelser som ovenfor vil etpassende burn-in for τe være n = 1500. For τa er det samme gældende somfor σa, da denne også konvergerer med det samme, se Appendiks C.1.Vi vælger dog at foretage et fælles burn-in for alle parametre, da disse så kansimuleres samtidigt. Derfor laver vi n = 2000 iterationer, inden vi analysererpå de simulerede data.

Page 71:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.3 Model for estimation af varianser 61

Figur 6.6: Tidsrækker for σa og σe foretaget uden burn-in og 50 iterationer.

6.3.6 Analyse af simulationer

Vi er nu i stand til at simulere de ukendte parametre i vores model og dervedfå estimater for de givne varianser. Vi har foretaget n = 500000 iterationerog fået følgende plots i Figur 6.7.Tæthedsfunktionerne for σa, vara og vare ser pæne og glatte ud. For deto sidstnævnte ses det, at disse kan sammenlignes med en tæthedsfunktionhørende til en skaleret invers χ2-fordeling med passende parametre S ogν, se Appendiks B.6. Teoretisk set er dette ikke et overraskende resultat,idet vi fra starten valgte uegentlige prior fordelinger for de ukendte varians-komponenter og en normalfordelt ukendt middelværdi. Derudover antog viat observationsmodellen var normalfordelt, det vil sige, at vi er i et særtil-fælde af problemstillingen i Afsnit 3.3 på side 23. Derfra ved vi at posteriorfordelingen af varianserne er skaleret invers χ2-fordelt.Som nævnt tidligere stod valget mellem at estimere den samlede varians ellervarianskomponenterne hver for sig. Plottene af tæthedsfunktionerne for σeog τe i Figur 6.7 viser, hvordan valget af variansen for observatør 2 bevirkerat estimaterne bliver upræcise. Desuden ses dette også ved at betragte Tabel6.1. Det ses ligeledes i Tabel 6.1, at der er væsentligt større afvigelse i bestem-melsen af både σe og τe i forhold til for eksempel σa, idet standard afvigelsenrepræsenterer med hvilken præcision en given parameter er bestemt. Dette

Page 72:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

62 6. Behandling af målepræcision

Figur 6.7: Plots af posterior tæthedsfunktioner.

Tabel 6.1: Opsummering af data.

Page 73:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.3 Model for estimation af varianser 63

får den konsekvens, at præcisionen hvormed den samlede varians vare erestimeret, også er forholdsvis lille i forhold til den samlede varians vara forobservatør 1.Tæthedsfunktionen for τa antyder også en vis usikkerhed. Det ses i Tabel6.1 at estimatet af τa virker mere sikkert end σe og τe igen ved at betragtestandard afvigelsen for bestemmelse af den tilhørende middelværdi. Det sespå Figur 6.7 at der omkring nul sker noget afvigende for τa. Ved at betragteFigur 6.8 ses det hvordan denne parameter har tendens til at “låse” sig fast inul. Dette betyder at når først τa har antaget værdien nul har denne svært vedat ændre tilstand, dog forekommer dette fænomen kun med en forholdsvislille sandsynlighed, hvilket ses ved at betragte figuren, men også ved at se,at middelværdien for τa er 0,9316, altså forskellig fra nul.

Figur 6.8: Eksempler på hvordan τa “låses” fast i nul.

Ved igen at betragte Figur 6.1 på forrige side ses det at estimatet af densamlede varians vara for observatør 1 er vara = 3,954, altså en standardafvigelse på

√vara = 1,988. For observatør 2 er estimatet for den samlede

varians vare givet ved vare = 30,14 og dermed en standard afvigelse på 5,490.Vi kan altså konkludere, at ifølge vores model er der evidens for at observatør1 måler med større præcision end observatør 2. Endvidere er der evidens for,at den største fejl ved observatør 1s målinger forekommer ved måling påselve billedet, idet middelværdien for σa er større end middelværdien for τa.De ovenstående ræsonnementer er baseret på simulationer af FMD målingernei procent. Ved at foretage samme overvejelser i opstillingen af modellen og

Page 74:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

64 6. Behandling af målepræcision

samme beregninger med FMD målingerne i mm kan disse resultater under-støtte disse ræsonnementer. Vi nøjes med at angive selve konklusionen udenat komme ind på eventuelle overvejelser i forhold til ændringer af modellen3.Ved 500000 iterationer får vi, at observatør 1 måler med en varians på ψa =0,005429, altså en standard afvigelse på

√0,005429 = 0,0737 og observatør 2

måler med varians ψe = 0,02193 og dermed en standard afvigelse på 0,1481.Igen er der evidens for, at observatør 1 måler med større præcision endobservatør 2.

6.3.7 Prior-sensitivitet

I opbygningen af en model foretager man som sagt mange valg som kanhave konsekvenser for nøjagtigheden af modellen. I den forbindelse er manofte interesseret i at undersøge, hvor stor en ændring det giver i estimateraf ukendte parametre, hvis man vælger en alternativ prior fordeling. Vedhjælp af følgende overvejelser kan man med vurdere, hvor sensitiv modellener overfor valg af alternative prior fordelinger, fremfor at lave en ny modelog simulere kæden igen4.Lad p1(λ) være den valgte prior tæthedsfunktion i en given model og p2(λ)være en alternativ prior tæthedsfunktion, hvorom der gælder, at

p2(λ) > 0 ⇒ p1(λ) > 0. (6.11)

Ved følgende overvejelser kan man undersøge om dette valg af prior harstor konsekvens for modellen. Middelværdien af en given funktion h(λ) medhensyn til p2(λ|y), kan udtrykkes som

Ep2(λ)|y[h(λ|y)] =∫h(λ)p2(λ|y)dλ

=∫h(λ)

p2(λ|y)p1(λ|y)

p1(λ|y)dλ.

Lad

k(λ) := h(λ)p2(λ|y)p1(λ|y)

= h(λ)p(y|λ)p2(λ)/p2(y)p(y|λ)p1(λ)/p1(y)

= h(λ)p2(λ)p1(y)p1(λ)p2(y)

.

3De figurer, der ligger til grund for vores overvejelser, kan ses i Appendiks C.2.4I vores tilfælde tager det ca. tyve minutter at foretage de n = 500000 iterationer,

så at lave en ny model og simulere kæden igen vil ikke være et problem. Derimod tagergennemløb af modeller ofte længere tid og i sådanne tilfælde er analytiske beregningernyttige.

Page 75:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.3 Model for estimation af varianser 65

Vi har nu, at

Ep2(λ|y)[h(λ)|y] =∫k(λ)p1(λ|y)dλ

= Ep1(λ|y)[k(λ)|y]

≈ 1n

n∑i=1

k(λi), λi ∼ P1,

hvor P1 er posterior fordelingen med hensyn til prioren p1(λ).Desuden gælder der, at

p2(y) =∫p(y|λ)p2(λ)dλ

=∫p(y|λ)p2(λ)

p1(λ|y)p(y|λ)p1(λ)/p1(y)

= p1(y)∫p2(λ)p1(λ)

p1(λ|y)dλ.

For at dette skal give mening kræver det, at (6.11) på modstående side eropfyldt, idet hvis p1(λ) = 0 medfører det, at p2(λ) = 0, i så fald gælder der,at p2(λ)

p1(λ) = 0. Derved får vi approksimeret kvotienten

p2(y)p1(y)

= Ep1(λ|y)

[p2(λ)p1(λ)

|y]≈ 1n

n∑i=1

p2(λi)p1(λi)

, λi ∼ P1.

Alt i alt har vi, at

Ep2(λ|y)[h(λ)|y] = Ep1(λ|y)[k(λ)|y]

(n∑i=1

h(λi)p2(λi)p1(λi)

)(n∑i=1

p2(λi)p1(λi)

)−1

, λi ∼ P1.

Vi kan altså udtrykke posterior middelværdien af en given parameter medhensyn til en alternativ prior fordeling ud fra de i forvejen simulerede data.På den måde kan man sammenligne de to middelværdier, Ep1(λ|y)[h(λ)|y] ogEp2(λ|y)[h(λ)|y] og derved vurdere om modellen er sensitiv overfor valg afpriors.

6.3.8 Alternativ prior fordeling: Flad gamma fordeling

Et alternativ til prior fordelingerne for σa, τa, σe og τe kunne være fladegamma fordelinger for præcisionerne σ−2

a , τ−2a , σ−2

e og τ−2e . Dette kræver et

skift af variable. Lad præcisionen være givet ved ωa := σ−2a , så gælder der,

atp(σa) = p(ωa)

∣∣∣∣dωadσa

∣∣∣∣ = 2p(ωa)σ−3a = 2p(ωa)ω3/2

a .

Page 76:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

66 6. Behandling af målepræcision

Lad p1(σa) være tæthedsfunktionen hørende til den valgte a priori fordelingi modellen, altså σa ∼ uni(0,106). Endvidere lad p2(ωa) være den tilhørendetæthedsfunktion til en flad gamma fordeling, ωa ∼ G(10−4,10−4).Ved at betragte Figur 6.9 ses det, at (6.11) på side 64 i praksis er opfyldtpå intervallet I = (0,106), idet sandsynligheden for at simulere en værdistørre end 106 fra den pågældende gamma fordeling er så lille, at den kanudelukkes. Det vil sige, at vi kun betragter gamma fordelingen defineret påI.

0 200 400 600 800 1000

0.0

e+00

1.0

e−05

2.0

e−05

3.0

e−05

x

p1p2

Figur 6.9: Når tæthedsfunktionen p2 > 0 medfører det, at p1 > 0 på inter-vallet I = (0,106).

Med følgende kommando i R, får vi beregnet middelværdien af σa, med enflad gammafordeling som prior fordeling for præcisionen.

> prior1 <- function(x)dunif(x,0,1000000)> prior2 <- function(x)

+ y <- x^(-2)+ (2*y^(1.5))*dgamma(y,0.0001,rate=0.0001)+

> mean(sigma*(prior2(sigma)/prior1(sigma)))/+ mean(prior2(sigma)/prior1(sigma))

[1] 1.600110

Vi husker, at middelværdien for σa var 1,619, hvilken afviger forholdsvis lidtfra den vi lige har beregnet. Hvis vi foretager samme beregninger, for τases det, at valget af prior fordeling for denne parameter har forholdsvis stor

Page 77:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

6.3 Model for estimation af varianser 67

indflydelse idet middelværdien bliver 0,3168603, hvilken afviger noget merefra det tidligere estimat på 0,9316. For σe får vi en middelværdi på 1,245045og for τe får vi 1,260977. Disse er ca. en tredjedel af de tidligere estimeretværdier. Disse større afvigelser kan skyldes, at estimatet for σa er bestemtmed en præcision der er mere end 14 gange så stor som de øvrige parametre5.De samme overvejelser og konklusioner holder for FMD målingerne angivet imm, hvilket kun understøtter forklaringen med, at σa er den bedst bestemteparameter, se Tabel C.1 på side 95.I Afsnit 6.1 estimerede vi variansen for observatør 1 til at være 2,70288,det vil sige en standard afvigelse på 1,64404. Dette estimat er en smulelavere end estimatet udregnet ved hjælp af den store model, hvilket forkla-res med antagelserne vi har foretaget. Idet vi antager, at målingerne i dengenerelle lineære model er uafhængige, bevirker det, at variansen bliver lille,idet forskellene mellem målingerne er forholdsvise små. I den store modeltager vi højde for afhængigheden mellem målingerne, hvilket har den kon-sekvens, at variansen bliver større.

5Ses i Figur 6.1 på side 62.

Page 78:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 79:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Kapitel 7

Behandling af indflydelsesrigeforklarende variable

I dette kapitel behandles den anden problemstilling, hvor opmærksomhedener rettet mod hvilke forklarende variable, der har indflydelse på FMD. Ud-vælgelsen af de indflydelsesrige variable foregår ved hjælp af trinvis model-selektion på generelle lineære modeller, ved hjælp af AIC og F -test.

7.1 Udvælgelse af forklarende variable

Der er i forsøget målt mange forklarende variable i forhold til antallet afforsøgspersoner. Det er en rimelig antagelse, at de forskellige variable ikkehar lige stor indflydelse på FMD, og vi ønsker derfor at konstruere en modelfor FMD, som indeholder de mest indflydelsesrige. Der er flere andre årsagertil, at der ønskes en mere simpel model. For eksempel er sådanne modellerlettere at overskue når validiteten skal kontrolleres og billigere at efterprøvei praksis.For at konstruere en forholdsvis simpel model er en sortering af de forkla-rende variable en nødvendighed og spørgsmålet er så hvilken fremgangsmåde,der skal anvendes. Der er flere overvejelser, som man kan gøre sig i dennesammenhæng. Det kunne for eksempel være tilfældet, at man var specieltinteresseret i indflydelsen fra en bestemt variabel, hvilket ville retfærdiggøreat inkludere denne i den endelige model. Det er også muligt, at der mellemet antal variable kunne være et samspil, som kunne retfærdiggøre, at sim-plificere den endelige model ved at opfatte dette samspil som én variabel isig selv. En sådan udvælgelse bygger på en viden om variablerne og det erderfor relevant at rådføre sig med specialister, som besidder en ekspertvidenom de pågældende variable. Vi er i projektet ikke i besiddelse af en sådanekspertise og vælger derfor at forfølge en fremgangsmåde, som kaldes trinvisregression.

69

Page 80:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

70 7. Behandling af indflydelsesrige forklarende variable

7.1.1 Trinvis regression

Ved en trinvis regression starter man med at have en omfattende generellineær model, hvor alle forklarende variable er inkluderet. En sådan modelkaldes en initial model. Lad y være den afhængige variabel og x1, . . . ,xi deforklarende variable, så kan initial modellen skrives som

y = b01 + b1x1 + . . .+ bixi

hvor b er (i+ 1)× 1 vektor og b0 kaldes for intercept. Ideen er så at under-søge mindre omfattende delmodeller (ligeledes generelle lineære modeller),som er komponenter af initial modellen. Delmodellerne fremkommer ved hen-holdsvis at udtage eller tilføje1 en variabel fra initial modellen, for derefterat udregne et udvælgelseskriterium for hver delmodel. Efter at have udreg-net kriteriet for alle kombinationer udvælges den bedste delmodel. Dennemodel er udgangspunktet i det næste trin og processen gentager sig. Algo-ritmen stopper, når den model der tages udgangspunkt i ikke længere kanforbedres i forhold til kriteriet ved at udtage eller tilføje en variabel. I voresmodelselektion vælger vi at anvende Akaike’s informations kriterie som ud-vælgelseskriterium [Maz04].

Definition 7.1.Akaike’s informations kriterie (AIC) er givet ved

AIC = −2(L(θ|x))) + 2k,

hvor θ ∈ Rk og k er antal parametre i modellen.

Værdien k er antallet af forklarende variable plus to, intercept og variansen.AIC er et kriterie, som holder kompleksiteten af modellen op imod hvor godtmodellen approksimerer data. Flere inkluderede variable øger størrelsen afdet andet led i udtrykket. Log-likelihoodfunktionen repræsenterer i defini-tionen af AIC, hvor godt modellen passer til data. Det ses derfor, at denforetrukne model er den, der har den laveste AIC værdi. Ved at anvendeAIC finder vi altså den model, der er det bedste kompromis mellem antalforklarende variable og approksimation af data. Dette stemmer godt overensmed vores intentioner om at finde frem til en forholdsvis simpel model. EnAIC værdi for en model har ikke en umiddelbar fortolkning. Vores viden omAIC får først betydning når vi sammenligner modeller.

7.1.2 Gruppering af forklarende variable

For at konstruktionen af de generelle lineære modeller er mulig, skal an-tallet af forklarende variable være mindre end antallet af forsøgspersoner.

1De variable der tilføjes er udelukkende variable, der på et tidligere trin er blevetfjernet, hvilket medfører, at der ikke bliver tilføjet en variabel på første trin.

Page 81:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

7.1 Udvælgelse af forklarende variable 71

Som udgangspunkt har vi fra datasættet 110 forklarende variable og kun40 forsøgspersoner. For at skære ned på antallet af variable udregnes gen-nemsnittet af de variable, hvor der er foretaget to målinger. De pågældendevariable er systolisk og diastolisk blodtryk, samt variablerne i Tabel A.2 ogTabel A.3. Phospholipid variablerne døbes xNAVN som er gennemsnittetaf fNAVN og eNAVN. Efter dette har vi begrænset os til 58 variable. Derer stadig for mange variable til, at vi kan nøjes med én stor initial model.Vi vælger derfor at gruppere variablerne. I datasættet er der fire forskelligetyper af variable, fysiologiske, livsstils relaterede, lipider og phospholipider.Ved at vælge denne gruppering får vi ved hjælp af gentagen trinvis regres-sion, få udvalgt de mest indflydelsesrige forklarende variable fra hver gruppe.Grupperingen er illustreret på Figur 7.1.

FMD

PhospholipiderLipiderLivsstilFysiologisk

Figur 7.1: Illustration af gruppering af forklarende variable.

Man skal være opmærksom på, at ved udvælgelse af variable separat i hvergruppering, er det muligt, at nogle bliver udvalgt på grund af fraværet afvariable fra de andre grupper.

7.1.3 Anvendelse af trinvis regression

Vi er ikke længere interesseret i at betragte observatør forskelle, derfor bereg-ner vi gennemsnittet over de fire FMD målingerne i procent. Dette bevirkerogså at vi får varians homogenitet på målingerne som er en af antagelserneved den lineære model.Fremgangsmåden for beregningerne ved de fire grupperinger er ens. Til ateksemplificere beregningerne vælger vi livsstils gruppen, da der er problem-stillinger vedrørende denne gruppe, som vi senere belyser.Idet R ikke kan håndtere manglende information er vi nødt til at fjerne depersoner hvorom vi ikke har fuldstændig information i grupperingens vari-able. Der mangler data for person 8 og 22 i mag_paalaeg, mens der vedpersonerne 22, 30 og 39 mangler data i hvid og 22 og 30 mangler i anden. Vidanner initial modellen i R med følgende kode

> livsstil <- lm(fmd_.1_avg ~ fedpaalaeg + fed_varm + mag_varm+ fiskeolie + alko_uge + roed + prdag + Tidligererygn+ mag_paalaeg + hvid + anden, data=data, subset=-c(8,22,30,39))

Page 82:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

72 7. Behandling af indflydelsesrige forklarende variable

Vi starter så den trinvise regression ved

> livsstil <- step(livsstil,direction="both")

Indstillingen direction tilføjes for at den trinvise regression tjekker alle model-ler, der fremkommer ved enten at fjerne en af de forklarende variable, somstadig er til stede eller tilføje en af de variable den allerede måtte have fjernet.Vi får følgende output for første trin

Start: AIC= 79.7fmd_.1_avg ~ fedpaalaeg + fed_varm + mag_varm + fiskeolie

+ alko_uge + roed + prdag + Tidligererygn + mag_paalaeg+ hvid + anden

Df Sum of Sq RSS AIC- anden 1 0.003 151.361 77.701- hvid 1 0.145 151.504 77.735- alko_uge 1 1.330 152.689 78.016- mag_paalaeg 1 2.459 153.818 78.281- fed_varm 1 2.748 154.107 78.349- prdag 2 12.303 163.662 78.514- mag_varm 1 8.188 159.547 79.598<none> 151.359 79.701- fiskeolie 1 9.109 160.467 79.805- fedpaalaeg 1 10.569 161.928 80.131- roed 1 10.813 162.172 80.185- Tidligererygn 1 11.705 163.064 80.382

Vi kontrollerer alle delmodeller, som fremkommer ved successivt at fjerneén variabel fra initial modellen ad gangen. For disse delmodeller angivesdegrees of freedom (Df) og der udregnes sum of squares, residual sum ofsquares (RSS) og de tilhørende AIC værdier. Værdien Df er ændringen ifrihedsgrad2 ved den pågældende modelændring. Det er værd at notere sig, atde kvalitative variable optager et antal frihedsgrader svarende til én mindreend antal tilstande. Værdien RSS anvendes som et udtryk for hvor godtmodellen stemmer overens med data. Det ses, at modelforandringerne ersorteret efter AIC, hvor den forandring som giver den mindste AIC værdistår øverst. Det ses, at modellen hvor vi fjerner variablen anden giver denmindste AIC værdi. Første trin er derfor at fjerne denne variabel. Fra sidstetrin fås

Step: AIC= 70.17fmd_.1_avg ~ fedpaalaeg + fiskeolie + roed + Tidligererygn

2Frihedsgraden er antallet af observationer fraregnet antallet af forklarende variableplus en, for intercept.

Page 83:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

7.1 Udvælgelse af forklarende variable 73

Df Sum of Sq RSS AIC<none> 181.169 70.173+ prdag 2 16.465 164.704 70.743- fedpaalaeg 1 14.043 195.212 70.861- Tidligererygn 2 25.500 206.669 70.914+ mag_varm 1 5.873 175.296 70.986- roed 1 15.192 196.361 71.072- fiskeolie 1 15.384 196.553 71.107+ alko_uge 1 3.112 178.057 71.549+ mag_paalaeg 1 0.820 180.349 72.009+ fed_varm 1 0.786 180.384 72.016+ hvid 1 0.631 180.539 72.047+ anden 1 0.153 181.016 72.142

Det ses at modellen er reduceret til kun at indeholde fire forklarende vari-able, nemlig fedpaalaeg, fiskeolie, roed og tidligererygn. Igen beregnes AICfor de mulige trin på dette niveau. Ved dette trin ses det imidlertid, at dennuværende model <none>, har en mindre AIC værdi end nogen forandringkan give os. Derfor stopper den trinvise regression og vi har den endeligemodel for livsstils grupperingen.Da der ikke er manglende værdier i de udvalgte variable, vi baserer udvæl-gelsen på alle forsøgspersoner. Vi fjerner derfor mag_paalaeg, hvid og andenfra initial modellen i stedet for at udelade de personer, som havde manglendedata i disse variable. Ved at udføre en trinvis regression med denne initialmodel, udvælges kun mag_varm, som ikke blev udvalgt ved den første model-selektion. Ved tilføjelse af data fra kun fire ekstra forsøgspersoner, har vi altsåfået et signifikant anderledes resultat end det oprindelige. Dette kunne tydepå, at en eller flere af disse personer har en ekstrem påvirkning af modelse-lektionen.Vi udfører en trinvis regression, hvor vi har fjernet de nævnte variable ogde fire forsøgspersoner. På denne måde opnås det oprindelige resultat. Dettebekræfter, at en eller flere af de fire personer har en uhensigtsmæssig stor ind-flydelse på udvælgelsen. Ved at eksperimentere med at fjerne forskellige kom-binationer af disse fire personer, finder vi, at resultatet fra den første regres-sion genskabes ved at udelade forsøgspersonerne 22 og 39. Forsøgsperson 22er ekstrem i den forstand, at personen har et højt systolisk blodtryk i forholdtil de øvrige forsøgspersoner, se Figur 7.2 på den følgende side. Forsøgsperson39 er speciel i forhold til de andre, i den forstand at personen har udfyldt sitkostskema med minimum værdier for alle variable omhandlende fisk, drikkeringen alkohol og aldrig har røget. Vi vurderer, at enkelte personer ikke børhave så stor indflydelse i forhold til de øvrige forsøgspersoner, derfor vælgervi, at de variable vi tager med til de videre beregninger fra livsstils grup-peringen er fedpaalaeg, fiskeolie, roed og tidligererygn. Den samlede liste over

Page 84:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

74 7. Behandling af indflydelsesrige forklarende variable

0 10 20 30 40

9010

011

012

013

014

015

0

Index

BT

sys

Figur 7.2: Plot af det gennemsnitlige systoliske blodtryk.

de 34 udvalgte variable fra de forskellige grupperinger ses i Tabel 7.1.

Fysiologisk: Alder, BTsys.Livsstil: fedpaalaeg, fiskeolie, roed, Tidligererygn.Lipider: Glc, Tgly, pselec, eselec, hs.CRP.Phospholipider: x14_0, x15_0, x16_0, x18_0, x18_1d9T,

x18_1w9, x18_1w7, x19_0, x18_2dct, x18_2dtc,x18_2w6, x20_0, x18_3w6, x20_1w9, x18_3w3,xCLA9_11, x20_2w6, x20_3w6, x20_4w6, x20_5w3,x22_4w6, x22_5w3, x22_6w3.

Tabel 7.1: De udvalgte variable fra de enkelte grupper.

Vi samler de fire grupperinger til en samlet trinvis regression som stopperefter et trin, hvor det kun er variablen x16_0 der er fjernet. Det vil sige,at vi har 33 forklarende variable tilbage. For at reducere antallet yderligerekigger vi på F -tests.Antag, at vi har en model Ω med u parametre og en delmodel ω med vparametre. Bemærk at v på grund af denne antagelse er mindre end u. Videfinerer mængden Γ til at være parametrene som er indeholdt i Ω, menikke i ω. Vælges nul-hypotesen: koefficienterne til parametrene i Γ er nul fås

Page 85:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

7.1 Udvælgelse af forklarende variable 75

F -kriteriet

F =(RSSω −RSSΩ)/(u− v)

RSSΩ/(n− u)∼ F(u−v),(n−u),

hvor n er antallet af observationer [Far06].Udtrykket i tælleren er forholdet mellem tilvæksten i RSS og tilvæksten i fri-hedsgrad. Det vil sige, at vi normerer tabet i “fit” ved den mindre model medændringen i frihedsgrad. Altså, på samme facon som ved AIC, belønnes enmodel for at have få variable. Det vil sige, jo mindre (RSSω −RSSΩ)/(u− v)desto bedre er modellen ω. Dette normeres så med RSSΩ/(n− u), der er etudtryk for, hvor godt et “fit” den oprindelige model havde.Vi ønsker nu en metode til at afgøre, hvorvidt vi bør beholde eller forkastenul-hypotesen. Til dette formål definerer vi p-værdien [Lee04], hørende tilnul-hypotesen, til at være sandsynligheden for, at vi observerer noget mereekstremt end den fundne værdi F0. Det vil sige, at

p-værdien = P (F ≥ F0|nul-hypotesen er sand).

Vi udfører nu en manuel trinvis regression et trin ad gangen og fjerner denvariabel, der resulterer i den største p-værdi indtil alle p-værdier er sig-nifikante, hvilket vil sige, at 0,05 eller lavere. I R anvendes notationen Pr(F )for p-værdien. Vi konstruerer en generel lineær model kaldet manuel og ud-fører kommandoen

> drop1(manuel, test="F").

Dette giver os

Single term deletions

Model:

fmd_.1_avg ~ data$Alder + BTsys + Glc + Tgly + pselec + eselec +hs.CRP + data$fedpaalaeg + data$fiskeolie + data$roed +data$Tidligererygn + x14_0 + x15_0 + x18_0 + x18_1d9T +x18_1w9 + x18_1w7 + x19_0 + x18_2dct + x18_2dtc + x18_2w6 +x20_0 + x18_3w6 + x20_1w9 + x18_3w3 + xCLA9_11 + x20_2w6 +x20_3w6 + x20_4w6 + x20_5w3 + x22_4w6 + x22_5w3 + x22_6w3

Df Sum of Sq RSS AIC F value Pr(F)<none> 0.279 -110.890data$Alder 1 13.452 13.731 31.323 96.5725 0.010197 *BTsys 1 4.501 4.779 -7.725 32.3099 0.029584 *...x18_2w6 1 0.036 0.314 -108.438 0.2557 0.663299

Page 86:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

76 7. Behandling af indflydelsesrige forklarende variable

...---Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Den største p-værdi er for x18_2w6. Denne variabel fjernes og vi fortsætterpå denne måde indtil alle er signifikante, ialt fjorten trin, og kommer fremtil følgende model med 18 variable

lm(fmd_.1_avg ~ data$Alder + BTsys + data$fedpaalaeg +data$fiskeolie + data$Tidligererygn + x15_0 + x18_1d9T +x18_1w9 + x18_1w7 + x18_2dct + x18_2dtc + x20_0 + x18_3w3 +xCLA9_11 + x20_2w6 + x20_4w6 + x22_5w3 + x22_6w3)

Med ovenstående metode har vi fået udvalgt en række variable der har sig-nifikant indflydelse på en persons FMD værdi. For at se hvilken indflydelsede har, kigger vi på koefficienterne beregnet fra den generelle lineære model,se Tabel 7.2.

Variabel Koefficient Variabel Koefficient(Intercept) 73,57 Alder −0,14TidligererygnJA 0,67 BTsys −0,10x18_1w7 6,57 fedpaalaeg −0,18x18_2dct 146,16 fiskeolieJA −5,99x18_3w3 17,45 TidligererygnStadig −4,18xCLA9_11 19,28 x15_0 −48,83x22_6w3 1,16 x18_1d9T −70,99

x18_1w9 −1,28x18_2dtc −89,56x20_0 −174,68x20_2w6 −32,67x20_4w6 −1,33x22_5w3 −6,40

Tabel 7.2: Koefficienter til den lineære model.

Hvis vi betragter koefficienterne til phospholipiderne kan vi se, at vi har engavnlig effekt fra x18_1w7, x18_2dct, x18_3w3, xCLA9_11, x22_6w3 og ennegativ effekt fra x15_0, x18_1d9T, x18_1w9, x18_2dtc, x20_0, x20_2w6,x20_4w6, x22_5w3. Vi bemærker også, at høj alder og systolisk blodtrykmedfører lavere FMD. Et overraskende resultat er, at indtag af fed fisk sompålæg og indtag af fiskeolie har en negativ effekt. Til at forklare dette servi på Figur 7.3, hvor fiskeolie er afbildet overfor alder og vi ser, at kun fireaf forsøgspersonerne indtager fiskeolie, hvoraf tre er blandt den ældre delaf forsøgspersonerne. Vi ved allerede, at ældre personer generelt har mindreFMD end yngre, hvilket forklarer det uventede resultat for fiskeolie. Fiske-olien får altså en negativ indflydelse på FMD på grund af sammenhængen

Page 87:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

7.1 Udvælgelse af forklarende variable 77

30 40 50 60

1.0

1.2

1.4

1.6

1.8

2.0

data$Alder

data

$fis

keol

ie

Figur 7.3: Plot af fiskeolie overfor alder.

mellem alder og FMD. En variabel der på denne måde får falsk indflydelsefra en anden variabel kaldes på engelsk confounding variable3. Dette illu-strerer vigtigheden af, at være i besiddelse af en forsøgsgruppe, der så vidtmuligt er repræsentativ for alle variable i modellen. Et andet eksempel pådenne problemstilling er, at der kun er fire personer i testen som stadigvækryger og derudover ses det på Figur 7.4 på den følgende side, at der er storsammenhæng mellem rygning og alder. Vi konstaterer på baggrund af dissebetragtninger, at der ikke er tilstrækkeligt data til at udtale sig om fiskeolieog rygnings effekt på FMD.Det er også vigtigt at tjekke om der er nogle outliers der resulterer i etforkert billede ved vores generelle lineære model. Ved enkeltvis at plotte deudvalgte variable overfor den gennemsnitlige FMD kan vi identificere outliers.I Figur 7.5 på side 79 har vi plottet variablen x22_5w3 og ser at der er tooutliers. Den ene har en værdi på under 0,6 og den anden har en værdi tæt på1,6. Disse har netop også FMD værdier, så de tilsammen er stærkt influerendemed en negativ effekt på FMD. De to personer der giver de nævnte outliersidentificeres til at være nr. 7 og 37. For at undersøge om x22_5w3 har nogenindflydelse uden de to outliers køres endnu en F -test på den sidste model,men uden data fra personerne 7 og 37. Resultatet bliver at x22_5w3 vedden test ikke længere har nogen signifikant betydning. På tilsvarende vis

3Confound kan oversættes til forvirre eller sammenblande.

Page 88:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

78 7. Behandling af indflydelsesrige forklarende variable

Nej Ja Stadig

3040

5060

Tidligere ryger

Ald

er

Figur 7.4: Plot af rygning overfor alder.

undersøger vi de resterende variable for hvorvidt de har outliers og om depågældende variable uden disse stadig er signifikante. Det viser sig at dissevariable stadig er signifikante efter udførelse af F -test.En trinvis regression med brug af F -test på vores sidste model, hvor vi fjernervariablerne fiskeolie, Tidligererygn og x22_5w3, resulterer i yderligere 11 trinog giver modellen

lm(fmd_.1_avg ~ data$Alder + BTsys + x18_1d9T + x18_3w3)

Hvis vi betragter koefficienterne til den nye model, er de næsten de sammesom koefficienterne til de samme variable ved den forrige model og ændrerderfor ikke ved konklusionen derfra vedrørende disse variable.

Page 89:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

7.1 Udvælgelse af forklarende variable 79

0.6 0.8 1.0 1.2 1.4 1.6

46

810

1214

x22_5w3

fmd_

.1_a

vg

Figur 7.5: Plot af x22_5w3 overfor gennemsnitlige FMD.

Page 90:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 91:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Kapitel 8

Forsøgsdesign

Som nævnt tidligere i Afsnit 5.1 har vi at gøre med et datasæt, der kanvirke både stort, men også meget begrænset. Formålet for den ene del afforsøget var at afgøre hvor stor præcision en given observatør måler med oghvor stor forskel der er mellem observatørers målepræcision. I dette tilfældeer datasættet forholdsvist lille. Hvorimod for den anden del af problemstil-lingen, der går ud på at vurdere hvilke livsstilskarakteristika og fysiologiskedata, der har indflydelse på FMD, forekommer datasættet stort. I dette kapi-tel omtaler vi mulige forbedringer til forsøgsdesignet, der medfører, at voreskonklusioner bliver mere sikre med hensyn til begge problemstillinger.

8.1 Målepræcison

En udvidelse af datasættet kan medføre bedre variansestimater for de toobservatører. En sådan udvidelse kan bestå i, at observatør 2 også fore-tager målinger ved første besøg. Desuden kunne hver observatør foretagehele målingen j > 1 gange ved hvert besøg. Derved bliver datasættet ud-videt så det indeholder j sæt af målinger med middelværdi θi og j sæt afmålinger med middelværdi θi + di. Endvidere kan man udvide datasættetved at inkludere flere forsøgspersoner. Af de to forslag til forbedrelser afforsøget kan man nøjes med den ene af forslagene for at begrænse de ekstraomkostninger, da det er tids- og ressourcekrævende at udføre målingerne.Umiddelbart medfører de to udvidelser hver for sig samme forbedring afvariansestimaterne.Endvidere kunne en forøgelse af antallet af observatører belyse den del afproblemstillingen, der består i at vurdere, hvor stor forskel der er mellemobservatører. En faktor, som er vigtig i udvælgelsen af disse observatører,er den individuelle erfaring med måling af FMD. Specielt når en del af hvermåling er baseret på et godt øjemål, har erfaring betydning og derfor væreskyld i en eventuel variansforskel.I Afsnit 6.3 beskrives, hvordan man kan estimere varianskomponenterne for

81

Page 92:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

82 8. Forsøgsdesign

observatør 1, men at dette ikke er muligt for observatør 2. Idet et af for-målene med forsøget var at estimere en given observatørs varians er detteikke optimalt og en udvidelse af datasættet kunne derfor være en mulighed.Denne udvidelse kunne ganske enkelt være at lade observatør 2 foretagekontrolmåling af egne målinger. Hermed kan σe bestemmes på samme mådesom σa, hvilket bevirker, at estimatet for både τe og vare bliver mere præcistbestemt.Flere kontrolmålinger giver som sagt mere præcise estimater for både σa ogσe, dog bevirker det ikke, at estimaterne for τa og τe kan bestemmes med entilsvarende præcision. Vi bemærker tidligere, at præcisionen for σa er ca. 14gange større end præcisionen for τa, hvilket er betydeligt bedre. Man er derforinteresseret i at udvide datasættet yderligere for at estimere varianserne vedbilleddannelsen mere præcist. Dette er dog ikke umiddelbart muligt, efter-som man ikke kan foretage målinger, hvor fejlene ved billeddannelserne erforskellige og fejlene ved målingerne på billederne er identiske, analogt medkontrolmålingerne.Som i enhver anden problemstilling kan en udvidelse af datamængden med-føre mere præcise estimater. Ved at inkludere flere sæt af målinger som nævntovenfor og/eller inkludere flere forsøgspersoner, samt lade observatørene fore-tage kontrolmålinger af egne data, bliver estimaterne for varianskomponen-terne bestemt med større præcision. Dette medfører at observatørenes sam-lede varians også bliver estimeret med større præcision.

8.2 Indflydelsesrige forklarende variable

Når vi betragter datasættet i forbindelse med den anden problemstilling,gavner det med flere forsøgspersoner. Da antallet af forklarende variable over-stiger antallet af forsøgspersoner var en forenkling af modellen, som beskreveti Afsnit 7.1.2, nødvendig. For at undgå dette, skal vi minimum have et an-tal observationer, der svarer til det antal frihedsgrader, der bliver optagetfra de inkluderede variable og intercept. Yderligere observationer forbedrerestimatet af koefficienterne til den lineære model.I Afsnit 7.1.3 kom vi også ind på problemet med underrepræsenterede vari-able i forbindelse med rygning og forbrug af fiskeolie. Hvis man på bag-grund af datasættet ønsker at udtale sig om indflydelsen af disse variableer det nødvendigt at udvælge en gruppe af forsøgspersoner med et størreantal rygere og fiskeolie forbrugere. En anden mulighed er at teste effektenaf fiskeolie direkte, ved at udvælge en forsøgsgruppe med n personer, hvoringen tager fiskeolie, og måle deres FMD. Derefter gives fiskeolie til halvdelenaf forsøgsgruppen og den anden halvdel får placebo. Efter et antal månederbliver gruppen kaldt tilbage til en ny måling. Denne forsøgsopstilling giver etbedre grundlag for at udtale sig om fiskeolies indflydelse på FMD. Den sidstemetode har også den fordel, at det er muligt at teste fiskeolies indflydelse

Page 93:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

8.2 Indflydelsesrige forklarende variable 83

over tid, samt indflydelse af ændringer i dosis. Hvis man tager den anden pro-blemstilling i betragtning er en sådan forsøgsopstilling dog for fokuseret påfiskeolie og vil ikke forbedre situationen for de øvrige variable. Derudover erdet ved et forsøg over længere tid, mindre sandsynligt, at der ikke forekom-mer ændringer i forsøgspersonernes livsstil, på grund af årsager, som ikkeundersøges.

Begge problemstillinger taget i betragtning er den bedste udvidelse af data-sættet at inkludere flere forsøgspersoner, idet flere observationer gavner beggeproblemstillinger, hvorimod flere sæt af målinger kun gavner den første pro-blemstilling.

Page 94:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 95:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Bilag A

Variable i datasættet

I dette appendiks er der tabeller over datasættets variable.

Notation BetydningAlder Alderen i år.Koen Køn, hvor K=Kvinde, M=Mand.Hoejde Højden målt i cm.Vaegt Vægten målt i kg.BMI Body Mass Index beregnet fra vægt og højde.Fedt. Fedtprocenten målt ved hjælp af impedansvægt.BTsys1 Systolisk blodtryk ved første besøg.BTdia1 Diastolisk blodtryk ved første besøg.BTsys2 Systolisk blodtryk ved andet besøg.BTdia2 Diastolisk blodtryk ved andet besøg.

Tabel A.1: Forklaring af fysiologiske variable.

85

Page 96:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

86 A. Variable i datasættet

Notation BetydningCrea1, Crea2 Creatinin.Glc1, Glc2 Blodglucose.Choltot1, Choltot2 Total kolesterol, lipid.Tgly1, Tgly2 Triglycerider, lipid.HDL1, HDL2 “Gavnligt” kolesterol, lipid.LDL1, LDL2 “Skadeligt” kolesterol, lipid.hs.CRP1, hs.CRP2Lpa1, Lpa2apoB1, apoB2icam1, icam2 Adhæsionsmolekyle.vcam1, vcam2 Adhæsionsmolekyle.pselec1, pselec2 Adhæsionsmolekyle (pselectin).eselec1, eselec2 Adhæsionsmolekyle (eselectin).

Tabel A.2: Forklaring af lipid variable.

Page 97:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

87

Notationf14_0, e14_0 Mættede fedtsyrer.f15_0, e15_0f16_0, e16_0f17_0, e17_0f18_0, e18_0f19_0, e19_0f20_0, e20_0f22_0, e22_0f16_1t, e16_1t Mono-umættede fedtsyrer.f16_1w7, e16_1w7f18_1w7, e18_1w7f18_1w9, e18_1w9f18_1d9T, e18_1d9Tf18_1d11T, e18_1d11Tf18_1d12T, e18_1d12Tf18_2dct, e18_2dctf18_2dtc, e18_2dtcf18_2w6, e18_2w6f18_3w3, e18_3w3f18_3w6, e18_3w6f20_1w9, e20_1w9f20_2w6, e20_2w6f20_3w6, e20_3w6f20_4w3, e20_4w3f20_4w6, e20_4w6f20_5w3, e20_5w3f22_4w6, e22_4w6f22_5w3, e22_5w3f22_5w6, e22_5w6f22_6w3, e22_6w3fCLA9_11, eCLA9_11

Tabel A.3: Phospholipid variable.

Page 98:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

88 A. Variable i datasættet

Notation Betydningfedpaalaeg Hvor meget fed fisk personen spiser som pålæg,

1− 8 point givet efter 1: Mindre end en halv skive permåned, 2: en halv skive per måned, 3: 2-3 halve skiver permåned, 4: en halv skive per uge, 5: 2-3 halve skiver peruge, 6: 4-6 halve skiver per uge, 7: en halv skive per dag,8: 2-3 halve skiver per dag.

mag_paalaeg Hvor meget magert fisk personen spiser som pålæg,1− 8 point tildelt som ved fedpaalaeg.

fed_varm Hvor meget fed fisk personen spiser til varmt mad,1− 8 point givet efter 1: Mindre end en gang per måned,2: en gang per måned, 3: 2-3 gange per måned, 4: en gangper uge, 5: 2-3 gange per uge, 6: 4-6 gange per uge, 7: engang per dag, 8: 2 gange per dag.

mag_varm Hvor meget magert fisk personen spiser til varmt mad,1− 8 point tildelt som ved fed_varm.

fiskeolie Om personen spiser fiskeolie, ja eller nej.alko_uge Hvor mange genstande personen drikker per uge.roed Hvor tit personen drikker rødvin, 1− 7 point, hvor

1: Sjældent eller aldrig, 2: en gang om måneden, 3: 2-3gange om måneden, 4: 1 gang om ugen, 5: 2-3 dage omugen, 6: 4-5 dage om ugen, 7: dagligt.

hvid Hvor tit personen drikker hvidvin, 1− 7 point somved roed.

anden Hvor tit personen drikker anden alkohol, 1− 7 pointsom ved roed.

Tobakstype Om personen ryger 1: cigaretter, 2: cerutter eller 3: pibe.prdag Tobaksforbrug, givet ved 1: aldrig, 2: 0-5 per dag, 3: 5-20

per dag, 4: mere end 20 per dag.Tidligererygn Om personen er tidligere ryger, ja, nej eller stadig.

Tabel A.4: Forklaring af kost variable.

Page 99:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Bilag B

Fordelinger

B.1 Binomialfordeling

En diskret stokastisk variabel X er binomialfordelt med parametrene n ogπ,

X ∼ Bin(n,π),

hvis X har sandsynlighedsfunktion

p(x) =(n

x

)πx(1− π)n−x,

for x = 0,1,2, . . . ,n.

B.2 Betafordeling

En kontinuert stokastisk variabel X er betafordelt med parametrene α og β,

X ∼ Be(α,β),

hvis X har tæthedsfunktion

p(x) =1

B(α,β)xα−1(1− x)β−1,

for 0 < X < 1.

B.3 Uniform fordeling

En kontinuert stokastisk variabel X er uniform fordelt på intervallet (a,b),

X ∼ uni(a,b),

hvis X har tæthedsfunktion

p(x) =1

b− a,

for alle X = x ∈ (a,b).

89

Page 100:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

90 B. Fordelinger

B.4 Normalfordeling

En kontinuert stokastisk variabel X er normalfordelt med middelværdi θ ogvarians φ,

X ∼ N(θ,φ),

hvis X har tæthedsfunktion

p(x) =1√2πφ

exp(− 1

2φ(x− θ)2

).

B.5 Skaleret χ2 fordeling

En kontinuert stokastisk variabel X er skaleret χ2 fordelt med frihedsgradν,

X ∼ Sχ2ν ,

hvis X har tæthedsfunktion

p(x) =Sν/2

2ν/2Γ(ν/2)xν/2−1 exp

(−1

2Sx

),

for 0 < X <∞, S 6= 0 og ν > 0.

B.6 Skaleret invers χ2 fordeling

En kontinuert stokastisk variabel X er skaleret invers χ2 fordelt med friheds-grad ν,

X ∼ Sχ−2ν ,

hvis X har tæthedsfunktion

p(x) =Sν/2

2ν/2Γ(ν/2)x−ν/2−1 exp

(− S

2x

),

for 0 < X <∞, S 6= 0 og ν > 0.

Page 101:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

B.7 t-fordeling 91

0 2 4 6 8

01

23

45

Fastholdt skalar på 10.

x

nu=5nu=10nu=15nu=20nu=30

Figur B.1: Eksempler på tæthedsfunktioner hørende til Sχ−2ν -fordelinger.

B.7 t-fordeling

En kontinuert stokastisk variabel X er t-fordelt med ν frihedsgrader

X ∼ tν ,

hvis X følger samme fordeling som den sammensatte stokastiske variabel

Z√W/ν

,

hvor Z ∼ N(0,1) og W ∼ χ2ν og Z og W er uafhængige.

Dette er ækvivalent med at sige, at X er t-fordelt, hvis tæthedsfunktionenfor X er givet ved

p(x) =Γ((ν + 1)/2)√πνΓ(ν/2)

(1 +

x2

ν

)−(ν+1)/2

.

B.8 Gamma fordeling

En kontinuert stokastisk variabel X er gamma fordelt med parametrene αog β

X ∼ G(α,β),

Page 102:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

92 B. Fordelinger

hvis X har tæthedsfunktion

p(x) =1

βαΓ(α)xα−1 exp (−x/β) ,

for 0 < X <∞.

B.9 Flerdimensional normalfordeling

En n-dimensional stokastisk vektorX har en flerdimensional normalfordelingmed middelværdi vektor µ og kovarians matrix Σ,

X ∼ N(µ,Σ),

hvis den har simultan tæthedsfunktion

p(x) =1

(2π)n2

√det Σ

exp(−1

2(x− µ)TΣ−1(x− µ)

).

B.10 Snedecor’s F fordeling

X er F fordelt med frihedsgraderne ν1 og ν2,

X ∼ Fν1,ν2 ,

hvis X følger samme fordeling som den sammensatte stokastiske variabel

W1/ν1

W2/ν2,

hvor W1 og W2 er uafhængige og

W1 ∼ χ2ν1 og W2 ∼ χ2

ν2 ,

for 0 < X <∞.

Page 103:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Bilag C

Resultater fra WinBUGS

C.1 FMD målinger i procent

Disse resultater er fremkommet i WinBUGS uden burn-in.

Figur C.1: Tidsrækker for τa og τe foretaget uden burn-in, samt mid-delværdier for n = (50,200,2000,3500).

93

Page 104:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

94 C. Resultater fra WinBUGS

C.2 FMD målinger i mm

Figur C.2: Tidsrækker der kan anskue hvor stort et burn-in der er nødvendigt.

Page 105:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

C.2 FMD målinger i mm 95

Figur C.3: Plots af posterior tæthedsfunktioner for målingerne i mm.

Figur C.4: Opsummering af resultater.

Ep2 Afvigelse (Ep1 − Ep2)σa 0,04539674 0,000523σe 0,06719592 0,02576τa 0,03699386 0,009786τe 0,06678826 0,0257

Tabel C.1: Tabel over middelværdi-estimater for FMD målinger i mm medalternativ a prior fordeling.

Page 106:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22
Page 107:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Bilag D

Mindste kvadraters løsning

Resultaterne om mindste kvadraters løsning er inspireret af [Lay03]

Definition D.1.Lad A være en n × r matrix og b ∈ Rn. En mindste kvadraters løsningtil Ax = b er en vektor x så der for alle x ∈ Rr gælder at

||b−Ax|| ≤ ||b−Ax||. (D.1)

Lemma D.2. Antag at projektionen af b på Col A er givet ved Ax, da erx en mindste kvadraters løsning.

Bevis. Da Ax er en projektion af b på Col A, gælder der at

||b||2 = ||Ax||2 + ||b−Ax||2.

Vi antager at vektoren l 6= x er en mindste kvadraters løsning.Fra trekantsuligheden opnår vi at

||b−Al||2 ≥ (||b||+ ||Al||)2

= ||b||2 + ||Al||2 + 2||b|| · ||Al||= ||Ax||2 + ||b−Ax||2 + ||Al||2 + 2||b|| · ||Al||≥ ||b−Ax||2,

hvilket er en modstrid med antagelsen om, at l er en mindste kvadratersløsning.

Lemma D.3. Lad L være et underrum af Rn og lad projektionen af envektor b på L være givet ved y = Pb, hvor P er projektionsmatricen. Sågælder der, at

b− y ∈ (L)⊥,

hvor (·)⊥ er det ortogonale komplement til (·).

97

Page 108:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

98 D. Mindste kvadraters løsning

Bevis. (b− Pb)Ty = bTy − bTPy = 0, da Py = y for y ∈ L.

Lemma D.4. Lad A være en m× n matrix. Der gælder så, at

(Row A)⊥ = Nul A og (Col A)⊥ = Nul AT .

Bevis. Ay udregnes ved række-søjle multiplikation, så hvis y ∈ Nul A er yortogonal med rækkerne i A og dermed ortogonal med Row A. Er y derimodortogonal med Row A gælder der, at Ay = 0 og derfor må y ∈ Nul A. Heraffølger det første udtryk. Dette udtryk gælder for alle matricer og dermed ogsåfor AT . Da Row AT = Col A følger det sidste udtryk i lemmaet.

Page 109:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

Litteratur

[Far06] Julian J. Faraway. Extending linear model with R. Chapman &hall/CRC, 1. edition, 2006.

[for] Hjemmeside for forskningens hus - forskningsportalen for aalborgsygehus. http://www.forskningenshus.dk/.

[kvf] Hjemmeside for kardiovaskulært forskningscenter. http://www.kvfc.dk.

[Lay03] David C. Lay. Linear Algebra and its applications. Greg Tobin,3. edition, 2003.

[Lee04] Peter M. Lee. Bayesian Statistics an introduction. HodderArnold, 3. edition, 2004.

[Maz04] Marc J. Mazerolle. Mouvements et reproduction des amphibiensen tourbières perturbées. http://www.theses.ulaval.ca/2004/21842/apa.html, 2004.

[oKKB04] Jesper Møller og Kasper K. Berthelsen. A short diversion intothe theory of markov chains, with a view to markov chain montecarlo methods. http://www.math.aau.dk/~jm/courses/mat3_04/GulrapportRevKKB.ps, 2004.

[Olo05] Peter Olofsson. Probability, statistics, and stochastic processes.John Wiley & Sons, 1. edition, 2005.

[Org] World Health Organization. Cardiovascular disease: preven-tion and control. http://www.who.int/dietphysicalactivity/publications/facts/cvd/en/index.html.

[Wika] Wikipedia. Sir ronald aylmer fishers biografi. http://en.wikipedia.org/wiki/Ronald_Fisher.

[Wikb] Wikipedia om credible interval. http://en.wikipedia.org/wiki/Posterior_interval.

99

Page 110:  · Aalborg Universitet Institut for Matematiske Fag c TITEL: Flow medieret vasodilation - en statistisk analyse TEMA: Statistisk modellering og analyse PROJEKT PERIODE: 1/9/2006−22

100 Litteratur

[Wikc] Wikipedia om mcmc. http://en.wikipedia.org/wiki/Markov_chain_Monte_Carlo.

[Wikd] Wikipedia om metropolis-hastings. http://en.wikipedia.org/wiki/Metropolis-Hastings_algorithm.