anvendt biostatistikconsult.addastat.com/anvendt biostatistik.pdf · 2019-09-13 · biostatistik...

ANVENDT BIOSTATISTIK for forskere og forskerspirer

2019

DANISH INSTITUTE FOR DATA SCIENCE

Ph.d. Gunnar Hellmund Laier, [email protected]

mailto:[email protected]

2

FORORD

Dette er en note med supplerende materiale til kurset Anvendt

Biostatistik til forskere og forskerspirer indenfor sundhed.

Anvendt statistik består i sin kerne af en række fælles begreber og

metoder. Alligevel er det en udfordring at finde både emnevalg,

fremstillingsmetode og redskaber, der kan dække behovene i så

bred en gruppe af forskere. Kurset lægger op til, at forskerne danner

sig et overblik over centrale begreber, får kendskab til beregninger i

en konkret statistikpakke og orienterer sig tilstrækkeligt i standarder,

forsøgsdesign og grænselandet mellem statistik og epidemiologi.

Forskeren skal efter deltagelse i kurset Anvendt Statistik i være i

stand til at foretage forberedende statistiske analyser i forhold til

eget projekt, og forstå krav til metodevalg og på mere avanceret

niveau udføre dækkende statistiske beregninger og tolkning i forhold

til egne forskningsresultater bistået af en erfaren statistiker.

Det sekundære formål med kurset er at give forskeren bedre

mulighed for på lige fod med andre at deltage i kurser om mere

specialiserede emner alt efter forskerens behov.

3

DANISH INSTITUTE FOR DATA SCIENCE

Biostatistisk vejledning tilbydes forskere og forskergrupper,der ikke

får dækket behov for vejledning og analyse i deres lokale

forskningsenhed. Siden start har vi arbejdet med en 5-timers ramme

for hvert forskningsprojekt, timer derudover faktureres. Dog går vi

ofte ind og understøtter et projekt helt frem til processen omkring

peer-review og publikation.

Alle forskningsprojekter kan modtage hjælp til design,

styrkeberegning, statistisk programmering, analyse, fortolkning og

publikation i enten artikelform, konferencebidrag eller posters.

Adressen er [email protected]

Kontakthjemmesiden er dids.dk. På hjemmesiden finder I også hjælp

til at søge midler til forskning, anmelde forsøg til datatilsynet samt

oplysninger om statistisk software til data bearbejdning og analyse.

Gunnar Hellmund Laier

biostatistisk konsulent

Sorø, september 2018

mailto:[email protected]

4

PRAKTISK INFORMATION OM R

Opgaver i dette supplement til undervisningen i Anvendt Biostatistik

benytter R, fordi alle med sikkerhed kan installere denne statistiske

programpakke på deres egen PC.

Der er flere versioner af R: En standard version til 32 og 64 bit

Windows, Linux og Apple platformene, samt Microsoft R Open, der

tilbyder optimering i forhold til beregninger over flere kerner.

Den mest anvendte brugergrænseflade til R er RStudio, hvor I kan

finde nogle få men centrale hjælpemenuer og et redskab til literate

programming. I literate programming skrives forklaringer eller

artikeltekst omkring koden. Tekst formateres og resultater fra koden

indsættes automatisk, så man ikke skal skrive alt om hver gang man

ændrer data eller foretager skift i sin analysestrategi.

Deducer er en anden R frontend, men der er mange flere R

hjælpeværktøjer, ligesom R benyttes på serverløsninger til enten at

foretage dataforberedende beregninger eller estimation til

præsentation i Business Intelligence (BI) løsninger.

Jupyter er således en moderne online front end til R.

Den eksplosive udvikling i anvendelsen af R skyldes det akademiske

miljø indenfor statistisk forskning samt en meget alsidig platform og

kodebase. R giver mulighed for at kalde beregningskerner skrevet i

C, Fortran og andre programmeringssprog; ligesom man kan kalde R

funktioner i mange forskellige programmeringsmiljøer på mange

forskelligartede platforme.

5

ANDEN STATISTISK SOFTWARE

Der findes hundrede, hvis ikke tusindvis af hjemmesider med

beregningsalgoritmer, der ofte ikke giver helt det samme svar eller

konklusion på samme spørgsmål. Personer med forskellig baggrund

har udarbejdet disse sider med eksempler og dannet dokumentation,

der lever op til kravene indenfor disse personers eget

arbejdsområde, selvom metoderne skal anvendes med forsigtighed

af andre. Tilsvarende findes der forskellige pakker til R, som lader til

at svare på samme spørgsmål, selvom resultaterne er forskelligartet.

Man kan ikke uden grundig gennemlæsning af dokumentation og

forståelse af statistik vælge det rigtige redskab til sin analyse.

Indenfor de traditionelle kommercielle programpakker er det lettere

at foretage mere sikre valg på grund af en række begrænsninger og

brugerhensyn:

• SPSS: Region Sjælland tilbyder licenser til SPSS, der udvikles

og markedsføres af IBM. En forholdsvis dyr programpakke med

fordyrende udvidelsespakker.

• SAS: Forskere med tilknytning til et af de danske universiteter

har ofte adgang til SAS og JMP licenser samt andet software.

En alternativ version SAS University Edition kan installeres

gratis på din hjemmecomputer, når du er studerende, selvom

forskellige sikkerhedshensyn ikke gør det muligt at bruge

denne SAS version på en Region Sjælland PC. SAS er langt den

dyreste løsning i blandt de mest populære statistiske

programpakker.

• STATA: Programpakken Stata benyttes i rigtig mange

grundlæggende og videregående biostatistikkurser på de

danske universiteter, blandt andet fordi Statas syntax ligger

tæt op ad metodik baseret på epidemiologiske termer. Stata er

relativt set den billigste kommercielle statistiske

softwarepakke.

6

STATISTIK OG TILGRÆNSENDE OMRÅDER

I dette kursus introduceres en række grundlæggende statistiske

termer med henblik på anvendelse indenfor sundhedsforskning.

Biostatistiske metoder har sin oprindelse i matematik og forskning

indenfor både naturvidenskab og sundhedsvidenskab.

Variabilitet har mennesket altid interesseret sig for, både som et

begreb med relation til overtro og spil og som en del af vurderinger

med stor betydning indenfor handel, administration og videnskab.

Første gang en række astronomiske observationer sammenfattes

med mindste kvadraters metode er det på baggrund at Carl Friedrich

Gauss arbejde (1777-1855, Göttingen D) Gauss stod ogå bag mange

helt grundlæggende begreber og teorier indenfor moderne

matematik, og ønskede at kvantificere, hvorvidt han kunne forklare

variationen i observationerne. Mindste kvadraters metode benyttes

til almindelig regression, hvor dens forholdsvis milde antagelser er

ækvivalent med likelihoodbaseret estimation og inferens for

normalfordelte data.

Figur 1: Göttingen, Carl Friedrich Gauss (1840, Christian Albrecht Jensen)

7

Matematik blev i det tyvende århundrede anvendt mere systematisk

og formelt indenfor mange emneområder. Moderne statistik er et af

de store emneområder, som oplevede en rivende udvikling i flere

parallelle forløb. De mest centrale anvendelser og moderne forskning

i forsøgsdesign og statistisk metode fulgte Ronald Fishers (1890-

1962) arbejde indenfor jordbrugsforskning i England. Indenfor

kvalitetsudviklingsarbejde systematiserede Walter Shewhart (1891-

1967) statistisk kvalitetskontrol i USA. En anden central skikkelse,

der bør nævnes, er John Tukey (1915-2000) Tukey arbejdede blandt

andet for AT&T Bell Laboratories og berørte emneområder indenfor

særligt industri og fysik.

Figur 2: Ronald Fisher (1913) Walter Shewhart (?) samt John Tukey (?)

I hverdagen møder en akademiker anvendt statistik i mange

forskelligartede sammenhænge. Mest fremtrædende er

spørgeskemaundersøgelser. Spørgeskemaundersøgelser anvendes til

kvalitetsundersøgelser indenfor sundhedsforskning og i

observationelle studier, der kan inddrage forskellige typer af mixed

methods, hvor man kombinerer kvantitative data og kvalitative

redskaber. Normalfordelingen og forskellige former for ttests,

regression og multivariat statistik, som vi ellers ser anvendt i

forbindelse med kliniske forsøg, er helt centrale redskaber i

fortolkning af spørgeskemaundersøgelser. Den omfangsrige brug af

spørgeskemaundersøgelser er understøttet af den måde vi generelt

8

arbejder data både i papirform og virtuelt.

I dag kan vi lettere stille krav og danne fleksible designs for

dataindsamling og kvalitetssikring, som udtrykker de ønsker vi har til

præcision og vores evne til at drage konklusioner. Der foreligger

data om alle aspekter af menneskers liv og omverden, og der er

ingen grænser for, hvordan vi ønsker at kombinere og systematisere

den viden, der kan opnås på baggrund af data.

Regression og multivariat statistik, der i høj grad bygger på

forståelse af det matematiske emneområde linear algebra, er

traditionelt anvendt indenfor forsøg, hvor man benytter

variansanalyse til at beskrive observationsrækker, ændringer over tid

og forskel mellem grupper i blandt andet kliniske randomiserede

forsøg.

Kvalitetsarbejde har udviklet sig noget anerledes og givet anledning

til anvendelse af mange robuste metoder, som førhen har været

diskuteret indenfor økonometri og industriel statistik. Robuste

metoder anvendes, når man ikke har helt kontrol over

dataindsamling eller ønsker at træffe rationelle beslutninger på et

forholdsvis usikkert grundlag. I dag suppleres både traditionelle og

robuste metoder af simulation med computerbaseret sampling og de

nyeste landvindinger indenfor datalogi. Dette har forøget

anvendelsesmulighederne og givet flere lyst til at lære og anvende

statistik indenfor det, der populært kaldes data mining, deep

learning og data science.

9

VIDENSKABELIG VIDEN

Videnskabelig viden, hvad er det? På en skala fra spekulation til

sandhed, hvor ligger de erkendelser vi gør i forbindelse med forsøg

og analyse af data? Indenfor sundhedsforskning og

samfundsforskning kan vi opstille et hierarki for de mest anvendte

metoder. Indenfor sundhedsforskning benyttes begrebet evidens, og

mere generelt ønsker vi, at opnå stor sikkerhed for de konklusioner,

der drages på baggrund af videnskabelig forskning og statistisk

metode. Diskussionen er ikke kun et spørgsmål om udvikling af

statistisk metode, men indgår i sammenhæng med epidemiologiske

overvejelser og anskuelser om begrebet kausalitet.

Figur 3: Evidenspyramiden

Det vil overraske mange, at meta-analysen er øverst i

evidenspyramiden illustreret ovenfor. Meta-analyser gennemføres

forholdsvis sjældent på trods af deres relevans for litteraturstudier,

forundersøgelser og pilotstudier. Mange vil i planlægningen af deres

undersøgelse kunne drage fordel af at sammenfatte viden fra andres

10

forsøg, samtidig med, at de får et realistisk billede af konteksten for

deres egne resultater. Litteraturstudier danner ofte grundlag for

studiedesign og stikprøveberegninger, samt den statistiske

analyseplan. Når det er muligt kan litteraturstudiet også danne

grundlag for en metaanalyse, der kan anvendes i enten

diskussionsafsnit eller helt separat publikation. Metaanalysen indgår

naturligt i en strategi for dataindsamling og publikation. Ligesom

litteraturstudiet understreget metaanalysen, hvad der er interessant

for allerede etablerede forskere indenfor et område. Metaanalysen

står i sammenhæng med det systematiske review, og bør supplere

dette, når det er muligt.

Evidenspyramiden skal ikke mistolkes. Er det mere naturligt, at en

undersøgelse gennemføres som et observationelt studie, fremfor et

randomiseret kontrolleret forsøg, bør man vælge det observationelle

studie. Er det svært at samle alle nødvendige data selv, kan man

under danske forhold ofte supplere med centrale kilder, herunder

viden fra specialernes databaser og de nationale registre, både de

offentligt tilgængelige statistikker og de lukkede registre. De centrale

registre kan ofte for en mindre udgift supplere forskeren eller

forskergruppen med tilstrækkelig information til, at der kan

foretages beregning af enten direkte eller indirekte standardiserede

incidenser og oddsratioer, eller der kan gennemføres matchede

studier. Det er en mulighed, der står åben for forskere i både den

offentlige sektor og det private erhvervsliv, herunder de mange

konsulenthuse.

EFFEKTSTØRRELSE

Evidensbaseret forskning bør forholde sig til estimater og

størrelsesforhold kvantificeret ud fra den iboende variabilitet data

udtrykker. En parameter estimeret indenfor en statistisk model

suppleres med en standard afvigelse, der ud fra antallet af

observationer, giver anledning til at danne et konfidensinterval for

estimatet og et prædiktionsinterval for observationer.

11

EKSEMPEL

Lad os betragte et estimat for en forskel ℎ, som vi antager er en

realisation af en stokastisk variabel Θ. Vi antager, at Θ er

approksimativt normalfordelt og har standard afvigelsen 𝜎. Standard

error er lig spredningen delt med kvadratroden af antallet af

observationer 𝑛, og er et estimat for spredningen på estimatet for

forskellen. Derfor kan vi danne et approksimativt 𝛼 konfidensinterval

[ℎ − 1.96 ∙𝜎

√𝑛; ℎ − 1.96 ∙

𝜎

√𝑛]

idet 1 − 𝛼/2 percentilen i en standard normalfordeling er 1.96, når

𝛼 = 0.05, det vil sige, når signifikansniveauet er 5%.

Indenfor rammen af frekventistisk statistik er tolkningen af

konfidensintervallet, at gentager vi forsøget under samme forhold og

med samme antal observationer, vil den sande værdi ligge i

konfidensintervallet i 95% af forsøgene. Ønsker vi at vurdere, om

modellen med rimelighed kan siges at afspejle variabiliteten i data,

kan vi danne et prædiktionsinterval for observationerne. Her

forventer vi at dække 95% af observationerne, selvom der er plads

til nogle afvigelser

[ℎ − 1.96 ∙ 𝜎; ℎ − 1.96 ∙ 𝜎]

Prædiktionsintervallet er på ingen måde en tilstrækkelig kontrol af

en model, men vil i flere tilfælde kunne anskueliggøre om der er

store afvigelser fra modellens forventninger.

Men hvilken skala skal ℎ vurderes på? Her må vi måle afstand i

forhold til spredning på estimatet som i tilfældet med

konfidensintervallet og prædiktionsintervallet. Hvis vores estimat

repræsenterer den virkelighed, vi har målt, er forskelle små eller

store relativt i forhold til størrelsen af spredningen 𝜎, som på den

måde definerer skalaen for effektstørrelsen.

12

Ser vi på kontraster, det vil sige differenser på tværs af grupper eller

interventioner, herunder forskellige niveauer af eksponering, giver

det mening at tale om effekt ud fra den konkret estimerede forskel

vurderet i forhold til variabiliteten, Cohens’ d er et eksempel:

𝑑 =�̅�1 − �̅�2

𝑠𝑝𝑜𝑜𝑙𝑒𝑑, 𝑠𝑝𝑜𝑜𝑙𝑒𝑑 = √

(𝑛1 − 1)𝑠12 − (𝑛2 − 1)𝑠2

2

𝑛1 + 𝑛2 − 2

Effektstørrelsen udtrykt som Cohens’ d er standardiseret og skal

dermed vurderes i standard normalfordelingen, hvor vi omtaler

percentilerne som z-scores.

Notationen Z er ofte anvendt i sammenhæng med standardnormalfordelingen 𝑁(0,1). Hvis en teststørrelse kaldes 𝑍, 𝑍∗ eller variationer herover, er det et hint til, at

betragtningerne for størrelsen involverer normalfordelingen.

Et ikke-biased alternativ til Cohens’ d er Hedges’ g, som i mange

sammenhænge omtales som d.

𝑔∗ = (1 −3

4(𝑛1 + 𝑛2) − 9)

�̅�1 − �̅�2

𝑠𝑝𝑜𝑜𝑙𝑒𝑑

Standard error er for effektmålet

𝑠𝑒𝑑 = √𝑛1 + 𝑛2

𝑛1𝑛2+

𝑑2

2(𝑛1 + 𝑛2)

13

Bias betyder afvigelse fra sand værdi.

Der findes mange forskellige typer bias, bias på estimater fra matematiske og statistiske modeller, der skyldes misspecifikation eller forkert datagrundlag, eller bias, som opstår på baggrund af andre dispositioner og valg:

1) Informationsbias herunder observatørbias, interviewerbias, recall (genkaldelses) og responsbias, socialt betinget (social desirability) bias, performancebias (på baggrund af viden om allokering), detektionsbias (forskelle i indsamling mellem grupper) instrumentielbias (måleinstrumentet måler forskelligt mellem grupper)

2) Selektionsbias der indbefatter sampling bias, allokeringsbias, loss to follow-up i kohorte studier tilsvarende attritionsbias i randomiserede kliniske studier. Selektionsbias overvejes forskelligt afhængigt af, om designet er case-kontrol, kohorte eller randomiseret forsøg.

Der er mange alternativer, og estimater for effektstørrelser skal

vælges ud fra den måde statistik og parametre tolkes og anvendes.

Udover Cohens’ d og Hedges’ g er der eta-squared 𝜂2 og omega-

squared 𝜔2, der ligesom R-squared er mål for andelen af forklaret

variation. OR, RR1 er andre effektstørrelser, ligesom enhver

korrelation er effektmål.

Pearsonkorrelationer mellem to kontinuerte mål 𝑥 og 𝑦 på samme

objekter, hvilket ofte vil sige items i et patient spørgeskema eller

andre mål af personlig karakter, er defineret som

𝜌 = ∑(𝑥𝑖 − �̅�)(𝑦𝑖 − �̅�)

𝑛 − 1

1 Risiko ratioer (RR) er forholdet mellem risici eller prævalens og bør aldrig anvendes i studier, hvor populationsafgrænsningen og rekruttering påvirker forekomsten af cases (prævalente cases) såsom case kontrol studier. Analyseres sjældne begivenheder er OR og RR approksimativt ens, og der benyttes metoder til at estimere OR i vurderingen af RR.

14

Spearmans’ 𝜌 udregnes med samme formel, men i stedet for

værdier indsættes rangene udregnet indenfor hvert mål.

Heterokoriske, polykoriske og polyserielle korrelationer danner

mulighed for at betragte association som effektmål i mange

sammenhænge på både kontinuert, ordinale og nomial skala.

Pearson, Spearman og Kendall korrelationer er de mest velkendte.

Korrelationer er af særlig betydning i forbindelse med multivariate

statistik, hvor korrelations- og kovariansmatricer2 sammen med

antallet af observationer er eneste input i estimationstrinnet. Det er

derfor ikke irrelevant at være fortrolig med, hvilken

korrelationskoefficient man ønsker at udregne inden man udtaler sig

om associationer i en multivariat analyse, baseret på for eksempel

en strukturel ligningsmodel. Svaret for lægmand er ofte at anvende

den korrelation, som instrumentet og målemetoden blev udarbejdet

med, selvom det støder til opfattelsen af sammenhæng mellem de

realiserede data, afgrænsningen af modellen samt

fortolkningsrammen for analysen. Oftest er Pearsonkorrelationen

derfor det rigtige mål, ligesom man ikke bekymrer sig alt for meget

om normalfordelingsantagelser.

METAANALYSEN

Vi så at metaanalysen er øverst i evidenspyramiden, selvom den i

forhold til både design og statistisk metode ikke er den mest

udfordrende øvelse. Metaanalysen kræver brug af forskellige

justeringsmetoder herunder Mantel-Haenszel og anvendelse af

blandt andet lineære mixed models. Det er mest almindeligt at

basere metaanalysen på parameterestimater, så vi vil ikke diskutere

andre tilfælde, men se mere på de overordnede krav og give et

eksempel på en beregning. Populationer bag undersøgelser, der

indgår i en metaanalyse, skal være sammenlignelige og estimater

2 Korrelationsmatricen er kovariansmatricen, hvor hver indgang divideres med kvadratroden af bidraget på diagonalen fra rækken og tilsvarende for bidraget fra diagnolaen fra søjlen. Husk at indgangene i en kovariansmatrix på diagonalen er varianserne, og kovarianserne udenfor diagonalen.

15

skal kunne sammenholdes. Diskussionen af effektmål og tilhørende

størrelser er derfor særlig relevant for valg af datagrundlag for

metaanalysen og metodevalget.

En undersøgelse benytter måske middelværdi, spredning eller

standard error3 eller en specifik forskel og effektmål for denne

forskel, medens en anden undersøgelse benytter median og

interkvartil interval i beskrivelsen af en populationsgruppe.4

Medianen er 50% percentilen, observationen i midten, når observationerne sorteres efter deres størrelsesorden. Percentiler kan udregnes på mange forskellige måder afhængigt af hvorvidt en værdi kan optræde mere end en gang. Kvartilerne er 25% og 75% percentilerne, interkvartil range er intervallet mellem nedre og øvre kvartil. Der arbejdes også med kvintiler, deciler og mange andre tilsvarende begreber.

EKSEMPEL

Vi benytter R til at generere en observationsrække og illustrerer

derefter begreberne, middelværdi, spredning, median og percentiler

samt range.

x <- runif(100) #100 observationer fra den uniforme på [0,1] round(x*100)/100 #Afrundede værdier [1] 0.17 0.97 0.80 0.30 0.04 0.27 0.92 0.15 0.49 0.81 0.19 0.76 0.95 0.66 0.35 0.83 0.34 0.86 0.03 0.75 0.51 0.73 0.84 0.71 0.54 0.29 0.48 [28] 0.65 0.23 0.57 0.45 0.96 0.69 0.77 0.22 0.43 0.85 0.61 0.68 0.65 0.13 0.01 0.83 0.06 0.32 0.50 0.73 0.47 0.76 0.29 0.81 0.30 0.55 0.75 [55] 0.96 0.79 0.07 0.26 0.68 0.57 0.90 0.67 0.08 0.33 0.71 0.44 0.08 0.15 0.56 0.14 0.43 0.86 0.51 0.79 0.11 0.59 0.69 0.98 0.12 0.46 0.90 [82] 0.58 0.44 0.28 0.84 0.24 0.35 0.50 0.24 0.00 0.82 0.05 0.03 0.76 0.53 0.12 0.89 0.79 0.49 0.51

3 Standard error er spredning delt med kvadratroden af antallet af observationer. 4 Forskelle i måden at gennemføre analyser og afrapportere resultater fra disse, kræver ofte meget specifik viden for at korrekte omregninger kan udføres, alligevel må man ofte skønne og foretage approximationer. Medianen er et estimat for middelværdien i en symmetrisk fordeling, medens 1.4826 gange MAD (median adjusted deviations) er et estimat for spredningen. MAD er medianen af de normerede værdier af de enkelte observationers afvigelser fra det empiriske gennemsnit. Se referencer i Optimally estimating the sample mean from the sample size, median, mid-range, and/or mid-quartile range. Luo et al, Statistical Methods in Medical Research 2018, Vol. 27(6) 1785–1805

16

rank<-order(x) #Udregning af range rank[1] #Hvilken observation i observationsrækken x er mindst? [1] 90 #Det var observationen i indgang 90 i observationsvektoren #Vi tilskriver nu hver observation dens rang og gemmer data df<-as.data.frame(x) df$rank<-rank[rank] #De første 10 observationer > df[1:10,] x rank 1 0.16854715 72 2 0.96606110 48 3 0.80132175 11 4 0.29934955 81 5 0.03984063 5 6 0.27011704 97 7 0.92285244 9 8 0.15042233 82 9 0.48546177 62 10 0.80649335 77 #Median > median(df$x) [1] 0.5234041 quantile(df$x) 0% 25% 50% 75% 100% 0.004219293 0.279787930 0.523404088 0.759172108 0.980990830 summary(df$x) #Min, max, kvartiler, median og gennemsnit Min. 1st Qu. Median Mean 3rd Qu. Max. 0.004219 0.279788 0.523404 0.512926 0.759172 0.980991 > sd(df$x) #Standard afvigelse [1] 0.2849197

Ikke alle undersøgelser medtager tilstrækkelig information til, at det

giver mening at foretage sammenligninger og en ordentlig meta-

analyse vil ofte kræve en håndfuld studier eller mere med ikke al for

stor variation i stikprøvestørrelserne og populationsgrundlag.

For observationsrækken 𝑥1, … , 𝑥𝑛 er gennemsnittet �̅� et estimat for middelværdien 𝜇

�̅� =1

𝑛∑ 𝑥𝑖

Standard afvigelsen 𝑠𝑑, som er kvadratet på de residuelle afvigelser delt med

kvadratroden af 𝑑𝑓 = 𝑛 − 1, er et estimat for spredningen 𝜎

𝑠𝑑 =1

√𝑛 − 1∑(𝑥𝑖 − �̅�)2

UDREGNING AF EFFEKTSTØRRELSE FOR FORSKEL UDFRA T TESTSTØRRELSE

En omskrivning af effektstørrelsen benyttes til at regne baglæns

17

𝑑 = 𝑡√𝑛1 + 𝑛2

𝑛1𝑛2

Udtrykket giver også et udtryk for 𝑑, når p-værdien er kendt, idet vi

benytter formlen efter at have udregnet t-teststørrelsen med

udgangspunkt i p-værdien. Dette kan vi gøre, fordi t fordelingen er

symmetrisk og strengt aftagende omkring nul, idet vi selvfølgelig

skal huske, om vi har foretaget et dobbeltsidet eller ensidet test.

METAANALYSE EKSEMPEL

Metaanalysen kan bygges op omkring effektmodeller og lineære

mixed models. I blandt de første er Mantel-Haenszel metoden, der er

en generel metode til at kombinere estimater. Denne er anvendt i

mange sammenhænge, og i statistisk analyse i særlig grad i

sammenhæng med stratificerede analyser, når der skal korrigeres

for konfoundere. Metoden beskrives mest enkelt for 2x2 tabeller, og

vi kan vælge at se Mantel-Haenszel som en metode til at

gennemføre en metaanalyse af Odds ratioer på tværs af en række

studier, der sammenholder en eksponeringsfaktor med antallet af

cases:

Case Noncase

Eksponeret a b

Ikkeeksponeret c d

Tabel 1: Oddsratioen (OR) defineres som ad/bc, hvor odds for de eksponerede er a/b.

Mantel-Haenszel proceduren for OR kan beskrives som en vægtning

af OR estimater fra forskellige undersøgelser, hvor n betegner antal:

𝑂𝑅𝑀𝐻 =1

∑𝑏𝑖𝑐𝑖

𝑛𝑖

∑𝑎𝑖𝑑𝑖

𝑛𝑖=

1

∑ 𝑤𝑖∑ 𝑂𝑅𝑖𝑤𝑖 , 𝑤𝑖 =

𝑏𝑖𝑐𝑖

𝑛𝑖.

Metaanalyser er principielt enkle, men værktøjerne er avancerede og

for omfattende til, at vi kan beskrive dem i denne note. Det er dog

18

værd at se på sammenhængen med lineære mixed models for

kontinuerte mål. Vi forudsætter normal fordelte data, og har for

hvert studie information om middelværdi estimat, spredning og antal

observationer. I eksemplerne nedenfor har vi tre studier med 111,

200 og 80 observationer5, hvilket er i underkanten for en

metaanalyse, man ønsker at publicere. Analysen kan alligevel være

interessant som guideline før en stikprøveberegning eller

simulationsbaseret styrkeberegning.

R EKSEMPEL6

install.packages("nlme")

library(nlme)

dat<-as.data.frame(cbind(yi<-c(14.48,12.73,12.89),vi<-

c(1.99,0.11,2.91)/sqrt(c(111,200,80)),study<-1:3))

names(dat)<-c("yi","vi","study")

res.lme <- lme(yi ~ 1, random = ~ 1 | study, weights = varFixed(~ vi),

control=lmeControl(sigma = 1),data=dat)

summary(res.lme)

STATA EKSEMPEL

SAS EKSEMPEL7

DESIGN

Når en relevant hypotese er genereret, og du har lagt dig fast på de

emner, din undersøgelse skal beskæftige sig med, skal der vælges et

korrekt design. Designet for undersøgelsen skal derudover vælges

med hensyn til de begrænsninger, der er sat af projektets ressourcer

og de metoder, der med rimelighed kan anvendes på baggrund af de

data undersøgelsen frembringer.

5 Estimater for middelværdi er 14,48 12,73 og 12,89 og for spredning 1,99 0,11 og 2,91 6 I R anbefales pakken metafor, der også kan producere relevante plots. 7 Vi benytter i dette eksempel lineære mixed models, der indenfor samfundsvidenskaberne ofte har anvendelse i forbindelse med multi level modelling.

19

RANDOMISERET KONTROLLERET FORSØG

Et randomiseret kontrolleret forsøg kan designes meget enkelt, hvis

ikke der er mangel på patienter gennem allokering til to eller flere

arme og der foretages en eller flere sammenligninger mellem

grupperne over tid set i forhold til eksponering.

I begrebet randomisering ligger der flere lag med relation til

begrebet afblænding. Er randomiseringen blændet for deltagerne,

for personerne der udfører forsøget i samarbejde med deltagerne

og/eller personerne, som administrerer og analyserer studiet.

Randomiseringsleddet er helt centralt for gennemførelsen, at det på

forhånd skal planlægges nøje, og der er i dag mange muligheder for

hjælp af online redskaber og softwareredskaber8. Det er i øvrigt

vigtigt at understrege at patienter sjældent randomiseres individuelt,

men tilordnes til forskellige eksponeringsgrupper gennem

blokrandomisering, hvor blokke er givet ud fra forsøgets størrelse og

andre praktiske omstændigheder.9

I designet af et randomiseret kontrolleret forsøg skal der tages højde

for, at undersøgelsen skal være repræsentativ samtidig med, at

patienter, der let kan skævvride resultaterne ekskluderes. Det skal

på forhånd også overvejes om frafald har større betydning i en arm

med en bestemt type eksponering set i forhold til øvrige, samtidig

med at der tages stilling til, hvordan frafald håndteres i analyserne.

Frafald er ofte skævt og ikke fuldstændig tilfældigt, hvilket gør valg

af imputationsmetoder mere delikate end de fleste bryder sig om.

8 https://www.sdu.dk/da/om_sdu/institutter_centre/klinisk_institut/forskning/forskningsenheder/open/opens_faciliteter/open+randomise https://www.randomizer.org/ https://www.sealedenvelope.com/ 9 Et eksempel kunne være forventet antal patienter på en operationsstue på en hverdag, ugedage med adgang til undersøgelsesrum etc.

https://www.sdu.dk/da/om_sdu/institutter_centre/klinisk_institut/forskning/forskningsenheder/open/opens_faciliteter/open+randomise

https://www.sdu.dk/da/om_sdu/institutter_centre/klinisk_institut/forskning/forskningsenheder/open/opens_faciliteter/open+randomise

https://www.randomizer.org/

https://www.sealedenvelope.com/

20

Heldigvis viser der sig ofte at være mindre afvigelser eller slet ingen,

når forskelle mellem ITT og PP diskuteres.

ITT - Intention To Treat

Beskriver at enhver patient, der er randomiseret til en behandling skal indgå i analysen. Er der frafald eller non-compliance indgår patienten med manglende værdier, hvilket vi i analysen kan vælge at tage højde for gennem imputation: Last value carry forward, replacement with mean, regression, herunder kædebaseret imputation (mice) og forskellige simulationsbaserede multiple imputationsmetoder. ITT princippet danner det ’fuldstændige analyse sæt’. Ofte anvendes ITTm, her står m for modified/modificeret, fordi patienter ikke medtages når der ikke er data til rådighed efter randomisering. Patienter medtages ikke, hvis ikke de modtager behandling.

PP - Per Protocol

Er princippet, der beskriver, at patienter, som medtages i analysen bør overholde alle krav til inklusion, randomisering, behandling og mål. Manglende opfølgning, der potentielt set skyldes behandlingseffekter er ikke eksklusionsgrund.

Opdelingen af forsøgpopulationen før analyse er vigtigt i diskussionen af virkningsfuldhed (efficacy).

Sammenholdes to grupper i et forsøg er det altså en forudsætning at

grupperne er sammenlignelige og repræsentable indenfor den

population, der ønskes beskrevet. Det giver mange lyst til at benytte

matching10 og avancerede designs, såsom crossover designet, hvor

en deltager kan indgå som sin egen kontrol i det omfang, at det er

muligt at udsætte den samme deltager for flere forskellige

eksponeringer adskilt over tid, på sådan en måde at udgangspunktet

for patienten er det samme fra gang til gang.

Crossover designet i sin mest banale form er af typen AB BA med to perioder, hvor den ene deltagergruppe i første periode eksponeres for behandling A, medens den anden eksponeres for behandling B og omvendt i næste periode. Hver enkelt patient modtager begge behandlinger i to forskellige perioder. Det skal i forbindelse med

10 Matching stiller krav til valg af analysemetode, hvor der benyttes stratificering eller betinget regression. (Time to) Event data kræver indenfor hvert stratum et antal events / non-event for hvert niveau af de indgående faktorer. Derfor benyttes i dag ofte propensity score matching samt optimal og greedy matching.

21

design og analyse sikres, at der ikke er en periodeeffekt, ligesom der ikke må være en effekt af rækkefølgen af eksponeringen. Patienten skal altså ikke kunne opleve en permanent forværring eller forbedring som følge af den ene eller anden behandling. Tiden mellem perioderne, også kaldet washout skal afgrænses meningsfuldt. Der findes hundredevis af forskellige crossover designs, og redskaber til at vælge det rigtige. Se R pakken Crossover, der blandt andet giver en GUI med en række valg og en søgealgoritme. Der findes også flere bøger om emnet: Design and Analysis of Cross-Over Trials (Chapman & Hall/CRC 2014) 3rd Edition by Jones & Kenward.

22

STATISTISK METODE

I analysen af data fra et randomiseret kontrolleret forsøg benyttes

alt lige fra t-tests til Cox proportional hazards. Dette giver meget

forskelligartede udfordringer.

Først og fremmest opdeles i primære og sekundære endepunkter.

Ønskes flere sammenligninger foretaget skal det besluttes om der

skal tages højde for alpha-inflation. Dette kan gøres ved direkte at

ændre signifikansniveauet eller foretage korrektion for flere

sammenligninger. Bonferronikorrektion11 er ofte nævnt, men

anvendelsen kan diskuteres. Foretages der interim eller posthoc

analyser, eller reduktioner i en sammenfattende model? Bør

resultater i fremstillingen inddeles i signifikant på 5%, 1% og 0.1%

niveau? Bør der i overvejelserne af primære endemål foretages test

af sammensatte hypoteser i en serie af reduktioner før en række

hypoteser vurderes (simultant) hvilket reducerer behovet for

korrektion?

Er studiet prospektivt bør der benyttes overlevelsesanalyse til time-

to-event data, ligesom både t-test, ANOVA, RMANOVA og lineære

mixed models kan anvendes på kontinuerte data. Der findes

sammenfattende tests, og ingen valg er helt entydige med mindre

der er meget klarhed før undersøgelsen omkring sammenhængen

mellem målinger, herunder korrelationer over tid og størrelsen af de

indgående værdier indenfor og imellem grupperne, ligesom der skal

være rimelig klarhed over forekomsten af frafald og manglende

værdier.

Tilsvarende er chi-i-anden tests og Fishers eksakt samt logistiske

regressionsmodeller et oplagt valg til retroperspektive studier. Det er

11 Der er mange alternativer, herunder Sidak korrektion og simulationsbaserede korrektioner.

23

dog ikke ualmindeligt, at der suppleres med en KM kurve for hver

gruppe og et log-rank test.

I den traditionelle tankegang, der går tilbage til Ronald Fisher og

forsøg med allokering til kvadrater med designs indenfor jordbrug, er

det klart, at der hele tiden arbejdes indenfor rammerne af en

statistisk varianskomponent model, hvor der kan stilles flere

spørgsmål om effekt af forskellige variable. Modellen reduceres

gennem en serie af tests, og estimater tolkes i den endelige model.

Så enkel er en analyse sjældent i dag, selvom variansanalyse også

kan være en udfordring, da traditionelle metodevalg ofte ikke tillader

interaktion, kræver balanceret design og sikkerhed om

fordelingsantagelser12 I dag kan der metodemæssigt tages højde for

mange uregelmæssigheder. Det får dog ofte resultaterne til at

fremstå uklare og om muligt tvetydige, hvis der skal kompenseres

for meget metodemæssigt på designmæssige udfordringer.

Sidstnævnte er årsagen til, at vi også indenfor områder af anvendt

statistik nu ser en større integration med datadrevne metoder, hvor

man kompenserer med flere data, når det kan lade sig gøre.

Adgangen til flere data er blevet bedre, også i sammenhæng med

forskning. Der lægges mere vægt på at kompensere med data og

nye sammenfattende eksplorative redskaber, for hurtigere at komme

i mål i udviklingsprocesser, der derefter leder til forsøg, der er styret

af meget faste rammer, i tilfældet med medinske forsøg, fastlægges

rammerne af myndigheder som FDA i USA og EMEA i EU.

Der er i dag flere paradigmer for statistisk analyse. Det

frekventistiske metodevalg, hvor der også skal tages højde for valg

af parametriske modeller versus ikke-parametrisk statistik herunder

brug af rangbaserede estimatorer og simulation. På den anden side

12 https://en.wikipedia.org/wiki/Analysis_of_variance

24

det bayesianske metodeværktøj, hvor der er andre fortolkninger af

estimater og angivelsen af usikkerheder på estimater.

WILCOXONS TEST

To observationsrækker med 𝑛 og 𝑚 observationer opskrives i én

talfølge med observationerne i ordnet rækkefølge. Første

observation har rangen 1, anden rangen 2 ordnet ud fra

observationernes størrelse. Har flere observationer samme størrelse

𝑥1, … , 𝑥𝑘 = 1,4,6,8,8,9,12

er der flere måder at tage højde for dette på forskellig vis, ens valg

afhænger primært af anvendelse og fortolkningsramme. Det er for

eksempel muligt at benytte gennemsnit (fractional ranking). For

følgen ovenfor hvor 8 optræder to gange, giver dette rangene

1,2,3,4.5,4.5,6,7

Første rang (standard competition ranking) eller sidste rang

(modified competition ranking) kan tilskrives en serie af identiske

observationer eller de kan tilskrives fælles rang, endelig kan vi

ignorere ens værdier13

1,2,3,4,4,6,7

1,2,3,5,5,6,7

1,2,3,4,4,5,6

1,2,3,4,5,6,7

Idet 𝑅1 samt 𝑅2 betegner summerne af rangene for de to

observationsrækker dannes en teststørrelse, ud fra antagelsen om,

13 Ens værdier kaldes på engelsk ties

25

at observationsrækkerne er realisationer fra den samme fordeling.

Wilcoxons rangbaserede test for to observationsrækker er

ækvivalent med Mann-Whitneys U test

𝑈1 = 𝑅1 −𝑛1(𝑛1 + 1)

2

Teststørrelsen er ovenfor udregnet for første observationsrække.

𝑈1 + 𝑈2 = 𝑛1𝑛2.

Almindeligvis benyttes den mindst værdi. Middelværdien er under

antagelse om ens fordeling lig 𝐸[𝑈] =𝑛𝑚

2 og spredningen er

𝜎 = √𝑛𝑚

12(𝑛 + 𝑚 + 1)

Teststørrelsen vurderes efter standardisering i en 𝑁(0,1) fordeling.

𝑧 =𝑈 − 𝐸[𝑈]

𝜎

Har vi en observationsrække, og ønsker vi at teste om denne er

symmetrisk, kan vi benytte testet ved at skelne mellem værdier

omkring middelværdien. Har vi to observationer for hvert individ i en

måleserie, kan vi betragte differenserne. Dette er approksimativt

ækvivalent med Wilcoxons fortegnstest, når antallet af differenser

forskelligt fra 0 er større end 1014. Wilcoxon Mann Whitneys U test er

det ikke parametriske svar på t-testet, medens Wilcoxons

fortegnstest modsvarer det parrede t-test.

14 Se øvelse …

26

I den frekventistiske tankegang ser vi på en række observationer,

grupperede eller ugrupperede. Når vi opstiller en model, antager vi,

at observationerne er realisationer af stokastiske variable, størrelser,

der antager værdier efter en fastlagt fordeling. Er observationerne

ikke uafhængige, skal vi gennem en multivariat fordeling beskrive,

hvordan observationerne korrellerer. Når modellen er opstillet søger

vi at redegøre for, at modellen er velvalgt ved at studerer

afvigelserne fra modellen

𝑟𝑖 = 𝑥𝑖 − 𝑒𝑖

Residualerne er forskellen mellem de observerede værdier og de ud

fra modellen forventede værdier. Et kriterium for, at en model er

velvalgt, er at der ikke er systematiske afvigelser fra modellen. Dette

tyder på misspecifikation eller fordelingsantagelser, der ikke

stemmer overens med det observerede. Det observerede

repræsenterer virkeligheden, som er trolig, hvorfor vi forlanger, at

den statistiske model er trolig. Kan vi redegøre for, at den statistiske

model er trolig, antager vi, at den repræsenterer virkeligheden, og vi

kan deducerer ud fra denne. Det er en præmis, som har ført til

videreudvikling af statistisk metode, blandt andet etableringen af

bayesiansk statistik, men de grundlæggende redskaber er stadig

forankret i matematik og i særlig grad sandsynlighedsteori.

27

R EKSEMPEL

STATA EKSEMPEL

SIMULATION

R EKSEMPEL

STATA EKSEMPEL

Figur 4: Split-plot design i Christchurch NZ15

Endelig er et videnskabeligt eksperiment ikke en ønskekage, hvor

man håber på et signifikant resultat, selvom det står i måne og sol,

at sådan forholder virkeligheden sig ikke. Hvis det er mere oplagt, at

en hypotese omhandler ækvivalens eller man på anden måde bør

15 Se skoven i dag: https://www.google.co.nz/maps/@-43.6193359,172.3448626,773m/data=!3m1!1e3

28

diskutere klinisk signifikans, der ikke skal forveksles med statistisk

signifikans, skal man forholde sig til dette i både design og

metodevalg og angive dette i protokollen for studiet. Dette stiller

krav til viden om anvendte skalaer og deres kliniske anvendelse,

hvilket igen understreger, at litteratursøgning og litteraturstudier

forud for protokolskrivning er meget centralt i dannelsen af

hypoteser for et studie.

EKSEMPLER PÅ SAMMENLIGNINGER

Data i dette eksempel vil blive anvendt til at illustrere både det ikke-

parrede t-test, det parrede t-test, den mest enkle form for

variansanalyse og endelig den mere omfattende kovariansanalyse. Vi

vil undervejs diskutere transformation og tests af akkumulerede mål.

29

T TESTET

R EKSEMPEL

STATA EKSEMPEL

ANOVA

R EKSEMPEL

STATA EKSEMPEL

ANCOVA

R EKSEMPEL

STATA EKSEMPEL

DISKUSSION

OBSERVATIONELLE STUDIER

Det observationelle studie vil indenfor sundhedsforskning oftest

baserer sig på en kohorte, en gruppe af patienter afgrænset af en

række fællestræk angivet ud fra sygdomsbillede eller

behandlingstilbud. Det er heller ikke ualmindeligt at kliniske

databaser anvendes i observationelle studier afgrænset af geografi,

hvilket kan være patienter i en given periode på en række

afdelinger. For lægefagligt personale er det særligt interessant at

observere konsekvenserne af forskellige behandlinger og deres

effekt på komplikationer og overlevelse.

I sygeplejen kan den observationelle studie være afrundingen på

indsamling af kliniske erfaringer og kvalitetsarbejde gennem flere år

med ønske om at danne konklusioner på et tilstrækkeligt

evidensbaseret grundlag.

Selvom der ofte anvendes spørgeskemaer, hvor der stilles en lang

række spørgsmål, er det ofte en opsummerende score, der

anvendes til at belyse den primære hypotese for studiet. Ligesom en

lang række markører belyses i sammenhæng med udfald som

sygdomsforværring eller død. Ligesom de kliniske randomiserede

forsøg er mulighederne for at anvende både prospektive og

30

retroperspektive metoder til stede. Oftere vil opgørelser med tests i

tabeller og sammenligninger i t-tests eller ikke-parametriske tests

såsom Wilcoxon’s rangbaserede test være centralt for beskrivelsen

af de indgående værdier, og analysen vil fokuserer på angivelsen af

ganske få centrale sammenhænge.

Sammenligninger med populationsniveau (regionalt, nationalt,

internationalt) kan være interessante i såkaldte standardiserede

analyser. Disse strækker sig fra udregning af direkte og indirekte

standardiserede incidenser og ratioer til avancerede

regressionsmodeller, der gør det muligt at komme med udsagn om

en bestemt patientgruppe fra et speciale eller om forskelle på tværs

af regionale eller nationale grænser.

STANDARDER

Der findes i dag standarder for de fleste aspekter ved videnskabelige

undersøgelser og forsøg. Ikke blot de etiske retningslinier, der gør

det nødvendigt at få godkendt både forsøgsprotokol og

dataopbevaringsmetode, men også standarder for international

publikation af protokol for forsøg, standarder for design af forsøg,

beregninger af stikprøvestørrelse og styrke, valg af analysemetoder,

afrapportering af ikke kun svære komplikationer til relevante

myndigheder, men formatet der anvendes til at beskrive

korrelationer i tabeller, herunder hvor mange decimaler, du skal

angive, og hvorvidt et komma skal være et punktum hævet til

midten af linien. Standarderne afhænger selvfølgelig af hvilket

tidsskrift du ønsker at publicere resultaterne i, og det er også en

overvejelse, som du bør gøre, når protokollen skrives.

På næste side forefindes et diagram hentet fra en hjemmeside, der

giver et overblik over guidelines indenfor sundhedsvidenskabelig

forskning og kvalitetsfremme. Der er mere end 400 guidelines, nogle

af de væsentligste er CONSORT til randomiserede

31

interventionsstudier og STARD til sammenligning af diagnostiske

test. Ofte har de internationale faglige organisationer standarder og

templates, ligesom tidsskrifterne, som førnævnt, sætter en række

krav, der kan påvirke metodevalg.

Figur 5: Eksempel på CONSORT flowchart, der beskriver forsøgspopulationen.

Ovenfor et eksempel på et CONSORT diagram, der beskriver en

forsøgspopulation. Lige gyldigt hvilket design og metode man

anvender bør man sikre sig, at kunne beskrive populationen med et

passende flowchart. Dette bringer ofte ro omkring både design og

metodevalg. Data kan være indsamlet på en måde, så populationen

ikke lader sig beskrive entydigt i forhold til de analyser man ønsker

at gennemføre. Nedenfor ses et eksempel på en population, hvor tre

forskellige delstudier trækker på samme population. Der er tale om

et nested case-control studie, et retroperspektivt studie og et follow-

up studie baseret på patientmaterialet fra et medicinsk speciale i et

geografisk afgrænset område.

32

Figur 6: Flowchart, der beskriver studiepopulationer og design.

34

EPIDEMIOLOGI16

Epidemiologi beskæftiger sig med frekvenser, fordelinger og

forståelsen af etilogiske faktorer i udviklingen af sygdomme.

Figur 7: Den epidemiologiske trekant

Selvom, vi kommer langt med mange studier ved at opstille præcise

hypoteser for centrale mål og teste disse med de rigtige statistiske

metoder på baggrund af videnskabelige forsøg, kommer vi ikke

udenom, at vi forud skal gøre en del overvejelser om kausale

forhold. Det er strengt taget ikke muligt at teste, hvorvidt en faktor

er en konfounder; foregående undersøgelser kan have påvist dette.

Ligesom vi kan identificere en potentiel konfounder, når en faktor er

associeret med både eksponering og udfald, hvilket er definitionen

på konfounding. I analysemetoden tager vi højde for konfounding

gennem justering eller stratificering. Dette har vi allerede set

tidligere i forbindelse med eksemplet på meta-analysen, men

justering for konfounding er for nogen blot en korrektion med brug

16 Epidemiology is the study of the distribution and determinants of disease frequency in man, MacMahon B, Pugh TF (1970) Epidemiology: principles and methods. Little, Brown and Company, Boston, Massachusetts

35

af en kovariabel i en regressionsmodel, medens det for andre er en

betinget regressionsanalyse. Muligvis skyldes disse noget

modstridende principper for henholdsvis epidemiologisk diskussion

og valg af statistiske estimationsmetoder tidligere tiders

begrænsninger, men de består.

Figur 8: Konfoundere, mediatorer, eksponering og udfald.

Diskussionen ender dog ikke med hvorvidt en faktor er konfounder,

og hvordan vi tager højde for denne i vores estimation og inferens.

Vurderingen af de enkelte faktorer i en analyse af forhold mellem

disse samt eksponering og udfald kræver ofte et sæt af marginale

analyser af direkte effekter suppleret med et sæt af simultane

modeller, der beskriver faktorernes indbyrdes relationer.

Epidemiologen vægter ofte den diskuterende analyse, hvor

forskellige relationer anskueliggøres og kvantificeres.

36

Figur 9: Kausalitetsdiagrammer

På helt basalt niveau kan forståelsen, som epidemiologen søger

illustreres med kausalitetsdiagrammer. Flere faktorer kan på

forskellig vis medfører samme lidelse.

Figur 10: Eksempel på konfounding samt forskellige studietyper.

37

STIKPRØVE OG STYRKEBEREGNING

I mange tilfælde vil en standardberegning være udgangspunktet for

valg af stikprøvestørrelse. Det klassiske eksempel er ønsket om at

påvise en forskel på 5 under antagelse om normalfordelte data fra to

observationsrækker med middelværdi 5 og 10 samt spredning 10,

styrke 80% og signifikansniveau 5%. Dette kræver circa 60

observationer i hver gruppe. Bemærk dog, at vi her betragter en

forskel på 50% og en spredning, der er henholdsvis det dobbelte og

lig middelværdien. Sædvanligvis vil detekterbare forskelle i kliniske

forsøg være meget mindre, og vores største udfordring vil være at

finde et korrekt estimat for spredningen. Forholdet mellem

middelværdi og spredning kaldes i øvrigt variationskoefficienten:

𝐶𝑜𝑉 =𝜇

𝜎

Inden vi kan komme videre med beskrivelsen af stikprøve og

styrkeberegning, skal vi vide noget om testteori og fordelinger. Stort

set alle formler, der vedrører stikprøveberegning kan føres tilbage til

en normalfordelingsantagelse, der skyldes en række asymptotiske

forhold, der gør sig gældende under forholdsvis milde betingelser. I

statistik benyttes store tals lov og den centrale grænseværdisætning

samt delta-transformationssætningen til at vurdere mange størrelser

ud fra en antagelse om, at normalfordelingen approksimerer den

bagvedliggende fordeling meget præcist jo større stikprøve, jo flere

observationer, vi lader indgå i vores studie.

TYPE I OG TYPE II FEJL

I statistik antager vi, at hændelser, der tilskrives en lille

sandsynlighed ikke forekommer. Grænsen kaldes signifikansniveauet

og er ofte sat til 5%, 10% eller 1%. Logikken tilskriver, at er

sandsynligheden for at observere en hændelse, som strider mod en

given hypotese under dette niveau, må vi forkaste hypotesen. Antag

helt konkret, at vi betragter en observationsrække 𝑥1, … , 𝑥𝑛 fra en

38

normalfordeling med middelværdi 0 og spredning 1. Vi opstiller

hypotesen, at middelværdien er 0:

H0: Middelværdien af den underliggende fordeling for 𝑥1, … , 𝑥𝑛 er 0.

Antag at gennemsnittet 𝑥.̅ = 𝑥1, … , 𝑥𝑛 er lig 0.02 og at summen af

kvadrerede residuelle afvigelser SSD er 0.4 samt at antallet af

observationer er 20. Vores bedste estimat for middelværdien er 0.02

𝜇 ← 𝑥.̅

og vores estimat for spredningen er

𝜎 ← √𝑆𝑆𝐷

𝑛−1= 0.0918.

Teststørrelsen er forholdet mellem afvigelsen fra nulhypotesen

vurderet i forhold til standard error, som er standard afvigelsen delt

med kvadratroden af antal observationer

𝑡 ←𝑥.̅ − 𝜇0

𝑠. 𝑒.=

√20 ∙ 0.02

0.0918= 0.9747

T-teststørrelsen er ligesom observationsrækken en realisation af en

stokastisk variabel. Vi antager at observationsrækken er en

realisation af en normalfordelt stokastisk variabel og derefter kan

man udlede, at T-teststørrelsen er t fordelt med n-1 frihedsgrader

(antal observationer minus antal parametre i middelværdien).17

Sandsynligheden under nulhypotesen for at opleve en større

afvigelse fra nulhypotesen end den observerede er

𝑝 ← {

1 − 𝐹1,𝑛−1(𝑡2), 𝑡𝑜 𝑠𝑖𝑑𝑒𝑡 𝑡𝑒𝑠𝑡

𝑡𝑛−1(𝑡), ø𝑣𝑟𝑒 𝑡𝑒𝑠𝑡

1 − 𝑡𝑛−1(𝑡) 𝑛𝑒𝑑𝑟𝑒 𝑡𝑒𝑠𝑡

På grund af symmetri er de to nederste værdier ens og deres værdi

er 17.10%, hvilket giver en p-værdi på 34.20% for det tosidede test.

17 Kvadratet på T-teststørrelsen er F fordelt med 1,n-1 frihedsgrader

39

Denne værdi er 29.20 %-point over 5% grænsen, så vi kan ikke

afvise, at hypotesen er sand og antager, at observationsrækken har

middelværdi 0.

T-testet går igen i regressionsmodeller, hvor indikatorer vurderes

med en teststørrelse, der er t-fordelt og afhængig af antallet af

variable, der beskriver middelværdien. F-testet indgår både som

kvadratet på t-fordelte teststørrelser og i de såkaldte likelihood ratio

tests, der kan benyttes til at reducere en model ved at sammenholde

-2 log likelihood værdien for den ene model i forhold til -2 log

likelihood værdien for den anden model forudsat at sidstnævnte

model er en undermodel, dvs. at middelværdien beskrives med et

udvalg af faktorerne, som indgår i beskrivelsen af middelværdien i

den oprindelige model.

Tilsvarende er der T-test for to observationsrækker og disse er

ækvivalente med tests i en regressionsmodel, der inkluderer en

indikator for gruppetilhørsforhold. Har vi to observationsrækker med

to observationer fra samme person, kan vi udføre et parret T-test.

Dette test udføres på differenserne mellem værdierne, hvilket giver

en reduktion i spredningen, og dermed vil vi opleve en større styrke.

T-teststørrelsen bliver større, da s.e. bliver mindre, og vi vil med

større sandsynlighed kunne detektere en given forskel ved at

forkaste den tilsvarende nulhypotese.

Forkaster vi en sand hypotese begår vi en type I fejl, dette

forekommer i et konkret isoleret test med en sandsynlighed på 5%.

Gennemføres flere tests samtidigt øges chancen for at observere

mindst en signifikant p-værdi, hvorfor sandsynligheden for type I fejl

er større end 5%. Accepteres en falsk hypotese har vi en type II fejl.

Er risikoen for en type II fejl 20% er styrken 𝛽 lig 80%, er risikoen

for type II fejl 10% er styrken 90%. I stikprøveberegninger siger vi,

at styrken er sandsynligheden for at kunne detektere en forskel. Ud

over, at vi skal vide, hvad den reelle forskel er, eller hvilken

40

størrelsesorden, den er, skal vi altså specificere signifikansniveau og

styrke i beregninger, som forudsætter viden om observationernes

fordeling. Er observationerne normalfordelte, skal vi have ide om

middelværdier og spredning, da disse karakteriserer fordelingen

fuldstændig. Andre fordelinger kræver kun en enkelt variabel for at

være givet entydigt (eksponentialfordelingen) medens andre igen

kræver tre eller flere parametre for at kunne beskrives.

NORMALFORDELINGEN

Figur 11: Tæthedsfunktionen for normalfordelingen for fire sæt af parametre.

Normalfordelingen er symmetrisk, medianen er lig middelværdien og

der findes en 1-1 afbildning mellem spredning og MAD. 1.96 angiver

97.5% percentilen i en N(0,1) fordeling, -1.96 angiver 2.75%

percentilen. 2 angiver 97.7% percentilen og benyttes ofte som

approksimation til 97.5% percentilen i en række forskellige formler.

Jo mindre spredningen er, desto tættere ligger observationerne på

hinanden, jo større spredningen er, desto mere spredt ligger

observationerne.

41

Figur 12: Tæthedsfunktion, massetæthed, s.d. og percentiler samt z-score.

Hvis vi skal estimere middelværdien i en normalfordeling med en

styrke på 1 − 𝛽 under en antagelse om en mindste detekterbar

forskel på 𝜇 − 𝜇0 og spredning 𝜎 samt signifikansniveau 𝛼, skal vi

betragte teststørrelsen fra tidligere:

𝑡 ←𝑥.̅ − 𝜇0

𝑠. 𝑒.= √𝑛

𝜇 − 𝜇0

𝜎= 𝛿

med en ukendt stikprøvestørrelse på n. Vi kan nu opstille ligningen

1 − 𝛽 = 𝑡𝑛−1 (𝛿 − 𝑧1−

𝛼2

)

EKSEMPEL

Vi antager en mindste detekterbar forskel på 5, spredning 10, styrke

90% og signifikansniveau 5%. Vi ser, at vi skal bruge mindst 45

observationer.

R

p<-0.9

n<-2

while(TRUE){

if(p<pt(sqrt(n)*5/10-qt(0.975,n-1),n-1)){

print(n)

break

}

else n<-n+1

}

[1] 45

42

STATA

sampsi 5 0, sd(10) power(.9) onesamp

SAS

proc power;

onesamplemeans

mean=5

std=10

alpha = 0.05

power=0.9

ntotal = .;

run;

T FORDELINGEN

Den centrale T fordeling har kun en enkelt parameter, middelværdi 0

og flere ekstreme værdier end normalfordelingen. Vi kalder det en

tunghalet fordeling, selvom den omkring 20 frihedsgrader ligger

meget tæt på normalfordelingen. T fordelingen bruges derfor ofte i

vurderingen af teststørrelser i sammenhæng med at disse

approksimerer normalfordelingen bedre og bedre i takt med at flere

observationer indgår.

Figur 13: Tæthedsfunktioner for T-fordelingen ved forskellige frihedsgrader.

43

STIKPRØVEBEREGNING FOR DISKRETE DATA

Binomialfordelingen er en diskret fordeling, der beskriver antal cases

i en population af endelig størrelse, n, hvor en case forekommer

med en vis sandsynlighed p.

𝑃(𝑋 = 𝑥) = (𝑛𝑥

) 𝑝𝑥(1 − 𝑝)𝑛−𝑥

Binomialfordelingen er en fordeling, der umiddelbart ligger meget

langt fra normalfordelingen, men på grund af nogle

fordelingsegenskaber, kan en normalfordelingsantagelse om

differenser benyttes til at konstruere tests for forskel mellem

proportioner og forholdet mellem proportioner.

Figur 14: Sandsynlighedsfunktioner for binomialfordelinger med forskellige sandsynlighedsparametre og antalparametre.

Sandsynlighedsparameteren og spredningen estimeres med

størrelserne �̂� ←𝑥

𝑛, 𝑠𝑑 ← √𝑛

𝑥

𝑛(1 −

𝑥

𝑛). X er approksimativt

normalfordelt, når antalsparameteren n/9 er større end

max {(1 − 𝑝)

𝑝,

𝑝

1 − 𝑝}

44

Vi kan derfor under passende antagelser sammenholde to

binomialfordelinger. Forskellen mellem proportioner 𝑝1 og 𝑝2

vurderes i et test for hypotesen 𝑝1 − 𝑝2 = 0. Vi benytter et poolet

estimat for spredningen til at konstruere en approksimativt

normalfordelt teststørrelse

𝑍∗ =�̂�1 − �̂�2

√𝑝∗(1 − 𝑝∗) (1

𝑛1+

1𝑛2

)

, 𝑝∗ =𝑥1 + 𝑥2

𝑛1 + 𝑛2

𝑍∗ ∼ 𝑁(0,1)

Normalfordelingsapproksimationen giver ligeledes anledning til en

beregningsformel for stikprøvestørrelse.

EKSEMPEL

Vi antager en detekterbar forskel på 0.10, en proportion på 0.25,

styrke 90% og signifikansniveau 5%. Vi kan skrive estimatet for

standard afvigelsen som

√𝑛𝑝(1 − 𝑝)

Hvilket benyttes i udregningen.

R

p<-0.9

n<-2

while(TRUE){

if( p<pnorm(sqrt(n)*0.10/(sqrt(0.35*0.65))-qnorm(0.975) ) ){

print(n)

break

}

else n<-n+1

}

[1] 240

STATA

sampsi 0.35 0.25, onesample

SAS

proc power;

onesamplefreq

45

method=normal

test=z

varest=sample

p=0.35

nullp=0.25

alpha = 0.05

power=0.9

ntotal = .;

run;

EKSAKT TEST

Testet for ens proportioner er oftest mest relevant i tabeller af

begrænset størrelse. Langt oftest forekommer 2x2 tabeller. Rækker

kan eksempelvis være eksponeringsgrupper, og søjler non-cases og

cases. Fishers eksakt test forudsætter ikke en

normalfordelingsantagelse og kan bruges på tabeller, hvor de

observerede frekvenser er små. Ens proportioner svarer til en

antagelse om ens fordeling, hvilket også kaldes homogenitet. Under

antagelsen om homogenitet er der ikke forskel eller association efter

faktorniveauer. Dette er en situation, som svarer til en

hypergeometrisk fordeling. P værdien i Fishers eksakt test er

summen af sandsynligheder for alle tabeller med samme marginale

delsummer som den observerede tabel.

𝑃(𝑋 = 𝑘) =(

𝑚𝑘

) (𝑁 − 𝑚𝑛 − 𝑘

)

(𝑁𝑛

), 𝑘 = 0, … , 𝑚

EKSEMPEL

Udregning af sandsynlighed for en tabel under

homogenitetsantagelse:

𝑃(𝑋 = 3) =(

83

) (102

)

(185

),

3 5

2 8

46

IKKE PARAMETRISK TEST

To observationsrækker opskrives med observationerne i ordnet

rækkefølge. Første observation har rangen 1, anden rangen 2, osv

I designet

Det nuancerede valg

Bootstrapping

Bootstrapping er en generel måde at beskrive et estimat eller en

teststørrelse, når der er usikkerhed om fordelingen. Hvis vi finder

data, der fraviger almindelige standarder, eller kræver særlig omhu i

forhold til fordelingsantagelser, er bootstrap en metode til at

imødekomme disse behov.

Projektorienteret statistisk design, analyse og tolkning

anvendt biostatistikconsult.addastat.com/anvendt biostatistik.pdf · 2019-09-13 · biostatistik...

Documents