basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27....

Basal statistik

23. september 2008

Korrelation og regression

• Simpel lineær regression

• Todimensionale normalfordelinger

• Korrelation vs. regression

• Modelkontrol

• Diagnostics

Thomas Scheike,

Biostatistisk Afdeling

Institut for Folkesundhedsvidenskab,

Københavns Universitet

Slides af Lene T. Skovgaard findes pa

http://staff.pubhealth.ku.dk/~ebj/basal08_2

Korrelation og regression, september 2008 1

Simpel lineær regression

Retningsbestemt relation

(men ikke nødvendigvis kausal)

mellem to kontinuerte variable:

Y: Respons eller outcome, afhængig (dependent) variabel

X: Forklarende variabel, kovariat

(somme tider Independent/uafhængig - meget uheldigt!)


Data:

Sammenhørende registreringer (xi, yi),

for en række individer eller ’units’, i = 1, · · · , n:

Bemærk: xi’erne kan vælges pa forhand!

• Det er smart,

fordi man kan designe sig til mere præcise estimater

• Det er farligt,

hvis man har tænkt sig at benytte korrelationer

(mere om det senere)


Eksempel:

Sammenhæng mellem kolinesteraseaktivitet (KE)

og tid til opvagnen (TID)

• Outcome: TID

• Forklarende variabel: KE

• Konklusioner:

Hvor lang tid forventer vi til opvagnen,

baseret pa en maling af KE?

Hvor stor er usikkerheden pa denne prediktion?


Eksempel:

Sammenligning af lungekapacitet (FEV1) for rygere og

ikke-rygere

Problem: FEV1 afhænger ogsa af f.eks. højde

• Outcome: FEV1

• Forklarende variable: højde, rygevaner

• Konklusioner:

Hvor meget darligere er lungefunktionen hos rygere?


Kan der pavises en sammenhæng mellem fastende

blodsukkerniveau og sammentrækningsevne for

venstre hjertekammer hos diabetikere? (n=23)

Outcome: Y=vcf, %/sec.

Kovariat:

X=blodsuk, mmol/l

OBS BLODSUK VCF

1 15.3 1.76

2 10.8 1.34

3 8.1 1.27

. . .

. . .

. . .

21 4.9 1.03

22 8.8 1.12


Scatter plot

Graphs/Scatter Plot

/Two-Dimensional

eller

proc gplot data=sasuser.bp;

plot vcf*blodsuk;

run;


Ligningen for en ret linie: Y = α + βX


Fortolkning:

• α: intercept, afskæring (skæring med Y-akse)

Sammentrækningsevnen for en diabetiker med en

blodsukkerværdi pa 0.

Som regel en utilladelig ekstrapolation!

• β: hældning, regressionskoefficient

Forskellen i sammentrækningsevne hos 2 diabetikere,

der afviger i blodsukkerværdi med 1 mmol/l.

Ofte parameteren med størst interesse.


Statistisk model: Yi = α + βXi + εi, εi ∼ N(0, σ2) uafh.

Estimation foretages v.hj.a mindste kvadraters metode


Mindste kvadraters metode:

Bestem α og β, sa kvadratafvigelsessummen

n∑

i=1

(yi − (α + βxi))2 =

n∑

i=1

ε2i

bliver mindst mulig

β =Sxy

Sxx

=

∑n

i=1 (xi − x)(yi − y)∑n

i=1 (xi − x)2, α = y − βx


• Regressionsanalyse i ANALYST:

– Statistics/Regression/Simple eller Linear

– vcf → Dependent, blodsuk → Explanatory

– Statistics

afkryds Confidence limits for estimates

samt evt. Correlation matrix of estimates

• Og ved direkte programmering:

proc reg data=sasuser.bp;

model vcf = blodsuk / clb corrb;

run;


Dependent Variable: vcf

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 1 0.20727 0.20727 4.41 0.0479

Error 21 0.98610 0.04696

Corrected Total 22 1.19337

Root MSE 0.21670 R-Square 0.1737

Dependent Mean 1.32565 Adj R-Sq 0.1343

Coeff Var 16.34634

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits

Intercept 1 1.09781 0.11748 9.34 <.0001 0.85350 1.34213

blodsuk 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370

Correlation of Estimates

Variable Intercept blodsuk

Intercept 1.0000 -0.9231

blodsuk -0.9231 1.0000


Vigtige informationer fra output:

• hældning (slope, vises i output under betegnelsen

’blodsuk’, fordi det er koefficienten til denne),

β = 0.02196 ≈ 0.022,

med tilhørende spredning (standard error)

• spredningen omkring linien (Root MSE),

s = σ = 0.21670 ≈ 0.217

Denne størrelse benyttes til konstruktion af

prediktionsgrænser (kommer senere), som er

normalomrader for given blodsukkerværdi.


Tegning med linie:

I regressionsopsætningen

klikkes

Plots,og der afkrydses iPlot observed vs. independent

Estimeret regressionslinie: vcf=1.10 + 0.0220 blodsuk


Fortolkning af α er ofte habløs,

men den er nødvendig for at lave prediktioner.

Fittede (predikterede, forventede) værdier: yi = α + βxi

Forventet værdi af vcf for en diabetiker med blodsukker

10mmol/l:

1.10 + 0.0220 × 10 = 1.32


Omparametrisering, f.eks. v.hj.a. ny forklarende

variabel: Z = X − 10

Der gælder sa α∗ = α + 10β, dvs. liniens y-værdi i x=10.

Fortolkning af α10: Sammentrækningsevne for en

diabetiker med blodsukkerværdi 10 mmol/l.


Data/Transform/Compute, definer sukker10 som

blodsuk-10

Gentag nu regressionen med blodsuk erstattet af

sukker10. Vi far sa

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits

Intercept 1 1.31744 0.04535 29.05 <.0001 1.22312 1.41176

sukker10 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370

Correlation of Estimates

Variable Intercept sukker10

Intercept 1.0000 -0.0862

sukker10 -0.0862 1.0000


Regressionsanalysen indeholder 3 parametre:

• 2 hørende til linien (intercept og hældning)

• 1, som er spredningen omkring linien (σ):

den biologiske variation af vcf for folk med samme

blodsukker-værdi

Vi estimerer σ2, variansen omkring regressionslinienved

s2 =1

n − 2

n∑

i=1

(yi − α − βxi)2

ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer)

erstattet af n− 2 (antallet af frihedsgrader), her 21


Man kan ikke forsta eller fortolke varianser direkte, sa vi

tager straks kvadratrod:

s =√

s2

som er estimat for

spredningen omkring regressionslinien

kaldes i SAS (lidt uheldigt) for ’Root Mean Square Error’

her 0.2167, med de samme enheder som vcf


Hvor gode er skønnene over de ukendte parametre

α og β?

Hvor meget anderledes resultater kunne vi forvente at finde

ved en ny undersøgelse?

Det kan vises, at β ∼ N(β, σ2

Sxx)

dvs. hældningen er præcist bestemt, hvis

• observationerne ligger tæt pa linien (σ2 lille)

• variationen i x-værdier (Sxx) er stor


Estimeret usikkerhed pa β: se(β) = s√Sxx

Dette estimat kaldes standard error for β,

eler generelt standard error of the estimate (s.e.e)

Vi bruger det til at konstruere et 95% konfidensinterval

β ± t97.5%(n − 2) × se(β) = β ± ca.2 × se(β)

= 0.0220 ± 2.080 × 0.0105 = (0.0002, 0.0438)


Vi kan ogsa teste, typisk ’H0 : β = 0’ ved t-testet

t =β

se(β)∼ t(n − 2)

som her giver t = 0.02200.0105

=2.10 ∼ t(21), P=0.048

dvs. lige pa grænsen af det signifikante


Tilsvarende kan vi teste f.eks. ’H0 : α = α0’ ved t-testet

t =α − α0

se(α)∼ t(n − 2)

eller udregne et 95% konfidensinterval for α:

1.098 ± 2.080 × 0.1175 = (0.854, 1.342)

Dette er ikke særlig interessant.

I stedet kan vi erstatte ’blodsuk’ af ”blodsuk-10’, hvorved

det nye ’intercept’-estimat bliver 1.317(0.045)

med 95% konfidensinterval

1.317± 2.080× 0.045 = (1.223, 1.411). Dette kan fortolkes.


Vi kan altsa teste hypoteser om savel α som β, men:

• Estimaterne for intercept og hældning er (negativt)

korrelerede (her -0.92, jv. s. 12)

• Accepter ikke to ’sideordnede’ test

Selv om vi kan acceptere test vedr. bade α (f.eks.

intercept=0) og β (f.eks. hældning 1) hver for sig, kan

vi ikke nødvendigvis acceptere begge samtidig


Variationsopspaltning

SStotal =n

∑

i=1

(yi − y)2 = SSmodel + SSresid

Total variation = variation, som kan forklares

+ variation, som ikke kan forklares

x er en god forklarende variable,

hvis SSresid er lille i forhold til SSmodel


Alternativ teststørrelse for effekt af x

F-teststørrelse for hypotesen H0 : β = 0:

SSmodel/1

SSresid/(n − 2)∼ F (1, n − 2)

Bemærk, at der her gælder, at det ’nye’ F-test giver det

samme som det ’gamle’ t-test, fordi

t =β

se(β)=

√F


Ækvivalensen mellem t− og F -tests gælder kun for simpel

lineær regression

Generelt tester F-testet mere end 1 frihedsgrad væk:

• flere niveauer af en kategorisk kovariat testes ens

(anova)

• flere kvantitative forklarende variable testes væk pa

samme tid (multipel regression)


Determinationskoefficient, R2:

Den andel af variationen (i y), der kan forklares ved modellen:

R2 =SSmodel

SStotal

Her finder vi determinationskoefficienten: R2 = 0.17, dvs. vi kan

forklare 17% af variationen i vcf v.hj.a. variablen blodsuk.

Determinationskoefficienten er

kvadratet pa korrelationskoefficienten

mellem vcf og blodsuk (som dermed er r =√

0.17 = 0.42)


Korrelationen r mellem to variable maler:

• I hvor høj grad ligner scatter plottet en ret linie?

• Ikke: Hvor nær ligger punkterne ved den rette linie?

Korrelationskoefficienten estimeres ved:

r = rxy =Sxy

√

SxxSyy

=

∑n

i=1 (xi − x)(yi − y)√

∑n

i=1 (xi − x)2∑n

i=1 (yi − y)2

• antager værdier mellem -1 og 1 (0 = uafhængighed)

• +1 og -1 svarer til perfekt lineær sammenhæng,

hhv. positiv og negativ


Todimensional normalfordelingstæthed med korrelation 0

Alle lodrette snit giver

normalfordelinger

• med samme

middelværdi

• og samme varians


Todimensional normalfordelingstæthed

Korrelation 0.9

Udpræget retning i figuren


Konturkurver

for en normalfordeling


Regression kontra korrelation

Antagelserne til brug for fortolkning af en korrelation er

skrappere end for regressionsanalysen, fordi:

En todimensional normalfordeling for (X,Y) medfører:

• De betingede fordelinger af Y givet X=x er igen

normalfordelinger

• De betingede middelværdier ligger pa en ret linie

• De betingede varianser er ens (uafhængig af x)


Betingninger i den todimensionale normalfordeling giver

altsa en lineær regressionsmodel:

men ved udregning af korrelationen antager man tillige, at

X’erne følger en normalfordeling.


De to estimater (for korrelation og hældning)

ligner hinanden

β =Sxy

Sxx

rxy =Sxy√SxxSyy

β = rxy

√

Syy

Sxx

rxy = β√

SxxSyy

Men korrelationen er dimensionsløs

– og svær at fortolke


Test af uafhængighed (ingen korrelation), H0 : ρxy = 0

T =rxy

√

1 − r2xy

√n − 2 ∼ t(n − 2)

Test for β = 0 er identisk med test for ρxy = 0


Men pas pa: 1 − r2xy = s2

s2+β2 Sxxn−2

Hold β og s2 fast:

Sxx stor ⇒ 1-r2xy tæt pa 0 ⇒ r2

xy tæt pa 1

r2xy kan gøres vilkarlig tæt pa 1 ved at sprede x’erne

– f.eks. ved at udelade de midterste


Korrelationskoefficienten

• udtrykker sammenhæng, ikke overensstemmelse

(der er f.eks. en sammenhæng mellem alder og

blodtryk, men der er naturligvis ikke overensstemmelse)

Man skal derfor ikke bruge

korrelationskoefficienten til at sammenligne

malemetoder

• Pearson korrelationen maler graden af lineær

sammenhæng. For krumme sammenhænge bør man

benytte rangkorrelationer (Spearman).



Konfidensgrænser for selve linien (smalle grænser)

• benyttes til sammenligning med andre grupper af

personer

• man benytter spredningen s√

1n

+ (xi−x)2

Sxx

• Disse grænser bliver vilkarligt snævre,

nar antallet af observationer øges.

• De er ofte irrelevante!


Konfidensgrænser

(fas under Plots i regressionsopsætningen)

eller ved at skrive symbol=rlclm95 i symbol-sætningen



Prediktionsgrænser (normalomrade) for

enkeltobservationer (brede grænser)

• De benyttes til at afgøre, om en ny person er atypisk i

forhold til normen (diagnostik), idet de omslutter ca.

95% af fremtidige observationer, ogsa for store n.

• man benytter spredningen s√

1 + 1n

+ (xi−x)2

Sxx

• Disse grænser bliver ikke nævneværdigt snævrere,

nar antallet af observationer øges.


Prediktionsgrænser

Afkryds Prediction limits i stedet for

Confidence limits

eller ved at skrive symbol=rlcli95 i symbol-sætningen


Modellens konklusioner er kun rimelige,

hvis modellen selv er rimelig.

Modelkontrol: Passer modellen rimeligt til data?

Diagnostics: Passer data til modellen?

Eller er der indflydelsesrige observationer eller outliers?

Check af disse to forhold burde foretages fra begyndelsen,

men da de kræver fit af modellen, kan de først foretages

efterfølgende


Modelkontrol: Den statistiske model var

Yi = α + βXi + εi, εi ∼ N(0, σ2) uafhængige

Hvilke antagelser skal vi checke her?

• linearitet

• varianshomogenitet (εi’erne har samme varians)

• normalfordelte afvigelser (εi’erne)

Obs: Intet krav om normalfordeling pa xi’erne!!

– eller yi’erne!!


Til grafisk modelkontrol skal vi bruge

residualerne = modelafvigelserne

= observeret - fittet værdi:

εi = yi − yi

eller en modifikation af disse

(se senere)


Residualplots: Residualer (af passende type) plottes mod

• den forklarende variabel xi

– for at checke linearitet (se efter krumninger)

• de fittede værdier yi

– for at checke varianshomogenitet (se efter trompeter)

• fraktildiagram eller histogram

– for at checke normalfordelingsantagelsen

De to førstnævnte figurer skal give indtryk af uorden

dvs. der ma ikke være nogen systematik

Fraktildiagrammet skal ligne en ret linie


Linearitet, eller..

• Tendens til buer?

Hvis lineariteten ikke holder i rimelig grad,

bliver modellen ufortolkelig.


Numerisk check af linearitet: Tilføj kvadratleddet blodsuk2

vcf=α+β1blodsuk+β2blodsuk2

Test af linearitet: β2=0

Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

Intercept 1 1.27901 0.06149 20.80 <.0001

sukker10 1 0.01520 0.01277 1.19 0.2480

blodsuk_i_anden 1 0.00218 0.00234 0.93 0.3640

• Test af β = 0 giver t = 0.93 og P = 0.36.

• Lineariteten ser rimelig ud


Afhjælpning af non-linearitet:

• tilføj flere kovariater, f.eks.

– alder, køn, medicin etc.

• transformer variablene med

– logaritmer

– kvadratrod, invers

• Lad være med at gøre noget: ikke-lineær regression


Problemer med

varianshomogeniteten?

• Kaos?

eller trompetfacon?

• symmetri om 0-linien?

Hvis varianshomogeniteten ikke holder i rimelig grad,

mister vi styrke,

og prediktionsgrænser bliver upalidelige!


Trompetfacon kan fortolkes som

• konstant relativ spredning

= konstant variationskoefficient

Variationskoefficient =spredning

middelværdi

– ofte konstant, nar man maler pa sma positive

størrelser, f.eks. koncentrationer

– transformer outcome med logaritme


Problemer med normalfordelingsantagelsen?

• Er histogrammet passende symmetrisk?

• Ser fraktildiagrammet lineært ud?


Hvis normalfordelingen ikke holder i rimelig grad,

mister vi (lidt) styrke

og prediktionsgrænser bliver upalidelige!

Afhjælpning af problemer med normalfordelingsantagelsen:

• transformation med logaritmer

– i tilfælde af fordelinger med haler mod højre

• non-parametriske metoder

– men sa far vi ingen kvantificeringer


Antagelsen om normalfordeling (og varianshomogenitet) er

ikke sa kritisk for selve fittet, fordi:

t-fordelingen bygger pa normalfordelingen, men kun pa en

normalfordelingsantagelse for estimatet β, og dette passer

ofte, nar der er rimeligt mange observationer, pa grund af

Den centrale grænseværdisætning,

der siger at summer og andre funktioner af mange

observationer bliver ’mere og mere’ normalfordelt.

Men prediktionsgrænserne bliver misvisende og

ufortolkelige!!


Transformation med logaritmer

– men hvilken logaritme?

Alle logaritmer er proportionale, sa resultaterne bliver ens

(efter tilbagetransformation), men der er visse fif:

• Den forklarende variabel transformeres

– for at opna linearitet, dvs. nar det er successive

fordoblinger, der har konstant effekt.

Brug gerne 2-tals logaritmer!


• Outcome transformeres enten

– for at opna linearitet

– for at opna varianshomogenitet

Var(log(y)) ≈Var(y)

y2= CV2

dvs. en konstant variationskoefficient (CV) pa Y

betyder konstant varians pa log(Y ),

den naturlige logaritme

(den som tidligere har heddet ln,

men som altsa hedder log i computersprog)


Regression diagnostics:

Understøttes konklusionerne af hele materialet?

Eller er der observationer med meget stor indflydelse pa

resultaterne?

• Udelad den ite person

og bestem nye estimater for samtlige parametre.

• Udregn Cook’s afstand,

et mal for ændringen i parameterestimater.

• Spalt Cook’s afstand ud i koordinater, som maler f.eks:

Hvor mange s.e. ændrer β1 sig, hvis den ite person

udelades?


En enkelt observation skiller sig ud i forhold til de øvrige


Spalt Cooks afstand ud i koordinater og angiv:

Hvor mange se’er ændres f.eks. β,

nar den i’te person udelades?

Dependent Variable: vcf

Output Statistics

-------DFBETAS-------

Obs Intercept blodsuk

1 -0.2421 0.4134

2 0.0014 0.0005

3 -0.0049 0.0030

4 0.1082 -0.1461

5 0.0150 -0.0104

6 0.4436 -0.3547

7 0.0048 -0.0019

8 -0.0588 -0.0430

9 -0.0829 0.0552

10 0.0008 -0.0617

11 0.0060 -0.0043

12 -0.0345 0.0277

13 -0.8744 1.1973 <---------------------

14 0.0982 -0.1718

15 0.3409 -0.2478

16 . .

17 -0.1295 0.1086

18 0.0181 -0.0008

19 0.0128 -0.0907

20 0.3978 -0.6287

21 0.0169 -0.0476

22 -0.2938 0.2395

23 -0.1237 0.0625

24 0.2419 -0.0856


Estimeret linie: y = 1.098 + 0.022x

β = 0.02196(0.01045), t =0.02196

0.01045= 2.1, P = 0.048

Regressionsanalyse uden observation nr. 13

Estimeret linie: y = 1.189 + 0.011x

β = 0.01082(0.01029), t =0.01082

0.01029= 1.05, P = 0.31


Outliers

Observationer, der ikke passer ind i sammenhængen

• de er ikke nødvendigvis indflydelsesrige

• de har ikke nødvendigvis et stort residual

Press-residualer

Residualer, der fremkommer efter at den pagældende

observation har været udelukket fra estimationen.

(residualer without current observation)


Hvad gør vi ved indflydelsesrige observationer og

outliers?

• ser nærmere pa dem, de er tit ganske interessante

• anfører et mal for deres indflydelse

Hvornar kan vi udelade dem?

• hvis de ligger meget yderligt

– husk at afgrænse konklusionerne tilsvarende!

• hvis man kan finde arsagen

– og da skal alle sadanne udelades!


Modelkontrol og Diagnostics i ANALYST

Visse af plottene kan konstrueres direkte ved i

regressionsopsætningen at klikke

Plots/Residual

hvor der vælges f.eks. Residual mod Predicted


Der findes 4 forskellige typer af residualer

normeret? med alle obs. uden current obs.

nej Residual Press

ja Student Rstudent


Fuld kontrol over tegninger til modelkontrol fas ved i

regressionsopsætningen at benytte

• Save Data, afkryds

Create and save diagnostics data

• overflyt (klik Add) de størrelser, der skal gemmes

(typisk Predicted, Residual, Student,

Rstudent,Cookd,Press).

• Dobbeltklik pa Diagnostics Table i projekttræet

• Gem det ved at klikke File/Save as By SAS Name og

abn det i ANALYST, nar der skal laves tegninger mv.


Falsk korrelation (spurious correlation)

Korrelationen er:

• positiv for mænd

• positivt for kvinder

• negativt for mennesker

Eks: Kolesterol vs. chokoladeindtag


Korrelationen er:

• tilsyneladende positiv

• 0 for hver aldersgruppe

X og Y vokser begge med alderen


Et delvist program kunne se ud som:

data a1;

infile ’vcf.tal’;

input glucose vcf;

sukker10=glucose-10;

glucose_i_anden=(glucose-10)**2;

run;

proc print data=a1;

var glucose vcf;

run;

proc corr pearson spearman data=a1;

var vcf glucose;

run;


proc reg data=a1;

model vcf=sukker10 glucose_i_anden / clb;

run;

proc reg data=a1;

model vcf=glucose / corrb clb r p influence;

output out=ny p=yhat r=resid student=stresid cookd=cook

h=h rstudent=uresid press=press;

run;

proc print data=ny;

var glucose vcf yhat resid stresid h cook uresid press;

run;

proc univariate normal data=ny;

var resid;

histogram / cfill=gray height=3 normal;

probplot / height=3 normal(mu=EST sigma=EST l=33);

inset mean std skewness / header=’descriptive’;

run;


proc gplot gout=plotud data=a1;

plot vcf*glucose

/ haxis=axis1 vaxis=axis2 frame;

axis1 order=(0 to 20 by 5)

value=(h=3)

offset=(3,3)

minor=NONE

label=(H=3 ’blood glucose (mmol/l)’);

axis2 order=(0.6 to 2.0 by 0.2)

value=(h=3)

offset=(3,3)

minor=NONE

label=(A=90 R=0 H=3 ’Vcf (%/sec)’);

symbol1 v=circle i=rlcli95 c=BLACK h=3 l=1 w=2;

run;

basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27....

Documents