basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27....

Post on 04-Jul-2020

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Basal statistik

23. september 2008

Korrelation og regression

• Simpel lineær regression

• Todimensionale normalfordelinger

• Korrelation vs. regression

• Modelkontrol

• Diagnostics

Thomas Scheike,

Biostatistisk Afdeling

Institut for Folkesundhedsvidenskab,

Københavns Universitet

Slides af Lene T. Skovgaard findes pa

http://staff.pubhealth.ku.dk/~ebj/basal08_2

Korrelation og regression, september 2008 1

Simpel lineær regression

Retningsbestemt relation

(men ikke nødvendigvis kausal)

mellem to kontinuerte variable:

Y: Respons eller outcome, afhængig (dependent) variabel

X: Forklarende variabel, kovariat

(somme tider Independent/uafhængig - meget uheldigt!)

Korrelation og regression, september 2008 2

Data:

Sammenhørende registreringer (xi, yi),

for en række individer eller ’units’, i = 1, · · · , n:

Bemærk: xi’erne kan vælges pa forhand!

• Det er smart,

fordi man kan designe sig til mere præcise estimater

• Det er farligt,

hvis man har tænkt sig at benytte korrelationer

(mere om det senere)

Korrelation og regression, september 2008 3

Eksempel:

Sammenhæng mellem kolinesteraseaktivitet (KE)

og tid til opvagnen (TID)

• Outcome: TID

• Forklarende variabel: KE

• Konklusioner:

Hvor lang tid forventer vi til opvagnen,

baseret pa en maling af KE?

Hvor stor er usikkerheden pa denne prediktion?

Korrelation og regression, september 2008 4

Eksempel:

Sammenligning af lungekapacitet (FEV1) for rygere og

ikke-rygere

Problem: FEV1 afhænger ogsa af f.eks. højde

• Outcome: FEV1

• Forklarende variable: højde, rygevaner

• Konklusioner:

Hvor meget darligere er lungefunktionen hos rygere?

Korrelation og regression, september 2008 5

Kan der pavises en sammenhæng mellem fastende

blodsukkerniveau og sammentrækningsevne for

venstre hjertekammer hos diabetikere? (n=23)

Outcome: Y=vcf, %/sec.

Kovariat:

X=blodsuk, mmol/l

OBS BLODSUK VCF

1 15.3 1.76

2 10.8 1.34

3 8.1 1.27

. . .

. . .

. . .

21 4.9 1.03

22 8.8 1.12

Korrelation og regression, september 2008 6

Scatter plot

Graphs/Scatter Plot

/Two-Dimensional

eller

proc gplot data=sasuser.bp;

plot vcf*blodsuk;

run;

Korrelation og regression, september 2008 7

Ligningen for en ret linie: Y = α + βX

Korrelation og regression, september 2008 8

Fortolkning:

• α: intercept, afskæring (skæring med Y-akse)

Sammentrækningsevnen for en diabetiker med en

blodsukkerværdi pa 0.

Som regel en utilladelig ekstrapolation!

• β: hældning, regressionskoefficient

Forskellen i sammentrækningsevne hos 2 diabetikere,

der afviger i blodsukkerværdi med 1 mmol/l.

Ofte parameteren med størst interesse.

Korrelation og regression, september 2008 9

Statistisk model: Yi = α + βXi + εi, εi ∼ N(0, σ2) uafh.

Estimation foretages v.hj.a mindste kvadraters metode

Korrelation og regression, september 2008 10

Mindste kvadraters metode:

Bestem α og β, sa kvadratafvigelsessummen

n∑

i=1

(yi − (α + βxi))2 =

n∑

i=1

ε2i

bliver mindst mulig

β =Sxy

Sxx

=

∑n

i=1 (xi − x)(yi − y)∑n

i=1 (xi − x)2, α = y − βx

Korrelation og regression, september 2008 11

• Regressionsanalyse i ANALYST:

– Statistics/Regression/Simple eller Linear

– vcf → Dependent, blodsuk → Explanatory

– Statistics

afkryds Confidence limits for estimates

samt evt. Correlation matrix of estimates

• Og ved direkte programmering:

proc reg data=sasuser.bp;

model vcf = blodsuk / clb corrb;

run;

Korrelation og regression, september 2008 12

Dependent Variable: vcf

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 1 0.20727 0.20727 4.41 0.0479

Error 21 0.98610 0.04696

Corrected Total 22 1.19337

Root MSE 0.21670 R-Square 0.1737

Dependent Mean 1.32565 Adj R-Sq 0.1343

Coeff Var 16.34634

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits

Intercept 1 1.09781 0.11748 9.34 <.0001 0.85350 1.34213

blodsuk 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370

Correlation of Estimates

Variable Intercept blodsuk

Intercept 1.0000 -0.9231

blodsuk -0.9231 1.0000

Korrelation og regression, september 2008 13

Vigtige informationer fra output:

• hældning (slope, vises i output under betegnelsen

’blodsuk’, fordi det er koefficienten til denne),

β = 0.02196 ≈ 0.022,

med tilhørende spredning (standard error)

• spredningen omkring linien (Root MSE),

s = σ = 0.21670 ≈ 0.217

Denne størrelse benyttes til konstruktion af

prediktionsgrænser (kommer senere), som er

normalomrader for given blodsukkerværdi.

Korrelation og regression, september 2008 14

Tegning med linie:

I regressionsopsætningen

klikkes

Plots,og der afkrydses iPlot observed vs. independent

Estimeret regressionslinie: vcf=1.10 + 0.0220 blodsuk

Korrelation og regression, september 2008 15

Fortolkning af α er ofte habløs,

men den er nødvendig for at lave prediktioner.

Fittede (predikterede, forventede) værdier: yi = α + βxi

Forventet værdi af vcf for en diabetiker med blodsukker

10mmol/l:

1.10 + 0.0220 × 10 = 1.32

Korrelation og regression, september 2008 16

Omparametrisering, f.eks. v.hj.a. ny forklarende

variabel: Z = X − 10

Der gælder sa α∗ = α + 10β, dvs. liniens y-værdi i x=10.

Fortolkning af α10: Sammentrækningsevne for en

diabetiker med blodsukkerværdi 10 mmol/l.

Korrelation og regression, september 2008 17

Data/Transform/Compute, definer sukker10 som

blodsuk-10

Gentag nu regressionen med blodsuk erstattet af

sukker10. Vi far sa

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits

Intercept 1 1.31744 0.04535 29.05 <.0001 1.22312 1.41176

sukker10 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370

Correlation of Estimates

Variable Intercept sukker10

Intercept 1.0000 -0.0862

sukker10 -0.0862 1.0000

Korrelation og regression, september 2008 18

Regressionsanalysen indeholder 3 parametre:

• 2 hørende til linien (intercept og hældning)

• 1, som er spredningen omkring linien (σ):

den biologiske variation af vcf for folk med samme

blodsukker-værdi

Vi estimerer σ2, variansen omkring regressionslinienved

s2 =1

n − 2

n∑

i=1

(yi − α − βxi)2

ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer)

erstattet af n− 2 (antallet af frihedsgrader), her 21

Korrelation og regression, september 2008 19

Man kan ikke forsta eller fortolke varianser direkte, sa vi

tager straks kvadratrod:

s =√

s2

som er estimat for

spredningen omkring regressionslinien

kaldes i SAS (lidt uheldigt) for ’Root Mean Square Error’

her 0.2167, med de samme enheder som vcf

Korrelation og regression, september 2008 20

Hvor gode er skønnene over de ukendte parametre

α og β?

Hvor meget anderledes resultater kunne vi forvente at finde

ved en ny undersøgelse?

Det kan vises, at β ∼ N(β, σ2

Sxx)

dvs. hældningen er præcist bestemt, hvis

• observationerne ligger tæt pa linien (σ2 lille)

• variationen i x-værdier (Sxx) er stor

Korrelation og regression, september 2008 21

Estimeret usikkerhed pa β: se(β) = s√Sxx

Dette estimat kaldes standard error for β,

eler generelt standard error of the estimate (s.e.e)

Vi bruger det til at konstruere et 95% konfidensinterval

β ± t97.5%(n − 2) × se(β) = β ± ca.2 × se(β)

= 0.0220 ± 2.080 × 0.0105 = (0.0002, 0.0438)

Korrelation og regression, september 2008 22

Vi kan ogsa teste, typisk ’H0 : β = 0’ ved t-testet

t =β

se(β)∼ t(n − 2)

som her giver t = 0.02200.0105

=2.10 ∼ t(21), P=0.048

dvs. lige pa grænsen af det signifikante

Korrelation og regression, september 2008 23

Tilsvarende kan vi teste f.eks. ’H0 : α = α0’ ved t-testet

t =α − α0

se(α)∼ t(n − 2)

eller udregne et 95% konfidensinterval for α:

1.098 ± 2.080 × 0.1175 = (0.854, 1.342)

Dette er ikke særlig interessant.

I stedet kan vi erstatte ’blodsuk’ af ”blodsuk-10’, hvorved

det nye ’intercept’-estimat bliver 1.317(0.045)

med 95% konfidensinterval

1.317± 2.080× 0.045 = (1.223, 1.411). Dette kan fortolkes.

Korrelation og regression, september 2008 24

Vi kan altsa teste hypoteser om savel α som β, men:

• Estimaterne for intercept og hældning er (negativt)

korrelerede (her -0.92, jv. s. 12)

• Accepter ikke to ’sideordnede’ test

Selv om vi kan acceptere test vedr. bade α (f.eks.

intercept=0) og β (f.eks. hældning 1) hver for sig, kan

vi ikke nødvendigvis acceptere begge samtidig

Korrelation og regression, september 2008 25

Korrelation og regression, september 2008 26

Variationsopspaltning

SStotal =n

i=1

(yi − y)2 = SSmodel + SSresid

Total variation = variation, som kan forklares

+ variation, som ikke kan forklares

x er en god forklarende variable,

hvis SSresid er lille i forhold til SSmodel

Korrelation og regression, september 2008 27

Alternativ teststørrelse for effekt af x

F-teststørrelse for hypotesen H0 : β = 0:

SSmodel/1

SSresid/(n − 2)∼ F (1, n − 2)

Bemærk, at der her gælder, at det ’nye’ F-test giver det

samme som det ’gamle’ t-test, fordi

t =β

se(β)=

√F

Korrelation og regression, september 2008 28

Ækvivalensen mellem t− og F -tests gælder kun for simpel

lineær regression

Generelt tester F-testet mere end 1 frihedsgrad væk:

• flere niveauer af en kategorisk kovariat testes ens

(anova)

• flere kvantitative forklarende variable testes væk pa

samme tid (multipel regression)

Korrelation og regression, september 2008 29

Determinationskoefficient, R2:

Den andel af variationen (i y), der kan forklares ved modellen:

R2 =SSmodel

SStotal

Her finder vi determinationskoefficienten: R2 = 0.17, dvs. vi kan

forklare 17% af variationen i vcf v.hj.a. variablen blodsuk.

Determinationskoefficienten er

kvadratet pa korrelationskoefficienten

mellem vcf og blodsuk (som dermed er r =√

0.17 = 0.42)

Korrelation og regression, september 2008 30

Korrelationen r mellem to variable maler:

• I hvor høj grad ligner scatter plottet en ret linie?

• Ikke: Hvor nær ligger punkterne ved den rette linie?

Korrelationskoefficienten estimeres ved:

r = rxy =Sxy

SxxSyy

=

∑n

i=1 (xi − x)(yi − y)√

∑n

i=1 (xi − x)2∑n

i=1 (yi − y)2

• antager værdier mellem -1 og 1 (0 = uafhængighed)

• +1 og -1 svarer til perfekt lineær sammenhæng,

hhv. positiv og negativ

Korrelation og regression, september 2008 31

Todimensional normalfordelingstæthed med korrelation 0

Alle lodrette snit giver

normalfordelinger

• med samme

middelværdi

• og samme varians

Korrelation og regression, september 2008 32

Todimensional normalfordelingstæthed

Korrelation 0.9

Udpræget retning i figuren

Korrelation og regression, september 2008 33

Konturkurver

for en normalfordeling

Korrelation og regression, september 2008 34

Regression kontra korrelation

Antagelserne til brug for fortolkning af en korrelation er

skrappere end for regressionsanalysen, fordi:

En todimensional normalfordeling for (X,Y) medfører:

• De betingede fordelinger af Y givet X=x er igen

normalfordelinger

• De betingede middelværdier ligger pa en ret linie

• De betingede varianser er ens (uafhængig af x)

Korrelation og regression, september 2008 35

Betingninger i den todimensionale normalfordeling giver

altsa en lineær regressionsmodel:

men ved udregning af korrelationen antager man tillige, at

X’erne følger en normalfordeling.

Korrelation og regression, september 2008 36

De to estimater (for korrelation og hældning)

ligner hinanden

β =Sxy

Sxx

rxy =Sxy√SxxSyy

β = rxy

Syy

Sxx

rxy = β√

SxxSyy

Men korrelationen er dimensionsløs

– og svær at fortolke

Korrelation og regression, september 2008 37

Test af uafhængighed (ingen korrelation), H0 : ρxy = 0

T =rxy

1 − r2xy

√n − 2 ∼ t(n − 2)

Test for β = 0 er identisk med test for ρxy = 0

Korrelation og regression, september 2008 38

Men pas pa: 1 − r2xy = s2

s2+β2 Sxxn−2

Hold β og s2 fast:

Sxx stor ⇒ 1-r2xy tæt pa 0 ⇒ r2

xy tæt pa 1

r2xy kan gøres vilkarlig tæt pa 1 ved at sprede x’erne

– f.eks. ved at udelade de midterste

Korrelation og regression, september 2008 39

Korrelationskoefficienten

• udtrykker sammenhæng, ikke overensstemmelse

(der er f.eks. en sammenhæng mellem alder og

blodtryk, men der er naturligvis ikke overensstemmelse)

Man skal derfor ikke bruge

korrelationskoefficienten til at sammenligne

malemetoder

• Pearson korrelationen maler graden af lineær

sammenhæng. For krumme sammenhænge bør man

benytte rangkorrelationer (Spearman).

Korrelation og regression, september 2008 40

Fittede (predikterede, forventede) værdier: yi = α + βxi

Konfidensgrænser for selve linien (smalle grænser)

• benyttes til sammenligning med andre grupper af

personer

• man benytter spredningen s√

1n

+ (xi−x)2

Sxx

• Disse grænser bliver vilkarligt snævre,

nar antallet af observationer øges.

• De er ofte irrelevante!

Korrelation og regression, september 2008 41

Konfidensgrænser

(fas under Plots i regressionsopsætningen)

eller ved at skrive symbol=rlclm95 i symbol-sætningen

Korrelation og regression, september 2008 42

Fittede (predikterede, forventede) værdier: yi = α + βxi

Prediktionsgrænser (normalomrade) for

enkeltobservationer (brede grænser)

• De benyttes til at afgøre, om en ny person er atypisk i

forhold til normen (diagnostik), idet de omslutter ca.

95% af fremtidige observationer, ogsa for store n.

• man benytter spredningen s√

1 + 1n

+ (xi−x)2

Sxx

• Disse grænser bliver ikke nævneværdigt snævrere,

nar antallet af observationer øges.

Korrelation og regression, september 2008 43

Prediktionsgrænser

Afkryds Prediction limits i stedet for

Confidence limits

eller ved at skrive symbol=rlcli95 i symbol-sætningen

Korrelation og regression, september 2008 44

Modellens konklusioner er kun rimelige,

hvis modellen selv er rimelig.

Modelkontrol: Passer modellen rimeligt til data?

Diagnostics: Passer data til modellen?

Eller er der indflydelsesrige observationer eller outliers?

Check af disse to forhold burde foretages fra begyndelsen,

men da de kræver fit af modellen, kan de først foretages

efterfølgende

Korrelation og regression, september 2008 45

Modelkontrol: Den statistiske model var

Yi = α + βXi + εi, εi ∼ N(0, σ2) uafhængige

Hvilke antagelser skal vi checke her?

• linearitet

• varianshomogenitet (εi’erne har samme varians)

• normalfordelte afvigelser (εi’erne)

Obs: Intet krav om normalfordeling pa xi’erne!!

– eller yi’erne!!

Korrelation og regression, september 2008 46

Til grafisk modelkontrol skal vi bruge

residualerne = modelafvigelserne

= observeret - fittet værdi:

εi = yi − yi

eller en modifikation af disse

(se senere)

Korrelation og regression, september 2008 47

Residualplots: Residualer (af passende type) plottes mod

• den forklarende variabel xi

– for at checke linearitet (se efter krumninger)

• de fittede værdier yi

– for at checke varianshomogenitet (se efter trompeter)

• fraktildiagram eller histogram

– for at checke normalfordelingsantagelsen

De to førstnævnte figurer skal give indtryk af uorden

dvs. der ma ikke være nogen systematik

Fraktildiagrammet skal ligne en ret linie

Korrelation og regression, september 2008 48

Linearitet, eller..

• Tendens til buer?

Hvis lineariteten ikke holder i rimelig grad,

bliver modellen ufortolkelig.

Korrelation og regression, september 2008 49

Numerisk check af linearitet: Tilføj kvadratleddet blodsuk2

vcf=α+β1blodsuk+β2blodsuk2

Test af linearitet: β2=0

Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

Intercept 1 1.27901 0.06149 20.80 <.0001

sukker10 1 0.01520 0.01277 1.19 0.2480

blodsuk_i_anden 1 0.00218 0.00234 0.93 0.3640

• Test af β = 0 giver t = 0.93 og P = 0.36.

• Lineariteten ser rimelig ud

Korrelation og regression, september 2008 50

Afhjælpning af non-linearitet:

• tilføj flere kovariater, f.eks.

– alder, køn, medicin etc.

• transformer variablene med

– logaritmer

– kvadratrod, invers

• Lad være med at gøre noget: ikke-lineær regression

Korrelation og regression, september 2008 51

Problemer med

varianshomogeniteten?

• Kaos?

eller trompetfacon?

• symmetri om 0-linien?

Hvis varianshomogeniteten ikke holder i rimelig grad,

mister vi styrke,

og prediktionsgrænser bliver upalidelige!

Korrelation og regression, september 2008 52

Trompetfacon kan fortolkes som

• konstant relativ spredning

= konstant variationskoefficient

Variationskoefficient =spredning

middelværdi

– ofte konstant, nar man maler pa sma positive

størrelser, f.eks. koncentrationer

– transformer outcome med logaritme

Korrelation og regression, september 2008 53

Problemer med normalfordelingsantagelsen?

• Er histogrammet passende symmetrisk?

• Ser fraktildiagrammet lineært ud?

Korrelation og regression, september 2008 54

Hvis normalfordelingen ikke holder i rimelig grad,

mister vi (lidt) styrke

og prediktionsgrænser bliver upalidelige!

Afhjælpning af problemer med normalfordelingsantagelsen:

• transformation med logaritmer

– i tilfælde af fordelinger med haler mod højre

• non-parametriske metoder

– men sa far vi ingen kvantificeringer

Korrelation og regression, september 2008 55

Antagelsen om normalfordeling (og varianshomogenitet) er

ikke sa kritisk for selve fittet, fordi:

t-fordelingen bygger pa normalfordelingen, men kun pa en

normalfordelingsantagelse for estimatet β, og dette passer

ofte, nar der er rimeligt mange observationer, pa grund af

Den centrale grænseværdisætning,

der siger at summer og andre funktioner af mange

observationer bliver ’mere og mere’ normalfordelt.

Men prediktionsgrænserne bliver misvisende og

ufortolkelige!!

Korrelation og regression, september 2008 56

Transformation med logaritmer

– men hvilken logaritme?

Alle logaritmer er proportionale, sa resultaterne bliver ens

(efter tilbagetransformation), men der er visse fif:

• Den forklarende variabel transformeres

– for at opna linearitet, dvs. nar det er successive

fordoblinger, der har konstant effekt.

Brug gerne 2-tals logaritmer!

Korrelation og regression, september 2008 57

• Outcome transformeres enten

– for at opna linearitet

– for at opna varianshomogenitet

Var(log(y)) ≈Var(y)

y2= CV2

dvs. en konstant variationskoefficient (CV) pa Y

betyder konstant varians pa log(Y ),

den naturlige logaritme

(den som tidligere har heddet ln,

men som altsa hedder log i computersprog)

Korrelation og regression, september 2008 58

Regression diagnostics:

Understøttes konklusionerne af hele materialet?

Eller er der observationer med meget stor indflydelse pa

resultaterne?

• Udelad den ite person

og bestem nye estimater for samtlige parametre.

• Udregn Cook’s afstand,

et mal for ændringen i parameterestimater.

• Spalt Cook’s afstand ud i koordinater, som maler f.eks:

Hvor mange s.e. ændrer β1 sig, hvis den ite person

udelades?

Korrelation og regression, september 2008 59

En enkelt observation skiller sig ud i forhold til de øvrige

Korrelation og regression, september 2008 60

Spalt Cooks afstand ud i koordinater og angiv:

Hvor mange se’er ændres f.eks. β,

nar den i’te person udelades?

Dependent Variable: vcf

Output Statistics

-------DFBETAS-------

Obs Intercept blodsuk

1 -0.2421 0.4134

2 0.0014 0.0005

3 -0.0049 0.0030

4 0.1082 -0.1461

5 0.0150 -0.0104

6 0.4436 -0.3547

7 0.0048 -0.0019

8 -0.0588 -0.0430

9 -0.0829 0.0552

10 0.0008 -0.0617

11 0.0060 -0.0043

12 -0.0345 0.0277

13 -0.8744 1.1973 <---------------------

14 0.0982 -0.1718

15 0.3409 -0.2478

16 . .

17 -0.1295 0.1086

18 0.0181 -0.0008

19 0.0128 -0.0907

20 0.3978 -0.6287

21 0.0169 -0.0476

22 -0.2938 0.2395

23 -0.1237 0.0625

24 0.2419 -0.0856

Korrelation og regression, september 2008 61

Estimeret linie: y = 1.098 + 0.022x

β = 0.02196(0.01045), t =0.02196

0.01045= 2.1, P = 0.048

Regressionsanalyse uden observation nr. 13

Estimeret linie: y = 1.189 + 0.011x

β = 0.01082(0.01029), t =0.01082

0.01029= 1.05, P = 0.31

Korrelation og regression, september 2008 62

Outliers

Observationer, der ikke passer ind i sammenhængen

• de er ikke nødvendigvis indflydelsesrige

• de har ikke nødvendigvis et stort residual

Press-residualer

Residualer, der fremkommer efter at den pagældende

observation har været udelukket fra estimationen.

(residualer without current observation)

Korrelation og regression, september 2008 63

Hvad gør vi ved indflydelsesrige observationer og

outliers?

• ser nærmere pa dem, de er tit ganske interessante

• anfører et mal for deres indflydelse

Hvornar kan vi udelade dem?

• hvis de ligger meget yderligt

– husk at afgrænse konklusionerne tilsvarende!

• hvis man kan finde arsagen

– og da skal alle sadanne udelades!

Korrelation og regression, september 2008 64

Modelkontrol og Diagnostics i ANALYST

Visse af plottene kan konstrueres direkte ved i

regressionsopsætningen at klikke

Plots/Residual

hvor der vælges f.eks. Residual mod Predicted

Korrelation og regression, september 2008 65

Der findes 4 forskellige typer af residualer

normeret? med alle obs. uden current obs.

nej Residual Press

ja Student Rstudent

Korrelation og regression, september 2008 66

Fuld kontrol over tegninger til modelkontrol fas ved i

regressionsopsætningen at benytte

• Save Data, afkryds

Create and save diagnostics data

• overflyt (klik Add) de størrelser, der skal gemmes

(typisk Predicted, Residual, Student,

Rstudent,Cookd,Press).

• Dobbeltklik pa Diagnostics Table i projekttræet

• Gem det ved at klikke File/Save as By SAS Name og

abn det i ANALYST, nar der skal laves tegninger mv.

Korrelation og regression, september 2008 67

Falsk korrelation (spurious correlation)

Korrelationen er:

• positiv for mænd

• positivt for kvinder

• negativt for mennesker

Eks: Kolesterol vs. chokoladeindtag

Korrelation og regression, september 2008 68

Korrelationen er:

• tilsyneladende positiv

• 0 for hver aldersgruppe

X og Y vokser begge med alderen

Korrelation og regression, september 2008 69

Et delvist program kunne se ud som:

data a1;

infile ’vcf.tal’;

input glucose vcf;

sukker10=glucose-10;

glucose_i_anden=(glucose-10)**2;

run;

proc print data=a1;

var glucose vcf;

run;

proc corr pearson spearman data=a1;

var vcf glucose;

run;

Korrelation og regression, september 2008 70

proc reg data=a1;

model vcf=sukker10 glucose_i_anden / clb;

run;

proc reg data=a1;

model vcf=glucose / corrb clb r p influence;

output out=ny p=yhat r=resid student=stresid cookd=cook

h=h rstudent=uresid press=press;

run;

proc print data=ny;

var glucose vcf yhat resid stresid h cook uresid press;

run;

proc univariate normal data=ny;

var resid;

histogram / cfill=gray height=3 normal;

probplot / height=3 normal(mu=EST sigma=EST l=33);

inset mean std skewness / header=’descriptive’;

run;

Korrelation og regression, september 2008 71

proc gplot gout=plotud data=a1;

plot vcf*glucose

/ haxis=axis1 vaxis=axis2 frame;

axis1 order=(0 to 20 by 5)

value=(h=3)

offset=(3,3)

minor=NONE

label=(H=3 ’blood glucose (mmol/l)’);

axis2 order=(0.6 to 2.0 by 0.2)

value=(h=3)

offset=(3,3)

minor=NONE

label=(A=90 R=0 H=3 ’Vcf (%/sec)’);

symbol1 v=circle i=rlcli95 c=BLACK h=3 l=1 w=2;

run;

top related