basal statistik 23. september 2008staff.pubhealth.ku.dk/~ebj/basal08_2/overheads/... · 3 8.1 1.27....
TRANSCRIPT
Basal statistik
23. september 2008
Korrelation og regression
• Simpel lineær regression
• Todimensionale normalfordelinger
• Korrelation vs. regression
• Modelkontrol
• Diagnostics
Thomas Scheike,
Biostatistisk Afdeling
Institut for Folkesundhedsvidenskab,
Københavns Universitet
Slides af Lene T. Skovgaard findes pa
http://staff.pubhealth.ku.dk/~ebj/basal08_2
Korrelation og regression, september 2008 1
Simpel lineær regression
Retningsbestemt relation
(men ikke nødvendigvis kausal)
mellem to kontinuerte variable:
Y: Respons eller outcome, afhængig (dependent) variabel
X: Forklarende variabel, kovariat
(somme tider Independent/uafhængig - meget uheldigt!)
Korrelation og regression, september 2008 2
Data:
Sammenhørende registreringer (xi, yi),
for en række individer eller ’units’, i = 1, · · · , n:
Bemærk: xi’erne kan vælges pa forhand!
• Det er smart,
fordi man kan designe sig til mere præcise estimater
• Det er farligt,
hvis man har tænkt sig at benytte korrelationer
(mere om det senere)
Korrelation og regression, september 2008 3
Eksempel:
Sammenhæng mellem kolinesteraseaktivitet (KE)
og tid til opvagnen (TID)
• Outcome: TID
• Forklarende variabel: KE
• Konklusioner:
Hvor lang tid forventer vi til opvagnen,
baseret pa en maling af KE?
Hvor stor er usikkerheden pa denne prediktion?
Korrelation og regression, september 2008 4
Eksempel:
Sammenligning af lungekapacitet (FEV1) for rygere og
ikke-rygere
Problem: FEV1 afhænger ogsa af f.eks. højde
• Outcome: FEV1
• Forklarende variable: højde, rygevaner
• Konklusioner:
Hvor meget darligere er lungefunktionen hos rygere?
Korrelation og regression, september 2008 5
Kan der pavises en sammenhæng mellem fastende
blodsukkerniveau og sammentrækningsevne for
venstre hjertekammer hos diabetikere? (n=23)
Outcome: Y=vcf, %/sec.
Kovariat:
X=blodsuk, mmol/l
OBS BLODSUK VCF
1 15.3 1.76
2 10.8 1.34
3 8.1 1.27
. . .
. . .
. . .
21 4.9 1.03
22 8.8 1.12
Korrelation og regression, september 2008 6
Scatter plot
Graphs/Scatter Plot
/Two-Dimensional
eller
proc gplot data=sasuser.bp;
plot vcf*blodsuk;
run;
Korrelation og regression, september 2008 7
Ligningen for en ret linie: Y = α + βX
Korrelation og regression, september 2008 8
Fortolkning:
• α: intercept, afskæring (skæring med Y-akse)
Sammentrækningsevnen for en diabetiker med en
blodsukkerværdi pa 0.
Som regel en utilladelig ekstrapolation!
• β: hældning, regressionskoefficient
Forskellen i sammentrækningsevne hos 2 diabetikere,
der afviger i blodsukkerværdi med 1 mmol/l.
Ofte parameteren med størst interesse.
Korrelation og regression, september 2008 9
Statistisk model: Yi = α + βXi + εi, εi ∼ N(0, σ2) uafh.
Estimation foretages v.hj.a mindste kvadraters metode
Korrelation og regression, september 2008 10
Mindste kvadraters metode:
Bestem α og β, sa kvadratafvigelsessummen
n∑
i=1
(yi − (α + βxi))2 =
n∑
i=1
ε2i
bliver mindst mulig
β =Sxy
Sxx
=
∑n
i=1 (xi − x)(yi − y)∑n
i=1 (xi − x)2, α = y − βx
Korrelation og regression, september 2008 11
• Regressionsanalyse i ANALYST:
– Statistics/Regression/Simple eller Linear
– vcf → Dependent, blodsuk → Explanatory
– Statistics
afkryds Confidence limits for estimates
samt evt. Correlation matrix of estimates
• Og ved direkte programmering:
proc reg data=sasuser.bp;
model vcf = blodsuk / clb corrb;
run;
Korrelation og regression, september 2008 12
Dependent Variable: vcf
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 0.20727 0.20727 4.41 0.0479
Error 21 0.98610 0.04696
Corrected Total 22 1.19337
Root MSE 0.21670 R-Square 0.1737
Dependent Mean 1.32565 Adj R-Sq 0.1343
Coeff Var 16.34634
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits
Intercept 1 1.09781 0.11748 9.34 <.0001 0.85350 1.34213
blodsuk 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370
Correlation of Estimates
Variable Intercept blodsuk
Intercept 1.0000 -0.9231
blodsuk -0.9231 1.0000
Korrelation og regression, september 2008 13
Vigtige informationer fra output:
• hældning (slope, vises i output under betegnelsen
’blodsuk’, fordi det er koefficienten til denne),
β = 0.02196 ≈ 0.022,
med tilhørende spredning (standard error)
• spredningen omkring linien (Root MSE),
s = σ = 0.21670 ≈ 0.217
Denne størrelse benyttes til konstruktion af
prediktionsgrænser (kommer senere), som er
normalomrader for given blodsukkerværdi.
Korrelation og regression, september 2008 14
Tegning med linie:
I regressionsopsætningen
klikkes
Plots,og der afkrydses iPlot observed vs. independent
Estimeret regressionslinie: vcf=1.10 + 0.0220 blodsuk
Korrelation og regression, september 2008 15
Fortolkning af α er ofte habløs,
men den er nødvendig for at lave prediktioner.
Fittede (predikterede, forventede) værdier: yi = α + βxi
Forventet værdi af vcf for en diabetiker med blodsukker
10mmol/l:
1.10 + 0.0220 × 10 = 1.32
Korrelation og regression, september 2008 16
Omparametrisering, f.eks. v.hj.a. ny forklarende
variabel: Z = X − 10
Der gælder sa α∗ = α + 10β, dvs. liniens y-værdi i x=10.
Fortolkning af α10: Sammentrækningsevne for en
diabetiker med blodsukkerværdi 10 mmol/l.
Korrelation og regression, september 2008 17
Data/Transform/Compute, definer sukker10 som
blodsuk-10
Gentag nu regressionen med blodsuk erstattet af
sukker10. Vi far sa
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t| 95% Confidence Limits
Intercept 1 1.31744 0.04535 29.05 <.0001 1.22312 1.41176
sukker10 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370
Correlation of Estimates
Variable Intercept sukker10
Intercept 1.0000 -0.0862
sukker10 -0.0862 1.0000
Korrelation og regression, september 2008 18
Regressionsanalysen indeholder 3 parametre:
• 2 hørende til linien (intercept og hældning)
• 1, som er spredningen omkring linien (σ):
den biologiske variation af vcf for folk med samme
blodsukker-værdi
Vi estimerer σ2, variansen omkring regressionslinienved
s2 =1
n − 2
n∑
i=1
(yi − α − βxi)2
ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer)
erstattet af n− 2 (antallet af frihedsgrader), her 21
Korrelation og regression, september 2008 19
Man kan ikke forsta eller fortolke varianser direkte, sa vi
tager straks kvadratrod:
s =√
s2
som er estimat for
spredningen omkring regressionslinien
kaldes i SAS (lidt uheldigt) for ’Root Mean Square Error’
her 0.2167, med de samme enheder som vcf
Korrelation og regression, september 2008 20
Hvor gode er skønnene over de ukendte parametre
α og β?
Hvor meget anderledes resultater kunne vi forvente at finde
ved en ny undersøgelse?
Det kan vises, at β ∼ N(β, σ2
Sxx)
dvs. hældningen er præcist bestemt, hvis
• observationerne ligger tæt pa linien (σ2 lille)
• variationen i x-værdier (Sxx) er stor
Korrelation og regression, september 2008 21
Estimeret usikkerhed pa β: se(β) = s√Sxx
Dette estimat kaldes standard error for β,
eler generelt standard error of the estimate (s.e.e)
Vi bruger det til at konstruere et 95% konfidensinterval
β ± t97.5%(n − 2) × se(β) = β ± ca.2 × se(β)
= 0.0220 ± 2.080 × 0.0105 = (0.0002, 0.0438)
Korrelation og regression, september 2008 22
Vi kan ogsa teste, typisk ’H0 : β = 0’ ved t-testet
t =β
se(β)∼ t(n − 2)
som her giver t = 0.02200.0105
=2.10 ∼ t(21), P=0.048
dvs. lige pa grænsen af det signifikante
Korrelation og regression, september 2008 23
Tilsvarende kan vi teste f.eks. ’H0 : α = α0’ ved t-testet
t =α − α0
se(α)∼ t(n − 2)
eller udregne et 95% konfidensinterval for α:
1.098 ± 2.080 × 0.1175 = (0.854, 1.342)
Dette er ikke særlig interessant.
I stedet kan vi erstatte ’blodsuk’ af ”blodsuk-10’, hvorved
det nye ’intercept’-estimat bliver 1.317(0.045)
med 95% konfidensinterval
1.317± 2.080× 0.045 = (1.223, 1.411). Dette kan fortolkes.
Korrelation og regression, september 2008 24
Vi kan altsa teste hypoteser om savel α som β, men:
• Estimaterne for intercept og hældning er (negativt)
korrelerede (her -0.92, jv. s. 12)
• Accepter ikke to ’sideordnede’ test
Selv om vi kan acceptere test vedr. bade α (f.eks.
intercept=0) og β (f.eks. hældning 1) hver for sig, kan
vi ikke nødvendigvis acceptere begge samtidig
Korrelation og regression, september 2008 25
Korrelation og regression, september 2008 26
Variationsopspaltning
SStotal =n
∑
i=1
(yi − y)2 = SSmodel + SSresid
Total variation = variation, som kan forklares
+ variation, som ikke kan forklares
x er en god forklarende variable,
hvis SSresid er lille i forhold til SSmodel
Korrelation og regression, september 2008 27
Alternativ teststørrelse for effekt af x
F-teststørrelse for hypotesen H0 : β = 0:
SSmodel/1
SSresid/(n − 2)∼ F (1, n − 2)
Bemærk, at der her gælder, at det ’nye’ F-test giver det
samme som det ’gamle’ t-test, fordi
t =β
se(β)=
√F
Korrelation og regression, september 2008 28
Ækvivalensen mellem t− og F -tests gælder kun for simpel
lineær regression
Generelt tester F-testet mere end 1 frihedsgrad væk:
• flere niveauer af en kategorisk kovariat testes ens
(anova)
• flere kvantitative forklarende variable testes væk pa
samme tid (multipel regression)
Korrelation og regression, september 2008 29
Determinationskoefficient, R2:
Den andel af variationen (i y), der kan forklares ved modellen:
R2 =SSmodel
SStotal
Her finder vi determinationskoefficienten: R2 = 0.17, dvs. vi kan
forklare 17% af variationen i vcf v.hj.a. variablen blodsuk.
Determinationskoefficienten er
kvadratet pa korrelationskoefficienten
mellem vcf og blodsuk (som dermed er r =√
0.17 = 0.42)
Korrelation og regression, september 2008 30
Korrelationen r mellem to variable maler:
• I hvor høj grad ligner scatter plottet en ret linie?
• Ikke: Hvor nær ligger punkterne ved den rette linie?
Korrelationskoefficienten estimeres ved:
r = rxy =Sxy
√
SxxSyy
=
∑n
i=1 (xi − x)(yi − y)√
∑n
i=1 (xi − x)2∑n
i=1 (yi − y)2
• antager værdier mellem -1 og 1 (0 = uafhængighed)
• +1 og -1 svarer til perfekt lineær sammenhæng,
hhv. positiv og negativ
Korrelation og regression, september 2008 31
Todimensional normalfordelingstæthed med korrelation 0
Alle lodrette snit giver
normalfordelinger
• med samme
middelværdi
• og samme varians
Korrelation og regression, september 2008 32
Todimensional normalfordelingstæthed
Korrelation 0.9
Udpræget retning i figuren
Korrelation og regression, september 2008 33
Konturkurver
for en normalfordeling
Korrelation og regression, september 2008 34
Regression kontra korrelation
Antagelserne til brug for fortolkning af en korrelation er
skrappere end for regressionsanalysen, fordi:
En todimensional normalfordeling for (X,Y) medfører:
• De betingede fordelinger af Y givet X=x er igen
normalfordelinger
• De betingede middelværdier ligger pa en ret linie
• De betingede varianser er ens (uafhængig af x)
Korrelation og regression, september 2008 35
Betingninger i den todimensionale normalfordeling giver
altsa en lineær regressionsmodel:
men ved udregning af korrelationen antager man tillige, at
X’erne følger en normalfordeling.
Korrelation og regression, september 2008 36
De to estimater (for korrelation og hældning)
ligner hinanden
β =Sxy
Sxx
rxy =Sxy√SxxSyy
β = rxy
√
Syy
Sxx
rxy = β√
SxxSyy
Men korrelationen er dimensionsløs
– og svær at fortolke
Korrelation og regression, september 2008 37
Test af uafhængighed (ingen korrelation), H0 : ρxy = 0
T =rxy
√
1 − r2xy
√n − 2 ∼ t(n − 2)
Test for β = 0 er identisk med test for ρxy = 0
Korrelation og regression, september 2008 38
Men pas pa: 1 − r2xy = s2
s2+β2 Sxxn−2
Hold β og s2 fast:
Sxx stor ⇒ 1-r2xy tæt pa 0 ⇒ r2
xy tæt pa 1
r2xy kan gøres vilkarlig tæt pa 1 ved at sprede x’erne
– f.eks. ved at udelade de midterste
Korrelation og regression, september 2008 39
Korrelationskoefficienten
• udtrykker sammenhæng, ikke overensstemmelse
(der er f.eks. en sammenhæng mellem alder og
blodtryk, men der er naturligvis ikke overensstemmelse)
Man skal derfor ikke bruge
korrelationskoefficienten til at sammenligne
malemetoder
• Pearson korrelationen maler graden af lineær
sammenhæng. For krumme sammenhænge bør man
benytte rangkorrelationer (Spearman).
Korrelation og regression, september 2008 40
Fittede (predikterede, forventede) værdier: yi = α + βxi
Konfidensgrænser for selve linien (smalle grænser)
• benyttes til sammenligning med andre grupper af
personer
• man benytter spredningen s√
1n
+ (xi−x)2
Sxx
• Disse grænser bliver vilkarligt snævre,
nar antallet af observationer øges.
• De er ofte irrelevante!
Korrelation og regression, september 2008 41
Konfidensgrænser
(fas under Plots i regressionsopsætningen)
eller ved at skrive symbol=rlclm95 i symbol-sætningen
Korrelation og regression, september 2008 42
Fittede (predikterede, forventede) værdier: yi = α + βxi
Prediktionsgrænser (normalomrade) for
enkeltobservationer (brede grænser)
• De benyttes til at afgøre, om en ny person er atypisk i
forhold til normen (diagnostik), idet de omslutter ca.
95% af fremtidige observationer, ogsa for store n.
• man benytter spredningen s√
1 + 1n
+ (xi−x)2
Sxx
• Disse grænser bliver ikke nævneværdigt snævrere,
nar antallet af observationer øges.
Korrelation og regression, september 2008 43
Prediktionsgrænser
Afkryds Prediction limits i stedet for
Confidence limits
eller ved at skrive symbol=rlcli95 i symbol-sætningen
Korrelation og regression, september 2008 44
Modellens konklusioner er kun rimelige,
hvis modellen selv er rimelig.
Modelkontrol: Passer modellen rimeligt til data?
Diagnostics: Passer data til modellen?
Eller er der indflydelsesrige observationer eller outliers?
Check af disse to forhold burde foretages fra begyndelsen,
men da de kræver fit af modellen, kan de først foretages
efterfølgende
Korrelation og regression, september 2008 45
Modelkontrol: Den statistiske model var
Yi = α + βXi + εi, εi ∼ N(0, σ2) uafhængige
Hvilke antagelser skal vi checke her?
• linearitet
• varianshomogenitet (εi’erne har samme varians)
• normalfordelte afvigelser (εi’erne)
Obs: Intet krav om normalfordeling pa xi’erne!!
– eller yi’erne!!
Korrelation og regression, september 2008 46
Til grafisk modelkontrol skal vi bruge
residualerne = modelafvigelserne
= observeret - fittet værdi:
εi = yi − yi
eller en modifikation af disse
(se senere)
Korrelation og regression, september 2008 47
Residualplots: Residualer (af passende type) plottes mod
• den forklarende variabel xi
– for at checke linearitet (se efter krumninger)
• de fittede værdier yi
– for at checke varianshomogenitet (se efter trompeter)
• fraktildiagram eller histogram
– for at checke normalfordelingsantagelsen
De to førstnævnte figurer skal give indtryk af uorden
dvs. der ma ikke være nogen systematik
Fraktildiagrammet skal ligne en ret linie
Korrelation og regression, september 2008 48
Linearitet, eller..
• Tendens til buer?
Hvis lineariteten ikke holder i rimelig grad,
bliver modellen ufortolkelig.
Korrelation og regression, september 2008 49
Numerisk check af linearitet: Tilføj kvadratleddet blodsuk2
vcf=α+β1blodsuk+β2blodsuk2
Test af linearitet: β2=0
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 1.27901 0.06149 20.80 <.0001
sukker10 1 0.01520 0.01277 1.19 0.2480
blodsuk_i_anden 1 0.00218 0.00234 0.93 0.3640
• Test af β = 0 giver t = 0.93 og P = 0.36.
• Lineariteten ser rimelig ud
Korrelation og regression, september 2008 50
Afhjælpning af non-linearitet:
• tilføj flere kovariater, f.eks.
– alder, køn, medicin etc.
• transformer variablene med
– logaritmer
– kvadratrod, invers
• Lad være med at gøre noget: ikke-lineær regression
Korrelation og regression, september 2008 51
Problemer med
varianshomogeniteten?
• Kaos?
eller trompetfacon?
• symmetri om 0-linien?
Hvis varianshomogeniteten ikke holder i rimelig grad,
mister vi styrke,
og prediktionsgrænser bliver upalidelige!
Korrelation og regression, september 2008 52
Trompetfacon kan fortolkes som
• konstant relativ spredning
= konstant variationskoefficient
Variationskoefficient =spredning
middelværdi
– ofte konstant, nar man maler pa sma positive
størrelser, f.eks. koncentrationer
– transformer outcome med logaritme
Korrelation og regression, september 2008 53
Problemer med normalfordelingsantagelsen?
• Er histogrammet passende symmetrisk?
• Ser fraktildiagrammet lineært ud?
Korrelation og regression, september 2008 54
Hvis normalfordelingen ikke holder i rimelig grad,
mister vi (lidt) styrke
og prediktionsgrænser bliver upalidelige!
Afhjælpning af problemer med normalfordelingsantagelsen:
• transformation med logaritmer
– i tilfælde af fordelinger med haler mod højre
• non-parametriske metoder
– men sa far vi ingen kvantificeringer
Korrelation og regression, september 2008 55
Antagelsen om normalfordeling (og varianshomogenitet) er
ikke sa kritisk for selve fittet, fordi:
t-fordelingen bygger pa normalfordelingen, men kun pa en
normalfordelingsantagelse for estimatet β, og dette passer
ofte, nar der er rimeligt mange observationer, pa grund af
Den centrale grænseværdisætning,
der siger at summer og andre funktioner af mange
observationer bliver ’mere og mere’ normalfordelt.
Men prediktionsgrænserne bliver misvisende og
ufortolkelige!!
Korrelation og regression, september 2008 56
Transformation med logaritmer
– men hvilken logaritme?
Alle logaritmer er proportionale, sa resultaterne bliver ens
(efter tilbagetransformation), men der er visse fif:
• Den forklarende variabel transformeres
– for at opna linearitet, dvs. nar det er successive
fordoblinger, der har konstant effekt.
Brug gerne 2-tals logaritmer!
Korrelation og regression, september 2008 57
• Outcome transformeres enten
– for at opna linearitet
– for at opna varianshomogenitet
Var(log(y)) ≈Var(y)
y2= CV2
dvs. en konstant variationskoefficient (CV) pa Y
betyder konstant varians pa log(Y ),
den naturlige logaritme
(den som tidligere har heddet ln,
men som altsa hedder log i computersprog)
Korrelation og regression, september 2008 58
Regression diagnostics:
Understøttes konklusionerne af hele materialet?
Eller er der observationer med meget stor indflydelse pa
resultaterne?
• Udelad den ite person
og bestem nye estimater for samtlige parametre.
• Udregn Cook’s afstand,
et mal for ændringen i parameterestimater.
• Spalt Cook’s afstand ud i koordinater, som maler f.eks:
Hvor mange s.e. ændrer β1 sig, hvis den ite person
udelades?
Korrelation og regression, september 2008 59
En enkelt observation skiller sig ud i forhold til de øvrige
Korrelation og regression, september 2008 60
Spalt Cooks afstand ud i koordinater og angiv:
Hvor mange se’er ændres f.eks. β,
nar den i’te person udelades?
Dependent Variable: vcf
Output Statistics
-------DFBETAS-------
Obs Intercept blodsuk
1 -0.2421 0.4134
2 0.0014 0.0005
3 -0.0049 0.0030
4 0.1082 -0.1461
5 0.0150 -0.0104
6 0.4436 -0.3547
7 0.0048 -0.0019
8 -0.0588 -0.0430
9 -0.0829 0.0552
10 0.0008 -0.0617
11 0.0060 -0.0043
12 -0.0345 0.0277
13 -0.8744 1.1973 <---------------------
14 0.0982 -0.1718
15 0.3409 -0.2478
16 . .
17 -0.1295 0.1086
18 0.0181 -0.0008
19 0.0128 -0.0907
20 0.3978 -0.6287
21 0.0169 -0.0476
22 -0.2938 0.2395
23 -0.1237 0.0625
24 0.2419 -0.0856
Korrelation og regression, september 2008 61
Estimeret linie: y = 1.098 + 0.022x
β = 0.02196(0.01045), t =0.02196
0.01045= 2.1, P = 0.048
Regressionsanalyse uden observation nr. 13
Estimeret linie: y = 1.189 + 0.011x
β = 0.01082(0.01029), t =0.01082
0.01029= 1.05, P = 0.31
Korrelation og regression, september 2008 62
Outliers
Observationer, der ikke passer ind i sammenhængen
• de er ikke nødvendigvis indflydelsesrige
• de har ikke nødvendigvis et stort residual
Press-residualer
Residualer, der fremkommer efter at den pagældende
observation har været udelukket fra estimationen.
(residualer without current observation)
Korrelation og regression, september 2008 63
Hvad gør vi ved indflydelsesrige observationer og
outliers?
• ser nærmere pa dem, de er tit ganske interessante
• anfører et mal for deres indflydelse
Hvornar kan vi udelade dem?
• hvis de ligger meget yderligt
– husk at afgrænse konklusionerne tilsvarende!
• hvis man kan finde arsagen
– og da skal alle sadanne udelades!
Korrelation og regression, september 2008 64
Modelkontrol og Diagnostics i ANALYST
Visse af plottene kan konstrueres direkte ved i
regressionsopsætningen at klikke
Plots/Residual
hvor der vælges f.eks. Residual mod Predicted
Korrelation og regression, september 2008 65
Der findes 4 forskellige typer af residualer
normeret? med alle obs. uden current obs.
nej Residual Press
ja Student Rstudent
Korrelation og regression, september 2008 66
Fuld kontrol over tegninger til modelkontrol fas ved i
regressionsopsætningen at benytte
• Save Data, afkryds
Create and save diagnostics data
• overflyt (klik Add) de størrelser, der skal gemmes
(typisk Predicted, Residual, Student,
Rstudent,Cookd,Press).
• Dobbeltklik pa Diagnostics Table i projekttræet
• Gem det ved at klikke File/Save as By SAS Name og
abn det i ANALYST, nar der skal laves tegninger mv.
Korrelation og regression, september 2008 67
Falsk korrelation (spurious correlation)
Korrelationen er:
• positiv for mænd
• positivt for kvinder
• negativt for mennesker
Eks: Kolesterol vs. chokoladeindtag
Korrelation og regression, september 2008 68
Korrelationen er:
• tilsyneladende positiv
• 0 for hver aldersgruppe
X og Y vokser begge med alderen
Korrelation og regression, september 2008 69
Et delvist program kunne se ud som:
data a1;
infile ’vcf.tal’;
input glucose vcf;
sukker10=glucose-10;
glucose_i_anden=(glucose-10)**2;
run;
proc print data=a1;
var glucose vcf;
run;
proc corr pearson spearman data=a1;
var vcf glucose;
run;
Korrelation og regression, september 2008 70
proc reg data=a1;
model vcf=sukker10 glucose_i_anden / clb;
run;
proc reg data=a1;
model vcf=glucose / corrb clb r p influence;
output out=ny p=yhat r=resid student=stresid cookd=cook
h=h rstudent=uresid press=press;
run;
proc print data=ny;
var glucose vcf yhat resid stresid h cook uresid press;
run;
proc univariate normal data=ny;
var resid;
histogram / cfill=gray height=3 normal;
probplot / height=3 normal(mu=EST sigma=EST l=33);
inset mean std skewness / header=’descriptive’;
run;
Korrelation og regression, september 2008 71
proc gplot gout=plotud data=a1;
plot vcf*glucose
/ haxis=axis1 vaxis=axis2 frame;
axis1 order=(0 to 20 by 5)
value=(h=3)
offset=(3,3)
minor=NONE
label=(H=3 ’blood glucose (mmol/l)’);
axis2 order=(0.6 to 2.0 by 0.2)
value=(h=3)
offset=(3,3)
minor=NONE
label=(A=90 R=0 H=3 ’Vcf (%/sec)’);
symbol1 v=circle i=rlcli95 c=BLACK h=3 l=1 w=2;
run;