basal statistik normalfordelingen summary statistics gra...
TRANSCRIPT
Basal statistik
27. januar 2009
Deskriptiv statistik
• Grafik
• Summary statistics
• Normalfordelingen
• Typer af data
Judith Jacobsen, Lene Theil Skovgaard,
Biostatistisk Afdeling
Institut for Folkesundhedsvidenskab,
Københavns Universitet
e-mail: [email protected]
http://staff.pubhealth.ku.dk/~lts/basal09_1
Deskriptiv statistik, januar 2009 1
Eksempel pa kvantitative data
Deskriptiv statistik, januar 2009 2
Statistik
Handler om ud fra tal, data at udtale sig om aspekter afvirkeligheden (sundhedsvidenskabelige problemstillinger)
(Ikke “officiel” statistik, statistikproduktion)
Ud fra stikprøve:
1. Deskriptiv statistik:beskrive niveau og variation i population
2. Statistisk inferens:drage konklusioner om ukendte størrelser, parametre, knyttettil populationen, f.eks. forskel i niveau for mænd og kvinder ellerstigning i niveau pr. ar.
Deskriptiv statistik, januar 2009 3
Nøgleord
• Datareduktion
• Datapræsentation
• Statistiske modeller
Værktøjer
• matematik, sandsynlighedsregning
• edb
• grafik
– og sund fornuft!
Deskriptiv statistik, januar 2009 4
Scatter plot af PImax mod alder
Deskriptiv statistik, januar 2009 5
Histogram
SAS ANALYST:
Graph/Histogram
pimax i Analysis
Deskriptiv statistik, januar 2009 6
Beskrivelse af kvantitative variable
• Histogram
• Location, centrum
– Gennemsnit: y = 1n (y1 + · · ·+ yn)
– Median: midterste observation, efter størrelsesorden(50% fraktil)
• Variation
– Varians: s2 = 1n−1Σ(yi − y)2
spredning = standardafvigelse =√
varians
– Fraktiler (kumuleret fordelingsfunktion)
• Fraktildiagram
• Boxplot
Deskriptiv statistik, januar 2009 7
Gennemsnit
• kan opfattes somligevægtspunkt
• pavirkes kraftigt afyderlige observationer
Eksempel:Indlæggelsestider:5,5,5,7,10,16,106 dageGennemsnit: 154/7=22 dage.Repræsentativt for hvad??
Pa den anden side, hvis omkostninger er
proportionale med indlæggelsestiden, sa
er det maske gennemsnittet, der er
interessant for hospitalsledelsen.
Deskriptiv statistik, januar 2009 8
Fraktiler for PImax-eksempel
Data i rækkefølge:
1 2 3 4 5 6 7 8
40 45 70 75 75 75 75 80
9 10 11 12 13 14 15 16
80 80 85 95 95 95 95 100
17 18 19 20 21 22 23 24 25
100 100 110 110 110 120 125 130 150
Median: Midterste observation, 50%-fraktil: 95
Kvartiler (25% og 75% fraktiler): 75, 110.
Deskriptiv statistik, januar 2009 9
“Should we scare
the opposition by
announcing
our mean height,
or lull them by
announcing our
median height?”
Deskriptiv statistik, januar 2009 10
Handregning
Beregning af gennemsnit:
y =1n
∑i
yi
her: (80 + 85 + · · ·+ 95)/25 = 92.6
Beregning af varians:
s2 =1
n− 1
∑i
(yi − y)2
her: ((80− 92.6)2 + (85− 92.6)2 + · · ·+ (95− 92.6)2)/24 = 621.1
Beregning af spredning:
s =√
s2
her:√
621.1 = 24.9
Deskriptiv statistik, januar 2009 11
Summary statistics i SAS
Statistics/Descriptive/Summary Statistics
pimax i Analysis
i Statistics afkrydses:Mean, Standard Deviation, Minimum, Maximum, Median ogNumber of Observations
samt Standard error
The MEANS Procedure
Analysis Variable : pimax
Mean Std Dev Minimum Maximum Median N Std Error
----------------------------------------------------------------------------------------
92.6000000 24.9215436 40.0000000 150.0000000 95.0000000 25 4.9843087
----------------------------------------------------------------------------------------
Deskriptiv statistik, januar 2009 12
Fortolkning af spredningen, s
Hovedparten af observationerne ligger inden for
y ± ca.2× s
dvs. sandsynligheden for at en tilfældig udtrukket person frapopulationen har en værdi i dette interval er stor...
For PImax finder vi
92.6± 2× 24.9 = (42.8, 142.4)
Hvis data er normalfordelt, vil dette interval indeholde ca. 95% affremtidige observationer. Hvis ikke....
For at benytte ovenstaende, skal der i hvert fald helst værerimelig symmetri...
Deskriptiv statistik, januar 2009 13
For kvantitative variable har hver enkelt værdi sandsynlighed 0 for atindtræffe (fordi der i princippet er ∞ mange mulige udfald).
Vi taler i stedet om sandsynlighedstætheder,saledes at sandsynligheden for et interval udregnes som arealet underkurven.
Omrade, der dækker de centrale 95% af observationerne, ma ga fra2 1
2% fraktilen til 97 12% fraktilen, her....
Men hvordan finder man 212% af kun 25 observationer??
Deskriptiv statistik, januar 2009 14
Normalfordelingstætheder
benævnes ofte N(µ,σ2)
middelværdi = mean,ofte benævnt µ, α el.lign.
spredning, ofte benævnt σ
Deskriptiv statistik, januar 2009 15
Histogram med overlejretnormalfordeling
SAS ANALYST:
Graph/Histogram
pimax i Analysis
klik Fit og afkrydsNormal Parameters
Deskriptiv statistik, januar 2009 16
Deskriptiv statistik, januar 2009 17
Skæve fordelinger: Immunoglobulin (n=298)
Histogram of IgM
IgM
Fre
quen
cy
0 1 2 3 4 5
050
100
150
gennemsnit y spredning s=SD
0.80g/l 0.47g/l
(y+2s, y+2s) = (−0.14g/l, 1.74g/l)
Urimeligt interval,indeholder f.eks.negative værdier
Deskriptiv statistik, januar 2009 18
Fraktiler for IgM-data
Quantile Estimate
100% Max 4.5
99% 2.5
95% 1.7
90% 1.4
75% Q3 1.0
50% Median 0.7
25% Q1 0.5
10% 0.4
5% 0.3
1% 0.1
0% Min 0.1
Obs P_2_5 P_5 P_95 P_97_5
1 0.2 0.3 1.7 2
Kumulativ fordeling:
Intervallet (0.2, 2.0) synes mererepræsentativt
Deskriptiv statistik, januar 2009 19
Hvordan kan vi se, om normalfordelingen er en god beskrivelse?
Simulation af 40 observationerfra samme normalfordeling,gentaget 9 gange:Nogle af dem ser’ikke ret normalfordelte’ ud!
Ganske store afvigelser kantolereres i visse sammenhænge,specielt nar de ikke er forsystematiske!
Histogram of nf1
nf1
Freq
uenc
y
−2 −1 0 1 2 3
02
46
8
Histogram of nf2
nf2
Freq
uenc
y
−2 −1 0 1 2
02
46
8
Histogram of nf3
nf3
Freq
uenc
y
−2 0 1 2 3 4
04
812
Histogram of nf4
nf4
Freq
uenc
y
−2 −1 0 1 2
02
46
8
Histogram of nf5
nf5
Freq
uenc
y
−2 −1 0 1 2
02
46
8
Histogram of nf6
nf6
Freq
uenc
y
−2 −1 0 1 2
02
46
8
Histogram of nf7
nf7
Freq
uenc
y
−2 −1 0 1 2
02
46
8
Histogram of nf8
nf8
Freq
uenc
y
−2 −1 0 1 2
02
46
8
Histogram of nf9
nf9
Freq
uenc
y
−4 −2 0 1 2 3
05
1015
Deskriptiv statistik, januar 2009 20
Test af normalitet for PImax
blandt meget andet output fraStatistics/Descriptive/Distributions nar der afkrydses iFit/Normal Parameters:
The UNIVARIATE Procedure
Fitted Distribution for pimax
Parameters for Normal Distribution
Parameter Symbol Estimate
Mean Mu 92.6
Std Dev Sigma 24.92154
Goodness-of-Fit Tests for Normal Distribution
Test ---Statistic---- -----p Value-----
Kolmogorov-Smirnov D 0.12002682 Pr > D >0.150
Cramer-von Mises W-Sq 0.05671455 Pr > W-Sq >0.250
Anderson-Darling A-Sq 0.35232007 Pr > A-Sq >0.250
Quantiles for Normal Distribution
-------Quantile------
Percent Observed Estimated
1.0 40.0000 34.6238
5.0 45.0000 51.6077
10.0 70.0000 60.6618
25.0 75.0000 75.7907
50.0 95.0000 92.6000
75.0 110.0000 109.4093
90.0 125.0000 124.5382
95.0 130.0000 133.5923
99.0 150.0000 150.5762
Deskriptiv statistik, januar 2009 21
Test af normalfordelingen er ikke særligt informativt!
• giver ikke udtryk for graden af afvigelse fra normalitet
• i sma samples skal afvigelsen være storfor at sla igennem
• i store samples vil selv ubetydelige afvigelsergive signifikant udslag
Deskriptiv statistik, januar 2009 22
Fraktildiagram
Graphs/Probability Plot:
Hvis data er normalfordelt,skal fraktildiagrammet ligne enret linie:De observerede fraktiler skalpasse med de teoretiske(panær en skala)
Deskriptiv statistik, januar 2009 23
Test af normalitet for IgM
Fitted Distribution for igm
Parameters for Normal Distribution
Parameter Symbol Estimate
Mean Mu 0.80302
Std Dev Sigma 0.469498
Goodness-of-Fit Tests for Normal Distribution
Test ---Statistic---- -----p Value-----
Kolmogorov-Smirnov D 0.17035149 Pr > D <0.010
Cramer-von Mises W-Sq 1.72717601 Pr > W-Sq <0.005
Anderson-Darling A-Sq 9.83760415 Pr > A-Sq <0.005
Quantiles for Normal Distribution
------Quantile------
Percent Observed Estimated
1.0 0.10000 -0.28920
5.0 0.30000 0.03076
10.0 0.40000 0.20133
25.0 0.50000 0.48635
50.0 0.70000 0.80302
75.0 1.00000 1.11969
90.0 1.40000 1.40471
95.0 1.70000 1.57528
99.0 2.50000 1.89524
Deskriptiv statistik, januar 2009 24
Fraktildiagram for IgM
ses at passe meget darligtmed en ret linie
Deskriptiv statistik, januar 2009 25
Normalomrade:Omrade, der omslutter 95% af normale observationer:
• nedre grænse: 2 12% fraktil
• øvre grænse: 97 12% fraktil
Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ2),
kan disse fraktiler direkte udtrykkes som
2 12% fraktil: µ− 1.96σ ≈ y − 1.96s
97 12% fraktil: µ + 1.96σ ≈ y + 1.96s
og normalomradet udregnes derfor som
y ± ca.2× s = (y − ca.2× s, y + ca.2× s)
Deskriptiv statistik, januar 2009 26
Sadanne normalomrader dur ikke for IgM:
– fordi fordelingen er tydeligt skæv
Hvad gør vi sa?
• benytter empiriske fraktiler (se s. 18)
• transformerer, typisk med logaritmen (se s. 27)
Deskriptiv statistik, januar 2009 27
Transformation med logaritme (log10)
gennemsnit spredning
−0.158 0.238
Antilog: 10−0.158 = 0.695
−0.158− 2× 0.238 = −0.63Antilog: 10−0.63 = 0.23
−0.158 + 2× 0.238 = 0.32Antilog: 100.32 = 2.08
Histogram of log10(IgM)
log10(IgM)
Fre
qu
en
cy
–1.0 –0.5 0.0 0.5
02
04
06
08
01
00
Bedre grænser: (0.23, 2.08)
Deskriptiv statistik, januar 2009 28
Hvorfor benyttes normalfordelingen sa ofte?
• Det er ofte en rimelig approksimation
– Evt. efter transformationmed logaritme, kvadratrod, invers,...
• Central grænseværdisætning:
– Sum (eller gennemsnit) af et stort antal variable far enfordeling, der efterhanden kommer til at ligne ennormalfordeling(sum af normalfordelinger er igen en normalfordeling).
• Rimelig let at arbejde med, fordi standard programmel erudviklet for normalfordelingen.
Deskriptiv statistik, januar 2009 29
Deskriptiv statistik, januar 2009 30
Hvordan kan vi sige noget om fordelingen af gennemsnittet y?– vi har jo kun et....
• Bootstrap: Resampling (trækning af observationer fra voressample, med tilbagelæggelseUdregn gennemsnit af hvert nyt sampleFordeling af Bootstrap gennemsnit....!!
• Ved at benytte en fordelingsantagelse for selve y’erneHvis yi’erne er normalfordelte, vil y ogsa være det, ogspredningen i denne fordeling vil være SEM = SD√
n
Deskriptiv statistik, januar 2009 31
Bootstrap distribution of PIMAX y, 1000 samples
"bootstrap gennemsnit"
92.61624
"bootstrap spredning"
4.911366
modsvarer SEM i samplet
Histogram of bootstrap.pimax.snit
bootstrap.pimax.snit
Fre
quen
cy
80 90 100 110
050
010
0015
00
"fraktiler for bootstrap gennemsnit"
1% 2.5% 5% 50% 95% 97.5% 99%
81.2 83.0 84.6 92.6 100.6 102.2 104.0
Deskriptiv statistik, januar 2009 32
Central grænseværdisætning: IgM
Histogram of igm
igm
Frequ
ency
0.0 1.0 2.0 3.0
050
100
150
Histogram of boot.igm.snit4
boot.igm.snit4
Frequ
ency
0.0 1.0 2.0 3.0
050
010
0015
0020
00
Histogram of boot.igm.snit16
boot.igm.snit16
Frequ
ency
0.0 1.0 2.0 3.0
050
010
0015
00
Histogram of boot.igm.snit16
boot.igm.snit16
Frequ
ency
0.6 1.0 1.4
050
010
0015
00
Histogram of boot.igm.snit64
boot.igm.snit64
Frequ
ency
0.6 1.0 1.4
050
015
0025
00
Histogram of boot.igm.snit298
boot.igm.snit298
Frequ
ency
0.6 1.0 1.4
050
010
0015
00
Deskriptiv statistik, januar 2009 33
Central grænseværdisætning:
Jo flere observationer, der indgar i gennemsnittet
• des mere normalfordelt ser det ud
• des mindre spredning har fordelingen
Standard error (of the mean), SEMsiger noget om usikkerheden pa gennemsnittet
SEM =SD√
n
Deskriptiv statistik, januar 2009 34
Konfidensinterval
• Hvad tror vi pa, at den sande middelværdi kan være?
• Et interval, der ’fanger’ den sande middelværdi med en passendehøj (95%) sandsynlighed kaldes et 95% konfidensinterval
• 95% kaldes dækningsgraden eller coverage
y ± ca.2× SEM
Dette er ofte en god approksimation, selv nar data ikke er særligtpænt normalfordelt(pa grund af CLT, den centrale grænseværdisætning)
Deskriptiv statistik, januar 2009 35
For PImax fas:
92.6± 2× 4.98 = (82.64, 102.56)
som sammenlignes med Bootstrap-fraktilerne: (83.0, 102.2)
For IgM fas:
0.80± 2× 0.47√298
= (0.75, 0.85)
som sammenlignes med Bootstrap-fraktilerne: (0.75, 0.86)
Men gennemsnittet er stadig ikke et godt mal for IgM!!Medianen er 0.7 .....
Deskriptiv statistik, januar 2009 36
• Spredning=standard deviation, SDsiger noget om variationen i vores sample,og formentlig i populationenbenyttes ved beskrivelser af data
• Standard error (of the mean), SEMsiger noget om usikkerheden pa gennemsnittet
SEM =SD√
n
standard error (of mean, of estimate) = 1√n× standard deviation
benyttes ved sammenligninger, sammenhænge etc.
Deskriptiv statistik, januar 2009 37
Boxplot for PImax-eksempel
Graph/Box Plot
i Display skiftes til Schematic
God ved sammenligningaf fordelinger
Deskriptiv statistik, januar 2009 38
Hvis fordelingen er tydeligt skæveller pa anden made afviger tydeligt fra normalfordelingen, bør manikke angive gennemsnit og spredning, men snarere:
• fraktiler:
– median
– inter-quartile range, IQR:intervallet mellem 25% og 75% fraktil
• range
Om muligt bør fordelingen illustreres grafisk!Alternativ: Transformer til normalitet.
For sma materialer angives
• median og range
Deskriptiv statistik, januar 2009 39
Hvis variablen Y er normalfor-delt med middelværdi µ
og varians σ2, skriver vi
y ∼ N(µ, σ2)
Standardiseret/normeretvariabel:
z =y − µ
s∼ t(df) ≈ N(0, 1)
nar df = n− 1 er stor
Deskriptiv statistik, januar 2009 40
Deskriptiv statistik, januar 2009 41
Eksempel: Ud fra et stort materiale har vi fundet en gennemsnitligSe-albumin pa 34.46 (g/l) og en empirisk varians pa 5.842 (g/l)2
Hvis vi udfra dette antager at Se-albumin er normalfordelt medmiddelværdi 34.46 g/l og spredning 5.84 g/l, hvad er sasandsynligheden for at en tilfældigt udvalgt person har en værdi over42.0 g/l?
Hvor mange standardafvigelser er 42.0 fra 34.46?
42− 34.465.84
= 1.29
Tabelopslag i standardnormalfordeling (B1) eller computer:P = 0.0985 ≈ 10%
Deskriptiv statistik, januar 2009 42
Vigtigheden af normalfordelingen
afhænger af formalet med undersøgelsen
• vigtig
– ved beskrivelser
– ved konstruktion af diagnostisk værktøj
• ikke sa vigtig
– ved sammenligninger
– ved vurdering af effekter
Deskriptiv statistik, januar 2009 43
Typer af data
• Kategoriskekun distinkte værdier mulige
– død ja/nej
– fysisk aktivitet i 4 kategorier
• Kvantitative (numeriske)
– Diskrete (tælledata)∗ antal børn i en famile∗ antal metastaser
– Kontinuerte (maledata)
• Censurerede (e.g. levetider)
Deskriptiv statistik, januar 2009 44
Kategoriske data
To kategorier (dikotom/binær):
• Mand/kvinde
• dør/overlever
• Gift/ugift
• Ryger/ikke ryger
Flere end to:
• Nominal: Gift/ugift/fraskilt/enke(mand)
• Ordinal: minimal/moderat/alvorlig/uudholdelig smerte
Deskriptiv statistik, januar 2009 45
Diskrete kvantitative/numeriske data
Tælletal
• Antal børn i en familie
• Antal metastaser/celler/bakteriekolonier
Flydende grænser mellem diskrete numeriske og ordinale kategoriskedata.
OBS: Ofte meningsløst at behandle ordinale data som om de varnumeriske. Gennemsnitlig socialklasse eller cancerstadium??
Deskriptiv statistik, januar 2009 46
Kontinuerte data
• Højde
• Vægt
• Se-kolesterol
• Blodtryk
Maling pa en sammenhængende skala.
I praksis afrundede tal.
Variable der antager “mange værdier”.
Ofte ’noget med’ normalfordelingen
Deskriptiv statistik, januar 2009 47
Censurerede data
Typisk overlevelsesdata
For nogen data vides kun om de er større end en vis værdi. For andrekendes værdien.
“Patienten var i live ved sidste follow-up / pr. 1.jan. 1997”
NB: der er ogsa trunkerede data hvor man slet ikke har data hvisde er mindre/større end en vis værdi:Tid til diagnose blandt patienter med symptomstart i 1995, fx.
Deskriptiv statistik, januar 2009 48
Beskrivelse af kategoriske data
• Stolpediagrammer (barplots)
• Tabeller
– Absolutte hyppigheder/frekvenser (antal)
– Relative hyppigheder (procenter)
Deskriptiv statistik, januar 2009 49
Tabeller
Kejsersnit og skostørrelse: Absolutte frekvenser (antal)
Shoe size
Sectio <4 4 4 12 5 5 1
2 6+ Total
Yes 5 7 6 7 8 10 43
No 17 28 36 41 46 140 308
Total 22 35 42 48 54 150 351
Deskriptiv statistik, januar 2009 50
Tabeller - i procent
Kejsersnit og skostørrelse: Relative frekvenser (i %)
Shoe size
Sectio <4 4 4 12
5 5 12
6+ Total
Yes 22.7 20.0 14.3 14.6 14.8 6.7 12.3
No 77.3 80.0 85.7 85.4 85.2 93.3 87.7
Total 100 100 100 100 100 100 100
Fordel: direkte sammenlignelighedUlempe: mister de faktiske antal
Deskriptiv statistik, januar 2009 51
Procenter, ’den anden vej’
Kejsersnit og skostørrelse: Relative frekvenser (i %)
Shoe size
Sectio <4 4 4 12
5 5 12
6+ Total
Yes 11.6 16.3 14.0 16.3 18.6 23.3 100
No 5.5 9.1 11.7 13.3 14.9 45.5 100
Total 6.3 10.0 12.0 13.7 15.4 42.7 100
Dette siger noget om fodstørrelse– og ikke sa meget om hyppighed af kejsersnit