utveckling och utvärdering av prediktionsmodeller
Post on 23-Jan-2016
64 Views
Preview:
DESCRIPTION
TRANSCRIPT
Utveckling och utvärdering av prediktionsmodeller
SIR Workshop, Saltsjöbaden, Mars 2011
Jonas Björk
E-post: Jonas.Bjork@skane.se
(Version 2011-03-04)
Min bakgrund inom detta område…
• Ekvationer för att uppskatta njurfunktion (GFR)Samarbete med bl.a. Anders Grubb, klinisk kemi, Lund, och Ulf Nyman, Röntgen, Trelleborg sedan 2004
• Uppskatta risken för akut koronart syndrom (AKS) bland patienter med bröstsmärtaSamarbete med Ulf Ekelund, akutkliniken i Lund, m.fl. sedan 2004
• SBU-projekt kring skattning av njurfunktion 2009 - 2011
Utveckling och utvärdering av prediktionsmodeller
• Effektskattning vs. prediktionsmodellering• Vad ska utvärderas?
– Diskriminering– Kalibrering– Informationsvärde– Prediktionsfel
• Var ska utvärderingen göras?• Grafisk presentation av uppskattad risk
Effektuppskattning vs. Prediktion
...)( 3322110 XXXYf
Effektuppskattning (epidemiologi)
Fokus
Prediktion
Fokus
Effektuppskattning vs. Prediktion (forts.)
• Effektuppskattning– Lägg in kovariater (störfaktorer) för att undersöka
om sambandet Riskfaktor Utfall påverkas
• Prediktion– Lägg in kovariater för att förbättra prediktionen
i viktiga undergrupper. Strävan efter variabelsnål modell.
Effektuppskattning vs. Prediktion (forts.)
• Effektuppskattning– Signifikanstesta INTE störfaktorer!
• Prediktion– Syftet är att bygga en variabelsnål modell
med god prediktiv förmåga– Kan vara OK att signifikanstesta, frågan är
vad?
Prediktionsmodellering – Några typfall
• Kontinuerligt utfall (ex. linjär regression)– Ex. -Njurfunktion (GFR)
• Binärt utfall (ex. logistisk regression, Cox regression, neurala nätverk)– Klassificering
• Ex. AKS/Ej AKSGFR över/under 60 mL/min per 1.73 m2
Hög/Låg risk för komplikation etc.
– Riskuppskattning (sannolikhetsuppskattning)• Ex. Risken för AKS, givet EKG och andra kliniska data
Risken för njurskada vid hjärtoperationMortalitet bland IVA-patienter etc.
• Ordinala utfall (ordinal regression)
Ordinal regression - Exempel“Another extension would be to stage chronic kidney disease (CKD) further, by estimating the probability of CKD for each of the five stages simultaneously. Ordinal regression modeling would be a useful statistical tool for that purpose.”
Ex. eGFR = 50
GFR-intervall Sannolikhet
< 15 0,00
15 – 29 0,01
30 – 59 0,74
60 – 89 0,24
≥ 90 0,01
(Björk et al. 2010)
PrediktionsmodelleringVad ska utvärderas?
• Klassificeringsförmåga (Diskriminering)– Area under ROC-kurvan– Sensitivitet (se), specificitet (sp), andelen korrekt klassade
• Uppskattade risker (sannolikheter) – Jämförelse av obs. och förväntat antal dödsfall (kalibrering)– Prediktionsfelens storlek
(”informationsvärdet” i riskskattningen)
ROC-kurva Ex. Klassning av AKS
(Forberg et al. 2009)
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
1 - Specificity
Se
ns
itiv
ity
Statistical model
ANN
Expert panel
Classical ECG criteria
Visar sant positiva (Se) vs. falskt positiva (1-Sp)
Arean under ROC-kurvanModellens förmåga att separera friska från sjuka
(Björk , Liber 2011)
När påverkas ROC-arean?Exempel SAPS 3 i Österrike
(Metnitz et al. 2009)
Tidigare:ROC-area = 82%
Nu:ROC-area = ???
Se och Sp kan variera i olika populationerEx. Klassning av GFR över/under 60 mL/min/1.73 m2
Sensitiviteten för eGFR-ekvationen MDRD varierar mellan 82 och 97% beroende på population. Specificiteten varierar mellan 67 och 93%.
(Björk, Liber 2011)
ViktningPopulation weighting
Population weighting
PrediktionsmodelleringVad ska utvärderas?
• Klassificeringsförmåga (Diskriminering)– Area under ROC-kurvan– Sensitivitet (se), specificitet (sp), andelen korrekt klassade
• Uppskattade risker (sannolikheter) – Jämförelse av obs. och förväntat antal dödsfall (kalibrering)– Prediktionsfelens storlek
(informationsvärdet i riskskattningen)
Kalibrering
• Om prediktionsmodellen säger att risken för en viss profil är 10% så innebär detta att 1 på 10 med denna riskprofil verkligen drabbas (dvs. ingen bias i riskuppskattningarna)
Mått på kalibreringHosmer-Lemeshow Goodness-of-fit
• Dela in patienterna i ex. 10 grupper– C-test Lika stora grupper– H-test 0-10% risk, 10-20% risk ... 90-100% risk
• Jämför förväntad och observerad mortalitet i dessa grupper 2-test
Mått på kalibreringHosmer-Lemeshow Goodness-of-fit
Exempel - AKS
H-test
Mått på kalibreringHosmer-Lemeshow Goodness-of-fit
Exempel - SAPS 3 i Österrike
(Metnitz et al. 2009)
InformationsvärdePrediktionsfel. Precision.
(Björk, Liber 2011)
Mått på informationsvärdetLikelihoodkvot
(Björk, Liber 2011)
Mått på prediktionsfeletBriers score
ft = prediktionen, ot = utfallet
Mått på prediktionsfeletBriers score - Exempel
(Harrison et al. 2007)
PrediktionsmodelleringVar ska utvärderingen göras?
• Utveckling och test i samma datamaterial– Prediktionsförmåga överskattas vanligen pga ”överinlärnining”
• Intern validering – Uppdelning i utv. och test upprepade gånger. Korsvalidering.– Temporal validering (samma målpopulation, annan tidsperiod)
• Extern validering – Annan målpopulation (annan typ eller geografiskt åtskild)
Grafisk presentation av riskuppskattningExempel - AKS
(Björk et al. Inskickad för publicering)
top related