utveckling och utvärdering av prediktionsmodeller

Utveckling och utvärdering av prediktionsmodeller

SIR Workshop, Saltsjöbaden, Mars 2011

Jonas Björk

E-post: Jonas.Bjork@skane.se

(Version 2011-03-04)

Min bakgrund inom detta område…

• Ekvationer för att uppskatta njurfunktion (GFR)Samarbete med bl.a. Anders Grubb, klinisk kemi, Lund, och Ulf Nyman, Röntgen, Trelleborg sedan 2004

• Uppskatta risken för akut koronart syndrom (AKS) bland patienter med bröstsmärtaSamarbete med Ulf Ekelund, akutkliniken i Lund, m.fl. sedan 2004

• SBU-projekt kring skattning av njurfunktion 2009 - 2011

Utveckling och utvärdering av prediktionsmodeller

• Effektskattning vs. prediktionsmodellering• Vad ska utvärderas?

– Diskriminering– Kalibrering– Informationsvärde– Prediktionsfel

• Var ska utvärderingen göras?• Grafisk presentation av uppskattad risk

Effektuppskattning vs. Prediktion

...)( 3322110 XXXYf

Effektuppskattning (epidemiologi)

Prediktion

Effektuppskattning vs. Prediktion (forts.)

• Effektuppskattning– Lägg in kovariater (störfaktorer) för att undersöka

om sambandet Riskfaktor Utfall påverkas

• Prediktion– Lägg in kovariater för att förbättra prediktionen

i viktiga undergrupper. Strävan efter variabelsnål modell.

Effektuppskattning vs. Prediktion (forts.)

• Effektuppskattning– Signifikanstesta INTE störfaktorer!

• Prediktion– Syftet är att bygga en variabelsnål modell

med god prediktiv förmåga– Kan vara OK att signifikanstesta, frågan är

Prediktionsmodellering – Några typfall

• Kontinuerligt utfall (ex. linjär regression)– Ex. -Njurfunktion (GFR)

• Binärt utfall (ex. logistisk regression, Cox regression, neurala nätverk)– Klassificering

• Ex. AKS/Ej AKSGFR över/under 60 mL/min per 1.73 m2

Hög/Låg risk för komplikation etc.

– Riskuppskattning (sannolikhetsuppskattning)• Ex. Risken för AKS, givet EKG och andra kliniska data

Risken för njurskada vid hjärtoperationMortalitet bland IVA-patienter etc.

• Ordinala utfall (ordinal regression)

Ordinal regression - Exempel“Another extension would be to stage chronic kidney disease (CKD) further, by estimating the probability of CKD for each of the five stages simultaneously. Ordinal regression modeling would be a useful statistical tool for that purpose.”

Ex. eGFR = 50

GFR-intervall Sannolikhet

< 15 0,00

15 – 29 0,01

30 – 59 0,74

60 – 89 0,24

≥ 90 0,01

(Björk et al. 2010)

PrediktionsmodelleringVad ska utvärderas?

• Klassificeringsförmåga (Diskriminering)– Area under ROC-kurvan– Sensitivitet (se), specificitet (sp), andelen korrekt klassade

• Uppskattade risker (sannolikheter) – Jämförelse av obs. och förväntat antal dödsfall (kalibrering)– Prediktionsfelens storlek

(”informationsvärdet” i riskskattningen)

ROC-kurva Ex. Klassning av AKS

(Forberg et al. 2009)

0 0,2 0,4 0,6 0,8 1

1 - Specificity

Statistical model

Expert panel

Classical ECG criteria

Visar sant positiva (Se) vs. falskt positiva (1-Sp)

Arean under ROC-kurvanModellens förmåga att separera friska från sjuka

(Björk , Liber 2011)

När påverkas ROC-arean?Exempel SAPS 3 i Österrike

(Metnitz et al. 2009)

Tidigare:ROC-area = 82%

Nu:ROC-area = ???

Se och Sp kan variera i olika populationerEx. Klassning av GFR över/under 60 mL/min/1.73 m2

Sensitiviteten för eGFR-ekvationen MDRD varierar mellan 82 och 97% beroende på population. Specificiteten varierar mellan 67 och 93%.

(Björk, Liber 2011)

ViktningPopulation weighting

Population weighting

PrediktionsmodelleringVad ska utvärderas?

• Klassificeringsförmåga (Diskriminering)– Area under ROC-kurvan– Sensitivitet (se), specificitet (sp), andelen korrekt klassade

• Uppskattade risker (sannolikheter) – Jämförelse av obs. och förväntat antal dödsfall (kalibrering)– Prediktionsfelens storlek

(informationsvärdet i riskskattningen)

Kalibrering

• Om prediktionsmodellen säger att risken för en viss profil är 10% så innebär detta att 1 på 10 med denna riskprofil verkligen drabbas (dvs. ingen bias i riskuppskattningarna)

Mått på kalibreringHosmer-Lemeshow Goodness-of-fit

• Dela in patienterna i ex. 10 grupper– C-test Lika stora grupper– H-test 0-10% risk, 10-20% risk ... 90-100% risk

• Jämför förväntad och observerad mortalitet i dessa grupper 2-test

Exempel - AKS

H-test

Exempel - SAPS 3 i Österrike

(Metnitz et al. 2009)

InformationsvärdePrediktionsfel. Precision.

Mått på informationsvärdetLikelihoodkvot

Mått på prediktionsfeletBriers score

ft = prediktionen, ot = utfallet

Mått på prediktionsfeletBriers score - Exempel

(Harrison et al. 2007)

PrediktionsmodelleringVar ska utvärderingen göras?

• Utveckling och test i samma datamaterial– Prediktionsförmåga överskattas vanligen pga ”överinlärnining”

• Intern validering – Uppdelning i utv. och test upprepade gånger. Korsvalidering.– Temporal validering (samma målpopulation, annan tidsperiod)

• Extern validering – Annan målpopulation (annan typ eller geografiskt åtskild)

Grafisk presentation av riskuppskattningExempel - AKS

(Björk et al. Inskickad för publicering)

utveckling och utvärdering av prediktionsmodeller

Documents

uppföljning och/eller? utvärdering av samverkan

– utvärdering och utveckling...3. utveckling av...

granskning av intern kontroll - klippan...coso-modellen är...

utvärdering av...

utveckling av en karttjänst och utvärdering av...

uppdaterad version individualisering, utvärdering och...

värmepumparnas utveckling och potential

utveckling genom utvä...

utveckling av kontaktmannaskap -...

utveckling och utvärdering av statistiska metoder för att...

utvärdering och utveckling av reningsteknik för voc från...

cirkulär migration och utveckling - regeringskansliet

uppföljning, utvärdering och utveckling i förskolan ·...

planering, genomförande och utvärdering av ett...

utvÄrdering av hÅllbar stadsutveckling i ......regional...

struktur- och sammanhållningspolitik...jordbruk och...

lärande och utveckling i vardagen

tematisk utvärdering av hållbar utveckling, …karolinska...

utvärdering och utveckling av utbildningar i motiverande...

utveckling och utvärdering av statistiska metoder för att...