after work statistics - biometrie.charite.de · institut für biometrie und klinische epidemiologie...
TRANSCRIPT
U N I V E R S I T Ä T S M E D I Z I N B E R L I N
After Work Statistics
Dr. rer.-nat. Sophie K. Piper
Institute of Biometry and
Clinical Epidemiology
0
Institut für Biometrie und klinische EpidemiologieWir sind…
• Hilfsbereit und nett!
• … als Wissenschaftler aktiv in der statistischen
Methodenforschung und in der medizinischen Forschung
• …vielfältig aktiv in der universitären Lehre
Unsere Service Unit Biometrie
• Kostenlose biometrische Beratung zu medizinischen
Forschungsprojekten aller Art, Anmeldung online
• Statistik-Ambulanz: Beratung ohne Voranmeldung immer
Dienstags von 09:00-12:00 Uhr
• Fortbildungskurse zu allgemeinen biometrischen Themen
und zu statistischer Software
• Übernahme der Projektbiometrie im Rahmen einer
Kooperation
Nähere Infos finden Sie online: https://biometrie.charite.de/
Kontakt: Univ.-Prof. Dr. Geraldine Rauch (Institutsdirektorin),
Institut für Biometrie und Klinische Epidemiologie (iBikE)
Standort Mitte (Charité Campus Mitte)
Reinhardstraße 58, 10117 Berlin
Standort Mitte (Charité Campus Klinik)
Rahel-Hirsch-Weg 5, 10117 Berlin
1
Slots
& Topics
2
Slot Topic
1 So many tests! The agony of choice.
2 So many questions! Multiple testing.
3 So many patients? Sample size calculation.
4 What is it this odds ratio? Logistic regression.
5 Missing information? Dealing with missing data.
6 The right time? Survival analysis.
7 The variety of influences - Mixed models.
8 Who fits together? Patient matching.
1 So viele Tests! Die Qual der Wahl.
2 So viele Fragestellungen! Multiples Testen.
3 So viele Patienten? Fallzahlplanung.
4 Was ist dieses Odds Ratio? Logistische Regression.
5 Fehlende Information? Umgang mit fehlenden Daten.
6 Der richtige Zeitpunkt? Analyse von Ereigniszeiten.
7 Die Vielfalt der Einflüsse – Gemischte Modelle.
8 Wer passt zusammen? Matching von Patienten.
U N I V E R S I T Ä T S M E D I Z I N B E R L I N
Fehlende Information?
Umgang mit fehlenden Daten
Dr. rer.-nat. Sophie K. Piper
Institute of Biometry and
Clinical Epidemiology
3
Outline: “Umgang mit fehlenden Daten“
4
1. Warum sollte ich fehlende Werte beachten?
2. Wo kommen fehlende Daten her?
3. Welche Struktur haben fehlende Daten?
4. Was kann ich machen, wenn Daten fehlen?
5. Relevante Richtlinien
6. Take Home Message
Outline: “Umgang mit fehlenden Daten“
5
1. Warum sollte ich fehlende Werte beachten?
2. Wo kommen fehlende Daten her?
3. Welche Struktur haben fehlende Daten?
4. Was kann ich machen, wenn Daten fehlen?
5. Relevante Richtlinien
6. Take Home Message
Einführungsbeispiel
Fallzahl: n=19 (6 missings (32%))
Complete Case Analysis:
p-Wert des Chi²-Tests
p=0.013
ID Group Outcome
1 A 1
2 A 1
3 A 1
4 A 0
5 A .
6 A .
7 A .
8 A 1
9 A 1
10 B 0
11 B 1
12 B 0
13 B 0
14 B .
15 B 0
16 B .
17 B 0
18 B .
19 B 0
Outcome Total
0 1
Group A 1 5 6
B 6 1 7
Total 7 6 13
6
Frage: Was schätzen Sie, ist der maximale p-Wert, der auftreten
kann, wenn wir alle fehlenden Werte kennen würden?
P-Werte im
Bereich en
0 < p < 0.05
0.05 < p < 0.15
0.15 < p < 0.35
0.35 < p <0.65
0.65 < p < 1
?
Einführungsbeispiel
7
Worst Case Imputation:
p-Wert des Chi²-Tests
p=0.498
Missings
imputed
True
Outcome
Total
0 1
Group A 1+3 5 9
B 6 1+3 10
Total 10 9 13+6
8
Einführungsbeispiel
ID Group Outcome
1 A 1
2 A 1
3 A 1
4 A 0
5 A 0
6 A 0
7 A 0
8 A 1
9 A 1
10 B 0
11 B 1
12 B 0
13 B 0
14 B 1
15 B 0
16 B 1
17 B 0
18 B 1
19 B 0
9
ID Group Outcome
1 A 1
2 A 1
3 A 1
4 A 0
5 A 1
6 A 1
7 A 1
8 A 1
9 A 1
10 B 0
11 B 1
12 B 0
13 B 0
14 B 0
15 B 0
16 B 0
17 B 0
18 B 0
19 B 0
Einführungsbeispiel
Missings
imputed
True
Outcome
Total
0 1
Group A 1 5 +3 9
B 6+3 1 10
Total 10 9 13+6
„Best“ Case Imputation:
p-Wert des Chi²-Tests
p=0.0006
FAZIT: Warum sollte ich fehlende Werte beachten?
10
Key-Message 1:
Ob fehlende Werte weggelassen oder auf die eine oder
andere Weise imputiert (ersetzt) werden, kann die
Ergebnisse sehr nachhaltig beeinflussen!
!
0.0006 ≤ p ≤ 0.498
„best case“ imputation „worst case“ imputation
Outline: “Umgang mit fehlenden Daten“
11
1. Warum sollte ich fehlende Werte beachten?
2. Wo kommen fehlende Daten her?
3. Welche Struktur haben fehlende Daten?
4. Was kann ich machen, wenn Daten fehlen?
5. Relevante Richtlinien
6. Take Home Message
• Non-compliance der Teilnehmer:
- Patient kommt nicht zur Studienvisite,
- Patient stellt nicht die benötigte Information zur Verfügung,
- Drop-out (Widerruf des informed consent, Studienabbruch,…)
- Lost-to-follow up (Kontakt zum Patienten wird verloren)
• Probleme mit Messinstrumenten
• Unvollständiger CRF, der Erfassung eines bestimmten Outcomes
nicht erlaubt
• Vergessene Messung
12
Wo kommen fehlende Werte her?
System missing or missing per design
13
14
Kodierung sollte außerhalb des physiologischen Wertebereichs liegen!
Kodierung verschiedener Ursachen
Kodierung (Beispiele) Label
- 6 Item nicht bekannt
- 7 Explizite Verweigerung
- 8 Missing per design
- 9 Technische Probleme
- 99Patient gesundheitlich nicht in
der Lage
- 999 Keine Angabe
Kurze Antwort: Fehlende Daten kann man nicht analysieren
Lange Antwort: • Verlust von Informationen
• Geringere Fallzahl (geringere Power)
• Effektschätzer werden ungenauer (Konfidenzintervalle größer)
• Stichprobe ggf. nicht mehr repräsentativ
• Effektschätzer können verzerrt sein (Bias)
Wo ist das Problem, wenn Daten fehlen?
Key-Message 2:
Parameter mit fehlenden Werten, können nicht wie geplant
ausgewertet werden. Ergebnisse werden ungenauer und
können verzerrt sein.
! 15
Outline: “Umgang mit fehlenden Daten“
16
1. Warum sollte ich fehlende Werte beachten?
2. Wo kommen fehlende Daten her?
3. Welche Struktur haben fehlende Daten?
4. Was kann ich machen, wenn Daten fehlen?
5. Relevante Richtlinien
6. Take Home Messages
17
Welche Struktur haben fehlende Daten?
• Missing Completely at Random (MCAR),
• Missing at Random (MAR),
• Missing not at Random (MNAR):
Struktur Fehlender DatenMissing completely at random (MCAR)
Typ Missing completely at random
(MCAR)
Definition Fehlende Werte werden als “missing completely at
random” bezeichnet, wenn die Wahrscheinlichkeit
für das Fehlen eines Wertes weder von erfassten
noch unerfassten Merkmalen abhängt.
Beispiel Wenn eine Blutprobe verloren geht und deshalb die
Blutparameter des Patienten fehlen
Einfluss, Relevanz MCAR-Werte reduzieren die Fallzahl, aber
verzerren das Studienergebnis nicht.
18
Struktur Fehlender DatenMissing at random (MAR)
Typ Missing at random
(MAR)
Definition Fehlende Werte werden als “missing at random”
bezeichnet, wenn die Wahrscheinlichkeit für das
Fehlen eines Wertes von einem anderen Merkmal
abhängt aber nicht von der Ausprägung des
fehlenden Merkmals selbst.
Beispiel Frauen geben ihr Gewicht weniger gerne an als
Männer, unabhängig vom tatsächlichen Gewicht
Einfluss, Relevanz MAR-Werte reduzieren die Fallzahl und verzerren
möglicherweise das Studienergebnis.
19
Struktur Fehlender DatenMissing not at random (MNAR)
Typ Missing NOT at random
(MNAR)
Definition Fehlende Werte werden als “missing not at
random” bezeichnet, wenn die Wahrscheinlichkeit
für das Fehlen eines Wertes von der Ausprägung
des fehlenden Merkmals selbst abhängt.
Beispiel Der Raucherstatus wird von starken Rauchern
weniger gerne angegeben als von Nichtrauchern
Einfluss, Relevanz MNAR-Werte reduzieren die Fallzahl und verzerren
das Studienergebnis.
„Non-ignorable“ missings
20
Problem: Welche Struktur liegt vor?
• MCAR (missing completely at random)
• MAR (missing at random)
• MNAR (missing not at random)
Für einen adäquaten Umgang mit fehlenden Werten wird diese Struktur aber
als bekannt vorausgesetzt
21
Key-Message 3:
Die Struktur der fehlenden Werte lässt sich meist schwer
vorhersagen. Es gibt häufig Mischformen: MCAR, MAR, MNAR
!
Outline: “Umgang mit fehlenden Daten“
22
1. Warum sollte ich fehlende Werte beachten?
2. Wo kommen fehlende Daten her?
3. Welche Struktur haben fehlende Daten?
4. Was kann ich machen, wenn Daten fehlen?
5. Relevante Richtlinien
6. Take Home Messages
1. Mechanismus/ Muster untersuchen & Annahmen treffen
(MCAR, MAR, MNAR)
2. Methode auswählen (Imputieren ja/nein? Wie?)
3. Sensitivitätsanalysen
Vergleich verschiedener Imputationsmethoden
Vergleich mit complete-case Analyse
23
Grundsätzliches Vorgehen beim Umgang mit fehlenden Werten
Was kann ich machen, wenn Daten fehlen?
Gängige Verfahren im Umgang mit fehlenden Daten
24Slide is taken with permission from Dr. Stephanie RollInstitut für Sozialmedizin, Epidemiologie Charité - Universitätsmedizin Berlin
Beispiele für Single imputation methods
25
Vorteil Nachteil
Last Observation Carried
Forward (LOCF)
- einfach
- ok, wenn Daten konstant
- nur bei longitudinalen Variablen
möglich
Mean substitution (MS) - einfach - nur für koninuierliche Daten
sinnvoll
Hot deck imputation
(HDI)
- einfach
- Maßeinheit und Skala
bleiben erhalten
- i.d.R. besser als deletion u.
mean substitution
- Korrelationen werden künstlich
erhöht
- was heißt „ähnlich“?
Regression method - Nutzt mehr Informationen als
LOCF, MS, HDI
- Überschätzt Modelfit +
Korrelationen
Alle Verfahren Ein vollständiger Datensatz
für alle weiteren Analysen
ohne Verlust von Daten
- Varianzen werden unterschätzt
- Standardfehler werden
unterschätzt
- p-Werte falsch
- Konfidenzintervalle falsch
Slide is taken with permission from Dr. Stephanie RollInstitut für Sozialmedizin, Epidemiologie Charité - Universitätsmedizin Berlin
a) Exclude missing.
b) Mean Value Imputation.
Fehlende Werte durch mittleren
Cholesterolwert aller Patienten
ersetzt.
c) Linear regression model
Prädiziert Cholesterolwerte
anhand des Alters der Patienten.
Quizfrage
26
Studie erfasst den Zusammenhang zwischen Alter und Cholesterol.
Welche dieser Optionen gehört zu welchem Scatterplot?
Studie erfasst den Zusammenhang zwischen Alter und Cholesterol.
Welche dieser Optionen gehört zu welchem Scatterplot?
Quizfrage
27
a) Exclude missing.
b) Mean Value Imputation.
Fehlende Werte durch mittleren
Cholesterolwert aller Patienten
ersetzt.
c) Linear regression model
Prädiziert Cholesterolwerte
anhand des Alters der Patienten.
28Slide is taken with permission from Dr. Stephanie RollInstitut für Sozialmedizin, Epidemiologie Charité - Universitätsmedizin Berlin
Prinzip der multiplen Imputation
Multiple Imputation
29
Vorteile
• Ungewissheit über die fehlenden Werte wird berücksichtigt
• Variabilität der Daten besser erhalten
• Reduziert Bias
Nachteile
• Komplizierter
• Viele verschiedene Ersetzungsmethoden
• Kein endgültiger vollständiger Datensatz
30
Was kann ich machen, wenn Daten fehlen?
Kurze Antwort: Es gibt KEINEN idealen Weg.
Lange Antwort: Es gibt drei mögliche Strategien.
Strategie 1:
Avoid missings
Strategie 2:
Exclude missings
Strategie 3:
Impute missings
Pro Beste Idee! Einfach anzuwenden Keine Reduktion der Fallzahl
Contra Kein Nachteil • Reduziert Fallzahl
• Nur bei MCAR
• Verzerrte
Studienergebnisse
möglich bei MNAR
• Repräsentativität
der Stichprobe wird
möglicherweise
reduziert (MAR,
MNAR)
• Es gibt viele Imputationsmethoden
mit unterschiedlichen Vor-und
Nachteilen.
• Eine Imputationsmethode hängt
von der Struktur fehlender Werte
ab.
• Eine adäquate Wahl der
Imputationsmethode ist eine
statistisch anspruchsvolle Aufgabe
Wie? Sorgfältige
Studienplanung
Fehlende Werte
“löschen”
Literatur
Welche Größenordnung fehlender Daten
ist problematisch?
• Keine universelle Regel wann Imputation oder Weglassen
• Große Studien mit geringen Missings (oft <5%): wegelassen
evtl. unproblematisch
• Je höher Anteil Missings
– Imputation besser als Weglassen
– Multiple Imputation besser als Single Imputation
– Annahmen sind wichtiger als Methoden
31
Fazit: Imputation fehlender Werte
• Durch Imputation fehlender Werte können manche Parameter korrekt
geschätzt werden, aber andere bleiben immer verzerrt.
• Für die Wahl der Imputationsmethode muss die Struktur der fehlenden
Werte bekannt sein
• Die Imputationsmethode sollte in der Planungsphase bereist festgelegt
werden
• Analysen basierend auf Datenimputation sollten immer auch
Sensitivitäts-Analysen beinhalten:
Vergleich verschiedener Imputationsmethoden
Vergleich mit complete-case Analyse
32
Key-Message 4:
Datenimputation ist keine einfach anzuwendende “Globallösung”.
!
Relevant Guidelines
• Guideline on Missing Data in Confirmatory Clinical Trials
(EMA/CPMP/EWP/1776/99 Rev. 1)
• The Prevention and Treatment of Missing Data in Clinical Trials. Panel
on Handling Missing Data in Clinical Trials. Committee on National
Statistics, Division of Behavioral and Social Sciences and Education.
Washington, DC: The National Academies Press, 2010
• The Prevention and Treatment of Missing Data in Clinical Trials, N
Engl J Med 2012; 367:1355-1360
33
Literaturempfehlung
• Little, RJA.; Rubin, DB. Statistical analysis with missing data. John Wiley &
Sons;New York: 1987
• www.missingdata.org.uk
• Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen
auf Analyseergebnisse entdeckt und reduziert werden kann. M Wirzt.
Rehabilitation 2004; 43(2): 109-115. doi: 10.1055/s-2003-814839
• Missing data and multiple imputation in clinical epidemiological
research.Pedersen at al. Clinical Epidemiology 2017:9 157–166
• The design and conduct of clinical trials to limit missing data. Little et al.
Statist.Med. 2012
• Software for the Handling and Imputation of Missing Data – An Overview.
Mayer et al., J Clinic Trials 2012, 2:1. http://dx.doi.org/10.4172/jctr.1000103
• Much ado about nothing: A comparison of missing data methods and software
to fit incomplete data regression models. NJ Horton and KP Kleinman. Am
Stat.2007 Feb; 61(1): 79–90. doi: 10.1198/000313007X172556
34
Take Home Message
35
Fehlend* Wert* sind ein Bestandteil je*licher
realer Dat*n un* dürfen n*cht unter den
Te*pich gekehrt werden. Das Vermeiden
f*hlender Werte is* die beste Strateg*e.
!
Back up
36
Welches Verfahren ...?
37
• Abhängig von
– Typ der missing
– Skala der Variable
– Outcome-Variable oder Einflußgröße (Baseline)
– Weitere Verwendungen der Daten
– Art der stat. Analyse
– Anzahl der missings
• Deletion wird nicht empfohlen
Overview imputation methods
Valid means valid & efficient
Slide is taken with permission from Dr. Stephanie RollInstitut für Sozialmedizin, Epidemiologie Charité - Universitätsmedizin Berlin
38
Software
39
Mayer et al., 2012
Besonderheit: QoL-Instrumente
• Manuals mit spezifischen Methoden (für single item missings oder
domain missings)
Beispiel SF-36
• imputation of data items by mean substitution, where more than half the
data items in a subscale are not missing
Beispiel HADS (Hospital Anxiety and Depression Scale)
• 7 Fragen pro Skala
• wenn höchstens eine nicht beantwortet: fehlender Wert durch Mittelwert
ersetzt
• sonst: Skala missing
Slide is taken with permission from Dr. Stephanie RollInstitut für Sozialmedizin, Epidemiologie Charité - Universitätsmedizin Berlin
40
Besonderheit: Patienten-berichtete Outcomes
• Vermutlich selten Missing completely at
random (MCAR)
• Oft MAR oder MNAR
• Wichtige Outcomes evtl. auf verschiedene
Arten erheben eher MAR statt MNAR
MCAR
MAR
MNAR
41