institut für biometrie und -...
Post on 13-Aug-2019
224 Views
Preview:
TRANSCRIPT
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Institut für Biometrie und Klinische Forschung
WWU Münster
Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik
– Praktikum der Medizinischen Biometrie (4)
Überblick
1. Deskriptive Statistik I
2. Deskriptive Statistik II
3. Wahrscheinlichkeitsrechnung und Zufallsvariablen
4. Induktive Statistik
- Testtheorie
- Spezielle Testprobleme
- Konfidenzintervalle
Prinzipien des Statistischen Testens
1. Einführung
• Tests zum Vergleich zweier Erfolgsraten
• Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Ist Behandlung A wirksamer als Behandlung B?
Testproblem H0: rA=rB gegen H1: rA≠rB
„Die beobachteten Unterschiede zwischen den empirischen Erfolgsraten sind durch Zufall zu erklären.“
„Die Unterschiede zwischen den empirischen Raten sind überzufällig bzw. signifikant. Es bestehen systematische Unter-schiede in der Grundgesamtheit.“
Empirische Erfolgsraten in der Stichprobe
Zufallsbereinigte Erfolgswahrscheinlichkeiten (in der Grundgesamtheit)
Erfolg Misserfolg Gesamt
Behandlung A40
( = 80%)10 50
Behandlung B35
( = 70%)15 50
Ar̂
Br̂
0% 20% 40% 60% 80% 100%
A
B
Erfolg Misserfolg Gesamt
Behandlung A40
( = 80%)10 50
Behandlung B35
( = 70%)15 50
Ist Behandlung A wirksamer als Behandlung B?
Testproblem H0: rA=rB gegen H1: rA≠rB
Mögliche Lösung des Testproblems?
Ar̂
Br̂
Konfidenz-intervalle zum Niveau 95%
Erfolg Misserfolg Gesamt
Behandlung A40
( = 80%)10 50
Behandlung B35
( = 70%)15 50
Ist Behandlung A wirksamer als Behandlung B?
Testproblem H0: rA=rB gegen H1: rA≠rB
Anwendung eines Signifikanztests => „p-Wert“
p≤0.05 => Testentscheidung zugunsten H1 („signifikant“)
p>0.05 => Testentscheidung zugunsten H0
Hier: p=0.3556, d.h. Entscheidung für H0 („nicht signifikant“)
Ar̂
Br̂
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Erfolg Misserfolg Gesamt
Behandlung A45
( = 90%)5 50
Behandlung B35
( = 70%)15 50
Ist Behandlung A wirksamer als Behandlung B?
Testproblem H0: rA=rB gegen H1: rA≠rB
p=0.02445, d.h. Entscheidung für H1 („signifikant“)
Ar̂
Br̂
Erfolg Misserfolg Gesamt
Behandlung A160
( = 80%)40 200
Behandlung B140
( = 70%)60 200
Ist Behandlung A wirksamer als Behandlung B?
Testproblem H0: rA=rB gegen H1: rA≠rB
p=0.02824, d.h. Entscheidung für H1 („signifikant“)
Ar̂
Br̂
Der Test erkennt auf Signifikanz, wenn der Unterschied der verglichenen Erfolgsraten entweder groß ist oder durch eine große Fallzahl belegt, d.h. „stabil“ ist.
Signifikanz und klinische Relevanz
Der Test erkennt auf Signifikanz, wenn der Unterschied der verglichenen Erfolgsraten entweder groß ist oder durch eine große Fallzahl belegt, d.h. „stabil“ ist.
Beurteilung der klinischen Relevanz: Angabe eines Effektschätzers zusätzlich zum p-Wert, z.B. in Form der Differenz oder des Quotienten beider Erfolgsraten
Statistische Signifikanz: Gibt es (überzufällige) Unterschiede in den Erfolgsraten?
Daraus folgt nicht notwendigerweise, dass die Unterschiede eine klinisch relevante Größe haben.
Der p-Wert sagt aus, ob es Unterschiede in den Erfolgsraten gibt, nicht wie groß diese Unterschiede sind!
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Prinzipien des Statistischen Testens
1. Einführung
• Tests zum Vergleich zweier Erfolgsraten
• Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Der p-Wert
In welchem Maß widersprechen die beobachteten Daten der Nullhypothese?
Definition:
Vorausgesetzt die Nullhypothese würde zutreffen,
d.h. beide Erfolgsraten stimmen in der Grundgesamtheit überein:
Wie groß ist dann die Wahrscheinlichkeit,
ein solches empirisches Ergebnis wie das tatsächlich beobachtete zu beobachten
(oder eines, das der Nullhypothese noch mehr widerspricht)?
Der p-Wert gibt nicht an, mit welcher Wahrscheinlichkeit die Nullhypothese der Übereinstimmung beider Erfolgs-raten in der Grundgesamtheit zutrifft!
Der p-Wert
Beispiel: Gegeben sei eine Münze
H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%
H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)
Zufallsexperiment: 20facher Münzwurf
„Prüfgröße“ bzw. „Teststatistik“ T:
Anzahl geworfener Köpfe
Gesucht:
Wahrscheinlichkeitsverteilung
der Teststatistik T unter H0
0 2 4 6 8 10 12 14 16 18 20
0.0
0.05
0.10
0.15
Bin(n=20,p=0.5)
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Der p-Wert
Beispiel: Gegeben sei eine Münze
H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%
H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)
Zufallsexperiment: 20facher Münzwurf
„Prüfgröße“ bzw. „Teststatistik“ T:
Anzahl geworfener Köpfe
Gesucht:
Wahrscheinlichkeitsverteilung
der Teststatistik T unter H0
Anschl.: Tatsächliche Durchführung
des Experiments
0 2 4 6 8 10 12 14 16 18 20
0.0
0.05
0.10
0.15
Bin(n=20,p=0.5)
Der p-Wert
Beispiel: Gegeben sei eine Münze
H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%
H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)
Zufallsexperiment: 20facher Münzwurf
„Prüfgröße“ bzw. „Teststatistik“ T:
Anzahl geworfener Köpfe
Gesucht:
Wahrscheinlichkeitsverteilung
der Teststatistik T unter H0
Anschl.: Tatsächliche Durchführung
des Experiments, z.B. t=14
0 2 4 6 8 10 12 14 16 18 20
0.0
0.05
0.10
0.15
Bin(n=20,p=0.5)
Der p-Wert
Beispiel: Gegeben sei eine Münze
H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%
H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)
Zufallsexperiment: 20facher Münzwurf
„Prüfgröße“ bzw. „Teststatistik“ T:
Anzahl geworfener Köpfe
Gesucht:
Wahrscheinlichkeitsverteilung
der Teststatistik T unter H0
Anschl.: Tatsächliche Durchführung
des Experiments, z.B. t=14
=> p=0.1153
0 2 4 6 8 10 12 14 16 18 20
0.0
0.05
0.10
0.15
Bin(n=20,p=0.5)
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Der p-Wert
Beispiel: Gegeben sei eine Münze
H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%
H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)
Zufallsexperiment: 20facher Münzwurf
„Prüfgröße“ bzw. „Teststatistik“ T:
Anzahl geworfener Köpfe
Gesucht:
Wahrscheinlichkeitsverteilung
der Teststatistik T unter H0
Anschl.: Tatsächliche Durchführung
des Experiments, z.B. t=15
=> p=0.0414
0 2 4 6 8 10 12 14 16 18 20
0.0
0.05
0.10
0.15
Bin(n=20,p=0.5)
Prinzipien des Statistischen Testens
1. Einführung
• Tests zum Vergleich zweier Erfolgsraten
• Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Gütekriterien des Signifikanztests
Testproblem H0: r1=r2 gegen H1: r1≠r2
Fehler 1. Art
Fehler 2. ArtP(Fehler 2. Art) ≈ 20% wird toleriert
P(Fehler 1. Art) ≤ α=5%
In Wirklichkeit ist
H0 richtig H1 richtig
Entscheidung für H0 richtige Entscheidung Fehler 2. Art
Entscheidung für H1 Fehler 1. Art richtige Entscheidung
H0: r1=r2 gegen H1: r1≠r2
Entscheidung zu unrecht für H1 (falsch positiv)Man behauptet zu unrecht, es gebe einen Unterschied.
Entscheidung zu unrecht für H0 (falsch negativ)Man versäumt, einen bestehenden Unterschied zu erkennen.
H0: r1=r2 gegen H1: r1≠r2
kein „symmetrisches“ Verfahren im Sinne einer Entscheidung für die „wahrscheinlichere“ der beiden Hypothesenstattdessen konservativer Ansatz: „Im Zweifel für H0“
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Gütekriterien des Signifikanztests
Testproblem H0: r1=r2 gegen H1: r1≠r2
Fehler 1. Art
Fehler 2. ArtP(Fehler 2. Art) ≈ 20% wird toleriert
P(Fehler 1. Art) ≤ α=5%
In Wirklichkeit ist
H0 richtig H1 richtig
Entscheidung für H0 richtige Entscheidung Fehler 2. Art
Entscheidung für H1 Fehler 1. Art richtige Entscheidung
H0: r1=r2 gegen H1: r1≠r2
Entscheidung zu unrecht für H1 (falsch positiv)Man behauptet zu unrecht, es gebe einen Unterschied.
Entscheidung zu unrecht für H0 (falsch negativ)Man versäumt, einen bestehenden Unterschied zu erkennen.
H0: r1=r2 gegen H1: r1≠r2
Geringe Gefahr eines Fehlers 1. Art
=> Nachweis der Gültigkeit von H1 ist abgesichert
Größere Gefahr eines Fehlers 2. Art
=> Nachweis der Gültigkeit von H0 ist weniger gut abgesichert
kein „symmetrisches“ Verfahren im Sinne einer Entscheidung für die „wahrscheinlichere“ der beiden Hypothesenstattdessen konservativer Ansatz: „Im Zweifel für H0“
Geeignete Aufstellung des Testproblems:
H0: Etabliertes Basiswissen („kein Effekt“)
H1: Innovative Erkenntnis
Der klassische Signifikanztest eignet sich zum Nachweis von
Unterschieden, nicht zum Beweis der Tatsache, dass es keine
Unterschiede gibt!
H1H0
Fehlerwahrscheinlichkeiten im Signifikanztest
Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebor1: Erfolgswahrscheinlichkeit unter aktiver Therapie
H0: r1=r0 gegen H1: r1≠r0
P
ow
er
= W
kt e
ine
s si
gn
ifika
nte
n T
est
erg
eb
nis
ses
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
r0 =
r1 =
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
„Powerfunktion“
H1H0
Fehlerwahrscheinlichkeiten im Signifikanztest
Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebor1: Erfolgswahrscheinlichkeit unter aktiver Therapie
H0: r1=r0 gegen H1: r1≠r0
P
ow
er
= W
kt e
ine
s si
gn
ifika
nte
n T
est
erg
eb
nis
ses
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Fehler 1.Art
Fehler 2.Art
r0 =
r1 =
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
H1H0
Fehlerwahrscheinlichkeiten im Signifikanztest
Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebor1: Erfolgswahrscheinlichkeit unter aktiver Therapie
H0: r1=r0 gegen H1: r1≠r0
P
ow
er
= W
kt e
ine
s si
gn
ifika
nte
n T
est
erg
eb
nis
ses
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Fehler 1.Art
Fehler 2.Art
n=100 n=50 pro Gruppe
r0 =
r1 =
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
=> Fallzahlschätzung
einer geplanten
klinischen Studie
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Prinzipien des Statistischen Testens
1. Einführung
• Tests zum Vergleich zweier Erfolgsraten
• Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Signifikanztests bei metrischen Zielgrößen
bisher: Vergleich zweier Erfolgsraten H0: r1=r2 gegen H1: r1≠r2
Bsp.: Metrische Zielgröße Blutdrucksenkung
µ1,µ2: „Erwartungswerte“
= (Unbeobachtbare) arithmetische Mittelwerte der Zielgröße in der Grundgesamtheit
µ1: Erwartete mittlere Blutdrucksenkung, falls sämtliche Patienten der Grundgesamtheit Therapie 1 bekommen hätten
µ2: Erwartete mittlere Blutdrucksenkung, falls sämtliche Patienten der Grundgesamtheit Therapie 2 bekommen hätten
Testproblem: H0: µ1=µ2 gegen H1: µ1≠µ2
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Prinzipien des Statistischen Testens
1. Einführung
• Tests zum Vergleich zweier Erfolgsraten
• Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Spezielle Testprobleme
1. Lagetests bei normalverteilten Zielgrößen
Student‘s t-Test
zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2
einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2
H0: μ1≥μ2 gegen H1: μ1<μ2
verbundener und unverbundener Test
2. Lagetests bei nicht normalverteilten Zielgrößen(„Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)
verbundene Stichproben: Wilcoxon-Rangsummentest
unverbundene Stichproben: U-Test von Mann-Whitney
3. Test zum Vergleich zweier Erfolgsraten: 2-Test
4. Test zum Vergleich zweier Überlebenskurven: Logrank-Test
Ein- und zweiseitige Testprobleme
In der Regel werden zweiseitige Tests durchgeführt.
Bsp: Vergleich einer aktiven Therapie A gegenüber PlazeboEinseitiger Test: H0: μA≤μPlazebo , d.h. A ist gleichwertig oder unterlegen
H1: μA>μPlazebo , d.h. A ist überlegen gegenüber Plazebo
=> Nachteil des einseitigen Tests:Im Fall eines nicht-signifikanten Ergebnisses kann nicht differenziert werden zwischen Gleichwertigkeit (=Wirkungslosigkeit) und Unterlegenheit gegenüber Plazebo (=Schädlichkeit!)
Beispiel: Klinische Studie zur Blutdrucksenkung
• Zwei alternative Therapieverfahren
• Bei jedem Patienten wird der Blutdruck jeweils vor und nach
Anwendung der Therapie gemessen
Therapie Pat.-Nr.Blutdruck Erwartungswerte
PRE POST POST-PRE PRE POST Differenz
A
A1 140 120 -20
µA(pre) µA
(post) µA(post-pre)
A2 130 130 0
A3 130 120 -10
… … … …
B
B1 135 130 -5
µB(pre) µB
(post) µB(post-pre)
B2 140 145 +5
B3 130 130 0
… … … …
unverbundener Testverbundener Test
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Spezielle Testprobleme
1. Lagetests bei normalverteilten Zielgrößen
Student‘s t-Test
zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2
einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2
H0: μ1≥μ2 gegen H1: μ1<μ2
verbundener und unverbundener Test
2. Lagetests bei nicht normalverteilten Zielgrößen(„Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)
verbundene Stichproben: Wilcoxon-Rangsummentest
unverbundene Stichproben: U-Test von Mann-Whitney
3. Test zum Vergleich zweier Erfolgsraten: 2-Test
4. Test zum Vergleich zweier Überlebenskurven: Logrank-Test
Prinzipien des Statistischen Testens
1. Einführung
• Tests zum Vergleich zweier Erfolgsraten
• Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Das multiple Testproblem
Beispiel
Klinische Studie zur Frage:
Wird durch die Einnahme von Smarties das Herzinfarkt-Risiko gesenkt?
Studie 1: Wkt (Signifikantes Studienergebnis) = 5%
Studie 2: Wkt (Signifikantes Studienergebnis) = 5%
Studie 3: Wkt (Signifikantes Studienergebnis) = 5%
usw.
Studie 10: Wkt (Signifikantes Studienergebnis) = 5%
RSmarties
Plazebo
Wkt (Signifikantes Ergebnis in mindestens einer der 10 Studien)
= 1-0.9510 = 40%
Herzinfarkt? (2-Jahres Rate)
Herzinfarkt? (2-Jahres Rate)
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Das multiple Testproblem
Number of (independent) Significance Tests
1 10 20 30 40 50
5%
20%
40%
60%
80%
100%
Prob(at least 1 false positive)
• Keine eindeutige Wahl des primären Zielkriteriums einer Studie
Durchführung mehrerer elementarer Signifikanztests, deren Ergebnisse zu einer Gesamtentscheidung kombiniert werden. Diese Gesamtentscheidung wird als positiv angesehen, falls mindestens einer der einzelnen Tests signifikant ist.
Wann kann ein multiples Testproblem entstehen?
VariableVerumN=50
PlaceboN=50 p-Wert
Anzahl (%) Patienten mit
Remission 30 (60%) 20 (40%) 0.07
Partielle Remission 16 (32%) 15 (30%) 0.98
Komplette Remission 14 (28%) 5 (10%) 0.04
Progression 6 (12%) 12 (24%) 0.19
Tod 2 (4%) 1 (2%) 0.98
VariableVerumN=50
PlaceboN=50 p-Wert
Anzahl (%) Patienten mit
Remission 30 (60%) 20 (40%) 0.07
Partielle Remission 16 (32%) 15 (30%) 0.98
Komplette Remission 14 (28%) 5 (10%) 0.04
Progression 6 (12%) 12 (24%) 0.19
Tod 2 (4%) 1 (2%) 0.98
• Keine eindeutige Wahl des primären Zielkriteriums einer Studie
• Zwischenauswertungen
• Keine eindeutige Festlegung des statistischen Auswertungsverfahrens
• Paarvergleiche z.B. mehrerer Behandlungen / Dosierungen
• Subgruppenanalyse
Durchführung mehrerer elementarer Signifikanztests, deren Ergebnisse zu einer Gesamtentscheidung kombiniert werden. Diese Gesamtentscheidung wird als positiv angesehen, falls mindestens einer der einzelnen Tests signifikant ist.
Wann kann ein multiples Testproblem entstehen?
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Prinzipien des Statistischen Testens
1. Einführung
• Tests zum Vergleich zweier Erfolgsraten
• Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Fallstricke Statistischer Signifikanztests
1. Einführung
• Tests zum Vergleich zweier Erfolgsraten
• Signifikanz und klinische Relevanz
2. Der p-Wert
3. Gütekriterien des Signifikanztests
4. Tests bei metrischen Zielgrößen
5. Spezielle Testprobleme
6. Das multiple Testproblem
7. Konfidenzintervalle
p>0.05 => „Für H0“„Nicht gegen H0“
Der klassische Signifikanztest eignet sich zum Nachweis
von Unterschieden, nicht zum Beweis der Tatsache, dass
es keine Unterschiede gibt!
Der p-Wert sagt aus, ob es Unterschiede in den
Erfolgsraten gibt, nicht wie groß diese Unterschiede sind!
Bei der Anwendung mehrerer Signifikanztests mit Kombi-
nation der Testergebnisse besteht eine erhöhte Gefahr
eines Fehlers 1. Art (falsch positive Entscheidung).
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Frage 150 insulinpflichtige Diabetiker wurden mit 50 Nicht-Diabetikern
bezüglich des Auftretens von psychischen Störungen untersucht.
Diese waren bei den Diabetikern signifikant häufiger.
Welcher der folgenden Faktoren
kommt als Erklärung für diese
Unterschiede wahrscheinlich
nicht in Frage?
Alte
r
Insu
linth
erap
ie
Zufa
ll D
iät
Dia
betes
kom
plikat
ione
n
0% 0% 0%0%0%
1. Alter
2. Insulintherapie
3. Zufall
4. Diät
5. Diabeteskomplikationen
Frage 2Bei einem statistischen Test versteht man unter dem Fehler 1. Art
1. 2. 3. 4. 5.
0% 0% 0%0%0%
1. das Verwerfen einer falschen Nullhypothese
2. das Verwerfen einer richtigen Nullhypothese
3. das Verwerfen einer richtigen Alternativhypothese
4. eine falsche Formulierung der Alternativhypothese
5. etwas als statistisch signifikant zu bezeichnen, was in der Praxis von Bedeutung ist
Frage 3Der klassische t-Test für zwei unverbundene Stichproben kann verwendet
werden zur Prüfung der Nullhypothese,
1. 2. 3. 4. 5.
0% 0% 0%0%0%
1. dass die Varianzen gleich sind.
2. dass die Erwartungswerte gleich sind.
3. dass die Erwartungswerte ungleich sind.
4. dass Normalverteilungen vorliegen.
5. dass keine Normalverteilungen vorliegen.
Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.
Frage 4In einer klinischen Studie zur Behandlung von Depressionen wurde in einem
Zeitraum von 2 Jahren untersucht, ob eine Verhaltenstherapie im Vergleich zu
einer medikamentösen Behandlung
Vorteile erzielt.
Mit welchem Test kann man prüfen,
ob es signifikante Unterschiede in den
Erfolgsraten beider Therapiegruppen gibt?
1. 2. 3. 4. 5.
0% 0% 0%0%0%
1. t-Test für unverbundene Stichproben
2. t-Test für verbundene Stichproben
3. U-Test nach Mann-Whitney-fürunverbundene Stichproben
4. Wilcoxon-Test für verbundene Stichproben
5. Chiquadrat-Test
Ja
Nei
n
0%0%
Frage 5Eine geplante klinische Studie soll möglichst zeit- und kostensparend
durchgeführt werden. Um das zu erreichen, wird folgendes Vorgehen
diskutiert. Zuerst werden 50 Patienten pro Therapiegruppe rekrutiert und
anhand eines Signifikanztests zum Niveau α=5%
geprüft, ob sich signifikante Therapieunterschiede
nachweisen lassen. Gelingt das (noch) nicht, so
werden anschließend weitere 2x25 Patienten
rekrutiert und erneut getestet. Das Verfahren
wird so lange fortgesetzt, bis der p-Wert des
Tests auf Ungleichheit beider Therapien
signifikant ist.
Halten Sie ein solches Vorgehen für sinnvoll?
1. Ja
2. Nein
Fragen und Antworten
In einer klinischen Studie werden die Erfolgsraten r1 und r2 zweier
Therapien miteinander verglichen. Pro Therapiearm werden 10 Patien-
ten rekrutiert und deren Daten ausgewertet. Dabei ergibt sich beim
Test auf Ungleichheit der beiden Erfolgsraten ein nicht signifikanter
p-Wert von p=0.08.
Interpretieren Sie das Testergebnis!
Was können Sie zur Power der Studie sagen?
Was für ein Konfidenzintervall des Therapieeffekts (Quotient der
Erfolgsraten r1 und r2) erwarten Sie?
Die Nullhypothese H0:r1=r2 kann nicht abgelehnt werden.
Das heißt nicht, dass damit ihre Gültigkeit bewiesen ist!
Aufgrund der kleinen Fallzahl hat die Studie erwartungsgemäß eine sehr
niedrige Power, d.h. es besteht eine große Gefahr eines Fehlers 2. Art.
Aus dem gleichen Grund wird das KI des Therapieeffekts erwartungsgemäß
sehr groß sein, d.h. die Größe des Effekts lässt sich nur schlecht abschätzen.
top related