institut für biometrie und -...

Institut für Biometrie und klinische Forschung WiSe 2012/2013 Wichtiger Hinweis Das vorliegende Dokument enthält nur die Folien des Praktikums der Medizinischen Biometrie. In der Vorlesung wird zusätzlicher Stoff behandelt, der für die Klausur relevant ist.

Institut für Biometrie und Klinische Forschung

WWU Münster

Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik

– Praktikum der Medizinischen Biometrie (4)

Überblick

1. Deskriptive Statistik I

2. Deskriptive Statistik II

3. Wahrscheinlichkeitsrechnung und Zufallsvariablen

4. Induktive Statistik

- Testtheorie

- Spezielle Testprobleme

- Konfidenzintervalle

Prinzipien des Statistischen Testens

1. Einführung

• Tests zum Vergleich zweier Erfolgsraten

• Signifikanz und klinische Relevanz

2. Der p-Wert

3. Gütekriterien des Signifikanztests

4. Tests bei metrischen Zielgrößen

5. Spezielle Testprobleme

6. Das multiple Testproblem

7. Konfidenzintervalle

Ist Behandlung A wirksamer als Behandlung B?

Testproblem H0: rA=rB gegen H1: rA≠rB

„Die beobachteten Unterschiede zwischen den empirischen Erfolgsraten sind durch Zufall zu erklären.“

„Die Unterschiede zwischen den empirischen Raten sind überzufällig bzw. signifikant. Es bestehen systematische Unter-schiede in der Grundgesamtheit.“

Empirische Erfolgsraten in der Stichprobe

Zufallsbereinigte Erfolgswahrscheinlichkeiten (in der Grundgesamtheit)

Erfolg Misserfolg Gesamt

Behandlung A40

( = 80%)10 50

Behandlung B35

( = 70%)15 50

0% 20% 40% 60% 80% 100%

Behandlung A40

( = 80%)10 50

Behandlung B35

( = 70%)15 50

Mögliche Lösung des Testproblems?

Konfidenz-intervalle zum Niveau 95%

Behandlung A40

( = 80%)10 50

Behandlung B35

( = 70%)15 50

Anwendung eines Signifikanztests => „p-Wert“

p≤0.05 => Testentscheidung zugunsten H1 („signifikant“)

p>0.05 => Testentscheidung zugunsten H0

Hier: p=0.3556, d.h. Entscheidung für H0 („nicht signifikant“)

Behandlung A45

( = 90%)5 50

Behandlung B35

( = 70%)15 50

p=0.02445, d.h. Entscheidung für H1 („signifikant“)

Behandlung A160

( = 80%)40 200

Behandlung B140

( = 70%)60 200

p=0.02824, d.h. Entscheidung für H1 („signifikant“)

Der Test erkennt auf Signifikanz, wenn der Unterschied der verglichenen Erfolgsraten entweder groß ist oder durch eine große Fallzahl belegt, d.h. „stabil“ ist.

Signifikanz und klinische Relevanz

Der Test erkennt auf Signifikanz, wenn der Unterschied der verglichenen Erfolgsraten entweder groß ist oder durch eine große Fallzahl belegt, d.h. „stabil“ ist.

Beurteilung der klinischen Relevanz: Angabe eines Effektschätzers zusätzlich zum p-Wert, z.B. in Form der Differenz oder des Quotienten beider Erfolgsraten

Statistische Signifikanz: Gibt es (überzufällige) Unterschiede in den Erfolgsraten?

Daraus folgt nicht notwendigerweise, dass die Unterschiede eine klinisch relevante Größe haben.

Der p-Wert sagt aus, ob es Unterschiede in den Erfolgsraten gibt, nicht wie groß diese Unterschiede sind!

1. Einführung

2. Der p-Wert

Der p-Wert

In welchem Maß widersprechen die beobachteten Daten der Nullhypothese?

Definition:

Vorausgesetzt die Nullhypothese würde zutreffen,

d.h. beide Erfolgsraten stimmen in der Grundgesamtheit überein:

Wie groß ist dann die Wahrscheinlichkeit,

ein solches empirisches Ergebnis wie das tatsächlich beobachtete zu beobachten

(oder eines, das der Nullhypothese noch mehr widerspricht)?

Der p-Wert gibt nicht an, mit welcher Wahrscheinlichkeit die Nullhypothese der Übereinstimmung beider Erfolgs-raten in der Grundgesamtheit zutrifft!

Der p-Wert

Beispiel: Gegeben sei eine Münze

H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50%

H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)

Zufallsexperiment: 20facher Münzwurf

„Prüfgröße“ bzw. „Teststatistik“ T:

Anzahl geworfener Köpfe

Gesucht:

Wahrscheinlichkeitsverteilung

der Teststatistik T unter H0

0 2 4 6 8 10 12 14 16 18 20

Bin(n=20,p=0.5)

Der p-Wert

Gesucht:

Anschl.: Tatsächliche Durchführung

des Experiments

0 2 4 6 8 10 12 14 16 18 20

Bin(n=20,p=0.5)

Der p-Wert

Gesucht:

des Experiments, z.B. t=14

0 2 4 6 8 10 12 14 16 18 20

Bin(n=20,p=0.5)

Der p-Wert

Gesucht:

=> p=0.1153

0 2 4 6 8 10 12 14 16 18 20

Bin(n=20,p=0.5)

Der p-Wert

Gesucht:

=> p=0.0414

0 2 4 6 8 10 12 14 16 18 20

Bin(n=20,p=0.5)

1. Einführung

2. Der p-Wert

Gütekriterien des Signifikanztests

Testproblem H0: r1=r2 gegen H1: r1≠r2

Fehler 1. Art

Fehler 2. ArtP(Fehler 2. Art) ≈ 20% wird toleriert

P(Fehler 1. Art) ≤ α=5%

In Wirklichkeit ist

H0 richtig H1 richtig

Entscheidung für H0 richtige Entscheidung Fehler 2. Art

Entscheidung für H1 Fehler 1. Art richtige Entscheidung

H0: r1=r2 gegen H1: r1≠r2

Entscheidung zu unrecht für H1 (falsch positiv)Man behauptet zu unrecht, es gebe einen Unterschied.

Entscheidung zu unrecht für H0 (falsch negativ)Man versäumt, einen bestehenden Unterschied zu erkennen.

kein „symmetrisches“ Verfahren im Sinne einer Entscheidung für die „wahrscheinlichere“ der beiden Hypothesenstattdessen konservativer Ansatz: „Im Zweifel für H0“

Gütekriterien des Signifikanztests

Testproblem H0: r1=r2 gegen H1: r1≠r2

Fehler 1. Art

Fehler 2. ArtP(Fehler 2. Art) ≈ 20% wird toleriert

P(Fehler 1. Art) ≤ α=5%

In Wirklichkeit ist

H0 richtig H1 richtig

Entscheidung für H0 richtige Entscheidung Fehler 2. Art

Entscheidung für H1 Fehler 1. Art richtige Entscheidung

Entscheidung zu unrecht für H1 (falsch positiv)Man behauptet zu unrecht, es gebe einen Unterschied.

Entscheidung zu unrecht für H0 (falsch negativ)Man versäumt, einen bestehenden Unterschied zu erkennen.

Geringe Gefahr eines Fehlers 1. Art

=> Nachweis der Gültigkeit von H1 ist abgesichert

Größere Gefahr eines Fehlers 2. Art

=> Nachweis der Gültigkeit von H0 ist weniger gut abgesichert

kein „symmetrisches“ Verfahren im Sinne einer Entscheidung für die „wahrscheinlichere“ der beiden Hypothesenstattdessen konservativer Ansatz: „Im Zweifel für H0“

Geeignete Aufstellung des Testproblems:

H0: Etabliertes Basiswissen („kein Effekt“)

H1: Innovative Erkenntnis

Der klassische Signifikanztest eignet sich zum Nachweis von

Unterschieden, nicht zum Beweis der Tatsache, dass es keine

Unterschiede gibt!

Fehlerwahrscheinlichkeiten im Signifikanztest

Beispiel: r0: Erfolgswahrscheinlichkeit unter Plazebor1: Erfolgswahrscheinlichkeit unter aktiver Therapie

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

„Powerfunktion“

Fehler 1.Art

Fehler 2.Art

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Fehler 1.Art

Fehler 2.Art

n=100 n=50 pro Gruppe

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

=> Fallzahlschätzung

einer geplanten

klinischen Studie

1. Einführung

2. Der p-Wert

Signifikanztests bei metrischen Zielgrößen

bisher: Vergleich zweier Erfolgsraten H0: r1=r2 gegen H1: r1≠r2

Bsp.: Metrische Zielgröße Blutdrucksenkung

µ1,µ2: „Erwartungswerte“

= (Unbeobachtbare) arithmetische Mittelwerte der Zielgröße in der Grundgesamtheit

µ1: Erwartete mittlere Blutdrucksenkung, falls sämtliche Patienten der Grundgesamtheit Therapie 1 bekommen hätten

µ2: Erwartete mittlere Blutdrucksenkung, falls sämtliche Patienten der Grundgesamtheit Therapie 2 bekommen hätten

Testproblem: H0: µ1=µ2 gegen H1: µ1≠µ2

1. Einführung

2. Der p-Wert

Spezielle Testprobleme

1. Lagetests bei normalverteilten Zielgrößen

Student‘s t-Test

zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2

einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2

H0: μ1≥μ2 gegen H1: μ1<μ2

verbundener und unverbundener Test

2. Lagetests bei nicht normalverteilten Zielgrößen(„Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)

verbundene Stichproben: Wilcoxon-Rangsummentest

unverbundene Stichproben: U-Test von Mann-Whitney

3. Test zum Vergleich zweier Erfolgsraten: 2-Test

4. Test zum Vergleich zweier Überlebenskurven: Logrank-Test

Ein- und zweiseitige Testprobleme

In der Regel werden zweiseitige Tests durchgeführt.

Bsp: Vergleich einer aktiven Therapie A gegenüber PlazeboEinseitiger Test: H0: μA≤μPlazebo , d.h. A ist gleichwertig oder unterlegen

H1: μA>μPlazebo , d.h. A ist überlegen gegenüber Plazebo

=> Nachteil des einseitigen Tests:Im Fall eines nicht-signifikanten Ergebnisses kann nicht differenziert werden zwischen Gleichwertigkeit (=Wirkungslosigkeit) und Unterlegenheit gegenüber Plazebo (=Schädlichkeit!)

Beispiel: Klinische Studie zur Blutdrucksenkung

• Zwei alternative Therapieverfahren

• Bei jedem Patienten wird der Blutdruck jeweils vor und nach

Anwendung der Therapie gemessen

Therapie Pat.-Nr.Blutdruck Erwartungswerte

PRE POST POST-PRE PRE POST Differenz

A1 140 120 -20

µA(pre) µA

(post) µA(post-pre)

A2 130 130 0

A3 130 120 -10

… … … …

B1 135 130 -5

µB(pre) µB

(post) µB(post-pre)

B2 140 145 +5

B3 130 130 0

… … … …

unverbundener Testverbundener Test

Spezielle Testprobleme

1. Lagetests bei normalverteilten Zielgrößen

Student‘s t-Test

zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2

einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2

H0: μ1≥μ2 gegen H1: μ1<μ2

verbundener und unverbundener Test

2. Lagetests bei nicht normalverteilten Zielgrößen(„Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)

verbundene Stichproben: Wilcoxon-Rangsummentest

unverbundene Stichproben: U-Test von Mann-Whitney

3. Test zum Vergleich zweier Erfolgsraten: 2-Test

4. Test zum Vergleich zweier Überlebenskurven: Logrank-Test

1. Einführung

2. Der p-Wert

Das multiple Testproblem

Beispiel

Klinische Studie zur Frage:

Wird durch die Einnahme von Smarties das Herzinfarkt-Risiko gesenkt?

Studie 1: Wkt (Signifikantes Studienergebnis) = 5%

RSmarties

Plazebo

Wkt (Signifikantes Ergebnis in mindestens einer der 10 Studien)

= 1-0.9510 = 40%

Herzinfarkt? (2-Jahres Rate)

Das multiple Testproblem

Number of (independent) Significance Tests

1 10 20 30 40 50

Prob(at least 1 false positive)

• Keine eindeutige Wahl des primären Zielkriteriums einer Studie

Durchführung mehrerer elementarer Signifikanztests, deren Ergebnisse zu einer Gesamtentscheidung kombiniert werden. Diese Gesamtentscheidung wird als positiv angesehen, falls mindestens einer der einzelnen Tests signifikant ist.

Wann kann ein multiples Testproblem entstehen?

VariableVerumN=50

PlaceboN=50 p-Wert

Anzahl (%) Patienten mit

Remission 30 (60%) 20 (40%) 0.07

Partielle Remission 16 (32%) 15 (30%) 0.98

Komplette Remission 14 (28%) 5 (10%) 0.04

Progression 6 (12%) 12 (24%) 0.19

Tod 2 (4%) 1 (2%) 0.98

VariableVerumN=50

PlaceboN=50 p-Wert

Anzahl (%) Patienten mit

Remission 30 (60%) 20 (40%) 0.07

Partielle Remission 16 (32%) 15 (30%) 0.98

Komplette Remission 14 (28%) 5 (10%) 0.04

Progression 6 (12%) 12 (24%) 0.19

Tod 2 (4%) 1 (2%) 0.98

• Keine eindeutige Wahl des primären Zielkriteriums einer Studie

• Zwischenauswertungen

• Keine eindeutige Festlegung des statistischen Auswertungsverfahrens

• Paarvergleiche z.B. mehrerer Behandlungen / Dosierungen

• Subgruppenanalyse

Durchführung mehrerer elementarer Signifikanztests, deren Ergebnisse zu einer Gesamtentscheidung kombiniert werden. Diese Gesamtentscheidung wird als positiv angesehen, falls mindestens einer der einzelnen Tests signifikant ist.

Wann kann ein multiples Testproblem entstehen?

1. Einführung

2. Der p-Wert

Fallstricke Statistischer Signifikanztests

1. Einführung

2. Der p-Wert

p>0.05 => „Für H0“„Nicht gegen H0“

Der klassische Signifikanztest eignet sich zum Nachweis

von Unterschieden, nicht zum Beweis der Tatsache, dass

es keine Unterschiede gibt!

Der p-Wert sagt aus, ob es Unterschiede in den

Erfolgsraten gibt, nicht wie groß diese Unterschiede sind!

Bei der Anwendung mehrerer Signifikanztests mit Kombi-

nation der Testergebnisse besteht eine erhöhte Gefahr

eines Fehlers 1. Art (falsch positive Entscheidung).

Frage 150 insulinpflichtige Diabetiker wurden mit 50 Nicht-Diabetikern

bezüglich des Auftretens von psychischen Störungen untersucht.

Diese waren bei den Diabetikern signifikant häufiger.

Welcher der folgenden Faktoren

kommt als Erklärung für diese

Unterschiede wahrscheinlich

nicht in Frage?

plikat

0% 0% 0%0%0%

1. Alter

2. Insulintherapie

3. Zufall

4. Diät

5. Diabeteskomplikationen

Frage 2Bei einem statistischen Test versteht man unter dem Fehler 1. Art

1. 2. 3. 4. 5.

0% 0% 0%0%0%

1. das Verwerfen einer falschen Nullhypothese

2. das Verwerfen einer richtigen Nullhypothese

3. das Verwerfen einer richtigen Alternativhypothese

4. eine falsche Formulierung der Alternativhypothese

5. etwas als statistisch signifikant zu bezeichnen, was in der Praxis von Bedeutung ist

Frage 3Der klassische t-Test für zwei unverbundene Stichproben kann verwendet

werden zur Prüfung der Nullhypothese,

1. 2. 3. 4. 5.

0% 0% 0%0%0%

1. dass die Varianzen gleich sind.

2. dass die Erwartungswerte gleich sind.

3. dass die Erwartungswerte ungleich sind.

4. dass Normalverteilungen vorliegen.

5. dass keine Normalverteilungen vorliegen.

Frage 4In einer klinischen Studie zur Behandlung von Depressionen wurde in einem

Zeitraum von 2 Jahren untersucht, ob eine Verhaltenstherapie im Vergleich zu

einer medikamentösen Behandlung

Vorteile erzielt.

Mit welchem Test kann man prüfen,

ob es signifikante Unterschiede in den

Erfolgsraten beider Therapiegruppen gibt?

1. 2. 3. 4. 5.

0% 0% 0%0%0%

1. t-Test für unverbundene Stichproben

2. t-Test für verbundene Stichproben

3. U-Test nach Mann-Whitney-fürunverbundene Stichproben

4. Wilcoxon-Test für verbundene Stichproben

5. Chiquadrat-Test

Frage 5Eine geplante klinische Studie soll möglichst zeit- und kostensparend

durchgeführt werden. Um das zu erreichen, wird folgendes Vorgehen

diskutiert. Zuerst werden 50 Patienten pro Therapiegruppe rekrutiert und

anhand eines Signifikanztests zum Niveau α=5%

geprüft, ob sich signifikante Therapieunterschiede

nachweisen lassen. Gelingt das (noch) nicht, so

werden anschließend weitere 2x25 Patienten

rekrutiert und erneut getestet. Das Verfahren

wird so lange fortgesetzt, bis der p-Wert des

Tests auf Ungleichheit beider Therapien

signifikant ist.

Halten Sie ein solches Vorgehen für sinnvoll?

2. Nein

Fragen und Antworten

In einer klinischen Studie werden die Erfolgsraten r1 und r2 zweier

Therapien miteinander verglichen. Pro Therapiearm werden 10 Patien-

ten rekrutiert und deren Daten ausgewertet. Dabei ergibt sich beim

Test auf Ungleichheit der beiden Erfolgsraten ein nicht signifikanter

p-Wert von p=0.08.

Interpretieren Sie das Testergebnis!

Was können Sie zur Power der Studie sagen?

Was für ein Konfidenzintervall des Therapieeffekts (Quotient der

Erfolgsraten r1 und r2) erwarten Sie?

Die Nullhypothese H0:r1=r2 kann nicht abgelehnt werden.

Das heißt nicht, dass damit ihre Gültigkeit bewiesen ist!

Aufgrund der kleinen Fallzahl hat die Studie erwartungsgemäß eine sehr

niedrige Power, d.h. es besteht eine große Gefahr eines Fehlers 2. Art.

Aus dem gleichen Grund wird das KI des Therapieeffekts erwartungsgemäß

sehr groß sein, d.h. die Größe des Effekts lässt sich nur schlecht abschätzen.

institut für biometrie und -...

Documents

kursinformationen: hospitationen, blockpraktikum und...

biometrie – technik, mythen, praxisbeispiele · biometrie...

07. notiuni de ultrasonografie in sarcina biometrie, markeri...

presentation biometrie

biometrie iris

life science im studiengang math. biometrie · genetik...

echographie biometrie cours e.s.f 2006. biometrie de...

die chancen auf ein baby erhöhen -...

biometrie voor identiteitsverificatie · ‘presentation...

itegia - biometrie ohne spezialhardware

skepsis bei biometrie: die deutschen stehen auf passwörter

skript biometrie computerseminar ws1213

bachelor mathematische biometrie ws15/16

forschungsberichte der abteilung medizinische biometrie ......

biometrie Übungen in spss - campus.uni-muenster.de ·...

icao & biometrie

31609599 cours complet biometrie

biometrie in militaire operaties

gendermedizin modewort oder...

hnízdní biologie, biometrie a etologie racka...