skript biometrie computerseminar ws1213

Biomathe Computerseminar

Kursunterlagen

Bernhard Haller

Monika Bruderl

Raymonde Busch

Alexander Hapfelmeier

Victoria Kehl

Kurt Ulm

Stefan Wagenpfeil

Petra Wolf

5. Auflage, WS 2012/13

Inhaltsverzeichnis

1 Vorwort 1

2 Woche 1 3

2.1 Datenstruktur und Datenmanagement . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 Erstellen einfacher Grafiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3 Import und Export von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.4 Ubung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Woche 2 25

3.1 Erste Schritte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2 Deskriptive Statistik, Maßzahlen und tabellarische Darstellung . . . . . . . . . 31

3.3 Grafiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.1 Saulendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.2 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.4 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.5 Losungsvorschlag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4 Woche 3 59

4.1 Streudiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.3 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.4 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

ii INHALTSVERZEICHNIS

5 Woche 4 81

5.1 Der Chi-Quadrat-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.2 Uberprufung der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.3 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.3.1 t-Test fur unverbundene Stichproben . . . . . . . . . . . . . . . . . . . . 91

5.3.2 t-Test fur verbundene Stichproben . . . . . . . . . . . . . . . . . . . . . 94

5.4 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

6 Anhang 103

Kapitel 1

Vorwort

Das vorliegende Skript ist als schriftliche Erganzung zu dem Biomathematik Computerkurs

gedacht. Es ist naturlich auf keinen Fall als Ersatz fur gute Standardtexte zu verstehen. Eine

Auswahl statistischer Fachbucher und Software-Handbucher ist im Anhang angegeben. Das

Hauptaugenmerk dieses Skripts liegt darin, die Umsetzung von statistischen Verfahren mittels

SPSS zu beschreiben. Uns ist bewusst, dass dies nur einen kleinen Aspekt der statistischen

Auswertung darstellt. Fur alle weiteren Aspekte der statistischen Auswertung, wie Fallzahl-

planung, Datenbankdesign, Auswahl der statistischen Methoden, Ergebnisinterpretation etc.,

steht Ihnen unser statistischer Beratungsservice zur Verfugung. Nahere Informationen dazu

finden Sie im Internet unter

http://www.med.tu-muenchen.de/de/gesundheitsversorgung/statistik.

Hier finden Sie auch Informationen uber regelmaßig stattfindende EXCEL- und SPSS-Auf-

baukurse.

Computerprogramme bieten eine große Anzahl von moglichen statistischen Berechnungen.

Alle Moglichkeiten konnen und sollen hier nicht erlautert werden. In der ersten Woche wird

das Datenmanagement in EXCEL beschrieben, in der zweiten Woche werden deskriptive Maß-

zahlen und grundlegende Grafiken in SPSS besprochen. Regression und Korrelation sind das

Thema der dritten Woche. Im letzten Kapitel wird der Chi-Quadrat-Test sowie der t-Test

durchgefuhrt.

Kapitel 2

Woche 1

Im Rahmen jeder experimentell-wissenschaftlichen Arbeit werden Daten erhoben, gesammelt

und aufbewahrt. Bevor mit der statistischen Auswertung begonnen werden kann, ist es erfor-

derlich, sich mit der Datenstruktur und der Datenaufbereitung zu befassen.

Das Microsoft-Programm EXCEL zeichnet sich durch seine große Verfugbarkeit aus, da es auf

nahezu jedem PC installiert ist. Zielsetzung dieses ersten Computerseminares ist es deshalb,

eine Einfuhrung in das Datenmanagement mit Microsoft EXCEL zu geben und zu vermitteln,

wie ein Datensatz fur die statistische Analyse aufbereitet werden sollte. Daruber hinaus wird

die Erstellung einfacher Grafiken in EXCEL besprochen.

2.1 Datenstruktur und Datenmanagement

Allgemeines

Daten sollten in”rechteckiger Form“ als sogenannte Datenmatrix vorliegen. Die Zeilen der

Datei stellen die einzelnen Beobachtungseinheiten (z. B. Patienten, Probanden, Versuchstie-

re) dar. Grundsatzlich sollte also fur jede Beobachtungseinheit genau eine Zeile vorliegen.

In den Spalten der Datei stehen die Variablen (z. B. Alter, Geschlecht, Blutdruck etc.), die

an den Beobachtungseinheiten erhoben wurden. EXCEL stellt im Gegensatz zu vielen Stati-

stikprogrammen keine Bedingungen an die Variablennamen. Mochte man Daten aber nicht

nur mit EXCEL verwenden, sollten die entsprechenden Namenskonventionen von vornherein

4 2. Woche 1

eingehalten werden und Variablennamen grundsatzlich keine Sonderzeichen oder Leerzeichen

enthalten, nicht zu lang sein und nicht doppelt vergeben werden.

Die Merkmalsauspragungen (= Eintrage in den einzelnen Zellen) sollten dabei in numerischer

Form (Zahlen) vorliegen. Um flexible Analysen zu ermoglichen und um unnotige Tippar-

beit zu vermeiden, ist es sinnvoll, bei alphanumerischer Mermalsauspragung (z. B. mannlich,

weiblich; ja, nein) mit einheitlichen Kodierungen (z. B. 1, 2 oder 1, 0) zu arbeiten. Es ist zu

bedenken, dass bestimmte Analyseprogramme Texteintrage nicht verarbeiten konnen.

Datumsangaben werden am besten in der Form TT.MM.JJJJ angegeben.

Zum Umgang mit fehlenden Werten gibt es verschiedene Moglichkeiten. Auf alle Falle sollte

die Kodierung einheitlich sein. Die Verwendung eines Wertes als Platzhalter (z. B. -999), der

in den theoretisch moglichen Werten der Beobachtungen nicht vorkommen kann, ermoglicht es

unterschiedliche Arten von fehlenden Werten unterscheidbar zu machen. In Statistikprogram-

men konnen solche besonderen Codes als fehlende Werte angegeben und interpretiert werden.

Auswertungen, z. B. Mittelwertberechnungen, liefern dann korrekte Werte. In EXCEL gibt

es eine solche Funktion nicht. Um Berechnungen in EXCEL durchzufuhren empfiehlt es sich

deshalb, die entsprechende Zelle der Merkmalsauspragung einfach leer zu lassen, da sonst

falsche Ergebnisse geliefert werden.

Liegen mehrere Messungen pro Beobachtungseinheit vor (z. B. wiederholte Messun-

gen des Blutdrucks im Verlaufe einer Therapie), sollte fur jede dieser Messungen eine Spalte

angelegt werden.

Beispiel

Abbildung 2.1: Datenstruktur

Diese Datei besteht aus vier Beobachtungseinheiten und acht Variablen. Bei Patient 4 wurde

das Gewicht nicht bestimmt. Fur den systolischen Blutdruck liegen zwei Messungen vor.

2.1 Datenstruktur und Datenmanagement 5

Zum Zwecke der Ubersichtlichkeit kann es unter Umstanden sinnvoll sein, den Gesamtda-

tenbestand auf mehrere Dateien aufzuteilen, z. B. Datei 1: Demographische Angaben; Datei

2: Blutdruckwerte; Datei 3: Laborwerte. Dabei ist darauf zu achten, dass jede dieser Dateien

nach dem oben beschriebenen Muster aufgebaut ist. Um Dateien fur eine gemeinsame Aus-

wertung kombinieren zu konnen, ist es wesentlich, dass in allen Dateien eine einheitliche und

eindeutige Identifikationsvariable (wie z. B. die Patientennummer) existiert. Diese Variable

wird auch als Schlusselvariable bezeichnet.

Lassen sich die Beobachtungseinheiten in zwei oder mehr Gruppen (z. B. unterschiedliche

Therapien) aufteilen und sollen diese Gruppen getrennt analysiert bzw. verglichen werden, so

muss eine zusatzliche Variable (= Spalte) eingefugt werden, in der fur jede Beobachtungsein-

heit die zugehorige Gruppe eingetragen ist. Hier ist wiederum auf eine geeignete Kodierung

zu achten.

Beispiel

Abbildung 2.2: Identifizierung der Gruppen uber Gruppenvariable

Hier gehoren die Patienten 1 und 6 zur Gruppe 1, wahrend die Patienten 2 und 4 zur Gruppe

2 gehoren.

Das EXCEL-Anwendungsfenster

Das EXCEL-Anwendungsfenster besteht aus den fur Office-Programme ublichen Leisten und

Feldern sowie aus der EXCEL-spezifischen Arbeitsmappe und der dazugehorigen Bearbei-

tungsleiste. Die jeweiligen Buttons und Menupunkte auf dem EXCEL-Bildschirm werden ak-

tiviert, indem man mit dem Mauspfeil darauf fahrt und die linke (manchmal auch die rechte)

Maustaste druckt. Dies wird oft als Klicken auf einen Menupunkt bzw. Button bezeichnet.

Sichtbare Bestandteile der Arbeitsmappe sind das aktuelle Tabellenblatt, bestehend aus Spal-

6 2. Woche 1

ten und Zeilen, sowie das Blattregister, das auf die zur Mappe gehorigen Tabellenblatter weist.

Uber dieses Register kann zwischen den verschiedenen Blattern der EXCEL-Arbeitsmappe ge-

wechselt werden. Reicht der Platz zur Anzeige der Tabellenblatter nicht aus, kann uber die

sogenannte Seitensteuerung zu den vorhandenen Blattern gewechselt werden. Umgeben ist

die Arbeitsmappe von Leisten und Feldern. Die Bearbeitungsleiste dient unter anderem der

Ansicht und der Editierung der aktuellen Zelle/Zellen im aktiven Tabellenblatt.

Aufbau einer EXCEL-Arbeitsmappe

• Die Arbeitsmappe besteht aus maximal 256 Tabellenblattern (Voreinstellung 3 Blatter)

• Ein Tabellenblatt besteht aus maximal 256 Spalten und 65536 Zeilen (bis Version 2003)

Aktuelles Feld

BlattregisterBildlaufleiste

Bearbeitungsleiste

SeitensteuerungTabellenblätter

Aktuelles Tabellenblatt

Abbildung 2.3: EXCEL-Anwendungsfenster

Hilfe in EXCEL

Uber das Menu”?“ (Microsoft EXCEL-Hilfe) erscheint am rechten Rand ein Hilfe Fenster.

Abbildung 2.4: Dialogfenster Hilfe

8 2. Woche 1

Arbeiten in Tabellen

Arbeiten mit Tabellenblattern

• Tabellenblatter einfugen

Menu: Einfugen → Tabellenblatt

Kontextmenu: Klick mit der rechten Maustaste auf das Tabellenblattregister → Einfu-

Uber die Registerkarte”Allgemein“ Tabelle auswahlen → OK.

• Tabellenblatter loschen

Menu: Bearbeiten → Blatt loschen.

Kontextmenu: Rechter Mausklick auf das Blattregister → Loschen.

• Tabellenblatter umbenennen

Menu: Format → Blatt → Umbenennen.

Kontextmenu: Rechter Mausklick auf das Blattregister → Umbennen.

Maus: Doppelklick auf den Blattnamen.

• Tabellenblatter verschieben / kopieren

Menu: Bearbeiten → Blatt verschieben/kopieren.

Angabe im Dialogfenster, welche Mappe an welche Blattposition verschoben/kopiert

werden soll.

Fur das Kopieren die Option Kopieren aktivieren.

Kontextmenu: Rechter Mausklick auf das Blattregister → Verschieben / Kopieren.

Es offnet sich das gleiche Dialogfenster wie oben beschrieben.

Arbeiten mit Zeilen, Spalten, Zellen

• Neue Zeilen, Spalten, Zellen einfugen

Zeile / Spalte / Zellen markieren, vor die eingefugt werden soll. Menu: Einfugen →

Zeilen / Spalten / Zellen ...

Fur das Einfugen von Zellen offnet sich ein Dialogfenster, im dem angegeben werden

kann, wie die bereits vorhandenen Zellen verschoben werden sollen.

Kontextmenu: Rechter Mausklick auf den markierten Zeilenkopf / Spaltenkopf / Zell-

bereich → Zellen einfugen.

Fur das Einfugen von Zellen offnet sich ein Dialogfenster wie oben beschrieben.

• Zeilen, Spalten, Zellen loschen

Zeile / Spalte / Zellen markieren.

Menu: Bearbeiten → Zellen loschen.

Fur das Loschen von Zellen offnet sich ein Dialogfenster, in dem angeben werden kann,

wie die entstehende Lucke aufgefullt werden soll.

Kontextmenu: Rechter Mausklick auf den markierten Zeilenkopf / Spaltenkopf / Zellbereich→

Zellen loschen.

Fur das Loschen von Zellen offnet sich ein Dialogfenster wie oben beschrieben.

• Zeilen, Spalten, Zellen verschieben bzw. kopieren

Zeilen / Spalten / Zellen markieren.

Menu: Bearbeiten → Ausschneiden (oder → Kopieren) → Zeilen / Spalten / Zellen

markieren, in die eingefugt werden soll → Bearbeiten → Einfugen.

Kontextmenu: Rechter Mausklick auf die markierten Zeilen / Spalten / Zellen → Aus-

schneiden (oder → Kopieren) → Zeilen / Spalten / Zellen markieren, in die eingefugt

werden soll → Einfugen.

Hinweis:

Bleibende”flimmernde“ Zellumrandungen nach Kopier- oder Ausschneideaktionen konnen mit

der Escape-Taste entfernt werden.

Die Dateneingabe

Elemente der Bearbeitungsleiste zur Dateneingabe

• Zelladresse: Gibt die Koordinaten der aktuellen Zelle an.

• Stornierschalter: Bricht die begonnene Eingabe in der aktuellen Zelle ab.

• Eingabeschalter: Schließt die Dateneingabe in der aktuellen Zelle ab (entspricht dem

Befehl ENTER).

• Formelschalter: Leitet die Eingabe einer Formel in die markierte Zelle ein.

10 2. Woche 1

• Zellinhaltsfeld: Zeigt den Inhalt der aktuellen Zelle an. Durch Positionierung des Cursors

in diese Zelle werden Stornier- und Eingabeschalter sichtbar.

Abbildung 2.5: Bearbeitungsleiste

Eingabe von Text

EXCEL erkennt automatisch, dass es sich um Text handelt, wenn Buchstaben (Ausnahme:

Datumsangaben) oder Sonderzeichen (Ausnahme: + - =) eingegeben werden.

Sollen Zahlen oder Datumsangaben als Text eingegeben werden, sind sie in Anfuhrungsstriche

(z. B.”01.01.1999“) oder Hochkommata (z. B. ’01.01.98’) zu setzen.

Ist die Zelle nicht bereits vorformatiert, wird der Text automatisch linksbundig ausgerichtet.

Eingabe von Zahlen

Werden nur Zahlen und fakultativ Plus-/Minuszeichen, Komma als Dezimaltrenner, Punkt

als Tausendertrenner eingetragen, wird der Inhalt automatisch als Zahl erkannt. Ist die Zelle

nicht bereits vorformatiert, wird die Zahl rechtsbundig angeordnet.

Eingabe von Datumsangaben

Alle Datumsangaben mit/ohne fuhrende Null bei Tages- und Monatsangaben sowie mit/ohne

Jahrhundertangabe und Punkt oder Bindestrich als Trenner zwischen Tag, Monat, Jahr wer-

den automatisch als Datum erkannt und in folgendes Standardformat gebracht: TT.MM.JJJJ.

Intern werden Datumsangaben als fortlaufende Zahlen gespeichert, beginnend mit 1 fur den

01.01.1900 und endend am 31.12.9999 (erkennbar an der rechtsbundigen Ausrichtung).

Datumsangaben vor 1900 werden nicht als Datum interpretiert, sondern als Text gespeichert

(erkennbar an der linksbundigen Ausrichtung).

Soll das Jahrhundert bei Datumsangaben nicht erkennbar sein, konnen die Zellen uber das

Menu Format → Zellen entsprechend formatiert werden. Der Zellinhalt wird durch die For-

matierung nicht verandert.

Eingabe von Uhrzeit

Stunden, Minuten und Sekunden sind jeweils durch einen Doppelpunkt zu trennen.

Datum und Uhrzeit konnen in eine Zelle eingetragen werden, sie sind dann durch ein Leer-

zeichen zu trennen.

Die interne Verwaltung der Uhrzeit erfolgt als Dezimalzahl.

Beispiel: 12:00:00 → 0,5. In Verbindung mit einem Datum: 31.01.1900 12:00:00 → 31,5.

Hinweis:

Soll eine Tabelle nach SPSS exportiert werden, empfiehlt es sich Datumsangaben im Format

TT.MM.JJJJ zu speichern, da es sonst zu Fehlern beim Export kommt.

Menu: Format → Zelle → Benutzerdefiniert → TT.MM.JJJJ.

Kontextmenu: Rechter Mausklick auf die markierten Zelle→ Zellen formatieren→ Benutzer-

definiert → TT.MM.JJJJ.

Transformation von Daten

Nach Beendigung der Datensammlung und -eingabe konnen sich verschiedenste Vorgange

der Datentransformation anschließen. So konnen aus eingegebenen Variablen neue Variablen

berechnet werden (z. B. Bodymaß-Index aus Korpergroße und -gewicht) oder vorhandene

12 2. Woche 1

Variablen zu neuen Variablen umkodiert werden (z. B. Altersklasse aus Alter). Die Beobach-

tungen der Tabelle konnen in einer definierten Reihenfolge angeordnet oder nach festgelegten

Kriterien selektiert werden (z. B. nach Gruppenzugehorigkeit). Schließlich kann es notig sein,

dass Daten der zu untersuchenden Beobachtungen aus verschiedenen Tabellen zusammen-

gefuhrt werden mussen. Das Berechnen und Umkodieren von Variablen erfolgt in EXCEL

anhand von Formeln. Da Formeln in EXCEL auch Grundlage der Berechnung statistischer

Maßzahlen sind, wird ein ausfuhrlicher Abschnitt”Formeln in EXCEL“ vorangestellt.

Formeln in EXCEL

Aufbau einer Formel

Beispiel einer Formel in EXCEL:

= (E2+F2+G2)/3 = Mittelwert(E2:G2)

In beiden dargestellten Formeln wird der Mittelwert (arithmetisches Mittel) aus 3 Zahlen

berechnet, die sich in den Zellen E2, F2 und G2 befinden. Im Gegensatz zur ersten Formel

liefert die zweite Formel auch dann einen korrekten Mittelwert, wenn fehlende Werte in den

Zellen vorkommen.

In der nachfolgenden Abbildung ist fur den ersten und zweiten Teilnehmer des Untersuchungs-

kollektivs”Fitness“ der Mittelwert der 3 gemessenen Pulsfrequenzen mithilfe dieser Formel

berechnet worden. In der Bearbeitungsleiste ist die Formel zu sehen, die der Berechnung

der Zahl in der aktuellen Zelle zugrunde liegt. Die aktuelle Zelle ist schwarz umrandet. Der

Gesamtdatensatz”Fitness“ ist im Anhang dieses Skripts beschrieben.

Bestandteile einer Formel konnen sein:

• Gleichheitszeichen (=) an erster Position (immer)

• Konstanten (im Beispiel: 3)

• Zellbezuge, das sind die Koordinaten eines Zellenbereichs (im Beispiel: E2, F2, G2,

abgekurzt E2:G2).

• Operatoren (+ - * /ˆ)

Abbildung 2.6: Mittelwertfunktion in EXCEL

• Funktionen (im Beispiel: Mittelwert() )

Eingabe einer Formel mit Operatoren und Zellbezugen

Durchfuhrung

• Die Zelle fur die Formel markieren.

• Das Gleichheitszeichen in der Bearbeitungsleiste eingeben.

• Die Formel in das Zellinhaltsfeld (weiße Flache) der Bearbeitungsleiste eingeben, wobei

die Zellbezuge (= Koordinaten der Zellen, deren Inhalt in die Berechnung eingehen soll)

durch Zeigen per Mausklick auf die Zelle bzw. Zellen in der Tabelle automatisch in die

Bearbeitungszeile ubernommen werden konnen.

• Abschluss der Formeleingabe mit der Enter-Taste oder Eingabeschalter. Die Berechnung

wird sofort durchgefuhrt und das Ergebnis in die vorgesehene Zelle eingetragen. Die

Formel der aktuellen Zelle ist in der Bearbeitungszeile sichtbar.

Absolute und relative Zellbezuge

Wird in EXCEL eine Zelle kopiert, deren Inhalt aus einer Formel mit Zellbezugen besteht,

so werden diese Zellbezuge automatisch an die neue Position angepasst. Das heißt, die neuen

14 2. Woche 1

Zellbezuge befinden sich immer noch im gleichen Abstand zum Formelfeld. Diese Bezuge, die

beim Kopieren automatisch angepasst werden, nennt man relative Zellbezuge. Sollen Zellbe-

zuge beim Kopieren nicht automatisch angepasst werden, die Koordinaten der Bezuge also

unverandert bleiben, so spricht man von absoluten Zellbezugen. Dazu ist den Zellkoordinaten

ein Dollarzeichen”$“ voranzustellen (z. B. $A$1). Es sind auch Mischbezuge moglich (z. B.

$A1 → absoluter Spaltenbezug, angepasster Zeilenbezug bzw. A$1 → angepasster Spalten-

bezug, absoluter Zeilenbezug). Beachten Sie: Die Zellkoordinaten von absoluten (ebenso wie

von relativen) Bezugen werden automatisch geandert, wenn neue Zeilen oder Spalten in das

Datenblatt eingefugt werden. So ist das Formelergebnis auch nach dem Einfugen immer noch

das Gleiche.

Aufbau einer Funktion

Beispiel einer Funktion in EXCEL:

Funktionen sind Berechnungsanweisungen mit Platzhaltern. Werte, die an die Funktion uber-

geben werden, sogenannte Argumente, werden an Stelle der Platzhalter eingesetzt und das

Funktionsergebnis kann errechnet werden.

MITTELWERT(ZAHL1;ZAHL2;...)

Bestandteile einer Funktion konnen sein:

• Funktionsname (im Beispiel: MITTELWERT)

• Funktionsargumente (im Beispiel: ZAHL1; ZAHL2)

Argumente, die unbedingt angegeben werden mussen, werden fett dargestellt, optionale Ar-

gumente sind normal dargestellt. Auslassungspunkte (...) kennzeichnen, dass mehrere dieser

Argumente angegeben werden konnen. Einzelne Argumente werden durch ein Semikolon von-

einander getrennt. Besteht die Argumentliste aus einer fortlaufenden Sequenz von Zellbezugen,

reicht die Eingabe von Beginn und Ende, durch einen Doppelpunkt getrennt (z. B. MITTEL-

WERT(C8:C16)). Bei Funktionsargumenten ist auf den passenden Datentyp zu achten (Zahl,

Zeichen usw.), wobei die Argumente per Tastatur eingegeben, als Zellbezug gezeigt werden

oder selbst wieder Resultat einer anderen Funktion sein konnen (geschachtelte Funktionen).

Eingabe einer Funktion mithilfe des Funktionsassistenten

Durchfuhrung

• Die Zelle fur die Formel auswahlen.

• Den Formelschalter in der Bearbeitungsleiste anklicken.

• Aus dem pull-down Menu links des Gleichheitszeichens die gewunschte Funktion aus-

wahlen oder uber”weitere Funktionen“ das Dialogfenster

”Funktion auswahlen“ offnen,

das alle Funktionen kategorisiert anbietet.

• In das sich daraufhin offnende Fenster (= Funktionsassistent oder Formelpalette) die

Funktionsargumente eingeben, entweder per Tastatur oder durch Zeigen auf die ent-

sprechenden Tabellenzellen oder durch Aufruf einer weiteren Funktion (auf diese Weise

werden verschachtelte Funktionen gebildet).

• OK

Der Funktionsassistent enthalt Eingabefelder fur die benotigten Argumente, eine Beschrei-

bung der Funktion und der benotigten Argumente.

Abbildung 2.7: Eingabe einer Funktion mit dem Funktionsassistenten

16 2. Woche 1

Variablen umkodieren

Anwendungen:

• Bilden neuer Variablen, z. B. (neue) Gruppenvariable.

• Klassifizierung von Merkmalen, z. B. Bildung von Altersklassen aus dem Merkmal Alter.

Durchfuhrung

• In die Variablenspalte den neuen Variablennamen eintragen.

• Cursor in die erste Zelle der neuen Variablen positionieren.

• Je nach Art der Umkodierung, z. B. eine WENN()-Funktion oder verschachtelte WENN()-

Funktionen erstellen, mit dem Zellbezug zur entsprechenden Zelle der umzukodierenden

Variablen.

• Diese Zelle mit der erstellten Funktion kopieren und fur alle weiteren Beobachtungen in

die entsprechenden Zellen der neuen Variablenspalte einfugen. Durch das Arbeiten mit

relativen Zellbezugen (Voreinstellung) bezieht sich die kopierte Formel jeweils auf die

zugehorige Zelle der umzukodierenden Variablen.

Abbildung 2.8: Umkodierung einer Variablen mit verschachtelten WENN-Funktionen

Die Variable”WORKOUT“ des Datensatzes

”Fitness“ ist in eine neue Gruppenvariable

”GRP NEU“

umkodiert worden. Teilnehmer mit 1 oder 2 Workouts pro Woche bilden die neue Gruppe 1,

Teilnehmer mit 3 oder 4 Workouts die Gruppe 2. Teilnehmer ohne Eintrag zum Workout

werden keiner Gruppe zugeordnet. Die der Umkodierung zugrunde liegende verschachtelte

Wenn-Funktion ist in der Bearbeitungsleiste zu sehen.

Das Berechnen einer neuen Variablen aus bereits bestehenden Variablen funktioniert analog

zum Umkodieren.

Sortieren von Beobachtungen

Anwendungen:

• Information uber die Streuung der Daten (Minima, Maxima, Spannweite).

• Datencheck, Ausreißeridentifikation

• Neue Anordnung der Beobachtungen, z. B. nach Gruppenzugehorigkeit.

• Vorbereitung fur Auswertungen nach Gruppenzugehorigkeit.

Durchfuhrung

• Die Originaltabelle kopieren und in ein neues Tabellenblatt einfugen, um den Original-

zustand der Datentabelle zu erhalten (fakultativ).

• Die ganze Datentabelle markieren oder den Cursor in eine Zelle der Tabelle positionie-

• Das Menu Daten → Sortieren aufrufen.

• In den Feldern”Sortieren nach“,

”Anschließend nach“,

”Zuletzt nach“ die Variablen, nach

denen sortiert werden soll oder”(keine)“ auswahlen.

• Die Sortierreihenfolge”aufsteigend“ oder

”absteigend“ fur jede Sortiervariable angeben.

• Angeben, ob die Tabelle einen”Zeilenkopf“ (das heißt eine erste Zeile mit Variablenna-

men) enthalt.

18 2. Woche 1

Hinweise:

Wird statt der ganzen Datentabelle nur die Spalte markiert, nach der sortiert werden soll, so

bleiben alle anderen Spalten von der Sortierung unberuhrt. Das bedeutet, dass die Integritat

des Datensatzes einer Beobachtung verletzt wird. Bei Daten rechts und links neben der mar-

kierten Spalte erkennt EXCEL das Problem und gibt einen entsprechenden Warnhinweis. Soll

nach mehr als 3 Variablen sortiert werden, ist obige Prozedur mehrfach durchzufuhren: Begin-

nend mit den unbedeutendsten und endend mit den bedeutendsten Sortiermerkmalen. Dabei

ist aber innerhalb einer Sortierprozedur wieder mit den bedeutendsten Sortiermerkmalen zu

beginnen.

2.2 Erstellen einfacher Grafiken 19

2.2 Erstellen einfacher Grafiken

Oft mochte man seine Daten veranschaulichen oder seine Ergebnisse optisch ansprechend pra-

sentieren, deshalb ist es sinnvoll bereits in EXCEL einfache Grafiken erstellen zu konnen.

Grundlegende Schritte bei der Grafikerstellung in EXCEL:

• Markieren Sie die Daten, die grafisch dargestellt werden sollen.

• Klicken Sie auf den Button”Diagramm-Assistent“ in der Menuleiste.

• Wahlen Sie den gewunschten Diagrammtyp aus.

• Folgen Sie den Menuanweisungen fur die Auswahl von Diagrammoptionen und der Plat-

zierung des Diagramms.

• Nachbearbeitung von Grafiken ist moglich durch Klicken mit der rechten Maustaste auf

die nachzubearbeitenden Bereiche innerhalb der Grafik. Dadurch wird ein Menu mit

Nachbearbeitungsoptionen geoffnet.

Beispiel Kuchendiagramm

1. Offnen Sie den Datensatz”Fitness“.

2. Erstellen Sie eine Tabelle, in der fur die jeweiligen Merkmalsauspragungen (1 Workout,

2, 3 oder 4 Workouts) die absoluten Haufigkeiten des Vorkommens angegeben werden.

Dazu kann z. B. der Autofilter im Menu Daten → Filter benutzt werden. Alternativ

kann auch die Funktion”ZAHLENWENN“ verwendet werden, vgl. letzte Ubung.

Ergebnis:

1 workout 10

2 workouts 19

3 workouts 12

4 workouts 4

3. Markieren Sie die Haufigkeiten.

20 2. Woche 1

4. Klicken Sie auf den Button”Diagramm-Assistent“.

5. Wahlen Sie in Schritt 1 von 4 des Diagramm-Assistenten den Menupunkt”Kreis“, 1.

Untertyp aus.

6. Wahlen Sie in Schritt 2 des Diagramm-Assistenten die 1. Spalte der Tabelle als Kreissegment-

bzw. Rubrikenachsenbeschriftung aus und versehen Sie die Grafik mit einem Diagramm-

titel.

7. Wahlen Sie in Schritt 3 im Register”Datenbeschriftungen“ den Punkt

”Beschriftung

und Prozent anzeigen“ aus.

8. Mit einem Klick auf”Fertig stellen“ wird das Diagramm erstellt.

Abbildung 2.9: Kuchendiagramm zur Darstellung der Workouts

2.3 Import und Export von Daten 21

2.3 Import und Export von Daten

Zur Sicherstellung des Datenaustauschs mit anderen Programmen bestehen verschiedene Mog-

lichkeiten Daten zu exportieren oder importieren, von denen im Folgenden einige wichtige

Beispiele aufgefuhrt werden.

Export von EXCEL-Tabellen in andere Programme

Export als Text

• Menu: Datei → Speichern unter ...

• Dateityp: Es stehen verschiedene Texttypen zur Verfugung, u. a. Formatierter Text

(Leerzeichen getrennt) (*.prn), Text (Tabs getrennt) (*.txt).

Export als Word-Tabelle

• EXCEL-Tabelle schließen.

• In Word: Menu: Datei → Offnen.

• Dateityp: Microsoft EXCEL-Arbeitsblatt (*.xls, *xlw)

Oder: Daten der EXCEL-Tabelle kopieren und in Winword einfugen (Cut & Paste).

Menu: Bearbeiten → Inhalte einfugen... .

Import von SPSS-Dateien

• SPSS-Dateien mussen bereits im SPSS-Programm als EXCEL-Datei gespeichert werden.

SPSS-Menu: Datei → Speichern unter.

• Dateityp: EXCEL-Datei auswahlen.

• Dateinamen vergeben.

• Abspeichern mit OK.

• Diese Datei mit dem Suffix .xls kann nun direkt in EXCEL oder auch wieder in SPSS

geoffnet werden.

22 2. Woche 1

2.4 Ubung

Ubung: Dateneingabe

• Geben Sie ein Geburtsdatum und ein Aufnahmedatum ein.

• Formatieren Sie die Zellen in der Weise, dass das Jahrhundert nicht angezeigt wird

(Hinweis: Menu: Format → Zellen → Registerblatt Zahlen).

• Geben Sie in eine beliebige Zelle das Datum 31.01.1900 18:00 ein. Formatieren Sie diese

Zelle als Zahl mit 2 Dezimalstellen, um zu sehen, wie EXCEL intern diese Datumsangabe

gespeichert hat.

• Geben Sie die ersten vier Ziffern Ihrer Handynummer ein.

Ubung: Formeln und Funktionen

• Berechnen Sie im Datensatz”Fitness“ fur die Variablen Ruhefreq1, Messung2, Messung3

die mediane Pulsfrequenz (Hinweis: Funktion MEDIAN).

• Bilden Sie eine neue Gruppierungsvariable, die fur alle Beobachtungen mit Ruhefre-

quenzwerten Ruhefreq1 <= 75 den Gruppenwert 1 zuweist und fur alle anderen den

Gruppenwert 2 (Hinweis: Funktion WENN).

• Errechnen Sie aus den beiden Datumsangaben aus der Ubung”Dateneingabe“ das Al-

ter in ganzen Jahren (Hinweis: Funktion ABRUNDEN((Aufnahmedatum - Geburtsda-

tum)/365; 0).

• Selektieren Sie die Frauen aus dem Kollektiv und kopieren Sie die selektierten Daten-

satze in ein neues Tabellenblatt mit dem Namen”Frauen“ (Hinweis: Menu: Daten →

Autofilter → Auswahl der Frauen uber das entsprechende pull-down Menu).

• *Fur Geubte: Wie haufig fuhren Frauen 1, 2, 3 oder 4 Workouts pro Woche durch

(Hinweis: Funktion ZAHLENWENN, Suchkriterien 1, 2, 3 und 4)?

Ubung: Grafiken

• Erstellen Sie aus den Haufigkeitsangaben zu den Workouts im Datensatz”Fitness“ ein

Kuchendiagramm (Kreisdiagramm) wie im Beispiel.

2.4 Ubung 23

• Verandern Sie die Farben der einzelnen Kuchensegmente (Rechtsklicken auf ein einzelnes

Segment → Datenpunkt formatieren).

• Verandern Sie die Darstellung in 3-D (Rechtsklicken in das Diagramm→ Diagrammtyp).

• Verandern Sie den 3-D Ansichtswinkel durch Nachbearbeitung im Menu 3-D Ansicht.

• Erstellen Sie mithilfe des Diagrammassistenten aus den gleichen Daten ein Saulendia-

gramm.

• Andern Sie den Diagrammtyp des Saulendiagramms in ein Kreisdiagramm.

• *Fur Geubte: Erstellen Sie aus den beiden Variablen”Alter“ und

”Ruhefre1“ des Da-

tensatzes”Fitness“ einen Scatterplot. Benutzen Sie dazu im Diagrammassistenten den

Diagrammtyp”Punkt (xy)“. Welchen Zusammenhang erkennt man?

• *Fur Geubte: Erstellen Sie mit dem Diagrammtyp”Punkt (xy)“ einen zweiten Scatter-

plot aus den Variablen”Ruhefre1“ und

”Messung2“. Welcher Zusammenhang besteht

Ubung: Datenexport

• Transferieren Sie die EXCEL-Tabelle des Datensatzes”Fitness“ nach Word.

24 2. Woche 1

Kapitel 3

Woche 2

Zu Beginn einer Datenanalyse sollte man sich zuerst einen Uberblick uber die vorliegenden

Werte der einzelnen Variablen verschaffen, wobei insbesondere Lage und Verteilung von In-

teresse sind. Durch die deskriptive Analyse lassen sich Besonderheiten in der Datenstruktur

erkennen, zum Beispiel konnen extreme Werte und eventuelle Ausreißer leicht identifiziert wer-

den. Zudem unterstutzt sie die Datenvalidierung, das heißt, Fragen wie”Liegen alle Messungen

im dazugehorigen Wertebereich?“ oder”Gibt es unplausible Werte oder auch Eingabefehler?“

konnen beantwortet werden.

Des Weiteren ist es Aufgabe der deskriptiven Statistik, die Daten zu ordnen sowie grafisch

und mit geeigneten Kennzahlen darzustellen.

In diesem Kurs wird zur Analyse der Daten das Programm SPSS, Version 19 verwendet. Alle

Beispiele und Ubungsaufgaben werden anhand folgendem Datensatz durchgefuhrt:

Datensatz”Blutdruck“

Im Folgenden handelt es sich um eine klinische Studie, bei der die Wirksamkeit eines neuen

Medikaments zur Blutdrucksenkung gepruft werden soll. Dazu wurden 120 Patienten rekru-

tiert, die zufallig in zwei Behandlungsgruppen aufgeteilt wurden. Die an diesen Patienten

erhobenen Variablen sind in nachstehender Tabelle aufgelistet.

26 3. Woche 2

Variablenbeschreibung

3.1 Erste Schritte 27

3.1 Erste Schritte

Daten in SPSS einlesen

Datei → Offnen → Daten

gespeicherten Datensatz aufrufen

Es konnen verschiedene Dateitypen eingelesen werden: die ubliche Endung fur SPSS-Dateien

ist *.sav. Es konnen aber auch andere Endungen ausgewahlt werden, wie zum Beispiel *.xls,

*.csv oder *.txt, wobei ein Assistent zum Import der Datei geoffnet wird und die Daten Schritt

fur Schritt eingelesen werden. Hinweis: Die zu importierende Datei darf nicht geoffnet sein.

Abbildung 3.1: Datenquelle offnen

Vorarbeit

Nach dem Einlesen der Datei wird der Dateneditor gestartet. Dieser besteht aus den beiden

Registerkarten Datenansicht (Abb. 3.2), in der der Datensatz angezeigt wird, sowie einer Va-

riablenansicht (Abb. 3.3).

28 3. Woche 2

Abbildung 3.2: Datenansicht

Abbildung 3.3: Variablenansicht

Bevor mit der eigentlichen Analyse begonnen werden kann, sollten noch einige Einstellungen

in der Variablenansicht uberpruft werden:

3.1 Erste Schritte 29

• Name: Die Variable kann hier umbenannt werden (Restriktionen: keine Leer- oder Son-

derzeichen und keine Zahl am Anfang des Namens)

• Typ: adaquates Format der Variable angeben

• Spaltenformat: maximale Anzahl der Zeichen, die eingegeben werden kann

• Dezimalstellen: Fur numerische Variablen kann die Anzahl der Dezimalstellen angepasst

werden.

• Variablenlabel: Soll ein anderer Name fur ein Variablenkurzel in den Outputs angezeigt

werden, so kann das hier eingegeben werden (hier keine Restriktionen).

• Wertelabels: Bei nominalen oder kategorialen Merkmalen kann die Zahlenkodierung hier

in Worten angegeben werden. Die eingegebene Labels werden spater bei den Outputs

angezeigt.

Abbildung 3.4: Wertelabels

• Fehlende Werte: Eine spezielle Kodierung (z.B. -999) kann hier als fehlender Wert defi-

niert werden.

• Spalten: angezeigte Spaltenbreite in der Datenansicht

• Ausrichtung: Ausrichtung der Daten in der Datenansicht (links, mittig oder rechts)

• Messniveau: Skala, Ordinal, Nominal; Dieses Feld muss fur jede Variable spezifiziert

sein: wichtig fur Auswahl statistischer Tests und Grafiken.

• Rolle: Rolle der Variable im Datensatz (z.B. Eingabevariable oder Zielvariable)

30 3. Woche 2

Die Ergebnisse zu den durchgefuhrten Analysen (Tabellen, Grafiken,...) werden in einem drit-

ten Fenster, dem Ausgabefenster dargestellt:

3.2 Deskriptive Statistik, Maßzahlen und tabellarische Darstellung 31

3.2 Deskriptive Statistik, Maßzahlen und tabellarische Dar-

stellung

In der Statistik unterscheidet man zwei Merkmalstypen:

• Quantitative Merkmale:

Die Auspragungen dieser Merkmale entsprechen Messungen oder Zahlungen (quantum

= Menge).

• Qualitative Merkmale:

Fur die Auspragungen dieser Merkmale existiert keine sinnvolle Metrik. Nominale Merk-

male lassen sich nur benennen, wie z. B. Haarfarbe, Blutgruppe, Medikament. Ordinalen

Merkmalen liegt eine Rangfolge zugrunde, Differenzen oder Quotienten sind jedoch nicht

interpretierbar.

Hintergrund

Quantitative Großen werden wiederum in intervall- und verhaltnisskalierte Merkmale ein-

geteilt. Bei intervallskalierten Großen kann nur die Differenz betrachtet werden, da der Null-

punkt willkurlich festgelegt ist. Beispiel hierfur ist die Temperatur in Grad Celsius. Bei ver-

haltnisskalierten Merkmalen konnen auch Quotienten miteinander verglichen werden, da der

Nullpunkt absolut ist, wie z. B. beim metrischen Langenmaß. Fur stetige Variablen berech-

net man statistische Maßzahlen wie Mittelwert, Standardabweichung, Minimum, Maximum,

Quartile etc., die Lage und Streuung der erhobenen Werte beschreiben. Grafisch werden die

Verteilungen oft durch Boxplots oder Fehlerbalken dargestellt.

Qualitative Großen teilen sich auf in ordinal- und nominalskalierte Merkmale. Ordinalska-

lierte Merkmale konnen bezuglich ihrer Auspragungen in einer Rangfolge geordnet werden.

Die Abstande zwischen den Werten sind jedoch nicht definiert, z. B. Schweregrad einer Erkran-

kung. Die Nominalskala setzt hingegen nur Gleichheit oder Ungleichheit von Eigenschaften (z.

B. Geschlecht) bzw. die Moglichkeit mehrklassiger Einteilungen (z. B. Beruf, Muttersprache,

Studienzentrum etc.) in Kategorien voraus. Fur qualitative Merkmale berechnet man in der

Regel relative oder absolute Haufigkeiten und stellt diese mithilfe von Saulendiagrammen dar.

32 3. Woche 2

Die Unterscheidung stetig und diskret wird oft als Synonym fur quantitativ und qualitativ

verwendet, es lassen sich jedoch auch quantitative Merkmale in diskret und stetig unterschei-

den. Diskrete Merkmale konnen nur bestimmte Werte annehmen. Beispiele sind die Zahl der

Kinder einer Familie oder die Zahl der im letzten Jahr zugelassenen Medikamente. Zwischen-

werte gibt es nicht. Stetige Merkmale (Synonyme: kontinuierlich, metrisch) konnen hingegen

jeden Zwischenwert annehmen. Diese Großen beruhen auf instrumentelle Messungen wie z.

B. Gewicht und Korpergroße.

Statistische Maßzahlen sind eine Zusammenfassung der vorhandenen Dateninformation. Fur

quantitative Großen beschreiben diese charakteristischen Kennzahlen u. a. Lage und Streuung

einer Verteilung. Die wichtigsten Lagemaße sind der Median bzw. Zentralwert und der Mit-

telwert, auch arithmetisches Mittel genannt. Der Mittelwert ist die Summe der Einzelwerte

geteilt durch die Anzahl der Einzelwerte.

n∑i=1

xi (3.2.1)

Den Median erhalt man, indem die beobachteten Werte in aufsteigender Reihenfolge sortiert

werden. Bei einer ungeraden Anzahl an Beobachtungen ist der Median der Wert der mittleren

Beobachtung, ansonsten der Mittelwert aus den beiden mittleren Beobachtungen.

x50% =

2 ), falls n ungerade

2 ) + x(n2+1)

), falls n gerade

(3.2.2)

Weitere Lagemaße sind Quantile, die man beliebig uber den Parameter α, α ∈ (0, 1) definieren

kann. Sie geben den Wert an, den der definierte Anteil der Daten nicht uberschreitet. Beispiel:

α = 30%, d. h. 30% der Daten sind kleiner gleich diesem Wert. Eine mogliche Berechnungs-

formel lautet:

x([nα]+1), falls nα /∈ N

(x(nα) + x(nα+1)

), falls nα ∈ N

(3.2.3)

Dabei steht N fur die naturlichen Zahlen und [ ] fur einen ganzzahligen Rest.

Spezialfalle der Quantile sind die Quartile, die die Daten in 4 Teile teilen, also fur α ∈

(25%, 50%, 75%):

• Unteres Quartil = 25% Quantil = x25%

• Median = 50% Quantil = x50%

• Oberes Quartil = 75% Quantil = x75%

Haufig verwendete Streuungsmaße (Dispersionsmaße) zur Beschreibung der Datenvariabilitat

sind die Varianz s2 bzw. ihre Quadratwurzel, die Standardabweichung s.

n− 1

n∑i=1

(xi − x)2

s = +√s2 (3.2.4)

Eine weiteres Streuungsmaß ist der Variationskoeffizient, bei dem die Standardabweichung

durch den Mittelwert geteilt wird. Dieser relative Ausdruck ist eine dimensionslose Große

und daher unabhangig von der Maßskala. Dies ermoglicht den Vergleich von Messungen in

unterschiedlichen Einheiten, wie z. B. bei Laborparametern, die in mg, mmol etc. erhoben

werden. Voraussetzung fur die sinnvolle Verwendung des Variationskoeffizienten ist, dass eine

verhaltnisskalierte Variable vorliegt.

34 3. Woche 2

Beispiel

In unserem Beispieldatensatz Blutdruck.sav befinden sich die Daten von 120 Hypertonikern,

von denen Blutdruckmessungen und einige Parameter zu Studienbeginn, nach einem Monat

und nach 12 Monaten medikamentoser Therapie erhoben wurden.

Zunachst wollen wir uns uber die vorhandenen Daten einen Uberblick verschaffen und sie

durch Haufigkeiten und statistische Maßzahlen beschreiben. Es interessiert uns, wieviele Man-

ner und Frauen an der Studie teilgenommen haben, wie sie auf beide Medikamentengruppen

aufgeteilt sind und wie deren Blutdruckverteilung zu Beginn aussieht. Schließlich wollen wir

die Blutdruckverteilung beider Geschlechter in jeder Behandlungsgruppe betrachten.

Durchfuhrung

Haufigkeiten von Mannern und Frauen

Analysieren → Tabellen → Benutzerdefinierte Tabellen

Variablen: Geschlecht auf Spalten ziehen

Definieren: → Auswertungsstatistik...

Anzahl als Zeilen% in Statistik auswahlen und mit Pfeil zu Anzeigen hinzufugen

Der Auswahl zuweisen

Definieren: → Kategorien und Gesamtsummen...

Auch anzeigen: Gesamtergebnis

Zuweisen

Haufigkeiten von Mannern und Frauen pro Behandlungsgruppe

Anzahl als Zeilen% in Statistik auswahlen und mit Pfeil zu Anzeigen hinzufugen

Zuweisen

Variablen: Behandlung auf Zeilen ziehen

Zuweisen

Abbildung 3.5: Eingabemenu Benutzerdefinierte Tabellen

36 3. Woche 2

Abbildung 3.6: Eingabemenu Auswertungsstatistik

Ausgabe

Abbildung 3.7: Haufigkeiten von Mannern und Frauen in jeder Medikamentengruppe

Blutdruckverteilung von Mannern und Frauen

Variablen: Blutdruck 0 auf Spalten ziehen

Standardabweichung in Statistik auswahlen und mit Pfeil zu Anzeigen hinzufugen

Variablen: Geschlecht auf Zeilen ziehen

Zuweisen

Blutdruckverteilung von Mannern und Frauen pro Behandlungsgruppe

Variablen: Blutdruck 0 auf Spalten ziehen

Standardabweichung in Statistik auswahlen und mit Pfeil zu Anzeigen hinzufugen

Zuweisen

Variablen: Behandlung auf Zeilen ziehen

Zuweisen

38 3. Woche 2

Abbildung 3.8: Eingabemenu Benutzerdefinierte Tabellen

Abbildung 3.9: Eingabemenu Auswertungsstatistik

Ausgabe

Abbildung 3.10: Mittelwert und Standardabweichung fur den Blutdruck von Mannern undFrauen in jeder Medikamentengruppe

Interpretation

In unserer Studie ist das Verhaltnis von Mannern zu Frauen in etwa 1:1. Dies gilt auch fur die

beiden Behandlungsgruppen. Insgesamt haben die Frauen einen leicht niedrigeren Blutdruck-

Ausgangswert, was ebenso fur die beiden Behandlungsgruppen gilt. Zwischen den Behand-

lungsgruppen sind die Blutdruck-Ausgangswerte in den Geschlechtern aber annahernd gleich.

Zieht man die Standardabweichung hinzu, so erkennt man, dass die Unterschiede nicht sehr

groß sind. Beide Behandlungen sind hinsichtlich dieser Baseline-Variablen vergleichbar.

Die Frage, ob die beobachteten Blutdruckunterschiede statistisch zufallig sind oder ein signi-

fikanter Unterschied nachgewiesen werden kann, lasst sich mit den in Kapitel 5 beschriebenen

statistischen Tests untersuchen.

40 3. Woche 2

3.3 Grafiken

Die bekanntesten Darstellungsformen kategorialer oder diskreter Merkmale sind Saulen-, Balken-

und Kreisdiagramme. Sie sind vor allem angebracht, wenn die Anzahl k der verschiedenen

Merkmalsauspragungen klein ist. Wir wollen uns hierbei auf das Saulendiagramm beschran-

Abbildung 3.11: Saulen-, Balken- und Kreisdiagramm

3.3.1 Saulendiagramm

Hintergrund

Bei einem Saulendiagramm werden auf horizontaler Achse die verschiedenen Auspragungen

einer diskreten Variablen abgetragen und auf der vertikalen die absoluten bzw. relativen Hau-

figkeiten der jeweiligen Auspragung in Form einer Saule dargestellt. Diese Rechtecke werden

mittig uber die Auspragung gezeichnet und stoßen nicht aneinander. Das Balkendiagramm

ergibt sich als Variante, indem man die beiden Achsen vertauscht. Das Saulendiagramm

ermoglicht es, bei ordinalskalierten Daten die Rangfolge mit darzustellen. Dies ist bei der

Darstellung durch ein Kreisdiagramm nicht moglich.

3.3 Grafiken 41

Beispiel

Die oben berechneten Haufigkeiten aus unserem Beispieldatensatz Blutdruck.sav wollen wir

nun grafisch darstellen. Wir tragen dazu die absoluten bzw. relativen Haufigkeiten von Man-

nern und Frauen in der Studie in einem Saulendiagramm ab.

Die bedingten relativen Haufigkeiten der Geschlechter in jeder Behandlungsgruppe lassen sich

in einem gruppierten Saulendiagramm darstellen. Dabei entspricht die bedingte relative Hau-

figkeit eines Geschlechts einzelnen Saulen oder sie lasst sich durch den flachenmaßigen Anteil

an der Saule der jeweiligen Behandlungsgruppe darstellen.

Durchfuhrung

Haufigkeiten von Mannern und Frauen

Diagramme → Diagrammerstellung → Galerie → Balken

Einfache Balken auswahlen

Variablen Geschlecht auf x-Achse? ziehen

→ Elementeigenschaften: Statistik Anzahl fur absolute oder Prozentsatz() fur relative Hau-

figkeiten auswahlen

Zuweisen

42 3. Woche 2

Abbildung 3.12: Eingabemenu Balkendiagramm (einfach)

Ausgabe

Abbildung 3.13: Absolute Haufigkeiten von Mannern und Frauen (großere Achsenbeschrif-tung)

Die Diagramme konnen in SPSS nachtraglich noch bearbeitet werden, indem durch Dop-

pelklick auf die Grafik der Diagramm-Editor gestartet wird. Entsprechende Details (Farben,

Schriftgroße,...) konnen dann wie in obiger Grafik angepasst werden.

3.3 Grafiken 43

Haufigkeiten von Mannern und Frauen pro Behandlungsgruppe

Gruppierte Balken auswahlen

Variablen Behandlung auf x-Achse? ziehen

Variablen Geschlecht auf Clustervariable auf X: Farbe festlegen ziehen

→ Elementeigenschaften: Statistik Prozentsatz() auswahlen

Zuweisen

durch Doppelklick den Diagramm-Editor starten → Elemente → Datenbeschriftungen ein-

blenden

Anzahl in Angezeigt: schieben

Zuweisen

Diagramm-Editor schließen

Abbildung 3.14: Eingabemenu Balkendiagramm (gruppiert)

44 3. Woche 2

Werden als y-Achse die Prozentwerte ausgegeben, kann bei der Diagrammerstellung wie oben

Elementeigenschaften → Statistiken → Prozentsatz → Parameter festlegen → zuweisen

der Nenner fur die Prozentberechnung angegeben werden.

Abbildung 3.15: Wahlmoglichkeit fur die Berechnung der Prozentwerte

Ausgabe

Abbildung 3.16: Gesamtverteilung von Therapie und Geschlecht (”Gesamtergebnis“)

3.3 Grafiken 45

Abbildung 3.17: Geschlechterverteilung in den Behandlungsgruppen (”fur jede X-Achsen-

Kategorie“)

Abbildung 3.18: Therapieverteilung in den Geschlechtergruppen (”fur jede Kategorie der Le-

gendenvariablen (selbe Fullfarbe)“)

Zur alternativen Darstellung der bedingten Haufigkeiten des Geschlechts durch den flachen-

maßigen Anteil an einer Saule verfahrt man wie oben, jedoch wahlt man im ersten Menufenster

Gestapelte Balken statt Gruppierte Balken aus:

Gestapelte Balken auswahlen

46 3. Woche 2

Interpretation

Die grafische Darstellung sollte immer mit den berechneten Haufigkeiten verglichen werden,

um mogliche Fehlinterpretationen zu vermeiden. Schließlich soll eine Grafik die Ergebnisse

unterstreichen bzw. verdeutlichen. In den Saulendiagrammen der absoluten Haufigkeiten des

Geschlechts sowie der relativen Haufigkeiten bedingt auf die Medikamentengruppe spiegelt

sich das Verhaltnis von etwa 1:1 von Mannern zu Frauen wider. Es sind etwas mehr Patienten

in der Alphasan-Behandlungsgruppe.

3.3.2 Boxplot

Fur eine zusammenfassende Beschreibung von Verteilungen mussen Lage- und Streuungsmaße

angegeben werden. So kann etwa in zwei Behandlungsgruppen der mittlere Blutdruck identisch

sein, obwohl in einer Gruppe erhebliche Schwankungen vorliegen, wahrend die andere Gruppe

recht homogen ist. Die oben erwahnten Quantile und die daraus abgeleiteten Boxplots als

grafische Zusammenfassung sind geeignete Mittel, um die Verteilung der Daten punktuell zu

charakterisieren. Gruppenunterschiede, Symmetrie bzw. Schiefe der Verteilungen sind sofort

sichtbar. Hierbei werden keine Voraussetzungen wie Symmetrie oder Normalverteilung an die

Daten gestellt.

Viele statistische Softwarepakete, wie auch SPSS, stellen Ausreißer, also Beobachtungen, die

relativ zu ihrer Gruppe sehr extrem ausfallen, als einzelne Datenpunkte dar. Dadurch lassen

sich mithilfe des Boxplots auch Extremwerte einfach identifizieren.

Hintergrund

Die oben definierten Quartile (vgl. Abschnitt 3.2 Seite 33) geben zusammen mit dem Median

auf einfache Art Hinweise auf die Verteilung der Daten: Unterhalb des unteren Quartils liegen

etwa 25% der Daten und oberhalb des oberen Quartils ebenfalls etwa 25%. Im mittleren

Bereich liegen die restlichen 50% der Daten. Ist die Verteilung annahernd symmetrisch zum

Median, so sind x25% und x75% etwa gleich weit vom Median entfernt. Andernfalls ist die

Verteilung schief.

3.3 Grafiken 47

Die Quartile geben auch Aufschluss daruber, wie groß die Streuung der Daten ist. Eine pas-

sende Maßzahl hierfur ist der Interquartilsabstand:

IQR = x75% − x25% (3.3.5)

Interessant fur die Verteilung sind außerdem die beiden Extremwerte xmin = x(1) und xmax =

x(n). Die Differenz dieser beiden Werte wird als Spannweite oder Range bezeichnet.

Die Quartile, Minimum und Maximum teilen den Datensatz somit in vier Teile, wobei jeder

Teil ein Viertel der Beobachtungswerte enthalt. Diese vier Werte bilden zusammen mit dem

Median die Funf-Punkte-Zusammenfassung, die als Boxplot visulalisiert wird:

Boxplot

1. x25% = Anfang der Box

x75% = Ende der Box

IQR = Lange der Box

2. Median = durchgezogene Linie innerhalb der Box

3. Zwei Linien (”whiskers“) außerhalb der Box gehen bis zu xmin und xmax

Modifizierter Boxplot

Eine Faustregel zur Identifizierung von Ausreißern, die auch SPSS verwendet, ist: Bilde den

inneren”Zaun“ mit der Untergrenze zu = x25% − 1.5 ∗ IQR und der Obergrenze zo = x75% +

1.5 ∗ IQR. Daten kleiner als zu und großer als zo sind dann Ausreißerkandidaten, die genauer

zu inspizieren sind.

Die Linien außerhalb der Box (”whiskers“) werden nur bis zu xmin bzw. xmax gezogen, falls

xmin und xmax innerhalb des Bereichs [zu, zo] der Zaune liegen. Ansonsten gehen die Linien

nur bis zum kleinsten bzw. großten Wert innerhalb der Zaune. Die außerhalb liegenden Werte

werden individuell eingezeichnet, in SPSS als Punkte (Ausreißer, mehr als 1.5 ∗ IQR von

Ober- oder Untergrenze entfernt) bzw. Sterne (Fernpunkte, mehr als 3 ∗ IQR von Ober-

oder Untergrenze entfernt). Die mit angegebenen Zahlen entsprechen der Zeilennummer im

Datensatz.

48 3. Woche 2

Bei Bedarf kann diese Zahl im Diagrammeditor

→ Button”Datenbeschriftungsmodus“ → auf den Punkt/Stern klicken,

ein- oder ausgeblendet werden.

Abbildung 3.19: Boxplot Abbildung 3.20: Modifizierter Boxplot

Beispiel

Das stetige Merkmal”Blutdruck 0“ lasst sich durch einen Boxplot univariat beschreiben, mit

Hinzunahme der Behandlungsgruppe als Faktor lassen sich die Blutdruckverteilungen fur jede

Behandlungsgruppe darstellen und damit visuell vergleichen.

Durchfuhrung

Diagramme → Diagrammerstellung → Galerie → Boxplot

Einfacher Boxplot auswahlen

Variablen Blutdruck 0 auf y-Achse? ziehen

3.3 Grafiken 49

Abbildung 3.21: Eingabemenu Boxplot (einfach)

Ausgabe

Abbildung 3.22: Blutdruckverteilung in den beiden Behandlungsgruppen

50 3. Woche 2

Blutdruckverteilung von Mannern und Frauen pro Behandlungsgruppe

Diagramme → Diagrammerstellung → Galerie → Boxplot

Gruppierter Boxplot auswahlen

Variablen Blutdruck 0 auf y-Achse? ziehen

Variablen Geschlecht auf Clustervariable auf X: Farbe festlegen ziehen

Abbildung 3.23: Eingabemenu Boxplot (gruppiert)

3.3 Grafiken 51

Ausgabe

Abbildung 3.24: Blutdruckverteilung von Mannern und Frauen pro Behandlungsgruppe (Nr.12 entspricht Beobachtungsnummer im Datensatz)

Anderung der Skala der y-Achse

Haufig beginnt die y-Achse in SPSS bei 0. In manchen Fallen ist es aber erwunscht, zur Ver-

deutlichung nur den Abschnitt zu zeigen, in dem sich auch die Daten befinden. Dies kann im

Nachhinein noch wie folgt geandert werden:

Doppelklick auf Grafik

im Diagrammeditor Die y-Achse auswahlen

Minimum auf 120 setzen

zuweisen

52 3. Woche 2

Abbildung 3.25: Eingabemenu Andern der Skala

Ausgabe

Abbildung 3.26: Blutdruckverteilung von Mannern und Frauen pro Behandlungsgruppe mitgeanderter y-Skalierung

3.3 Grafiken 53

Interpretation

Der Blutdruck-Ausgangswert ist in beiden Behandlungsgruppen nahezu gleich (Median ca.

150 mmHg). Die Boxengroßen sind ebenfalls fast gleich groß, d.h. die mittleren 50% haben eine

ahnlich große Streuung in beiden Gruppen. Die Verteilung bei der Betasan-Behandlungsgruppe

ist sehr symmetrisch um den Median, wohingegen der Median bei der Alphasan-Behandlungs-

gruppe etwas naher am 25%-Quantil liegt (linkssteile Verteilung). Ausreißer gibt es keine.

Die Frauen der Alphasan-Behandlungsgruppe haben zu Beginn einen ahnlichen Blutdruck in

Vergleich zur Betasan-Behandlungsgruppe, jedoch die mitlleren 50% der Frauen sind in der

Alphasan-Behandlungsgruppe wesentlich homogener. Die Blutdruckverteilung der Manner ist

in beiden Behandlungsgruppen sehr ahnlich. Keine Verteilung ist exakt symmetrisch um den

Median.

Bei den Frauen in der Alphasan-Behandlungsgruppe gibt es formal einen Ausreißer, was durch

den vergleichsweise kleinen Interquartilsabstang IQR bedingt ist.

Alternative: Histogramm

54 3. Woche 2

3.4 Ubungsaufgaben

Verwenden Sie fur die Ubungen den Datensatz Blutdruck.sav und versuchen Sie auch, die

Ergebnisse zu interpretieren.

Zum Nachweis eines Therapieeffekts in einer klinischen Studie sollten die beiden Behand-

lungsgruppen zu Beginn der Studie hinsichtlich samtlicher Variablen vergleichbar sein. Erst

dann kann ein beobachteter Effekt der Therapie zugeschrieben werden. Wie wir bereits gese-

hen haben gibt es keinen Unterschied in der Geschlechts- und Blutdruckverteilung zu Beginn

zwischen beiden Behandlungsgruppen.

1. Uberprufen Sie daruber hinaus, ob sich die beiden Behandlungsgruppen hinsichtlich der

Korpergroße und des Alters ahnlich sind. Verwenden Sie dazu ausschließlich die Mog-

lichkeiten der deskriptiven Statistik und stellen Sie den Vergleich durch Berechnung

von geeigneten Maßzahlen an. Daruber hinaus vergleichen Sie auch den Cholesterin-

Ausgangswert, sowie die BMI-Kategorien beider Behandlungsgruppen. Stellen Sie die

Ergebnisse ubersichtlich und sinnvoll dar! Vergessen Sie nicht durch eine grafische Dar-

stellung die Zahlen zu verdeutlichen.

2. Stellen Sie die relativen Haufigkeiten des Geschlechts in jeder Behandlungsgruppe dar.

Verwenden Sie dazu entweder die Option clustered oder stacked. Interpretieren Sie das

Ergebnis vor dem Hintergrund der berechneten Haufigkeiten richtig.

3. Fleißaufgabe (nicht behandelt): Machen Sie sich mit dem Chart Editor vertraut. Spielen

Sie ein wenig mit der Achsenskalierung, -beschriftung etc..

3.5 Losungsvorschlag 55

3.5 Losungsvorschlag

1. • Korpergroße

Abbildung 3.27: Mittelwert und Standardabweichung fur die Korpergroße von Mannern undFrauen in jeder Behandlungsgruppe

Abbildung 3.28: Verteilung der Korpergroße von Mannern und Frauen in jeder Behandlungs-gruppe

• Alter

Abbildung 3.29: Mittelwert und Standardabweichung fur das Alter von Mannern und Frauenin jeder Behandlungsgruppe

56 3. Woche 2

Abbildung 3.30: Altersverteilung von Mannern und Frauen in jeder Behandlungsgruppe

• Cholesterin-Ausgangswert

Abbildung 3.31: Mittelwert und Standardabweichung fur den Cholesterin-Anfangswert vonMannern und Frauen in jeder Behandlungsgruppe

Abbildung 3.32: Verteilung der Cholesterin-Anfangswerte von Mannern und Frauen in jederBehandlungsgruppe

• BMI-Kategorien

Abbildung 3.33: Haufigkeiten der BMI-Kategorien in jeder Behandlungsgruppe

Abbildung 3.34: Relative Verteilung (Haufigkeiten) der BMI-Kategorien in jeder Behandlungs-gruppe (absolute Werte mitangegeben)

• Interpretation:

Sowohl Korpergroße, Alter als auch der Cholesterin-Anfangswert sind in beiden

Behandlungsgruppen ahnlich verteilt. Lediglich die BMI-Kategorien unterscheiden

sich leicht: in der Betasan-Behandlungsgruppe befinden sich etwas mehr normal-

gewichtige, wohingegen in der Alphasan-Behandlungsgruppe etwas mehr uberge-

wichtige Patienten teilgenommen haben.

In den Tabellen summieren sich alle Werte pro Behandlungsgruppe zu 100%. In der

Grafik kann das uber den Pfad

... Gruppierte Balken → Elementeigenschaften → Statistiken: Prozentsatz(?) →

Parameter festlegen angepasst werden.

58 3. Woche 2

2. Analog zur vorherigen Aufgabe muss bei der Erstellung der Saulendiagramme darauf

geachtet werden, auf welcher Basis die Prozentwerte ermittelt werden.

Abbildung 3.35: Haufigkeiten von Mannern und Frauen in jeder Behandlungsgruppe

Abbildung 3.36: Relative Verteilung (Haufigkeiten) von Mannern und Frauen in jeder Be-handlungsgruppe (absolute Werte mitangegeben)

Interpretation:

Das Verhaltnis von Mannern und Frauen ist sowohl in der Studie, als auch in beiden

Behandlungsgruppen etwa 1:1.

Kapitel 4

Woche 3

Dieser Kurstag beschaftigt sich damit, den funktionalen Zusammenhang stetiger Merk-

male zu untersuchen. Wir beschaftigen uns ausschließlich damit, die Beziehung zweier Gro-

ßen, also bivariate Relationen zu analysieren. In einigen Situationen (z. B. physikalische

Beziehungen) mag es aufgrund theoretischer Uberlegungen sicher sein, dass zwei Merkmale

miteinander in Zusammenhang stehen. In der Medizin erschweren meist eine große naturliche

Variation der Untersuchungsobjekte, zusatzliche Storgroßen oder nicht exakt erhebbare Ziel-

variablen die Auswertungen. Durch diese zufallsbedingten Streuungen der Messwerte konnen

Zusammenhange vorgetauscht werden, die nicht existieren. Andererseits konnen aber auch

Beziehungen, die vorhanden sind, nicht entdeckt werden.

Bei der Korrelation wird quantifiziert, wie stark ein Zusammenhang zwischen zwei Großen

ist. Die Regressionsanalyse dient dazu, den moglichen Einfluss von unabhangigen Großen

oder Variablen auf eine a priori zu spezifizierende abhangige Große zu untersuchen.

4.1 Streudiagramm

Ein Bild sagt oftmals mehr als viele Zahlen. Im sogenannten Streudiagramm oder Scat-

terplot kann der Zusammenhang von quantitativen Großen visualisiert werden.

60 4. Woche 3

Hintergrund

Im Streudiagramm wird fur jede Beobachtung das Wertepaar (X,Y ) im Koordinatensystem

abgetragen. Man sollte bereits jetzt darauf achten, Einflussgroße und abhangige Variable

zu unterscheiden. Die Einflussgroße wird oftmals mit X, die abhangige Variable oder

auch Zielvariable mit Y bezeichnet. Falls die Daten im zeitlichen Verlauf erhoben werden,

so stellt die spater erhobene Variable oft die Zielvariable dar. Diese Unterscheidung ist aber

oftmals nicht ganz einfach zu treffen. Beobachtungen, bei denen nicht von beiden Variablen

Auspragungen vorhanden sind, werden in der Regel ausgeschlossen. Als Alternative bieten

sich eventuell statistische Verfahren zum Ersetzen fehlender Werte, wie zum Beispiel eine

Imputation, an.

Beispiel

Im Datensatz Blutdruck.sav soll der Zusammenhang zwischen dem Cholesterin-Ausgangswert

und dem Blutdruck-Ausgangswert untersucht werden.

Durchfuhrung

Diagramme → Diagrammerstellung → Galerie →Streu/Punktdiagramme

einfaches Streudiagramm auswahlen

Variablen Blutdruck 0 auf x-Achse? ziehen

Variablen Cholesterin 0 auf y-Achse? ziehen

Optional kann die Grafik unter Titel/Fußnoten weiter beschriftet werden

4.1 Streudiagramm 61

Abbildung 4.1: Eingabemenu Streudiagramm (einfach)

62 4. Woche 3

Ausgabe

Abbildung 4.2: Scatterplot

Interpretation

Es besteht ein deutlicher linearer Zusammenhang zwischen dem Blutdruck-Ausgangeswert

und dem Cholesterinwert zu Beginn der Studie. Je hoher der Blutdruck-Ausgangswert war,

desto hoher war tendenziell auch der Cholesterin-Ausgangswert.

Um den Zusammenhang der beiden Variablen besser interpretieren zu konnen, ist es oft

hilfreich, die Regressionsgerade durch die Punkte einzuzeichnen.

4.1 Streudiagramm 63

Durchfuhrung

Im Ausgabefenster auf die Grafik doppelklicken

im Diagrammeditor alle Punkte durch klicken markieren

rechte Maustaste drucken und im kontextsensitiven Menu”Hinzufugen Anpassungslinie bei

Gesamtwert“ auswahlen.

Ausgabe

Abbildung 4.3: Streudiagramm mit Anpassungslinie

64 4. Woche 3

4.2 Korrelation

Um zu beurteilen, wie stark ein Zusammenhang zwischen zwei Großen ist, errechnet man den

Korrelationskoeffizienten.

Ausfuhrliche Erlauterungen dazu sind z. B. in [5] und [7] zu finden.

Hintergrund

Der Korrelationskoeffizient kann Werte von −1 bis +1 annehmen. Ein positives Vorzeichen

bedeutet, dass mit zunehmenden Werten einer Große die Werte der anderen Große steigen.

Ein negatives Vorzeichen lasst einen inversen Zusammenhang erkennen (mit steigenden Wer-

ten einer Variable sind fallende Werte der zweiten Große zu beobachten).

Der Betrag des Korrelationskoeffizienten gibt an, wie eng die Beziehung zweier Variablen ist.

Wenn der Korrelationskoeffizient den Wert +1 oder −1 annimmt, kann man anhand einer Va-

riablen die andere Variable exakt vorhersagen. In diesem Fall ist keine zufallsbedingte Steuung

vorhanden.

Der Korrelationskoeffizient ist ein symmetrisches Maß, d. h. er liefert keine Aussage daruber,

welche Variable beeinflusst wird. Eine weitere Eigenschaft des Korrelationskoeffizienten be-

steht in der Invarianz gegenuber linearen Transformationen.

Je nach Skalenniveau der zu untersuchenden Variablen unterscheidet man zwei Korrelations-

koeffizienten.

Der Korrelationskoeffizient nach (Bravais-) Pearson misst den linearen Zusammenhang

zweier stetiger Merkmale. Er ist nur dann anwendbar, wenn die Daten intervallskaliert sind

und beide Variablen aus normalverteilten Grundgesamtheiten stammen. Das Ergebnis wird

stark von Ausreißern beeinflußt. Der Korrelationskoeffizient nach Pearson berechnet sich als

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2∑ni=1(yi − y)2

(4.2.1)

wobei mit x bzw. y das arithmetische Mittel der i = 1, . . . , n Beobachtungen der Variablen

X bzw. Y bezeichnet ist. In unserem Fall (Beispiel Streudiagramm Abb. 4.2) war

X = Blutdruck-Ausgangswert, Y = Cholesterin-Ausgangswert.

Falls die Daten mindestens ordinalskaliert vorliegen, so kann der Spearman - Korrelations-

koeffizient berechnet werden. Mithilfe dieses Korrelationskoeffizienten erhalt man Aussagen

4.2 Korrelation 65

uber monotone Zusammenhange. Normalverteilung wird nicht vorausgesetzt. Fur die Be-

rechnung werden alle Wertepaare zunachst geordnet und Range gebildet. Anstatt der Ori-

ginalwerte werden dann diese Range in Formel (4.2.1) eingesetzt. Existieren keine Beobach-

tungen mit identischen Merkmalsauspragungen (sog. Bindungen), so kann der Spearman-

Rangkorrelationskoeffizient auch mithilfe folgender Formel berechnet werden.

rSP = 1− 6∑ni=1D

n3 − n(4.2.2)

Dabei ist mit Di die Rangdifferenz der i-ten Beobachtungseinheit von Merkmal X und Y und

mit n die Fallzahl bezeichnet.

Beispieltabelle zur Rangbildung

Xi Yi rg(xi) rg(yi)

2 8 1 25 7 3 13 9 2 3

Beispiel

In der Datei Blutdruck.sav befinden sich die Daten von 120 Hypertonikern, von denen

Blutdruckmessungen und einige Parameter zu Studienbeginn, nach einem Monat und

nach 12 Monaten medikamentoser Therapie vorliegen.

Es soll untersucht werden, ob der Blutdruck zu Beginn mit dem Alter, dem Choleste-

rinwert zu Beginn und der Korpergroße assoziiert ist.

66 4. Woche 3

Durchfuhrung

Analysieren → Korrelation → bivariat

Variablen: Blutdruck 0, Alter, Cholesterin 0, Groesse

Korrelationskoeffizienten: � Pearson � Spearman anhaken

Abbildung 4.4: Eingabemenu bivariate Korrelation

4.2 Korrelation 67

Ausgabe

Abbildung 4.5: Pearson Korrelationskoeffizienten

Abbildung 4.6: Spearman Korrelationskoeffizienten

Interpretation

Das Alter zeigt eine schwache negative Korrelation mit dem Blutdruckwert zu Beginn

der Studie, die Korpergroße einen leichten positiven Zusammenhang. Die starkste posi-

tive Korrelation besteht zwischen den Anfangswerten von Cholesterin und Blutdruck.

68 4. Woche 3

Das heißt, je hoher der Cholesterinwert am Anfang war, desto hoher ist tendenziell auch

der Blutdruck zu Beginn.

Spearman und Pearson Korrelationskoeffizienten sind sehr ahnlich, ein nicht-linearer

Zusammenhang hat sich somit nicht herauskristallisiert.

Die Korrelationsmatrix ist symmetrisch mit der Hauptdiagonalen als Spiegelachse. Auf

der Hauptdiagonalen findet sich die Korrelation einer jeden Variablen mit sich selbst,

die immer”1“ ergibt.

4.3 Lineare Regression 69

4.3 Lineare Regression

Hangt die Auspragung eines Merkmals von einer Einflussgroße ab, so stellt sich das

Problem, die Art der Abhangigkeit quantitativ zu beschreiben. Diese Fragestellung

wird mittels Regressionsanalyse untersucht, indem einer beobachteten Punktwolke ei-

ne Regressionsgleichung angepasst wird. Die Kausalitatsstruktur muss bei derartigen

Untersuchungen zumindest insoweit geklart sein, dass man von einer Einflussgroße

und einer abhangigen Variablen sprechen kann. Wir behandeln den einfachsten Fall,

die lineare Abhangigkeit. Hier wird durch eine Punktwolke eine Gerade gelegt. Ob

diese Anpassung im Einzelfall gerechtfertigt ist, muss vorher uberpruft werden. Gute

Anhaltspunkte liefert das Streudiagramm, das in Kapitel 4.1 behandelt wurde. Weitere

Entscheidungshilfen liefern publizierte Studien und sachlogische Uberlegungen. Gene-

rell sollte der modellierte Zusammenhang moglichst einfach sein, um eine vernunftige

Anwendbarkeit sicherzustellen.

Hintergrund

Liegen die Datenpaare (xi, yi) vor, so ist die Beziehung y = f(x) + ε im einfachsten

Fall eine Gerade, wobei ε den stochastischen Fehlerterm darstellt. Die Funktion ei-

ner Geraden ist durch zwei Parameter bestimmt, dem y-Achsenabschnitt (Ordinaten-

schnittpunkt) a und der Steigung b. Die Steigung b wird als Regressionskoeffizient

bezeichnet. Damit ergibt sich die Funktionsgleichung als

y = f(x) = a+ b · x (4.3.3)

wobei y den durch die Geradengleichung geschatzten y-Wert bezeichnet.

Ziel der linearen Regressionsanalyse ist es, anhand der Beobachtungen (xi, yi) diejenige

Parameterkonstellation (a, b) zu berechnen, die die Punkte optimal beschreibende Gera-

de liefert. Unter optimal versteht man, dass die Gerade so liegen soll, dass die Streuung

in vertikaler Richtung moglichst klein ist. Die Steigung b und der Achsenabschnitt a

werden also so berechnet, dass die beobachteten y moglichst wenig von y abweichen. Da-

zu muss die Summe der Abweichungsquadrate∑ni=1 (yi − yi)2 =

∑ni=1 (yi − (a+ b · xi))2

70 4. Woche 3

moglichst gering sein. Die Quadrierung ist notig, da sich die Punkte sowohl uber als

auch unter der Regressionsgerade befinden und sich dadurch positive und negative

Differenzen ergeben, die in der Summe Null ergeben wurden (ebenso wie bei der Be-

rechnung der Varianz). Die”besten“ Paramenter a und b erhalt man - wie aus der

Analysis bekannt ist - indem man die partiellen Ableitungen der Funktion bezuglich a

und b gleich Null setzt. Die gesuchten Regressionskoeffizienten ergeben sich dann aus

den Normalgleichungen als

∑ni=1(xi − x)(yi − y)∑n

i=1(xi − x)2(4.3.4)

a = y − bx (4.3.5)

mit x als arithmetisches Mittel der x-Werte, y entsprechend. Man nennt diese Schat-

zungen auch Kleinste-Quadrate-Schatzer (KQ) oder Ordinary-Least-Square-

Schatzer (OLS). Alternativ zur Quadrierung gibt es andere Moglichkeiten im mathe-

matischen Sinne Abstande zu definieren. Die Quadrierung ist jedoch im Regressions-

kontext am haufigsten verwendet.

Fur die Diagnostik und Beurteilung der Regressionsanalyse stellt das Bestimmtheits-

maß R2 ein wichtiges Hilfsmittel dar. Das Bestimmtheitsmaß wird interpretiert als

Anteil der Information von Y , die durch X erklart wird, relativ zur gesamten Informa-

tion von Y . Je großer R2 ist, desto hoher ist der Anteil der durch X erklarten Streuung

von Y . Daher liegt R2 zwischen 0 und 1, wobei R2 = 0 bedeutet, dass X und Y unkor-

reliert sind und R2 = 1, dass Y exakt durch X vorhergesagt werden kann.

Beispiel

In der Datei Blutdruck.sav soll analog zu obigem Beispiel die Regressionsgerade fur

die Beziehung des Cholesterinausgangswertes und dem Blutdruck nach einem Monat

bestimmt werden.

Durchfuhrung

Analysieren → Regression → Linear

Abhangige Variable: Blutdruck 1

Unabhangige Variable: Cholesterin 0

Methode: Einschluss

Abbildung 4.7: Eingabemenu Lineare Regression

72 4. Woche 3

Ausgabe

Abbildung 4.8: Ausgabetabellen der linearen Regression

Interpretation

Das Ergebnis der Regressionsanalyse ist in der letzten Tabelle zu finden. Hier werden

die Parameter in der Spalte”nicht-standardisierte Koeffizienten“,

”B“ ausgegeben. In

dieser Spalte befinden sich zwei Werte. Der mit”Konstante“ bezeichnete Wert gibt den

Ordinatenschnittpunkt a an, der Wert in der Zeile”Cholesterin 0“ gibt den Regressi-

onskoeffizienten b an. Dies fuhrt zu folgender Regressionsgleichung:

Blutdruck nach 1 Monat = −12, 611+0, 655·Cholesterin zu Beginn der Studie (4.3.6)

Bei einem Cholesterin-Ausgangswert von z. B. 200 lasst hiernach ein Blutdruck von

ca. 118 mmHg nach einem Monat Therapie erwarten. Hat ein Patient im Vergleich mit

einem anderen Patienten einen um 10 Einheiten erhohten Cholesterin-Ausgangswert,

so ist bei diesem Patienten ein um 6,55 mmHg hoherer Blutdruck nach einem Monat

zu erwarten.

Das Bestimmtheitsmaß R2 hat einen Wert von 0, 451 (siehe erste Tabelle), was einer

maßigen Anpassung entspricht. Anhand des Cholesterin-Ausgangswertes und dem ge-

schatzten funktionalen Zusammenhang lasst sich der Blutdruck nach einem Monat nur

vage vorhersagen.

74 4. Woche 3

4.4 Ubungsaufgaben

In dieser Ubung sollen Sie den Zusammenhang von Cholesterin Ausgangswert und Cho-

lesterin nach einem Monat untersuchen.

1. Zeichnen Sie ein Streudiagramm, das den Zusammenhang von Cholesterin an den

beiden Zeitpunkten aufzeigt. Unterscheiden Sie dabei zwischen den beiden Be-

handlungsgruppen. (Hinweis: Gruppiertes Streudiagramm)

Zeichnen Sie außerdem eine Regressionsgerade durch die Punktwolke.

2. Besteht ein Zusammenhang zwischen den Cholesterinwerten an beiden Zeitpunk-

ten? Berechnen Sie dazu geeignete Korrelationskoeffizienten. Wie interpretieren

Sie das Ergebnis?

3. Fuhren Sie eine lineare Regressionsanalyse durch, um den in Ubung 1 gezeichne-

ten Zusammenhang zu quantifizieren. Wie lautet die Geradengleichung?

Wie mussten die Regressionskoeffizienten lauten, wenn keine Anderung des Cho-

lesterins nach einem Monat stattgefunden hatte?

Oft ist interessant, ob sich im Gesamtkollektiv eine Erhohung oder Verringerung

des Cholesterinspiegels nach einem Monat eingestellt hat. Wie musste die Skalie-

rung der Grafik aus Ubung 1 angepasst werden, damit diese Frage visuell beant-

wortet werden kann?

4. Fuhren Sie nun eine erneute Regressionsanalyse durch, nachdem folgene Einstel-

lungen geandert wurden:

Daten → Datei aufteilen → � Gruppen vergleichen auswahlen

Behandlung zu Gruppen basieren auf: hinzufugen

Vergessen Sie nicht, nach Bearbeitung der Aufgabe die Teilung des Datensatzes

wieder aufzuheben.

1. Streudiagramm

Abbildung 4.9: Punktwolke mit Regressionsgerade

76 4. Woche 3

2. Korrelation

Abbildung 4.10: Pearson und Spearman Korrelationskoeffizienten

Die Korrelation zwischen dem Cholesterin-Anfangswert und dem nach einem Mo-

nat betragt 0,613 (Pearson) bzw. 0,604 (Spearman), d.h. es besteht ein positiver

Zusammenhang. Ein hoher Wert zu Studienbeginn spricht tendenziell fur einen

hoheren Wert nach einem Monat.

Die beiden Werte unterscheiden sich nicht sehr stark, weshalb ein linearer Zusam-

menhang angenommen werden kann.

3. Regression

Abbildung 4.11: lineare Regression

Geradengleichung: y = −82, 345 + 1, 349 · x

Hatte es keine Anderung im Cholesterinwert gegeben, so wurde die Geradengeli-

chung folgendermaßen aussehen: y = 0 + 1 · x

Fur die visuelle Beantwortung obiger Frage mussten die Achsen gleich skaliert

werden und idealerweise die Winkelhalbierende miteingezeichnet werden.

78 4. Woche 3

Abbildung 4.12: Streudiagramm mit der Winkelhalbierenden

4. Regression nach Datenaufteilung

Abbildung 4.13: lineare Regression aufgeteilt nach Behandlungsgruppen

80 4. Woche 3

Kapitel 5

Woche 4

Ein statistischer Test dient zum Uberprufen einer statistischen Hypothese. Man kann

mit ihm uberprufen, ob fur bestimmte beobachtete Effekte in Stichprobendaten (z. B.

Mittelwertunterschiede) der Zufall als Ursache mit einer vorgegebenen Irrtumswahr-

scheinlichkeit ausgeschlossen werden kann.”Statistisch signifikant“ bedeutet also nichts

anderes als”wahrscheinlich nicht durch Zufall zu erklaren“. Die Wahrscheinlichkeit,

mit der z. B. der beobachtete Mittelwertunterschied oder noch großere Unterschiede

in der Stichprobe auftreten, falls in der Grundgesamtheit tatsachlich kein Unterschied

besteht, heißt p-Wert. Der p-Wert ist eine Wahrscheinlichkeit und nimmt daher nur

Werte zwischen 0 und 1 an. Unterschreitet der p-Wert ein zuvor festgelegtes Signifi-

kanzniveau von z. B. 5%, so gilt das Resultat des statistischen Tests als signifikant und

damit die Alternativhypothese (Unterschied zwischen den Gruppen in der Grundge-

samtheit) als wahrscheinlich. Liegt der p-Wert uber dem Signifikanzniveau, so konnte

ein Unterschied nicht nachgewiesen werden. Dies heißt aber nicht, dass kein Unter-

schied besteht. Es bedeutet nur, dass die Nullhypothese (kein Unterschied zwischen

den Gruppen) zu wahrscheinlich ist, um abgelehnt werden zu konnen.

82 5. Woche 4

5.1 Der Chi-Quadrat-Test

Hintergrund

Der Chi-Quadrat-Test wird angewendet, wenn ein Haufigkeitsvergleich zwischen zwei

oder mehreren Gruppen bezuglich einer kategorialen Zielgroße durchgefuhrt werden

soll. Voraussetzung fur die Anwendbarkeit ist, dass die erwartete Haufigkeit in hoch-

stens 20% der Zellen kleiner als 5 ist. Die zugrundeliegenden zweiseitigen statistischen

Hypothesen lauten:

H0 : A und B sind unabhangig, d.h. das Merkmal B besitzt in jeder der

Kategorien von A die gleiche Haufigkeitsverteilung und umgekehrt.

H1 : A und B sind nicht unabhangig, d.h. mindestens zwei Kategorien von B

unterscheiden sich in ihrer Haufigkeitsverteilung bzgl. A und umgekehrt.

Um den p-Wert auszurechnen muss zunachst einmal berechnet werden, welche Wer-

te in der Stichprobe in den einzelnen Gruppen zu erwarten waren, falls H0 zutrifft.

Unter der allgemeinen Annahme, dass A m und B k kategoriale Auspragungen be-

sitzen, lassen sich die in der Stichprobe beobachteten Haufigkeiten ni,j der jeweiligen

Kategorien (i, j) in einer Kontingenztafel wie folgt darstellen:

1 . . . m∑

1 n11 . . . n1m n1.

2 n21 . . . n2m n2.

.... . .

......

k nk1 . . . nkm nk.∑n.1 . . . n.m n

5.1 Der Chi-Quadrat-Test 83

Mithilfe der Kontingenztabelle konnen die erwarteten Haufigkeiten berechnet werden

eij =ni.n· n.j =

ni.n.jn

(5.1.1)

Im nachsten Schritt wird die Teststatistik berechnet. Diese gibt an, wie stark sich die

gezogene Stichprobe von der erwarteten Haufigkeit unterscheidet. Ist dieser Unterschied

groß, so spricht dies fur die Alternativhypothese, d. h. dass es tatsachlich einen Unter-

schied in der Grundgesamtheit gibt. Die Teststatistik des Chi-Quadrat-Tests ist gegeben

χ2 =k∑i=1

m∑i=1

(nij − eij)2

eij(5.1.2)

Vereinfacht kann man die Teststatistik auch darstellen als

χ2 =∑ (B − E)2

E(5.1.3)

also als quadrierte Differenz der beobachteten (B) zu den erwarteten (E) Haufigkeiten

relativ zu den erwarteten Haufigkeiten. Das Quadrat im Zahler dient dazu, negative

Differenzen zu vermeiden (siehe auch Formel fur die Varianz).

Basierend auf dieser Teststatistik lassen sich die p-Werte des Tests uber die Integration

der Dichte der χ2-Verteilung berechnen.

Beispiel

Im Datensatz Blutdruck.sav soll untersucht werden, ob die Haufigkeiten der Neben-

wirkung”Mudigkeit“ mit dem BMI (Einteilung anhand der BMI-Kategorien) assoziiert

84 5. Woche 4

Durchfuhrung

Analysieren −→ Deskriptive Statistiken −→ Kreuztabellen

Zeilen: BMI kat

Spalten: Diabetes

Exakt: � Exakt anhaken

Weiter

Statistiken: � Chi-Quadrat anhaken

Weiter

Zellen: � Beobachtet und � Prozentwerte Zeilenweise anhaken

Weiter

Abbildung 5.1: Eingabemenu Kreuztabellen

5.1 Der Chi-Quadrat-Test 85

Ausgabe

Abbildung 5.2: Ausgabe der Kreuztabelle

Interpretation

Die erste Tabelle zeigt auf, wieviele Beobachtungen in die Analyse eingehen. In der

zweiten Tabelle ist die Kontingenztabelle zu finden. In der ersten Zeile werden dabei

die beobachteten absoluten, in der zweiten Zeile die relativen Haufigkeiten abgetragen.

In der dritten Tabelle ist das Ergebnis des statistischen Tests zu finden. Alle Zellen

weisen eine erwartete Haufigkeit großer 5 auf, so dass die Voraussetzung fur die Test-

durchfuhrung erfullt ist (Fußnote a). Der exakte p-Wert des Pearson-Chi-Quadrat-Tests

86 5. Woche 4

ist in der Spalte”Exakte Signifikanz (2-seitig)“ zu finden. Der p-Wert ist mit einem Wert

von 0,838 großer als das Signifikanzniveau (0,05). Somit kann die Nullhypothese nicht

abgelehnt werden. Ein Unterschied in der Mudigkeitsverteilung in den BMI-Kategorien

ist nicht nachweisbar.

5.2 Uberprufung der Normalverteilung

Hintergrund

Ein wichtiges Kriterium fur die Testauswahl beim Gruppenvergleich eines stetigen

Merkmals ist die Normalverteilung. Eine ganze Klasse von statistischen Tests, die so-

genannten parametrischen Tests setzen voraus, dass das stetige (quantitative, metri-

sche) Merkmal einer bestimmten Verteilung folgt. Jede Normalverteilung kann anhand

von zwei Parametern beschrieben werden, dem Mittelwert und der Varianz. Diese zwei

Parameter legen die gesamte Form der Kurve und damit die Verteilung fest. Nimmt

man die Normalverteilung fur das zugrundeliegende Merkmal an, so werden alle Infor-

mationen aus den Daten auf diese beiden Maßzahlen reduziert. Somit ist die Normal-

verteilungsannahme mit weitreichenden Konsequenzen verbunden.

Wichtige Eigenschaften der Normalverteilung sind unter anderem:

• Symmetrie um den Mittelwert

• (theoretischer) Wertebereich (−∞;∞)

• stetig, d. h. jeder Wert der x-Achse kann angenommen werden

Es ist deshalb auf jeden Fall vorab zu untersuchen, ob eine Normalverteilung vorliegt

bzw. vorliegen kann. Fur parametrische Gruppenvergleiche wird die Normalverteilung

in jeder Gruppe benotigt.

Zur explorativen Diagnose eignet sich das Histogramm sehr gut. Das Histogramm

dient zur Darstellung der Haufigkeitsverteilung. Ausgangspunkt fur die Aufstellung

einer Haufigkeitsverteilung ist immer die Zusammenfassung von Merkmalsauspragun-

gen zu Klassen. Bei metrischen Variablen mussen diese Klassen kunstlich festgelegt

5.2 Uberprufung der Normalverteilung 87

werden. Fur die Anzahl der Klassen und damit der Wahl der Klassenbreite existie-

ren Faustregeln, also Empfehlungen, beispielsweise Anzahl der Klassen k = [√n] oder

k = [10 log10 n]. Die Zuordnung zu Klassen hat hier den Sinn einer Zusammenfassung

der Daten. Das Histogramm ist ein spezielles Balkendiagramm, bei dem die Balken

unmittelbar aneinander grenzen. Die Hohe der Balken entspricht dem Anteil, den die

Klasse in der Gesamtstichprobe einnimmt. Die Breite der Balken ist so normiert, dass

sich die Flache der Balken zu eins aufsummiert.

Beispiel

Im Datensatz Blutdruck.sav soll der Blutdruck nach einem Monat (Blutdruck 1) in

den beiden Behandlungsgruppen auf Normalverteilung untersucht werden.

Dazu soll ein Histogramm fur jede Behandlungsgruppe gezeichnet werden. Zur besseren

Interpretation soll das Histogramm mit der Dichte der entsprechenden Normalvertei-

lung uberlagert werden.

Durchfuhrung

Analysieren −→ Deskriptive Statistiken −→ Explorative Datenanalyse

Abhangige Variablen: Blutdruck 1

Faktorenliste: Behandlung

Anzeige: Diagramme Diagramme...

Deskriptiv � Histogramm anhaken

Boxplots � keine Weiter

88 5. Woche 4

Abbildung 5.3: Eingabemenu Explorative Datenanalyse

Abbildung 5.4: Eingabemenu Explorative Datenanalyse: Diagramme

5.2 Uberprufung der Normalverteilung 89

Zum nachtraglichen Anzeigen der uberlagerten Normalverteilungskurve wechseln Sie

durch Doppelklick auf die Grafik in den Diagramm-Editor. Wahlen Sie den Button

Verteilungskurve anzeigen.

Bitte schließen Sie danach den Diagramm-Editor wieder.

Ausgabe

Abbildung 5.5: Histogramm mit Normalverteilungskurve fur Behandlung 0

90 5. Woche 4

Abbildung 5.6: Histogramm mit Normalverteilungskurve fur Behandlung 1

Interpretation

Es sind keine gravierenden Abweichungen von der Normalverteilungskurve sichtbar. Der

visuelle Eindruck ist jedoch stark von der Wahl der Klassenbreite abhangig.

5.3 Der t-Test 91

5.3 Der t-Test

Mit dem t-Test wird die mittlere Lage eines stetigen Merkmals in zwei Gruppen mitein-

ander verglichen (Mittelwertvergleich). Man unterscheidet nach der Art des Vergleichs

zwischen t-Tests fur verbundene Stichproben, z. B. Vorher-Nachher-Vergleiche und

t-Tests fur unverbundene Stichproben, z. B. Vergleich zweier Behandlungsgruppen.

5.3.1 t-Test fur unverbundene Stichproben

Hintergrund

Voraussetzung fur die Anwendbarkeit des t-Tests ist die Normalverteilung in jeder

Gruppe. Weiterhin mussen die zu vergleichenden Gruppen unabhangig sein. Die Unab-

hangigkeit ist i. d. R. dann gegeben, wenn die Gruppen unterschiedliche, nichtverwandte

Beobachtungseinheiten, die zufallig aus der Grundgesamtheit gezogen wurden, enthal-

Die zweiseitigen Hypothesen fur den Mittelwertvergleich einer stetigen, normalverteil-

ten Variablen X in zwei Gruppen lauten:

H0 : µ1 = µ2

H1 : µ1 6= µ2

wobei µk = 1nk

∑nki=1 xi das arithmetische Mittel von X uber alle Beobachtungseinheiten

der Gruppe k darstellt, mit k ∈ {1, 2} fur den Fall eines 2-Gruppen-Vergleichs. Als

Testgroße wird die sogenannte t-Statistik verwendet. Die mit t bezeichnete Große

setzt sich zusammen aus dem Betrag der Differenz der Mittelwerte geteilt durch die

Streuung der durchschnittlichen Differenz. Große Werte der Testgroße sprechen fur

die Alternativhypothese. Anhand der Testgroße und der Verteilung der Testgroße (t-

Verteilung) lasst sich der p-Wert berechnen.

Beispiel

Die Hauptfragestellung der Blutdruckstudie (Datei Blutdruck.sav) besteht darin, die

beiden Medikamente Alphasan und Betasan hinsichtlich ihrer blutdrucksenkenden Wir-

92 5. Woche 4

kung miteinander zu vergleichen. Die Behandlungsgruppen setzen sich aus einem dis-

junkten Patientenkollektiv zusammen, so dass nach Uberprufung der Normalverteilung

in Kapitel 5.2 der t-Test fur unverbundene Stichproben angewendet werden kann.

Durchfuhrung

Analysieren −→ Mittelwerte vergleichen −→ t-Test bei unabhangigen Stichproben

Testvariable(n): Blutdruck 1

Gruppenariable: Behandlung

Gruppen def...: � Angegebene Werte verwenden: Gruppe 1:0, Gruppe 2:1

Weiter

Abbildung 5.7: Eingabemenu t-Test bei unabhangigen Stichproben

5.3 Der t-Test 93

Ausgabe

Abbildung 5.8: Ausgabe t-Test bei unabhangigen Stichproben

Interpretation

Neben dem eigentlichen Ergebnis des t-Tests umfasst die Ausgabe noch die Fallzahl,

Mittelwert und Streuung in beiden Gruppen sowie den Levene-Test auf Varianzhomo-

genitat. Ublicherweise verwirft man die Varianzhomogenitat, wenn der Levene-Test ein

p < 0, 05 (bzw. manchmal auch p < 0, 10) ergibt. Das bedeutet, dass die Annahme der

gleichen Varianzen nicht zutrifft und in obigem Output die zweite Zeile Varianzen sind

nicht gleich verwendet werden muss.

Im Beispiel kann die erste Zeile verwendet werden. Dabei ergibt sich eine mittlere Dif-

ferenz von 4,980 mmHg (95%-KI = [1,259; 8,701]) Der p-Wert betragt 0,009, was aqui-

valent dazu ist, dass die 0 nicht im 95%-Konfidenzintervall enhalten ist (p<0,05). Die

Nullhypothese wird also zum Signifikanzniveau 5% abgelehnt, d. h. die Behandlungs-

gruppen unterscheiden sich hinsichtlich des Blutdrucks nach einem Monat signifikant

voneinander. Es existiert also ein Unterschied in der Wirkung der beiden Medikamen-

te: unter Betasan-Behandlung ist der Mittelwert des Blutdrucks nach 1 Monat kleiner

als in der Alphasan-Behandlungsgruppe, d.h. dieses Medikament senkt den Blutdruck

besser.

94 5. Woche 4

5.3.2 t-Test fur verbundene Stichproben

Hintergrund

Sind die zu vergleichenden Messwerte voneinander abhangig, wie dies typischerweise bei

Vorher-Nachher-Vergleichen auftritt, so muss dies berucksichtigt werden. Beim t-Test

fur abhangige Stichproben wird eine Normalverteilung der Differenzen vorausgesetzt.

Patienten, die zu Studienbeginn hohe Blutdruckwerte aufweisen, werden am Studien-

ende vermutlich auch hohere Werte als andere Patienten haben. Es konnen nur solche

Beobachtungen in den Test einfließen, bei denen zu beiden Zeitpunkten Messwerte er-

hoben wurden.

Die zweiseitigen Hypothesen fur den Mittelwertvergleich einer stetigen, normalverteil-

ten Variablen X zu zwei Zeitpunkten lauten:

H0 : ∆ = µ2 − µ1 = 0

H1 : ∆ = µ2 − µ1 6= 0

wobei µj = 1nj

i=1 xi das arithmetische Mittel von X uber alle Beobachtungseinheiten

zum Zeitpunkt j darstellt. Bei 2 Zeitpunkten ist j ∈ {1, 2}.

Die Testgroße stellt wiederum die t-Statistik dar. Der Zahler wird durch die Diffe-

renz der jeweils zusammengehorigen Wertepaare (x1,i, x2,i) gebildet (vgl. unabhangige

Stichproben: Differenz der Mittelwerte). Im Nenner wird analog zur Effektgroße bei un-

abhangigen Stichproben die Streuung der Wertepaardifferenzen abgetragen. Basierend

auf der Testgroße kann der p-Wert bestimmt werden.

Beispiel

Nun soll uberpruft werden, ob sich der systolische Blutdruck wahrend der Studie signi-

fikant geandert hat (Datei Blutdruck.sav).

5.3 Der t-Test 95

Durchfuhrung

Analysieren −→ Mittelwerte vergleichen −→ t-test bei verbundenen Stichproben

gepaarte Variablen: Blutdruck 0, Blutdruck 2 (Studienende)

Abbildung 5.9: Eingabemenu t-test bei verbundenen Stichproben

96 5. Woche 4

Ausgabe

Abbildung 5.10: Ausgabe t-Test bei verbundenen Stichproben

Interpretation

Die Ausgabe beginnt mit einer Tabelle, in der deskriptive Maßzahlen der beiden Grup-

pen zu finden sind. Eine zweite Tabelle gibt die Korrelation der beiden Variablen an.

Das Ergebnis des t-Tests ist in der dritten Tabelle dargestellt. In der letzten Spalte

(Sig. (2-seitig)) ist der p-Wert zu finden. In diesem Beispiel hat der p-Wert einen Wert

< 0, 001, eine signifikante Blutdrucksenkung konnte nachgewiesen werden. Mithilfe der

ersten Spalte erkennt man, dass der systolische Blutdruck im Mittel um 5,125 mmHg

(95%-KI = [4,092; 6,158]) gesenkt werden konnte.

5.4 Ubungsaufgaben 97

5.4 Ubungsaufgaben

Alle Ubungsaufgaben sind anhand des Datensatzes Blutdruck.sav zu losen. Versuchen

Sie alle Aufgaben mithilfe eines statistischen Tests zu beantworten.

1. Untersuchen Sie, ob sich die beiden Behandlungsgruppen in der Blutdrucksen-

kung um mindestens 10 mmHg unterscheiden. Erstellen Sie dazu zunachst eine

neue Variable BD Senkung gr10: ja/nein und vergleichen Sie die beiden Behand-

lungsgruppen hinsichtlich dieser Variable.

2. Gibt es signifikante Unterschiede zwischen den Behandlungsgruppen beim Chole-

sterinwert nach einem Monat?

3. Untersuchen Sie, ob und wie sich die Cholesterinwerte im Studienverlauf verandert

haben.

98 5. Woche 4

1. Chi-Quadrat-Test

Zur Berechnung der neuen Variable:

Transformieren → Variable berechnen

Zielvariable: BD Senkung gr10

Numerischer Ausdruck: Blutdruck 0 - Blutdruck 1 >= 10

Abbildung 5.11: Eingabemenu: neue Variable berechnen

Abbildung 5.12: Ausgabe der Kreuztabelle mit Chi-Quadrat-Test

Der p-Wert ist kleiner als das Signifikanziveau von 0,05. Somit kann die Nullhy-

pothese (Gleichheit) abgeleht werden, d.h. es besteht ein statistisch signifikanter

Unterschied zwischen den beiden Behandlungsgruppen hinsichtlich der Senkung

des Blutdrucks um mindestens 10 mmHg.

100 5. Woche 4

2. Als Voraussetzung fur den t-Test muss zuerst die Normalverteilungsannahme uber-

pruft werden:

Abbildung 5.13: Histogramm mit Normalverteilungskurve fur Alphasan-Behandlungsgruppe

Abbildung 5.14: Histogramm mit Normalverteilungskurve fur Betasan-Behandlungsgruppe

Abbildung 5.15: Ausgabe t-Test fur unabhangige Stichproben

Der p-Wert von 0,340 liegt uber dem Signifikanzniveau (0,05), so dass die Null-

hypothese nicht abgelehnt werden kann. Das bedeutet, die Behandlungsgruppen

unterscheiden sich nicht signifikant voneinander hinsichtlich des Cholesterinspie-

gels nach einem Monat.

3. t-Test fur verbundene Stichproben

Abbildung 5.16: Ausgabe t-Test fur verbundene Stichproben

Auch hier liegt der p-Wert 0,773 deutlich uber dem Signifikanzniveau von 0,05. Es

konnte also keine signifikante Veranderung des Cholesterinwertes innerhalb eines

Monats festgestellt werden.

102 5. Woche 4

Kapitel 6

Anhang

Datensatze

Fitness-Daten

Variablenname Erklarung

id Patientennummer

Ubungsleiter Durchfuhrender Ubungsleiter

Workout Anzahl an Workouts pro Woche

Alter Alter des Patienten

RuheFre1 Atemfrequenz des Patienten im Ruhezustand vor Beginn des Trainings

Messung2 Atemfrequenz des Patienten im Ruhezustand nach einem Monat

Messung3 Atemfrequenz des Patienten im Ruhezustand nach drei Monaten

Geschlecht Geschlecht des Patienten

104 6. Anhang

id Ubungsleiter Workout Alter RuheFre1 Messung2 Messung3 Geschlecht

1 1 Amund 1 23 68 65 65 22 2 Amund 1 31 84 81 75 23 3 Amund 1 32 72 68 65 24 4 Amund 2 48 72 68 66 25 5 Amund 2 22 78 75 73 26 6 Amund 2 45 60 60 64 17 7 Amund 2 27 90 87 85 18 8 Amund 2 26 66 62 60 19 9 Amund 2 26 84 80 78 2

10 10 Amund 2 48 66 62 60 211 11 Amund 2 36 66 62 60 212 12 Amund 3 25 54 54 52 113 13 Amund 3 23 66 62 62 214 14 Amund 3 46 54 56 56 215 15 Amund 3 24 72 68 70 116 16 Amund 3 29 54 52 50 117 17 Czika 1 70 68 66 218 18 Czika 1 36 80 76 74 219 19 Czika 1 28 76 76 74 220 20 Czika 2 24 74 70 72 221 21 Czika 2 24 82 78 76 122 22 Czika 2 30 66 64 62 223 23 Czika 3 44 78 76 76 224 24 Czika 3 25 60 58 56 225 25 Czika 3 24 72 68 66 126 26 Czika 3 23 54 52 50 127 27 Czika 4 29 66 62 62 228 28 Czika 4 27 62 60 60 129 29 Reed 1 46 84 82 82 130 30 Reed 1 25 88 86 84 231 31 Reed 2 28 84 82 82 232 32 Reed 2 37 78 76 74 233 33 Reed 2 23 72 70 68 134 34 Reed 2 37 72 70 66 235 35 Reed 3 42 60 58 56 136 36 Reed 4 33 56 56 54 237 37 Yang 1 39 90 88 82 238 38 Yang 1 28 96 92 90 139 39 Yang 2 28 86 84 80 140 40 Yang 2 30 78 76 74 141 41 Yang 2 26 74 72 70 142 42 Yang 2 48 72 70 68 243 43 Yang 3 41 76 72 68 144 44 Yang 3 31 60 60 58 145 45 Yang 4 66 64 68 2

Blutdruck-Daten

Variablenname Erklarung

ID ProbandennummerBeh. MedikamentBD 0 Systolischer Blutdruck zu StudienbeginnBD 1 Systolischer Blutdruck nach einem MonatBD 2 Systolischer Blutdruck nach einem JahrMud. Nebenwirkung MudigkeitBMI BMI-KategorienGeschl. GeschlechtAlter Alter in JahrenChol 0 Cholesterin zu Beginn der StudieChol 1 Cholesterin nach einem MonatGroesse KopergroßeDiab Nebenerkrankung Diabetes

ID Beh. BD 0 BD 1 BD 2 Mud. BMI Geschl. Alter Chol 0 Cholt 1 Groesse Diab.

1 1 156 146 150 0 1 1 62 238 254 172 02 1 138 127 137 1 0 1 67 225 228 193 03 0 148 140 147 0 0 0 56 234 225 166 04 0 162 154 155 0 2 1 65 247 244 199 05 1 138 126 131 0 1 1 67 225 221 177 06 0 156 147 145 0 0 1 59 235 224 188 07 0 151 145 143 0 1 1 46 217 229 172 08 1 148 137 140 1 1 0 60 238 245 177 09 0 152 147 151 0 2 0 65 247 266 175 0

10 0 154 146 148 0 1 0 61 245 239 168 011 0 146 140 153 0 1 1 61 227 236 181 012 0 168 160 174 0 1 0 58 256 252 166 013 1 156 144 151 1 0 1 49 225 231 176 014 0 131 121 133 1 1 1 50 201 169 173 015 0 142 132 122 0 1 1 67 229 203 166 016 0 158 155 160 0 1 1 61 239 272 174 017 0 148 141 143 0 2 0 67 245 241 169 018 0 147 137 140 0 1 0 60 237 214 179 019 0 157 151 155 0 1 0 58 245 260 177 020 1 158 149 156 1 1 0 56 244 271 175 021 1 136 124 120 0 0 0 62 228 225 167 022 1 158 150 163 1 1 1 49 227 266 183 023 1 164 150 153 1 1 0 60 254 248 162 024 1 140 128 131 0 0 0 68 238 237 165 025 1 139 130 133 0 0 0 60 229 253 171 0

106 6. Anhang

26 0 168 163 162 0 2 1 59 247 268 189 027 0 137 129 128 0 1 1 61 218 205 179 028 1 152 137 133 0 1 1 57 229 207 181 029 0 132 126 130 0 0 0 68 230 230 152 030 0 162 154 156 0 1 0 62 254 251 156 031 0 161 157 159 0 0 1 64 245 275 182 032 1 167 157 162 0 0 0 55 252 277 169 033 0 144 138 141 1 0 0 59 233 242 156 034 0 172 167 177 0 1 1 52 244 265 177 035 0 151 142 144 0 0 1 58 229 213 175 036 0 136 128 135 1 0 0 56 222 209 161 037 0 133 121 120 0 1 1 63 216 172 187 038 0 148 139 141 0 1 0 58 236 218 163 039 1 144 130 131 0 1 1 58 222 205 162 040 1 150 132 136 1 2 1 67 237 190 168 041 0 141 135 142 0 1 1 67 228 235 182 042 0 155 147 155 1 1 1 43 218 214 183 043 1 162 147 154 0 2 0 59 251 236 163 144 1 159 148 154 0 0 1 45 224 235 187 045 0 149 142 145 0 0 1 62 231 234 182 046 0 151 147 147 0 2 1 63 234 255 189 047 0 148 142 142 0 1 1 65 233 238 180 048 0 146 139 141 0 0 0 54 230 233 163 049 1 147 136 136 1 1 0 56 233 240 161 050 1 130 118 122 0 0 0 65 225 221 159 051 1 144 132 135 0 0 0 67 241 235 153 052 0 142 132 144 0 0 0 66 238 208 171 053 1 156 145 148 1 2 0 68 254 264 172 054 0 148 142 148 0 0 1 59 227 232 171 055 0 148 138 146 1 1 1 46 214 190 180 056 0 163 153 159 0 2 0 63 256 235 155 157 0 153 142 149 0 1 0 66 249 215 166 058 0 167 161 161 0 2 1 61 248 266 178 159 0 163 155 166 0 0 1 56 239 237 175 160 1 155 142 148 1 2 1 56 231 223 171 061 1 152 141 150 0 0 1 46 218 228 168 062 0 149 144 149 0 0 0 57 236 250 157 063 1 148 139 140 1 2 0 62 240 267 164 064 1 161 146 156 0 1 0 52 243 225 162 065 0 144 139 150 0 0 0 59 233 247 168 066 1 136 121 123 1 0 0 68 234 203 155 067 1 141 129 135 1 1 1 66 227 227 184 068 1 145 132 135 0 2 1 60 225 212 172 069 1 139 134 140 0 0 0 58 227 281 170 070 1 158 145 151 0 1 1 59 237 234 168 071 1 141 130 129 1 0 0 60 231 236 165 072 1 138 124 129 0 1 1 68 226 205 161 073 1 149 137 137 0 1 1 57 226 228 174 074 0 150 143 145 0 1 1 61 231 234 175 075 1 143 133 137 1 0 0 61 234 251 163 0

76 1 155 142 139 1 0 0 58 243 238 165 077 1 165 154 157 0 2 0 58 253 265 163 078 1 146 137 128 1 0 0 67 243 267 156 079 0 151 146 156 1 1 1 66 237 250 176 080 0 173 160 173 0 2 1 61 254 218 188 181 0 157 149 148 0 2 0 59 246 241 160 182 0 139 128 126 0 0 0 58 227 190 175 083 0 145 138 143 0 1 0 59 234 234 161 084 0 156 148 149 0 1 1 65 241 236 171 085 0 145 137 136 1 1 1 59 224 211 188 086 0 143 139 139 0 0 0 52 225 246 168 087 0 143 133 138 1 0 0 57 230 205 179 088 0 159 151 156 1 0 1 61 240 233 167 089 1 141 128 131 0 1 1 60 221 212 178 190 1 150 140 137 0 2 1 56 226 244 179 191 1 155 143 144 1 0 1 65 240 245 192 092 0 144 136 140 0 0 0 68 242 236 166 093 0 144 135 142 0 0 0 59 233 213 163 094 1 154 145 155 0 1 1 60 234 261 181 095 1 140 129 125 0 0 1 48 208 212 170 096 0 145 142 146 1 0 0 63 238 270 169 097 0 148 142 144 1 0 0 55 233 243 160 098 0 138 130 142 0 1 1 63 221 211 184 099 0 144 135 141 0 0 0 65 239 219 172 0

100 1 144 132 134 1 0 0 61 235 234 176 0101 0 147 139 148 1 2 1 60 227 215 173 0102 0 165 158 165 0 1 1 63 248 253 155 0103 0 157 149 156 0 1 1 58 235 231 168 0104 0 136 129 132 0 0 0 55 221 217 149 0105 0 148 141 148 0 0 0 47 225 222 172 0106 0 150 140 145 0 1 0 47 227 205 161 0107 1 153 140 148 0 2 1 57 230 225 200 0108 0 144 136 147 0 0 0 62 236 222 161 0109 0 159 155 156 1 1 0 61 250 282 172 0110 1 142 126 136 1 0 0 61 233 197 171 0111 0 164 158 168 1 2 1 57 241 253 182 0112 0 161 153 153 1 1 1 57 238 232 180 0113 1 167 157 164 0 1 1 67 254 275 172 0114 1 147 130 129 0 0 1 64 231 189 176 0115 0 156 151 152 0 1 1 61 237 255 181 0116 0 150 144 144 0 2 1 55 225 235 179 0117 1 161 149 151 1 1 0 59 250 256 182 0118 1 174 165 177 1 1 1 57 251 283 170 0119 0 139 134 144 0 1 0 59 228 240 159 0120 1 158 143 147 0 1 1 55 233 213 175 0

108 6. Anhang

Software

Die im Rahmen des Kurses verwendete Software umfasst EXCEL fur Windows, als Teil

des Microsoft Office 2003 Pakets und SPSS Version 19 fur Windows.

Microsoft Office und damit auch EXCEL sind auf den meisten Computern installiert

und somit weithin verfugbar, unter anderem auch auf den Rechnern im LUTZ.

Lizenzen fur das SPSS Softwarepaket sind fur Angehorige der Munchener Hochschulen

uber das Leibniz-Rechenzentrum (LRZ) zu beziehen. Fur weitere Informationen zum

Bezug von SPSS uber das LRZ wenden Sie sich bitte an deren Benutzersekretariat in der

Eingangshalle des LRZ-Gebaudes (Boltzmannstraße 1, 85748 Garching) oder erkundi-

gen sich auf der Homepage http://www.lrz-muenchen.de/services/swbezug/lizenzen/spss/.

Ausgefullter CRF-Bogen

Auf den folgenen Seiten finden Sie ein Beispiel fur einen ausgefullten CRF-Bogen.

Literaturverzeichnis

[1] P. Buhl, A. Zofel. SPSS 13. Addison-Wesley- Pearson Studium, Munchen, 9.

edition, 2004.

[2] J. Bortz and G. A. Lienert. Kurzgefaßte Statistik fur die klinische Forschung.

Springer, Berlin, 2003.

[3] L. Fahrmeier, R. Kunstler, I. Pigeot, and G. Tutz. Statistik - Der Weg zur Daten-

analyse. Springer, Heidelberg, 4. edition, 2004.

[4] S. A. Glantz. Primer of Biostatistics. McGraw-Hill Medical Publishing, 2001.

[5] V. Harms. Biomathematik, Statistik und Dokumentation. Harms, Kiel, 1998.

[6] C. McMurray I. MacMurray I. Hinton, P. R. Brownlow. SPSS Explained. Rout-

ledge, 2004.

[7] Wolfgang Kohler, Gabriel Schachtel, and Peter Voleske. Biostatistik. Springer,

[8] P. R. Kinnear and C. D. Gray. SPSS for Windows Made Simple. Psychology Press

(UK), 2004.

[9] N. L. Leech, K. C. Barrett, and G. A. Morgan. SPSS for Intermediate Statistics:

Use and Interpretation with CDROM. Lawrence Erlbaum Associates, 2005.

[10] K. Rinne. SPSS. Franzis, 2003.

skript biometrie computerseminar ws1213

Documents

presentation biometrie

notiuni de ultrasonografie in sarcina: biometrie, markeri...

hnízdní biologie, biometrie a etologie racka...

cours biometrie

skript heinz

skript: konstruktive und fertigungstechnische maßnahmen...

sonoanatomie und biometrie der ungestörten frühgravidität

icao & biometrie

bachelor mathematische biometrie ws15/16

echographie biometrie cours e.s.f 2006. biometrie de...

forschungsberichte der abteilung medizinische biometrie...

biometrie voor identiteitsverificatie · ‘presentation...

vorlesung biometrie für studierende der veterinärmedizin...

mathe1 skript

biometrie in militaire operaties

swt ws1213 folien v21

biometrie 2010

biometrie Übungen in spss - campus.uni-muenster.de ·...

mathematische biometrie 22 05 2019 02 - uni-ulm.de ·...

burgers en biometrie - vias | home · burgers en biometrie...