skript biometrie computerseminar ws1213
Post on 16-Feb-2015
46 Views
Preview:
TRANSCRIPT
Biomathe Computerseminar
Kursunterlagen
Bernhard Haller
Monika Bruderl
Raymonde Busch
Alexander Hapfelmeier
Victoria Kehl
Kurt Ulm
Stefan Wagenpfeil
Petra Wolf
5. Auflage, WS 2012/13
Inhaltsverzeichnis
1 Vorwort 1
2 Woche 1 3
2.1 Datenstruktur und Datenmanagement . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Erstellen einfacher Grafiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Import und Export von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Ubung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3 Woche 2 25
3.1 Erste Schritte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Deskriptive Statistik, Maßzahlen und tabellarische Darstellung . . . . . . . . . 31
3.3 Grafiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.1 Saulendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.2 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5 Losungsvorschlag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4 Woche 3 59
4.1 Streudiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
ii INHALTSVERZEICHNIS
4.5 Losungsvorschlag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5 Woche 4 81
5.1 Der Chi-Quadrat-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2 Uberprufung der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3.1 t-Test fur unverbundene Stichproben . . . . . . . . . . . . . . . . . . . . 91
5.3.2 t-Test fur verbundene Stichproben . . . . . . . . . . . . . . . . . . . . . 94
5.4 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.5 Losungsvorschlag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6 Anhang 103
Kapitel 1
Vorwort
Das vorliegende Skript ist als schriftliche Erganzung zu dem Biomathematik Computerkurs
gedacht. Es ist naturlich auf keinen Fall als Ersatz fur gute Standardtexte zu verstehen. Eine
Auswahl statistischer Fachbucher und Software-Handbucher ist im Anhang angegeben. Das
Hauptaugenmerk dieses Skripts liegt darin, die Umsetzung von statistischen Verfahren mittels
SPSS zu beschreiben. Uns ist bewusst, dass dies nur einen kleinen Aspekt der statistischen
Auswertung darstellt. Fur alle weiteren Aspekte der statistischen Auswertung, wie Fallzahl-
planung, Datenbankdesign, Auswahl der statistischen Methoden, Ergebnisinterpretation etc.,
steht Ihnen unser statistischer Beratungsservice zur Verfugung. Nahere Informationen dazu
finden Sie im Internet unter
http://www.med.tu-muenchen.de/de/gesundheitsversorgung/statistik.
Hier finden Sie auch Informationen uber regelmaßig stattfindende EXCEL- und SPSS-Auf-
baukurse.
Computerprogramme bieten eine große Anzahl von moglichen statistischen Berechnungen.
Alle Moglichkeiten konnen und sollen hier nicht erlautert werden. In der ersten Woche wird
das Datenmanagement in EXCEL beschrieben, in der zweiten Woche werden deskriptive Maß-
zahlen und grundlegende Grafiken in SPSS besprochen. Regression und Korrelation sind das
Thema der dritten Woche. Im letzten Kapitel wird der Chi-Quadrat-Test sowie der t-Test
durchgefuhrt.
Kapitel 2
Woche 1
Im Rahmen jeder experimentell-wissenschaftlichen Arbeit werden Daten erhoben, gesammelt
und aufbewahrt. Bevor mit der statistischen Auswertung begonnen werden kann, ist es erfor-
derlich, sich mit der Datenstruktur und der Datenaufbereitung zu befassen.
Das Microsoft-Programm EXCEL zeichnet sich durch seine große Verfugbarkeit aus, da es auf
nahezu jedem PC installiert ist. Zielsetzung dieses ersten Computerseminares ist es deshalb,
eine Einfuhrung in das Datenmanagement mit Microsoft EXCEL zu geben und zu vermitteln,
wie ein Datensatz fur die statistische Analyse aufbereitet werden sollte. Daruber hinaus wird
die Erstellung einfacher Grafiken in EXCEL besprochen.
2.1 Datenstruktur und Datenmanagement
Allgemeines
Daten sollten in”rechteckiger Form“ als sogenannte Datenmatrix vorliegen. Die Zeilen der
Datei stellen die einzelnen Beobachtungseinheiten (z. B. Patienten, Probanden, Versuchstie-
re) dar. Grundsatzlich sollte also fur jede Beobachtungseinheit genau eine Zeile vorliegen.
In den Spalten der Datei stehen die Variablen (z. B. Alter, Geschlecht, Blutdruck etc.), die
an den Beobachtungseinheiten erhoben wurden. EXCEL stellt im Gegensatz zu vielen Stati-
stikprogrammen keine Bedingungen an die Variablennamen. Mochte man Daten aber nicht
nur mit EXCEL verwenden, sollten die entsprechenden Namenskonventionen von vornherein
4 2. Woche 1
eingehalten werden und Variablennamen grundsatzlich keine Sonderzeichen oder Leerzeichen
enthalten, nicht zu lang sein und nicht doppelt vergeben werden.
Die Merkmalsauspragungen (= Eintrage in den einzelnen Zellen) sollten dabei in numerischer
Form (Zahlen) vorliegen. Um flexible Analysen zu ermoglichen und um unnotige Tippar-
beit zu vermeiden, ist es sinnvoll, bei alphanumerischer Mermalsauspragung (z. B. mannlich,
weiblich; ja, nein) mit einheitlichen Kodierungen (z. B. 1, 2 oder 1, 0) zu arbeiten. Es ist zu
bedenken, dass bestimmte Analyseprogramme Texteintrage nicht verarbeiten konnen.
Datumsangaben werden am besten in der Form TT.MM.JJJJ angegeben.
Zum Umgang mit fehlenden Werten gibt es verschiedene Moglichkeiten. Auf alle Falle sollte
die Kodierung einheitlich sein. Die Verwendung eines Wertes als Platzhalter (z. B. -999), der
in den theoretisch moglichen Werten der Beobachtungen nicht vorkommen kann, ermoglicht es
unterschiedliche Arten von fehlenden Werten unterscheidbar zu machen. In Statistikprogram-
men konnen solche besonderen Codes als fehlende Werte angegeben und interpretiert werden.
Auswertungen, z. B. Mittelwertberechnungen, liefern dann korrekte Werte. In EXCEL gibt
es eine solche Funktion nicht. Um Berechnungen in EXCEL durchzufuhren empfiehlt es sich
deshalb, die entsprechende Zelle der Merkmalsauspragung einfach leer zu lassen, da sonst
falsche Ergebnisse geliefert werden.
Liegen mehrere Messungen pro Beobachtungseinheit vor (z. B. wiederholte Messun-
gen des Blutdrucks im Verlaufe einer Therapie), sollte fur jede dieser Messungen eine Spalte
angelegt werden.
Beispiel
Abbildung 2.1: Datenstruktur
Diese Datei besteht aus vier Beobachtungseinheiten und acht Variablen. Bei Patient 4 wurde
das Gewicht nicht bestimmt. Fur den systolischen Blutdruck liegen zwei Messungen vor.
2.1 Datenstruktur und Datenmanagement 5
Zum Zwecke der Ubersichtlichkeit kann es unter Umstanden sinnvoll sein, den Gesamtda-
tenbestand auf mehrere Dateien aufzuteilen, z. B. Datei 1: Demographische Angaben; Datei
2: Blutdruckwerte; Datei 3: Laborwerte. Dabei ist darauf zu achten, dass jede dieser Dateien
nach dem oben beschriebenen Muster aufgebaut ist. Um Dateien fur eine gemeinsame Aus-
wertung kombinieren zu konnen, ist es wesentlich, dass in allen Dateien eine einheitliche und
eindeutige Identifikationsvariable (wie z. B. die Patientennummer) existiert. Diese Variable
wird auch als Schlusselvariable bezeichnet.
Lassen sich die Beobachtungseinheiten in zwei oder mehr Gruppen (z. B. unterschiedliche
Therapien) aufteilen und sollen diese Gruppen getrennt analysiert bzw. verglichen werden, so
muss eine zusatzliche Variable (= Spalte) eingefugt werden, in der fur jede Beobachtungsein-
heit die zugehorige Gruppe eingetragen ist. Hier ist wiederum auf eine geeignete Kodierung
zu achten.
Beispiel
Abbildung 2.2: Identifizierung der Gruppen uber Gruppenvariable
Hier gehoren die Patienten 1 und 6 zur Gruppe 1, wahrend die Patienten 2 und 4 zur Gruppe
2 gehoren.
Das EXCEL-Anwendungsfenster
Das EXCEL-Anwendungsfenster besteht aus den fur Office-Programme ublichen Leisten und
Feldern sowie aus der EXCEL-spezifischen Arbeitsmappe und der dazugehorigen Bearbei-
tungsleiste. Die jeweiligen Buttons und Menupunkte auf dem EXCEL-Bildschirm werden ak-
tiviert, indem man mit dem Mauspfeil darauf fahrt und die linke (manchmal auch die rechte)
Maustaste druckt. Dies wird oft als Klicken auf einen Menupunkt bzw. Button bezeichnet.
Sichtbare Bestandteile der Arbeitsmappe sind das aktuelle Tabellenblatt, bestehend aus Spal-
6 2. Woche 1
ten und Zeilen, sowie das Blattregister, das auf die zur Mappe gehorigen Tabellenblatter weist.
Uber dieses Register kann zwischen den verschiedenen Blattern der EXCEL-Arbeitsmappe ge-
wechselt werden. Reicht der Platz zur Anzeige der Tabellenblatter nicht aus, kann uber die
sogenannte Seitensteuerung zu den vorhandenen Blattern gewechselt werden. Umgeben ist
die Arbeitsmappe von Leisten und Feldern. Die Bearbeitungsleiste dient unter anderem der
Ansicht und der Editierung der aktuellen Zelle/Zellen im aktiven Tabellenblatt.
Aufbau einer EXCEL-Arbeitsmappe
• Die Arbeitsmappe besteht aus maximal 256 Tabellenblattern (Voreinstellung 3 Blatter)
• Ein Tabellenblatt besteht aus maximal 256 Spalten und 65536 Zeilen (bis Version 2003)
Aktuelles Feld
BlattregisterBildlaufleiste
Bearbeitungsleiste
SeitensteuerungTabellenblätter
Aktuelles Tabellenblatt
Abbildung 2.3: EXCEL-Anwendungsfenster
2.1 Datenstruktur und Datenmanagement 7
Hilfe in EXCEL
Uber das Menu”?“ (Microsoft EXCEL-Hilfe) erscheint am rechten Rand ein Hilfe Fenster.
Abbildung 2.4: Dialogfenster Hilfe
8 2. Woche 1
Arbeiten in Tabellen
Arbeiten mit Tabellenblattern
• Tabellenblatter einfugen
Menu: Einfugen → Tabellenblatt
Kontextmenu: Klick mit der rechten Maustaste auf das Tabellenblattregister → Einfu-
gen.
Uber die Registerkarte”Allgemein“ Tabelle auswahlen → OK.
• Tabellenblatter loschen
Menu: Bearbeiten → Blatt loschen.
Kontextmenu: Rechter Mausklick auf das Blattregister → Loschen.
• Tabellenblatter umbenennen
Menu: Format → Blatt → Umbenennen.
Kontextmenu: Rechter Mausklick auf das Blattregister → Umbennen.
Maus: Doppelklick auf den Blattnamen.
• Tabellenblatter verschieben / kopieren
Menu: Bearbeiten → Blatt verschieben/kopieren.
Angabe im Dialogfenster, welche Mappe an welche Blattposition verschoben/kopiert
werden soll.
Fur das Kopieren die Option Kopieren aktivieren.
Kontextmenu: Rechter Mausklick auf das Blattregister → Verschieben / Kopieren.
Es offnet sich das gleiche Dialogfenster wie oben beschrieben.
Arbeiten mit Zeilen, Spalten, Zellen
• Neue Zeilen, Spalten, Zellen einfugen
Zeile / Spalte / Zellen markieren, vor die eingefugt werden soll. Menu: Einfugen →
Zeilen / Spalten / Zellen ...
Fur das Einfugen von Zellen offnet sich ein Dialogfenster, im dem angegeben werden
kann, wie die bereits vorhandenen Zellen verschoben werden sollen.
Kontextmenu: Rechter Mausklick auf den markierten Zeilenkopf / Spaltenkopf / Zell-
2.1 Datenstruktur und Datenmanagement 9
bereich → Zellen einfugen.
Fur das Einfugen von Zellen offnet sich ein Dialogfenster wie oben beschrieben.
• Zeilen, Spalten, Zellen loschen
Zeile / Spalte / Zellen markieren.
Menu: Bearbeiten → Zellen loschen.
Fur das Loschen von Zellen offnet sich ein Dialogfenster, in dem angeben werden kann,
wie die entstehende Lucke aufgefullt werden soll.
Kontextmenu: Rechter Mausklick auf den markierten Zeilenkopf / Spaltenkopf / Zellbereich→
Zellen loschen.
Fur das Loschen von Zellen offnet sich ein Dialogfenster wie oben beschrieben.
• Zeilen, Spalten, Zellen verschieben bzw. kopieren
Zeilen / Spalten / Zellen markieren.
Menu: Bearbeiten → Ausschneiden (oder → Kopieren) → Zeilen / Spalten / Zellen
markieren, in die eingefugt werden soll → Bearbeiten → Einfugen.
Kontextmenu: Rechter Mausklick auf die markierten Zeilen / Spalten / Zellen → Aus-
schneiden (oder → Kopieren) → Zeilen / Spalten / Zellen markieren, in die eingefugt
werden soll → Einfugen.
Hinweis:
Bleibende”flimmernde“ Zellumrandungen nach Kopier- oder Ausschneideaktionen konnen mit
der Escape-Taste entfernt werden.
Die Dateneingabe
Elemente der Bearbeitungsleiste zur Dateneingabe
• Zelladresse: Gibt die Koordinaten der aktuellen Zelle an.
• Stornierschalter: Bricht die begonnene Eingabe in der aktuellen Zelle ab.
• Eingabeschalter: Schließt die Dateneingabe in der aktuellen Zelle ab (entspricht dem
Befehl ENTER).
• Formelschalter: Leitet die Eingabe einer Formel in die markierte Zelle ein.
10 2. Woche 1
• Zellinhaltsfeld: Zeigt den Inhalt der aktuellen Zelle an. Durch Positionierung des Cursors
in diese Zelle werden Stornier- und Eingabeschalter sichtbar.
Abbildung 2.5: Bearbeitungsleiste
Eingabe von Text
EXCEL erkennt automatisch, dass es sich um Text handelt, wenn Buchstaben (Ausnahme:
Datumsangaben) oder Sonderzeichen (Ausnahme: + - =) eingegeben werden.
Sollen Zahlen oder Datumsangaben als Text eingegeben werden, sind sie in Anfuhrungsstriche
(z. B.”01.01.1999“) oder Hochkommata (z. B. ’01.01.98’) zu setzen.
Ist die Zelle nicht bereits vorformatiert, wird der Text automatisch linksbundig ausgerichtet.
Eingabe von Zahlen
Werden nur Zahlen und fakultativ Plus-/Minuszeichen, Komma als Dezimaltrenner, Punkt
als Tausendertrenner eingetragen, wird der Inhalt automatisch als Zahl erkannt. Ist die Zelle
nicht bereits vorformatiert, wird die Zahl rechtsbundig angeordnet.
2.1 Datenstruktur und Datenmanagement 11
Eingabe von Datumsangaben
Alle Datumsangaben mit/ohne fuhrende Null bei Tages- und Monatsangaben sowie mit/ohne
Jahrhundertangabe und Punkt oder Bindestrich als Trenner zwischen Tag, Monat, Jahr wer-
den automatisch als Datum erkannt und in folgendes Standardformat gebracht: TT.MM.JJJJ.
Intern werden Datumsangaben als fortlaufende Zahlen gespeichert, beginnend mit 1 fur den
01.01.1900 und endend am 31.12.9999 (erkennbar an der rechtsbundigen Ausrichtung).
Datumsangaben vor 1900 werden nicht als Datum interpretiert, sondern als Text gespeichert
(erkennbar an der linksbundigen Ausrichtung).
Soll das Jahrhundert bei Datumsangaben nicht erkennbar sein, konnen die Zellen uber das
Menu Format → Zellen entsprechend formatiert werden. Der Zellinhalt wird durch die For-
matierung nicht verandert.
Eingabe von Uhrzeit
Stunden, Minuten und Sekunden sind jeweils durch einen Doppelpunkt zu trennen.
Datum und Uhrzeit konnen in eine Zelle eingetragen werden, sie sind dann durch ein Leer-
zeichen zu trennen.
Die interne Verwaltung der Uhrzeit erfolgt als Dezimalzahl.
Beispiel: 12:00:00 → 0,5. In Verbindung mit einem Datum: 31.01.1900 12:00:00 → 31,5.
Hinweis:
Soll eine Tabelle nach SPSS exportiert werden, empfiehlt es sich Datumsangaben im Format
TT.MM.JJJJ zu speichern, da es sonst zu Fehlern beim Export kommt.
Menu: Format → Zelle → Benutzerdefiniert → TT.MM.JJJJ.
Kontextmenu: Rechter Mausklick auf die markierten Zelle→ Zellen formatieren→ Benutzer-
definiert → TT.MM.JJJJ.
Transformation von Daten
Nach Beendigung der Datensammlung und -eingabe konnen sich verschiedenste Vorgange
der Datentransformation anschließen. So konnen aus eingegebenen Variablen neue Variablen
berechnet werden (z. B. Bodymaß-Index aus Korpergroße und -gewicht) oder vorhandene
12 2. Woche 1
Variablen zu neuen Variablen umkodiert werden (z. B. Altersklasse aus Alter). Die Beobach-
tungen der Tabelle konnen in einer definierten Reihenfolge angeordnet oder nach festgelegten
Kriterien selektiert werden (z. B. nach Gruppenzugehorigkeit). Schließlich kann es notig sein,
dass Daten der zu untersuchenden Beobachtungen aus verschiedenen Tabellen zusammen-
gefuhrt werden mussen. Das Berechnen und Umkodieren von Variablen erfolgt in EXCEL
anhand von Formeln. Da Formeln in EXCEL auch Grundlage der Berechnung statistischer
Maßzahlen sind, wird ein ausfuhrlicher Abschnitt”Formeln in EXCEL“ vorangestellt.
Formeln in EXCEL
Aufbau einer Formel
Beispiel einer Formel in EXCEL:
= (E2+F2+G2)/3 = Mittelwert(E2:G2)
In beiden dargestellten Formeln wird der Mittelwert (arithmetisches Mittel) aus 3 Zahlen
berechnet, die sich in den Zellen E2, F2 und G2 befinden. Im Gegensatz zur ersten Formel
liefert die zweite Formel auch dann einen korrekten Mittelwert, wenn fehlende Werte in den
Zellen vorkommen.
In der nachfolgenden Abbildung ist fur den ersten und zweiten Teilnehmer des Untersuchungs-
kollektivs”Fitness“ der Mittelwert der 3 gemessenen Pulsfrequenzen mithilfe dieser Formel
berechnet worden. In der Bearbeitungsleiste ist die Formel zu sehen, die der Berechnung
der Zahl in der aktuellen Zelle zugrunde liegt. Die aktuelle Zelle ist schwarz umrandet. Der
Gesamtdatensatz”Fitness“ ist im Anhang dieses Skripts beschrieben.
Bestandteile einer Formel konnen sein:
• Gleichheitszeichen (=) an erster Position (immer)
• Konstanten (im Beispiel: 3)
• Zellbezuge, das sind die Koordinaten eines Zellenbereichs (im Beispiel: E2, F2, G2,
abgekurzt E2:G2).
• Operatoren (+ - * /ˆ)
2.1 Datenstruktur und Datenmanagement 13
Abbildung 2.6: Mittelwertfunktion in EXCEL
• Funktionen (im Beispiel: Mittelwert() )
Eingabe einer Formel mit Operatoren und Zellbezugen
Durchfuhrung
• Die Zelle fur die Formel markieren.
• Das Gleichheitszeichen in der Bearbeitungsleiste eingeben.
• Die Formel in das Zellinhaltsfeld (weiße Flache) der Bearbeitungsleiste eingeben, wobei
die Zellbezuge (= Koordinaten der Zellen, deren Inhalt in die Berechnung eingehen soll)
durch Zeigen per Mausklick auf die Zelle bzw. Zellen in der Tabelle automatisch in die
Bearbeitungszeile ubernommen werden konnen.
• Abschluss der Formeleingabe mit der Enter-Taste oder Eingabeschalter. Die Berechnung
wird sofort durchgefuhrt und das Ergebnis in die vorgesehene Zelle eingetragen. Die
Formel der aktuellen Zelle ist in der Bearbeitungszeile sichtbar.
Absolute und relative Zellbezuge
Wird in EXCEL eine Zelle kopiert, deren Inhalt aus einer Formel mit Zellbezugen besteht,
so werden diese Zellbezuge automatisch an die neue Position angepasst. Das heißt, die neuen
14 2. Woche 1
Zellbezuge befinden sich immer noch im gleichen Abstand zum Formelfeld. Diese Bezuge, die
beim Kopieren automatisch angepasst werden, nennt man relative Zellbezuge. Sollen Zellbe-
zuge beim Kopieren nicht automatisch angepasst werden, die Koordinaten der Bezuge also
unverandert bleiben, so spricht man von absoluten Zellbezugen. Dazu ist den Zellkoordinaten
ein Dollarzeichen”$“ voranzustellen (z. B. $A$1). Es sind auch Mischbezuge moglich (z. B.
$A1 → absoluter Spaltenbezug, angepasster Zeilenbezug bzw. A$1 → angepasster Spalten-
bezug, absoluter Zeilenbezug). Beachten Sie: Die Zellkoordinaten von absoluten (ebenso wie
von relativen) Bezugen werden automatisch geandert, wenn neue Zeilen oder Spalten in das
Datenblatt eingefugt werden. So ist das Formelergebnis auch nach dem Einfugen immer noch
das Gleiche.
Aufbau einer Funktion
Beispiel einer Funktion in EXCEL:
Funktionen sind Berechnungsanweisungen mit Platzhaltern. Werte, die an die Funktion uber-
geben werden, sogenannte Argumente, werden an Stelle der Platzhalter eingesetzt und das
Funktionsergebnis kann errechnet werden.
MITTELWERT(ZAHL1;ZAHL2;...)
Bestandteile einer Funktion konnen sein:
• Funktionsname (im Beispiel: MITTELWERT)
• Funktionsargumente (im Beispiel: ZAHL1; ZAHL2)
Argumente, die unbedingt angegeben werden mussen, werden fett dargestellt, optionale Ar-
gumente sind normal dargestellt. Auslassungspunkte (...) kennzeichnen, dass mehrere dieser
Argumente angegeben werden konnen. Einzelne Argumente werden durch ein Semikolon von-
einander getrennt. Besteht die Argumentliste aus einer fortlaufenden Sequenz von Zellbezugen,
reicht die Eingabe von Beginn und Ende, durch einen Doppelpunkt getrennt (z. B. MITTEL-
WERT(C8:C16)). Bei Funktionsargumenten ist auf den passenden Datentyp zu achten (Zahl,
Zeichen usw.), wobei die Argumente per Tastatur eingegeben, als Zellbezug gezeigt werden
oder selbst wieder Resultat einer anderen Funktion sein konnen (geschachtelte Funktionen).
2.1 Datenstruktur und Datenmanagement 15
Eingabe einer Funktion mithilfe des Funktionsassistenten
Durchfuhrung
• Die Zelle fur die Formel auswahlen.
• Den Formelschalter in der Bearbeitungsleiste anklicken.
• Aus dem pull-down Menu links des Gleichheitszeichens die gewunschte Funktion aus-
wahlen oder uber”weitere Funktionen“ das Dialogfenster
”Funktion auswahlen“ offnen,
das alle Funktionen kategorisiert anbietet.
• In das sich daraufhin offnende Fenster (= Funktionsassistent oder Formelpalette) die
Funktionsargumente eingeben, entweder per Tastatur oder durch Zeigen auf die ent-
sprechenden Tabellenzellen oder durch Aufruf einer weiteren Funktion (auf diese Weise
werden verschachtelte Funktionen gebildet).
• OK
Der Funktionsassistent enthalt Eingabefelder fur die benotigten Argumente, eine Beschrei-
bung der Funktion und der benotigten Argumente.
Abbildung 2.7: Eingabe einer Funktion mit dem Funktionsassistenten
16 2. Woche 1
Variablen umkodieren
Anwendungen:
• Bilden neuer Variablen, z. B. (neue) Gruppenvariable.
• Klassifizierung von Merkmalen, z. B. Bildung von Altersklassen aus dem Merkmal Alter.
Durchfuhrung
• In die Variablenspalte den neuen Variablennamen eintragen.
• Cursor in die erste Zelle der neuen Variablen positionieren.
• Je nach Art der Umkodierung, z. B. eine WENN()-Funktion oder verschachtelte WENN()-
Funktionen erstellen, mit dem Zellbezug zur entsprechenden Zelle der umzukodierenden
Variablen.
• Diese Zelle mit der erstellten Funktion kopieren und fur alle weiteren Beobachtungen in
die entsprechenden Zellen der neuen Variablenspalte einfugen. Durch das Arbeiten mit
relativen Zellbezugen (Voreinstellung) bezieht sich die kopierte Formel jeweils auf die
zugehorige Zelle der umzukodierenden Variablen.
Abbildung 2.8: Umkodierung einer Variablen mit verschachtelten WENN-Funktionen
2.1 Datenstruktur und Datenmanagement 17
Die Variable”WORKOUT“ des Datensatzes
”Fitness“ ist in eine neue Gruppenvariable
”GRP NEU“
umkodiert worden. Teilnehmer mit 1 oder 2 Workouts pro Woche bilden die neue Gruppe 1,
Teilnehmer mit 3 oder 4 Workouts die Gruppe 2. Teilnehmer ohne Eintrag zum Workout
werden keiner Gruppe zugeordnet. Die der Umkodierung zugrunde liegende verschachtelte
Wenn-Funktion ist in der Bearbeitungsleiste zu sehen.
Das Berechnen einer neuen Variablen aus bereits bestehenden Variablen funktioniert analog
zum Umkodieren.
Sortieren von Beobachtungen
Anwendungen:
• Information uber die Streuung der Daten (Minima, Maxima, Spannweite).
• Datencheck, Ausreißeridentifikation
• Neue Anordnung der Beobachtungen, z. B. nach Gruppenzugehorigkeit.
• Vorbereitung fur Auswertungen nach Gruppenzugehorigkeit.
Durchfuhrung
• Die Originaltabelle kopieren und in ein neues Tabellenblatt einfugen, um den Original-
zustand der Datentabelle zu erhalten (fakultativ).
• Die ganze Datentabelle markieren oder den Cursor in eine Zelle der Tabelle positionie-
ren.
• Das Menu Daten → Sortieren aufrufen.
• In den Feldern”Sortieren nach“,
”Anschließend nach“,
”Zuletzt nach“ die Variablen, nach
denen sortiert werden soll oder”(keine)“ auswahlen.
• Die Sortierreihenfolge”aufsteigend“ oder
”absteigend“ fur jede Sortiervariable angeben.
• Angeben, ob die Tabelle einen”Zeilenkopf“ (das heißt eine erste Zeile mit Variablenna-
men) enthalt.
18 2. Woche 1
Hinweise:
Wird statt der ganzen Datentabelle nur die Spalte markiert, nach der sortiert werden soll, so
bleiben alle anderen Spalten von der Sortierung unberuhrt. Das bedeutet, dass die Integritat
des Datensatzes einer Beobachtung verletzt wird. Bei Daten rechts und links neben der mar-
kierten Spalte erkennt EXCEL das Problem und gibt einen entsprechenden Warnhinweis. Soll
nach mehr als 3 Variablen sortiert werden, ist obige Prozedur mehrfach durchzufuhren: Begin-
nend mit den unbedeutendsten und endend mit den bedeutendsten Sortiermerkmalen. Dabei
ist aber innerhalb einer Sortierprozedur wieder mit den bedeutendsten Sortiermerkmalen zu
beginnen.
2.2 Erstellen einfacher Grafiken 19
2.2 Erstellen einfacher Grafiken
Oft mochte man seine Daten veranschaulichen oder seine Ergebnisse optisch ansprechend pra-
sentieren, deshalb ist es sinnvoll bereits in EXCEL einfache Grafiken erstellen zu konnen.
Grundlegende Schritte bei der Grafikerstellung in EXCEL:
• Markieren Sie die Daten, die grafisch dargestellt werden sollen.
• Klicken Sie auf den Button”Diagramm-Assistent“ in der Menuleiste.
• Wahlen Sie den gewunschten Diagrammtyp aus.
• Folgen Sie den Menuanweisungen fur die Auswahl von Diagrammoptionen und der Plat-
zierung des Diagramms.
• Nachbearbeitung von Grafiken ist moglich durch Klicken mit der rechten Maustaste auf
die nachzubearbeitenden Bereiche innerhalb der Grafik. Dadurch wird ein Menu mit
Nachbearbeitungsoptionen geoffnet.
Beispiel Kuchendiagramm
1. Offnen Sie den Datensatz”Fitness“.
2. Erstellen Sie eine Tabelle, in der fur die jeweiligen Merkmalsauspragungen (1 Workout,
2, 3 oder 4 Workouts) die absoluten Haufigkeiten des Vorkommens angegeben werden.
Dazu kann z. B. der Autofilter im Menu Daten → Filter benutzt werden. Alternativ
kann auch die Funktion”ZAHLENWENN“ verwendet werden, vgl. letzte Ubung.
Ergebnis:
1 workout 10
2 workouts 19
3 workouts 12
4 workouts 4
3. Markieren Sie die Haufigkeiten.
20 2. Woche 1
4. Klicken Sie auf den Button”Diagramm-Assistent“.
5. Wahlen Sie in Schritt 1 von 4 des Diagramm-Assistenten den Menupunkt”Kreis“, 1.
Untertyp aus.
6. Wahlen Sie in Schritt 2 des Diagramm-Assistenten die 1. Spalte der Tabelle als Kreissegment-
bzw. Rubrikenachsenbeschriftung aus und versehen Sie die Grafik mit einem Diagramm-
titel.
7. Wahlen Sie in Schritt 3 im Register”Datenbeschriftungen“ den Punkt
”Beschriftung
und Prozent anzeigen“ aus.
8. Mit einem Klick auf”Fertig stellen“ wird das Diagramm erstellt.
Abbildung 2.9: Kuchendiagramm zur Darstellung der Workouts
2.3 Import und Export von Daten 21
2.3 Import und Export von Daten
Zur Sicherstellung des Datenaustauschs mit anderen Programmen bestehen verschiedene Mog-
lichkeiten Daten zu exportieren oder importieren, von denen im Folgenden einige wichtige
Beispiele aufgefuhrt werden.
Export von EXCEL-Tabellen in andere Programme
Export als Text
• Menu: Datei → Speichern unter ...
• Dateityp: Es stehen verschiedene Texttypen zur Verfugung, u. a. Formatierter Text
(Leerzeichen getrennt) (*.prn), Text (Tabs getrennt) (*.txt).
Export als Word-Tabelle
• EXCEL-Tabelle schließen.
• In Word: Menu: Datei → Offnen.
• Dateityp: Microsoft EXCEL-Arbeitsblatt (*.xls, *xlw)
Oder: Daten der EXCEL-Tabelle kopieren und in Winword einfugen (Cut & Paste).
Menu: Bearbeiten → Inhalte einfugen... .
Import von SPSS-Dateien
• SPSS-Dateien mussen bereits im SPSS-Programm als EXCEL-Datei gespeichert werden.
SPSS-Menu: Datei → Speichern unter.
• Dateityp: EXCEL-Datei auswahlen.
• Dateinamen vergeben.
• Abspeichern mit OK.
• Diese Datei mit dem Suffix .xls kann nun direkt in EXCEL oder auch wieder in SPSS
geoffnet werden.
22 2. Woche 1
2.4 Ubung
Ubung: Dateneingabe
• Geben Sie ein Geburtsdatum und ein Aufnahmedatum ein.
• Formatieren Sie die Zellen in der Weise, dass das Jahrhundert nicht angezeigt wird
(Hinweis: Menu: Format → Zellen → Registerblatt Zahlen).
• Geben Sie in eine beliebige Zelle das Datum 31.01.1900 18:00 ein. Formatieren Sie diese
Zelle als Zahl mit 2 Dezimalstellen, um zu sehen, wie EXCEL intern diese Datumsangabe
gespeichert hat.
• Geben Sie die ersten vier Ziffern Ihrer Handynummer ein.
Ubung: Formeln und Funktionen
• Berechnen Sie im Datensatz”Fitness“ fur die Variablen Ruhefreq1, Messung2, Messung3
die mediane Pulsfrequenz (Hinweis: Funktion MEDIAN).
• Bilden Sie eine neue Gruppierungsvariable, die fur alle Beobachtungen mit Ruhefre-
quenzwerten Ruhefreq1 <= 75 den Gruppenwert 1 zuweist und fur alle anderen den
Gruppenwert 2 (Hinweis: Funktion WENN).
• Errechnen Sie aus den beiden Datumsangaben aus der Ubung”Dateneingabe“ das Al-
ter in ganzen Jahren (Hinweis: Funktion ABRUNDEN((Aufnahmedatum - Geburtsda-
tum)/365; 0).
• Selektieren Sie die Frauen aus dem Kollektiv und kopieren Sie die selektierten Daten-
satze in ein neues Tabellenblatt mit dem Namen”Frauen“ (Hinweis: Menu: Daten →
Autofilter → Auswahl der Frauen uber das entsprechende pull-down Menu).
• *Fur Geubte: Wie haufig fuhren Frauen 1, 2, 3 oder 4 Workouts pro Woche durch
(Hinweis: Funktion ZAHLENWENN, Suchkriterien 1, 2, 3 und 4)?
Ubung: Grafiken
• Erstellen Sie aus den Haufigkeitsangaben zu den Workouts im Datensatz”Fitness“ ein
Kuchendiagramm (Kreisdiagramm) wie im Beispiel.
2.4 Ubung 23
• Verandern Sie die Farben der einzelnen Kuchensegmente (Rechtsklicken auf ein einzelnes
Segment → Datenpunkt formatieren).
• Verandern Sie die Darstellung in 3-D (Rechtsklicken in das Diagramm→ Diagrammtyp).
• Verandern Sie den 3-D Ansichtswinkel durch Nachbearbeitung im Menu 3-D Ansicht.
• Erstellen Sie mithilfe des Diagrammassistenten aus den gleichen Daten ein Saulendia-
gramm.
• Andern Sie den Diagrammtyp des Saulendiagramms in ein Kreisdiagramm.
• *Fur Geubte: Erstellen Sie aus den beiden Variablen”Alter“ und
”Ruhefre1“ des Da-
tensatzes”Fitness“ einen Scatterplot. Benutzen Sie dazu im Diagrammassistenten den
Diagrammtyp”Punkt (xy)“. Welchen Zusammenhang erkennt man?
• *Fur Geubte: Erstellen Sie mit dem Diagrammtyp”Punkt (xy)“ einen zweiten Scatter-
plot aus den Variablen”Ruhefre1“ und
”Messung2“. Welcher Zusammenhang besteht
hier?
Ubung: Datenexport
• Transferieren Sie die EXCEL-Tabelle des Datensatzes”Fitness“ nach Word.
24 2. Woche 1
Kapitel 3
Woche 2
Zu Beginn einer Datenanalyse sollte man sich zuerst einen Uberblick uber die vorliegenden
Werte der einzelnen Variablen verschaffen, wobei insbesondere Lage und Verteilung von In-
teresse sind. Durch die deskriptive Analyse lassen sich Besonderheiten in der Datenstruktur
erkennen, zum Beispiel konnen extreme Werte und eventuelle Ausreißer leicht identifiziert wer-
den. Zudem unterstutzt sie die Datenvalidierung, das heißt, Fragen wie”Liegen alle Messungen
im dazugehorigen Wertebereich?“ oder”Gibt es unplausible Werte oder auch Eingabefehler?“
konnen beantwortet werden.
Des Weiteren ist es Aufgabe der deskriptiven Statistik, die Daten zu ordnen sowie grafisch
und mit geeigneten Kennzahlen darzustellen.
In diesem Kurs wird zur Analyse der Daten das Programm SPSS, Version 19 verwendet. Alle
Beispiele und Ubungsaufgaben werden anhand folgendem Datensatz durchgefuhrt:
Datensatz”Blutdruck“
Im Folgenden handelt es sich um eine klinische Studie, bei der die Wirksamkeit eines neuen
Medikaments zur Blutdrucksenkung gepruft werden soll. Dazu wurden 120 Patienten rekru-
tiert, die zufallig in zwei Behandlungsgruppen aufgeteilt wurden. Die an diesen Patienten
erhobenen Variablen sind in nachstehender Tabelle aufgelistet.
26 3. Woche 2
Variablenbeschreibung
3.1 Erste Schritte 27
3.1 Erste Schritte
Daten in SPSS einlesen
Datei → Offnen → Daten
gespeicherten Datensatz aufrufen
Es konnen verschiedene Dateitypen eingelesen werden: die ubliche Endung fur SPSS-Dateien
ist *.sav. Es konnen aber auch andere Endungen ausgewahlt werden, wie zum Beispiel *.xls,
*.csv oder *.txt, wobei ein Assistent zum Import der Datei geoffnet wird und die Daten Schritt
fur Schritt eingelesen werden. Hinweis: Die zu importierende Datei darf nicht geoffnet sein.
Abbildung 3.1: Datenquelle offnen
Vorarbeit
Nach dem Einlesen der Datei wird der Dateneditor gestartet. Dieser besteht aus den beiden
Registerkarten Datenansicht (Abb. 3.2), in der der Datensatz angezeigt wird, sowie einer Va-
riablenansicht (Abb. 3.3).
28 3. Woche 2
Abbildung 3.2: Datenansicht
Abbildung 3.3: Variablenansicht
Bevor mit der eigentlichen Analyse begonnen werden kann, sollten noch einige Einstellungen
in der Variablenansicht uberpruft werden:
3.1 Erste Schritte 29
• Name: Die Variable kann hier umbenannt werden (Restriktionen: keine Leer- oder Son-
derzeichen und keine Zahl am Anfang des Namens)
• Typ: adaquates Format der Variable angeben
• Spaltenformat: maximale Anzahl der Zeichen, die eingegeben werden kann
• Dezimalstellen: Fur numerische Variablen kann die Anzahl der Dezimalstellen angepasst
werden.
• Variablenlabel: Soll ein anderer Name fur ein Variablenkurzel in den Outputs angezeigt
werden, so kann das hier eingegeben werden (hier keine Restriktionen).
• Wertelabels: Bei nominalen oder kategorialen Merkmalen kann die Zahlenkodierung hier
in Worten angegeben werden. Die eingegebene Labels werden spater bei den Outputs
angezeigt.
Abbildung 3.4: Wertelabels
• Fehlende Werte: Eine spezielle Kodierung (z.B. -999) kann hier als fehlender Wert defi-
niert werden.
• Spalten: angezeigte Spaltenbreite in der Datenansicht
• Ausrichtung: Ausrichtung der Daten in der Datenansicht (links, mittig oder rechts)
• Messniveau: Skala, Ordinal, Nominal; Dieses Feld muss fur jede Variable spezifiziert
sein: wichtig fur Auswahl statistischer Tests und Grafiken.
• Rolle: Rolle der Variable im Datensatz (z.B. Eingabevariable oder Zielvariable)
30 3. Woche 2
Die Ergebnisse zu den durchgefuhrten Analysen (Tabellen, Grafiken,...) werden in einem drit-
ten Fenster, dem Ausgabefenster dargestellt:
3.2 Deskriptive Statistik, Maßzahlen und tabellarische Darstellung 31
3.2 Deskriptive Statistik, Maßzahlen und tabellarische Dar-
stellung
In der Statistik unterscheidet man zwei Merkmalstypen:
• Quantitative Merkmale:
Die Auspragungen dieser Merkmale entsprechen Messungen oder Zahlungen (quantum
= Menge).
• Qualitative Merkmale:
Fur die Auspragungen dieser Merkmale existiert keine sinnvolle Metrik. Nominale Merk-
male lassen sich nur benennen, wie z. B. Haarfarbe, Blutgruppe, Medikament. Ordinalen
Merkmalen liegt eine Rangfolge zugrunde, Differenzen oder Quotienten sind jedoch nicht
interpretierbar.
Hintergrund
Quantitative Großen werden wiederum in intervall- und verhaltnisskalierte Merkmale ein-
geteilt. Bei intervallskalierten Großen kann nur die Differenz betrachtet werden, da der Null-
punkt willkurlich festgelegt ist. Beispiel hierfur ist die Temperatur in Grad Celsius. Bei ver-
haltnisskalierten Merkmalen konnen auch Quotienten miteinander verglichen werden, da der
Nullpunkt absolut ist, wie z. B. beim metrischen Langenmaß. Fur stetige Variablen berech-
net man statistische Maßzahlen wie Mittelwert, Standardabweichung, Minimum, Maximum,
Quartile etc., die Lage und Streuung der erhobenen Werte beschreiben. Grafisch werden die
Verteilungen oft durch Boxplots oder Fehlerbalken dargestellt.
Qualitative Großen teilen sich auf in ordinal- und nominalskalierte Merkmale. Ordinalska-
lierte Merkmale konnen bezuglich ihrer Auspragungen in einer Rangfolge geordnet werden.
Die Abstande zwischen den Werten sind jedoch nicht definiert, z. B. Schweregrad einer Erkran-
kung. Die Nominalskala setzt hingegen nur Gleichheit oder Ungleichheit von Eigenschaften (z.
B. Geschlecht) bzw. die Moglichkeit mehrklassiger Einteilungen (z. B. Beruf, Muttersprache,
Studienzentrum etc.) in Kategorien voraus. Fur qualitative Merkmale berechnet man in der
Regel relative oder absolute Haufigkeiten und stellt diese mithilfe von Saulendiagrammen dar.
32 3. Woche 2
Die Unterscheidung stetig und diskret wird oft als Synonym fur quantitativ und qualitativ
verwendet, es lassen sich jedoch auch quantitative Merkmale in diskret und stetig unterschei-
den. Diskrete Merkmale konnen nur bestimmte Werte annehmen. Beispiele sind die Zahl der
Kinder einer Familie oder die Zahl der im letzten Jahr zugelassenen Medikamente. Zwischen-
werte gibt es nicht. Stetige Merkmale (Synonyme: kontinuierlich, metrisch) konnen hingegen
jeden Zwischenwert annehmen. Diese Großen beruhen auf instrumentelle Messungen wie z.
B. Gewicht und Korpergroße.
Statistische Maßzahlen sind eine Zusammenfassung der vorhandenen Dateninformation. Fur
quantitative Großen beschreiben diese charakteristischen Kennzahlen u. a. Lage und Streuung
einer Verteilung. Die wichtigsten Lagemaße sind der Median bzw. Zentralwert und der Mit-
telwert, auch arithmetisches Mittel genannt. Der Mittelwert ist die Summe der Einzelwerte
geteilt durch die Anzahl der Einzelwerte.
x =1
n
n∑i=1
xi (3.2.1)
Den Median erhalt man, indem die beobachteten Werte in aufsteigender Reihenfolge sortiert
werden. Bei einer ungeraden Anzahl an Beobachtungen ist der Median der Wert der mittleren
Beobachtung, ansonsten der Mittelwert aus den beiden mittleren Beobachtungen.
x50% =
x(n+1
2 ), falls n ungerade
12
(x(n
2 ) + x(n2+1)
), falls n gerade
(3.2.2)
Weitere Lagemaße sind Quantile, die man beliebig uber den Parameter α, α ∈ (0, 1) definieren
kann. Sie geben den Wert an, den der definierte Anteil der Daten nicht uberschreitet. Beispiel:
α = 30%, d. h. 30% der Daten sind kleiner gleich diesem Wert. Eine mogliche Berechnungs-
formel lautet:
xα =
x([nα]+1), falls nα /∈ N
12
(x(nα) + x(nα+1)
), falls nα ∈ N
(3.2.3)
Dabei steht N fur die naturlichen Zahlen und [ ] fur einen ganzzahligen Rest.
3.2 Deskriptive Statistik, Maßzahlen und tabellarische Darstellung 33
Spezialfalle der Quantile sind die Quartile, die die Daten in 4 Teile teilen, also fur α ∈
(25%, 50%, 75%):
• Unteres Quartil = 25% Quantil = x25%
• Median = 50% Quantil = x50%
• Oberes Quartil = 75% Quantil = x75%
Haufig verwendete Streuungsmaße (Dispersionsmaße) zur Beschreibung der Datenvariabilitat
sind die Varianz s2 bzw. ihre Quadratwurzel, die Standardabweichung s.
s2 =1
n− 1
n∑i=1
(xi − x)2
s = +√s2 (3.2.4)
Eine weiteres Streuungsmaß ist der Variationskoeffizient, bei dem die Standardabweichung
durch den Mittelwert geteilt wird. Dieser relative Ausdruck ist eine dimensionslose Große
und daher unabhangig von der Maßskala. Dies ermoglicht den Vergleich von Messungen in
unterschiedlichen Einheiten, wie z. B. bei Laborparametern, die in mg, mmol etc. erhoben
werden. Voraussetzung fur die sinnvolle Verwendung des Variationskoeffizienten ist, dass eine
verhaltnisskalierte Variable vorliegt.
34 3. Woche 2
Beispiel
In unserem Beispieldatensatz Blutdruck.sav befinden sich die Daten von 120 Hypertonikern,
von denen Blutdruckmessungen und einige Parameter zu Studienbeginn, nach einem Monat
und nach 12 Monaten medikamentoser Therapie erhoben wurden.
Ziel:
Zunachst wollen wir uns uber die vorhandenen Daten einen Uberblick verschaffen und sie
durch Haufigkeiten und statistische Maßzahlen beschreiben. Es interessiert uns, wieviele Man-
ner und Frauen an der Studie teilgenommen haben, wie sie auf beide Medikamentengruppen
aufgeteilt sind und wie deren Blutdruckverteilung zu Beginn aussieht. Schließlich wollen wir
die Blutdruckverteilung beider Geschlechter in jeder Behandlungsgruppe betrachten.
Durchfuhrung
Haufigkeiten von Mannern und Frauen
Analysieren → Tabellen → Benutzerdefinierte Tabellen
ok
Variablen: Geschlecht auf Spalten ziehen
Definieren: → Auswertungsstatistik...
Anzahl als Zeilen% in Statistik auswahlen und mit Pfeil zu Anzeigen hinzufugen
Der Auswahl zuweisen
Definieren: → Kategorien und Gesamtsummen...
Auch anzeigen: Gesamtergebnis
Zuweisen
ok
3.2 Deskriptive Statistik, Maßzahlen und tabellarische Darstellung 35
Haufigkeiten von Mannern und Frauen pro Behandlungsgruppe
Analysieren → Tabellen → Benutzerdefinierte Tabellen
ok
Variablen: Geschlecht auf Spalten ziehen
Definieren: → Auswertungsstatistik...
Anzahl als Zeilen% in Statistik auswahlen und mit Pfeil zu Anzeigen hinzufugen
Der Auswahl zuweisen
Definieren: → Kategorien und Gesamtsummen...
Auch anzeigen: Gesamtergebnis
Zuweisen
Variablen: Behandlung auf Zeilen ziehen
Definieren: → Kategorien und Gesamtsummen...
Auch anzeigen: Gesamtergebnis
Zuweisen
ok
Abbildung 3.5: Eingabemenu Benutzerdefinierte Tabellen
36 3. Woche 2
Abbildung 3.6: Eingabemenu Auswertungsstatistik
Ausgabe
Abbildung 3.7: Haufigkeiten von Mannern und Frauen in jeder Medikamentengruppe
3.2 Deskriptive Statistik, Maßzahlen und tabellarische Darstellung 37
Blutdruckverteilung von Mannern und Frauen
Analysieren → Tabellen → Benutzerdefinierte Tabellen
ok
Variablen: Blutdruck 0 auf Spalten ziehen
Definieren: → Auswertungsstatistik...
Standardabweichung in Statistik auswahlen und mit Pfeil zu Anzeigen hinzufugen
Der Auswahl zuweisen
Variablen: Geschlecht auf Zeilen ziehen
Definieren: → Kategorien und Gesamtsummen...
Auch anzeigen: Gesamtergebnis
Zuweisen
ok
Blutdruckverteilung von Mannern und Frauen pro Behandlungsgruppe
Analysieren → Tabellen → Benutzerdefinierte Tabellen
ok
Variablen: Blutdruck 0 auf Spalten ziehen
Definieren: → Auswertungsstatistik...
Standardabweichung in Statistik auswahlen und mit Pfeil zu Anzeigen hinzufugen
Der Auswahl zuweisen
Variablen: Geschlecht auf Spalten ziehen
Definieren: → Kategorien und Gesamtsummen...
Auch anzeigen: Gesamtergebnis
Zuweisen
Variablen: Behandlung auf Zeilen ziehen
Definieren: → Kategorien und Gesamtsummen...
Auch anzeigen: Gesamtergebnis
Zuweisen
ok
38 3. Woche 2
Abbildung 3.8: Eingabemenu Benutzerdefinierte Tabellen
Abbildung 3.9: Eingabemenu Auswertungsstatistik
3.2 Deskriptive Statistik, Maßzahlen und tabellarische Darstellung 39
Ausgabe
Abbildung 3.10: Mittelwert und Standardabweichung fur den Blutdruck von Mannern undFrauen in jeder Medikamentengruppe
Interpretation
In unserer Studie ist das Verhaltnis von Mannern zu Frauen in etwa 1:1. Dies gilt auch fur die
beiden Behandlungsgruppen. Insgesamt haben die Frauen einen leicht niedrigeren Blutdruck-
Ausgangswert, was ebenso fur die beiden Behandlungsgruppen gilt. Zwischen den Behand-
lungsgruppen sind die Blutdruck-Ausgangswerte in den Geschlechtern aber annahernd gleich.
Zieht man die Standardabweichung hinzu, so erkennt man, dass die Unterschiede nicht sehr
groß sind. Beide Behandlungen sind hinsichtlich dieser Baseline-Variablen vergleichbar.
Die Frage, ob die beobachteten Blutdruckunterschiede statistisch zufallig sind oder ein signi-
fikanter Unterschied nachgewiesen werden kann, lasst sich mit den in Kapitel 5 beschriebenen
statistischen Tests untersuchen.
40 3. Woche 2
3.3 Grafiken
Die bekanntesten Darstellungsformen kategorialer oder diskreter Merkmale sind Saulen-, Balken-
und Kreisdiagramme. Sie sind vor allem angebracht, wenn die Anzahl k der verschiedenen
Merkmalsauspragungen klein ist. Wir wollen uns hierbei auf das Saulendiagramm beschran-
ken.
Abbildung 3.11: Saulen-, Balken- und Kreisdiagramm
3.3.1 Saulendiagramm
Hintergrund
Bei einem Saulendiagramm werden auf horizontaler Achse die verschiedenen Auspragungen
einer diskreten Variablen abgetragen und auf der vertikalen die absoluten bzw. relativen Hau-
figkeiten der jeweiligen Auspragung in Form einer Saule dargestellt. Diese Rechtecke werden
mittig uber die Auspragung gezeichnet und stoßen nicht aneinander. Das Balkendiagramm
ergibt sich als Variante, indem man die beiden Achsen vertauscht. Das Saulendiagramm
ermoglicht es, bei ordinalskalierten Daten die Rangfolge mit darzustellen. Dies ist bei der
Darstellung durch ein Kreisdiagramm nicht moglich.
3.3 Grafiken 41
Beispiel
Die oben berechneten Haufigkeiten aus unserem Beispieldatensatz Blutdruck.sav wollen wir
nun grafisch darstellen. Wir tragen dazu die absoluten bzw. relativen Haufigkeiten von Man-
nern und Frauen in der Studie in einem Saulendiagramm ab.
Die bedingten relativen Haufigkeiten der Geschlechter in jeder Behandlungsgruppe lassen sich
in einem gruppierten Saulendiagramm darstellen. Dabei entspricht die bedingte relative Hau-
figkeit eines Geschlechts einzelnen Saulen oder sie lasst sich durch den flachenmaßigen Anteil
an der Saule der jeweiligen Behandlungsgruppe darstellen.
Durchfuhrung
Haufigkeiten von Mannern und Frauen
Diagramme → Diagrammerstellung → Galerie → Balken
Einfache Balken auswahlen
Variablen Geschlecht auf x-Achse? ziehen
→ Elementeigenschaften: Statistik Anzahl fur absolute oder Prozentsatz() fur relative Hau-
figkeiten auswahlen
Zuweisen
ok
42 3. Woche 2
Abbildung 3.12: Eingabemenu Balkendiagramm (einfach)
Ausgabe
Abbildung 3.13: Absolute Haufigkeiten von Mannern und Frauen (großere Achsenbeschrif-tung)
Die Diagramme konnen in SPSS nachtraglich noch bearbeitet werden, indem durch Dop-
pelklick auf die Grafik der Diagramm-Editor gestartet wird. Entsprechende Details (Farben,
Schriftgroße,...) konnen dann wie in obiger Grafik angepasst werden.
3.3 Grafiken 43
Haufigkeiten von Mannern und Frauen pro Behandlungsgruppe
Diagramme → Diagrammerstellung → Galerie → Balken
Gruppierte Balken auswahlen
Variablen Behandlung auf x-Achse? ziehen
Variablen Geschlecht auf Clustervariable auf X: Farbe festlegen ziehen
→ Elementeigenschaften: Statistik Prozentsatz() auswahlen
Zuweisen
ok
durch Doppelklick den Diagramm-Editor starten → Elemente → Datenbeschriftungen ein-
blenden
Anzahl in Angezeigt: schieben
Zuweisen
Diagramm-Editor schließen
Abbildung 3.14: Eingabemenu Balkendiagramm (gruppiert)
44 3. Woche 2
Werden als y-Achse die Prozentwerte ausgegeben, kann bei der Diagrammerstellung wie oben
unter
Elementeigenschaften → Statistiken → Prozentsatz → Parameter festlegen → zuweisen
der Nenner fur die Prozentberechnung angegeben werden.
Abbildung 3.15: Wahlmoglichkeit fur die Berechnung der Prozentwerte
Ausgabe
Abbildung 3.16: Gesamtverteilung von Therapie und Geschlecht (”Gesamtergebnis“)
3.3 Grafiken 45
Abbildung 3.17: Geschlechterverteilung in den Behandlungsgruppen (”fur jede X-Achsen-
Kategorie“)
Abbildung 3.18: Therapieverteilung in den Geschlechtergruppen (”fur jede Kategorie der Le-
gendenvariablen (selbe Fullfarbe)“)
Zur alternativen Darstellung der bedingten Haufigkeiten des Geschlechts durch den flachen-
maßigen Anteil an einer Saule verfahrt man wie oben, jedoch wahlt man im ersten Menufenster
Gestapelte Balken statt Gruppierte Balken aus:
Diagramme → Diagrammerstellung → Galerie → Balken
Gestapelte Balken auswahlen
...
46 3. Woche 2
Interpretation
Die grafische Darstellung sollte immer mit den berechneten Haufigkeiten verglichen werden,
um mogliche Fehlinterpretationen zu vermeiden. Schließlich soll eine Grafik die Ergebnisse
unterstreichen bzw. verdeutlichen. In den Saulendiagrammen der absoluten Haufigkeiten des
Geschlechts sowie der relativen Haufigkeiten bedingt auf die Medikamentengruppe spiegelt
sich das Verhaltnis von etwa 1:1 von Mannern zu Frauen wider. Es sind etwas mehr Patienten
in der Alphasan-Behandlungsgruppe.
3.3.2 Boxplot
Fur eine zusammenfassende Beschreibung von Verteilungen mussen Lage- und Streuungsmaße
angegeben werden. So kann etwa in zwei Behandlungsgruppen der mittlere Blutdruck identisch
sein, obwohl in einer Gruppe erhebliche Schwankungen vorliegen, wahrend die andere Gruppe
recht homogen ist. Die oben erwahnten Quantile und die daraus abgeleiteten Boxplots als
grafische Zusammenfassung sind geeignete Mittel, um die Verteilung der Daten punktuell zu
charakterisieren. Gruppenunterschiede, Symmetrie bzw. Schiefe der Verteilungen sind sofort
sichtbar. Hierbei werden keine Voraussetzungen wie Symmetrie oder Normalverteilung an die
Daten gestellt.
Viele statistische Softwarepakete, wie auch SPSS, stellen Ausreißer, also Beobachtungen, die
relativ zu ihrer Gruppe sehr extrem ausfallen, als einzelne Datenpunkte dar. Dadurch lassen
sich mithilfe des Boxplots auch Extremwerte einfach identifizieren.
Hintergrund
Die oben definierten Quartile (vgl. Abschnitt 3.2 Seite 33) geben zusammen mit dem Median
auf einfache Art Hinweise auf die Verteilung der Daten: Unterhalb des unteren Quartils liegen
etwa 25% der Daten und oberhalb des oberen Quartils ebenfalls etwa 25%. Im mittleren
Bereich liegen die restlichen 50% der Daten. Ist die Verteilung annahernd symmetrisch zum
Median, so sind x25% und x75% etwa gleich weit vom Median entfernt. Andernfalls ist die
Verteilung schief.
3.3 Grafiken 47
Die Quartile geben auch Aufschluss daruber, wie groß die Streuung der Daten ist. Eine pas-
sende Maßzahl hierfur ist der Interquartilsabstand:
IQR = x75% − x25% (3.3.5)
Interessant fur die Verteilung sind außerdem die beiden Extremwerte xmin = x(1) und xmax =
x(n). Die Differenz dieser beiden Werte wird als Spannweite oder Range bezeichnet.
Die Quartile, Minimum und Maximum teilen den Datensatz somit in vier Teile, wobei jeder
Teil ein Viertel der Beobachtungswerte enthalt. Diese vier Werte bilden zusammen mit dem
Median die Funf-Punkte-Zusammenfassung, die als Boxplot visulalisiert wird:
Boxplot
1. x25% = Anfang der Box
x75% = Ende der Box
IQR = Lange der Box
2. Median = durchgezogene Linie innerhalb der Box
3. Zwei Linien (”whiskers“) außerhalb der Box gehen bis zu xmin und xmax
Modifizierter Boxplot
Eine Faustregel zur Identifizierung von Ausreißern, die auch SPSS verwendet, ist: Bilde den
inneren”Zaun“ mit der Untergrenze zu = x25% − 1.5 ∗ IQR und der Obergrenze zo = x75% +
1.5 ∗ IQR. Daten kleiner als zu und großer als zo sind dann Ausreißerkandidaten, die genauer
zu inspizieren sind.
Die Linien außerhalb der Box (”whiskers“) werden nur bis zu xmin bzw. xmax gezogen, falls
xmin und xmax innerhalb des Bereichs [zu, zo] der Zaune liegen. Ansonsten gehen die Linien
nur bis zum kleinsten bzw. großten Wert innerhalb der Zaune. Die außerhalb liegenden Werte
werden individuell eingezeichnet, in SPSS als Punkte (Ausreißer, mehr als 1.5 ∗ IQR von
Ober- oder Untergrenze entfernt) bzw. Sterne (Fernpunkte, mehr als 3 ∗ IQR von Ober-
oder Untergrenze entfernt). Die mit angegebenen Zahlen entsprechen der Zeilennummer im
Datensatz.
48 3. Woche 2
Bei Bedarf kann diese Zahl im Diagrammeditor
→ Button”Datenbeschriftungsmodus“ → auf den Punkt/Stern klicken,
ein- oder ausgeblendet werden.
Abbildung 3.19: Boxplot Abbildung 3.20: Modifizierter Boxplot
Beispiel
Das stetige Merkmal”Blutdruck 0“ lasst sich durch einen Boxplot univariat beschreiben, mit
Hinzunahme der Behandlungsgruppe als Faktor lassen sich die Blutdruckverteilungen fur jede
Behandlungsgruppe darstellen und damit visuell vergleichen.
Durchfuhrung
Diagramme → Diagrammerstellung → Galerie → Boxplot
Einfacher Boxplot auswahlen
Variablen Behandlung auf x-Achse? ziehen
Variablen Blutdruck 0 auf y-Achse? ziehen
ok
3.3 Grafiken 49
Abbildung 3.21: Eingabemenu Boxplot (einfach)
Ausgabe
Abbildung 3.22: Blutdruckverteilung in den beiden Behandlungsgruppen
50 3. Woche 2
Blutdruckverteilung von Mannern und Frauen pro Behandlungsgruppe
Diagramme → Diagrammerstellung → Galerie → Boxplot
Gruppierter Boxplot auswahlen
Variablen Behandlung auf x-Achse? ziehen
Variablen Blutdruck 0 auf y-Achse? ziehen
Variablen Geschlecht auf Clustervariable auf X: Farbe festlegen ziehen
ok
Abbildung 3.23: Eingabemenu Boxplot (gruppiert)
3.3 Grafiken 51
Ausgabe
Abbildung 3.24: Blutdruckverteilung von Mannern und Frauen pro Behandlungsgruppe (Nr.12 entspricht Beobachtungsnummer im Datensatz)
Anderung der Skala der y-Achse
Haufig beginnt die y-Achse in SPSS bei 0. In manchen Fallen ist es aber erwunscht, zur Ver-
deutlichung nur den Abschnitt zu zeigen, in dem sich auch die Daten befinden. Dies kann im
Nachhinein noch wie folgt geandert werden:
Doppelklick auf Grafik
im Diagrammeditor Die y-Achse auswahlen
Skala
Minimum auf 120 setzen
zuweisen
52 3. Woche 2
Abbildung 3.25: Eingabemenu Andern der Skala
Ausgabe
Abbildung 3.26: Blutdruckverteilung von Mannern und Frauen pro Behandlungsgruppe mitgeanderter y-Skalierung
3.3 Grafiken 53
Interpretation
Der Blutdruck-Ausgangswert ist in beiden Behandlungsgruppen nahezu gleich (Median ca.
150 mmHg). Die Boxengroßen sind ebenfalls fast gleich groß, d.h. die mittleren 50% haben eine
ahnlich große Streuung in beiden Gruppen. Die Verteilung bei der Betasan-Behandlungsgruppe
ist sehr symmetrisch um den Median, wohingegen der Median bei der Alphasan-Behandlungs-
gruppe etwas naher am 25%-Quantil liegt (linkssteile Verteilung). Ausreißer gibt es keine.
Die Frauen der Alphasan-Behandlungsgruppe haben zu Beginn einen ahnlichen Blutdruck in
Vergleich zur Betasan-Behandlungsgruppe, jedoch die mitlleren 50% der Frauen sind in der
Alphasan-Behandlungsgruppe wesentlich homogener. Die Blutdruckverteilung der Manner ist
in beiden Behandlungsgruppen sehr ahnlich. Keine Verteilung ist exakt symmetrisch um den
Median.
Bei den Frauen in der Alphasan-Behandlungsgruppe gibt es formal einen Ausreißer, was durch
den vergleichsweise kleinen Interquartilsabstang IQR bedingt ist.
Alternative: Histogramm
54 3. Woche 2
3.4 Ubungsaufgaben
Verwenden Sie fur die Ubungen den Datensatz Blutdruck.sav und versuchen Sie auch, die
Ergebnisse zu interpretieren.
Zum Nachweis eines Therapieeffekts in einer klinischen Studie sollten die beiden Behand-
lungsgruppen zu Beginn der Studie hinsichtlich samtlicher Variablen vergleichbar sein. Erst
dann kann ein beobachteter Effekt der Therapie zugeschrieben werden. Wie wir bereits gese-
hen haben gibt es keinen Unterschied in der Geschlechts- und Blutdruckverteilung zu Beginn
zwischen beiden Behandlungsgruppen.
1. Uberprufen Sie daruber hinaus, ob sich die beiden Behandlungsgruppen hinsichtlich der
Korpergroße und des Alters ahnlich sind. Verwenden Sie dazu ausschließlich die Mog-
lichkeiten der deskriptiven Statistik und stellen Sie den Vergleich durch Berechnung
von geeigneten Maßzahlen an. Daruber hinaus vergleichen Sie auch den Cholesterin-
Ausgangswert, sowie die BMI-Kategorien beider Behandlungsgruppen. Stellen Sie die
Ergebnisse ubersichtlich und sinnvoll dar! Vergessen Sie nicht durch eine grafische Dar-
stellung die Zahlen zu verdeutlichen.
2. Stellen Sie die relativen Haufigkeiten des Geschlechts in jeder Behandlungsgruppe dar.
Verwenden Sie dazu entweder die Option clustered oder stacked. Interpretieren Sie das
Ergebnis vor dem Hintergrund der berechneten Haufigkeiten richtig.
3. Fleißaufgabe (nicht behandelt): Machen Sie sich mit dem Chart Editor vertraut. Spielen
Sie ein wenig mit der Achsenskalierung, -beschriftung etc..
3.5 Losungsvorschlag 55
3.5 Losungsvorschlag
1. • Korpergroße
Abbildung 3.27: Mittelwert und Standardabweichung fur die Korpergroße von Mannern undFrauen in jeder Behandlungsgruppe
Abbildung 3.28: Verteilung der Korpergroße von Mannern und Frauen in jeder Behandlungs-gruppe
• Alter
Abbildung 3.29: Mittelwert und Standardabweichung fur das Alter von Mannern und Frauenin jeder Behandlungsgruppe
56 3. Woche 2
Abbildung 3.30: Altersverteilung von Mannern und Frauen in jeder Behandlungsgruppe
• Cholesterin-Ausgangswert
Abbildung 3.31: Mittelwert und Standardabweichung fur den Cholesterin-Anfangswert vonMannern und Frauen in jeder Behandlungsgruppe
Abbildung 3.32: Verteilung der Cholesterin-Anfangswerte von Mannern und Frauen in jederBehandlungsgruppe
3.5 Losungsvorschlag 57
• BMI-Kategorien
Abbildung 3.33: Haufigkeiten der BMI-Kategorien in jeder Behandlungsgruppe
Abbildung 3.34: Relative Verteilung (Haufigkeiten) der BMI-Kategorien in jeder Behandlungs-gruppe (absolute Werte mitangegeben)
• Interpretation:
Sowohl Korpergroße, Alter als auch der Cholesterin-Anfangswert sind in beiden
Behandlungsgruppen ahnlich verteilt. Lediglich die BMI-Kategorien unterscheiden
sich leicht: in der Betasan-Behandlungsgruppe befinden sich etwas mehr normal-
gewichtige, wohingegen in der Alphasan-Behandlungsgruppe etwas mehr uberge-
wichtige Patienten teilgenommen haben.
In den Tabellen summieren sich alle Werte pro Behandlungsgruppe zu 100%. In der
Grafik kann das uber den Pfad
... Gruppierte Balken → Elementeigenschaften → Statistiken: Prozentsatz(?) →
Parameter festlegen angepasst werden.
58 3. Woche 2
2. Analog zur vorherigen Aufgabe muss bei der Erstellung der Saulendiagramme darauf
geachtet werden, auf welcher Basis die Prozentwerte ermittelt werden.
Abbildung 3.35: Haufigkeiten von Mannern und Frauen in jeder Behandlungsgruppe
Abbildung 3.36: Relative Verteilung (Haufigkeiten) von Mannern und Frauen in jeder Be-handlungsgruppe (absolute Werte mitangegeben)
Interpretation:
Das Verhaltnis von Mannern und Frauen ist sowohl in der Studie, als auch in beiden
Behandlungsgruppen etwa 1:1.
Kapitel 4
Woche 3
Dieser Kurstag beschaftigt sich damit, den funktionalen Zusammenhang stetiger Merk-
male zu untersuchen. Wir beschaftigen uns ausschließlich damit, die Beziehung zweier Gro-
ßen, also bivariate Relationen zu analysieren. In einigen Situationen (z. B. physikalische
Beziehungen) mag es aufgrund theoretischer Uberlegungen sicher sein, dass zwei Merkmale
miteinander in Zusammenhang stehen. In der Medizin erschweren meist eine große naturliche
Variation der Untersuchungsobjekte, zusatzliche Storgroßen oder nicht exakt erhebbare Ziel-
variablen die Auswertungen. Durch diese zufallsbedingten Streuungen der Messwerte konnen
Zusammenhange vorgetauscht werden, die nicht existieren. Andererseits konnen aber auch
Beziehungen, die vorhanden sind, nicht entdeckt werden.
Bei der Korrelation wird quantifiziert, wie stark ein Zusammenhang zwischen zwei Großen
ist. Die Regressionsanalyse dient dazu, den moglichen Einfluss von unabhangigen Großen
oder Variablen auf eine a priori zu spezifizierende abhangige Große zu untersuchen.
4.1 Streudiagramm
Ein Bild sagt oftmals mehr als viele Zahlen. Im sogenannten Streudiagramm oder Scat-
terplot kann der Zusammenhang von quantitativen Großen visualisiert werden.
60 4. Woche 3
Hintergrund
Im Streudiagramm wird fur jede Beobachtung das Wertepaar (X,Y ) im Koordinatensystem
abgetragen. Man sollte bereits jetzt darauf achten, Einflussgroße und abhangige Variable
zu unterscheiden. Die Einflussgroße wird oftmals mit X, die abhangige Variable oder
auch Zielvariable mit Y bezeichnet. Falls die Daten im zeitlichen Verlauf erhoben werden,
so stellt die spater erhobene Variable oft die Zielvariable dar. Diese Unterscheidung ist aber
oftmals nicht ganz einfach zu treffen. Beobachtungen, bei denen nicht von beiden Variablen
Auspragungen vorhanden sind, werden in der Regel ausgeschlossen. Als Alternative bieten
sich eventuell statistische Verfahren zum Ersetzen fehlender Werte, wie zum Beispiel eine
Imputation, an.
Beispiel
Im Datensatz Blutdruck.sav soll der Zusammenhang zwischen dem Cholesterin-Ausgangswert
und dem Blutdruck-Ausgangswert untersucht werden.
Durchfuhrung
Diagramme → Diagrammerstellung → Galerie →Streu/Punktdiagramme
einfaches Streudiagramm auswahlen
Variablen Blutdruck 0 auf x-Achse? ziehen
Variablen Cholesterin 0 auf y-Achse? ziehen
Optional kann die Grafik unter Titel/Fußnoten weiter beschriftet werden
ok
4.1 Streudiagramm 61
Abbildung 4.1: Eingabemenu Streudiagramm (einfach)
62 4. Woche 3
Ausgabe
Abbildung 4.2: Scatterplot
Interpretation
Es besteht ein deutlicher linearer Zusammenhang zwischen dem Blutdruck-Ausgangeswert
und dem Cholesterinwert zu Beginn der Studie. Je hoher der Blutdruck-Ausgangswert war,
desto hoher war tendenziell auch der Cholesterin-Ausgangswert.
Um den Zusammenhang der beiden Variablen besser interpretieren zu konnen, ist es oft
hilfreich, die Regressionsgerade durch die Punkte einzuzeichnen.
4.1 Streudiagramm 63
Durchfuhrung
Im Ausgabefenster auf die Grafik doppelklicken
im Diagrammeditor alle Punkte durch klicken markieren
rechte Maustaste drucken und im kontextsensitiven Menu”Hinzufugen Anpassungslinie bei
Gesamtwert“ auswahlen.
Ausgabe
Abbildung 4.3: Streudiagramm mit Anpassungslinie
64 4. Woche 3
4.2 Korrelation
Um zu beurteilen, wie stark ein Zusammenhang zwischen zwei Großen ist, errechnet man den
Korrelationskoeffizienten.
Ausfuhrliche Erlauterungen dazu sind z. B. in [5] und [7] zu finden.
Hintergrund
Der Korrelationskoeffizient kann Werte von −1 bis +1 annehmen. Ein positives Vorzeichen
bedeutet, dass mit zunehmenden Werten einer Große die Werte der anderen Große steigen.
Ein negatives Vorzeichen lasst einen inversen Zusammenhang erkennen (mit steigenden Wer-
ten einer Variable sind fallende Werte der zweiten Große zu beobachten).
Der Betrag des Korrelationskoeffizienten gibt an, wie eng die Beziehung zweier Variablen ist.
Wenn der Korrelationskoeffizient den Wert +1 oder −1 annimmt, kann man anhand einer Va-
riablen die andere Variable exakt vorhersagen. In diesem Fall ist keine zufallsbedingte Steuung
vorhanden.
Der Korrelationskoeffizient ist ein symmetrisches Maß, d. h. er liefert keine Aussage daruber,
welche Variable beeinflusst wird. Eine weitere Eigenschaft des Korrelationskoeffizienten be-
steht in der Invarianz gegenuber linearen Transformationen.
Je nach Skalenniveau der zu untersuchenden Variablen unterscheidet man zwei Korrelations-
koeffizienten.
Der Korrelationskoeffizient nach (Bravais-) Pearson misst den linearen Zusammenhang
zweier stetiger Merkmale. Er ist nur dann anwendbar, wenn die Daten intervallskaliert sind
und beide Variablen aus normalverteilten Grundgesamtheiten stammen. Das Ergebnis wird
stark von Ausreißern beeinflußt. Der Korrelationskoeffizient nach Pearson berechnet sich als
r =
∑ni=1(xi − x)(yi − y)√∑n
i=1(xi − x)2∑ni=1(yi − y)2
(4.2.1)
wobei mit x bzw. y das arithmetische Mittel der i = 1, . . . , n Beobachtungen der Variablen
X bzw. Y bezeichnet ist. In unserem Fall (Beispiel Streudiagramm Abb. 4.2) war
X = Blutdruck-Ausgangswert, Y = Cholesterin-Ausgangswert.
Falls die Daten mindestens ordinalskaliert vorliegen, so kann der Spearman - Korrelations-
koeffizient berechnet werden. Mithilfe dieses Korrelationskoeffizienten erhalt man Aussagen
4.2 Korrelation 65
uber monotone Zusammenhange. Normalverteilung wird nicht vorausgesetzt. Fur die Be-
rechnung werden alle Wertepaare zunachst geordnet und Range gebildet. Anstatt der Ori-
ginalwerte werden dann diese Range in Formel (4.2.1) eingesetzt. Existieren keine Beobach-
tungen mit identischen Merkmalsauspragungen (sog. Bindungen), so kann der Spearman-
Rangkorrelationskoeffizient auch mithilfe folgender Formel berechnet werden.
rSP = 1− 6∑ni=1D
2i
n3 − n(4.2.2)
Dabei ist mit Di die Rangdifferenz der i-ten Beobachtungseinheit von Merkmal X und Y und
mit n die Fallzahl bezeichnet.
Beispieltabelle zur Rangbildung
Xi Yi rg(xi) rg(yi)
2 8 1 25 7 3 13 9 2 3
Beispiel
In der Datei Blutdruck.sav befinden sich die Daten von 120 Hypertonikern, von denen
Blutdruckmessungen und einige Parameter zu Studienbeginn, nach einem Monat und
nach 12 Monaten medikamentoser Therapie vorliegen.
Ziel:
Es soll untersucht werden, ob der Blutdruck zu Beginn mit dem Alter, dem Choleste-
rinwert zu Beginn und der Korpergroße assoziiert ist.
66 4. Woche 3
Durchfuhrung
Analysieren → Korrelation → bivariat
Variablen: Blutdruck 0, Alter, Cholesterin 0, Groesse
Korrelationskoeffizienten: � Pearson � Spearman anhaken
ok
Abbildung 4.4: Eingabemenu bivariate Korrelation
4.2 Korrelation 67
Ausgabe
Abbildung 4.5: Pearson Korrelationskoeffizienten
Abbildung 4.6: Spearman Korrelationskoeffizienten
Interpretation
Das Alter zeigt eine schwache negative Korrelation mit dem Blutdruckwert zu Beginn
der Studie, die Korpergroße einen leichten positiven Zusammenhang. Die starkste posi-
tive Korrelation besteht zwischen den Anfangswerten von Cholesterin und Blutdruck.
68 4. Woche 3
Das heißt, je hoher der Cholesterinwert am Anfang war, desto hoher ist tendenziell auch
der Blutdruck zu Beginn.
Spearman und Pearson Korrelationskoeffizienten sind sehr ahnlich, ein nicht-linearer
Zusammenhang hat sich somit nicht herauskristallisiert.
Die Korrelationsmatrix ist symmetrisch mit der Hauptdiagonalen als Spiegelachse. Auf
der Hauptdiagonalen findet sich die Korrelation einer jeden Variablen mit sich selbst,
die immer”1“ ergibt.
4.3 Lineare Regression 69
4.3 Lineare Regression
Hangt die Auspragung eines Merkmals von einer Einflussgroße ab, so stellt sich das
Problem, die Art der Abhangigkeit quantitativ zu beschreiben. Diese Fragestellung
wird mittels Regressionsanalyse untersucht, indem einer beobachteten Punktwolke ei-
ne Regressionsgleichung angepasst wird. Die Kausalitatsstruktur muss bei derartigen
Untersuchungen zumindest insoweit geklart sein, dass man von einer Einflussgroße
und einer abhangigen Variablen sprechen kann. Wir behandeln den einfachsten Fall,
die lineare Abhangigkeit. Hier wird durch eine Punktwolke eine Gerade gelegt. Ob
diese Anpassung im Einzelfall gerechtfertigt ist, muss vorher uberpruft werden. Gute
Anhaltspunkte liefert das Streudiagramm, das in Kapitel 4.1 behandelt wurde. Weitere
Entscheidungshilfen liefern publizierte Studien und sachlogische Uberlegungen. Gene-
rell sollte der modellierte Zusammenhang moglichst einfach sein, um eine vernunftige
Anwendbarkeit sicherzustellen.
Hintergrund
Liegen die Datenpaare (xi, yi) vor, so ist die Beziehung y = f(x) + ε im einfachsten
Fall eine Gerade, wobei ε den stochastischen Fehlerterm darstellt. Die Funktion ei-
ner Geraden ist durch zwei Parameter bestimmt, dem y-Achsenabschnitt (Ordinaten-
schnittpunkt) a und der Steigung b. Die Steigung b wird als Regressionskoeffizient
bezeichnet. Damit ergibt sich die Funktionsgleichung als
y = f(x) = a+ b · x (4.3.3)
wobei y den durch die Geradengleichung geschatzten y-Wert bezeichnet.
Ziel der linearen Regressionsanalyse ist es, anhand der Beobachtungen (xi, yi) diejenige
Parameterkonstellation (a, b) zu berechnen, die die Punkte optimal beschreibende Gera-
de liefert. Unter optimal versteht man, dass die Gerade so liegen soll, dass die Streuung
in vertikaler Richtung moglichst klein ist. Die Steigung b und der Achsenabschnitt a
werden also so berechnet, dass die beobachteten y moglichst wenig von y abweichen. Da-
zu muss die Summe der Abweichungsquadrate∑ni=1 (yi − yi)2 =
∑ni=1 (yi − (a+ b · xi))2
70 4. Woche 3
moglichst gering sein. Die Quadrierung ist notig, da sich die Punkte sowohl uber als
auch unter der Regressionsgerade befinden und sich dadurch positive und negative
Differenzen ergeben, die in der Summe Null ergeben wurden (ebenso wie bei der Be-
rechnung der Varianz). Die”besten“ Paramenter a und b erhalt man - wie aus der
Analysis bekannt ist - indem man die partiellen Ableitungen der Funktion bezuglich a
und b gleich Null setzt. Die gesuchten Regressionskoeffizienten ergeben sich dann aus
den Normalgleichungen als
b =
∑ni=1(xi − x)(yi − y)∑n
i=1(xi − x)2(4.3.4)
und
a = y − bx (4.3.5)
mit x als arithmetisches Mittel der x-Werte, y entsprechend. Man nennt diese Schat-
zungen auch Kleinste-Quadrate-Schatzer (KQ) oder Ordinary-Least-Square-
Schatzer (OLS). Alternativ zur Quadrierung gibt es andere Moglichkeiten im mathe-
matischen Sinne Abstande zu definieren. Die Quadrierung ist jedoch im Regressions-
kontext am haufigsten verwendet.
Fur die Diagnostik und Beurteilung der Regressionsanalyse stellt das Bestimmtheits-
maß R2 ein wichtiges Hilfsmittel dar. Das Bestimmtheitsmaß wird interpretiert als
Anteil der Information von Y , die durch X erklart wird, relativ zur gesamten Informa-
tion von Y . Je großer R2 ist, desto hoher ist der Anteil der durch X erklarten Streuung
von Y . Daher liegt R2 zwischen 0 und 1, wobei R2 = 0 bedeutet, dass X und Y unkor-
reliert sind und R2 = 1, dass Y exakt durch X vorhergesagt werden kann.
4.3 Lineare Regression 71
Beispiel
In der Datei Blutdruck.sav soll analog zu obigem Beispiel die Regressionsgerade fur
die Beziehung des Cholesterinausgangswertes und dem Blutdruck nach einem Monat
bestimmt werden.
Durchfuhrung
Analysieren → Regression → Linear
Abhangige Variable: Blutdruck 1
Unabhangige Variable: Cholesterin 0
Methode: Einschluss
ok
Abbildung 4.7: Eingabemenu Lineare Regression
72 4. Woche 3
Ausgabe
Abbildung 4.8: Ausgabetabellen der linearen Regression
Interpretation
Das Ergebnis der Regressionsanalyse ist in der letzten Tabelle zu finden. Hier werden
die Parameter in der Spalte”nicht-standardisierte Koeffizienten“,
”B“ ausgegeben. In
dieser Spalte befinden sich zwei Werte. Der mit”Konstante“ bezeichnete Wert gibt den
Ordinatenschnittpunkt a an, der Wert in der Zeile”Cholesterin 0“ gibt den Regressi-
onskoeffizienten b an. Dies fuhrt zu folgender Regressionsgleichung:
Blutdruck nach 1 Monat = −12, 611+0, 655·Cholesterin zu Beginn der Studie (4.3.6)
4.3 Lineare Regression 73
Bei einem Cholesterin-Ausgangswert von z. B. 200 lasst hiernach ein Blutdruck von
ca. 118 mmHg nach einem Monat Therapie erwarten. Hat ein Patient im Vergleich mit
einem anderen Patienten einen um 10 Einheiten erhohten Cholesterin-Ausgangswert,
so ist bei diesem Patienten ein um 6,55 mmHg hoherer Blutdruck nach einem Monat
zu erwarten.
Das Bestimmtheitsmaß R2 hat einen Wert von 0, 451 (siehe erste Tabelle), was einer
maßigen Anpassung entspricht. Anhand des Cholesterin-Ausgangswertes und dem ge-
schatzten funktionalen Zusammenhang lasst sich der Blutdruck nach einem Monat nur
vage vorhersagen.
74 4. Woche 3
4.4 Ubungsaufgaben
In dieser Ubung sollen Sie den Zusammenhang von Cholesterin Ausgangswert und Cho-
lesterin nach einem Monat untersuchen.
1. Zeichnen Sie ein Streudiagramm, das den Zusammenhang von Cholesterin an den
beiden Zeitpunkten aufzeigt. Unterscheiden Sie dabei zwischen den beiden Be-
handlungsgruppen. (Hinweis: Gruppiertes Streudiagramm)
Zeichnen Sie außerdem eine Regressionsgerade durch die Punktwolke.
2. Besteht ein Zusammenhang zwischen den Cholesterinwerten an beiden Zeitpunk-
ten? Berechnen Sie dazu geeignete Korrelationskoeffizienten. Wie interpretieren
Sie das Ergebnis?
3. Fuhren Sie eine lineare Regressionsanalyse durch, um den in Ubung 1 gezeichne-
ten Zusammenhang zu quantifizieren. Wie lautet die Geradengleichung?
Wie mussten die Regressionskoeffizienten lauten, wenn keine Anderung des Cho-
lesterins nach einem Monat stattgefunden hatte?
Oft ist interessant, ob sich im Gesamtkollektiv eine Erhohung oder Verringerung
des Cholesterinspiegels nach einem Monat eingestellt hat. Wie musste die Skalie-
rung der Grafik aus Ubung 1 angepasst werden, damit diese Frage visuell beant-
wortet werden kann?
4. Fuhren Sie nun eine erneute Regressionsanalyse durch, nachdem folgene Einstel-
lungen geandert wurden:
Daten → Datei aufteilen → � Gruppen vergleichen auswahlen
Behandlung zu Gruppen basieren auf: hinzufugen
ok
Vergessen Sie nicht, nach Bearbeitung der Aufgabe die Teilung des Datensatzes
wieder aufzuheben.
4.5 Losungsvorschlag 75
4.5 Losungsvorschlag
1. Streudiagramm
Abbildung 4.9: Punktwolke mit Regressionsgerade
76 4. Woche 3
2. Korrelation
Abbildung 4.10: Pearson und Spearman Korrelationskoeffizienten
Die Korrelation zwischen dem Cholesterin-Anfangswert und dem nach einem Mo-
nat betragt 0,613 (Pearson) bzw. 0,604 (Spearman), d.h. es besteht ein positiver
Zusammenhang. Ein hoher Wert zu Studienbeginn spricht tendenziell fur einen
hoheren Wert nach einem Monat.
Die beiden Werte unterscheiden sich nicht sehr stark, weshalb ein linearer Zusam-
menhang angenommen werden kann.
4.5 Losungsvorschlag 77
3. Regression
Abbildung 4.11: lineare Regression
Geradengleichung: y = −82, 345 + 1, 349 · x
Hatte es keine Anderung im Cholesterinwert gegeben, so wurde die Geradengeli-
chung folgendermaßen aussehen: y = 0 + 1 · x
Fur die visuelle Beantwortung obiger Frage mussten die Achsen gleich skaliert
werden und idealerweise die Winkelhalbierende miteingezeichnet werden.
78 4. Woche 3
Abbildung 4.12: Streudiagramm mit der Winkelhalbierenden
4.5 Losungsvorschlag 79
4. Regression nach Datenaufteilung
Abbildung 4.13: lineare Regression aufgeteilt nach Behandlungsgruppen
80 4. Woche 3
Kapitel 5
Woche 4
Ein statistischer Test dient zum Uberprufen einer statistischen Hypothese. Man kann
mit ihm uberprufen, ob fur bestimmte beobachtete Effekte in Stichprobendaten (z. B.
Mittelwertunterschiede) der Zufall als Ursache mit einer vorgegebenen Irrtumswahr-
scheinlichkeit ausgeschlossen werden kann.”Statistisch signifikant“ bedeutet also nichts
anderes als”wahrscheinlich nicht durch Zufall zu erklaren“. Die Wahrscheinlichkeit,
mit der z. B. der beobachtete Mittelwertunterschied oder noch großere Unterschiede
in der Stichprobe auftreten, falls in der Grundgesamtheit tatsachlich kein Unterschied
besteht, heißt p-Wert. Der p-Wert ist eine Wahrscheinlichkeit und nimmt daher nur
Werte zwischen 0 und 1 an. Unterschreitet der p-Wert ein zuvor festgelegtes Signifi-
kanzniveau von z. B. 5%, so gilt das Resultat des statistischen Tests als signifikant und
damit die Alternativhypothese (Unterschied zwischen den Gruppen in der Grundge-
samtheit) als wahrscheinlich. Liegt der p-Wert uber dem Signifikanzniveau, so konnte
ein Unterschied nicht nachgewiesen werden. Dies heißt aber nicht, dass kein Unter-
schied besteht. Es bedeutet nur, dass die Nullhypothese (kein Unterschied zwischen
den Gruppen) zu wahrscheinlich ist, um abgelehnt werden zu konnen.
82 5. Woche 4
5.1 Der Chi-Quadrat-Test
Hintergrund
Der Chi-Quadrat-Test wird angewendet, wenn ein Haufigkeitsvergleich zwischen zwei
oder mehreren Gruppen bezuglich einer kategorialen Zielgroße durchgefuhrt werden
soll. Voraussetzung fur die Anwendbarkeit ist, dass die erwartete Haufigkeit in hoch-
stens 20% der Zellen kleiner als 5 ist. Die zugrundeliegenden zweiseitigen statistischen
Hypothesen lauten:
H0 : A und B sind unabhangig, d.h. das Merkmal B besitzt in jeder der
Kategorien von A die gleiche Haufigkeitsverteilung und umgekehrt.
H1 : A und B sind nicht unabhangig, d.h. mindestens zwei Kategorien von B
unterscheiden sich in ihrer Haufigkeitsverteilung bzgl. A und umgekehrt.
Um den p-Wert auszurechnen muss zunachst einmal berechnet werden, welche Wer-
te in der Stichprobe in den einzelnen Gruppen zu erwarten waren, falls H0 zutrifft.
Unter der allgemeinen Annahme, dass A m und B k kategoriale Auspragungen be-
sitzen, lassen sich die in der Stichprobe beobachteten Haufigkeiten ni,j der jeweiligen
Kategorien (i, j) in einer Kontingenztafel wie folgt darstellen:
A
1 . . . m∑
1 n11 . . . n1m n1.
2 n21 . . . n2m n2.
B...
.... . .
......
k nk1 . . . nkm nk.∑n.1 . . . n.m n
5.1 Der Chi-Quadrat-Test 83
Mithilfe der Kontingenztabelle konnen die erwarteten Haufigkeiten berechnet werden
als
eij =ni.n· n.j =
ni.n.jn
(5.1.1)
Im nachsten Schritt wird die Teststatistik berechnet. Diese gibt an, wie stark sich die
gezogene Stichprobe von der erwarteten Haufigkeit unterscheidet. Ist dieser Unterschied
groß, so spricht dies fur die Alternativhypothese, d. h. dass es tatsachlich einen Unter-
schied in der Grundgesamtheit gibt. Die Teststatistik des Chi-Quadrat-Tests ist gegeben
als
χ2 =k∑i=1
m∑i=1
(nij − eij)2
eij(5.1.2)
Vereinfacht kann man die Teststatistik auch darstellen als
χ2 =∑ (B − E)2
E(5.1.3)
also als quadrierte Differenz der beobachteten (B) zu den erwarteten (E) Haufigkeiten
relativ zu den erwarteten Haufigkeiten. Das Quadrat im Zahler dient dazu, negative
Differenzen zu vermeiden (siehe auch Formel fur die Varianz).
Basierend auf dieser Teststatistik lassen sich die p-Werte des Tests uber die Integration
der Dichte der χ2-Verteilung berechnen.
Beispiel
Im Datensatz Blutdruck.sav soll untersucht werden, ob die Haufigkeiten der Neben-
wirkung”Mudigkeit“ mit dem BMI (Einteilung anhand der BMI-Kategorien) assoziiert
ist.
84 5. Woche 4
Durchfuhrung
Analysieren −→ Deskriptive Statistiken −→ Kreuztabellen
Zeilen: BMI kat
Spalten: Diabetes
Exakt: � Exakt anhaken
Weiter
Statistiken: � Chi-Quadrat anhaken
Weiter
Zellen: � Beobachtet und � Prozentwerte Zeilenweise anhaken
Weiter
ok
Abbildung 5.1: Eingabemenu Kreuztabellen
5.1 Der Chi-Quadrat-Test 85
Ausgabe
Abbildung 5.2: Ausgabe der Kreuztabelle
Interpretation
Die erste Tabelle zeigt auf, wieviele Beobachtungen in die Analyse eingehen. In der
zweiten Tabelle ist die Kontingenztabelle zu finden. In der ersten Zeile werden dabei
die beobachteten absoluten, in der zweiten Zeile die relativen Haufigkeiten abgetragen.
In der dritten Tabelle ist das Ergebnis des statistischen Tests zu finden. Alle Zellen
weisen eine erwartete Haufigkeit großer 5 auf, so dass die Voraussetzung fur die Test-
durchfuhrung erfullt ist (Fußnote a). Der exakte p-Wert des Pearson-Chi-Quadrat-Tests
86 5. Woche 4
ist in der Spalte”Exakte Signifikanz (2-seitig)“ zu finden. Der p-Wert ist mit einem Wert
von 0,838 großer als das Signifikanzniveau (0,05). Somit kann die Nullhypothese nicht
abgelehnt werden. Ein Unterschied in der Mudigkeitsverteilung in den BMI-Kategorien
ist nicht nachweisbar.
5.2 Uberprufung der Normalverteilung
Hintergrund
Ein wichtiges Kriterium fur die Testauswahl beim Gruppenvergleich eines stetigen
Merkmals ist die Normalverteilung. Eine ganze Klasse von statistischen Tests, die so-
genannten parametrischen Tests setzen voraus, dass das stetige (quantitative, metri-
sche) Merkmal einer bestimmten Verteilung folgt. Jede Normalverteilung kann anhand
von zwei Parametern beschrieben werden, dem Mittelwert und der Varianz. Diese zwei
Parameter legen die gesamte Form der Kurve und damit die Verteilung fest. Nimmt
man die Normalverteilung fur das zugrundeliegende Merkmal an, so werden alle Infor-
mationen aus den Daten auf diese beiden Maßzahlen reduziert. Somit ist die Normal-
verteilungsannahme mit weitreichenden Konsequenzen verbunden.
Wichtige Eigenschaften der Normalverteilung sind unter anderem:
• Symmetrie um den Mittelwert
• (theoretischer) Wertebereich (−∞;∞)
• stetig, d. h. jeder Wert der x-Achse kann angenommen werden
Es ist deshalb auf jeden Fall vorab zu untersuchen, ob eine Normalverteilung vorliegt
bzw. vorliegen kann. Fur parametrische Gruppenvergleiche wird die Normalverteilung
in jeder Gruppe benotigt.
Zur explorativen Diagnose eignet sich das Histogramm sehr gut. Das Histogramm
dient zur Darstellung der Haufigkeitsverteilung. Ausgangspunkt fur die Aufstellung
einer Haufigkeitsverteilung ist immer die Zusammenfassung von Merkmalsauspragun-
gen zu Klassen. Bei metrischen Variablen mussen diese Klassen kunstlich festgelegt
5.2 Uberprufung der Normalverteilung 87
werden. Fur die Anzahl der Klassen und damit der Wahl der Klassenbreite existie-
ren Faustregeln, also Empfehlungen, beispielsweise Anzahl der Klassen k = [√n] oder
k = [10 log10 n]. Die Zuordnung zu Klassen hat hier den Sinn einer Zusammenfassung
der Daten. Das Histogramm ist ein spezielles Balkendiagramm, bei dem die Balken
unmittelbar aneinander grenzen. Die Hohe der Balken entspricht dem Anteil, den die
Klasse in der Gesamtstichprobe einnimmt. Die Breite der Balken ist so normiert, dass
sich die Flache der Balken zu eins aufsummiert.
Beispiel
Im Datensatz Blutdruck.sav soll der Blutdruck nach einem Monat (Blutdruck 1) in
den beiden Behandlungsgruppen auf Normalverteilung untersucht werden.
Dazu soll ein Histogramm fur jede Behandlungsgruppe gezeichnet werden. Zur besseren
Interpretation soll das Histogramm mit der Dichte der entsprechenden Normalvertei-
lung uberlagert werden.
Durchfuhrung
Analysieren −→ Deskriptive Statistiken −→ Explorative Datenanalyse
Abhangige Variablen: Blutdruck 1
Faktorenliste: Behandlung
Anzeige: Diagramme Diagramme...
Deskriptiv � Histogramm anhaken
Boxplots � keine Weiter
ok
88 5. Woche 4
Abbildung 5.3: Eingabemenu Explorative Datenanalyse
Abbildung 5.4: Eingabemenu Explorative Datenanalyse: Diagramme
5.2 Uberprufung der Normalverteilung 89
Zum nachtraglichen Anzeigen der uberlagerten Normalverteilungskurve wechseln Sie
durch Doppelklick auf die Grafik in den Diagramm-Editor. Wahlen Sie den Button
Verteilungskurve anzeigen.
Bitte schließen Sie danach den Diagramm-Editor wieder.
Ausgabe
Abbildung 5.5: Histogramm mit Normalverteilungskurve fur Behandlung 0
90 5. Woche 4
Abbildung 5.6: Histogramm mit Normalverteilungskurve fur Behandlung 1
Interpretation
Es sind keine gravierenden Abweichungen von der Normalverteilungskurve sichtbar. Der
visuelle Eindruck ist jedoch stark von der Wahl der Klassenbreite abhangig.
5.3 Der t-Test 91
5.3 Der t-Test
Mit dem t-Test wird die mittlere Lage eines stetigen Merkmals in zwei Gruppen mitein-
ander verglichen (Mittelwertvergleich). Man unterscheidet nach der Art des Vergleichs
zwischen t-Tests fur verbundene Stichproben, z. B. Vorher-Nachher-Vergleiche und
t-Tests fur unverbundene Stichproben, z. B. Vergleich zweier Behandlungsgruppen.
5.3.1 t-Test fur unverbundene Stichproben
Hintergrund
Voraussetzung fur die Anwendbarkeit des t-Tests ist die Normalverteilung in jeder
Gruppe. Weiterhin mussen die zu vergleichenden Gruppen unabhangig sein. Die Unab-
hangigkeit ist i. d. R. dann gegeben, wenn die Gruppen unterschiedliche, nichtverwandte
Beobachtungseinheiten, die zufallig aus der Grundgesamtheit gezogen wurden, enthal-
ten.
Die zweiseitigen Hypothesen fur den Mittelwertvergleich einer stetigen, normalverteil-
ten Variablen X in zwei Gruppen lauten:
H0 : µ1 = µ2
H1 : µ1 6= µ2
wobei µk = 1nk
∑nki=1 xi das arithmetische Mittel von X uber alle Beobachtungseinheiten
der Gruppe k darstellt, mit k ∈ {1, 2} fur den Fall eines 2-Gruppen-Vergleichs. Als
Testgroße wird die sogenannte t-Statistik verwendet. Die mit t bezeichnete Große
setzt sich zusammen aus dem Betrag der Differenz der Mittelwerte geteilt durch die
Streuung der durchschnittlichen Differenz. Große Werte der Testgroße sprechen fur
die Alternativhypothese. Anhand der Testgroße und der Verteilung der Testgroße (t-
Verteilung) lasst sich der p-Wert berechnen.
Beispiel
Die Hauptfragestellung der Blutdruckstudie (Datei Blutdruck.sav) besteht darin, die
beiden Medikamente Alphasan und Betasan hinsichtlich ihrer blutdrucksenkenden Wir-
92 5. Woche 4
kung miteinander zu vergleichen. Die Behandlungsgruppen setzen sich aus einem dis-
junkten Patientenkollektiv zusammen, so dass nach Uberprufung der Normalverteilung
in Kapitel 5.2 der t-Test fur unverbundene Stichproben angewendet werden kann.
Durchfuhrung
Analysieren −→ Mittelwerte vergleichen −→ t-Test bei unabhangigen Stichproben
Testvariable(n): Blutdruck 1
Gruppenariable: Behandlung
Gruppen def...: � Angegebene Werte verwenden: Gruppe 1:0, Gruppe 2:1
Weiter
ok
Abbildung 5.7: Eingabemenu t-Test bei unabhangigen Stichproben
5.3 Der t-Test 93
Ausgabe
Abbildung 5.8: Ausgabe t-Test bei unabhangigen Stichproben
Interpretation
Neben dem eigentlichen Ergebnis des t-Tests umfasst die Ausgabe noch die Fallzahl,
Mittelwert und Streuung in beiden Gruppen sowie den Levene-Test auf Varianzhomo-
genitat. Ublicherweise verwirft man die Varianzhomogenitat, wenn der Levene-Test ein
p < 0, 05 (bzw. manchmal auch p < 0, 10) ergibt. Das bedeutet, dass die Annahme der
gleichen Varianzen nicht zutrifft und in obigem Output die zweite Zeile Varianzen sind
nicht gleich verwendet werden muss.
Im Beispiel kann die erste Zeile verwendet werden. Dabei ergibt sich eine mittlere Dif-
ferenz von 4,980 mmHg (95%-KI = [1,259; 8,701]) Der p-Wert betragt 0,009, was aqui-
valent dazu ist, dass die 0 nicht im 95%-Konfidenzintervall enhalten ist (p<0,05). Die
Nullhypothese wird also zum Signifikanzniveau 5% abgelehnt, d. h. die Behandlungs-
gruppen unterscheiden sich hinsichtlich des Blutdrucks nach einem Monat signifikant
voneinander. Es existiert also ein Unterschied in der Wirkung der beiden Medikamen-
te: unter Betasan-Behandlung ist der Mittelwert des Blutdrucks nach 1 Monat kleiner
als in der Alphasan-Behandlungsgruppe, d.h. dieses Medikament senkt den Blutdruck
besser.
94 5. Woche 4
5.3.2 t-Test fur verbundene Stichproben
Hintergrund
Sind die zu vergleichenden Messwerte voneinander abhangig, wie dies typischerweise bei
Vorher-Nachher-Vergleichen auftritt, so muss dies berucksichtigt werden. Beim t-Test
fur abhangige Stichproben wird eine Normalverteilung der Differenzen vorausgesetzt.
Patienten, die zu Studienbeginn hohe Blutdruckwerte aufweisen, werden am Studien-
ende vermutlich auch hohere Werte als andere Patienten haben. Es konnen nur solche
Beobachtungen in den Test einfließen, bei denen zu beiden Zeitpunkten Messwerte er-
hoben wurden.
Die zweiseitigen Hypothesen fur den Mittelwertvergleich einer stetigen, normalverteil-
ten Variablen X zu zwei Zeitpunkten lauten:
H0 : ∆ = µ2 − µ1 = 0
H1 : ∆ = µ2 − µ1 6= 0
wobei µj = 1nj
∑nj
i=1 xi das arithmetische Mittel von X uber alle Beobachtungseinheiten
zum Zeitpunkt j darstellt. Bei 2 Zeitpunkten ist j ∈ {1, 2}.
Die Testgroße stellt wiederum die t-Statistik dar. Der Zahler wird durch die Diffe-
renz der jeweils zusammengehorigen Wertepaare (x1,i, x2,i) gebildet (vgl. unabhangige
Stichproben: Differenz der Mittelwerte). Im Nenner wird analog zur Effektgroße bei un-
abhangigen Stichproben die Streuung der Wertepaardifferenzen abgetragen. Basierend
auf der Testgroße kann der p-Wert bestimmt werden.
Beispiel
Nun soll uberpruft werden, ob sich der systolische Blutdruck wahrend der Studie signi-
fikant geandert hat (Datei Blutdruck.sav).
5.3 Der t-Test 95
Durchfuhrung
Analysieren −→ Mittelwerte vergleichen −→ t-test bei verbundenen Stichproben
gepaarte Variablen: Blutdruck 0, Blutdruck 2 (Studienende)
ok
Abbildung 5.9: Eingabemenu t-test bei verbundenen Stichproben
96 5. Woche 4
Ausgabe
Abbildung 5.10: Ausgabe t-Test bei verbundenen Stichproben
Interpretation
Die Ausgabe beginnt mit einer Tabelle, in der deskriptive Maßzahlen der beiden Grup-
pen zu finden sind. Eine zweite Tabelle gibt die Korrelation der beiden Variablen an.
Das Ergebnis des t-Tests ist in der dritten Tabelle dargestellt. In der letzten Spalte
(Sig. (2-seitig)) ist der p-Wert zu finden. In diesem Beispiel hat der p-Wert einen Wert
< 0, 001, eine signifikante Blutdrucksenkung konnte nachgewiesen werden. Mithilfe der
ersten Spalte erkennt man, dass der systolische Blutdruck im Mittel um 5,125 mmHg
(95%-KI = [4,092; 6,158]) gesenkt werden konnte.
5.4 Ubungsaufgaben 97
5.4 Ubungsaufgaben
Alle Ubungsaufgaben sind anhand des Datensatzes Blutdruck.sav zu losen. Versuchen
Sie alle Aufgaben mithilfe eines statistischen Tests zu beantworten.
1. Untersuchen Sie, ob sich die beiden Behandlungsgruppen in der Blutdrucksen-
kung um mindestens 10 mmHg unterscheiden. Erstellen Sie dazu zunachst eine
neue Variable BD Senkung gr10: ja/nein und vergleichen Sie die beiden Behand-
lungsgruppen hinsichtlich dieser Variable.
2. Gibt es signifikante Unterschiede zwischen den Behandlungsgruppen beim Chole-
sterinwert nach einem Monat?
3. Untersuchen Sie, ob und wie sich die Cholesterinwerte im Studienverlauf verandert
haben.
98 5. Woche 4
5.5 Losungsvorschlag
1. Chi-Quadrat-Test
Zur Berechnung der neuen Variable:
Transformieren → Variable berechnen
Zielvariable: BD Senkung gr10
Numerischer Ausdruck: Blutdruck 0 - Blutdruck 1 >= 10
Ok
Abbildung 5.11: Eingabemenu: neue Variable berechnen
5.5 Losungsvorschlag 99
Abbildung 5.12: Ausgabe der Kreuztabelle mit Chi-Quadrat-Test
Der p-Wert ist kleiner als das Signifikanziveau von 0,05. Somit kann die Nullhy-
pothese (Gleichheit) abgeleht werden, d.h. es besteht ein statistisch signifikanter
Unterschied zwischen den beiden Behandlungsgruppen hinsichtlich der Senkung
des Blutdrucks um mindestens 10 mmHg.
100 5. Woche 4
2. Als Voraussetzung fur den t-Test muss zuerst die Normalverteilungsannahme uber-
pruft werden:
Abbildung 5.13: Histogramm mit Normalverteilungskurve fur Alphasan-Behandlungsgruppe
Abbildung 5.14: Histogramm mit Normalverteilungskurve fur Betasan-Behandlungsgruppe
5.5 Losungsvorschlag 101
Abbildung 5.15: Ausgabe t-Test fur unabhangige Stichproben
Der p-Wert von 0,340 liegt uber dem Signifikanzniveau (0,05), so dass die Null-
hypothese nicht abgelehnt werden kann. Das bedeutet, die Behandlungsgruppen
unterscheiden sich nicht signifikant voneinander hinsichtlich des Cholesterinspie-
gels nach einem Monat.
3. t-Test fur verbundene Stichproben
Abbildung 5.16: Ausgabe t-Test fur verbundene Stichproben
Auch hier liegt der p-Wert 0,773 deutlich uber dem Signifikanzniveau von 0,05. Es
konnte also keine signifikante Veranderung des Cholesterinwertes innerhalb eines
Monats festgestellt werden.
102 5. Woche 4
Kapitel 6
Anhang
Datensatze
Fitness-Daten
Variablenname Erklarung
id Patientennummer
Ubungsleiter Durchfuhrender Ubungsleiter
Workout Anzahl an Workouts pro Woche
Alter Alter des Patienten
RuheFre1 Atemfrequenz des Patienten im Ruhezustand vor Beginn des Trainings
Messung2 Atemfrequenz des Patienten im Ruhezustand nach einem Monat
Messung3 Atemfrequenz des Patienten im Ruhezustand nach drei Monaten
Geschlecht Geschlecht des Patienten
104 6. Anhang
id Ubungsleiter Workout Alter RuheFre1 Messung2 Messung3 Geschlecht
1 1 Amund 1 23 68 65 65 22 2 Amund 1 31 84 81 75 23 3 Amund 1 32 72 68 65 24 4 Amund 2 48 72 68 66 25 5 Amund 2 22 78 75 73 26 6 Amund 2 45 60 60 64 17 7 Amund 2 27 90 87 85 18 8 Amund 2 26 66 62 60 19 9 Amund 2 26 84 80 78 2
10 10 Amund 2 48 66 62 60 211 11 Amund 2 36 66 62 60 212 12 Amund 3 25 54 54 52 113 13 Amund 3 23 66 62 62 214 14 Amund 3 46 54 56 56 215 15 Amund 3 24 72 68 70 116 16 Amund 3 29 54 52 50 117 17 Czika 1 70 68 66 218 18 Czika 1 36 80 76 74 219 19 Czika 1 28 76 76 74 220 20 Czika 2 24 74 70 72 221 21 Czika 2 24 82 78 76 122 22 Czika 2 30 66 64 62 223 23 Czika 3 44 78 76 76 224 24 Czika 3 25 60 58 56 225 25 Czika 3 24 72 68 66 126 26 Czika 3 23 54 52 50 127 27 Czika 4 29 66 62 62 228 28 Czika 4 27 62 60 60 129 29 Reed 1 46 84 82 82 130 30 Reed 1 25 88 86 84 231 31 Reed 2 28 84 82 82 232 32 Reed 2 37 78 76 74 233 33 Reed 2 23 72 70 68 134 34 Reed 2 37 72 70 66 235 35 Reed 3 42 60 58 56 136 36 Reed 4 33 56 56 54 237 37 Yang 1 39 90 88 82 238 38 Yang 1 28 96 92 90 139 39 Yang 2 28 86 84 80 140 40 Yang 2 30 78 76 74 141 41 Yang 2 26 74 72 70 142 42 Yang 2 48 72 70 68 243 43 Yang 3 41 76 72 68 144 44 Yang 3 31 60 60 58 145 45 Yang 4 66 64 68 2
105
Blutdruck-Daten
Variablenname Erklarung
ID ProbandennummerBeh. MedikamentBD 0 Systolischer Blutdruck zu StudienbeginnBD 1 Systolischer Blutdruck nach einem MonatBD 2 Systolischer Blutdruck nach einem JahrMud. Nebenwirkung MudigkeitBMI BMI-KategorienGeschl. GeschlechtAlter Alter in JahrenChol 0 Cholesterin zu Beginn der StudieChol 1 Cholesterin nach einem MonatGroesse KopergroßeDiab Nebenerkrankung Diabetes
ID Beh. BD 0 BD 1 BD 2 Mud. BMI Geschl. Alter Chol 0 Cholt 1 Groesse Diab.
1 1 156 146 150 0 1 1 62 238 254 172 02 1 138 127 137 1 0 1 67 225 228 193 03 0 148 140 147 0 0 0 56 234 225 166 04 0 162 154 155 0 2 1 65 247 244 199 05 1 138 126 131 0 1 1 67 225 221 177 06 0 156 147 145 0 0 1 59 235 224 188 07 0 151 145 143 0 1 1 46 217 229 172 08 1 148 137 140 1 1 0 60 238 245 177 09 0 152 147 151 0 2 0 65 247 266 175 0
10 0 154 146 148 0 1 0 61 245 239 168 011 0 146 140 153 0 1 1 61 227 236 181 012 0 168 160 174 0 1 0 58 256 252 166 013 1 156 144 151 1 0 1 49 225 231 176 014 0 131 121 133 1 1 1 50 201 169 173 015 0 142 132 122 0 1 1 67 229 203 166 016 0 158 155 160 0 1 1 61 239 272 174 017 0 148 141 143 0 2 0 67 245 241 169 018 0 147 137 140 0 1 0 60 237 214 179 019 0 157 151 155 0 1 0 58 245 260 177 020 1 158 149 156 1 1 0 56 244 271 175 021 1 136 124 120 0 0 0 62 228 225 167 022 1 158 150 163 1 1 1 49 227 266 183 023 1 164 150 153 1 1 0 60 254 248 162 024 1 140 128 131 0 0 0 68 238 237 165 025 1 139 130 133 0 0 0 60 229 253 171 0
106 6. Anhang
ID Beh. BD 0 BD 1 BD 2 Mud. BMI Geschl. Alter Chol 0 Cholt 1 Groesse Diab.
26 0 168 163 162 0 2 1 59 247 268 189 027 0 137 129 128 0 1 1 61 218 205 179 028 1 152 137 133 0 1 1 57 229 207 181 029 0 132 126 130 0 0 0 68 230 230 152 030 0 162 154 156 0 1 0 62 254 251 156 031 0 161 157 159 0 0 1 64 245 275 182 032 1 167 157 162 0 0 0 55 252 277 169 033 0 144 138 141 1 0 0 59 233 242 156 034 0 172 167 177 0 1 1 52 244 265 177 035 0 151 142 144 0 0 1 58 229 213 175 036 0 136 128 135 1 0 0 56 222 209 161 037 0 133 121 120 0 1 1 63 216 172 187 038 0 148 139 141 0 1 0 58 236 218 163 039 1 144 130 131 0 1 1 58 222 205 162 040 1 150 132 136 1 2 1 67 237 190 168 041 0 141 135 142 0 1 1 67 228 235 182 042 0 155 147 155 1 1 1 43 218 214 183 043 1 162 147 154 0 2 0 59 251 236 163 144 1 159 148 154 0 0 1 45 224 235 187 045 0 149 142 145 0 0 1 62 231 234 182 046 0 151 147 147 0 2 1 63 234 255 189 047 0 148 142 142 0 1 1 65 233 238 180 048 0 146 139 141 0 0 0 54 230 233 163 049 1 147 136 136 1 1 0 56 233 240 161 050 1 130 118 122 0 0 0 65 225 221 159 051 1 144 132 135 0 0 0 67 241 235 153 052 0 142 132 144 0 0 0 66 238 208 171 053 1 156 145 148 1 2 0 68 254 264 172 054 0 148 142 148 0 0 1 59 227 232 171 055 0 148 138 146 1 1 1 46 214 190 180 056 0 163 153 159 0 2 0 63 256 235 155 157 0 153 142 149 0 1 0 66 249 215 166 058 0 167 161 161 0 2 1 61 248 266 178 159 0 163 155 166 0 0 1 56 239 237 175 160 1 155 142 148 1 2 1 56 231 223 171 061 1 152 141 150 0 0 1 46 218 228 168 062 0 149 144 149 0 0 0 57 236 250 157 063 1 148 139 140 1 2 0 62 240 267 164 064 1 161 146 156 0 1 0 52 243 225 162 065 0 144 139 150 0 0 0 59 233 247 168 066 1 136 121 123 1 0 0 68 234 203 155 067 1 141 129 135 1 1 1 66 227 227 184 068 1 145 132 135 0 2 1 60 225 212 172 069 1 139 134 140 0 0 0 58 227 281 170 070 1 158 145 151 0 1 1 59 237 234 168 071 1 141 130 129 1 0 0 60 231 236 165 072 1 138 124 129 0 1 1 68 226 205 161 073 1 149 137 137 0 1 1 57 226 228 174 074 0 150 143 145 0 1 1 61 231 234 175 075 1 143 133 137 1 0 0 61 234 251 163 0
107
ID Beh. BD 0 BD 1 BD 2 Mud. BMI Geschl. Alter Chol 0 Cholt 1 Groesse Diab.
76 1 155 142 139 1 0 0 58 243 238 165 077 1 165 154 157 0 2 0 58 253 265 163 078 1 146 137 128 1 0 0 67 243 267 156 079 0 151 146 156 1 1 1 66 237 250 176 080 0 173 160 173 0 2 1 61 254 218 188 181 0 157 149 148 0 2 0 59 246 241 160 182 0 139 128 126 0 0 0 58 227 190 175 083 0 145 138 143 0 1 0 59 234 234 161 084 0 156 148 149 0 1 1 65 241 236 171 085 0 145 137 136 1 1 1 59 224 211 188 086 0 143 139 139 0 0 0 52 225 246 168 087 0 143 133 138 1 0 0 57 230 205 179 088 0 159 151 156 1 0 1 61 240 233 167 089 1 141 128 131 0 1 1 60 221 212 178 190 1 150 140 137 0 2 1 56 226 244 179 191 1 155 143 144 1 0 1 65 240 245 192 092 0 144 136 140 0 0 0 68 242 236 166 093 0 144 135 142 0 0 0 59 233 213 163 094 1 154 145 155 0 1 1 60 234 261 181 095 1 140 129 125 0 0 1 48 208 212 170 096 0 145 142 146 1 0 0 63 238 270 169 097 0 148 142 144 1 0 0 55 233 243 160 098 0 138 130 142 0 1 1 63 221 211 184 099 0 144 135 141 0 0 0 65 239 219 172 0
100 1 144 132 134 1 0 0 61 235 234 176 0101 0 147 139 148 1 2 1 60 227 215 173 0102 0 165 158 165 0 1 1 63 248 253 155 0103 0 157 149 156 0 1 1 58 235 231 168 0104 0 136 129 132 0 0 0 55 221 217 149 0105 0 148 141 148 0 0 0 47 225 222 172 0106 0 150 140 145 0 1 0 47 227 205 161 0107 1 153 140 148 0 2 1 57 230 225 200 0108 0 144 136 147 0 0 0 62 236 222 161 0109 0 159 155 156 1 1 0 61 250 282 172 0110 1 142 126 136 1 0 0 61 233 197 171 0111 0 164 158 168 1 2 1 57 241 253 182 0112 0 161 153 153 1 1 1 57 238 232 180 0113 1 167 157 164 0 1 1 67 254 275 172 0114 1 147 130 129 0 0 1 64 231 189 176 0115 0 156 151 152 0 1 1 61 237 255 181 0116 0 150 144 144 0 2 1 55 225 235 179 0117 1 161 149 151 1 1 0 59 250 256 182 0118 1 174 165 177 1 1 1 57 251 283 170 0119 0 139 134 144 0 1 0 59 228 240 159 0120 1 158 143 147 0 1 1 55 233 213 175 0
108 6. Anhang
Software
Die im Rahmen des Kurses verwendete Software umfasst EXCEL fur Windows, als Teil
des Microsoft Office 2003 Pakets und SPSS Version 19 fur Windows.
Microsoft Office und damit auch EXCEL sind auf den meisten Computern installiert
und somit weithin verfugbar, unter anderem auch auf den Rechnern im LUTZ.
Lizenzen fur das SPSS Softwarepaket sind fur Angehorige der Munchener Hochschulen
uber das Leibniz-Rechenzentrum (LRZ) zu beziehen. Fur weitere Informationen zum
Bezug von SPSS uber das LRZ wenden Sie sich bitte an deren Benutzersekretariat in der
Eingangshalle des LRZ-Gebaudes (Boltzmannstraße 1, 85748 Garching) oder erkundi-
gen sich auf der Homepage http://www.lrz-muenchen.de/services/swbezug/lizenzen/spss/.
Ausgefullter CRF-Bogen
Auf den folgenen Seiten finden Sie ein Beispiel fur einen ausgefullten CRF-Bogen.
Literaturverzeichnis
[1] P. Buhl, A. Zofel. SPSS 13. Addison-Wesley- Pearson Studium, Munchen, 9.
edition, 2004.
[2] J. Bortz and G. A. Lienert. Kurzgefaßte Statistik fur die klinische Forschung.
Springer, Berlin, 2003.
[3] L. Fahrmeier, R. Kunstler, I. Pigeot, and G. Tutz. Statistik - Der Weg zur Daten-
analyse. Springer, Heidelberg, 4. edition, 2004.
[4] S. A. Glantz. Primer of Biostatistics. McGraw-Hill Medical Publishing, 2001.
[5] V. Harms. Biomathematik, Statistik und Dokumentation. Harms, Kiel, 1998.
[6] C. McMurray I. MacMurray I. Hinton, P. R. Brownlow. SPSS Explained. Rout-
ledge, 2004.
[7] Wolfgang Kohler, Gabriel Schachtel, and Peter Voleske. Biostatistik. Springer,
1995.
[8] P. R. Kinnear and C. D. Gray. SPSS for Windows Made Simple. Psychology Press
(UK), 2004.
[9] N. L. Leech, K. C. Barrett, and G. A. Morgan. SPSS for Intermediate Statistics:
Use and Interpretation with CDROM. Lawrence Erlbaum Associates, 2005.
[10] K. Rinne. SPSS. Franzis, 2003.
top related