Download - Skript Teil 2 - uni-due.de · 12 Für Normalverteilungen gilt, dass die Fläche, die von +/- einer Standardabweichung vom Mittelwert begrenzt wird, mehr als 2/3 aller (68,26%) beinhaltet

10

2. INFERENZSTATISTIK

„Inferenzstatistik“ bedeutet übersetzt „schließende Statistik“. Damit ist der Schluss von den

erhobenen Daten einer Stichprobe auf Werte in der Population gemeint.

2.1 Die Normalverteilung

In der Natur sind sehr viele Merkmale normalverteilt. Dies gilt beispielsweise für die

Körpergröße, Intelligenz oder das Sehvermögen. Die Normalverteilung galt sogar zeitweise

als eine Art Naturgesetz. Auch wenn diese Vorstellung mittlerweile abgelehnt wird, so zeigt

sie doch die herausragende Bedeutung der Normalverteilung in der Mathematik und in den

empirischen Sozialwissenschaften. Sehr viele statistische Verfahren, die für

wissenschaftliches Arbeiten erforderlich sind, setzen voraus, dass die relevanten Merkmale

normalverteilt sind.

Bei der Abbildung 2.1 handelt es sich um eine diskrete Wahrscheinlichkeitsverteilung. Sie

zeichnet sich dadurch aus, dass:

- alle Werte auf der x-Achse getrennt voneinander stehen

- jedem einzelnen Wert eine bestimmte Wahrscheinlichkeit zugeordnet ist

VAR00001

7,06,05,04,03,02,01,0

30

20

10

0

Std.abw. = 1,34

Mittel = 4,0

N = 57,00

11

Kontinuierliche Wahrscheinlichkeitsverteilungen

Kontinuierliche Wahrscheinlichkeitsverteilungen zeichnen sich dadurch aus, dass:

- der Abstand der Werte auf der x-Achse unendlich klein ist

- einem einzelnen Werte keine bestimmte Wahrscheinlichkeit zugeordnet werden kann

Ein anderes Beispiel für eine kontinuierliche Variable ist das Gewicht. Zwar wird es zumeist

in ganzen Zahlen angegeben, tatsächlich nimmt es aber unendlich viele verschiedene

Ausprägungen zwischen diesen ganzen kg-Werten an, z.B. 8,657 kg.

Das Resultat dieses Gedankenexperimentes ist eine unimodale und eingipflige Verteilung mit

glockenförmigen Verlauf. Sie ist symmetrisch und nähert sich der x-Achse asymptotisch an.

Dadurch sind die Werte für Median, Modus und arithmetisches Mittel identisch. Eine solche

Verteilung heißt Normalverteilung.

Der Entdecker der Normalverteilung heißt Carl Friedrich Gauss. Sein Portrait war auf jedem

Zehn-Mark-Schein abgebildet. Dort fand sich auch die mathematische Funktion der

Normalverteilung:

2

2

2

)(

22

1)( σ

µ

σπ

−−

⋅⋅

=

x

exf

Jede Normalverteilung ist durch ihr arithmetisches Mittel und ihre Streuung vollständig

determiniert.

2.1.2 Wahrscheinlichkeiten unter der Normalverteilung

Aus der Symmetrie der Normalverteilung folgt, dass die Wahrscheinlichkeit, einen größeren

Wert als den Mittelwert zu messen, p: 0,5 ist.

Da eine Kurve aus unendlich vielen Punkten besteht, ist die Wahrscheinlichkeit für einen

einzelnen Wert unendlich klein. Deshalb sind Wahrscheinlichkeitsberechnungen nur für

Flächen, also Intervalle unter der Kurve möglich, niemals für einzelne Werte.

12

Für Normalverteilungen gilt, dass die Fläche, die von +/- einer Standardabweichung vom

Mittelwert begrenzt wird, mehr als 2/3 aller (68,26%) beinhaltet. 95,44% liegen im Bereich

von +/- zwei Standardabweichungen.

2.2 Die Standardnormalverteilung

Unter den unendlich vielen Normalverteilungen gibt es eine mit dem Mittelwert 0=µ und

der Streuung 1=σ . Diese wird als Standardnormalverteilung bezeichnet. Ihr kommt eine

besondere Bedeutung zu, denn jede erdenkliche Normalverteilung ist durch eine einfache

Transformation in diese standardisierte Form zu überführen. Dies ist die in Kapitel 1.4

behandelte z-Transformation nach der Formel:

σ

µ−= i

i

xz

Standardnormalverteilung und z-Verteilung sind also Bezeichnungen für ein- und dieselbe

Verteilung. Deren Hochpunkt befindet sich bei 0, die Wendepunkte bei –1 und +1. Da die

Streuung der Standardnormalverteilung σ = 1 beträgt, lassen sich z-Werte hier direkt als

Standardabweichungseinheiten vom Mittelwert auffassen.

Die Standardnormalverteilung macht den Sozialwissenschaftlern das Leben in vielen

Bereichen leichter. Mit ihrer Hilfe und den eng mit ihr verknüpften z-Werten ist es problemlos

möglich, die Ergebnisse mehrerer, auf unterschiedlichen Normalverteilungen basierender

Messinstrumente zu vergleichen. Dies ist z.B. dann nötig, wenn untersucht werden soll, ob

zwei verschiedene psychologische Tests wirklich dasselbe Konstrukt messen oder wenn

Umfragedaten fremder Institute, die mit unterschiedlichen Instrumenten arbeiten,

untereinander verglichen werden sollen.

2.3 Die Stichprobenkennwerteverteilung

Nehmen wir einmal an, statt der einen hätten wir theoretisch unendlich viele, gleich große,

voneinander unabhängige Stichproben erheben können, die wiederum unendlich viele,

unterschiedlich große Stichprobenmittelwerte liefern.

Die resultierende Verteilung dieser Mittelwerte ginge mit steigender Anzahl von Werten in

eine Normalverteilung über, die sogenannte Stichprobenkennwerteverteilung von

Mittelwerten. Sie umfasst alle möglichen Mittelwerte, die aus einer Stichprobe der gegebenen

Größe entstehen können. Der Mittelwert dieser Stichprobenkennwerteverteilung von

Mittelwerten ( )x repräsentiert die Verteilung am besten, denn alle Mittelwerte streuen um ihn

13

herum (Kap.2.1). Deshalb ist bei einer einmaligen Ziehung einer Stichprobe ein Mittelwert in

der Nähe von x wahrscheinlicher als ein Mittelwert, der sehr weit davon entfernt ist. In der

Sprache der Statistik heißt x deshalb auch Erwartungswert von ( )( )xEx . Man kann zeigen,

dass dieser Erwartungswert gleich dem Populationsmittelwert µ ist. Es gilt also µ=)(xE .

Der Standardfehler des Mittelwerts

Die Streuung der Stichprobenkennwerteverteilung heißt Standardfehler des Mittelwerts. Mit

seiner Hilfe lässt sich die Genauigkeit der Schätzung des Populationsmittelwertes beurteilen.

Er ist definiert als die Streuung in einer Verteilung von Mittelwerten aus gleich großen

Zufallsstichproben einer Population.

nn

xx

x

σσσ ==

2

Der Standardfehler wird zwangsläufig umso größer, je größer auch die Streuung der

Messwerte in der Population ist. Die Populationsstreuung steht in der Formel im Zähler.

Beispiel: Theoretisch könnten alle Menschen einen Intelligenzquotienten von exakt 100

haben. Da die Intelligenz in der Bevölkerung aber eine gewisse Varianz (und damit Streuung)

aufweist, wird ihr Populationsmittelwert zwar erwartungstreu geschätzt, den exakten Wert

wird aber nie jemand wissen.

Wenn die Größe des Standardfehlers entscheidend die Güte der Mittelwertsschätzung

beeinflusst, ist es von Vorteil, auch den Standardfehler zu schätzen. Wie oben ausgeführt ist

er proportional zur Populationsstreuung und verringert sich bei zunehmendem

Stichprobenumfang. Mathematisch berechnet er sich wie folgt:

( )

( )1

ˆˆˆ 1

2

2

−⋅

−

===∑

=

nn

xx

nn

n

i

i

xx

x

σσσ

Noch einmal: Ein Mittelwert stellt eine umso präzisere Schätzung des Populationsparameters

µ dar, je kleiner sein Standardfehler ist.

Ein großer Vorteil ist, dass die Daten einer Stichprobe ausreichen, um die Größe des

Standardfehlers zu schätzen. Auf Grund einer Stichprobe können wir deshalb nicht nur den

Mittelwert der Population schätzen, sondern mit Hilfe des Standardfehlers auch die

Genauigkeit dieser Schätzung bestimmen.

14

Mit einer Wahrscheinlichkeit von 68,26% liegt der wahre Populationsmittelwert zwischen +/-

einem Standardfehler. Ein solcher Bereich heißt Vertrauensintervall oder Konfidenzintervall

des Mittelwerts. Es ist ein Maß für die Präzision, mit der ein Stichprobenkennwert den

„wahren“ Populationsparameter schätzt.

In der Praxis wird per Konvention meist ein 95% oder 99% Konfidenzintervall bestimmt.

Da ein Konfidenzintervall symmetrisch um einen Mittelwert konstruiert wird, müssen wir auf

den beiden Seiten der Verteilung jeweils 2,5% bzw. 0,5% abschneiden, um einen

Wahrscheinlichkeitsbereich von 95% oder 99% zu erhalten. Ein z-Wert von –1,96 (-2,58)

schneidet 2,5% (0,5%) nach links ab, ein Wert von 1,96 (2,58) schneidet denselben Bereich

nach rechts ab. Aufgrund der Symmetrie der z-Verteilung genügt es, den Betrag von einem

der beiden z-Werte zu bestimmen. Dieser Betrag muss mit dem Standardfehler des

Mittelwerts multipliziert werden. Das Ergebnis wird zum Mittelwert addiert bzw. vom

Mittelwert subtrahiert, um die beiden Grenzen des Konfidenzintervalls zu erhalten:

untere Grenze = xzx σ⋅−

obere Grenze = xzx σ⋅+

Für ein 95% Konfidenzintervall: z: 1,96

Für ein 99% Konfidenzintervall: z: 2,58

Bei kleinen Stichproben (N<30) ist allerdings die Normalverteilungsannahme häufig verletzt

(siehe Bortz, 2005, S. 103). Das korrekte Konfidenzintervall ist in diesem Fall etwas größer

als die Berechnung über z-Werte angibt. Hier empfiehlt es sich, anstatt des z-Wertes den

zugehörigen Wert der t-Verteilung (bei df = n-1) zu ermitteln, der 2,5% bzw. 0,5% nach oben

bzw. unten abschneidet.

15

3. Der t-Test

Der t-Test untersucht, ob sich zwei empirisch gefundene Mittelwerte systematisch

voneinander unterscheiden. Mit Hilfe dieses Testverfahrens ist es möglich festzustellen, ob

zwei betrachtete Gruppen in einem untersuchten Merkmal wirklich einen Unterschied

aufweisen.

3.1 Was ist der t-Test?

3.1.1 Die Fragestellung des t-Tests

Der t-Test liefert nur für intervallskalierte Daten zuverlässige Informationen. Deshalb gehört

er zur Gruppe der parametrischen Verfahren.

Parametrische Verfahren schätzen Populationsparameter mittels statistischer Kennwerte wie

dem arithmetischen Mittel oder der Varianz, für deren Berechnung die Intervallskaliertheit

der Daten Voraussetzung ist.

Er liefert eine Entscheidungshilfe dafür, ob ein gefundener Mittelwertsunterschied rein

zufällig entstanden ist, oder ob es wirklich bedeutsame Unterschiede zwischen den zwei

untersuchten Gruppen gibt.

Der wichtigste Wert für die Durchführung eines t-Tests ist die Differenz der Gruppen-

mittelwerte. Diese Differenz bildet den Stichprobenkennwert des t-Tests:

21 xx −

Die zentrale Frage des t-Tests lautet: Wie wahrscheinlich ist die empirisch gefundene oder

eine größere Mittelwertsdifferenz unter allen möglichen rein theoretisch denkbaren

Differenzen?

Der t-Test dient wie viele andere statistische Verfahren zur Überprüfung aufgestellter

Hypothesen. Dabei ist es wichtig, vor der Durchführung eines t-Tests die zu untersuchende

Hypothese inhaltlich zu präzisieren.

Der t-Test kann jeweils nur zwei Gruppen im Mittelwertsvergleich betrachten.

Inhaltliche Hypothesen müssen in statistische Hypothesen umformuliert werden.

16

Bsp. 21 xx − > 0. Die Bildung der Differenz wird entscheidend durch die Formulierung der

statistischen Hypothese mitbestimmt: Sie legt fest, welcher Wert vom anderen abgezogen

wird.

3.1.2 Die Nullhypothese

Für die Erklärung der Mittelwertsdifferenz gibt es neben der Annahme eines systematischen

Unterschieds zwischen den beiden Gruppen eine weitere Möglichkeit: Die Differenz

zwischen den Mittelwerten ist zufällig zustande gekommen und es gibt keinen echten

Unterschied zwischen den beiden untersuchten Gruppen. Die beiden Gruppen stammen im

Grunde aus zwei Populationen mit demselben Mittelwert. Die Differenz zwischen den

Gruppen sollte demzufolge Null betragen. Diese Annahme heißt deshalb Nullhypothese oder

0H .

Stichprobenkennwerteverteilung unter der Nullhypothese

Unter Annahme der Nullhypothese kann eine Stichprobenkennwerteverteilung von

Mittelwertsdifferenzen konstruiert werden. Alle möglichen zwei Stichprobenmittelwerte, aus

denen die Differenzen gebildet werden, stammen unter Annahme der Nullhypothese aus zwei

Populationen mit identischem Populationsmittelwert.

Wird aus zwei Populationen mit identischem Populationsmittelwert jeweils eine Stichprobe

gezogen, so kann die Differenz der beiden Stichprobenmittelwerte theoretisch jeden

beliebigen Wert annehmen. Die zu erwartende Differenz aber ist gleich Null, denn die

Stichprobenmittelwerte sind normalverteilt um ihren jeweiligen Erwartungswert, den

Populationsmittelwert.

Für die Bestimmung der Stichprobenkennwerteverteilung ohne Simulation muss ihre

Streuung (Standardfehler der Mittelwertsdifferenz) mit Hilfe der Stichprobe geschätzt

werden. In die Formel gehen die Stichprobenumfänge der betrachteten Gruppen und die

geschätzten Streuungen der zugehörigen Populationen ein.

Die Formel lautet:

2

22

1

21 ˆˆ

ˆ21 nn

xx

σσσ −=−

21ˆ

xx −σ : geschätzter Standardfehler der Mittelwertsdifferenz

n : Anzahl der Vpn bzw. Beobachtungen in der jeweiligen Stichprobe

σ : geschätzte Varianz der jeweiligen Population

17

3.1.3 Die t-Verteilung

Die Standardisierung der Stichprobenkennwerteverteilung erfolgt ähnlich wie bei den z-

Werten an ihrer geschätzten Streuung. Die standardisierten Stichprobenkennwerte heißen t-

Werte, die standardisierten Verteilungen sind die t-Verteilungen (im Englischen auch

„Student t“ genannt). Sie entsprechen nicht ganz der Standardnormalverteilung, sondern sind

schmalgipfliger.

In einer t-Verteilung sind die Wahrscheinlichkeiten für die einzelnen t-Werte genau ablesbar.

Die allgemeine Definition des t-Wertes lautet:

sdifferenzMittelwertderdardfehlerSrgeschätzte

sdifferenzMittelwerthetheoretiscsdifferenzMittelwertempirischetdf

__tan_

__ −=

formal: ( ) ( )

21ˆ

2121

xx

df

xxt

−

−−−=

σ

µµ

Der t-Test findet in den meisten Fällen als Nullhypothesensignifikanztest Anwendung.

Diesem t-Test liegt die Annahme zu Grunde, dass die Populationsmittelwerte der beiden zu

vergleichenden Gruppen identisch sind. Die theoretische Mittelwertsdifferenz unter der

Nullhypothese kann bei der Berechnung weggelassen werden. Die vereinfachte Formel lautet:

21ˆ

21

xx

df

xxt

−

−=

σ

Die Auftretenswahrscheinlichkeit eines positiven t-Wertes entspricht dem Anteil der Fläche

unter der Kurve, den der t-Wert nach rechts abschneidet.

3.1.4 Die Freiheitsgrade einer t-Verteilung

Die exakte Form der t-Verteilung ist trotz der Standardisierung weiterhin vom

Stichprobenumfang abhängig und deckt sich aus diesem Grunde nicht exakt mit der z-

Verteilung. Der Unterschied zwischen diesen Verteilungen ist dadurch zu erklären, dass in die

Berechnung des t-Werts nicht einer, sondern zwei erwartungstreue Schätzer für

Populationsparameter eingehen: die empirische Mittelwertsdifferenz und der geschätzte

Standardfehler der Mittelwertsdifferenz (in der Formel zur Berechnung der z-Werte ist die

18

Streuung kein Schätzer der Populationsstreuung, sondern bezieht sich direkt auf die

Population).

Die Freiheitsgrade der gefundenen Mittelwertsdifferenz erlauben eine genaue Beschreibung

der zu verwendenden t-Verteilung. Sie werden in dem hier besprochenen t-Test durch

folgende Formel berechnet:

df = n1 + n2 – 2

3.1.5 Exkurs: Das Konzept der Freiheitsgrade

Die Genauigkeit, mit der Stichprobenkennwerte Populationsparameter schätzen, ist von der

Anzahl ihrer Freiheitsgrade abhängig. Dadurch beeinflussen die Freiheitsgrade auch die Form

solcher Verteilungen, in deren Berechnung geschätzte Größen eingehen.

Die Anzahl der Freiheitsgrade gibt an wie viele Werte in einer Berechungsformel frei

variieren dürfen, damit es zu genau einem bestimmten Ergebnis kommt. So erlaubt eine

Summe mit n Summanden die freie Wahl von n-1 Summanden, d.h. nur ein Summand ist

aufgrund des Ergebnisses festgelegt.

Beispiel: In der Gleichung x1 + x2 + x3 = 15 können für x1 und x2 beliebige Zahlen eingesetzt

werden (z.B. 10 und 2), x3 ist damit allerdings bereits bestimmt:

10 + 2 + x3 = 15 ß à x3 = 15 – 12 = 3.

3.1.6 Bewertung des t-Werts

Die Nullhypothese nimmt an, dass der gefundene Unterschied der Mittelwerte zufällig

zustande gekommen ist und die Stichproben aus zwei Populationen mit identischem

Mittelwert stammen. Unter dieser Annahme errechnet der t-Test eine Wahrscheinlichkeit für

das Auftreten der gefundenen oder einer größeren Differenz, die z.B. p = 0,03 beträgt.

Der errechnete Wert von 3% bedeutet, dass die Wahrscheinlichkeit für das Finden einer

solchen oder einer größeren Differenz beim Ziehen von Stichproben aus einer identischen

Population sehr gering ist. Natürlich ist diese Differenz möglich, sie ist aber sehr

unwahrscheinlich. Wenn die Differenz unter Annahme der Nullhypothese sehr

unwahrscheinlich ist, so trifft möglicherweise die Annahme selbst gar nicht zu.

Wenn die Annahme der Nullhypothese falsch ist und der Unterschied nicht auf Zufall beruht,

dann muss die gefundene Mittelwertsdifferenz auf einem systematischen Unterschied

zwischen den beiden Gruppen beruhen. Die Stichproben stammen dann nicht aus

Populationen mit identischen, sondern mit verschiedenen Mittelwerten.

19

3.1.7 Entwicklung eines Entscheidungskriteriums

Wird die Nullhypothese abgelehnt, obwohl sie in Wirklichkeit gilt (also in der Population

zutrifft), so gilt dies als α-Fehler.

Welche Wahrscheinlichkeit einer Fehlentscheidung ist bei Ablehnung der Nullhypothese

tolerierbar? Es ist die Festlegung einer Grenze für die Ablehnung erforderlich. Eine solche

Entscheidungsgrenze heißt Signifikanzniveau oder auch α-Fehler-Niveau. Ist die errechnete

Auftretenswahrscheinlichkeit der Mittelwertsdifferenz kleiner als das Signifikanzniveau, so

erfolgt die Ablehnung der Nullhypothese. Das Ergebnis wird als signifikant bezeichnet.

Die Wahl der Entscheidungsgrenze ist rein willkürlich und wird nur durch inhaltliche

Überlegungen beeinflusst. Je nach Fragestellung kann es sinnvoll sein, ein relativ hohes

(liberales) oder aber ein sehr strenges (konservatives) Signifikanzniveau zu wählen. Um diese

Entscheidung kompetent treffen zu können, ist eine genaue Kenntnis der Materie und des

betreffenden Forschungsstandes notwendig. Das Signifikanzniveau muss vor der

Durchführung einer Untersuchung festgelegt und begründet werden, um das Ergebnis

beurteilen zu können. Per Konvention liegt es meist bei α = 0,05, einige Untersuchungen

verwenden 1% oder 10%. Ein auf dem 5%-Niveau signifikantes Ergebnis wird in der

Literatur und in SPSS in der Regel mit einem Sternchen (*) gekennzeichnet, ein auf dem 1%-

Niveau signifikantes Ergebnis mit zwei Sternchen (**).

3.1.8 Population und Stichprobe beim t-Test

Der t-Test versucht, anhand einer empirischen Mittelwertsdifferenz zweier Stichproben auf

die Größe der Differenz zwischen zwei Populationsmittelwerten zu schließen.

Um die Wahrscheinlichkeit der empirischen Mittelwertsdifferenz unter der Nullhypothese

bestimmen zu können, ist eine Standardisierung der Stichprobenkennwerteverteilung an ihrer

eigenen Streuung (dem geschätzten Standardfehler der Mittelwertsdifferenz) erforderlich, da

es je nach Größe der Streuung unendlich viele Stichprobenkennwerteverteilungen gibt. Diese

Verteilungen unterscheiden sich stark in ihrer Form. Die Standardisierung führt sie alle auf

eine bestimmte Verteilung zurück, die t-Verteilung. Die Wahrscheinlichkeiten in einer t-

Verteilung sind bekannt, hängen nur von den Freiheitsgraden ab und sind in Tabellen

verzeichnet (siehe Anhang).

An dieser Stelle folgt der Schluss von der Stichprobe auf die Population: Ist der empirische t-

Wert unter der Annahme der Nullhypothese sehr unwahrscheinlich, so ist diese theoretische

20

Annahme über die Populationsmittelwerte wahrscheinlich falsch. Also sind die

Populationsmittelwerte wahrscheinlich nicht gleich, sondern verschieden.

3.1.9 Voraussetzungen für die Anwendung eines t-Tests

Für den t-Test gibt es drei mathematische Voraussetzungen:

1.) Das untersuchte Merkmal ist intervallskaliert

2.) Das untersuchte Merkmal ist in der Population normalverteilt.

3.) Die Populationsvarianzen, aus denen die beiden Stichproben stammen, sind gleich

(Varianzhomogenität)

Um dies sicherzustellen ist es wichtig, dass die Stichproben der beiden Gruppen annähernd

dieselbe Größe haben und nicht zu klein sind (n1 = n2 > 30). Erst wenn die Stichproben

kleiner oder deutlich unterschiedlich groß sind, ist das Ergebnis eines t-Tests bei Verletzung

der Voraussetzungen fehlerhaft.

Für den hier dargestellten t-Test für unabhängige Stichproben ist zusätzlich die

Unabhängigkeit der Gruppen notwendig.

Testen der Voraussetzungen des t-Tests

Ein Test auf Normalverteilung (z.B. Kolmogorov-Smirnov-Test) ist bei kleinen Stichproben

aufgrund der geringen Power nicht zu empfehlen. Auf eine Verletzung der

Normalverteilungsannahme reagiert der t-Test ohnehin äußerst robust, eine ungefähre

Symmetrie der Verteilung des Merkmals in der Population reicht aus, um eine annähernd

normalverteilte Stichprobenkennwerteverteilung zu erzeugen.

In den meisten Fällen genügt eine grobe, deskriptive Kontrolle auf Normalverteilung. Aus

diesen Gründen findet nur der Levene-Test der Varianzgleichheit häufiger Anwendung. Er

vergleicht die Größe der Varianzen der zwei Gruppen: Der Test wird signifikant, wenn eine

Varianz überzufällig größer ist als die andere.

3.2 Die Alternativhypothese

Die Alternativhypothese geht davon aus, dass die Populationen, aus denen die Stichproben

gezogen werden, einen unterschiedlichen Populationsmittelwert haben. In ihrer allgemeinen

Form umfasst sie alle möglichen Hypothesen, die nicht der Nullhypothese entsprechen. Diese

Annahme wird formal wie folgt ausgedrückt:

H1 : ¬H0 (d.h. H1 ist alles das, was H0 nicht ist.)

21

3.2.1 Ungerichtete Hypothesen

Eine ungerichtete Alternativhypothese nimmt lediglich an, dass die Differenz der

Populationsmittelwerte nicht gleich Null ist. Die Differenz kann also sowohl kleiner als auch

größer Null sein. Man spricht von einer zweiseitigen Fragestellung. Die Nullhypothese

beschränkt sich hier nur auf den Fall, in dem die Differenz Null ist. Die korrekte Schreibweise

dieses Hypothesenpaares lautet:

H0: µ1- µ2 = 0

H1: µ1- µ2 ≠ 0

Das Signifikanzniveau liegt bei ungerichteten Fragestellungen ebenfalls meistens bei 5%.

Allerdings verändert die Verwendung von ungerichteten Fragestellungen die Bestimmung der

Signifikanz eines empirischen t-Werts: Bei zweiseitigen Fragestellungen sprechen

signifikante positive sowie negative t-Werte für die Alternativhypothese. Es ist darum nötig,

auf jeder Seite der t-Verteilung eine Entscheidungsgrenze festzulegen. Damit insgesamt das

gewünschte α-Niveau von 5% erreicht wird, darf der tkrit auf jeder Seite nur 2,5% der Fläche

abschneiden.

Die Angabe der Auftretenswahrscheinlichkeit eines t-Werts bezieht sich bei SPSS

automatisch auf eine zweiseitige Hypothese. Bei einem positiven empirischen t-Wert

wird also nicht nur die Fläche berechnet, die dieser Wert nach rechts abschneidet,

sondern gleichzeitig auch der Bereich, den derselbe negative t-Wert nach links

abtrennt. Das bedeutet, dass der von SPSS ausgegebene zweiseitige p-Wert immer

doppelt so groß ist wie der in der t-Tabelle verzeichnete einseitige: pzweiseitig = 2 ·

peinseitig

Ein empirischer t-Wert ist bei einer ungerichteten zweiseitigen Hypothese signifikant,

wenn die von SPSS angegebene Auftretenswahrscheinlichkeit kleiner als 5% ist.

3.2.2 Gerichtete Hypothesen

Aufgrund inhaltlicher Überlegungen kann in einigen Untersuchungen bereits die erwartete

Richtung der Mittelwertsdifferenz spezifiziert werden. Es liegt dann eine einseitige

Fragestellung vor. In einem solchen Fall umfasst die Alternativhypothese alle Differenzen in

der vorhergesagten Richtung. Ist die vorhergesagte Differenz positiv, so nimmt die

Nullhypothese an, dass die Differenz Null oder kleiner Null ist. In der mathematischen

Schreibweise sieht das so aus:

H0: µ1- µ2 ≤ 0

H1: µ1- µ2 > 0

22

Ein signifikantes Ergebnis bei einer gerichteten Fragestellung spricht als nur dann für eine

Annahme der Alternativhypothese, wenn die Mittelwertsdifferenz in der vorhergesagten

Richtung auftritt.

Beim Arbeiten mit SPSS muss die angegebene zweiseitige

Auftretenswahrscheinlichkeit für gerichtete Fragestellungen halbiert werden.

3.2.3 Vergleich von ein- und zweiseitigen Fragestellungen

Die Aufstellung gerichteter Hypothesen sollte also nur vorgenommen werden, sofern eine

zugrunde liegende begründete und anerkannte Theorie es zulässt. Die ist allerdings bei

genauer Betrachtung der Theorien nur selten gegeben. Häufig existieren Theorien für beide

Richtungen der Mittelwertsdifferenz. In diesen Fällen wird daher zweiseitig getestet.

Die allgemeine Vorhersage eines Unterschieds in der mittleren Laufgeschwindigkeit zweier

Sportlergruppen entspricht einer zweiseitigen Fragestellung. Für n1 = n2 = 8 und α = 0,05

ergeben sich zwei kritische t-Werte: tkrit1(df=14) = 2,145 und tkrit2(df=14) = -2,145 (Tabelle B/t-

Werte, Spalte für 0,975). Das Ergebnis t(df=14) = 1,9 ist nicht signifikant (pzweiseitig < 0,05). Ist

die bessere Leistung der einen Gruppe bereits vorher bekannt oder wird sie auf der Basis einer

Theorie vorhergesagt, so kann die Alternativhypothese auf die Differenz in der erwarteten

Richtung eingeschränkt werden. Bei gleichen Bedingungen ergibt sich (Tabelle B/t-Werte,

Spalte für 0,95):

tkrit(df=14) = 1,761, temp(df=14) = 1,9 ist signifikant (peinseitig < 0,05).

3.2.5 Die nonzentrale Verteilung

Die Festlegung eines Populationseffektes spezifiziert die Alternativhypothese und greift eine

bestimmte nonzentrale Verteilung heraus. Diese liegt soweit von Null entfernt, wie es der

Effekt angibt. Auch die nonzentrale Verteilung kann einer empirisch gefundenen

Mittelwertsdifferenz eine Auftretenswahrscheinlichkeit zuordnen, in diesem Fall also unter

der Annahme eines Effekts einer bestimmten Größe.

23

Im Gegensatz zur Verteilung unter der Nullhypothese ist die nonzentrale Verteilung meist

nicht symmetrisch. Die Form bzw. die Schiefe der Stichprobenkennwerteverteilung unter der

Alternativhypothese ist über den so genannten Nonzentralitätsparameter λ (Lambda)

bestimmbar. Dieser errechnet sich aus:

λ = Φ2 · N

N ist die Anzahl aller Versuchspersonen, also n1 + n2; n ist die Anzahl der Versuchspersonen

in einer Bedingung bzw. in einer „Zelle des Versuchsplans“; Φ2 ist ein Effektstärkenmaß

(siehe folgenden Abschnitt)

Diese Formel ist bei der Konstruktion eines t-Test von entscheidender Bedeutung.

3.3 Effektgrößen

Generell unterscheiden wir Effekte auf zwei Ebenen: Empirische Effekte, die das Ergebnis

einer Untersuchung beschreiben, und Populationseffekte, die entweder angenommen oder aus

den empirischen Daten geschätzt werden müssen. Die Größe eines empirischen Effekts ist für

die inhaltliche Bewertung eines signifikanten Ergebnisses wichtig, da durch eine Erhöhung

des Stichprobenumfangs theoretisch jeder noch so kleine Effekt signifikant gemacht werden

kann.

Das Maß eines Effekts sollte standardisiert sein, um die Effekte verschiedener

Untersuchungen miteinander vergleichen zu könne. Nur durch den Vergleich können in der

praktischen Forschung Ergebnisse vernünftig interpretiert oder Theorien und Erklärungen

weiterentwickelt und bestätigt werden. Es gibt zwei Möglichkeiten, ein standardisiertes

Effektmaß mathematisch auszudrücken: als Distanz zwischen den Populationsmittelwerten

oder als Varianzquotient.

3.3.1 Effekt als Distanz zwischen Populationsmittelwerten

Ein absoluter Effekt (ein empirisch belegter Unterschied in den Ergebnissen) wird an der

Streuung der Populationsverteilung innerhalb einer Stichprobe bzw. Bedingung standardisiert.

Dabei wird angenommen, dass die Populationsstreuungen der zwei Populationen, aus denen

die Stichproben stammen, theoretisch gleich groß sind (Varianzhomogenität). Die

standardisierte Distanz kennzeichnet der Buchstabe d:

d = xσ

µµ 21 −

µ1; µ2 : Mittelwerte der Populationen, aus denen die Stichproben gezogen werden

σx : Streuung der Population innerhalb einer Bedingung

24

Der empirische Effekt ergibt sich durch Einsetzen der Werte aus der Untersuchung. Dabei

dient die Wurzel aus der gemittelten Varianz der beiden Stichprobenvarianzen („gepoolte“

Streuung) als bester Schätzer der Populationsstreuung:

Der Kennwert d ist wie ein Maß für eine Standardabweichung zu interpretieren. Er gibt an,

um wie viele Streuungseinheiten sich zwei Gruppen unterscheiden, unabhängig von der zu

Grunde liegenden Populationsstreuung in einer bestimmten Untersuchung.

d gestattet ausschließlich einen Vergleich zwischen zwei Gruppen, es bietet aber den großen

Vorteil, dass empirische Effekte von unterschiedlichen Untersuchungen miteinander

verglichen und bewertet werden können.

Folgende Konventionen sind nach Cohen (1988) für die Effektgröße d für einen t-Test mit

unabhängigen Stichproben gültig:

- kleiner Effekt: d = 0,20

- mittlerer Effekt: d = 0,50

- großer Effekt: d = 0,80

3.3.2 Effektgrößen als Varianzquotient

Das Prinzip des Varianzvergleichs betrachtet nicht die Distanz oder den Abstand der

Populationsmittelwerte voneinander, sondern bezieht sich auf den Abstand der

Populationsmittelwerte von ihrem Mittelwert, dem so genannten Gesamtmittelwert. Diese

entspricht der Varianzdefinition. Wenn Populationsmittelwerte voneinander signifikant

verschieden sind, so existiert ein systematischer Effekt. Anders gesagt: die

Populationsmittelwerte variieren systematisch um den Gesamtmittelwert. Die Varianz der

Mittelwerte heißt deshalb systemische Varianz. Diesen Namen erhält sie, weil die Variation

von Bedingungsmittelwerten (und der dahinter stehenden Populationsmittelwerte) in einer

Untersuchung im Idealfall allein durch die kontrollierte (systematische) Manipulation seitens

des Forschers zustande gekommen ist. Sie berechnet sich durch die Varianzformel,

angewendet auf Populationsmittelwerte und für eine Anzahl von p Gruppen.

25

( )

p

p

i

i

sys

∑=

−

= 1

2

2

µµ

σ

Die Standardisierung der systematischen Varianz erfolgt nun an der Populationsvarianz

innerhalb einer Bedingung. Diese Populationsvarianz trägt den Namen Residualvarianz.

Dieses Verhältnis ist ein Maß für den Effekt, genannt Varianzquotient Φ2 (Phi):

2

2

2

x

sys

σ

σ=Φ

Die Residualvarianz σ2x heißt unglücklicherweise häufig auch Fehlervarianz. In dieser

Bezeichnung steckt die Überlegung, dass jede Abweichung der Werte von ihrem jeweiligen

Populationsmittelwert einen Fehler zum Ausdruck bringt. Eine „fehlerfreie Messung“ ist also

nur bei einer Populationsstreuung von Null möglich. Es ist besser, hier von der

Residualvarianz („Restvarianz“) zu sprechen.

Φ2 variiert von Null bis unendlich. Wenn die Residualvarianz bzw. die unsystematische

Varianz gegen Null geht, läuft Φ2 gegen unendlich.

Ein anschauliches Maß für den Effekt in der Population ist der Varianzquotient Ω2 (Omega).

Anstatt durch die Residualvarianz wird die systematische Varianz durch die Gesamtvarianz

geteilt. Auf Populationsebene entspricht letztere im Fall des t-Test für unabhängige

Stichproben der Summe der systematischen und der Residualvarianz.

22

2

2

2

2

xsys

sys

Gesamt

sys

σσ

σ

σ

σ

+==Ω

Das Maß Ω2 variiert nur zwischen 0 und 1, da der Zähler dieses Bruchs nie größer werden

kann als der Nenner, und Varianzen aufgrund der Quadrierung immer positiv sind.

Ist die systematische Varianz σ2sys = 0, so ist auch der Effekt Ω2 = 0. Dieser Fall tritt dann auf,

wenn die Populationsmittelwerte nicht variieren und kein systematischer Unterschied

zwischen den Populationen besteht.

Ein Effekt von Ω2 = 1 kann nur dann auftreten, wenn es keine Residualvarianz gibt, also bei

σ2

x = 0. In diesem Fall sind Zähler und Nenner der Formel für Ω2 identisch. Die

Gesamtvarianz besteht demzufolge ausschließlich aus systematischer Varianz, und die

Variation der Werte ist allein auf die experimentellen Unterschiede der beiden Gruppen

zurückzuführen. Innerhalb einer Bedingung hätten alle Versuchspersonen exakt denselben

Wert erzielt. Diese Situation tritt in den Sozialwissenschaften nie auf, da immer noch andere

Faktoren als die experimentelle Manipulation die gemessenen Werte beeinflussen.

26

Theoretisch hätte die experimentelle Manipulation aber auf diese Weise die größte denkbare

Auswirkung bzw. den größtmöglichen Effekt.

Insgesamt drückt das Effektstärkenmaß Ω2 aus, wie groß der Anteil der systematischen

Varianz an der Gesamtvarianz ist. Multipliziert man den Wert für Ω2 mit 100, so lässt sich

dieser Anteil in Prozent angeben. Ω2 ist dann ein Maß dafür, wie viel Prozent der

Gesamtvarianz durch die systematische Varianz aufgeklärt wird. Der „Rest“ der

Gesamtvarianz, die Residualvarianz, heißt deshalb auch unaufgeklärte Varianz.

Da die systematische Varianz durch die experimentelle Variation entstanden ist, lautet die

Interpretation des Effekts Ω2 in Bezug auf ein Experiment: Der Effekt Ω2 gibt an, wie viel

Prozent der Gesamtvarianz durch die Verschiedenheit der experimentellen Bedingungen auf

Populationsebene aufgeklärt werden. Ω2 fungiert damit als ein prozentuales Maß, das die

Größe des Einflusses der experimentellen Manipulation anschaulich erfasst. Inhaltliche

Überlegungen bei Planung oder Bewertung von Experimenten arbeiten deshalb in der Regeln

mit Ω2. Cohen hat auch hier wieder Werte zur Abstufung vorgeschlagen (es ist allerdings

immer wichtig, die inhaltlichen Überlegungen im Auge zu behalten):

- kleiner Effekt: Ω2 = 0,01

- mittlerer Effekt: Ω2 = 0,06

- großer Effekt: Ω2 = 0,14

3.3.3 Schätzungen und Interpretation von Effektgrößen

N

tf

122 −

= , 22 Φ=)

f

f2 schätzt aus den empirischen Daten das Verhältnis von systematischer Varianz zu

Residualvarianz. Es stellt eine Schätzung des Populationseffekts Φ2 da und ist deshalb genau

so wenig anschaulich wie letzteres. Auf Populationsebene bietet Ω2 Abhilfe für dieses

Problem, in dem es die systematische Varianz ins Verhältnis zur Gesamtvarianz setzt. Auch

für Ω2 gibt es einen Schätzer aus vorliegenden Daten, ω2 (klein Omega Quadrat).

2

22

1 f

f

+=ω bzw.

2

22

1 ω

ω

+=f , 22 Ω=

)ω

Softwarehinweis: Das Programm GPower verwendet für die Berechnung der

Teststärke eines t-Tests das Effektstärkenmaß d. Dies ist jedoch kein Problem, da sich

das Maß ω2 leicht in d überführen lässt. Die hier dargestellte Umrechnung gilt jedoch

nur für den Vergleich von zwei Gruppen im Rahmen eines t-Tests für unabhängige

Stichproben.

27

2

2

122

ω

ω

−⋅=⋅= fd

3.3.5 Effektgrößen auf der Stichprobenebene

Das Effektstärkenmaß ω2 nutzt die empirischen Daten, um einen Effekt auf der

Populationsebene zu schätzen. Die Größe eines Effekts lässt sich aber auch auf der Ebene der

Stichprobe bestimmen, ohne daraus Schlüsse für die Ebene der Population ziehen zu wollen.

Diese Effektgröße auf Stichprobenebene ist nicht identisch mit dem Populationsschätzer ω2.

Der Effektgröße η2 (Eta-Quadrat) gibt den Anteil der aufgeklärten Varianz an der

Gesamtvarianz auf der Stichprobenebene an und wird z.B. von dem Programm SPSS als

Effektgröße verwendet. Die Berechung erfolgt über die Quadratsumme des systematischen

Effekts, geteilt durch die gesamte Quadratsumme.

22

2

2

2

2

xsys

sys

Gesamt

sys

QSQS

QS

QS

QS

+==η

Die Berechung von η2 ist ebenfalls mit Hilfe des t-Werts möglich. So wie f2 als Schätzer der

Effektgröße Φ2 (auf Populationsebene) dient, wird dieses Maß mit dem Index S auch für

Stichproben verwendet. fs2 gibt das Verhältnis der Quadratsumme des systematischen Effekts

zu der Quadratsumme des Residuums an:

x

sys

SQS

QSf =2

Um einen Effekt aus empirischen Daten zu bestimmen, ist die Umrechnung eines t-Werts zu

den Stichprobeneffektgrößen fs2 und η2 besonders wertvoll. Die Formeln lauten:

df

tfS

22 = à

2

22

1 s

s

f

f

+=η

Die Effektgröße η2 gibt den Anteil der Varianzaufklärung auf der Ebene der Stichproben an,

die Effektstärke Ω2 auf der Ebene der Population.

3.4 Die Entscheidungsregel beim t-Test

In Wirklichkeit gilt die H0 In Wirklichkeit gilt die H1

Entscheidung zugunsten der

H0 Richtige Entscheidung β-Fehler

Entscheidung zugunsten der

H1 α-Fehler Richtige Entscheidung

28

Der α-Fehler (Fehler 1.Art) ist die Entscheidung für die H1, obwohl in Wirklichkeit die H0

gilt. Die α-Fehler-Wahrscheinlichkeit ist α = p(H1| H0).

Der β -Fehler (Fehler 2.Art) ist die Entscheidung für die H0, obwohl in Wirklichkeit die H1

gilt. Die β -Fehler-Wahrscheinlichkeit ist β = p(H1| H0).

3.4.1 β –Fehler und Teststärke

Erst bei einer ausreichend kleinen β-Fehler-Wahrscheinlichkeit erlaubt also ein nicht

signifikantes Ergebnis die Entscheidung für die Nullhypothese. Diese Wahrscheinlichkeit für

den Fehler 2. Art sollte bei 10% oder weniger liegen. Ist sie größer so spricht ein nicht

signifikantes Ergebnis für keine der beiden Hypothesen.

Es ist sehr wichtig, bereits vor Begin jeder Datenerhebung genaue Vorstellungen über die

erwarteten Effekte zu haben, um so interpretierbare Ergebnisse am Ende der Untersuchung

sicherzustellen.

Mit Hilfe des β-Fehlers kann auch eine Aussage darüber getroffen werden, wie gut ein t-Test

konstruiert ist. Dies erfolgt durch eine Betrachtung der Teststärke oder Power eines t-Tests.

Die Teststärke ist die Wahrscheinlichkeit, die H1 anzunehmen, wenn sie auch in Wirklichkeit

gilt. Sie wird mit 1- β bezeichnet, da sie die Gegenwahrscheinlichkeit zu der β-

Fehlerwahrscheinlichkeit ist.

Die Power eines t-Tests ist die Fähigkeit des Tests, einen Effekt zu finden, falls dieser

tatsächlich existiert. Sie sollte mindestens 1- β = 0,9 betragen. Die Teststärke spielt bei der

Planung und Beurteilung von t-Tests eine große Rolle. Ihre Bestimmung erfolgt entweder mit

Hilfe des Nonzentralitätsparameters λ oder mit dem Computerprogramm GPower. Die

Berechnung erfolgt nach folgender Formel:

λ = Φ2 * N

Die Berechnung der Teststärke eines bereits durchgeführten t-Tests ist dann notwendig, wenn

ein nicht signifikantes Ergebnis auftritt und der Stichprobenumfang nicht im Vorfeld geplant

wurde.

29

Wie schon das Signifikanzniveau α ist die Festlegung der akzeptierten

Fehlerwahrscheinlichkeit β von inhaltlichen Überlegungen abhängig. Als Richtlinie schlagen

wir eine Teststärke von 1- β = 0,9 vor. Die Wahrscheinlichkeit, die Alternativhypothese

abzulehnen obwohl sie in Wirklichkeit gilt, liegt dann bei β = 0,1.

3.4.2 Die Determinanten des t-Tests

Die Größe des β-Fehlers und damit der Teststärke ist von drei Dingen abhängig: dem

festgelegten Signifikanzniveau α, der Stichprobengröße und dem angenommenen Effekt.

Zusammen mit dem β-Fehler bilden sie die vier Determinanten eines t-Tests.

Die Fehlerwahrscheinlichkeit

Nach der Bestimmung eines Signifikanzniveaus α ist auch die β-Fehler-Wahrscheinlichkeit

festgelegt, solange die Stichprobengröße und der angenommene Effekt nicht verändert

werden. Eine Verkleinerung von α bedingt eine Vergrößerung von β und damit eine

Verkleinerung der Teststärke.

Der Einfluss des Effekts

Bei einem kleinen angenommenen Effekt liegen die Verteilungen der H0 und der H1 eng

zusammen, sie überschneiden sich in der Regel stark (es sei denn, die Streuungen der

Verteilungen sind extrem gering). Ein Signifikanzniveau α = 0,05 hat einen großen β-Fehler

zur Folge, der t-Test hat eine geringe Teststärke. Bei einem größeren angenommenen Effekt

wird die β-Fehler-Wahrscheinlichkeit bei gleichem α = 0,05 und gleichen Streuungen kleiner,

die Teststärke größer.

Einfluss der Stichprobengröße

Je größer die Anzahl an Werten bzw. Versuchspersonen ist, desto schmaler werden die

Stichprobenkennwerteverteilungen der H0 und der H1, ihre Streuungen werden kleiner. Das

bedeutet, dass sie sich bei großen Stichproben und einem identischen angenommenen Effekt

weniger überschneiden. Dies hat zur Folge, dass der kritische t-Wert bei konstantem

Signifikanzniveau kleiner wird.

Zusätzlich nimmt der Stichprobenumfang Einfluss auf die Berechnung des t-Werts für die

empirische Mittelwertsdifferenz. Mit zunehmender Stichprobengröße wird der Standfehler der

Mittelwertsdifferenz kleiner. Dieser Standardfehler steht bei der Berechnung des t-Werts im

Nenner, der t-Wert wird bei gleicher empirischer Mittelwertsdifferenz also größer. Ein

30

größerer t-Wert ist unter der Annahme der Nullhypothese unwahrscheinlicher und wird

leichter signifikant. Je größer die Stichprobe, desto eher ein signifikantes Ergebnis.

Bei Stichproben größer als 30 schmiegt sich die t-Verteilung bereits eng an eine

Normalverteilung an und die Wahrscheinlichkeiten für t-Werte verändern sich nur noch

geringfügig.

Die Bestätigung eines vorhergesagten, kleinen Effekts in einem Experiment erfordert

demzufolge eine größere Anzahl an Versuchspersonen, bei angenommenen großen Effekten

reicht eine im Vergleich kleinere Anzahl an Beobachtungen aus.

3.4.3 Die Stichprobenumfangsplanung

Um einen eindeutigen interpretierbaren t-Test zu konstruieren, in denen der α- und β-Fehler

hinreichend klein sind, dürfen die Stichprobengrößen nicht zu klein sein. Damit aber ein

signifikantes Ergebnis nur auftritt, wenn ein inhaltlich bedeutsamer Effekt vorliegt, dürfen die

Stichproben auch nicht zu groß sein. Man sagt, sie seien „optimal“. Dazu müssen sie vor

Durchführung des Experiments berechnet werden. Eine solche Stichprobenumfangsplanung

erfordert die Festlegung eines Signifikanzniveaus, der gewünschten Teststärke und eines

inhaltlich bedeutsamen Effekts. Auch bestimmen inhaltliche Überlegungen die Wahl der drei

Größen. Die TPF-Tabellen geben für die gewünschte Teststärke einen λ-Wert an.

Ω−

Ω=

Φ=

2

2

;

2

;

1

TeststärkeTeststärkeN

αα λλ

Am günstigsten ist, wenn die Anzahl pro Gruppe gleich ist, also:

221

Nnn ==

3.4.4 Konfidenzintervall für eine Mittelwertsdifferenz

Da Mittelwertsdifferenzen t-verteilt sind, wird zur Konstruktion des Konfidenzintervalls

anders als bei einfachen Mittelwerten die t-Verteilung unter n1 + n2 - 2 Freiheitsgraden

genutzt.

untere Grenze: ( )2121

ˆ)2;2/(21 xxnndftxx −−+= ⋅−− σα

obere Grenze: ( )2121

ˆ)2;2/(21 xxnndftxx −−+= ⋅+− σα

2

221

1

21 ˆˆ

ˆ21 nn

xx

σσσ +=−

31

3.5.1 Der t-Test für abhängige Stichproben

Der t-Test für abhängige Stichproben betrachtet die Differenz der Werte jeder einzelnen

Versuchsperson. Durch das Bilden der Differenz geht nur der Unterschied der Messwerte

zwischen der ersten und der zweiten Messung in die Auswertung mit ein.

d1 = xi1- xi2 i ist die Nummer der Vp, 1 oder 2 die jeweilige Bedingung

Der Stichprobenkennwert des t-Tests für abhängige Stichproben ist der Mittelwert der

Differenzen aller erhobenen Versuchspersonen:

N

d

x

N

i

i

d

∑== 1

Da dieser t-Test die Verteilung der Mittelwerte von Differenzen betrachtet, ergibt sich eine

andere Schätzung der Streuung der Stichprobenkennwerteverteilung als bei unabhängigen

Stichproben (also ein anderer Standardfehler):

N

dxd

σσ

ˆˆ = Wobei

( )1

1

2

ˆ−

∑=

−

=N

n

i

xi

d d

dσ : geschätzte Populationsstreuung der Differenzen

Die Formel zur Berechnung des t-Werts ist ähnlich der für unabhängige Stichproben: An der

Stelle zweier Differenzen von Mittelwerten stehen hier zwei Mittelwerte von Differenzen.

tabhängig = dx

ddx

σ

µ

ˆ

−

Unter der Nullhypothese ist die Populationsmittelwertsdifferenz µd = 0, deshalb vereinfacht

sich die Formel zu:

tabhängig = dx

dx

σ

Die Bewertung des t-Werts erfolgt analog zur Bewertung nach einem t-Test für unabhängige

Stichproben. Die Freiheitsgradzahl berechnet sich aus df = N – 1 (Anzahl Messwertepaare

bzw. Versuchspersonen minus Eins).

Die statistischen Hypothesen eines t-Tests für abhängige Stichproben lauten bei einer

einseitigen bzw. zweiseitigen Fragestellung:

H0: µd ≤ 0 bzw. µd = 0

H1: µd > 0 bzw. µd ≠ 0

32

Berechnung der Effektstärke

Aufgrund der Komplexität wird sich hier auf das Effektstärkemaß auf Stichprobenebene

bezogen. Das Effektstärkenmaß „partielles Eta-Quadrat“ (ηp2) gibt den Anteil der

aufgeklärten Varianz auf der Stichprobenebene an. Die Berechnung erfolgt mit Hilfe des t-

Werts.

f2S(abhängig) =

df

t

QS

QS

x

sys2

= à 2

22

1 s

s

xsys

sys

pf

f

QSQS

QS

+=

+=η

Die ermittelte Effektgröße variiert bei abhängigen Stichproben nicht nur in Abhängigkeit vom

Erfolg der experimentellen Manipulation, sondern auch als Funktion der Stärke der

Abhängigkeit der Daten. Daher gibt es keine festen Konventionen für kleine, mittlere und

große Effekte bei abhängigen Stichproben.

Teststärkeanalyse

Ein Maß für die Stärke der Abhängigkeit der Stichproben ist die Korrelation r (späteres

Kapitel). Eine Berechnung der Teststärke erfolgt bei abhängigen Stichproben mittels

folgender Formel:

Nr

unabhängig ⋅⋅−

= 2

1

2φλα mit

2

22

1 unabhängig

unabhängig

unabhängigΩ−

Ω=φ

Im Unterscheid zur unabhängigen Stichprobe geht hier die in der Untersuchung aufgetretene

Abhängigkeit der Messwerte in Form der Korrelation in die Formel mit ein.

Um die Teststärke für einen empirisch ermittelten Effekt (aus vorliegenden abhängigen

Daten) zu berechnen, gilt die nur leicht veränderte Formel für den Nonzentralitätsparameter λ.

λ = f2S(abhängig) * N

Stichprobenumfangsplanung

Die Stichprobenumfangsplanung ist identisch zu einem t-Test für unabhängige Stichproben

mit der Ausnahme, dass sich eine halb so große Versuchspersonenzahl N ergibt, weil jede

Versuchsperson zwei Werte abgibt.

2

1;

abhängigfN

βαλ −=

Für die Stichprobenumfangsplanung anhand der Konvention der Effektstärken für

unabhängige Stichproben ist die Korrelation zwischen den wiederholten Messungen von

33

Bedeutung. Diese Korrelation ist leider in den wenigsten Fällen vor einer Studie bekannt.

Eine konservative Möglichkeit ist es, keine Abhängigkeit zwischen den Messungen

anzunehmen, also r = 0- Die Annahme errechnet in den meisten Fällen zu große

Stichprobenumfänge. Eine Alternative ist die Annahme einer kleinen, aber substantiellen

Korrelation zwischen den wiederholten Messzeitpunkten, z.B. eine Korrelation zwischen

0,2<r<0,4.

( )2

12

1; rN

unabhängig

−⋅= −

φ

λ βα

3.5.2 Der t-Test für eine Stichprobe

Dieses Verfahren (one sample t-test) ist immer dann sinnvoll, wenn entweder der

Populationsmittelwert bekannt ist (durch Normierungsstichproben) oder Annahmen über die

Größe eines Populationsmittelwerts getestet werden soll.

Die zentrale Frage lautet hier: Wie groß ist die Wahrscheinlichkeit, dass die Stichprobe aus

der Referenzpopulation stammt?

Bei einem vorliegenden Populationsmittelwert bedeutet ein signifikantes Ergebnis, dass die

Stichprobe nicht zu der herangezogenen Referenzpopulation gehört oder zumindest eine

eigene Subpopulation mit einem anderen Mittelwert bildet. Dieser t-Wert errechnet sich wie

folgt:

x

df

xt

σ

µ

ˆ0−

= mit df=N-1 (Mittelwert der Stichprobe, Populationsmittelwert der Referenzpopulation, Standardfehler des Mittelwerts)

Die Nullhypothese nimmt an, dass die Population, aus der die Stichprobe stammt, mit der

Referenzpopulation identisch ist. Die Populationsmittelwerte wären dann identisch

(Varianzhomogenität vorausgesetzt). Die Alternativhypothese dagegen postuliert einen

Unterscheid zwischen der Population der Stichprobe und der Referenzpopulation.

Der t-Wert ist bei diesem Verfahren ein standardisiertes Maß für den Abstand des

Stichprobenmittelwerts von dem betrachteten Populationsmittelwert. Ist die

Wahrscheinlichkeit kleiner als das Signifikanzniveau, diesen t-Wert oder einen vom Betrag

her größeren zu erhalten, so entstammt die Stichprobe wahrscheinlich nicht der

angenommenen Population. Der Stichprobenmittelwert weicht signifikant von dem zu Grunde

gelegten Populationsmittelwert ab.

34

3.6 Der Ablauf der Hypothesenprüfung mittels eines t-Tests

1 Aufstellen einer Hypothese

2 Prüfung der Vorraussetzungen

3 Festlegung eines Populationseffekts

4 Festlegung des Signifikanzniveaus

5 Stichprobenumfangsplanung

6 Bestimmung von tkrit

7 Prüfung des temp auf Signifikanz

8 Interpretation des Ergebnisses

1 Aufstellung einer Hypothese

Zunächst sollte eine möglichst spezifische Hypothese aufgestellt werden. Hieraus folgt dann

die genaue Definition der Nullhypothese und einer Alternativhypothese. Durch die formale

Schreibweise ist zu erkennen, ob es sich um eine ein- oder zweiseitige Fragestellung handelt.

2 Prüfung der Vorraussetzungen

Es stellen sich drei Fragen:

A: Sind die Daten intervallskaliert? Bei rang- oder nominalskalierten Daten ist die

Anwendung des t-Tests nicht möglich.

B: Sind die Stichproben voneinander unabhängig oder abhängig?

C: Ist der Levene-Test der Varianzgleichheit signifikant? Wenn ja, dann ist eine

Freiheitsgradkorrektur erforderlich (in SPSS automatisch ausgegeben). Bei einem

nicht signifikanten Ergebnis des Levene-Test darf Varianzhomogenität angenommen

werden.

Theoretisch wird auch die Prüfung der Vorraussetzung der Normalverteilung des untersuchten

Merkmals in der Population gefordert, genügend große Stichproben und gleich große

Gruppen vermeiden aber das Problem, als Faustregel sollte jede Bedingung mindestens 30

Versuchspersonen umfassen.

3 Festlegung eines Populationseffekts

Die Festlegung der Größe eines relevanten Populationseffekts ist von inhaltlichen

Überlegungen abhängig. Dabei ist es besonders sinnvoll, sich an bereits vorliegenden Studien

oder Metaanalysen zu einer vergleichbaren Fragestellung zu orientieren (Ω2).

35

4 Festlegung des Signifikanzniveaus

Das Signifikanzniveau liegt per Konvention meistens bei α = 0,05.

5 Stichprobenumfangsplanung

Die Berechnung des optimalen Stichprobenumfangs erfordert neben dem Effekt noch die

Festlegung der gewünschten Teststärke. Die Größe der gewählten Teststärke (1-β) hängt von

inhaltlichen Überlegungen ab. Die Berechnung des Stichprobenumfangs erfolgt mit Hilfe des

Nonzentralitätsparameters λ.

6 Bestimmung von tkrit

Die Bestimmung des tkrit ist erst nach Durchführung einer Datenerhebung sinnvoll, weil erst

jetzt wirklich sicher ist, wie viele Werte der Versuchspersonen in die Auswertung eingehen.

7 Prüfung des temp auf Signifikanz

Jetzt erfolgt die Berechnung der empirischen Mittelwertsdifferenz. Nach Schätzung der

Populationsstreuung ergibt sich ein empirischer t-Wert unter der Annahme der Nullhypothese.

Ist der empirische t-Wert größer als tkrit, so ist das Ergebnis signifikant. Ist temp kleiner als tkrit,

hat der Unterschied keine statistische Bedeutsamkeit.

8 Interpretation des Ergebnisses

Ein signifikantes Ergebnis spricht für die Annahme der Alternativhypothese und für die

Existenz des erwarteten Effekts in der Population. Die Wahrscheinlichkeit, dass diese

Entscheidung falsch ist und in den Populationen kein Effekt der angenommenen Größe

existiert, ist kleiner als 5% (bei einem Signifikanzniveau von α = 0,05).

Bei einem nicht signifikanten Ergebnis erfolgt die Beibehaltung der Nullhypothese: Es gibt

keinen Effekt in der erwarteten Größe zwischen den Populationen. Die Wahrscheinlichkeit,

dass diese Entscheidung falsch ist und ein solcher Effekt doch existiert, beträgt 10% (bei einer

festgelegten Teststärke von 1-β = 0,9).

3.7 Ungeplante t-Tests

Bei ungeplanten Untersuchungen ergeben sich sowohl beim Auftreten eines signifikanten

sowie eines nicht signifikanten Ergebnisses Probleme.

Um ein signifikantes Ergebnis wirklich beurteilen zu können, ist die Berechnung des

empirischen Effekts aus den Daten erforderlich.

36

Eine Nichtsignifikanz macht die Situation noch schwieriger: Da die Teststärke und der β-

Fehler unbekannt sind, schließt ein nicht signifikantes Ergebnis die Alternativhypothese nicht

aus. Für diese Beurteilung ist eine Teststärkeberechnung notwendig. Eine nachträgliche

Berechnung wird als a posteriori Berechnung bezeichnet (im Gegensatz zu a priori: vorherig).

Dies geschieht über den Nonzentralitätsparameter λ, die zugehörige Teststärke ist von den

Freiheitsgraden abhängig und in den TPF-Tabellen abzulesen.

λ = Φ2 * N

Nichtsignifikante Ergebnisse sind nur bei ausreichend großer Teststärke bzw. ausreichend

kleinem β-Fehler interpretierbar. Nur dann sprechen sie für die Nullhypothese. Außerdem

schließt die Bestätigung der Nullhypothese nur Effekte einer bestimmten Größe mit der als

Teststärke angegebenen Wahrscheinlichkeit aus. Über kleinere Effekte lassen sich keine

Aussagen treffen.

Lesen eines t-Tests in der Literatur

Große Effekte können bei der Erforschung des menschlichen Verhaltens und Denkens nicht

immer auftreten, weil in diesem Forschungsgebiet sehr viele Faktoren eine Rolle spielen.

Jeder Faktor für sich macht da oft nur einen kleinen, aber durchaus nicht zu

vernachlässigenden Effekt aus. Die Interpretation der Größe eines Effekts ist deshalb stark

von dem Inhalt der Untersuchung abhängig.

Grundsätzlich gilt, dass nie eine Argumentation auf der Nichtsignifikanz eines Ergebnisses

aufgebaut werden darf, es sei denn, die Teststärke ist ausreichend hoch oder der β-Fehler ist a

priori auf einem inhaltlich sinnvollen Niveau festgelegt worden.

Stichproben-

Umfang a priori

geplant?

nein

Ergebnis

signifikant

Empirische

Effektgröße schätzen

Alternativhypothese

nur interpretieren,

wenn Effekt

hinreichend groß

Ergebnis

nicht

signifikant

Teststärke

berechnen

Nullhypothese nur

interpretieren, wenn

Teststärke groß

genug

Ergebnis signifikant

Alternativhypothese

interpretieren

Ergebnis

nicht signifikant

Nullhypothese

interpretieren

37

4. Verfahren für Rangdaten

Dieses Kapitel stellt drei statistische Auswertungsverfahren vor, die sich auf die Analyse von

Daten auf Ordinalskalenniveau beziehen.

Durch eine Zuordnung von Rangplätzen wird eine künstliche Äquidistanz zwischen den

Werten erzeugt, die viele mathematische Operationen wie z.B. die Mittelwertsbildung erst

ermöglicht. Die nichtparametrischen Verfahren für Rangdaten arbeiten nicht mit

Populationsparametern und –verteilungen, sondern legen ihre eigene Verteilung (die der

Rangplätze) zu Grunde.

4.1 Der Mann-Whitney U-Test

Der U-Test für unabhängige Stichproben oder auch Mann-Whitney U-Test ist ein Verfahren

zur Auswertung eines Zwei-Gruppen-Experiments, dessen Bedingungen sich in einer

unabhängigen Variable unterscheiden. Ähnlich wie der t-Test für unabhängige Stichproben

prüft der U-Test, ob die Unterschiede in den zwei Gruppen bezüglich einer abhängigen

Variable zufälligen oder systematischen Einflüssen unterliegen. Anders als der t-Test aber

analysiert der U-Test die Messwerte nicht direkt, sondern die ihnen zugeordneten Rangplätze.

Der U-Test stellt primär ein Instrument für ordinalskalierte Daten dar. Darüber hinaus ist er

aufgrund seiner größeren Vorraussetzungsfreiheit in folgenden Fällen dem t-Test für

unabhängige Stichproben vorzuziehen:

- Die Intervallskalenqualität der abhängigen Variable ist zweifelhaft.

- Das Merkmal folgt in der Population keiner Normalverteilung.

- Die Annahme der Varianzhomogenität ist verletzt, so dass der t-Test für unabhängige

Stichproben keine zuverlässigen Ergebnisse mehr liefert.

Der U-Test prüft die Nullhypothese, dass kein Unterschied zwischen den beiden untersuchten

Gruppen hinsichtlich des erhobenen Merkmals besteht.

4.1.1 Zuordnung der Rangplätze

Für die Berechnung des U-Werts ist es zuerst notwendig, alle Messwerte in eine gemeinsame

Rangreihe zu bringen. Danach wird für jede Gruppe die Summe der Rangplätze sowie der

durchschnittliche Rangplatz der Gruppe berechnet.

∑=

=in

m

mii RT1

i : Gruppe

ni : Anzahl der Versuchspersonen in Gruppe i

Rmi : Rangplatz der m-ten Versuchsperson in der Gruppe i

38

Zur Kontrolle der Berechnung beider Summen dient folgende Beziehung: Die beiden

Rangsummen T1 und T2 müssen zusammen die Gesamtsumme der Rangplätze ergeben. Da

den Messwerten die Zahlen 1 bis N zugeordnet worden sind, lässt sich die Gesamtsumme der

Zahlen 1 bis N über folgende Formel berechnen:

( )21

1 2

1TT

NNR

iN

m

m +=+⋅

=∑=

Rm : Rangplatz der m-ten Versuchsperson

N : Anzahl Beobachtungen (N=n1+n2)

Die mittlere Rangsumme einer Gruppe ergibt sich aus der Division dieser Summe durch die

Anzahl der Versuchspersonen in einer Gruppe:

i

i

in

TR =

Ti : Summe der Rangplätze in Gruppe i

ni : Anzahl der Versuchspersonen in Gruppe i

4.1.2 Der U-Wert und U’-Wert

Rangplatzüberschreitungen

Der statistische Kennwert U wird gebildet, indem für jeden Rangplatz einer Person der einen

Gruppe die Anzahl an Personen aus der anderen Gruppe gezählt wird, die diesen Rangplatz

überschreitet.

( )1

1121 2

1T

nnnnU −

+⋅+⋅=

n1 : Anzahl Untersuchungseinheiten in Gruppe 1

n2 : Anzahl Untersuchungseinheiten in Gruppe 2

T1 : Rangsumme für Gruppe 1

Rangplatzunterschreitungen

Diese Summe nennt sich U’.

( )2

2221 2

1´ T

nnnnU −

+⋅+⋅=

4.1.3 Signifikanzprüfung beim U-Test

Wie auch bei den parametrischen Verfahren erfolgt die Signifikanzprüfung des U-Tests unter

Annahme der Nullhypothese.

Die Nullhypothese

Die Beziehung zwischen U und U’ zeigt folgende Formel:

´21 UnnU −⋅=

39

Ein größerer Unterschied zwischen den Gruppen führt in jedem Fall zu einem größeren

Unterschied zwischen U und U’. Besteht kein Unterschied zwischen den beiden Gruppen, gibt

es genauso viele Rangunter- wie Rangüberschreitungen.

Die Nullhypothese des U-Tests lautet deshalb:

U = U’

Unter der Annahme der Nullhypothese (U=U’) lässt sich aus dem Zusammenhang von U und

U’ eine erwarteter mittlerer U-Wert µU berechnen:

221 nn

U

⋅=µ

Weicht der empirische U-Wert sehr stark in positive oder negative Richtung von µU ab, so

spricht das gegen die Interpretation der Nullhypothese. Die bei wiederholter Ziehung von

Stichproben resultierende Verteilung um den Mittelwert µU ist symmetrisch.

Streuung der Stichprobenkennwerteverteilung

Die Streuung der U-Werte um den Mittelwert µU kann bei unverbundenen Rängen durch

folgende Formel errechnet werden:

( )12

12121 ++⋅⋅=

nnnnUσ

Signifikanzprüfung bei großen Stichproben

Wenn eine der Stichproben n1 oder n2 größer als 20 ist und sich n1 und n2 nicht zu stark

unterscheiden, nähert sich die Kennwerteverteilung der U-Werte einer Normalverteilung an.

Das ermöglicht es, die Standardnormalverteilung als Prüfverteilung heranzuziehen. Der

empirische U-Wert, der Mittelwert µU, sowie die Streuung der U-Verteilung σU werden

einfach in die bekannte Formel zur Berechnung eines z-Werts eingesetzt:

x

ixz

σ

µ−=

Bezogen auf den U-Test ergibt sich die Formel für die Berechnung des z-Werts zu:

U

UU

Uz

σ

µ−=

4.1.4 Verbundene Ränge

Versuchspersonen mit gleichen Messwerten gehen zunächst normal in die Zuordnung mit ein,

bei N Versuchspersonen ist der letzte zugeordnete Rangplatz also immer noch die Zahl N.

Allerdings wird aus den zugeordneten Rangplätzen für gleiche Messwerte ein mittlerer

Rangplatz gebildet.

40

Die Streuung der Stichprobenkennwerteverteilung ändert sich im Fall von verbundenen

Rängen. Die Formel zu deren Berechnung aus dem vorangehenden Abschnitten wird wie folgt

korrigiert:

( )

−−

−⋅

−⋅

⋅= ∑

=

k

i

iiU

ttNN

NN

nncorr

1

3321

12121σ

N : n1+n2

Ti : Anzahl der Personen, die sich Rangplatz i teilen

k : Anzahl der verbundenen Ränge

Die Korrekturformel für die Streuung der U-Verteilung sieht für jeden der k Fälle, in welchem

ein verbundener Rangplatz vorliegt, eine Adjustierung vor, wobei die Anzahl ti der Personen

berücksichtigt wird, die sich den Rangplatz i teilen.

4.1.5 Teststärke und Stichprobenumfangsplanung

Der Vorteil der nichtparametrischen Verfahren besteht darin, dass sie ohne mathematische

Annahmen über die Verteilung des untersuchten Merkmals auskommen. Sie sind

verteilungsfreie Verfahren. Allerdings resultieren hieraus auch Nachteile, es fehlen eigene

Prozeduren zur Berechnung von Effekt- und Teststärken.

Die Stichprobenumfangsplanung

Die Stichprobenumfangsplanung beim U-Test erfolgt mit Hilfe des bereits bekannten

Vorgehens beim t-Test.

( )

2

2

1;;11;;1

1 Ω−

Ω=

Φ= −=−=

−

βαβα λλ dfdf

TesttN

Teststärkeanalyse

Die Teststärkebestimmung beim U-Test erfolgt wie schon die Stichprobenumfangsplanung

mit Hilfe des t-Tests. Auch hier dienen die Konventionen des t-Tests zur groben Orientierung.

( )Testtdf N −= ⋅Φ= 2;1 αλ

4.2 Der Wilcoxon-Test

Der Wilcoxon-Test oder W-Test ist das nichtparametrische Pendant zum t-Test für abhängige

Stichproben. Er ist immer in solchen Fällen das nichtparametrische Verfahren der Wahl, wenn

die Messwerte zweier Stichproben in irgendeiner Weise voneinander abhängig sind.

Der W-Test für abhängige Stichproben arbeitet ebenfalls mit der Analyse einer Rangreihe.

Die Bildung der für die statistische Auswertung notwenigen Rangplätze und der dadurch

erzeugten künstlichen Äquidistanz erfolgt in vier Schritten:

41

1. Zuerst wird die Differenz der Messwertpaare gebildet, indem der Wert der zweiten

Bedingung oder Gruppe von dem der ersten abgezogen wird. Dieser Schritt entspricht der

Vorgehensweise beim t-Test für abhängige Stichproben.

2. Von jeder Differenz wird der Betrag gebildet, das Vorzeichen als ignoriert. Die Differenzen

der Größe Null werden ignoriert und gehen nicht in die Auswertung mit ein. Die Anzahl N

der Rangplätze wird um die Anzahl der Nulldifferenzen reduziert.

3. Die Absolutbeträge der Differenzen bilden einer Rangreihe. Der kleinste Differenzbetrag

erhält den Rang 1, der nächste den Rang 2 us. Liegen zwei oder mehr vom Betrag her gleiche

Differenzen vor, so entspricht die Zuordnung der Rangplätze zu verbundenen Rängen der

Methode des U-Tests für unabhängige Stichproben.

4. Nach der Zuordnung wird jeder absolute Rangplatz, der zu einer negativen Differenz

gehört, mit einem negativen Vorzeichen versehen.

Die auf diese Weise gekennzeichneten Rangplätze heißen „gerichtete Ränge“ (signed ranks).

Sie bilden die Grundlage für die statistische Auswertung des Wilcoxon Tests. Unter der

Annahme der Nullhypothese gibt es keinen Unterschied zwischen den zwei verglichenen

Messzeitpunkten. Die Differenzen sollten zufällig zu Stande gekommen sein. Unter Annahme

der Nullhypothese sollte die gleiche Anzahl an positiven wie negativen Differenzen auftreten,

die ebenso von ihren Beträgen her ungefähr gleich sein sollten. Die Alternativhypothese

behauptet das Gegenteil. Wenn z.B. die erreichten Messwerte in der zweiten Messung

wesentlich größer ausfallen als in der ersten, sollten mehr und größere positive Differenzen

und weniger und kleinere negative Differenzen auftreten. Die Umkehrung dieser Aussage ist

ebenfalls eine Alternativhypothese. Zur statistischen Bewertung werden die Summen der

gerichteten Rangplätze gebildet. Dr vom Betrag her kleinere Wert ist der Testwert W des

Wilcoxon-Tests.

( ) |,min| negativpositiv RRW ∑∑=

Ein empirischer W-Wert muss gleich dem kritischen oder kleiner als ein kritischer W-Wert

sein, damit das Ergebnis signifikant ist. Dieser kritische Wert ist von der Anzahl der

Versuchspersonen abhängig, deren Differenzen nicht Null ergeben.

4.3 Der Kruskal-Wallis H-Test

Der Kruskal-Wallis H-Test ist ein Verfahren für die statistische Auswertung ordinalskalierter

Daten von mehr als zwei unabhängigen Gruppen. Er bietet eine Alternative für die

einfaktorielle Varianzanalyse ohne Messwiederholung, wenn deren mathematische

Vorraussetzungen nicht erfüllt sind. Deshalb heißt er auch Rangvarianzanalyse.

42

Der H-Test arbeitet wie die besprochenen U- und W-Tests mit zugewiesenen Rangreihen.

Wie die Varianzanalyse testet er die Nullhypothese, dass die zu Grunde liegenden

Verteilungen der untersuchten Gruppen identisch sind. Der Hintergrund des Tests besteht in

der Überlegung, dass die Rangplätze bei Zutreffen der Nullhypothese zufällig über alle

Gruppen verteilt sein müssten. Die Prüfung erfolgt analog zur Varianzanalyse unspezifisch:

Die Alternativhypothese besagt lediglich, dass sich mindestens eine der Gruppen von den

anderen unterscheidet.

Die Zuordnung der Ränge zu den Messwerten erfolgt analog zum U-Test für unabhängige

Stichproben: Allen Messwerten wird unabhängig von ihrer Gruppenzugehörigkeit ja nach

Größe des Messwerts eine ganze Zahl zwischen 1 und N zugeordnet. Bei gleichen

Messwerten wird ein mittlerer Rang aus den zugehörigen Rängen gebildet. Darauf folgt in

weiterer Analogie zum U-Test die Bestimmung der Summe Ti der Ränge (Rm) in jeder

Gruppe.

∑=

=N

m

imi RT1

Anschleißend wird die Rangsumme jeder Gruppe quadriert und durch die Anzahl der

Versuchspersonen in der entsprechenden Gruppe geteilt. Die resultierenden Werte aller

Gruppen werden addiert. Für p Gruppen ergibt das die folgende Berechnung:

∑=

+++=p

i p

p

i

i

n

T

n

T

n

T

n

T

1

2

2

22

1

21

2

....

Für die Berechnung des Kennwerts H geht dieser Wert zusammen mit der Gesamtzahl aller

Versuchspersonen N in folgende Formel ein:

( )( )13

1

12

1

2

+⋅−

⋅

+⋅= ∑

=

Nn

T

NNH

p

i i

i

Die Verteilung des H-Werts nähert sich einer χ2-Verteilung mit df = p – 1 Freiheitsgraden an,

wenn die Versuchspersonenanzahl in keiner der Gruppen kleiner als ni = 5 ist. Die

Freiheitsgrade ergeben sich aus der Anzahl der Gruppen minus Eins. Bei ausreichend großen

Gruppen kann also der H-Wert mit einem χ2-Wert verglichen werden. Überschreitet der H-

Wert den kritischen χ2-Wert, so ist das Ergebnis signifikant.

Stichprobenumfangsplanung und Teststärke

Für die Stichprobenumfangsplanung und Teststärkeberechnung in einem Kruskal-Wallis H-

Test wird vorgeschlagen, sich an den Berechnungen einer entsprechenden einfaktoriellen

Varianzanalyse ohne Messwiederholung zu orientieren.

43

Anhang SPSS

Der Anhang zu SPSS gibt noch einmal die wichtigsten Schritt des Workshops graphisch

wieder.

1. Mann-Whitney-U-Test

1.1 Analysieren à Nichtparametrische Tests à Zwei unabhängige Stichproben

1.2 Gruppenvariable aussuchen à Gruppen definieren à Testvariable(n) angeben

44

2. Der Wilcoxon-Test

2.1 Analysieren à Nichtparametrische Tests à Zwei verbundene Stichproben

2.2 Variable 1 anklicken à Variable 2 anklicken à Pfeil benutzen, um dieses Variablenpaar

dem Bereich „Ausgewählte Variablenpaare“ hinzuzufügen (Wilcoxon sollte schon

automatisch aktiviert sein)

#

45

3. Der Kruskal-Wallis H-Test

3.1 Analysieren à Nichtparametrische Tests à K unabhängige Stichproben

3.2 Gruppenvariable aussuchen à Gruppenbereich definieren à Testvariable(n) angeben

Download - Skript Teil 2 - uni-due.de · 12 Für Normalverteilungen gilt, dass die Fläche, die von +/- einer Standardabweichung vom Mittelwert begrenzt wird, mehr als 2/3 aller (68,26%) beinhaltet

Top Related