typische struktur bei stimulus-response obj.1 obj.2 obj.n...
TRANSCRIPT
Statistik für SoziologInnen 1
©M
arcus Hudec
Mittelwertsvergleiche
Mittelwertsvergleich bei 2 gebundenen Stichproben
Liegen 2 Beobachtungen an n Objekten vor, spricht man von einer gebundenen StichprobeTypische Struktur bei "stimulus-response" Versuchen
Obj.1 Obj.2 ... Obj.nBeobachtung-1 x1 x2 ... xn
Beobachtung-2 y1 y2 ... yn
Differenz d1 d2 ... dn
Statistik für SoziologInnen 2
©M
arcus Hudec
Mittelwertsvergleiche
Mittelwertsvergleich bei gebundenen Stichproben
Im Falle einer gebundenen Stichprobe kann die Fragestellung durch Differenzbildung der einzelnen Beobachtungen (Übergang auf di=xi-yi) auf den Einstichprobenfall reduziert werden.Diese Vorgangsweise ist auch effizienter als die Anwendung des Zweistichprobentests für MittelwerteWenn bei gegebenen Daten eine paarweise Differenzbildung sinnvoll möglich ist, ist dies die adäquate VorgangsweiseVersuchsplanung: ==> Anstreben von gebundenen Stichproben
Statistik für SoziologInnen 3
©M
arcus Hudec
Mittelwertsvergleiche
Beispiel
2 Düngemittel A und B werden auf 8 Versuchsfeldern unter konstanten Bedingungen getestet
Frage: besteht ein signifikanter Unterschied (α=0,05) in bezug auf den Ernteertrag pro Hektar?
Feld 1 2 3 4 5 6 7 8 MittelA 8,2 8,1 7,5 8,2 8,5 8,4 7,8 8,0 8,09B 8,1 7,3 7,2 7,8 6,9 8,2 7,2 7,1 7,48D 0,1 0,8 0,3 0,4 1,6 0,2 0,6 0,9 0,61
Statistik für SoziologInnen 4
©M
arcus Hudec
Mittelwertsvergleiche
Beispiel
0093,0
5482,31726,06125,0
3646,21726,08/4883,0/
4883,06125,0475,70875,8
0::
975,0,7
00
=−
==
=
===
====
=≡=
valuep
t
tnss
sdxx
HH
dd
d
BA
DBA µµµ
Signifikantes Ergebnis
H0 wird abgelehnt
Statistik für SoziologInnen 5
©M
arcus Hudec
Mittelwertsvergleiche
Mittelwertsvergleich bei 2 unabhängigen Stichproben
Fall1: Varianzen seien bekanntWir betrachten 2 unabhängige Stichproben von 2 GrundgesamtheitenParameter der Grundgesamtheiten:
Parameter der Stichproben:
µ µ σ σ1 2 12
22
1 2, , ,N N
x x n n1 2 1 2, ,
Statistik für SoziologInnen 6
©M
arcus Hudec
Mittelwertsvergleiche
Modellannahmen Fall1
Die beiden Stichproben sind unabhängigEntweder stammen die Stichproben aus normalverteilten Grundgesamtheiten, oder die Stichprobenumfänge n1, n2 sind so groß, dass mit dem zentralen Grenzwertsatz die Normalverteilung der Mittelwerte gerechtfertigt werden kann Die Grundgesamtheiten N1, N2 sind so groß, dass der Korrekturfaktor für endliche Grundgesamt-heiten vernachlässigt werden kann. Die Varianzen der Grundgesamtheit sind bekannt
Statistik für SoziologInnen 7
©M
arcus Hudec
Mittelwertsvergleiche
Teststatistik im Fall 1
Unter den obigen Annahmen ist
Und unter H0: µ1=µ2
z x x
n n
N=− − −
+
( ) ( ) ~ ( , )1 2 1 2
12
1
22
2
01µ µσ σ
z x x
n n
N=−
+
( ) ~ ( , )1 2
12
1
22
2
01σ σ
Statistik für SoziologInnen 8
©M
arcus Hudec
Mittelwertsvergleiche
Teststatistik im Fall 1
Im Spezialfall konstanter (homogener Varianzen) vereinfacht sich der Ausdruck für die Teststatistik wie folgt:
z x x
n n
x x
n n
x xn nn n
=−
+
=−
+=
−+
( ) ( ) ( )1 22
1
2
2
1 2
1 2
1 2
1 2
1 2
1 1σ σ σ σ
Statistik für SoziologInnen 9
©M
arcus Hudec
Mittelwertsvergleiche
Mittelwertsvergleich bei 2 unabhängigen Stichproben
Fall2: Varianzen seien unbekannt2a) Annahme homogener VarianzenParameter der Grundgesamtheiten:
Parameter der Stichproben:
µ µ σ σ σ1 2 12
22 2
1 2, ,= = N N
x x s s n n1 2 12
22
1 2, , ,
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Dic
htef
unkt
ion
Statistik für SoziologInnen 10
©M
arcus Hudec
Mittelwertsvergleiche
Modellannahmen Fall2a
Die beiden Stichproben sind unabhängigEntweder stammen die Stichproben aus normalverteilten Grundgesamtheiten, oder die Stichprobenumfänge n1, n2 sind so groß, dass mit dem zentralen Grenzwertsatz die Normalverteilung der Mittelwerte gerechtfertigt werden kann Die Grundgesamtheiten N1, N2 sind so groß, dass der Korrekturfaktor für endliche Grundgesamt-heiten vernachlässigt werden kann. Die Varianzen der Grundgesamtheit sind unbekannt aber in beiden Gruppen gleich
Statistik für SoziologInnen 11
©M
arcus Hudec
Mittelwertsvergleiche
Teststatistik im Fall 2a
t ist t-verteilt mit n1+n2-2 Freiheitsgradens..."pooled variance estimate"
z x xn nn n
t x xn nn n
mit s n s n sn n
=−+
=−+
= =− + −
+ −
( )
( ) ( ) ( )
1 2
1 2
1 2
1 2
1 2
1 2
1 12
2 22
1 2
1 12
σ
σσ
Statistik für SoziologInnen 12
©M
arcus Hudec
Mittelwertsvergleiche
Beispiel zu Fall 2a
Die durchschnittliche Intelligenz zweier Personengruppen soll verglichen werdenAnnahmen:– IQ ist in jeder Gruppe normalverteilt und die Varianz der
ist in beiden Gruppen gleich großn x sn x sH Ht
sn s n s
n n
tx x
n nn n
1 1 1
2 2 2
0 1 2 1 1 2
20 0 995
2 1 12
2 22
1 2
2 2
1 2
1 2
1 2
12 130 210 127 18
2 8451 1
211 2 9 18
204 12
130 127
4 12 22120
3 45
= = == = =
= ≠= ±
=− + −
+ −=
⋅ + ⋅=
=−+
=−
=
,2,
: :,
( ) ( ) ,2 , ,
( )
,,
, ,
µ µ µ µ
σ
Statistik für SoziologInnen 13
©M
arcus Hudec
Mittelwertsvergleiche
Mittelwertsvergleich bei 2 unabhängigen Stichproben
Fall2: Varianzen seien unbekannt2b) Varianzen sind verschieden2b1) große Stichproben– Einsetzen der Stichprobenschätzer für die unbekannten
Varianzen ist bei großen Stichproben unproblematisch2b2) kleine Stichproben– Dem Einsetzen der Stichprobenschätzer für die
unbekannten Varianzen muss bei kleinen Stichproben Rechnung getragen werden
Statistik für SoziologInnen 14
©M
arcus Hudec
Mittelwertsvergleiche
Teststatistik im Fall 2b1
Fall2: Varianzen seien unbekannt2b) Varianzen sind verschieden2b1) große StichprobenEntweder stammen die Stichproben aus normalverteilten Grundgesamtheiten, oder wir können mit dem zentralen Grenzwertsatz die Normalverteilung der Mittelwerte rechtfertigenUnter H0: z x x
sn
sn
N=−
+
( ) ~ ( , )1 2
12
1
22
2
01
Statistik für SoziologInnen 15
©M
arcus Hudec
Mittelwertsvergleiche
Beispiel zu Fall 2b1)
2 Übungsgruppen von Studenten
n x sn x sH Hz
z x xsn
sn
Entscheidung Hp value
1 1 1
2 2 2
0 1 2 1 1 2
0 975
1 2
12
1
22
2
2 2
1
40 74 850 78 7
19674 78840
750
2 49
0 01277
= = == = =
= ≠= ±
=−
+=
−
+= −
− =
: :,
,
:,
,
µ µ µ µ
Statistik für SoziologInnen 16
©M
arcus Hudec
Mittelwertsvergleiche
Teststatistik im Fall 2b2
Fall2: Varianzen seien unbekannt2b) Varianzen sind verschieden2b2) kleine Stichproben Die Stichproben stammen aus normalverteiltenGrundgesamtheitenFisher-Behrens-ProblemApproximation nach Welch: Bei Gültigkeit von H0:
t x xsn
sn
t wobei df
s nn s
s nn s
nn
df=−
+=
+⎛⎝⎜
⎞⎠⎟
⎛⎝⎜
⎞⎠⎟ − +
−
( ) ~/ ( )
1 2
12
1
22
2
12
2
1 22
2
12
2
1 22
2
12
1
1 11
Statistik für SoziologInnen 17
©M
arcus Hudec
Mittelwertsvergleiche
Beispiel zu Fall 2b2)
2 Gruppen von Autofahrern
1 1 1
2 2 2
0 1 2 1 1 2
1 22 2 2 21 2
1 2
2
2
32,0,95
0
15 53 / 22,820 41 / 21,5
: :53 41 1,56
22,8 21,515 20
(1 1,5) 32,02 321,5 /14 1/19
1,6939:
n x km h sn x km h sH H
x xts sn n
df
tEntscheidung H
µ µ µ µ
= = == = =
≤ >− −
= = =
++
+= = ==>
+=
©M
arcus Hudec
Statistik für SoziologInnen 18
©M
arcus Hudec
Mittelwertsvergleiche
Übersicht beim 2-Stichprobenfall mit unbekannter Varianz
Kann von einer Homogenität der Varianzen ausgegangen werden?
JAFall 2a)
„Pooled Variance Estimate“
NEINGroße Stichproben?
JAFall 2b1)
Verwende die separaten Varianzschätzer
NEINDaten normalverteilt?
NEINNichtparametrischer Test
JAWelsch-Approximation
Statistik für SoziologInnen 19
©M
arcus Hudec
Mittelwertsvergleiche
Mann Whitney U-Test
Grundgedanke: Wie verteilen sich die Ränge in einer gemeinsamen StichprobeErmittle die Rangsumme für jede Stichprobe und teste, ob diese extreme Werte annimmt.Ordne alle Beobachtungen und zähle die Ränge der ersten Gruppe (R1) sowie der zweiten Gruppe (R2).Bestimme die Teststatistik U Für deren Verteilung gibt es bei kleinen Stichproben eigene Tabellen; bei großen Normalverteilung
1 11 1 2 1
2 22 1 2 2
1 2
( 1)2
( 1)2
min( , )
n nU n n R
n nU n n R
U U U
⋅ += + −
⋅ += + −
=
1 2
1 2
1 2 1 2
8; 8
2( 1)12
falls n nn nU
zn n n n
≥ ≥
⋅−
=⋅ ⋅ + +
Statistik für SoziologInnen 20
©M
arcus Hudec
Mittelwertsvergleiche
Mann Whitney U-Test
Reifen-A Reifen-B50.000 43.000 1 36.00041.000 44.000 2 37.00040.000 36.000 3 40.00049.000 37.000 4 41.000
Mittelwert: 45.000 40.000 5 43.000Varianz: 20.500.000 12.500.000 6 44.000Standardabweichung 4.528 3.536 7 49.000
8 50.000Rangsumme 3+4+7+8= 1+2+5+6=
22 14U1, U2 4 12U 4 Nachschlagen in Tabelle ==> Ho
Laufleistung in kmGemeinsame Geordnete
Stichprobe
p-value =0.17
Statistik für SoziologInnen 21
©M
arcus Hudec
Mittelwertsvergleiche
Berechnung mit dem Test nach Welch
Test nach WelchBestimmung der Freiheitsgrade Teststatistik
Zähler 6,9696 5000Nenner 1,22986667 2872,28132
DF= 5,66695577 1,74077656Abrunden!!! 5
t5;0,95 2,01504837 n.s. ==> Ho
p-value 0,14220258
t x xsn
sn
t wobei df
s nn s
s nn s
nn
df=−
+=
+⎛⎝⎜
⎞⎠⎟
⎛⎝⎜
⎞⎠⎟ − +
−
( ) ~/ ( )
1 2
12
1
22
2
12
2
1 22
2
12
2
1 22
2
12
1
1 11
Statistik für SoziologInnen 22
©M
arcus Hudec
Mittelwertsvergleiche
Mittelwertsvergleich bei mehr als 2 Stichproben
Liegen k > 2 Gruppen von Beobachtungen vor und man möchte testen, ob sie sich die Gruppen signifikant im Mittelwert unterscheiden, ist es nicht adäquat einfach paarweise Vergleiche durchzuführen.Als Standardmethode wird bei Annahme der Normalverteilung und konstanter Varianz in den Gruppen die einfache Varianzanalyse verwendet.
Statistik für SoziologInnen 23
©M
arcus Hudec
Mittelwertsvergleiche
Beispiel
Fog-Index: Lesbarkeit von Texten
Scientific American 10,21 9,66 7,67 5,12 4,88 3,12Newsweek 15,75 11,55 11,16 9,92 9,23 8,2Sports Illustrated 9,17 8,44 6,1 5,78 5,58 5,36
0,4*(durchschnittl. Anzahl Wörter pro Satz+Prozentsatz der Wörter mit mehr als 3 Silben)
Mittelwert Varianz Standardabw.Scientific American 6,78 8,12 2,85Newsweek 10,97 7,00 2,65Sports Illustrated 6,74 2,68 1,64
Gesamtmittel 8,16
Statistik für SoziologInnen 24
©M
arcus Hudec
Mittelwertsvergleiche
Deskriptiver Vergleich
Newsweek Scientific American Sports Illustr.
46
810
1214
16
FogI
ndex
Statistik für SoziologInnen 25
©M
arcus Hudec
Mittelwertsvergleiche
Visualisierung
Newsweek Scientific American Sports Illustr.
46
810
1214
16
FogI
ndex
Statistik für SoziologInnen 26
©M
arcus Hudec
Mittelwertsvergleiche
Statistisches Modell
Faktor A mit Ausprägungen a1,…, ak
1, , 1, , 0ij i ij i ii
y i k j nµ α ε α= + + = = =∑… …
2(0, )ij Nε σ∼
0 2 4 6 8 1 0
0.0
0.1
0.2
0.3
0.4
x
Im Beispiel:
A Zeitung
a1 Scient. Amer.
a2 Newsweek
a3 Sports Ill.
Annahme:Varianzhomogenität
Statistik für SoziologInnen 27
©M
arcus Hudec
Mittelwertsvergleiche
Notation
ykn…yk2yk1
yin…yi2yi1
…
y2ny22y21
y1n…y12y11
.1
..1 1
1
1
n
i ijj
k n
iji j
y yn
y yn k
=
= =
=
=⋅
∑
∑∑
Annahme:konstanter Anzahl von n Beobachtungen in jeder der k Gruppen
Mittelwert in Gruppe i
Gesamtmittelwert über alle Gruppen
Statistik für SoziologInnen 28
©M
arcus Hudec
Mittelwertsvergleiche
Rechenschema der Varianzzerlegung
Spezialfall: Jede Ausprägung des Faktors wird n-mal wiederholt. Insgesamt gibt es dann N=n*kBeobachtungen
Source of Variation
SS degrees of freedom
Sum of Squares Mean Squares
Treatment SSA k-1 2. ..
1( )
k
ii
n y y=
−∑ MSA=SSA/(k-1)
Error SSE k(n-1) 2.( )ij i
i jy y−∑ MSE=SSE/k(n-1)
Total SST kn-1 2..( )ij
i jy y−∑
SSTreatment ~ SSBetween ~ SSExplainedSSError ~ SSWithin
Statistik für SoziologInnen 29
©M
arcus Hudec
Mittelwertsvergleiche
Visualisierung der einfachen Varianzanalyse
0
2
4
6
8
10
12
14
16
18
0 1 2 3 4 5
Treatment
Sc. Amer.
Newsweek
Sp. Illustr.
Total
SS-Within bzw. SS-Residuals
Statistik für SoziologInnen 30
©M
arcus Hudec
Mittelwertsvergleiche
Detaillierte Berechnung (siehe XLS)
Scientific American 10,21 9,66 7,67 5,12 4,88 3,12Newsweek 15,75 11,55 11,16 9,92 9,23 8,2Sports Illustrated 9,17 8,44 6,1 5,78 5,58 5,36
Mittelwert Varianz Standardabw.Scientific American 6,78 8,12 2,85 Gesamtmittel 8,16Newsweek 10,97 7,00 2,65Sports Illustrated 6,74 2,68 1,64
SSTREATMENT 70,93
SSTOTAL 4,20 2,25 0,24 9,25 10,77 25,4157,59 11,48 8,99 3,09 1,14 0,00
1,02 0,08 4,25 5,67 6,66 7,85159,94
SSResiduals 11,79 8,31 0,80 2,74 3,60 13,3722,86 0,34 0,04 1,10 3,02 7,66
5,91 2,90 0,41 0,92 1,34 1,9089,01
Statistik für SoziologInnen 31
©M
arcus Hudec
Mittelwertsvergleiche
Ergebnis
Dies testet die Hypothese, ob es überhaupt Unterschiede zwischen den Gruppen gibt.
Will man noch nachtesten, welche paarweise Unterschiede es gibt, muss man das Signifikanzniveau adjustieren (multiple comparisons problem)
Einfachste Methode: Bonferoni * /2k
α α⎛ ⎞
= ⎜ ⎟⎝ ⎠
DfSum of Squares
Mean Squares F-value p-value
SSTREATMENT 2 70,93 35,46 5,98 0,01234SSResiduals 15 89,01 5,93SSTOTAL 17 159,94 9,41