Download - STATISIK
![Page 1: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/1.jpg)
1
STATISIK
LV Nr.: 0028
SS 2005
6. Juni 2005
![Page 2: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/2.jpg)
2
Varianzanalyse
Varianzanalyse od. ANOVA
• Frage: Hat ein Faktor Einfluss auf ein Merkmal?
• Faktor: Nominal skalierte Größe, Faktorausprägungen = Ebenen oder Stufen
• Merkmal (durch Faktor beeinflusst): Metrische Größe
![Page 3: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/3.jpg)
3
Varianzanalyse
Varianzanalyse
• Einfache Varianzanalyse: Ein Faktor
• Zweifache Varianzanalyse: Zwei Faktoren
• …
![Page 4: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/4.jpg)
4
Varianzanalyse
• Test, für arithmetische Mittel von zwei oder mehr Grundgesamtheiten. – Test, ob die Differenz der arithmetischen Mittel
von zwei oder mehr als zwei Grundgesamtheiten signifikant von Null verschieden ist.
![Page 5: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/5.jpg)
5
Varianzanalyse
• Modellannahmen der Varinazanalyse: – Unabhängigkeit der Stichproben (i=1,…,r)
– Normalverteilung der Merkmale mit µi und σi²
– Varianzhomogenität (Homoskedastizität), d.h. σi² = σ²
![Page 6: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/6.jpg)
6
Varianzanalyse
• Nullhypothese: Alle Gruppen haben den gleichen Mittelwert µ
H0: µ1 = µ2 = … = µ
• Alternativhypothese: Nicht alle Gruppen haben den gleichen Mittelwert µ
H1: mindestens zwei µi sind ungleich
![Page 7: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/7.jpg)
7
Varianzanalyse
• Frage: Beeinflusst der Faktor (nominal-skalierte Größe) das Merkmal (metrisch-skalierte Größe)?
• Unter H0: µi = µ für alle i (i = 1,…,r Faktorstufen).
• Abweichung, die dem Faktor zuzuschreiben sind: αi = µi - µ (i = 1,…,r) heißen wahre Effekte auf der i-ten Ebene.
![Page 8: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/8.jpg)
8
Varianzanalyse
• Modell der einfachen Varianzanalyse:
• xij = µ + αi + eij – µ … Gesamtmittelwert
– αi … Effekt auf der i-ten Ebene
– eij … Versuchsfehler = die Abweichung eines zufällig aus der i-ten Ebene des Faktors herausgegriffenen Beobachtungswertes xik vom Mittelwert µi dieser Ebene.
eij = xij – µi = xij – (µ + αi)
![Page 9: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/9.jpg)
9
Varianzanalyse
• Beispiel: Zugfestigkeit von r = 3 Drahtsorten überprüfen, je Sorte 6 Proben, unabhängig voneinander und N(µi,σ²)-vt. Frage: Bestehen signifikante Unterschiede in der Zugfestigkeit?
i Drahtsorte
j 1 2 3
1 9 7,3 18
2 15,4 15,6 9,6
3 8,2 14,2 11,5
4 3,9 13 19,4
5 7,3 6,8 17,1
6 10,8 9,7 14,4
![Page 10: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/10.jpg)
10
Varianzanalyse
Vorgehensweise:
• Gesamtmittelwert aller Faktorstufen und Mittelwerte der Faktorstufen bestimmen
• Bestimmung der Abweichungen
• Zerlegung der Abweichungsquadratsumme
• Teststatistik und Testverteilung bestimmen
• Entscheidung, Interpretation
![Page 11: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/11.jpg)
11
Varianzanalyse
• Gesamtmittelwert über alle Faktorstufen r
• Mittelwerte der r Faktorstufen
inr
iji=1 j=1
1x = x
N
in
i ijj=1i
1x = x
n
![Page 12: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/12.jpg)
12
Varianzanalyse
• Beispiel: Drahtsorteni Drahtsorte
j 1 2 3 x..
1 9 7,3 18
2 15,4 15,6 9,6
3 8,2 14,2 11,5
4 3,9 13 19,4
5 7,3 6,8 17,1
6 10,8 9,7 14,4
xi. 9,1 11,1 15 11,7
![Page 13: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/13.jpg)
13
Varianzanalyse
• Abweichungen: Quadratsumme der Abweichungen (Sum of Squares)– Abweichungen der Beobachtungen vom
Gesamtmittelwert.
– Summe der Quadratischen Abweichungen– Bezeichnungen: SST (Total), SSG (Gesamt)
inr2
iji=1 j=1
SST= (x -x )
![Page 14: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/14.jpg)
14
Varianzanalyse
• Sum of Squares:– Abweichungen der Beobachtungen der
einzelnen Messreihen vom Mittelwert der jeweiligen Messreihe.
– Summe der Quadratischen Abweichungen des Restes, Maß für die nicht durch den Faktor beeinflusste Restvariabilität
– Bezeichnungen: SSW (Within), SSE (Error), SSR (Residual).
inr2
ij ii=1 j=1
SSW= (x -x )
![Page 15: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/15.jpg)
15
Varianzanalyse
• Sum of Squares:– Abweichungen der Mittelwerte der einzelnen
Messreihen vom Gesamtmittelwert.
– Mit Stichprobengröße multiplizierte Summe der Quadratischen Abweichungen der Stichprobenmittelwerte vom Gesamtmittelwert, also der beobachteten Effekte des Faktors.
– Bezeichnungen: SSB (Between), SSE (Explained), SSM (Model), SST (Treatment),
r2
i ii=1
SSB= n (x -x )
![Page 16: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/16.jpg)
16
Varianzanalyse
• Quadratsummenzerlegung:
• SST = SSB + SSW
• Interpretation: Gesamtvarianz (SST) setzt sich aus der Variation zwischen den Messreihen (SSB) und der Variation innerhalb der Messreihen (SSW) zusammen.
i in nr r r2 2 2
ij i i ij ii=1 j=1 i=1 i=1 j=1
(x -x ) n (x -x ) (x -x )
![Page 17: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/17.jpg)
17
Varianzanalyse
• Idee für Test: – Vergleich der Variation zwischen den
Messreihen mit der Variation innerhalb der Messreihen
– Ist die Variation zwischen den Messreihen größer als jene innerhalb der Messreihen, schließe auf Unterschied zwischen den Messreihen (Faktoreffekt).
![Page 18: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/18.jpg)
18
Varianzanalyse
• Teststatistik – Idee: – Aus den Beobachtungswerten werden zwei
voneinander unabhängige Schätzwerte für sW² und sB² für die Varianzen der Beobachtungswerte innerhalb und zwischen den Stichproben bestimmt.
– Liegen keine wahren Effekte vor (Gültigkeit von H0), sind sW² und sB² (bis auf zufällige Abweichungen) gleich.
– Bei Vorhandensein von wahren Effekten (H1) ist sB² systematisch größer als sW².
![Page 19: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/19.jpg)
19
Varianzanalyse
• Erwartungstreuer Schätzer für die Varianz innerhalb der Messreihen (Restvarianz):
• Erwartungstreuer Schätzer für die Varianz zwischen den Messreihen (Faktoreffekt)
inr2 2W ij i
i=1 j=1
1s = (x -x )
N-r
r2 2B i i
i=1
1s = n (x -x )
r-1
![Page 20: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/20.jpg)
20
Varianzanalyse
• Mittlere Quadratsummen (MSS = Mean Sum of Squares):
• Quadratsummen dividiert durch entsprechende Freiheitsgrade
• MSB und MSW sind erwartungstreue Schätzer der Varianz zwischen- und innerhalb der Messreihen.
![Page 21: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/21.jpg)
21
Varianzanalyse
• Varianzanalysetafel (r Messreihen):
Streuungs-ursache
Freiheits-grade (DF)
Quadrat-summe (SS)
Mittlere Quadratsumme (MS)
Unterschied zw Messreihen
r-1 SSB (Between)
MSB = SSB / (r-1)
Zufälliger Fehler
N-r SSW
(Within)
MSW = SSW / (N-r)
Gesamt N-1 SST
(Total)
![Page 22: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/22.jpg)
22
Varianzanalyse
Teststatistik:
• F = MSB / MSW
• F ~ F(r-1),(N-r)
• Entscheidung: Ist F ≤ Fc, lehne H0 nicht ab (Fc = kritischer Wert der F-Verteilung mit (r-1) und (N-r) Freiheitsgraden).
![Page 23: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/23.jpg)
23
Varianzanalyse
• Beispiel: Drahtsorten• Quadratsummenzerlegung: SST = SSB + SSW
– 324,62 = 108,04 + 216,58
• Mittlere Quadratsummen: – MSB = 108,04 / (3-1) = 54,02– MSW = 216,58 / (18-3) = 14,44
• Teststatistik: – F = MSB / MSW = 3,74
• Kritischer Wert der F2;15 Vt. 3,68• Entscheidung: 3,74 > 3,68 => H0 ablehnen, d.h. es
besteht ein signifikanter Unterschied zw. den Sorten
![Page 24: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/24.jpg)
24
Varianzanalyse
• Zweifache Varianzanalyse: – 2 Faktoren (A und B, wobei r Faktorstufen bei
A und p Faktorstufen bei B)– 1 metrische Variable
• Unterscheidung: – Modell ohne Wechselwirkungen zw. den
Faktoren– Modell mit Wechselwirkungen zw. den
Faktoren
![Page 25: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/25.jpg)
25
Varianzanalyse
• Modell ohne Wechselwirkungen zw. den Faktoren
• xijk = µ + αi + βj + eijk (für i=1,…,r, j=1,…,p, k=1,…,n)– µ gemeinsamer Mittelwert– α, β Faktoreffekte
– eijk zufällige Fehler
![Page 26: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/26.jpg)
26
Varianzanalyse
• Mittelwerte:
• Gesamt
• Faktor A
• Faktor B
pr n
ijki=1 j=1 k=1
1x = x
rpn p n
i ijkj=1 k=1
1x = x
pn r n
j ijki=1 k=1
1x = x
rn
![Page 27: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/27.jpg)
27
Varianzanalyse
• Schätzer für Gesamtmittel und Effekte
• Gesamtmittel
• Effekt von Faktor A
• Effekt von Faktor B
m=x
i ia =x -m
j jb =x -m
![Page 28: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/28.jpg)
28
Varianzanalyse
• Quadratsummen
•
•
•
• SSR = SST – SSE(A) – SSE(B)
pr n2
ijki=1 j=1 k=1
SST= (x -x )r
2i
i=1
SSE(A)=pn ap
2j
j=1
SSE(B)=rn b
![Page 29: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/29.jpg)
29
Varianzanalyse
• Quadratsummenzerlegung– SST = SSE(A) + SSE(B) + SSR
• Mittlere Quadratsummen:– MSE(A) = SSE(A) / (r-1)– MSE(B) = SSE(B) / (p-1)– MSR = SSR / (rpn-r-p+1)
![Page 30: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/30.jpg)
30
Varianzanalyse
• Prüfgrößen und kritische Werte:
• Faktor A: – F(A) = MSE(A) / MSR
– Fr-1,(nrp-r-p+1);1-α
• Faktor B: – F(B) = MSE(B) / MSR
– Fp-1,(nrp-r-p+1);1-α
![Page 31: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/31.jpg)
31
Varianzanalyse
• Beispiel: 2 Faktoren (Erreger, Antibiotikum)Erreger i
(A) Antibiotikum j (B)
1 2 3 Mittelwerte Schätzer ai
k
1 1 38 40 38
2 35 41 39 38,5 0,667
2 1 42 39 33
2 45 33 34 37,7 -0,167
3 1 38 38 33
2 41 38 36 37,3 -0,500
Mittelwerte 39,8 38,2 35,5 37,8
Schätzer bj 2,000 0,333 -2,333
![Page 32: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/32.jpg)
32
Varianzanalyse
• Modell mit Wechselwirkungen zw. den Faktoren
• xijk = µ + αi + βj + (αβ)ij + eijk (für i=1,…,r, j=1,…,p, k=1,…,n)– µ gemeinsamer Mittelwert– α, β Faktoreffekte– αβ Wechselwirkung
– eijk zufällige Fehler
![Page 33: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/33.jpg)
33
Varianzanalyse
• Mittelwerte:
• Gesamt
• Faktor A
• Faktor B
• Wechselwirkung
pr n
ijki=1 j=1 k=1
1x = x
rpn p n
i ijkj=1 k=1
1x = x
pn r n
j ijki=1 k=1
1x = x
rn n
ij ijkk=1
1x = x
n
![Page 34: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/34.jpg)
34
Varianzanalyse
• Gesamtmittel und Effekte
• Gesamtmittel
• Effekt von Faktor A
• Effekt von Faktor B
• Effekt der Wechselwirkung
m=x
i ia =x -m
j jb =x -m
ij ij i j(ab) =x -a -b -m
![Page 35: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/35.jpg)
35
Varianzanalyse
• Quadratsummen
SSR = SST – SSE(A) – SSE(B) – SSE(AB)
pr n2
ijki=1 j=1 k=1
SST= (x -x )r
2i
i=1
SSE(A)=pn ap
2j
j=1
SSE(B)=rn bpr
2ij
i=1 j=1
SSE(AB)=n (ab)
![Page 36: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/36.jpg)
36
Varianzanalyse
• Quadratsummenzerlegung– SST = SSE(A) + SSE(B) + SSE(AB) + SSR
• Mittlere Quadratsummen:– MSE(A) = SSE(A) / (r-1)– MSE(B) = SSE(B) / (p-1)– MSE(AB) = SSE(AB) / (p-1)(r-1)– MSR = SSR / (rpn-r-p+1)
![Page 37: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/37.jpg)
37
Varianzanalyse
• Prüfgrößen und kritische Werte: • Faktor A:
– F(A) = MSE(A) / MSR
– Fr-1, pr(n-1); 1-α
• Faktor B: – F(B) = MSE(B) / MSR
– Fp-1, pr(n-1); 1-α
• Wechselwirkung: – F(AB) = MSE(AB) / MSR
– F(p-1)(r-1), pr(n-1); 1-α
![Page 38: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/38.jpg)
38
Varianzanalyse
• Beispiel: 2 Faktoren + Wechselwirkung
Erreger i Antibiotikum j (Faktor B)
(Faktor A) 1 2 3 xi.. ai
k xi1k xi1. (ab)i1 xi2k xi2. (ab)i2 xi3k xi3. (ab)i3
1 1 38
36,5 -4,000
40
40,5 1,667
38
38,5 2,333
2 35 41 39 38,5 0,667
2 1 42
43,5 3,833
39
36 -2,000
33
33,5 -1,833
2 45 33 34 37,7 -0,167
3 1 38
39,5 0,167
38
38 0,333
33
34,5 -0,500
2 41 38 36 37,3 -0,500
x.j. 39,8 38,2 35,5 37,8
bj 2,000 0,333 -2,333
![Page 39: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/39.jpg)
39
Varianzanalyse
• Beispiel: Varianzanalysetafel
• Faktor Erreger: kein Effekt
• Faktor Antibiotikum: Effekt
• Interaktion: Effekt (impliziert, dass auch Faktor Erreger eine Wirkung hat).
Streuungs-ursache
Freiheits-grade
Quadrat-summe
Mittlere Quadrats.
Test-statistik
Kritischer Wert
Erreger 2 4,33 2,16667 0,52 4,26
Antibiotikum 2 57,33 28,6667 6,88 4,26
Interaktion 4 93,33 23,3333 5,60 3,63
Fehler 9 37,50 4,16667
Total 17 192,5
![Page 40: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/40.jpg)
40
VarianzanalyseErreger - Antibiotikum
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
0 1 2 3 4
Antibiotikum
Mit
telw
ert
e
Erreger 1
Erreger 2
Erreger 3
![Page 41: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/41.jpg)
41
Nichtparametrische ANOVA
• Kruskal-Wallis Test• Unterscheiden sich die Mittelwerte von p
Messreihen (n1, …, np)? • Voraussetzungen:
– Stetige Verteilung der Messreihen – Mindestens Ordinalskala – Setzt weder Normalverteilung, noch
Varianzhomogenität voraus.
• Hypothese: – H0: Mittelwerte der p Messreihen sind gleich – H1: Mittelwerte unterscheiden sich
![Page 42: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/42.jpg)
42
Nichtparametrische ANOVA
• Vorgehensweise:– N Messwerten X11, …, Xpnp werden Rangzahlen
rij zugewiesen.
– Summe der Ränge der einzelnen Messreihen berechnen:
– Bindungen (mehrere Messwerte sind gleich): Mittelwert der Ränge
in
i ijj=1
r = r
![Page 43: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/43.jpg)
43
Nichtparametrische ANOVA
• Prüfgröße:
– g … Anzahl der verschiedenen Messwerte– t … wie oft tritt ein Messwert auf– Treten keine Bindungen auf, ist B = 1
p2i
i=1 i
1 12 1H= r -3(N+1)
B N(N+1) n
g
3l3
i=1
1B=1- (t -t)
N -N
![Page 44: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/44.jpg)
44
Nichtparametrische ANOVA
• Entscheidung:– H0 ablehnen, wenn H > hp(n1,…,np);1-α
– h … kritische Werte (Tabelle, z.B. Hartung S. 615)
• Approximation durch χ²p-1,1-α Verteilung: – H0 ablehnen, wenn H > χ²p-1,1-α (Quantile der χ²
Verteilung)
![Page 45: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/45.jpg)
45
Regressionsanalyse
• Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen.
• Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.
![Page 46: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/46.jpg)
46
Regressionsanalyse
• Abhängige Variable (Regressand): Y – „zu erklärende Variable“
• Unabhängige Variable/n (Regressor): X – „erklärende Variable/n“
• Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt.
• Regression von Y auf X, Y=f(X).
![Page 47: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/47.jpg)
47
Regressionsanalyse
• Art der Beziehung zw. den Variablen?
• Welche Form hat die Regressionsfunktion?
• Antworten darauf aus: – Theorie – Empirische Beobachtung, z.B. Punktwolke
zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?
![Page 48: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/48.jpg)
48
Regressionsanalyse
• Punktwolke
• Regressionsfunktion
40
50
60
70
80
90
100
110
150 160 170 180 190 200 210
Körpergröße
Kö
rpe
rge
wic
ht
![Page 49: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/49.jpg)
49
Regressionsanalyse
• Lineare Regression:– Regressionsfunktion ist linear
• Nichtlineare Regression: – Regressionsfunktion ist nicht linear
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
![Page 50: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/50.jpg)
50
Regressionsanalyse
• Einfachregression: – Beziehung zwischen 2 Variablen– Regressand: Y– Regressor: X
• Mehrfachregression = multiple Regression: – Beziehung zwischen 3 oder mehr Variablen– Regressand: Y
– Regressoren: X1, X2, …, Xk
![Page 51: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/51.jpg)
51
Regressionsanalyse
• Lineare Einfachregression:– Lineare Regressionsfunktion
(Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X.
– Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x1, …, xn und y1, …, yn.
![Page 52: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/52.jpg)
52
Regressionsanalyse
• Wahre Funktion:
yi‘ = α + βxi für i = 1, …, n
– α … Absolutglied– β … Steigungsparameter
• Beobachtet wird:
yi = yi‘ + εi für i = 1, …, n
– εi … Störterm, Realisationen einer Zufallsvariable
Wahre Koeffizienten, Parameter der Grundgesamtheit
![Page 53: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/53.jpg)
53
Regressionsanalyse
• Modell der linearen Einfachregression:
yi = α + βxi + εi für i = 1, …, n – α … Absolutglied– β … Steigungsparameter
– εi … Störterm
![Page 54: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/54.jpg)
54
Regressionsanalyse
• Annahmen: (1) E(εi) = 0 für i=1,…,n
(2) Var(εi) = σ² für i=1,…,n (Homoskedastizität)
(3) Cov(εi,εj) = 0 für alle ij (unkorrelierte Fehler)
(4) xi nicht stochastisch
(5) xi xj für mindestens ein ij
![Page 55: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/55.jpg)
55
Regressionsanalyse
• Aus den Annahmen folgt für die abhängige Zufallsvariable Yi: – E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi
‘ für i=1,…,n
– Var(Yi) = Var(εi) = σ² für i=1,…,n= 0
![Page 56: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/56.jpg)
56
Regressionsanalyse
• Regressionsfunktion/-gerade:
ŷi = a + bxi für i = 1, …, n– a … Schätzer für Absolutglied– b … Schätzer für Steigungsparameter
– ŷi … Schätzer für Ausprägung yi von Y
![Page 57: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/57.jpg)
57
Regressionsanalyse
• Abweichung zwischen den beobachteten Werten yi und den geschätzten Werten ŷi: Residuen ei = yi – ŷi = yi – (a + bxi)
40
50
60
70
80
90
100
110
150 160 170 180 190 200 210
Körpergröße
Kö
rper
gew
ich
t
ei
yi
ŷi
![Page 58: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/58.jpg)
58
Regressionsanalyse
• Regressionsgerade: – unendlich viele mögliche Geraden durch eine
Punktwolke– Wähle jene, die die vorhandene Tendenz am
besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.
![Page 59: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/59.jpg)
59
Regressionsanalyse
Methode der Kleinsten Quadrate
• Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme)
• Wähle die Schätzer a und b für α und β so, dass S² minimal wird.
n n n2 2 2 2
i i i i ii=1 i=1 i=1
ˆS = (y -a-bx ) (y -y ) e
![Page 60: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/60.jpg)
60
RegressionsanalyseMethode der Kleinsten Quadrate
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
X
Y
ŷ=a+bx
(xi,yi)
(xi,ŷi)
yi-ŷi=yi-(a+bxi)=ei
![Page 61: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/61.jpg)
61
Regressionsanalyse
• Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte yi von den durch die Regressionsgerade an den Stellen xi bestimmten Werten ŷi).
n2 2
i ia,b
i=1
min S = (y -a-bx )
![Page 62: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/62.jpg)
62
Regressionsanalyse
• Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems:
• Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0
2 n
i ii=1
S=-2 (y -a-bx )=0
a
2 n
i i ii=1
S=-2 x (y -a-bx )=0
b
![Page 63: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/63.jpg)
63
Regressionsanalyse
• Kleinste Quadrate Schätzer für β:
• Kleinste Quadrate Schätzer für α:
• Kleinste Quadrate Regressionsfunktion:
n
i ii=1
n2
ii=1
(x -x)(y -y)b=
(x -x)
a=y-bx
y=a+bx
![Page 64: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/64.jpg)
64
Regressionsanalyse
• Eigenschaften der KQ Schätzer: – Summe der Residuen ei ist Null.
– Summe xiei ist Null.
– Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte
– Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (x,y).
![Page 65: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/65.jpg)
65
Regressionsanalyse
Quadratsummenzerlegung:
• Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. – Zu erklärende Variation: yi –y
– Erklärte Variation: ŷi –y
– Nicht erklärte Variation: yi – ŷi
– (yi – y) = (ŷi –y) + (yi – ŷi) für i=1,…,n
![Page 66: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/66.jpg)
66
RegressionsanalyseMethode der Kleinsten Quadrate
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
X
Y
ŷ=a+bx
(xi,yi)
yi -y
ŷi -y
yi - ŷi
(xi,ŷi)
y
![Page 67: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/67.jpg)
67
Regressionsanalyse
• Maß der Variation: Quadratsumme der Abweichungen
• SST = (yi –y)² – Sum of Squares Total
• SSE = (ŷi –y)² – Sum of Squares Explained
• SSR = (yi – ŷi)²– Sum of Squares Residual
• Es gilt: SST = SSE + SSR
![Page 68: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/68.jpg)
68
Regressionsanalyse
• Einfaches Bestimmtheitsmaß: – Maß für die durch die lineare
Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen
• r² = SSE / SST = 1 – SSR / SST– r² = Anteil der durch die Regressionsfunktion
erklärten Variation an der zu erklärenden gesamten Variation.
![Page 69: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/69.jpg)
69
Regressionsanalyse
• Es gilt: 0 ≤ r² ≤ 1
• Extremfälle: – r² = 0 SSE = 0 ŷi =ŷ (=y) für alle i, d.h.
ŷi hängt nicht von i ab b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag
– r² = 1 SSE = SST SSR = 0 ei = 0 für alle i ŷi = yi für alle i die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung
![Page 70: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/70.jpg)
70
RegressionsanalyseEinfaches lineares Bestimmtheitsmaß
R2 = 1
0
1
2
3
4
5
6
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
Einfaches lineares Bestimmtheitsmaß
R2 = 0
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
Einfaches lineares Bestimmtheitsmaß
R2 = 0,82
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
Einfaches lineares Bestimmtheitsmaß
R2 = 0,52
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
![Page 71: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/71.jpg)
71
Regressionsanalyse
• Linearer Einfachkorrelationskoeffizient: r = + r² und r [0 ; 1]
• Extremfälle: – r = 0, d.h. fehlende Erklärung, fehlende
Korrelation– r = 1, d.h. vollständige Erklärung, vollständige
Korrelation
• r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.
![Page 72: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/72.jpg)
72
Regressionsanalyse
Eigenschaften der KQ Schätzer:
• Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable.
• Erwartungswerte der KQ Schätzer:– E(b) = β– E(a) = α– D.h. a und b sind unverzerrte Schätzer
![Page 73: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/73.jpg)
73
Regressionsanalyse
• Varianzen der KQ Schätzer:
• Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.
n
1i
2i
2
)x(x
σVar(b)
n
1i
2i
22
)x(x
x
n
1σVar(a)
![Page 74: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/74.jpg)
74
Regressionsanalyse
• Kovarianz der KQ Schätzer:
Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.
n
1i
2i
2
)x(x
xσb)Cov(a,
![Page 75: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/75.jpg)
75
Regressionsanalyse
• Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β?
• Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.
![Page 76: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/76.jpg)
76
Regressionsanalyse
Gauss-Markov-Theorem:– Einfaches lineares Regressionsmodell, – Es gelten Annahmen 1-5
• Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator)– Best: Var(b*) Var(b) – Linear: b* =ciyi
– Unbiased: E(b*) = β– Analoge Aussage für Schätzer a* von α.
![Page 77: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/77.jpg)
77
Regressionsanalyse
• Schätzung der Fehlervarianz σ²– Wären εi beobachtbar, dann Schätzer für σ² =
1/n εi².
– Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.
n
1i
2i
2 e2n
1s
![Page 78: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/78.jpg)
78
Regressionsanalyse
• Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.
22b n
2i
i 1
ss
(x x)
22 2a n
2i
i 1
1 xs s
n (x x)
![Page 79: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/79.jpg)
79
Regressionsanalyse
Inferenz im linearen Regressionsmodell:– Ann (1-5)
– Ann (6): εi ~ N(0,σ²)
• Testprobleme: – Einseitig: z.B. H0: b = b* gegen H1: b > b*
– Zweiseitig: H0: b = b* gegen H1: b b*
• Teststatistik:
b
*
s
bbT
![Page 80: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/80.jpg)
80
Regressionsanalyse
• Verteilung der Teststatistik: – sb bekannt: T ~ N(0,1)
– sb geschätzt: T ~ tn-2
• Kritische Werte bestimmen
• Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt.
• Gleiche Vorgehensweise bei Tests für Schätzer a.
![Page 81: STATISIK](https://reader036.vdocuments.pub/reader036/viewer/2022062722/56813af4550346895da37468/html5/thumbnails/81.jpg)
81
Regressionsanalyse
Konfidenzintervall Regressionskoeffizienten
• Interzept: – Es gilt P(a – t sa α a + t sa) = 1 – α
– KI für α: [a – t sa; a + t sa]
• Steigungsparameter: – Es gilt P(b – t sb β b + t sb) = 1 – α
– KI für β: [b – t sb; b + t sb]
• t = t1- α/2; n-2 (Werte der t-Verteilung)