Statistik: 8.3.04
Relationen zwischen metrischen Merkmalen
8.3.04 PI Statistik, SS 2004 (5) 2
Beispiel: Wohnungsmarkt
Fläche 122 71 125 45 100 63 194 85
Preis 530 410 480 170 315 455 885 400
Fläche 164 119 140 109 40 62 84 65
Preis 900 550 790 810 390 440 300 385
Für 16 Angebote von Eigentumswohnungen wurden registriert: Fläche der Wohnung (m2) Angebotspreis (1000 EUR)
8.3.04 PI Statistik, SS 2004 (5) 3
Wohnungsmarkt
Punkte- oder Streudiagramm(scatterplot)
0100
200300
400500
600700
800900
1000
0 50 100 150 200 250Fläche (m2)
Pre
is (
1000
EU
R)
8.3.04 PI Statistik, SS 2004 (5) 4
Randverteilungen
0
1
2
3
4
5
6
50 90 130 170 210 250H
äufi
gke
it
0
1
2
3
4
5
6
300 400 500 600 700 800 900 1000
Häu
fig
keit
Fläche der Wohnung (m2)
Preis (1000 EUR)
8.3.04 PI Statistik, SS 2004 (5) 5
RandverteilungenFläche Preis
Mittelwert 99,3 513,1
Standardfehler 10,8 54,8
Median 92,5 447,5
Standardabweichung 43,3 219,3
Stichprobenvarianz 1870,6 48109,6
Kurtosis -0,049 -0,547
Schiefe 0,651 0,663
Wertebereich 154 730
Minimum 40 170
Maximum 194 900
Anzahl 16 16
Kenngrößen
8.3.04 PI Statistik, SS 2004 (5) 6
Standardisieren
ii
x
x xz
s
, xx sMerkmal X : x1, …, xn Stichprobenkennzahlen:
Standardisieren:
Standardisierte Daten: z1, …, zn
Stichprobenkennzahlen: 0, 1zz s
8.3.04 PI Statistik, SS 2004 (5) 7
Beispiel: Wohnungsmarkt
-2
-2
-1
-1
0
1
1
2
2
-2 -2 -1 -1 0 1 1 2 2 3
Standardisierte Daten:
,i i
i ix y
x y
x x y yz z
s s
8.3.04 PI Statistik, SS 2004 (5) 8
Korrelationskoeffizient
Produkt-Moment Korrelationskoeffizient:
oder
mit der Kovarianz
Beispiel: Fläche (X) und Preis (Y) von angebotenen Wohnungen: sxy = 7342.34, sx= 43.3, sy= 219.3
r = 0.826
1 1
1 1i i
n ni i
x yi ix y
x x y yr z zn s s n
xy
x y
srs s
1
1( )( )
n
xy i ii
s x x y yn
8.3.04 PI Statistik, SS 2004 (5) 9
KorrelationskoeffizientKorrelationskoeffizient ist ein (durch das Standardisieren)
normiertes Maß für den linearen Zusammenhang
Eigenschaften:-1 ≤ r ≤ 1|r| ist Maß für die Stärke des linearen Zusammenhanges
|r|=1: perfekte lineare Abhängigkeit |r|<1: Punkte streuen stark (|r|~0) oder schwach (|r|~1)
um GeradeSign(r) ist Maß für Richtung des linearen Zusammenhanges
Sign(r)=1: steigende Gerade Sign(r)=-1: fallende Gerade
8.3.04 PI Statistik, SS 2004 (5) 10
Beziehungen: Beispiele
0.997
-0.977
-0.289-0.067
8.3.04 PI Statistik, SS 2004 (5) 11
Rang Korrelationskoeffizient
nach SpearmanKorrelationsmaß für ordinale MerkmaleAuch anwendbar auf Rangzahlen für metrische MerkmaleDefinition wie Produkt-Moment Korrelationskoeffizient rxy, angewendet auf die Ränge der Beobachtungen
( ), ( )spxy rg x rg yr r
8.3.04 PI Statistik, SS 2004 (5) 12
Berechnung von r sp
1. Sortieren der Stichprobenpaare (xi, yi) nach steigenden Werten von X
2. Ersetzen der Beobachtungen (xi, yi) durch die Rangzahlen (i, Ri)
3. Einsetzen in Formel für Produkt-Moment Korrelationskoeffizient r :
4. Alternative Schreibweise:
1 12 2
2 21 12 2
n nisp i
n nii i
i Rr
i R
22
61 ( )
( 1)sp
iir i R
n n
8.3.04 PI Statistik, SS 2004 (5) 13
Beispiel: Schulnoten
Math Engl
3 3
4 3
1 3
3 4
3 1
2 3
2 1
1 2
4 4
2 2
0
1
2
3
4
5
0 1 2 3 4 5
Math-Note
Engl
-Not
e
Math Engl
1 1 2 1,5 3,5
2 1 3 1,5 6,5
3 2 1 4 1,5
4 2 2 4 3,5
5 2 3 4 6,5
6 3 1 7 1,5
7 3 3 7 6,5
8 3 4 7 9,5
9 4 3 9,5 6,5
10 4 4 9,5 9,5
r sp = 0.430
8.3.04 PI Statistik, SS 2004 (5) 14
Typen von Beziehungen
zwischen MerkmalenKausaler Zusammenhang
Wenn es kalt ist, steigen die Heizkosten Rauchen macht Lungenkrebs
Gemeinsame Response Die fleißige Studentin bekommt viele gute Noten Zahl der Babys und der Störche wird weniger
Vermengung (confounding) Sloppy lifestyle Hypothese und Lungenkrebs
8.3.04 PI Statistik, SS 2004 (5) 15
Typen von Beziehungen
yx
x ist kausal für y
x, y sind gemeinsame Response auf z
y: Effekte von x und z sind vermengt
x y
z
x y
z
zwischen zwei Merkmalen x und y
8.3.04 PI Statistik, SS 2004 (5) 16
Vorsicht!
Die Interpretation von Korrelation als kausale Beziehung ist oft eine Fehlinterpretation!
Zahl der Babys und der Störche sind hoch positiv korreliert!?
Einkommen und Konsum sind hoch positiv korreliert
Ausreißer haben großen Effekt auf den Wert des KorrelationskoeffizientenNicht-lineare Beziehungen!
8.3.04 PI Statistik, SS 2004 (5) 17
Lineare Regression
0
200
400
600
800
1000
0 50 100 150 200 250Fläche (m2)
Pre
is (
1000
EU
R)
Gerade, die die Datenwolke im Streudiagramm bzw.die Beziehung zwischen den dargestellten Merkmalen möglichst gut repräsentiertWohnungsmarkt:
Daten und Regressionsgerade
8.3.04 PI Statistik, SS 2004 (5) 18
Lineare Regression, Forts.
Abhängiges Merkmal: YUnabhängiges Merkmal: XRegressionsgerade: Y = a + b X a, b: Regressionskoeffizienten (b: Anstieg, a: Interzept)Methode der kleinsten Quadrate: Wähle die Koeffizienten
so, dass die Summe der quadrierten Abstände zwischen Beobachtungen und der Geraden minimiert werden
Schätzer:
2
,
1( , ) ( ) min
n a bi ii
S a b y a bx
,y
x
sb r a y bx
s
8.3.04 PI Statistik, SS 2004 (5) 19
Wohnungsmarkt, Forts.
0
200
400
600
800
1000
0 50 100 150 200 250Fläche (m2)
Pre
is (
1000
EU
R)
97.59 4.19x
Geschätzte Regressionsgerade
8.3.04 PI Statistik, SS 2004 (5) 20
Wohnungsmarkt
ˆ 97.59 4.19y x Geschätzte Regressionsgerade
• Je m2 muss man im Durchschnitt mit Kosten von 4.190 Euro rechnen;• dazu kommt ein fixer Betrag von im Durchschnitt 97.590 Euro
• Residuen: • zur Beurteilung der Qualität der Erklärung der Daten durch die Regressionsgerade, insb. des Effekts von einzelnen Beobachtungen
( )i iy a bx
8.3.04 PI Statistik, SS 2004 (5) 21
Regression in EXCEL
Analysefunktion „Regression“Statistische Funktionen
RGP: liefert die Koeffizienten der linearen Regression SCHÄTZER: Liefert einen Y-Wert zu einem X-Wert
nach Anpassen der linearen Regression Und andere
8.3.04 PI Statistik, SS 2004 (5) 22
Regression in EXCEL: Ausgabe: Zusammenfassung
Regressions-Statistik
Multipler Korrela-tionskoeffizient 0,826
Bestimmtheitsmaß 0,682
Adj. Bestimmt-heitsmaß 0,659
Standardfehler 128,12
Beobachtungen 16
Koeffizienten
Standard fehler t-Statistik P-Wert
Schnittpunkt 97,59 82,39 1,18 0,256
X Variable 1 4,19 0,76 5,47 8,2E-05