statistik - homepage server uni-tübingen · mit der prognose immer weiter von der mittleren höhe...
TRANSCRIPT
Statistik
GrundlagenCharakterisierung von VerteilungenEinführung WahrscheinlichkeitsrechnungWahrscheinlichkeitsverteilungenSchätzen und TestenKorrelationRegression
Einführung
Durch die Regressionsanalyse wird versucht, die Art des Zusammenhangs zwischen metrisch skalierten Variablen X und Y mit Hilfe einer Funktion Y = f(X), die auch als die Regression von Y nach X bezeichnet wird, festzustellen. Es wird also untersucht, wie man von der einen Variablen auf die andere schließen kann. Dieser Schluss setzt immer die Trennung zwischen den Ausgangsvariablen und Zielvariablen voraus und ist inhaltlich durch ein Abhängigkeitsverhältnis bestimmt.
• Beispielweise ist die Zahl der Staus auf den Autobahnen (abhängige Variable) von der Verkehrsdichte (unabhängige Variable) abhängig.
Einführung
Im Unterschied zur Korrelationsanalyse wird bei der Regressionsanalyse angenommen, dass eine einseitige Relation herrscht (X beeinflusst Y) und dies zuvor auch bekannt ist. Da es sich um ZV handelt, kann die Vorhersage von Y aus X niemals genau sein, man muss also bei der statistischen Modellierung immer einen Fehler (Residuum) berücksichtigen.
Die Regression ist ein Verfahren, das versucht, die Punktwolke die durch Eintrag der beiden Variablen in das Streudiagramm entsteht, durch eine Gerade bestmöglich anzunähern. Diese Regressionsgerade versucht dabei die Punkte des Streudiagramms dadurch optimal zu repräsentieren, indem sie den Abstand aller Punkte von der Geraden minimiert.
Regressionsgerade, lineares Modell:
f(x) = mx + c mit m Regressionskoeffizient und c Regressionskonstante
Regression
Beispiel: Stadt- Umland- Verflechtung.
Von vielen möglichen Einflussfaktoren auf die Interaktion zwischen einer Großstadt und ihrem Umland sind die Distanz und die Größe der untersuchten Umlandgemeinden entscheidend. Hierbei ist unterder Größe eines Ortes die Zahl der Bewohner, der Erwerbstätigen oder etwa die Anzahl der außerlandwirtschaftlich Beschäftigten zu verstehen.
In einer Untersuchung zum Beispiel der Stadt Karlsruhe und ihrerUmlandgemeinden wurden für ausgewählte Orte folgende Daten erhoben:
• Auspendler aus der Gemeinde nach Karlsruhe• Erwerbsbevölkerung in der Gemeinde• Entfernung nach Karlsruhe (in Km)• Fahrzeit nach Karlsruhe (in min)• Auspendlerquote der Gemeinde, also Verhältnis von Auspendler zur Erwerbsbevölkerung
Regression
Beispiel: Stadt- Umland- Verflechtung.
Damit ergibt sich die Frage, ob mit zunehmender Entfernung der Umlandgemeinden zur Großstadt die Auspendlerquote abnimmt.
Nr.
1234567891011121314
Gemeinde
BietigheimBusenbach
DurmersheimEggensteinForchheimGrötzingenJöhlingen
LangensteinbachLiedolsheimLinkenheim
MaximiliansauOttenhausen
RülzheimWörth
Aus-pendler
692319
1241139624191841856380602
110294411
275769
Erwerbs-bevölk.
2292144035022489339929051527220215602293201359323693065
Entfernung(km)
1710159881515191410202012
Fahrzeit(min)
23131791381718211514272714
Auspendler-quote (%)
30.222.235.456.171.263.456.117.338.648.146.91.9
11.625.1
Regression
Beispiel: Stadt- Umland- Verflechtung. Der Mittelwert der Fahrzeit beträgt dabei 16.9 min und die Auspendlerquote 37.4%.
Aus
pend
elqu
ote
(%)
Fahrzeit (min)
01020304050607080
0 5 10 15 20 25 30
Regression
Beispiel: Stadt- Umland- Verflechtung. Der Mittelwert der Fahrzeit beträgt dabei 16.9 min und die Auspendlerquote 37.4%.
Aus
pend
elqu
ote
(%)
Fahrzeit (min)
01020304050607080
0 5 10 15 20 25 30
Methode der kleinsten Quadrate
Da die Regressionsgerade die Punktwolke bestmöglich annähern soll, muss der Abstand aller Punkte zur Geraden minimiert werden. Dies kann prinzipiell auf unterschiedliche Arten geschehen.
Y
X0
2
4
6
8
10
0 1 2 3 4 5 6 7 8
Methode der kleinsten Quadrate
Sinnvoll ist dabei, die Abweichungen hinsichtlich der Ordinalvariable Y zu betrachten.
0
2
4
6
8
10
0 1 2 3 4 5 6 7 8
Y
X
Methode der kleinsten Quadrate
Zur Minimierung der Abstände di aller Punkte yi von den (durch das Lot bestimmten) Punkten yi* auf der Geraden soll gelten:
minimal∑∑==
−==n
iii
n
ii yydd
1
2*
1
2 )(
0
2
4
6
8
10
0 1 2 3 4 5 6 7 8
y* = f(x) = ax + b
xi
Y
X
y*i = f(xi)
yi
di
Methode der kleinsten Quadrate
Regressionsgerade: Wird bestimmt durch den Regressionskoeffizient m und die Regressionskonstante c in dem linearen Modell durch:
mit xi Werte der unabhängigen und yi Werte der abhängigen Variable
∑ ∑
∑ ∑ ∑∑
= =
= = ==
−
⋅−⋅
=n
i
n
iii
n
i
n
i
n
iiii
n
iii
xxn
yxxxyc
1 1
22
1 1 11
2
)(
∑∑
∑ ∑∑
==
= ==
−=
n
ii
n
ii
n
i
n
ii
n
iiii
xxn
yxyxnm
1
2
1
2
1 11
)(
))()((
Methode der kleinsten Quadrate
Eigenschaften:
• Es wird nur eine Ausgangsvariable und eine Zielvariable betrachtet.
• Die Regression unterscheidet zwischen abhängiger und unabhängiger Variable, vertauscht man daher diese Variablen, so wird zumeist auch eine andere Regressionsgerade zu erwarten sein. Der Grund hierfür ist, dass die Berechnung der Abweichungsquadrate hinsichtlich der Variablen Y erfolgt.
• Das Bestimmtheitsmaß B beschreibt die Güte der Anpassung der Regressionsfunktion an die gegebenen Messwertpunkte mit dem durch X erklärbaren Anteil der Änderungen von Y. Dazu sollte auch der Test des Bestimmtheitsmaßes mit Signifikanz auf 0 durchgeführt werden.
• Je besser die Regressionsgerade an die Punktwolke angepasst ist, desto genauer ist daher auch eine Schätzung der unbekannten Y-Werte aus den bekannten X-Werten möglich.
• Ist das Bestimmtheitsmaß in der GG signifikant von 0 verschieden, so bedeutet dies, dass ein statistisch signifikanter Anteil der Variation der Y-Werte durch die X-Werte mit Hilfe des linearen Modells beschrieben, also auch vorhergesagt werden kann. Ist das Bestimmtheitsmaß nicht signifikant, so ist dieses Modell unbrauchbar.
Regression
Beispiel: Stadt- Umland- Verflechtung.
Aus
pend
elqu
ote
(%)
Fahrzeit (min)
01020304050607080
0 5 10 15 20 25 30
y = -2.5291x + 80.069B = R2 = 0.5261
Prognose und Konfidenzbereich
Aus geometrischer Sichtweise ist Pi* = (xi|yi*) der zu xi gehörende Punkt auf der Regressionsgeraden, Pi = (xi|yi) ist die tatsächliche Werte-Kombination. Bei der Prognose eines unbekannten Y-Wertes yi aus der Kenntnis des Prädiktorwertes xiist der individuelle Vorhersagefehler di = yi - yi* des prognostizierten Wertes yi* natürlich unbekannt. Man wird also prognostizieren: yi* = mxi + c.
Diese Art der Prognose ist aus statistischer Sicht eine Punktschätzung. Sie sollte ebenso wie bei den statistischen Kennwerten durch eine Intervallschätzung, möglichst durch ein Konfidenzbereich ergänzt werden.
Dabei kann man zwischen dem Konfidenzband und dem individuellenKonfidenzintervall unterscheiden.
Prognose und Konfidenzbereich
Konfidenzband: Dieses stellt den Bereich dar, innerhalb dessen die GG-Regressionsgerade mit bestimmter Sicherheit liegt. Diese Art derIntervallschätzung bezieht sich also auf das gesamte Modell (auf die Y-Mittelwerte, die alle auf der Geraden liegen). Die Residuen di = yi - yi* müssen dabei N(0,σ2)-verteilt sein für 1 ≤ i ≤ n bei unterschiedlichen Stichproben.
Konfidenzintervall: Man kann auch für jeden einzelnen Prognosewert ein individuelles Konfidenzintervall schätzen, in dem der wahre unbekannte Y-Wert mit einer Irrtumswahrscheinlichkeit α liegt.
Prognose und Konfidenzbereich
Eigenschaften:
• Das Konfidenzband stellt ein engeres Intervall um einen Schätzwert yi* dar als die zu einem Linienzug verbundenen Konfidenzintervalle der Einzelwerte, da beim Konfidenzband der Schätzwert als Mittelwert aufgefasst wird.
• Für den Mittelwert der X-Werte sind beide Konfidenzbereiche am kleinsten. Mit zunehmender Entfernung der X-Werte vom Mittelwert wird die Prognose immer unzuverlässiger.
i
i
Prognose und Konfidenzbereich
Beispiel: Lufttemperaturen.
Für ein Gebiet im Alpenvorland soll eine lineare Einfachregressionzur Prognose der Lufttemperaturen t (°C) allein aus Kenntnis der Höhenlage des Bezugspunktes h (NN) ermittelt werden.
Das lineare Regressionsmodell in der GG lautet also: t(h) = mh + c
Prognose und Konfidenzbereich
Beispiel: Lufttemperaturen.
Aussagen:
•Die Signifikanztests für m und c mit Hilfe des t-Tests ergeben, dass beide Koeffizienten für α = 0.05 signifikant von 0 verschieden sind.
• Das Bestimmtheitsmaß B = 0,74, dass der durch das Regressionsmodell erklärte Varianzanteil 74% beträgt. Das Bestimmtheitsmaß ist mit α = 0.05 signifikant von 0 verschieden. Die Regressionsgleichung ist also generell als Prognosemodell brauchbar.
• Regressionskonstante c: Würde man die Jahresmitteltemperatur im Alpenvorland auf Meeresspiegelniveau reduzieren, so ergibt sich im Schnitt ein Wert von 9.7 °C.
• Regressionskoeffizient m: Eine vertikale Zunahme der Höhe um 100 m verursacht im Schnitt eine Verringerung der Jahresmitteltemperatur um -0.383°C.
Prognose und Konfidenzbereich
Beispiel: Lufttemperaturen. Darstellung des Konfidenzbandes mit höchster Aussagekraft für den Mittelwert der Höhen.
556 m
Prognose und Konfidenzbereich
Beispiel: Lufttemperaturen. Vergleich von gemessenen und durch die Regressionsfunktion geschätzten Werten.
B = R2 = 0.74
Prognose und Konfidenzbereich
Beispiel: Lufttemperaturen. Prüfung der Residuen nach Normalverteilung als Voraussetzung für die Angabe des Konfidenzbandes.
Prognose und Konfidenzbereich
Beispiel: Lufttemperaturen. Darstellung der Residuen und Ursachen für Ausreißer.
Prognose und Konfidenzbereich
Beispiel: Lufttemperaturen. Anwendung durch Prognosen für andere Lokalitäten.
h t untere Grenze desKonfidenzbandes für den
mittleren prognostizierten Wert
obere Grenze desKonfidenzbandes für den
mittleren prognostizierten Wert
500 7.81 7.66 7.96
700 7.04 6.85 7.23
900 6.27 5.94 6.61
1200 5.12 4.55 5.70
Prognose und Konfidenzbereich
Beispiel: Lufttemperaturen. Anwendung durch Prognosen für andere Lokalitäten.
• Die Höhenlage zwischen 500 m und 900 m liegt noch innerhalb des X-Wertebereiches [xmin, xmax] der STP. Die prognostizierten Temperaturen nehmen erwartungsgemäß mit zunehmender Höhe ab.
• Die Konfidenbereiche werden jedoch immer breiter, weil man sich mit der Prognose immer weiter von der mittleren Höhe 556 m entfernt.
• Die Höhe 1200 m über NN liegt schon deutlich außerhalb des STP-Intervalls. Zwar scheint der prognostizierte Jahresmittelwert der Temperatur mit 5.1 °C noch relativ realistisch zu sein, jedoch sind die Grenzen des 95%-Vorhersage-Intervalls mit [4.6; 5.7] schon recht weit gesteckt, die Prognose also unzuverlässiger.
Prognose und Konfidenzbereich
Linearisierung: Oftmals liegen nichtlineare, jedoch offensichtliche Zusammenhänge vor, die mit Hilfe von Transformation in lineare Zusammenhänge überführt werden können, womit dann die Regression angewendet werden kann. Etwa bei einem Zusammenhang mit stark ansteigenden Y-Werten bei vergleichsweise geringer Zunahme der X-Werte.
Besteht etwa ein exponentieller Zusammenhang zwischen den Datenwerten mit y = beax, also ln(y) = ax + ln(b), so kann durch logarithmieren ein linearer Zusammenhang hergestellt werden. Wird daraufhin die lineare Regressionsgerade y* = a*x + b* erstellt, so erhält man b = eb* und a = a* für die ursprüngliche Funktion y = beax.
y = 1,138 e2,0019x
R2 =
0,9901
0
5
10
15
20
25
30
0,0 0,5 1,0 1,5 2,0
y = 2,0019x + 0,1293R2 = 0,9901
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
0,0 0,5 1,0 1,5 2,0