statistik - homepage server uni-tübingen · mit der prognose immer weiter von der mittleren höhe...

26
Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression

Upload: danghanh

Post on 29-Jul-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Statistik

GrundlagenCharakterisierung von VerteilungenEinführung WahrscheinlichkeitsrechnungWahrscheinlichkeitsverteilungenSchätzen und TestenKorrelationRegression

Einführung

Durch die Regressionsanalyse wird versucht, die Art des Zusammenhangs zwischen metrisch skalierten Variablen X und Y mit Hilfe einer Funktion Y = f(X), die auch als die Regression von Y nach X bezeichnet wird, festzustellen. Es wird also untersucht, wie man von der einen Variablen auf die andere schließen kann. Dieser Schluss setzt immer die Trennung zwischen den Ausgangsvariablen und Zielvariablen voraus und ist inhaltlich durch ein Abhängigkeitsverhältnis bestimmt.

• Beispielweise ist die Zahl der Staus auf den Autobahnen (abhängige Variable) von der Verkehrsdichte (unabhängige Variable) abhängig.

Einführung

Im Unterschied zur Korrelationsanalyse wird bei der Regressionsanalyse angenommen, dass eine einseitige Relation herrscht (X beeinflusst Y) und dies zuvor auch bekannt ist. Da es sich um ZV handelt, kann die Vorhersage von Y aus X niemals genau sein, man muss also bei der statistischen Modellierung immer einen Fehler (Residuum) berücksichtigen.

Die Regression ist ein Verfahren, das versucht, die Punktwolke die durch Eintrag der beiden Variablen in das Streudiagramm entsteht, durch eine Gerade bestmöglich anzunähern. Diese Regressionsgerade versucht dabei die Punkte des Streudiagramms dadurch optimal zu repräsentieren, indem sie den Abstand aller Punkte von der Geraden minimiert.

Regressionsgerade, lineares Modell:

f(x) = mx + c mit m Regressionskoeffizient und c Regressionskonstante

Regression

Beispiel: Stadt- Umland- Verflechtung.

Von vielen möglichen Einflussfaktoren auf die Interaktion zwischen einer Großstadt und ihrem Umland sind die Distanz und die Größe der untersuchten Umlandgemeinden entscheidend. Hierbei ist unterder Größe eines Ortes die Zahl der Bewohner, der Erwerbstätigen oder etwa die Anzahl der außerlandwirtschaftlich Beschäftigten zu verstehen.

In einer Untersuchung zum Beispiel der Stadt Karlsruhe und ihrerUmlandgemeinden wurden für ausgewählte Orte folgende Daten erhoben:

• Auspendler aus der Gemeinde nach Karlsruhe• Erwerbsbevölkerung in der Gemeinde• Entfernung nach Karlsruhe (in Km)• Fahrzeit nach Karlsruhe (in min)• Auspendlerquote der Gemeinde, also Verhältnis von Auspendler zur Erwerbsbevölkerung

Regression

Beispiel: Stadt- Umland- Verflechtung.

Damit ergibt sich die Frage, ob mit zunehmender Entfernung der Umlandgemeinden zur Großstadt die Auspendlerquote abnimmt.

Nr.

1234567891011121314

Gemeinde

BietigheimBusenbach

DurmersheimEggensteinForchheimGrötzingenJöhlingen

LangensteinbachLiedolsheimLinkenheim

MaximiliansauOttenhausen

RülzheimWörth

Aus-pendler

692319

1241139624191841856380602

110294411

275769

Erwerbs-bevölk.

2292144035022489339929051527220215602293201359323693065

Entfernung(km)

1710159881515191410202012

Fahrzeit(min)

23131791381718211514272714

Auspendler-quote (%)

30.222.235.456.171.263.456.117.338.648.146.91.9

11.625.1

Regression

Beispiel: Stadt- Umland- Verflechtung. Der Mittelwert der Fahrzeit beträgt dabei 16.9 min und die Auspendlerquote 37.4%.

Aus

pend

elqu

ote

(%)

Fahrzeit (min)

01020304050607080

0 5 10 15 20 25 30

Regression

Beispiel: Stadt- Umland- Verflechtung. Der Mittelwert der Fahrzeit beträgt dabei 16.9 min und die Auspendlerquote 37.4%.

Aus

pend

elqu

ote

(%)

Fahrzeit (min)

01020304050607080

0 5 10 15 20 25 30

Methode der kleinsten Quadrate

Da die Regressionsgerade die Punktwolke bestmöglich annähern soll, muss der Abstand aller Punkte zur Geraden minimiert werden. Dies kann prinzipiell auf unterschiedliche Arten geschehen.

Y

X0

2

4

6

8

10

0 1 2 3 4 5 6 7 8

Methode der kleinsten Quadrate

Sinnvoll ist dabei, die Abweichungen hinsichtlich der Ordinalvariable Y zu betrachten.

0

2

4

6

8

10

0 1 2 3 4 5 6 7 8

Y

X

Methode der kleinsten Quadrate

Zur Minimierung der Abstände di aller Punkte yi von den (durch das Lot bestimmten) Punkten yi* auf der Geraden soll gelten:

minimal∑∑==

−==n

iii

n

ii yydd

1

2*

1

2 )(

0

2

4

6

8

10

0 1 2 3 4 5 6 7 8

y* = f(x) = ax + b

xi

Y

X

y*i = f(xi)

yi

di

Methode der kleinsten Quadrate

Regressionsgerade: Wird bestimmt durch den Regressionskoeffizient m und die Regressionskonstante c in dem linearen Modell durch:

mit xi Werte der unabhängigen und yi Werte der abhängigen Variable

∑ ∑

∑ ∑ ∑∑

= =

= = ==

⋅−⋅

=n

i

n

iii

n

i

n

i

n

iiii

n

iii

xxn

yxxxyc

1 1

22

1 1 11

2

)(

∑∑

∑ ∑∑

==

= ==

−=

n

ii

n

ii

n

i

n

ii

n

iiii

xxn

yxyxnm

1

2

1

2

1 11

)(

))()((

Methode der kleinsten Quadrate

Eigenschaften:

• Es wird nur eine Ausgangsvariable und eine Zielvariable betrachtet.

• Die Regression unterscheidet zwischen abhängiger und unabhängiger Variable, vertauscht man daher diese Variablen, so wird zumeist auch eine andere Regressionsgerade zu erwarten sein. Der Grund hierfür ist, dass die Berechnung der Abweichungsquadrate hinsichtlich der Variablen Y erfolgt.

• Das Bestimmtheitsmaß B beschreibt die Güte der Anpassung der Regressionsfunktion an die gegebenen Messwertpunkte mit dem durch X erklärbaren Anteil der Änderungen von Y. Dazu sollte auch der Test des Bestimmtheitsmaßes mit Signifikanz auf 0 durchgeführt werden.

• Je besser die Regressionsgerade an die Punktwolke angepasst ist, desto genauer ist daher auch eine Schätzung der unbekannten Y-Werte aus den bekannten X-Werten möglich.

• Ist das Bestimmtheitsmaß in der GG signifikant von 0 verschieden, so bedeutet dies, dass ein statistisch signifikanter Anteil der Variation der Y-Werte durch die X-Werte mit Hilfe des linearen Modells beschrieben, also auch vorhergesagt werden kann. Ist das Bestimmtheitsmaß nicht signifikant, so ist dieses Modell unbrauchbar.

Regression

Beispiel: Stadt- Umland- Verflechtung.

Aus

pend

elqu

ote

(%)

Fahrzeit (min)

01020304050607080

0 5 10 15 20 25 30

y = -2.5291x + 80.069B = R2 = 0.5261

Prognose und Konfidenzbereich

Aus geometrischer Sichtweise ist Pi* = (xi|yi*) der zu xi gehörende Punkt auf der Regressionsgeraden, Pi = (xi|yi) ist die tatsächliche Werte-Kombination. Bei der Prognose eines unbekannten Y-Wertes yi aus der Kenntnis des Prädiktorwertes xiist der individuelle Vorhersagefehler di = yi - yi* des prognostizierten Wertes yi* natürlich unbekannt. Man wird also prognostizieren: yi* = mxi + c.

Diese Art der Prognose ist aus statistischer Sicht eine Punktschätzung. Sie sollte ebenso wie bei den statistischen Kennwerten durch eine Intervallschätzung, möglichst durch ein Konfidenzbereich ergänzt werden.

Dabei kann man zwischen dem Konfidenzband und dem individuellenKonfidenzintervall unterscheiden.

Prognose und Konfidenzbereich

Konfidenzband: Dieses stellt den Bereich dar, innerhalb dessen die GG-Regressionsgerade mit bestimmter Sicherheit liegt. Diese Art derIntervallschätzung bezieht sich also auf das gesamte Modell (auf die Y-Mittelwerte, die alle auf der Geraden liegen). Die Residuen di = yi - yi* müssen dabei N(0,σ2)-verteilt sein für 1 ≤ i ≤ n bei unterschiedlichen Stichproben.

Konfidenzintervall: Man kann auch für jeden einzelnen Prognosewert ein individuelles Konfidenzintervall schätzen, in dem der wahre unbekannte Y-Wert mit einer Irrtumswahrscheinlichkeit α liegt.

Prognose und Konfidenzbereich

Eigenschaften:

• Das Konfidenzband stellt ein engeres Intervall um einen Schätzwert yi* dar als die zu einem Linienzug verbundenen Konfidenzintervalle der Einzelwerte, da beim Konfidenzband der Schätzwert als Mittelwert aufgefasst wird.

• Für den Mittelwert der X-Werte sind beide Konfidenzbereiche am kleinsten. Mit zunehmender Entfernung der X-Werte vom Mittelwert wird die Prognose immer unzuverlässiger.

i

i

Prognose und Konfidenzbereich

Beispiel: Lufttemperaturen.

Für ein Gebiet im Alpenvorland soll eine lineare Einfachregressionzur Prognose der Lufttemperaturen t (°C) allein aus Kenntnis der Höhenlage des Bezugspunktes h (NN) ermittelt werden.

Das lineare Regressionsmodell in der GG lautet also: t(h) = mh + c

Prognose und Konfidenzbereich

Beispiel: Lufttemperaturen.

t = -0.00383h + 9.72B = R2 = 0.74

Prognose und Konfidenzbereich

Beispiel: Lufttemperaturen.

Aussagen:

•Die Signifikanztests für m und c mit Hilfe des t-Tests ergeben, dass beide Koeffizienten für α = 0.05 signifikant von 0 verschieden sind.

• Das Bestimmtheitsmaß B = 0,74, dass der durch das Regressionsmodell erklärte Varianzanteil 74% beträgt. Das Bestimmtheitsmaß ist mit α = 0.05 signifikant von 0 verschieden. Die Regressionsgleichung ist also generell als Prognosemodell brauchbar.

• Regressionskonstante c: Würde man die Jahresmitteltemperatur im Alpenvorland auf Meeresspiegelniveau reduzieren, so ergibt sich im Schnitt ein Wert von 9.7 °C.

• Regressionskoeffizient m: Eine vertikale Zunahme der Höhe um 100 m verursacht im Schnitt eine Verringerung der Jahresmitteltemperatur um -0.383°C.

Prognose und Konfidenzbereich

Beispiel: Lufttemperaturen. Darstellung des Konfidenzbandes mit höchster Aussagekraft für den Mittelwert der Höhen.

556 m

Prognose und Konfidenzbereich

Beispiel: Lufttemperaturen. Vergleich von gemessenen und durch die Regressionsfunktion geschätzten Werten.

B = R2 = 0.74

Prognose und Konfidenzbereich

Beispiel: Lufttemperaturen. Prüfung der Residuen nach Normalverteilung als Voraussetzung für die Angabe des Konfidenzbandes.

Prognose und Konfidenzbereich

Beispiel: Lufttemperaturen. Darstellung der Residuen und Ursachen für Ausreißer.

Prognose und Konfidenzbereich

Beispiel: Lufttemperaturen. Anwendung durch Prognosen für andere Lokalitäten.

h t untere Grenze desKonfidenzbandes für den

mittleren prognostizierten Wert

obere Grenze desKonfidenzbandes für den

mittleren prognostizierten Wert

500 7.81 7.66 7.96

700 7.04 6.85 7.23

900 6.27 5.94 6.61

1200 5.12 4.55 5.70

Prognose und Konfidenzbereich

Beispiel: Lufttemperaturen. Anwendung durch Prognosen für andere Lokalitäten.

• Die Höhenlage zwischen 500 m und 900 m liegt noch innerhalb des X-Wertebereiches [xmin, xmax] der STP. Die prognostizierten Temperaturen nehmen erwartungsgemäß mit zunehmender Höhe ab.

• Die Konfidenbereiche werden jedoch immer breiter, weil man sich mit der Prognose immer weiter von der mittleren Höhe 556 m entfernt.

• Die Höhe 1200 m über NN liegt schon deutlich außerhalb des STP-Intervalls. Zwar scheint der prognostizierte Jahresmittelwert der Temperatur mit 5.1 °C noch relativ realistisch zu sein, jedoch sind die Grenzen des 95%-Vorhersage-Intervalls mit [4.6; 5.7] schon recht weit gesteckt, die Prognose also unzuverlässiger.

Prognose und Konfidenzbereich

Linearisierung: Oftmals liegen nichtlineare, jedoch offensichtliche Zusammenhänge vor, die mit Hilfe von Transformation in lineare Zusammenhänge überführt werden können, womit dann die Regression angewendet werden kann. Etwa bei einem Zusammenhang mit stark ansteigenden Y-Werten bei vergleichsweise geringer Zunahme der X-Werte.

Besteht etwa ein exponentieller Zusammenhang zwischen den Datenwerten mit y = beax, also ln(y) = ax + ln(b), so kann durch logarithmieren ein linearer Zusammenhang hergestellt werden. Wird daraufhin die lineare Regressionsgerade y* = a*x + b* erstellt, so erhält man b = eb* und a = a* für die ursprüngliche Funktion y = beax.

y = 1,138 e2,0019x

R2 =

0,9901

0

5

10

15

20

25

30

0,0 0,5 1,0 1,5 2,0

y = 2,0019x + 0,1293R2 = 0,9901

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

0,0 0,5 1,0 1,5 2,0