lineare regression hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf ·...

130
DIPLOMARBEIT Lineare Regression & Hauptkomponentenanalyse Verfasser: Hofegger Manuel Angestrebter akademischer Grad: Magister der Naturwissenschaften Wien, im April 2015 Studienkennzahl laut Studienblatt: A 190 456 406 Studienrichtung lt. Studienblatt: Lehramt Mathematik / Geographie & Wirtschaftsk. Betreuer: ao. Univ.-Prof. tit. Univ.-Prof. Dr. Hans Georg Feichtinger

Upload: others

Post on 05-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

DIPLOMARBEIT

Lineare Regression

&

Hauptkomponentenanalyse

Verfasser:

Hofegger Manuel

Angestrebter akademischer Grad:

Magister der Naturwissenschaften

Wien, im April 2015

Studienkennzahl laut Studienblatt: A 190 456 406

Studienrichtung lt. Studienblatt: Lehramt Mathematik / Geographie & Wirtschaftsk.

Betreuer: ao. Univ.-Prof. tit. Univ.-Prof. Dr. Hans Georg Feichtinger

Page 2: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

VORWORT & INHALTSVERZEICHNIS

I

Danksagung

An dieser Stelle ist es mir ein Anliegen,

sowohl meinem Diplomarbeitsbetreuer

Herrn Prof. Dr. H. G. Feichtinger

als auch meinen Eltern und meiner Freundin Sarah

meinen Dank auszusprechen, da sie wesentlich zum

Absolvieren meines Studiums beigetragen haben.

Insbesondere möchte ich hier auch meinen Nachbar

Herrn Fritz Track erwähnen, der mir bei auftretenden

Fragen während des Studiums, immer mit gutem Rat

zur Seite stand.

Page 3: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

VORWORT & INHALTSVERZEICHNIS

II

Vorwort Die unter dem Begriff Regressionsanalyse zusammengefassten statistischen Verfahren

dienen der statistischen Analyse von Zusammenhängen zwischen zwei oder mehreren

Zufallsvariablen.

Sofern eine solche qualitative Analyse den Zusammenhang zwischen zwei

Zufallsvariablen behandelt, spricht man von einfacher Regressionsanalyse, handelt es

sich um die qualitative Analyse eines Zusammenhangs zwischen mehr als zwei

Zufallsvariablen, ist generell von mehrfacher oder multipler Regressionsanalyse die

Rede.

In der vorliegenden Diplomarbeit soll im Kapitel 1 eine Einführung in die einfache

lineare Regression gegeben werden, obwohl die Einfachregression nur als Spezialfall

der Mehrfachregression betrachtet werden kann. Allerdings lässt sie sich naturgemäß

anschaulicher repräsentieren und eignet sich somit adäquat zur Vermittlung

grundsätzlicher Überlegungen. Ausgehend von einer Stichprobenerhebung versucht die

lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

durch eine mathematische Funktion diesen Zusammenhang zu beschreiben.

Relevanz wird dabei der Beziehung zwischen der abhängigen und der erklärenden

Variable beigemessen, die von unabhängigen Parametern, den sogenannten

Regressionskoeffizienten, abhängt. Als Standardinstrument für derartige Schätzungen

wird die Methode der kleinsten Quadrate heran gezogen.

Vorab sollte man allerdings im Rahmen der Korrelationsanalyse prüfen, ob überhaupt

ein linearer Zusammenhang zwischen den Variablen besteht, ehe dazu übergegangen

wird, diesen zu quantifizieren und die Art des Zusammenhangs funktional zu

beschreiben.

Im Kapitel 2 wird das klassische Modell der linearen Einfachregression charakterisiert,

welches ein Modell der Gesamtsituation erfordert, um ausgehend von einer Stichprobe,

geeignete Schlüsse auf die Grundgesamtheit zu ermöglichen. Dazu werden notwendige

Bedingungen aufgestellt, welche für die Validität des Modells erforderlich sind und es

wird ausführlich auf die auftretenden Modellparameter eingegangen.

Für die Herleitung von statistischen Tests und Konfidenzintervallen wird das Modell

zusätzlich durch die Normalverteilungsannahme erweitert.

Außerdem beinhaltet das Kapitel graphische Analysemethoden, die zeigen sollen, wie

die Modellvoraussetzungen überprüft werden können, indem Residuen analysiert und

auf Verletzungen der Normalverteilung, Linearität und Varianzhomogenität Bezug

genommen wird.

Im nächsten Schritt werden zunächst die Überlegungen und Ergebnisse aus den ersten

beiden Kapiteln auf die lineare Mehrfachregression erweitert bzw. notwendige

Zusatzüberlegungen, bedingt durch das Vorhandensein von mehreren Variablen,

angestellt.

Allerdings soll im Kapitel 3 auch ein anderer Zugang Beachtung finden, welcher die

Teilräume des Rn betrachtet, sowie die dazugehörigen orthogonalen Projektionen auf

diese Teilräume. Um die einfache lineare Regression als Spezialfall der linearen

Page 4: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

VORWORT & INHALTSVERZEICHNIS

III

Mehrfachregression hervorzuheben und zu betonen, dass deren Anwendung problemlos

auf jene der Mehrfachregression zurückgeführt werden kann, ist der Umgang mit

detaillierten Beweisen in Kapitel 2 noch dürftig und wird im Kapitel 3 forciert.

Motivierend soll im Zuge dessen die Anwendung der Varianzanalyse sein, die in Form

eines Vergleiches mehrerer VW - Automodelle in Hinblick auf eine quantitative

Variable y durchgeführt wird.

Die Automodelle die man vergleichen möchte, können unterschiedliche Gruppen bilden

(angegeben durch eine x–Variable), allerdings sind für klassische lineare Regressionen

nur solche mit metrischem Skalenniveau geeignet (siehe Kapitel über Typen von

Skalierungen).

Im Anschluss daran wird analog für die allgemeine Regressionsanalyse ein Maß für die

Güte der Modellanpassung unter Zuhilfenahme der Quadratsummenzerlegung

hergeleitet. Das Modell wird wiederum durch die Normalverteilungsannahme erweitert

und ermöglicht das Herleiten von Hypothesentests und Konfidenzintervallen.

Kapitel 4 behandelt nun Abweichungen der Modellvoraussetzungen, indem die

Ursachen, Gründe, bzw. eventuellen Lösungsmöglichkeiten thematisiert werden.

Im Fokus sollen hier vor allem das Problem der Kollinearität der unabhängigen

Variablen bei der linearen Mehrfachregression stehen, ebenso wie mögliche Lösungen

für Varianzinhomogenität.

Das Kapitel 5 setzt sich im Wesentlichen mit einfachen und doppelten Varianzanalysen

auseinander, die in allgemeiner Form auch durch Hypothesentests erfolgen können.

Angestrebt wird demnach das Zerlegen einer vorliegenden Stichprobe in normalverteilte

Teilstichproben, deren Mittelwerte dann miteinander verglichen werden ehe im Kapitel

6 noch Testverteilungen und Tests für Verteilungen charakterisiert werden.

Kapitel 7 & 8 stellen primär, durch Eigenwerte/Eigenvektoren, Diagonalisierbarkeit,

Orthogonalitätsprojektionen und schließlich der Singulärwertzerlegung, einen Bezug

zur Linearen Algebra her und leiten schließlich zum Kapitel 9 der

Hauptkomponentenanalyse über.

Der Titel der Arbeit sagt aus, dass primär die lineare Regression diskutiert wird und

somit ein linearer Zusammenhang vorliegt. Das Schlusswort soll allerdings noch einen

Ausflug in nichtlineare Regressionsprobleme beinhalten. Das Ziel besteht darin, zu

zeigen, dass nichtlineare Regressionsprobleme mit Hilfe der linearen Regression

einfacher als auf direktem Weg lösbar sind.

Ein Anliegen dieser Arbeit ist es, die Regressionsanalyse zusätzlich zum theoretischen

Hintergrund, wenn möglich mit Hilfe von Beispielen zu „untermauern“.

Die entsprechenden Datensätze für die verschiedenen Beispiele sind im Anhang

angeführt, der auch noch die statistischen Verteilungen und ihre Dichtefunktionen

umfasst.

Ferner wird zur statistischen Datenanalyse SPSS - 22 und Geogebra verwendet.

Page 5: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

VORWORT & INHALTSVERZEICHNIS

IV

Inhaltsverzeichnis

1. EINFACHE LINEARE REGRESSION .............................................................. - 1 -

1.1 Einführung ......................................................................................................... - 1 -

1.2 Deskriptive lineare Regression .......................................................................... - 2 -

1.2.1 Die Methode der kleinsten Quadrate nach Gauß ........................................ - 3 -

1.3 Beurteilung der Anpassungsgüte des Modells ................................................... - 7 -

1.3.1 Zerlegung in den von der Regressionsgerade erklärten/ unerklärten Anteil- 7 -

1.3.2 Bestimmtheitsmaß ...................................................................................... - 8 -

1.4 Typen von Skalierungen .................................................................................... - 8 -

1.5 Grundbegriffe der Korrelation ......................................................................... - 10 -

2. DAS LINEARE REGRESSIONSMODELL ..................................................... - 11 -

2.1 Methodische Grundlagen ................................................................................. - 12 -

2.1.1 Die Grundannahmen des deskriptiven Modells ........................................ - 12 -

2.1.2 Erweiterungen für das stochastische Modell ............................................ - 13 -

2.1.3 Durbin-Watson-Test ................................................................................. - 15 -

2.1.4 Test auf Homoskedastizität ....................................................................... - 18 -

2.1.5 Test auf Strukturkonstanz ........................................................................ - 19 -

2.2 Eigenschaften der kleinste Quadrate Schätzer ................................................. - 20 -

2.3 Das klassische normalverteilte Modell der linearen Einfachregression .......... - 23 -

2.3.1 Erwartungstreue Schätzer der theoretischen Regressionskoeffizienten ... - 23 -

2.3.2 Schätzung von σ² ...................................................................................... - 25 -

2.3.3 Eine alternative Form des Modells ........................................................... - 26 -

2.4 Hypothesentest für die Steigung β1 und Verschiebung auf der y-Achse β0..... - 27 -

2.5 Intervallschätzung bei einfachen linearen Regressionen ................................. - 31 -

2.5.1 Konfidenzintervalle von β0, β1 und σ² ...................................................... - 31 -

2.5.2 Intervallschätzung des Erwartungswertes ................................................. - 32 -

2.5.3 Interpolation und Extrapolation neuer Beobachtungen ............................ - 33 -

2.5.4 Maximum-Likelihood Schätzung ............................................................. - 34 -

2.5.5 Simultane Rückschlüsse auf die Modellparameter ................................... - 37 -

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ ........................................ - 40 -

3.1 Residualanalyse ............................................................................................... - 40 -

3.1.1 Definition der Residuen ............................................................................ - 41 -

3.1.2 Formen der Residualanalyse im linearen Modell ..................................... - 43 -

3.1.3 Plot von Residuen gegen 𝒚𝒊 ...................................................................... - 45 -

3.1.4 Plot von Residuen gegen xi ....................................................................... - 46 -

3.1.5 Andere Residuenplots ............................................................................... - 46 -

Page 6: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

VORWORT & INHALTSVERZEICHNIS

V

3.2 Erkennung bzw. Umgang mit Ausreißern ....................................................... - 47 -

3.3 Test für den Mangel an Anpassung ................................................................. - 48 -

4. MULTIPLE LINEARE REGRESSION ............................................................ - 50 -

4.1 Geometrischer Zugang zur multiplen linearen Regression .............................. - 52 -

4.2 Modellspezifikation und Eigenschaften ........................................................... - 54 -

4.3 Hypothesentests bei multipler linearer Regression .......................................... - 57 -

4.3.1 Test auf Signifikanz der Regression ......................................................... - 57 -

4.3.2 Tests an einzelnen Regressionskoeffizienten ........................................... - 59 -

4.3.3 Spezialfall von orthogonalen Spalten in X ............................................... - 61 -

4.3.4 Test der allgem. linearen Hypothese Tβ= 0 .............................................. - 63 -

4.4 Beispiel: „Arbeitsmotivation mit mehreren Prädiktoren“ ............................... - 65 -

5. DIE VARIANZANALYSE .................................................................................. - 71 -

5.1 Mittelwertvergleich von Normalverteilungen bei einfacher Varianzanalyse .. - 71 -

5.2 Ein Beispiel für die einfache Varianzanalyse .................................................. - 73 -

5.3 Die doppelte Varianzanalyse ........................................................................... - 74 -

5.4 Ein Beispiel für die doppelte Varianzanalyse .................................................. - 75 -

5.5 Das Schließen auf die allgemeine Form .......................................................... - 77 -

5.5.1 Test der Hypothese H0: 𝝁𝟏 = 𝝁𝟐 = ⋯ = 𝝁𝒌 ......................................... - 78 -

5.5.2 Quadratsummenzerlegung ........................................................................ - 79 -

6. TESTVERTEILUNGEN & TESTS FÜR VERTEILUNGSFUNKTIONEN. - 81 -

6.1 Testverteilungen ............................................................................................... - 81 -

6.1.1 Chi-Quadrat-Verteilung. Gammafunktion ................................................ - 81 -

6.1.2 T – Verteilung von Student ....................................................................... - 83 -

6.1.3 F – Verteilung von Fischer ....................................................................... - 83 -

6.2 Tests für Verteilungsfunktionen ...................................................................... - 84 -

6.2.1 Chi-Quadrat-Test ...................................................................................... - 84 -

6.2.2 Kolmogoroff-Smirnov-Test ...................................................................... - 86 -

7. EIGENWERTPROBLEM & ORTHOGONALITÄT ..................................... - 87 -

7.1 Eigenwerte & Eigenvektoren ........................................................................... - 87 -

7.2 Die charakteristische Gleichung ...................................................................... - 90 -

7.2.1 Determinanten ........................................................................................... - 90 -

7.3 Diagonalisierung .............................................................................................. - 91 -

7.4 Orthogonalprojektionen und ihre Anwendung bei der Methode der kl. Quadrate .. -

92 -

7.5 Das Gram Schmidt Verfahren .......................................................................... - 94 -

7.6 Anwendungen auf Kleinste-Quadrate-Probleme ............................................. - 95 -

8. SYM. MATRIZEN & QUAD. FORMEN .......................................................... - 97 -

8.1 Diagonalisierung symmetrischer Matrizen ...................................................... - 97 -

Page 7: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

VORWORT & INHALTSVERZEICHNIS

VI

8.2 Quadratische Formen ....................................................................................... - 98 -

8.3 Singulärwertzerlegung ..................................................................................... - 99 -

8.3.1 Singulärwerte einer m x n Matrix ........................................................... - 101 -

8.3.2 Singulärwertzerlegung ................................................................................ - 102 -

8.3.3 Anwendungen der Singulärwertzerlegung .............................................. - 104 -

9. HAUPTKOMPONENTENANALYSE ............................................................ - 105 -

9.1 Grundgedanken der Hauptkomponentenanalyse ........................................... - 105 -

9.2 Herleitung der Problemlösung ....................................................................... - 106 -

9.3 Eigenschaften der Hauptkomponentenanalyse .............................................. - 107 -

9.4 Beispiel für die Hauptkomponentenanalyse .................................................. - 109 -

ANHANG ................................................................................................................ - 114 -

ABBILDUNGSVERZEICHNIS ........................................................................... - 118 -

TABELLENVERZEICHNIS ................................................................................ - 120 -

LITERATURVERZEICHNIS .............................................................................. - 121 -

LEBENSLAUF ....................................................................................................... - 122 -

ABSTRACT ............................................................................................................ - 123 -

Page 8: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

1. EINFACHE LINEARE REGRESSION

- 1 -

Kapitel 1

1. EINFACHE LINEARE REGRESSION

1.1 Einführung

Erster Schritt der deskriptiven Regressionsanalyse ist die Auswahl der interessierenden

abhängigen und unabhängigen Variablen, deren Zusammenhang beschrieben werden

soll. Wir gehen also von einer zweidimensionalen Stichprobe {(x1.y1),.....,(xn,yn)} aus

und nehmen die Werte der Variable X an n-Untersuchungseinheiten als fest und jene

der Variable Y als zufällig an. Anders formuliert betrachten wir im folgenden X als

unabhängige und Y als abhängige Variable, d.h. eine entsprechende Variation der

Realisierungen von xi wird heran gezogen, um die auftretenden unterschiedlichen yi –

Werte zu erklären. Nun wollen wir Y als Funktion von X darstellen. Im einfachsten Fall

liegen alle Punkte auf einer Geraden, somit wird ein solcher Zusammenhang durch eine

lineare Funktion dargestellt.

Y = β0 + β1X (1)

Sofern die Datenpunkte des Stichprobenumfangs allerdings nicht genau auf einer

Geraden liegen muss (1) modifiziert werden. Die Differenz zwischen dem beobachteten,

exakten Y-Wert und dem Messwert der linearen Funktion β0 + β1X wird als ε

ausgegeben. Diese Fehlervariable ε steht für eine Zufallsvariable, die eventuelle

Datenfehler, Messfehler etc. umfasst. Darum kann ein plausibleres Modell durch

Y = β0 + β1X + ε (2) (1) Y: zu erklärende quantitative Größe bzw. Regressand

(endogen: im Modell erklärt)

(2) X1; X2: erklärende Größen (Regressoren; exogen:

nicht innerhalb des Modells zu erklären)

(3) ε: Fehlervariable bzw. Residuum (theoretisch unerklärter Rest)

angegeben werden, wobei β0, β1 ϵ R die Regressionskoeffizienten und ε eine

Fehlervariable repräsentieren, die all jene Einflüsse auf die abhängige Variable

beinhaltet, welche im Modell nicht explizit enthalten sind.

Diese Regressionsgleichung ist linear, weil es eine Polynomfunktion 1.ten Grades

vorliegt. Zudem ist sie einfach, weil zur Erklärung zufälliger Schwankungen der

abhängigen Variablen ein Regressor ausreicht.

Das Ziel von Regressionsgleichungen aller Art ist natürlich die zugrunde liegende

Stichprobe „möglichst gut“ widerzuspiegeln. Dies erfolgt durch Anpassen einer

„Ausgleichsgeraden“ an die Punktwolke der Stichprobe. Nach Augenmaß können sich

verschiedene Geraden als Näherung der Punktwolke eignen, zunächst steht nicht fest,

welche die Optimalste ist. Somit liegt es auf der Hand, dass eine geschätzte

Bestimmung der Koeffizienten β0 und β1 sowie des Residuums ε unabdingbar sind.

Page 9: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

1. EINFACHE LINEARE REGRESSION

- 2 -

1.2 Deskriptive lineare Regression

Im zweiten Schritt steht die Festlegung einer geeigneten Funktionsform für die

Regressionsgleichung im Vordergrund, wobei die thematisierte deskriptive Regression

darauf abzielt, statistische Abhängigkeiten zwischen Variablen zu beschreiben, ohne ein

statistisches Modell anzuwenden.

In diesem Abschnitt lässt sich mit der Methode der kleinsten Quadrate somit schon die

Standardlösungsvariante für einfache lineare Regressionen herleiten.

Betrachten wir eine zweidimensionale Stichprobe {(x1.y1),.....,(xn,yn)}, gegeben durch

die Merkmale X und Y an n – Untersuchungseinheiten, so kann der Zusammenhang

durch ein (x,y) – Diagramm graphisch in Form einer Punktwolke visualisiert werden.

Das dadurch entstehende Streudiagramm enthält nun alle einzelnen Punkte aus der

Datenmatrix.

Beispiel 1: Die praktische Beschreibung der einfachen linearen Regression erfolgt nun

durch eine im Anhang angeführte Datenmatrix, die einen Zusammenhang zwischen der

Leistung in KW und dem Diesel-Kraftstoffverbrauch für VW-Standardmodelle mit

Basisausstattung (aus dem Leitfaden über Kraftstoffverbrauch 2015 – Tabelle im

Anhang) zeigt:

Kraftstoffverbrauch bei entsprechender Leistung in KW (siehe Tabelle 1, Anhang)

Abbildung 1: Kraftstoffverbrauch bei entsprechender Leistung in KW

In Abbildung 1 ist ersichtlich, dass die graphisch dargestellten Werte approximativ auf

einer Geraden liegen und wir daher einen linearen Zusammenhang zwischen den

Merkmalen X (Leistung in KW) und Y (Verbrauch in l/ 100 km) annehmen können.

Gesucht ist nun jene lineare Regressionsgleichung (2), welche die vorhandene

Stichprobe im Diagramm durch eine „optimale Ausgleichsgerade“ anpasst.

Definition 1.2.1: Sei ei die Differenz zwischen dem gemessenem Wert yi und dem

durch Regressionsgerade berechneten Wert yi (mit i = 1, ... n), dann wird

0

1

2

3

4

5

6

7

8

9

10

0 50 100 150 200

Ve

rbra

uch

in

l/

10

0 k

m

Leistung in KW

Page 10: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

1. EINFACHE LINEARE REGRESSION

- 3 -

ei : = yi – yi als i-ter Vorhersagefehler oder i-tes Residuum definiert. Die Residuen ei

entsprechen den εi Fehlervariablen in (2). Die Interpretation dazu sagt aus, dass sofern

sich der yi – Wert unterhalb der „Ausgleichsgerade“ befindet, das Residuum εi negativ

und im umgekehrten Fall das Residuum positiv ist. Beim Wert 0 liegt der yi Wert exakt

auf der Geraden und somit ist auch der Fehler gleich 0.

Unser festgelegter Anspruch liegt nun darin, die Summe der Vorhersagefehler zu mini-

mieren, indem die Summe der Residuen möglichst klein wird.

Prinzipiell dagegen sprechen allerdings zwei Gründe:

Nachdem sowohl negative als auch positive Abweichungen auftreten können,

heben sich die Fehler möglicherweise auf und die dadurch festgelegte Gerade

passt sich den Messwertepaaren schlecht an, obwohl die Summe der ei

annähernd oder gleich 0 ist.

Darüber hinaus kann es passieren, dass die Eindeutigkeitseigenschaft der durch

Minimierung der Summe ei ermittelten Geraden nicht gegeben ist.

Alternativ besteht die Möglichkeit die Summe der Beträge der Residuen ∑ |e in i=1 | zu

minimieren, wogegen im Wesentlichen zwei Einwände relevant sind:

Einerseits erweist sich die Betragsfunktion als rechentechnisch ungünstig

Andererseits ist es sinnvoll, wie später noch veranschaulicht wird, die

betragsmäßig größeren Abweichungen von der errechneten Geraden mit höherer

Priorität zu behandeln und den betragsmäßig kleineren Abweichungen nicht zu

viel Aufmerksamkeit zukommen zu lassen. Begründet kann dieses Vorgehen

damit werden, dass betragsmäßig kleine Abweichungen des Gemessenen vom

errechneten Wert oft durch zufällige Einflüsse (wie Messfehler) eintreten,

betragsmäßig große Abweichungen jedoch systemischer Art sein können.

1.2.1 Die Methode der kleinsten Quadrate nach Gauß

Die gewöhnliche Methode der kleinsten Quadrate konstruiert eine Ausgleichsgerade,

mit dem Fehler ei als vertikalem Abstand des Punktes (xi, yi) von der Geraden, und zwar

so, dass die Quadratsumme der Abweichungen aller Punkte minimal wird. (SSE = Sum

of Squares of Errors). In diesem dritten Schritt erfolgt somit im Wesentlichen die

Bestimmung der Koeffizienten der Regressionsgleichung.

Zunächst wird dazu die Bestimmung von Schätzwerten ��0, ��1 für die unbekannten

Parameter β0, β1 diskutiert, bei der keine zusätzlichen Voraussetzungen über die

Störgröße ε nötig sind und wir minimieren anschließend:

∑𝐞 𝐢

𝐧

𝐢=𝟏

Page 11: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

1. EINFACHE LINEARE REGRESSION

- 4 -

S(β0, β1) =1

n∑ei

n

i=1

² =1

n ∑(yi

n

i=1

− yi)² = 1

n ∑(yi

n

i=1

− β0 − β1xi)2.

Abbildung 2: geometrische Veranschaulichung der Methode der kleinsten Quadrate

Notwendige Bedingung für die Existenz eines Minimums an einem Punkt (β0, β1):

Verschwinden der partiellen Ableitungen ∂S

∂β0 und

∂S

∂β1 :

0 = ∂S

∂β0 (β0, β1 ) = −2∑(yi − β0

n

i=1

− β1xi) = ∑(yi − β0 − β1xi)

n

i=1

(3)

0 = ∂S

∂β1 (β0, β1 ) = −2∑(yi − β0

n

i=1

− β1xi) xi = ∑(yixi − β0xi − β1xi2)

n

i=1

(4)

⟹ Normalgleichungen:

ny − nβ0 − β1∑xi

n

i=1

= 0 ⟹ y = β0 + β1x und (5)

∑xi yi

n

i=1

− β0∑xi

n

i=1

− β1∑xi ²

n

i=1

= 0 ⟹ ∑xi yi

n

i=1

= β1∑xi ²

n

i=1

+ β0nx (6)

wobei y = 1

n ∑yi

n

i=1

und x = 1

n ∑xi

n

i=1

gilt.

Durch die Überprüfung der entsprechenden Bedingungen an den zweiten

partiellen Ableitungen, kann nachgewiesen werden, dass die Lösungen der

partiellen Ableitungen tatsächlich an der Stelle (β0, β1) ein Minimum besitzen.

Die Normalgleichungen führen uns zu Schätzungen für die unbekannten

Parameter durch Lösen des dadurch gegeben linearen Gleichungssystems in den

Unbekannten β0 und β1.

yi

yi

y

xi

𝑒𝑖²

Page 12: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

1. EINFACHE LINEARE REGRESSION

- 5 -

Durch Einsetzen der umgeformten ersten Normalgleichung (5): β0= y − β1x

in die zweite Normalgleichung (6) erhalten wir:

∑xi yi

n

i=1

= β1∑xi ²

n

i=1

+ (y − xβ1) nx

∑xi yi

n

i=1

= β1∑xi ²

n

i=1

+ nxy − nx²β1

∑xiyi − nxy

𝑛

𝑖=1

= β1(∑xi2 − nx2

n

i=1

)

Daraus folgen die Lösungen ��0 und ��1 der Normalgleichungen:

β0 = y − β1x (7)

β1 =∑ xi yini=1 − nxy

∑ xi 2n

i=1 − nx2=

∑ (yini=1 −y) (xi − x )

∑ (xi − x )²ni=1

= Sxy

Sxx (8)

Durch Anwendung der Definition für die empirische Varianz Sx² und der empirischen

Kovarianz Sxy erhalten wir:

∑(xi − x )²

n

i=1

= Sxx und ∑(yi − y)(xi − x) = Sxy ⟹

n

i=1

β1 = Sxy

Sxx (9)

Für das Beispiel mit dem Kraftstoffverbrauch berechnet man:

Sxx = ∑ (xi − x)ni=1 ² = 36 838,2 und Sxy = ∑ (yi − y)(xi − x) =

ni=1 1 141,04

und dadurch ist: β1 =Sxy

Sxx=1141,04

36838,2= 0,031 und β0 = 6,19 − (0,031) 99,7 = 3,099

Somit können wir die Gleichung der geschätzten Regressionsgeraden von y bezüglich x

mit den empirischen Regressionskoeffizienten β0 und β1 festlegen:

��= ��0 + ��1 x (10)

Abbildung 3: geschätzte Regressionsgerade im Streudiagramm

0

1

2

3

4

5

6

7

8

9

10

0 50 100 150 200

Ve

rbra

uch

in

l/

10

0 k

m

Leistung in KW

y = 0,031 x +3,099

Page 13: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

1. EINFACHE LINEARE REGRESSION

- 6 -

Bemerkungen:

Der empirische Regressionskoeffizient ��1 ist der Anstieg der

Regressionsgeraden und ��0 gibt den Schnittpunkt mit der y-Achse an.

Der Punkt (��/��) liegt auf der Regressionsgeraden, ersichtlich aus der ersten

Normalgleichung (5):

β0 = y − β1x Wir können nun ��0 mit dem berechneten Kleinste Quadrate Schätzer in (10)

einsetzen:

y = y − β1x + β1 x ⟹ y = y + β1 (x − x) (11)

Daraus lassen sich nun weitere Eigenschaften des Kleinsten Quadrate Schätzers

ableiten, die sich unmittelbar aus den Normalgleichungen ergeben:

1. ∑yi

n

i=1

− yi = ∑ei

n

i=1

= 0 wegen (3)

2. ∑yi

n

i=1

= ∑ yi

n

i=1

⟹ y = y

3. ∑xiei

n

i=1

= 0 wegen (4)

4. ∑ yiei

n

i=1

= 0 wegen∑yiei

n

i=1

=∑(

n

i=1

β0 + β1xi)ei = β0∑ei

n

i=1⏟ 0

+ β1∑xiei

n

i=1⏟ 0

= 0

5. ∑ei²

n

i=1

= ∑(yi

n

i=1

− yi)ei = ∑yi

n

i=1

ei − ∑yi

n

i=1

ei⏟

0

=∑yi

n

i=1

ei

Beobachtete Werte, geschätzte Werte und Residuen für das Kraftstoffbeispiel

Tabelle 2: beobachtete und geschätzte Werte für das Kraftstoffbeispiel

Bei der von uns gewählten Vorgangsweise wurden die

Koeffizienten β0 und β1 der Regressionsgeraden durch eine

zweidimensionale Messreihe (xi,yi) mit i = 1, ..., n bestimmt.

Die xi lagen dabei innerhalb des Intervalls [x(1); x(n)]. Vorsicht

sollte man allerdings walten lassen, sofern Werte von xi in das

Modell eingesetzt werden, die außerhalb (bzw. innerhalb) der

sinnvollen Grenzen von x liegen. Sogenannte Extrapolationen

(bzw. Interpolationen) sind zwar rechentechnisch einwandfrei

umsetzbar, die Regressionsgerade erklärt bzw. schätzt aber nur

x-Werte innerhalb des Intervalls und ist somit im Allgemeinen

für entsprechende x-Werte außerhalb des Intervalls nicht

zulässig. (siehe Kapitel 2.5.3)

Page 14: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

1. EINFACHE LINEARE REGRESSION

- 7 -

1.3 Beurteilung der Anpassungsgüte des Modells

Als vierten Schritt kann man die Beurteilung der erzielten Anpassungsgüte &

Korrelation auffassen, die sich durch das Bestimmtheitsmaß beurteilen lässt. Nach

Berechnung der Regressionsfunktion ist es somit von Interesse, in welchem Ausmaß

diese Funktion nun tatsächlich die zugrundeliegende Stichprobe widerspiegelt.

Überprüft werden kann das durch Einzeichnen der Regressionsfunktion gemeinsam mit

den Datenpunkten (xi, yi) in die Merkmalsebene. Mögliche Ursachen für

Vorhersagefehler ei = yi -��i , i = 1,…,n können

a) zufällige Abweichungen der Messwertepaare von der Regressionsgeraden

und/oder

b) der Mangel an Anpassung, d.h die unzulängliche Annahme eines linearen

Zusammenhanges, sein.

Bei guten Anpassungen streuen die Datenpunkte in y-Richtung regellos um die

Regressionsgerade, daraus folgt, dass keine systematische Tendenz der Abweichung in

Abhängigkeit vom Regressor erkennbar ist. Es darf sozusagen nur Punkt a) als

Verursacher der Vorhersagefehler auftreten, ist dies nicht der Fall muss ein nichtlinearer

Ansatz für die Regressionsfunktion herangezogen werden.

1.3.1 Zerlegung in den von der Regressionsgerade erklärten/

unerklärten Anteil

Neben der Beurteilung der Eignung des Ansatzes lässt die in das Streudiagramm

eingezeichnete Regressionsgerade auch Schlüsse über den Erklärungswert der

unabhängigen Variablen für die abhängige Variable zu. Dieser ist umso größer, je

geringer die Streuung der empirischen yi - Werte um die berechneten ��i - Werte der

Regressionsgeraden ist.

Jede der n Abweichungen yi - ��i wird zerlegt in eine unerklärte Abweichung yi - ��i, die

durch Zufallsschwankungen, den Mangel an Anpassung oder den Einfluss anderer

Merkmale verursacht wird und in die durch die Regressionsgerade erklärte Abweichung

��i - ��i. Es ergibt sich also:

𝑦𝑖 − �� = (𝑦𝑖 − ��𝑖) + (��𝑖 − ��)

Abbildung 4: graphische Veranschaulichung der Zerlegung der Abweichung der beobachteten Werte von

ihrem Mittelwert

yi

yi − y 𝑦𝑖 - ��𝑖

��

��

��𝑖 − ��

Page 15: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

1. EINFACHE LINEARE REGRESSION

- 8 -

Das Quadrat über beide Seiten und die Summation über alle n Beobachtungen, ergibt

die folgende Zerlegung:

∑(𝑦𝑖

𝑛

𝑖=1

− ��)² = ∑(��𝑖

𝑛

𝑖=1

− ��)² + ∑(𝑦𝑖

𝑛

𝑖=1

− ��𝑖)² + 2∑(��𝑖

𝑛

𝑖=1

− ��)(𝑦𝑖 − ��𝑖)

= ∑(��𝑖

𝑛

𝑖=1

− ��)² +∑(𝑦𝑖

𝑛

𝑖=1

− ��𝑖)² (12)

da∑(��𝑖 − ��)(𝑦𝑖 − ��𝑖) = ∑��𝑖

𝑛

𝑖=1

𝑛

𝑖=1

(𝑦𝑖 − ��𝑖) − ��∑(𝑦𝑖

𝑛

𝑖=1

− ��𝑖) =∑��𝑖

𝑛

𝑖=1

𝑒𝑖 − ��∑𝑒𝑖

𝑛

𝑖=1

= 0

σyy = ∑ (𝑦𝑖𝑛𝑖=1 − ��)² beschreibt die gesamte Quadratsumme mit (n – 1) Freiheitsgraden,

∑ (��𝑖𝑛𝑖=1 − ��)² den durch die Regressionsgerade erklärten Anteil, sowie ∑ (𝑦𝑖

𝑛𝑖=1 − ��𝑖)²

die unerklärte Fehlerquadratsumme mit (n - 2) - Freiheitsgraden.

⟹ σyy = 𝜎𝑅 + 𝜎𝐸 (R...Regression, E...Residuum)

1.3.2 Bestimmtheitsmaß

Ausgehend von dieser Zerlegung, wird nun ein Maß für die Anpassungsgüte des

Modells hergeleitet. Der Vergleich von ∑ (��𝑖 − ��)𝑛𝑖=1 mit ∑ (𝑦𝑖

𝑛𝑖=1 − ��) informiert

darüber, wie gut sich die geschätzte Regressionsgerade den Beobachtungspaaren im

Streudiagramm anpasst, wobei die Anpassung umso besser ist, je höher der

Determinationskoeffizient 𝑆𝑥𝑦

𝑆𝑦𝑦 ausfällt. Das Bestimmtheitsmaß wird angegeben durch:

𝑅2 =∑ (��𝑖𝑛𝑖=1 − ��)²

∑ (𝑦𝑖 − ��)2𝑛𝑖=1

(=35,4

41,7= 0,85 im Beispiel) (13)

und entspricht dem Verhältnis der erklärten Summe der Abweichungsquadrate zur

gesamten Summe der Abweichungsquadrate der y-Werte von ihrem Mittelwert ��.

Daraus ist ersichtlich dass R² als Maximalwert 1 annimmt, wenn ∑ (𝑦𝑖𝑛𝑖=1 − ��𝑖)² = 0 ist

und dadurch alle Datenpunkte auf einer Geraden liegen. Umgekehrt nimmt ∑ (𝑦𝑖𝑛𝑖=1 −

��𝑖)² = ∑ (𝑦𝑖 − ��)²𝑛𝑖=1 den Minimalwert 0 an, sofern kein linearer Zusammenhang

zwischen den Merkmalen X und Y liegt.

Bei einfachen linearen Regressionen ist das Bestimmtheitsmaß das Quadrat des

Korrelationskoeffizienten zwischen X und Y.

1.4 Typen von Skalierungen

Nachdem in den folgenden Kapiteln eine Reihe von Methoden der deskriptiven bzw.

teilweise auch der analytischen Statistik vorkommen, sowie auch deren

Anwendungsvoraussetzungen und Rahmenbedingungen beschrieben werden, ist

= 0 wegen (4) = 0 wegen (2)

Page 16: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

1. EINFACHE LINEARE REGRESSION

- 9 -

ausreichendes Wissen über die Art, der Skalierung und die Verteilung der Daten oder

die Größe der Stichprobe erforderlich, um die dafür geeigneten statistischen

Beschreibungs- und Analysemethoden wählen zu können. Statistisch betrachtet,

unterscheidet man deshalb in Daten

über die Art der Umsetzung in numerische Werte zur sinnvollen Ordnung

(metrische und nichtmetrische Variable)

über die Abstufungen ihrer Ausprägungen (stetige und diskrete Variable)

Für die lineare Regression ist zumindest Intervallskalenniveau notwendig, denn

andernfalls ergibt die Datenpunktwolke keinen eindeutigen linearen Zusammenhang.

Skalierungstypen, Aussagen und Methoden

Skalenniveaus mögliche Aussagen mögliche

Methoden

Beispiele

Nominal (keine Ordnung der Daten

möglich)

1. Gleichheit &

Ungleichheit können

festgestellt werden

(relative)

Häufigkeiten,

Modalwert

z.B Geschlecht,

politische Orientierung,

Lieblingszeitungen

Ordinal (größenmäßige

Ordnung möglich, aber

Abstände ohne

Aussagekraft

1. Gleichheit &

Ungleichheit

2. Rangreihung (<, >, =)

dazu z.B kumulierte

Häufigkeiten,

Median

z.B Sportliche

Wettkämpfe,

Beliebtheitsrangliste

Intervall (Abstände können

interpretiert werden, nicht

aber das Verhältnis von

Größen)

1. Gleichheit &

Ungleichheit

2. Rangreihung

3. Gleichheit der

Unterschiede

dazu u.a.

arithmet. Mittel

z.B Temperatur,

Intelligenzquotient

Verhältnis (die Ausprägungen haben

einen absoluten

Nullpunkt; das Verhältnis

kann interpretiert werden)

1. Gleichheit &

Ungleichheit

2. Rangreihung

3. Gleichheit der

Unterschiede

4. Proportionalität z.B y = 2x

dazu u.a

geomet. Mittel

Alter,Preis,Größe,

Inflation...

Tabelle 3: Unterschiedliche Skalierungsformen; mögliche Aussagen und Analysemethoden

Daraus ist ersichtlich, dass grundsätzlich zwischen metrischen und nichtmetrischen

Variablen unterschieden wird, wobei sich die Ausprägungen der metrischen (bzw.

quantitativen) Merkmale mittels Zahlen darstellen lassen und auch Rangunterschiede

und Abstände sinnvoll interpretiert werden können (z.B Körpergrößen). Als

nichtmetrische Variablen werden dementsprechend alle anderen bezeichnet, deren

Reihung zum Beispiel beliebig sein kann oder die sich in Form einer Rangskalierung

sinnvoll reihen lassen. Ein Beispiel wäre, dass sich der Beliebteste, der

Zweitbeliebteste, der Drittbeliebteste usw. sich zwar sinnvoll reihen lassen, ihre

Abstände aber nicht interpretierbar sind. Demnach kann keine Aussage darüber

getroffen werden, dass der Drittbeliebteste gegenüber dem Viertbeliebtesten den

gleichen Abstand hat wie der Beliebteste gegenüber dem Zweitbeliebtesten. Daher sind

sowohl Nominaldaten (z.B politisches Wahlergebnis) wie auch Ordinaldaten nicht

metrisch.

M

E

T

R

I

S

C

H

N

I

C

H

T

M

E

T

R

I

S

C

H

Page 17: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

1. EINFACHE LINEARE REGRESSION

- 10 -

Sogenannte Metrische Daten können auch wieder unterteilt werden in

stetige oder kontinuierliche, wenn sie jeden beliebigen Wert eines bestimmten

Intervalls annehmen können und

diskrete, wenn sie nur endlich viele Werte annehmen können

1.5 Grundbegriffe der Korrelation

Bevor wir uns allerdings in das Themengebiet der linearen Regression weiter vertiefen,

soll noch ein Überblick über die Annahmen erfolgen, die erfüllt sein müssen, damit die

lineare Regression eine Aussagekraft hat. Prinzipiell versteht man unter einer

Korrelation eine Kennzahl für den Zusammenhang zwischen Variablen. Die folgenden

Zusammenhänge können bei linearer Korrelation bestehen:

Übereinstimmung: je höher der Wert der Variablen A, desto höher ist oft auch

der Wert der Variablen B: positive Korrelation

Gegensatz: je höher Variable A, desto niedriger ist meist die Variable B:

negative Korrelation

Unabhängigkeit: Hohe Werte von A können relativ beliebigen Werten von B

entsprechen und umgekehrt: keine Korrelation

Falsch wäre es zum Beispiel zu sagen, dass zwischen der Augenfarbe und der Haarfarbe

eine Korrelation besteht („nominalskaliert“). Die beiden Variablen können zwar in einer

Beziehung zueinander stehen, doch es handelt sich um keine quantitative Variable,

weshalb diese Beziehung nicht als Korrelation bezeichnet werden kann.

Ausgehend vom Unterkapitel über die Anpassungsgüte eines Modells wird nun der

Korrelationskoeffizient hergeleitet. Der Korrelationskoeffizient ist eine Zahl zwischen

-1 und +1, wobei +1 eine perfekte positive lineare Beziehung angibt bzw. wenn eine

Variable erhöht wird, erhöht sich die andere in perfekter Synchronisation. Ein

Korrelationskoeffizient von -1 beschreibt hingegen in umgekehrter Weise eine perfekte

negative lineare Beziehung. Ist der Wert der Kennzahl 0, so liegt überhaupt keine

lineare Beziehung zwischen den Variablen vor. Häufig sind die Korrelationen der realen

Welt nicht genau +1 , -1 oder 0 sondern liegen irgendwo dazwischen. Grundsätzlich gilt

aber, je näher eine Beziehung an +1 oder -1 liegt, desto stärker ist sie. Je näher sie an 0

liegt, desto schwächer ist der Zusammenhang.

In diesem Unterkapitel liegt der Schwerpunkt unserer Betrachtungen auf der

Abhängigkeit zweier Zufallsvariablen X und Y. Um ein plausibles „Abhängigkeitsmaß“

zwischen X und Y zu erhalten werden zunächst einige Begriffe definiert:

Definition 1.4.1:

a) Seien X und Y zwei Zufallsvariablen mit E(X) = μ1 und Var(X) = σ1² sowie

E(Y) = μ2 und Var(Y) = σ2².

Page 18: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 11 -

Falls σXY = E[ (X – μ1) (Y- μ2) ] existiert, heißt

σXY = Kov (X,Y) die Kovarianz von X und Y.

b) Falls für zwei Zufallsvariablen X und Y σXY den Wert 0 annimmt, nennt man

die beiden Zufallsvariablen unkorreliert, gilt σXY ≠ 0 bezeichnen wir die

Zufallsvariablen X und Y als korreliert.

Satz 1.4.1: Zwei Zufallsvariable X und Y heißen stochastisch unabhängig wenn

E(X = x, Y = y) = E (X=x) ∙ E(Y=y). für alle möglichen Merkmalsausprägungen

x und y. Unabhängige Zufallsvariable sind immer unkorreliert (Umkehrung gilt nicht):

X,Y unabhängig ⟹ Kovarianz (X,Y) = Korrelation (X,Y) = 0

Definition 1.4.2: Seien X und Y zwei Zufallsvariable mit E(X) = ��, E(Y) = ��

bzw. Var(X) = σ1² ≠ 0; Var(Y) = σ2² ≠ 0 dann ist

ρ(X,Y) =E[(X − x)(Y − y]

σ1σ2=KOV(X, Y)

σ1σ2 (14)

der Korrelationskoeffizient von X und Y.

Sofern eine Stichprobe (x1,y1), .... (xn,yn) vorliegt, sind für x = (x1, ...,xn) und y =

(y1,...,yn) die empirischen Varianzen nach (9) gegeben durch Sxx und Syy. Die empirische

Kovarianz der zweidimensionalen Stichprobe (x,y) ist Sxy. Daher wird der Schätzer für

ρ definiert durch:

𝑟(𝑥,𝑦) =∑ (𝑦𝑖 − ��)(𝑥𝑖 − ��) 𝑛𝑖=1

√∑ (𝑥𝑖 − ��)²∑ (𝑦𝑖 − ��)²𝑛𝑖=1

𝑛𝑖=1

=𝑆𝑥𝑦

√𝑆𝑥𝑥𝑆𝑦𝑦 (15)

Kapitel 2

2. DAS LINEARE

REGRESSIONSMODELL

Das Einführungskapitel sollte dazu dienen, beobachtete Daten heranzuziehen und mit

Hilfe der Methode der kleinsten Quadrate einen Überblick über lineare

Regressionsgleichungen zu erhalten, indem gewöhnlich eine Stichprobe an Daten

statistisch bearbeitet wird. Zu den primären Aufgaben der Statistik zählen

Auswertungen von Stichprobenerhebungen, um auf die Grundgesamtheit schließen zu

können. Insofern findet diese Methode auch Anwendung in der Realität, weil es leichter

und kostengünstiger ist, Stichprobenerhebungen von einem gewissen Umfang n

durchzuführen, als die Grundgesamtheit selbst zu untersuchen.

Page 19: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 12 -

2.1 Methodische Grundlagen

2.1.1 Die Grundannahmen des deskriptiven Modells

Nachdem es manchmal sogar schier unmöglich erscheint, die Gesamtsituation durch

Beobachtung bzw. auch andere Erhebungsmethoden zu erheben, ist man an einem

Modell in Form einer Regressionsanalyse interessiert, welches die Beobachtung als

Stichprobe einer größeren bzw. der Gesamt- Population auffasst und die

Gesamtsituation simuliert. Daraus kann beurteilt werden, ob eine „Übertragung“ der

Ergebnisse aus der Stichprobe auf die Gesamtsituation zulässig ist. Essentiell ist dabei,

kein exaktes Abbild der Realität zu erstellen, sondern sich auf das wesentliche

Mindestmaß an Grundvariablen zu beschränken, ohne das ursprüngliche Ziel, die

tatsächliche Situation zu repräsentieren, aus dem Blickfeld zu verlieren.

Nun werden X, Y und ε als Zufallsvariable aufgefasst und die n X-Werte als fest

vorgegebene und fehlerfrei gemessene Größen charakterisiert.

Das lineare Regressionsmodell gibt die Abhängigkeit zwischen den Variablen X und Y

durch folgenden Ansatz an:

Y = β0 + β1x + ε i = 1,…,n (16)

Hier werden die Größen β0, β1 nicht mehr als variierbare Koeffizienten für die beste

Anpassung einer Regressionsgeraden an die Beobachtungswerte interpretiert, sondern

bilden strukturelle Parameter des Modells, welche die Stärke und die Richtung des

Einflusses von X auf Y ausdrücken.

Demnach werden β0, β1 als sogenannte theoretische Regressionskoeffizienten

bezeichnet und die Zufallsvariable ε heißt Störkomponente.

Bei n Beobachtungen der Variablen X und Y, sollen die n Werte xi der unabhängigen

Variablen X feste Größen sein, d.h. die xi sollen nicht durch zufällige Messfehler

beeinflusst werden und exakt bleiben.

Durch fortlaufende Wiederholung der Messung an der Stelle xi können die Werte

ei1,…,eij beobachtet werden, die man als Realisationen der Zufallsvariablen εi ansieht

und als Störvariablen bezeichnet. Dementsprechend setzt sich jede Messung an der

Stelle xi aus dem beobachteten Wert xi und dem aus der Gleichung erhaltenen Wert yi

zusammen.

Folglich unterscheidet man auch in eine systematische Komponente (β0 + β1xi) und eine

stochastische Komponente (εi).

Nachdem lineare Regressionsfunktionen sich auf die notwendigsten Variablen xi

beschränken um yi zu beschreiben, erfassen die εi die Wirkung aller übrigen Variablen,

welche die abhängige Variable beeinflussen, aber nicht explizit in die

Regressionsfunktion aufgenommen wurden.

Page 20: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 13 -

Folgende Annahmen werden nun für die Modellvoraussetzungen getroffen:

a. Yi = β0 + β1xi + εi i = 1, … , n (Linearität)

b. Bei der nicht beobachtbaren Fehlervariablen ε wird davon ausgegangen, dass

sie den Erwartungswert 0 und die Varianz σ² hat. (Homoskedastizität)

c. Die εi alle die selbe Varianz σ² haben (Varianzhomogenität der Fehler)

d. Die Störvariablen unkorreliert sind und somit gilt:

E(εi ∙ εj) = Kov (εi ∙ εj) = 0 für i ≠ j i, j = 1, …,n

e. εi ist für alle i normalverteilt

f. die xi sind linear unabhängig

Um die Funktionstüchtigkeit eines regressionsanalytischen Algorithmus zu

gewährleisten wird zusätzlich noch vorausgesetzt:

dass die n Werte xi nicht alle paarweise gleich sind

und n größer als zwei ist.

Daraus ergibt sich im Weiteren der Erwartungswert, die Varianz und die Kovarianz von

Yi im Punkt xi:

E (Yi) = E( β0 + β1 xi + εi ) → E(Yi) = β0 + β1∙E(xi) + E(εi)

Var (Yi) = Var ( β0 + β1 xi + εi ) = Var (εi) = E(εi²) – E(εi)² = σ² für alle i = 1,…, n

Kov (Yi) = E[(Yi –β0 – β1xi) (Yj – β0 – β1xj)] = E(εi εj) = σ Yi =

Annahme e. fordert die Normalverteilung der Störvariablen εi mit Erwartungswert 0 und

Varianz σ² als Voraussetzung für die später behandelten statistischen Verfahren. Zudem

lassen sich Messfehlerverteilungen häufig durch Normalverteilungen approximieren

und somit folgt aus der Gleichung Yi = β0 + β1xi + εi , dass auch die Yi normalverteilt

mit Erwartungswert µi= β0 + β1xi und Varianz σ² sein müssen.

2.1.2 Erweiterungen für das stochastische Modell

Durch das Setzen bestimmter Annahmen gelangt man vom Grundmodell der

Regressionsanalyse auf das stochastische Regressionsmodell. Das Erklärungsziel

verändert sich dadurch nicht, jedoch lassen sich einige zusätzliche Ergebnisse ableiten.

So geht in etwa das lineare stochastische Regressionsmodell von der Annahme der

Existenz eines „datengenerierenden Prozesses“ aus, der sich aus einer

„deterministischen“ linearen Beziehung zwischen der abhängigen Variable Y und der

unabhängigen Variable xi zusammen setzt, die durch eine stochastische Komponente ε

0 für i ≠ j

σ² für i = j

Page 21: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 14 -

überlagert wird. Sofern angenommen wird, dass die Werte der unabhängigen Variablen

gegeben (also keine Zufallsvariablen) sind und man die Scheinvariable X0

berücksichtigt, so ergibt sich Yi als Linearkombination der Xi, ergänzt um den

stochastischen Term εi.

Yi selbst ist somit eine Zufallsvariable. Da nur bestimmte Realisationen des postulierten

Prozesses beobachtbar sind, ist es das Ziel der stochastischen Regressionsanalyse,

Schätzwerte β0, β1 für die Koeffizienten β0, β1 und die Störvariable ε zu ermitteln. Die

Schätzer sind ebenfalls Zufallsvariable.

Die Schätzungen machen Annahmen bezüglich der stochastischen Eigenschaften der

Störvariablen erforderlich. Es wird also wie schon erwähnt, angenommen, dass sich

die stochastischen Störeinflüsse im Mittel ausgleichen, dass der Erwartungswert von ε

bei gegebenem xi, also Null und εi damit, hinsichtlich seines Erwartungswertes, auch

unabhängig von den xi ist.

Verteilung der Epsilons bei linearer Einfachregression

Abbildung 5: Verteilung der Epsilons bei linearer Einfachregression

Einige der Annahmen lassen sich, falls nur eine unabhängige Variable vorliegt, der

Abbildung entnehmen. Auf der Geraden der XY –Ebene liegen die Erwartungswerte

E(Yi|Xi) = ��i = β0 + β1xi . Auf diesen Erwartungswerten sind die bedingten

Wahrscheinlichkeitsdichten der Störgrößen εi errichtet.

Die Ermittlung der Koeffizienten des stochastischen Regressionsmodells kann in

gleicher Weise erfolgen wie bei der deskriptiven Regressionsrechnung, also zum

Beispiel mit Hilfe der Methode der kleinsten Quadrate. Auch das Bestimmtheitsmaß

kann analog berechnet werden. Wenn die getroffenen Annahmen gelten, so können

auch weitere Maßzahlen ermittelt werden, mit denen die Güte des Regressionsmodells

beurteilt werden kann.

x

y

z

Page 22: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 15 -

Bezogen auf die stochastischen Maßzahlen sind zunächst die Standardabweichungen

der errechneten Regressionskoeffizienten ��0, ��1 erwähnenswert, denn diese drücken die

zufallsbedingte Streuung der ��j um ihre Erwartungswerte βj aus.

Liegt nun Homoskedastizität vor, so lassen sich die Standardabweichungen der ��j

schätzen als:

sβ0 = sε ∙ √( 1

n+

x2

nσx2 ) und sβ1=

√n ∙ σx , (17)

Dabei ist n die Anzahl der Beobachtungen, �� der Mittelwert der unabhängigen

Variablen dieser n Beobachtungen, sε die geschätzte Standardabweichung um die

Regressionslinie (Schätzer für σ) und σx die Standardabweichung der unabhängigen

Variablen in den n Beobachtungen. Als Schätzwert für die Standardabweichung der

Störgröße σ kann zwar

SY = √1

n∙∑εi

2

n

i=1

(18)

verwendet werden, allerdings ist dieser nicht erwartungstreu. Die nachstehende

Maßzahl, die jene durch die Koeffizientenschätzung verlorengegangene Zahl an

Freiheitsgraden v berücksichtigt, ist hingegen erwartungstreu:

𝑠𝜀 = √ 1

n − v − 1 ∙ ∑εi

2

n

i=1

. (19)

Die so erhaltenen Standardabweichungen können darin Verwendung finden, die

errechneten Koeffizientenwerte einem Signifikanztest auf den Wert Null zu unterziehen.

Außerdem wird der so „beobachtete“ Wert des t-Tests bei der Ergebnispräsentation

häufig zusammen mit den Koeffizientenwerten angegeben. Für die Variable xi

berechnet er sich als

ti = βi − 0

sβi=

βi

sβi

Sofern sich nun die Hypothese eines wahren Koeffizientenwertes von Null zu einem

gegebenen Signifikanzniveau ablehnen lässt, wird dies als Indiz dafür gesehen, dass die

dem entsprechenden Koeffizienten zugeordnete Variable einen signifikanten Einfluss

auf die abhängige Variable ausübt. Als problematisch gilt allerdings, dass die

zugrundeliegende Hypothese eine Punkthypothese darstellt und somit bei genügend

großen Fallzahlen immer verwerfbar ist.

2.1.3 Durbin-Watson-Test

Die Validität der Ergebnisse eines linearen Regressionsmodells ist primär von der

Einhaltung der Modellvoraussetzungen abhängig. Nachfolgend werden Einblicke in

verschiedene Tests gegeben.

Der Durbin-Watson-Test ist ein Test auf Autokorrelationsfreiheit der Störvariablen,

welche die Korrelation einer Funktion mit sich selbst zu einem früheren Zeitpunkt

Page 23: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 16 -

beschreibt und Aussagen darüber ermöglicht, ob die benachbarten Ausprägungen der

Störvariablen einer linearen autoregressiven Beziehung der folgenden Art unterliegen:

𝑒𝑡 = 𝜌 ∙ 𝑒𝑡−1 + 𝜀𝑡 (20)

mit: |ρ| < 1

𝑒 Fehler im Modell zur Zeitperiode t

𝜀𝑡 unabhängige N(0,𝜎𝑎)-verteilte Zufallsvariable

|ρ| <1 wird als Autokorrelationskoeffizient bezeichnet und gibt die Korrelation

benachbarter Werte der Störvariablen an. 𝜀𝑡 ist wiederum die stochastische

Störkomponente, die normalverteilt mit Erwartungswert 0 und fester Varianz ist.

Anschließend tritt die Frage auf, welche Werte die Gültigkeit besitzen sie als benachbart

zu betrachten. Diess ist allein bei Zeitreihendaten bzw. bei aufeinanderfolgenden

Periodenwerten naheliegend. Querschnittsdaten zum Beispiel erfordern zunächst die

Bestimmung eines adäquaten Ordnungskriteriums. Wenn den Berechnungen

Querschnittsdaten zugrunde liegen, welche nicht nach einem geeigneten Kriterium

sortiert sind, so ist der hier beschriebene Test sinnlos.

Daraus folgen einige interessante Eigenschaften der Fehler 𝜀𝑡:

𝑒𝑡= ∑ 𝜌𝑖∞𝑖=1 𝑎𝑡−𝑖 Cov(𝑒𝑡, 𝑒𝑡+𝑖) = 𝜌|𝑖|𝜎𝜀

2(1

1−𝜌²)

E(𝑒𝑡) = 0 und Var(𝑒𝑡) = 𝜎𝑎2(

1

1−𝜌2)

D.h die Fehler haben Erwartungswert 0 und konstante Varianz, sind aber autokorreliert,

außer für ρ = 0.

Es wird somit H0: ρ = 0 gegen H1(a): ρ ≠ 0 bzw. H1(b): ρ > 0 𝑏𝑧𝑤. H1(c): ρ <

0 getestet. Als Testgröße („Durbin-Watson-Statistik“) wird der folgende Ausdruck

heran gezogen:

DW =∑ (et − et−1)²ni=2

∑ et2n

i=1

. (21)

Die Variable et charakterisiert den mit der ermittelten Regressionsgleichung

errechneten Wert der Störvariable für die Beobachtung t und n ist die Gesamtzahl der

Beobachtungen.

Zwischen der Testgröße DW und dem Autokorrelationskoeffizienten gilt

näherungsweise die Beziehung:

DW = 2 ∙ (1 − ρ)

Beweis: DW = ∑ (et−et−1)²nt=2

∑ et2n

t=1 =

∑ et2−2∑ etet−1

nt=2 +∑ et−1

2nt=2

nt=2

∑ et2n

t=1=

=2∑ et

2+e12+en

2n−1t=2

∑ et2n

t=1− 2

∑ ent=2 t

et−1

∑ et2n

t=1 ≈ 2 - 2ρ = 2 (1- ρ)

Page 24: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 17 -

Der Wert der Testgröße informiert nun über das Ausmaß der Autokorrelation erster

Ordnung. Ist ρ=0 (bei kompletter Abwesenheit der Autokorrelation) so ist DW =2, der

Wert ρ= +1 wird hingegen bei vollständig positiver Autokorrelation angenommen,

daraus ergibt sich DW = 0 und vollständig negative Autokorrelation ρ = -1 führt zu

DW = 4.

In Abhängigkeit von der vorzugebenden Irrtumswahrscheinlichkeit, der Anzahl der

Beobachtungen und der Anzahl der unabhängigen Variablen treten für die Testgröße

DW jedoch zwei Unbestimmtheitsbereiche auf. Nimmt das berechnete DW einen Wert

in diesen Intervallen an, so kann die Hypothese abwesender Autokorrelation weder

bestätigt noch verworfen werden. Die Unbestimmtheitsbereiche ergeben sich über die

nachstehenden tabellarischen Werte du und do. Die folgenden Fälle lassen sich nun

unterscheiden:

Fall DW liegt im Intervall Aussage (zu gegebener Irrtumswahrscheinlichkeit

1 [0,du[ Positive Autokorrelation

2 [du,do] Keine Aussage möglich

3 ]do,4-do[ Keine Autokorrelation

4 [4-do,4-du] Keine Aussage möglich

5 ]4-du,4] Negative Autokorrelation Tabelle 4: Durbin-Watson-Test - Interpretationshilfe

Die oberen und unteren kritischen Werte du und do liegen in tabellierter Form für

verschiedene k Werte (Zahl der erklärenden Variablen) und n vor.

Sofern der Durbin-Watson-Test auf Autokorrelation der Störvariablen hindeutet, muss

eine Fehlspezifikation des Regressionsmodells in Betracht gezogen werden, die auf

Nichtberücksichtigung wichtiger unabhängiger Variablen oder eine falsche

Funktionsform zurückzuführen ist.

Beispiel:

Ein Getränkeabfüllunternehmen möchte die jährlichen regionalen Einkünfte für ein

bestimmtes Produkt durch eine Funktion der jährlichen regionalen Werbeausgaben für

dieses Produkt voraussagen. Dazu werden die Verkaufsdaten der letzten 20 Jahre (siehe

Tabelle) herangezogen und ausgehend von der Annahme einer geeigneten linearen

Beziehung, werden die gewöhnlichen Kleinsten-Quadrate verwendet.

Nachdem die Regressorvariable t eine Zeitspanne ist, nimmt man an, dass

Autokorrelation vorliegt, die bei näherer Betrachtung der gegebenen Daten tatsächlich

bewiesen wird, sofern man in einem Koordinatensystem die Residuen gegen die Zeit

aufträgt. Augenscheinlich ist dieser Plot nicht linear, sondern weißt zuerst einen

Aufwärtstrend und anschließenden Abwärtstrend der Residuen auf. Für so ein Muster

kann Autokorrelation verantwortlich sein

Wir werden nun auch den Durbin – Watson Test verwenden für:

H0: 𝜌 = 0

H1: 𝜌 > 0

Page 25: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 18 -

𝑑 =∑ (𝑒𝑡 − 𝑒𝑡−1)

220𝑡=2

∑ 𝑒𝑡220

𝑡=1

=8195,21

7587,92= 1,08

Wenn nun eine Irrtumswahrscheinlichkeit α = 0,05 vorgegeben wird, so kann man aus

der Tabelle für den DW-Test die kritischen Werte ablesen, die mit n = 20 und einem

Regressor korrespondieren und diese sind du =1,2 und do = 1,41. Nachdem allerdings

der beobachtete Wert von d = 1,08 kleiner als du ist, verwerfen wir H0 und folgern, dass

die Fehler positiv autokorreliert sind.

Tabelle 5: Daten der Getränkeumsätze einer Region

Parameter Schätzung Standardfehler t-Statistik

β0 1608,508 17,022 94,49

β1 0,143

0,143

140,71

n = 20 R²= 0,991 = 421,549 Tabelle 6: Statistik für das kl. Quadrate Modell des Beispiels

2.1.4 Test auf Homoskedastizität

Homoskedastizität bedeutet, dass die Varianz der Residuen und dadurch die Varianz der

erklärten Variablen selbst, für alle Ausprägungen der anderen Prädiktorvariablen nicht

signifikant unterschiedlich ist. Heteroskedastizität liegt in der Statistik dagegen bei

unterschiedlicher Streuung innerhalb einer Datenmessung vor. Bei diesem Test auf

Page 26: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 19 -

Homoskedastizität wird zuerst so vorgegangen, dass man das Datenmaterial in zwei

sachgerechte Teilbereiche A und B aufteilt. Bei Einfachregressionen kann als

Aufteilungskriterium die Höhe des Wertes der exogenen Variable herangezogen

werden, wobei dann im Teilbereich A die Beobachtungen mit den niedrigeren Werten,

im Teilbereich B jene mit den höheren Werten der exogenen Variable lägen. Bei

Zeitreihenanalysen ist die Zeit das Zerlegungskriterium, welches eine einfache

Durchführung des Tests zulässt, nachdem die Daten bereits sortiert nach dem Kriterium

Zeit vorliegen. Bei multivariaten Querschnittsanalysen muss hingegen zuerst ein

adäquates Kriterium festgelegt werden und die Möglichkeit bestehen, die

Beobachtungen nach der Höhe der Kriteriumsvariable zu ordnen.

Im Anschluss an die Berechnung des eigentlichen Modells sind bei der Vermutung auf

Heteroskedastizität (z.B nach Ansicht der Grafiken der berechneten Residuen), weitere

Berechnungen durchzuführen. Aus den nA Daten des Datenbereichs A wird eine

Regressionsfunktion berechnet und die geschätzten Störgrößen 𝑒𝑖𝐴 lassen die Ermittlung

folgender Größe zu:

𝑒𝐴 = ∑ 𝑒𝑖𝐴2

𝑛𝐴

𝑖𝐴=1

In einer zweiten Regression berücksichtigt man alle nB Beobachtungen des Teilbereichs

B und ermittelt den Wert

𝑒𝐵 = ∑ 𝑒𝐵2

𝑛𝐵

𝑖𝐵=1

Wenn nun die Anzahl der exogenen Variablen mit v bezeichnet wird, folgt daraus die

Prüfgröße für den F-Test aus dem Vergleich der beiden geschätzten Varianzen der

Störgrößen als

𝐹 =𝑠𝑒,𝐵2

𝑠𝑒,𝐴2 =

𝑒𝐵𝑛𝐵 − 𝑣 − 1

𝑒𝐴𝑛𝐴 − 𝑣 − 1

(22)

Aus einer Tabelle der F-Verteilung (vergleiche Anhang) ist für eine gegebene

Irrtumswahrscheinlichkeit und die Freiheitsgrade v1= nB-v-1 und v2= nA-v-1 der

kritische F-Wert zu ermitteln. Wenn nun

𝐹 < 𝐹𝛼,𝑣1,𝑣2 ,

so kann bei der gewählten Irrtumswahrscheinlichkeit α die Nullhypothese gleicher

Varianzen nicht verworfen werden und es darf von Homoskedastizität ausgegangen

werden.

2.1.5 Test auf Strukturkonstanz

Strukturkonstanz ist dann gegeben, sobald die unterstellte Regressionsbeziehung für alle

Beobachtungen gleichermaßen zutreffend ist. Beim sogenannten Strukturbruchtest wird

das Beobachtungsmaterial wiederum in zwei Teile zerlegt, wobei Homoskedastizität

vorausgesetzt wird. Insofern gilt die Empfehlung, zuerst den entsprechenden Test

Page 27: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 20 -

durchzuführen nachdem beim Strukturkonstanztest auch die gleichen Ordnungskriterien

wie beim Test auf Homoskedastizität gelten. Die Nullhypothese des Strukturbruchtests

behauptet, dass die Regressionskoeffizienten, die aus den beiden Teilen des

Beobachtungsmaterials gewonnen werden, gleich sind. Der Test kann auch nur auf

einige interessierende Regressionskoeffizienten beschränkt werden.

Im Rahmen von zwei Regressionsrechnungen sind die Werte εA, εb, nA, nB analog zum

Vorabschnitt zu bestimmen, dabei werden ε und n der eigentlichen

Regressionsrechnung entnommen, die beide Teilbereiche berücksichtigt und v ist die

Zahl der exogenen Variablen. Als Prüfgröße für den F-Test folgt dann:

𝐹 =

𝑒 − 𝑒𝐴 − 𝑒𝐵𝑣 + 1𝑒𝐴 − 𝑒𝐵

𝑛 − 2𝑣 − 2

(23)

Stellt man dieser Größe wiederum den aus der F-Tabelle gewonnenen kritischen F-Wert

gegenüber so kann bei vorgegebener Irrtumswahrscheinlichkeit die Nullhypothese

gleicher Koeffizienten nicht abgelehnt werden und man darf von Gleichheit der

Koeffizienten in beiden Beobachtungsgruppen ausgehen. Wenn die Nullhypothese

verworfen wird, so unterscheidet sich mindestens ein Koeffizient beider Regressionen

in signifikantem Ausmaß.

2.2 Eigenschaften der kleinste Quadrate Schätzer

Nachdem von einer theoretisch linearen Regression ausgegangen wird und die

deskriptive Regression des voran gehenden Kapitels sich durch einen linearen Ansatz an

die empirischen Datenpunkte anpasst, besteht die Möglichkeit, die Parameter 𝛽𝑖 durch

empirische Regressionskoeffizienten zu schätzen, welche die Lösungen der

Normalgleichungen bilden.

Wie bereits gezeigt, sind ��0 und ��1 Linearkombinationen der Beobachtungen 𝑦𝑖, somit

gilt: ��1 = 𝑆𝑥𝑦

𝑆𝑥2 = ∑ 𝑐𝑖(𝑦𝑖

𝑛𝑖=1 − ��) , mit 𝑐𝑖 =

𝑥𝑖−��

𝑆𝑥2 für i = 1, … , n

und

��0 = �� − ��1��.

Y wird als Zufallsvariable aufgefasst und ��0 und ��1als Zufallsvariable bzw. Schätzer für

𝛽0 und 𝛽1.

1. Erwartungswert

E (β0) = β0 , E (β1) = β1

d.h β0 und β1 sind erwartungstreue Schätzer von β0 und β1. (24)

Beweis: E(β1) = E( ∑ ciYini=1 ) = ∑ ci

ni=1 E(Yi ) = ∑ ci(β0 + β1xi)

ni=1 =

= β0∑ cini=1 + β1∑ cixi

ni=1 = β1 wegen: ∑ 𝑐𝑖

𝑛𝑖=1 =0 und ∑ 𝑐𝑖

𝑛𝑖=1 𝑥𝑖 = 1

Page 28: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 21 -

Außerdem gilt nach (1.7)für Y als Zufallsvariable: β0 = Y − β1x. Daraus folgt:

E(β0) = E(Y − β1x) = E(Y) − xE(β1) = 1

n∑ E(Yi − xβ1) =ni=1

β1

= 1

n[ ∑ β0

ni=1 + β1xi] − β1x = β0 + β1x − β1x = β0

2. Varianz

Var (β0) = E(β0 - β0)²) = σ²

n ∙

∑ 𝑥𝑖2𝑛

𝑖=1

∑ 𝑥𝑖− ��)²𝑛𝑖=1

Var (β1) = E(β1 - β1)²) = σ²

n ∙

∑ 𝑥𝑖2𝑛

𝑖=1

∑ (𝑥𝑖− ��)²𝑛𝑖=1

(25)

Beweis: Var (��1) = Var (∑ 𝑐𝑖𝑛𝑖=1 𝑌𝑖) = ∑ 𝑐𝑖

2𝑛𝑖=1 Var(𝑌𝑖) = 𝜎

2 ∑ 𝑐𝑖2𝑛

𝑖=1 =

=σ2∑ (xi−x)²

ni=1

Sxx2 =

σ2

Sxx

Var(β0) = Var(Y − β1x) = Var(Y) + x2Var(β1) − 2x Cov(Y, β1)

= Var(Y) + x2Var(β1) = σ2(1

n+

x2

Sxx)

Weil:

Cov (Y, β1) = E[(Y − E(Y)) (β1 − E(β1))] = E(𝜀(��1 − 𝛽1)) = E(𝜀��1) =

∑c𝒊E(𝜀��𝑖) =∑c𝒊1

𝑛∑E(𝜀𝑗𝜀𝑖) =

𝒏

𝒋=𝟏

𝜎2

𝑛∑𝑐𝑖 = 0

𝑛

𝑖=1

𝒏

𝒊=𝟏

𝒏

𝒊=𝟏

Var (��) = Var (1

𝑛(𝑌1+. . . +𝑌𝑛)) =

1

𝑛2𝑛𝜎2 =

𝜎2

𝑛

3. Varianz für (a) die Vorhersagevariable �� und (b) die Varianz der Residuen

a) Var(Yi) = Var(β0 + β1xi) = Var (Y + β1(xi − x)) =

= Var(Y) + (xi − x)2 Var(β1) =

σ2

n+ (xi − x)²

σ2

Sxx = σ2 (

1

n+(xi−x)

2

Sxx)

b) Var (Ei) = Var(Yi − Yi) = Var (Yi) + Var(Yi) − 2Cov(Yi, Yi)

= σ2 + σ2 [1

n+(xi−x)

2

Sxx] − 2Cov(Yi, Yi). (26)

Weil nach (11) gilt:

𝐶𝑜𝑣(𝑌𝑖, ��𝑖) = 𝐶𝑜𝑣 (𝑌𝑖, �� + ��1(𝑥𝑖 − ��)) = 𝐶𝑜𝑣(𝑌𝑖, ��) + 𝐶𝑜𝑣 (𝑌𝑖 , ��1(𝑥𝑖 − ��)).

Page 29: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 22 -

4. Konsistenz

Falls für n → ∞ der Ausdruck ∑ (𝑥𝑖 − ��)𝑛𝑖=1

2→ ∞ strebt, dann gilt

��0𝑝→ 𝛽0 und ��1

𝑝→ 𝛽1 (27)

5. Verteilung

Falls 𝜀𝑖 ~ N (0, 𝜎2), so erhält man:

��0 ~ 𝑁 (𝛽0,𝜎2

𝑛 ∙

∑ 𝑥𝑖2𝑛

𝑖=1

∑ 𝑥𝑖 − ��)²𝑛𝑖=1

)

��1 ~ 𝑁 (𝛽1,𝜎2

∑ 𝑥𝑖 − ��)²𝑛𝑖=1

) (28)

Anmerkung:

Für großes n bleiben die angegebenen Verteilungen auch dann im Allgemeinen

approximativ gültig, wenn die 𝜀𝑖 nicht normalverteilt sind (zentraler

Grenzwertsatz)

i. Allg. wichtigster Parameter: 𝛽1 – Steigung der Geraden

��1~ N (𝛽1, 𝑉𝑎𝑟(��1))

Die Varianz von ��1 ist umso kleiner je

- kleiner 𝜎2, die Varianz des Fehlerterms

- größer n, die Anzahl der Beobachtung

- größer SX die Streuung der x1 … xn

6. Kovarianz von (𝐘𝐢, ��𝒊)

Cov(𝑌𝑖, ��𝑖) = Var(��𝑖) = 𝜎2

𝑛+(𝑥𝑖−��

2)

𝑆𝑥𝑥𝜎2 = 𝜎2 [

1

𝑛+(𝑥𝑖−��

2)

𝑆𝑥𝑥]. (29)

weil gilt:

Cov(Yi, Y) = Cov(Yi,1

n(Y1 +⋯+ Yn)) =

1

n∑Cov(Yi, Yj)

n

j=1

=1

n∑Cov(εi, εj)

n

j=1

=σ2

n

Cov (Yi, β1(xi − x)) = xi−x

SxxCov(Yi, SxY) =

xi−x

SxxCov(Yi,∑ (xj − xj )Yj) =

= xi−x

Sx2

Daraus kann nun die Var(𝐸𝑖) gefolgert werden:

Page 30: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 23 -

Var (Ei) = Var ( Yi − Yi) = σ2 [1 − (1

n+(xi−x)

2

Sxx)]

Nach dem „Satz von Gauss-Markov“ sind ��0und ��1 sogar die wirksamsten Schätzer von

𝛽0 und 𝛽1 in der Klasse aller linearen und erwartungstreuen Schätzer.

Sei 𝛽1∗ also ein linearer, erwartungstreuer Schätzer von 𝛽1 so gilt:

Var(β1) ≤ Var (β1∗)

2.3 Das klassische normalverteilte Modell der linearen

Einfachregression

Die Wahrscheinlichkeitsverteilung der Fehlervariablen ε waren bis jetzt auf Annahmen

über den Erwartungswert und die Varianz-Kovarianzmatrix beschränkt. Dieses

Unterkapitel setzt nun zusätzlich zu den bisherigen Modellannahmen die

Normalverteilung der Zufallsvariablen ε voraus, wodurch verschiedene Tests und

Konfidenzintervalle hergeleitet werden können.

2.3.1 Erwartungstreue Schätzer der theoretischen

Regressionskoeffizienten

Es wird vorausgesetzt, dass das lineare Regressionsmodell wie bisher beschrieben in

den Variablen x und y vorliegt und eine Stichprobe die Wertepaare

((𝑥1, 𝑦1),… , (𝑥𝑛, 𝑦𝑛)) liefert. So dann kann die empirische Regressionsgleichung mit

normalverteilten Fehlern ermittelt werden:

Lineares Regressionsmodell mit normalverteilten Fehlern

Abbildung 6: Lineares Modell der Einfachen Regression. Bedingte Verteilung der abhängigen Variable

Y. Die Dichte von Y bei gegebenen 𝒙𝟏 ist die Dichte der N (𝜷𝟏𝒙 + 𝜷𝟎, 𝝈𝟐) - Verteilung

𝑥1 𝑥2 𝑥3 𝑥4

Theoretische Regressionsgerade:

μ = 𝜷𝟏x + 𝜷𝟎

𝜇41

𝜇3

𝜇2

𝜇1

Page 31: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 24 -

Der Anstieg 𝛽1 und der Achsenabschnitt 𝛽0 konnte mit Hilfe der Methode der kleinsten

Quadrate berechnet werden:

β1 =∑ xiyi − nxyni=1

∑ xi2n

i=1 − nx2 bzw. β0 = y − β1x

Somit können 𝛽0 und 𝛽1 als Realisation der beiden Zufallsvariablen angesehen werden:

B1 =∑ xiyi − nxyni=1

∑ xi2n

i=1 − nx2 und B0 = Y − BX

Nachdem die Werte 𝑥𝑖 fix sind, werden nur die 𝑦𝑖 als Zufallsvariablen angenommen.

𝐵0 und 𝐵1 sind dadurch als Funktionen der n Zufallsvariablen 𝑦𝑖 darstellbar und auch

wieder Zufallsvariablen. Außerdem sind 𝐵0 und 𝐵1 Linearkombinationen der

Zufallsvariablen 𝑌𝑖 wodurch 𝐵0 und 𝐵1 zu linearen Schätzfunktionen für β0 und

β1werden.

Definition: Die Schätzfunktion Sn = sn (Y1, ... , Yn) für den Parameter υ heißt

erwartungstreu, wenn sie den folgenden Erwartungswert annimmt:

E(Sn) = E(sn(Y1, … , Yn)) = υ (30)

Satz: Die Zufallsvariable B1 ist eine linear erwartungstreue Schätzfunktion für den im

klassischen Modell der linearen Einfachregression auftretenden Parameter β0. (31)

Beweis

Sofern dem linearen Regressionsmodell die Variablen x und y zugrunde liegen, gilt die

theoretische Regressionsgleichung:

Yi = β0 + β1xi + εi überdies gilt:

Y = β0 + β1x + ε

mit Y = β0 + β1x + ε, x =∑ xini=1

n und ε =

∑ εini=1

n

Daraus lässt sich 𝐵1 nun folgendermaßen bestimmen:

B1 = ∑ xi(β0 + β1xi + εi) − nx(β0 + β1x + ε)ni=1

∑ xi2 − nx2n

i=1

=

=∑ xiβ0 +∑ β1xi

2 +∑ xiεini=1 − nxβ0 − nβ1x

2 − nxεni=1

ni=1

∑ xi2n

i=1 − nx2=

= β1 +∑ xi(β0+εi)−nx(β0+ε)nI=1

∑ xi2n

i=1 −nx2 =

= β1 + ∑ xi(β0+εi−β0−ε)ni=1

∑ xi2−nx2n

i=1

und somit folgt:

Page 32: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 25 -

E(B1) = E (β0 +∑ xi(εi−ε)ni=1

∑ xi2−nx2n

i=1

) = β0 weil E(𝜀𝑖 − 𝜀)=0 ist

Satz: Die Zufallsvariable B0 ist eine linear erwartungstreue Schätzfunktion für den

Parameter 𝛽0, der im klassischen Modell der linearen Einfachregression auftritt.

Beweis: B0 = y − B1x (33)

Es wird für y eingesetzt:

B0 = β0 + β1x + ε − B1x

= β0 + ε + x (β1 − B1)

Nachdem E(ε) = 0 und E(B1) = β1 ist, kann gefolgert werden: E(A) = β0

Jetzt können die vorhergesagten yi der empirischen Regressionsgleichung als

Realisierung der Zufallsvariablen Yi betrachtet werden und dadurch gilt für den

Erwartungswert yi: E(yi) = E(β0 + β1xi) = β0 + β1xi

⟹ E(yi) = E(yi)

2.3.2 Schätzung von σ²

In diesem Unterkapitel ist es das Ziel auch für 𝜎2 einen Schätzwert zu finden, um den

im vorhergehenden Kapitel erhaltenen Schätzer wirklich anwenden zu können. Aus den

Residuen bzw.der Fehlerquadratsumme erhält man einen erwartungstreuen Schätzer 𝜎2:

se2 =∑ei

2(yi − yi) =1

n − 2

n

i=1

∑ei2

n

i=1

(34)

ei, yi und yi werden wieder als Realisationen der Zufallsvariablen E, Y und �� gedeutet

und nachdem E(𝑠𝑒2) = E(∑ 𝐸𝑖

2𝑛𝑖=1 ) = (𝑛 − 2)𝜎² ist, kann ein unverzerrter Schätzer für 𝜎2

angegeben werden durch:

��2 =se2

n − 2. (35)

Beweis:

Es gilt Var(εi) = (1− vi) σ2 mit vi =

1

n+

(xi−x)²

∑ (xi−x)²ni=1

Anschließende Summation der vi über alle n führt zu:

∑vi =∑1

n+∑

(xi − x)²

∑ (xi − x)²ni=1

n

i=1

n

i=1

n

i=1

Aus dem ersten Summanden ergibt sich ∑1

n= 1n

i=1 ,

ebenso für den zweiten ∑ (xi−x)²ni=1

∑ (xi−x)²ni=1

= 1

Page 33: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 26 -

Daraus kann gefolgert werden, dass:

∑vi

n

i=1

= v1+. . . +vn = 2

Summation der Varianzen Var (εi) über alle n ergibt:

∑Var(εi)

n

i=1

=∑(1 − vi)σ2

n

i=1

=

= ∑σ2 − σ2∑vi =

n

i=1

n

i=1

= nσ2 − 2σ2 =

= (n − 2) σ2

Aus E(εi) = 0 folgt Var(εi) = E(εi2) und somit ist:

∑E(εi2) = (n − 2)σ2

n

i=1

E(∑εi2

n

i=1

) = (n − 2)σ2

Beispiel: Um σ² für die Daten aus dem Kraftstoffverbrauchsbeispiel zu schätzen,

bestimmen wir zuerst:

𝑆𝑦𝑦 =∑𝑦𝑖2 − 𝑛��2

𝑛

𝑖=1

=∑𝑦𝑖2 −

∑ (𝑦𝑖)2𝑛

𝑖=1

𝑛

𝑛

𝑖=1

= 808,02 − (123,8)²

20= 41,7

Die Fehlersumme der Quadrate ist:

𝑠𝑒2 = 𝑆𝑦𝑦 − ��1𝑆𝑥𝑦

= 𝑆𝑦𝑦 − ��1𝑆𝑥𝑦

= 41,7 − (0,031)(1141,04)

= 6,327

Deshalb ergibt das geschätzte 𝜎2:

��² =𝑠𝑒2

𝑛 − 2=6,327

18= 0,352

2.3.3 Eine alternative Form des Modells

Es existiert eine alternative Form des einfachen linearen Regressionsmodells welches

sich gelegentlich als nützlich erweist. Angenommen man definiert die Regressor-

Variable xi als die Abweichung von ihrem eigenen Durchschnitt folgendermaßen:

xi − x. Das Regressionsmodell wird dann zu:

yi = β0 + β1(xi − x) + β1x + εi

= (β0 + β1x) + β1(xi − x) + εi

= β0´ + β1(xi − x) + εi (36)

Page 34: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 27 -

Zu beachten ist, dass die Regressor-Variable den Ursprung der x - Werte von Null zu ��

verschoben hat. Um die geschätzten Werte gleich zu halten im originalen wie im

transformierten Modell, ist es notwendig, den originalen Abschnitt zu modifizieren. Die

Beziehung zwischen dem originalen und dem transformierten Abschnitt kann wie folgt

angegeben werden:

β0´ = β0 + β1x

Die kleinsten Quadrate Normalgleichungen für diese Form des Modells sind:

nβ0 ´ =∑yi

n

i=1

β1∑(xi − x)²

n

i=1

=∑(yi − y)

n

i=1

(xi − x)

und die resultierenden kleinste - Quadrate - Schätzer sind:

β0´ = y

β1 =∑ yi(xi−x)ni=1

(xi−x)²=Sxy

Sxx

Demnach wird bei dieser Form des Modells der Abschnitt geschätzt durch y und die

Neigung bleibt unbeeinflusst durch die Transformation.

Vorteile die sich nun durch dieses alternative Modell der linearen Regression ergeben

sind:

a) Die Normalgleichungen sind leichter zu lösen, weil die Kreuzproduktterme

verschwinden.

b) Die kleinste Quadrate Schätzer β0´ = y und β1 =

Sxy

Sx2 sind unkorreliert, sodass

Cov(β0´ , β1) = 0. Dadurch werden einige Anwendungen des Modells einfacher,

wie z.B das Festlegen von Konfidenzintervallen um y.

Schlussendlich ist das geschätzte Modell: y = y + β1(x − x)

Obwohl y äquivalent ist zu (10), erinnert dieses y den Analysten direkt daran, dass das

Regressionsmodell nur gültig ist über den Bereich der x-Werte, wobei dieses Gebiet

zentriert ist um �� .

2.4 Hypothesentest für die Steigung β1 und

Verschiebung auf der y-Achse β0

Es besteht oft Interesse an Hypothesentests und Konfidenzintervallen bei den Modell-

parametern. Diese Verfahren erfordern die zusätzliche Annahme, dass die Modellfehler

𝜀𝑖 normalverteilt sind. Daher setzt man normalverteilte, unabhängige Fehler N(0, 𝜎2)

voraus. Derartige Tests zur statistischen Überprüfung von Hypothesen sind sogenannte

Signifikanztests. Sie gehen von dem Problem aus, dass:

Page 35: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 28 -

der Forscher/ die Forscherin eine Hypothese über einen Zusammenhang

zwischen zwei Merkmalen (alternativ auch über Differenzen zwischen Gruppen

hinsichtlich eines Merkmals) erstellt.

Stichproben-Daten erhoben werden, in denen sich der vermutete Zusammenhang

zeigt (das muss nicht unbedingt eintreten – wenn jedoch der Zusammenhang in

der Stichprobe nicht vorhanden ist, erübrigt sich der Signifikanztest mehr oder

weniger, ABER: Irgendein – wenn auch nur ein schwacher- Zusammenhang

existiert meistens in den Daten)

die Frage, ob die Annahme, dass der Zusammenhang auch in der

Grundgesamtheit besteht, gültig ist.

Der „Signifikanztest“ ermittelt die Wahrscheinlichkeit, mit der das gefundene

empirische Ergebnis sowie noch extremere Ergebnisse auftreten können, wenn die

Populationsverhältnisse der Nullhypothese entsprechen. Sofern diese

Wahrscheinlichkeit < α % ist, bezeichnet man das Stichprobenergebnis als statistisch

signifikant. Dabei werden für α per Konvention die Werte 5 % bzw. 1% festgelegt. So

sind zum Beispiel Stichprobenergebnisse, deren bedingte Wahrscheinlichkeit bei

Gültigkeit der H0 kleiner als 5% ist, auf dem 5% (Signifikanz-)Niveau „signifikant“.

Ein (sehr) signifikantes Ergebnis ist also ein Ergebnis, das sich mit der Nullhypothese

praktisch nicht vereinbaren lässt, weshalb die Nullhypothese praktisch verworfen und

die Alternativhypothese im Gegenzug akzeptiert wird. Andernfalls, also bei nicht

signifikanten Ergebnis, wird die Nullhypothese beibehalten und die Alternativhypothese

verworfen.

Angenommen man möchte jetzt die Hypothese testen, dass die Steigung gleich einer

Konstanten, z.B c ist. Eine geeignete Hypothese wäre dann

H0: β1 = c

H1: β1 ≠ c

wo eine zweiseitige Alternative angeführt wird. Da die Fehler N(0,σ²) verteilt sind, sind

die Beobachtungen yi N(β0 + β1xi, σ2) verteilt. Somit ist β1eine Linearkombination der

Beobachtungen, mit Erwartungswert β1 und Varianz σ2

Sx2.

Somit ist die Teststatistik:

P0 =β1 − c

√σ2

Sx2

(37)

nach (2.3) normalverteilt mit N(0,1), sofern die Nullhypothese H0: β0 = c zutrifft.

Wenn wir σ² kennen, können wir P0 verwenden um die Hypothese zu testen.

Andernfalls ist das mittlere Residuum zum Quadrat (σ2) ein erwartungstreuer Schätzer

Page 36: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 29 -

von σ² und die Verteilung von (n − 2)σ2

σ2 ist χn−2

2 – verteilt. Zudem sind σ2 und β1

unabhängige Zufallsvariable, was impliziert, dass sobald σ² in P0 durch σ2 ersetzt wird,

die Statistik:

t0 =β1 − c

√σ2

Sxx

(38)

t-verteilt ist, mit n-2 Freiheitsgraden, sofern die Nullhypothese H0: β1 = c erfüllt wird.

Die Freiheitsgrade von t0 sind die Anzahl der Freiheitsgrade die mit σ2 verbunden

werden. Der statistische t0- Wert wird verwendet, um H0: β1 = c zu testen und zwar

durch einen Vergleich der beobachteten Werte von t0 mit dem oberen α

2 – Prozentpunkt

der tn - 2 Verteilung (tα/2, n - 2). Verworfen wird die Nullhypothese, falls

|t0| > tα/2, n-2

Um die Hypothese des y – Achsenabschnitts zu testen, kann genauso vorgegangen

werden:

H0: β0 = d

H1: β0 ≠ d

Es wird folgende Statistik verwendet:

t0 =β0 − d

√(σ2(1n +

x2

Sxx)

(39)

und die Nullhypothese wird verworfen, wenn |t0| > t α2, n − 2.

Ein wichtiger Spezialfall von H0: β1 = c, H1: β1 ≠ c ist:

H0: β1 = 0

H1: β1 ≠ 0

Diese Hypothese bezieht sich auf die Signifikanz der Regression, wenn es verabsäumt

wird H0: 𝛽1=0 zu verwerfen, wird impliziert, dass kein linearer Zusammenhang

zwischen x und y besteht. Diese Situation wird in Abbildung 9 gezeigt, wobei

hervorgehoben werden soll, dass das entweder impliziert, dass x kleine Werte annimmt

um die Variation in y zu erklären und der beste Schätzer von y für irgendein x ist

�� = �� (Abbildung 7a) oder dass die richtige Beziehung zwischen x und y nicht linear ist

(Abbildung 7b).

Page 37: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 30 -

Alternativ, wenn 𝐻0: 𝛽1=0 verworfen wird, kann man implizieren, dass x von Wert ist

um die Variabilität in y zu erklären, was in Abbildung 8 gezeigt wird. Allerdings kann

das bedeuten, wenn H0: 𝛽0=0 verworfen wird, dass das geradlinige Modell passend ist

(Abbildung 8a) oder dass, obwohl eine lineare Wirkung von x vorliegt, bessere

Resultate erreicht werden können, wenn Polynomfunktionen höheren Grades zur

Näherung verwendet werden (Abbildung 8b).

Abbildung 7: Situationen wo die Hypothese H0: 𝛃𝟏= 0 nicht verworfen wird.

Abbildung 8: Situationen wo die Hypothese H0: β1 = 0 verworfen wird.

Um die Hypothese H0: 𝛽1= 0 zu testen, wird eine „ analysis of variance“ – Methode

verwendet. Die Teststatistik ist

F =∑ Yi − Yni=1

1

(n − 2)∑ (Yi − Y1)²ni=1

(40)

F – verteilt, und spiegelt das Verhältnis des Anteils, der durch die Regressionsfunktion

erklärt wird und dem unerklärten Anteil wieder. Nachdem dieser Wert für die Gültigkeit

von H0 möglichst groß sein sollte, sprechen kleine Werte gegen H0. Deshalb wird bei

einem Test der Hypothese H0: 𝛽1= 0 die Teststatistik F berechnet und H0 verworfen

wenn F > 𝐹𝛼,1,𝑛−2.

Page 38: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 31 -

2.5 Intervallschätzung bei einfachen linearen

Regressionen

Dieser Abschnitt befasst sich mit Überlegungen zu Konfidenzintervallschätzungen von

den Regressionsmodellparametern und dem Erwartungswert E(y) für gegebene x-Werte,

wobei wiederum die Normalverteilungsannahmen der letzten Kapitel vorausgesetzt

werden.

2.5.1 Konfidenzintervalle von β0, β1 und σ²

Zusätzlich zu den Punktschätzungen von β0,β1 und σ² werden nun auch die beobachteten

geschätzten Konfidenzintervalle dieser Parameter charakterisiert, weil die Breite dieser

Intervalle eine bedeutende Maßzahl für die Qualität der Regressionslinie ist. Wenn die

Fehler normalverteilt und unabhängig sind, sind beide Statistiken

β1 − β1

√σ2

Sxx

und β0 − β0

√σ2(1n +

x2

Sxx)

(41)

t - verteilt mit n-2 Freiheitsgraden. Somit sind die (1 - α) - Konfidenzintervalle von β1

und β0 (und damit die Wahrscheinlichkeit, dass β1 und β0 im mit Wahrscheinlichkeit 1-α

im Intervall liegt) gegeben durch:

[β1 − tα2,n−2

√σ2

Sxx≤ 𝛃𝟏 ≤ β1 + tα

2,n−2

√σ2

Sxx]

[β0 − tα2,n−2

√σ2 (1

n+x2

Sxx) ≤ 𝛃𝟎 ≤ β0 + tα

2,n−2

√σ2 (1

n+x2

Sxx)] (42)

Wenn man die Auswahl einer Stichprobe mit demselben Umfang bzw. einem ähnlichen

Format der x-Werte, wiederholt, dann würden immerhin 95% dieser Intervalle den

wahren Wert von β1 beinhalten. Die Quantität

se(β1) = √σ2

Sxx

des Konfidenzintervalls vorhin wird als Standardfehler der Steigung β1 bezeichnet. Dies

ist eine Maßzahl dafür, wie präzise der Anstieg der Regressionsgerade geschätzt wurde.

Fast ident kann auch der Standardfehler se(β0) des oberhalb beschriebenen

Konfidenzintervalls bestimmt werden:

se(β0) = √σ2 (1

n+x2

Sxx)

Insofern ist die ausgewählte Verteilung von (n−2) σ2

σ2 die Chi-Quadrat Verteilung mit

n - 2 Freiheitsgraden (Anm.: bei normalverteilten und unabhängigen Variablen)

Page 39: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 32 -

Deshalb ist:

P (χ1−α2 , n−2

2 ≤(n − 2)σ2

σ2≤ χα

2, n−2

2 ) = 1 − α (43)

woraus weiterführend durch umformen das Konfidenzintervall für 𝜎2 ableitbar ist.

Beispiel: Hier sollen die 95 % Konfidenzintervalle für 𝛽1 und σ² aus den

Kraftstoffverbrauchdaten (siehe Tabelle im Anhang) bestimmt werden. Der

Standardfehler von ��1 ist

𝑠𝑒(��1) = √��2

𝑆𝑥𝑥= √

0,352

36838,2= 0,0031

und die T-Tabelle liefert für t0,25,18 den Wert 2,101. Als Konfidenzintervall ergibt sich

also hier:

0,031 − (2,101) ∙ (0,0031) ≤ 𝛽1 ≤ 0,031 + (2,101) ∙ (0,0031)

0,025 ≤ 𝛃𝟏 ≤ 0,0038

Statistik bei einer Stichprobe

H Mittelwert Standardabweichung

Standardfehler

Mittelwert

Leistung 20 99,70 44,032 9,846

Verbrauch 20 6,1900 1,48143 ,33126

Test bei einer Stichprobe

Testwert = 0

t df Sig. (2-seitig)

Mittelwertdiffere

nz

95% Konfidenzintervall der

Differenz

Unterer Oberer

Leistung 10,126 19 ,000 99,700 79,09 120,31

Verbrauch 18,686 19 ,000 6,19000 5,9067 6,4733

Tabelle 7: Konfidenzintervalle für das Kraftstoffverbrauchbeispiel

2.5.2 Intervallschätzung des Erwartungswertes

Eine der Hauptanwendungen des Regressionsmodells ist jene der Schätzung des

Erwartungswerts E(y) für einen speziellen Wert der unabhängigen Variable x. Es wird

zum Beispiel x0 als jene unabhängige Variable x gewählt, für welche der

Erwartungswert geschätzt werden soll. Zudem soll ein x0 gewählt werden, das innerhalb

des Datenbereiches der Originaldaten von x liegt. Ziel ist es nun einen erwartungstreuen

Schätzer von Y im Punkt x0 (E(y|x0)) zu bestimmen, der durch das folgende Modell:

𝐸(𝑌|𝑥0) =��0 = ��0 + ��1𝑥0 beschrieben werden kann.

Um ein (1-α)-Konfidenzinterfall von E(y|𝑥0) zu erhalten, muss beachtet werden, dass ��0

Page 40: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 33 -

eine normalverteilte Zufallsvariable ist, weil eine Linearkombination der

Beobachtungen 𝑦𝑖 vorliegt. Die Varianz von ��0 ist nun:

Var(y0) = Var(β0 + β1x0)

= Var[y + β1(x0 − x)]

= σ2

n+σ2(x0−x)²

Sxx

= σ2 [1

n+(x0−x)

2

Sxx]

Folglich ist die Beispiel-Verteilung von:

y0 − E(y|x0)

√σ2(1n +

(x0 − x)²Sxx

)

t-verteilt mit n-2 Freiheitsgraden und daher kann ein (1 - α)-Konfidenzintervall des

Erwartungswerts beim Punkt x = x0 angegeben werden durch:

[y0 − tα2,n−2

√σ2 (1

n+(x0 − x)2

Sxx) ≤ E(y|x0) ≤ y0 + tα

2,n−2

√σ2 (1

n+(x0 − x)2

Sxx)] (44)

Die „Intervallbreite“ ist somit minimal für x0 = x und wird größer wenn sich | x0 - �� | erhöht.

Beispiel: Jetzt wollen wir ein 95 % - Konfidenzintervall von E(y,x0) für die

Kraftstoffverbrauchdaten bestimmen. Dazu wird in die gerade aufgestellte Formel

dementsprechend eingesetzt

��0 − 2,101√0,352(1

20+(𝑥0 − 99,7)²

36838,2 ≤ 𝐄(𝐲|𝐱𝟎) ≤ ��0 + 2,101√0,352(

1

20+(𝑥0 − 99,7)²

36838,2

Ist zum Beispiel x0 = �� = 99,7, so ist ��0 = 6,19 und wir erhalten folgendes 95% Intervall

5,91≤ 𝐄(𝐲|𝟗𝟗, 𝟕) ≤ 6,47

2.5.3 Interpolation und Extrapolation neuer Beobachtungen

Eine Extrapolation entspricht der Schätzung von Datenpunkten auf der Regressions-

geraden über den gesicherten Bereich der vorgegebenen x-Werte hinaus wohingegen die

Interpolation jene Herangehensweise beschreibt, bei welcher innerhalb des Bereichs

gesicherter Werte, auch jene Funktionswerte von x durch die Gerade geschätzt werden,

die gar nicht untersucht wurden.

Page 41: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 34 -

Abbildung 9: Beispiel für Extrapolation / Beispiel für Interpolation

Obwohl diese Verfahren fehlerbehaftet sind, dienen derartige Anwendungen des

Modells zur Vorhersage neuer Beobachtungen. Allerdings ist das Konfidenzintervall

des Erwartungswertes bei x = x0 ungeeignet, um die zukünftige Beobachtung y0 zu

schätzen, weil dies eine Intervallschätzung des Erwartungswertes von y, also einem

Parameter und nicht von einer Wahrscheinlichkeitsaussage über

Zukunftsbeobachtungen dieser Verteilung ist. Ein Vorhersageintervall für die

Zukunftsbeobachtungen kann allerdings dennoch durch:

y0 − tα2,n−2

√σ2 (1 +1

n+(x0 − x)2

Sx2) ≤ y0 ≤ y0 + tα

2,n−2

√σ2 (1 +1

n+(x0 − x)2

Sx2)

angegeben werden. Dieses Vorhersageintervall ist wiederum minimal bei x0 = x und

wird größer wenn sich |x0 −x| erhöht. Ein Vergleich mit dem Konfidenzintervall

darüber deutet darauf hin, dass das Vorhersageintervall bei x0 immer größer ist als das

Konfidenzintervall bei x0, weil das Vorhersageintervall zum einen vom Fehler des

beobachteten Modells und zum anderen von jenem Fehler, der in Zusammenhang mit

den Zukunftsbeobachtungen steht, abhängt.

2.5.4 Maximum-Likelihood Schätzung

Die Methode der kleinsten Quadrate kann angewendet werden, um die Parameter eines

linearen Regressionsmodells zu schätzen und zwar ohne Rücksicht auf die Art der

Verteilung der Fehler ε. Andere statistische Verfahren wie Hypothesentests und die

Konstruktion von Konfidenzintervallen setzen hingegen sehr wohl die

Normalverteilung der Fehler voraus. In komplexeren Fällen, wenn zum Beispiel der zu

schätzende Zusammenhang nicht linear ist, kann jedoch in etwa mit der Maximum-

Likelihood-Methode auf ein alternatives Verfahren zur Schätzung unbekannter

Parameter zurückgegriffen werden.

Im Wesentlichen geht es bei einer Maximum-Likelihood Methode darum, eine konkrete

Stichprobe vorliegen zu haben und die Frage zu beantworten, für welche

Parameterwerte (z.B. Mittelwert und/oder Varianz) das Zustandekommen dieser

konkreten Stichprobe „am wahrscheinlichsten“ ist. Dazu muss allerdings a-priori

Page 42: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 35 -

bekannt sein, aus welcher Verteilung diese Stichprobe gezogen wurde. In dieser

Hinsicht ist somit die kleinste-Quadrate-Methode weniger restriktiv.

Wir betrachten die Methode zuerst für den einfachsten Fall, nämlich für die Verteilung

einer Zufallsvariablen X mit der Wahrscheinlichkeitsfunktion bzw. Dichte f(x), die von

einem einzelnen Parameter u abhängt. Das betreffende Experiment werde dann n-mal

ausgeführt und die so erhaltene Stichprobe von n voneinander unabhängigen Werten sei

x1, x2, ..., xn.

Im Fall einer diskreten Variablen ist dann die Wahrscheinlichkeit, eine Stichprobe zu

erhalten, die gerade aus den obigen Werten besteht, durch das folgende Produkt

gegeben

𝐋 = f(x1)f(x2)… f(xn) (44)

denn f(x1) ist die Wahrscheinlichkeit, mit der X den Wert x1 annimmt, usw. Ist X stetig

verteilt, so ist dementsprechend die Wahrscheinlichkeit, eine Stichprobe zu erhalten, die

sich gerade aus n Werten zusammen setzt, die in den kleinen Intervallen

𝑥1 ≤ 𝑥 ≤ 𝑥1 + ∆𝑥,… , 𝑥𝑛 ≤ 𝑥 ≤ 𝑥𝑛 + ∆𝑥

liegen, gegeben durch 𝑓(𝑥1)∆𝑥 ∙ 𝑓(𝑥2)∆𝑥… .∙ 𝑓(𝑥𝑛)∆𝑥 = 𝑙(∆𝑥)𝑛

Nachdem die Werte f(𝑥1),..., f(xn) von u abhängen und L demnach von x1, ..., xn und

auch von u abhängt, so ist L = L(x1, ..., xn, u) und wird als Likelihood-Funktion

bezeichnet.

Für die Maximum-Likelihood-Methode gilt nun, als Näherung für den unbekannten

Parameter u einen Wert zu nehmen, für den (die Wahrscheinlichkeit) L möglichst

maximal wird.

Dazu bildet man die partielle Ableitung von L nach u

𝜕𝑙

𝜕𝑢= 0

und zwar deshalb die partielle Ableitung, weil l auch von den Größen x1,... ,xn abhängt.

Da f(x) nicht negativ ist, so ist L an der Stelle eines Maximums i. A. positiv.

Der natürliche Logarithmus ln L ist genauso eine monoton wachsende Funktion von L,

die dort ein Maximum hat, wo L ein Maximum hat, dadurch verwenden wir:

𝜕 ln 𝐿

𝜕𝑢= 0 (45)

Dementsprechend erhält man bei einer Verteilung mit mehreren, z. B z-Parameter

u1,...uz, die z-Gleichungen

𝜕𝐿

𝜕𝑢1= 0,… ,

𝜕𝐿

𝜕𝑢𝑧= 0 →

𝜕 ln 𝐿

𝜕𝑢1= 0,… ,

𝜕 ln 𝐿

𝜕𝑢𝑧= 0

Somit hat man anstatt lästiger Differentiation von Produkten nur Summen zu

differenzieren.

Wird nun eine Stichprobe aus einer gegebenen Verteilung gezogen, so gibt die

Wahrscheinlichkeitsfunktion (charakterisiert durch einen unbekannten Parameter τ die

Wahrscheinlichkeit an, mit der die Realisationen gezogen werden und hängt natürlich

von den Parametern der Grundgesamtheit ab, z.B. dem Mittelwert.

Page 43: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 36 -

f(y1, … , yn|τ) = f(Y = y1|τ) ∙ … ∙ f(Y = yn|τ) =∏f(Y = yi|τ)

n

i=1

gibt die Wahrscheinlichkeit der Realisation dieser Stichprobe für gegebene Parameter τ

an und die Likelihoodfunktion L interpretiert nun diese gemeinsame

Wahrscheinlichkeitsfunktion als Funktion unbekannter Parameter τ für gegebene

Beobachtungen.

L(τ|Y) = l(τ|Y = y1) ∙ … ∙ l(τ|Y = yn) =∏l(τ|yi)

n

i=1

Aus der Dichtefunktion von Y:

f(yi, µ, σ2) =

1

σ√2πe−(yi−µ)2σ2

folgt die Likelihoodfunktion einer Stichprobe vom Umfang n:

⇒ L(µ, ��2|𝑦) =∏1

2π²σ2e−−(yi−𝑚)²2σ2

n

i=1

Aufgrund der Monotonieeigenschaften des Logarithmus bildet man nun die Log-

Likelihood Funktion:

ln 𝐿 = −𝑛 ∙ 𝑙𝑛𝜎 − 𝑛 ∙ 𝑙𝑛√2𝜋 −1

2𝜎2−

1

2𝜎2∑(𝑦𝑖 −𝑚)

2

Auch wenn sich die Form dieser Log-Likelihood Funktion bei wiederholten Ziehungen

von Stichprobe zu Stichprobe unterscheidet, kann für eine gegebene Stichprobe ein

Schätzwert für den Parameterwert µ berechnet werden, der eben diese konkrete

Stichprobe „am wahrscheinlichsten macht“.

Das Maximum dieser Funktion erhält man, durch Null-setzen der ersten (partiellen)

Ableitungen der Log-L.-Funktion:

∂ ln L

∂µ=

2

2σ2∑(yi −m)

n

i=1

= 0

∑yi

n

i=1

= n ∙ m

m = ∑ yin= y

∂ ln L

∂σ= −

n

s+1

s3 ∑(yi −m)

2 = 0

n

i=1

∑(yi −m)2 = ns2

n

i=1

s2 =∑(yi − µ)²

n

Page 44: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 37 -

Beispiel (Poisson-Verteilung):

Unter Verwendung einer Stichprobe x1,...,xn gewinnt man eine Maximum-L.-

Schätzfunktion für den Parameter μ der Poissonverteilung f(x) = 𝜇 𝑥

𝑥 ! 𝑒−𝜇. Für L ergibt

sich durch (44) folgendes Produkt:

𝐿 =𝜇𝑥1

𝑥1!𝑒−𝜇 ∙

𝜇𝑥2

𝑥2!𝑒−𝜇…

𝜇𝑥𝑛

𝑥𝑛!𝑒−𝜇

Durch zusammenfassen der Exponentialfaktoren und auch der Potenzen folgt

𝐿 =1

𝑥1! … 𝑥𝑛!𝜇𝑥1+⋯+𝑥𝑛 𝑒−𝑛𝜇 =

1

𝑥1! … 𝑥𝑛!𝜇𝑛��𝑒−𝑛𝜇

durch logarithmieren: ln 𝐿 = − ln(𝑥1! … 𝑥𝑛!) + 𝑛�� ln 𝜇 − 𝑛𝜇

Also hat hier (45) die Form: 𝜕 ln𝐿

𝜕𝜇=𝑛��

𝜇− 𝑛 = 0 und die Schätzfunktion 𝜇:

𝜇 = �� =1

𝑛(𝑥1 +⋯𝑥𝑛)

2.5.5 Simultane Rückschlüsse auf die Modellparameter

In den vorangegangenen Unterkapiteln wurden einige Typen von Konfidenz- und

Vorhersageintervallen definiert und es zeigte sich, dass einige Probleme entstehen,

wenn derartige Intervalle für ein und dieselbe Stichprobe bestimmt werden. In diesem

Fall ist der Analyst für gewöhnlich an einem speziellen Faktor bzw. Koeffizient

interessiert, der simultan auf eine Auswahl von Intervallschätzungen zutrifft. Diese

Auswahl von Intervallen, die gleichzeitig mit Wahrscheinlichkeit 1- α stimmen, heißen

simultane Konfidenz-/Vorhersageintervalle.

Betrachtet man nun die Schätzung für 𝛽0 und 𝛽1 mit einem ausgewählten

Konfidenzbereich, so dass mit einer Überzeugung von 100(1- α) % beide Schätzungen

korrekt sind, so ist das Modell gegeben durch:

y = β0 + β1x + ε = β0´ + β1(x − x) + ε

Die kleinste-Quadrate Schätzer von β0 und β1 sind β0´ = y und β1

´ =Sxy

Sxx mit:

Var(β0´ ) =

σ2

n bzw. Var(β1´)

=σ2

Sxx und Standardnormalverteilungen zum Quadrat:

[��0´ −𝛽0

´

√𝜎2

𝑛

]

2

=𝑛(��0

´−𝛽0´ )²

σ2 ~ 𝜒1

2 und [��1−𝛽1

´

√𝜎2

𝑛

]

2

=𝑆𝑥𝑥(��0

´ −𝛽0´ )

σ2 ~ 𝜒1

2 (46)

Die Additivitätseigenschaft von Chi-Quadrat und die Unabhängigkeit der beiden eben

betrachteten Chi-Quadrat-verteilten Zufallsvariablen ��0´ und ��´1 lässt auf folgendes

schließen:

𝑛(��0´ − 𝛽0

´ )²

σ2+𝑆𝑥𝑥(��0

´ − 𝛽0´ )

σ2 ~ 𝜒2

2

Page 45: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 38 -

Jetzt ist die Verteilung von (𝑛−2)��2

𝜎2, 𝜒𝑛−2

2 -verteilt und ��2 unabhängig von ��0´ und ��1

12 [𝑛(��0

´ − 𝛽0´ )2+ 𝑆𝑥𝑥(��1 − 𝛽1)

2

𝜎2]

[(𝑛 − 2)��2

σ2]

=𝑛(��0

´ − 𝛽0´ )2+ 𝑆𝑥𝑥(��1 − 𝛽1)²

2��2

Substituieren ��0´ = ��0 + ��1�� und 𝛽0

´ = 𝛽0 + 𝛽1��:

𝑃 (𝑛(��0 − 𝛽0)

2+ 2∑𝑥𝑖(��0 − 𝛽0)(��1 − 𝛽1) + ∑𝑥𝑖

2(��1 − 𝛽1)²

2��2≤ 𝐹𝛼.2.𝑛−2) = 1 − 𝛼

Diese Gleichung definiert dann sogar eine Ellipse, welche bei wiederholtem Ziehen

einer Stichprobe aus der Grundgesamtheit, 𝛽0 und 𝛽1 in 100(1-α)% der Fälle

gleichzeitig enthält.

Beispiel: Für eine Konstruktion dieser Konfidenzregion werden wiederum die

Kraftstoffverbrauchdaten herangezogen. Um eine 95 % Konfidenzregion für β0 und β1

bestimmen zu können, setzen wir β0 = 3,099, β1 = 0,031, ∑ xi2 = 235 64020

i=1 , σ2 =

0,352 und F0,05, 2, 18 = 𝟑, 𝟓𝟓 in die Ungleichung oben ein und erhalten folgendes

[ 20 (3,099 − 𝛽0)² + 2 (1994)(3,099 − 𝛽0) (0,031 − β1) +

+ (235640)(0,031 − 𝛽1)²] / [2(0,352)] = 𝟑, 𝟓𝟓

als Außengrenze der Ellipse.

Anzumerken ist, dass die Ellipse nicht parallel zur β1 – Achse und die Schiefe der

Ellipse eine Funktion der Kovarianz zwischen ��0 und ��1 ist, welche durch −��𝜎2/𝑆𝑥𝑥

beschrieben wird. Liegt eine positive Kovarianz vor, so wird angenommen, dass die

Fehler in den Punktschätzungen von 𝛽0 und 𝛽1 voraussichtlich in derselben Richtung

liegen während eine negative Kovarianz indiziert, dass diese Fehler wahrscheinlich in

entgegengesetzte Richtungen liegen. In unserem Beispiel ist �� positiv, weshalb die

Kovarianz Cov(��0, ��1) negativ ist. Die Ausdehnung der Region hängt von den relativen

Größen der Varianzen von 𝛽0 und 𝛽1 ab.

��0

��1

𝛽0 𝛽0 𝛽0

𝛽1

Page 46: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

2. DAS LINEARE REGRESSIONSMODELL

- 39 -

Abbildung 10: 95 % - Konfidenzregion für 𝜷𝟎 und 𝜷𝟏 für die Kraftstoffverbrauchsdaten

Zusätzlich gibt es eine andere allgemeine Annäherung, um ähnliche

Intervallschätzungen der Parameter in einem einfachen linearen Regressionsmodell zu

erhalten. Diese Konfidenzintervalle können nun so konstruiert werden, indem man 𝜷𝒋 ∓

∆𝒔𝒆(𝜷𝒋) mit j = 0,1verwendet, wo das konstante ∆ derart gewählt wird, dass beide

Intervalle korrekt sind. Nun können einige Methoden gewählt werden um ∆ zu

bestimmen:

Die Bonferroni Methode

Die Bonferroni-Konfidenzintervalle sind irgendwie gewöhnliche Konfidenzintervalle

basierend auf der t- Verteilung, außer dass jedes einzelne Konfidenzintervall für 𝛽0 den

Konfidenzkoeffizienten 1 – α/2 anstelle von 1- α hat. Bei dieser Approximation setzen

wir ∆ = tα/4, n-p so dass dies eingesetzt 𝜷𝒋 ∓ tα4,n−p 𝒔𝒆(𝜷𝒋) mit j = 0,1 ergibt. Um zu

verifizieren, dass diese Approximation zu korrekten Aussagen führt, wird angenommen,

dass E0 das Ereignis für ein falsches Konfidenzintervall für β0 ist und E1 jenes Ereignis,

dass das Konfidenzintervall für β1 inkorrekt ist, so dass P(E0) =P(E1)=α/2

Die Wahrscheinlichkeit dass entweder eines oder beide Ereignisse inkorrekt sind ist:

P (E0 ∪ E1) = P (E0) + P(E1) – P (E0 ∩ E1) (47) (I)

und

1 – P(E0 ∪ E1) = 1 – P(E0) – P(E1) + P(E0 ∩ E1) (II)

Nachdem 1 – P (E0 ∪ E1) = P(𝐸0 ∪ 𝐸1 ) = P(��0 ∩ ��1), ist die linke Seite von (II) die

Wahrscheinlichkeit, dass beide Konfidenzintervalle korrekt sind. Nachdem außerdem

P(E0 ∩ E1) ≥ 0 ist, können wir (II) folgendermaßen schreiben:

P(��0 ∩ ��1) = P (beide Intervalle sind korrekt)

≥ 1 – P(E0) – P(E1)

≥ 1 – α/2 – α/2 ≥ 1 – α (Dieser Ausdruck nennt sich Bonferroni Ungleichheit)

Es muss β0 und β1 mit Konfidenzintervallen geschätzt werden, so dass der gwählte

Koeffizient zumindest 1 – α ist und dann werden 100(1 – α/2) % Konfidenzintervalle

gebildet, sowohl für β0 als auch β1.

Beispiel für die Kraftstoffverbrauchdaten (siehe Tabelle im Anhang)

Bilden eines 90 % Konfidenzintervalls für β0 und β1, indem ein 95 % Intervall für jeden

Parameter aufgestellt wird wird.

��0 = 3,099 , 𝑠𝑒(��0) =0,335

��1 = 0,031 , 𝑠𝑒(��1) = 0,352

und t0,05/2, 18 = 2,101, die Konfidenzintervalle sind allgemein

��0 − 𝑡0,025,18 𝑠𝑒(��0) ≤ β0 ≤ ��0 + 𝑡0,025,18 𝑠𝑒(��0)

Page 47: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ

- 40 -

��1 − 𝑡0,025,18 𝑠𝑒(��1) ≤ β1 ≤ ��1 + 𝑡0,025,18 𝑠𝑒(��1)

Allerdings ist die Bonferroni Methode nicht die einzige Approximation um ∆ passend

zu wählen, sondern andere Methoden wie die Scheffe S- Methode mit ∆ = (2Fα,2,n-2) 1/2

oder das Maximum-Modul t - Verfahren mit ∆ = uα, 2, n – 2 , wo uα, 2, n-2 der obere

Ausläufer der Verteilung vom absoluten Maximalwert zweier unabhängig verteilter

student-t Zufallsvariablen gewählt wird, sind ebenso geeignet.

Kapitel 3

3. MASSZAHLEN FÜR DIE

MODELLADÄQUANZ

Die wesentlichen Annahmen die bislang behandelt wurden, sind die folgenden:

- linearer Zusammenhang zwischen x und y oder zumindest eine näherungsweise

Beziehung durch eine Gerade

- der Fehler ε hat Erwartungswert 0

- der Fehler ε hat eine konstante Varianz 𝜎2

- die Fehler sind unkorreliert

- die Fehler sind normalverteilt

Nun sollen einige Typen von Modellunzulänglichkeiten diskutiert werden, die potentiell

ernstzunehmende Folgen haben und dazu führen können, dass verschiedene Stichproben

ein komplett anderes Modell mit gegenteiligen Schlussfolgerungen ergeben. Für

gewöhnlich können Abweichungen von den zugrundeliegenden Annahmen nicht durch

Überprüfung der Standardstatistiken (wie T-Statistik, F-Statisitk oder R²) geschützt

werden, weil diese „globale“ Modelleigenschaften sind und als solche die

Angemessenheit des Modells nicht garantieren. Deshalb ist es das ausgewiesene Ziel,

hier einige nützliche Methoden für die Diagnose und den Umgang mit Verletzungen der

einfachen Regressionsannahmen vorzustellen.

3.1 Residualanalyse

Die Residualanalyse ist im Rahmen der Regressionsmodelle ziemlich bedeutend, darum

werden zuerst kurz die zentralen Ziele und Anwendungsgebiete der Untersuchung von

Residuen vorgestellt werden, um dann die Residuen im Klassischen Linearen Modell

zu definieren und anzuwenden. Das darauffolgende Kapitel bezieht sich dann auf den

allgemeinen Gebrauch der geschätzten Störterme im Kontext der Generalisierten

Linearen Modelle (GLM).

Page 48: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ

- 41 -

Die Vorteile der unterschiedlichen Formulierungen der Residualanalyse sind vor allem

im Hinblick auf die Modelldiagnostik zu untersuchen. Zudem wird die Residualanalyse

in der multiplen linearen Regression zur Annahmenprüfung (z.B von

Varianzhomogenität oder Unkorreliertheit der Fehlerterme) verwendet, um die Gestalt

des linearen Prädiktors zu diskutieren, der die systematische Komponente

charakterisiert. Zudem kann auch das Untersuchen von Ausreißern ein

Anwendungsgebiet für die Residualanalyse sein.

3.1.1 Definition der Residuen

Die Residuen wurden definiert durch:

𝑒𝑖 = 𝑦𝑖 − ��𝑖 i = 1, ... ,n (48)

wobei 𝑦𝑖 eine exakte Beobachtung und ��𝑖 der entsprechende geschätzte Wert ist. Das

Residuum kann somit betrachtet werden als die Differenz zwischen exaktem und

geschätztem Wert und stellt eine Maßzahl für die Schwankungen dar, die nicht im

Modell erklärt werden. Darum sollen einige Abweichungen der angenommenen

Annahmen der Fehler in den Residuen aufgezeigt werden, wie zum Beispiel ein

Erwartungswert gleich Null oder eine geschätzte durchschnittliche Varianz von ��2:

∑ (𝑒𝑖−𝑒)²𝑛𝑖=1

𝑛−2=∑ 𝑒𝑖

2𝑛𝑖=1

𝑛−2= ��2 (49)

Nachdem die Residuen nicht unabhängig sind, führt das zu Auswirkungen auf die

Modelladäquanz, solange n nicht zu klein ist. Darum ist es vorteilhaft, manchmal

„standardisierte Residuen“ anzuwenden:

𝑑𝑖 =𝑒𝑖

√��2, i= 1, ... ,n (50)

Die standardisierten Residuen haben den Erwartungswert Null und näherungsweise

einheitliche Varianz. Zudem unterteilt diese Gleichung die Residuen in Gruppen mit

einheitlicher mittlerer Standardabweichung, weil in einigen (einfachen) linearen

Regressionsdatensätzen Residuen auftreten können, deren Standardabweichungen sich

markant unterscheiden.

Var (ei) = Var (yi − yi)

= Var(yi) + Var(yi) − 2Cov(yi, yi)

= σ2 + σ2 [1

n+(xi−x)

2

Sxx] − 2Cov(yi, yi)

⟹ Cov(yi, yi) = Cov[yi, y +Sxy

Sx2 (xi − x)]

= σ2[1

n+(xi−x)

2

Sxx]

Nachdem eine Hauptaufgabe im Linearen Modell darin besteht, die Modellannahmen zu

prüfen und insbesondere die Residuen zu betrachten, gibt es dafür verschiedene

Page 49: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ

- 42 -

Definitionen der zu untersuchenden Residuen, wobei die intuitivste Form der

Unterschied zwischen dem durch die Regression vorhergesagten Wert und dem

beobachteten Wert ist. Außerdem sollten im Idealfall die Residualplots keine (bzw. nur

geringe) Varianzhomogenität aufweisen bzw. keine Autokorrelationsstruktur haben.

Die Varianzhomogenität kann somit nicht durch die normalen Residuen graphisch

diskutiert werden, weil diese Residuen Varianzheterogenität aufweisen, auch wenn die

Annahmen der Regression erfüllt sind. Aus diesem Grund wird eine mögliche

Standardisierung eingeführt. Daraus wiederum folgt die Varianz des i-ten

Residuums:

Var(ei) = σ2 [1 − (

1

n+(xi−x)

2

Sxx)]

Die „studentisierten Residuen“ können dann definiert werden durch:

ri =ei

√σ2[1−(1

n+(xi−x)

2

Sxx)]

, i=1, ... ,n (51)

pii

Im Nenner der Formel der standardisierten Residuen existiert die geschätzte

Standardabweichung der Residuen, welche wiederum von den 𝑒𝑖 abhängt. Aus diesem

Grund lässt sich bei (50) keine Verteilung der standardisierten Residuen angeben, mit

den studentisierten Residuen gelingt dies jedoch. In (51) wird das gewöhnliche kleinste-

Quadrate Residuum 𝑒𝑖 geteilt durch den exakten Standardfehler. Die Anwendung des

studentisierten Residuums bei Regressions- diagnosen ist vor allem bei kleinen

Datensätzen ziemlich nützlich, weil dadurch oft eine geeignetere Gruppierung der

Varianzen gegeben ist, im Gegensatz zu den Standardresiduen, und die Differenzen bei

Residuenvarianzen deutlicher sind. Bei großem n tritt nur ein kleiner Unterschied

zwischen den zwei Methoden der kleinste-Quadrate Residuen auf. Im nächsten

Abschnitt werden nun einige Residuenplots vorgestellt, die nützlich sind, um

Unangemessenheiten des Modells aufzudecken.

Standardisierte und studentisierte Residuen der Kraftstoffdaten:

Page 50: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ

- 43 -

Tabelle 8: Standardisierte und studentisierte Residuen der Kraftstoffdaten

3.1.2 Formen der Residualanalyse im linearen Modell

Die Residualanalyse ermöglicht eine Untersuchung der Modellannahmen bezogen auf

die Störgröße durch graphische Methoden. Besondere Beachtung wird dabei dem

Normalverteilungs-Plot, dem Plot von Residuen gegen ��𝑖 und dem Plot von Residuen

gegen xi, geschenkt.

Normalverteilungs-Plot

Obwohl kleine Abweichungen von der Normalverteilung das Modell nicht so stark

beeinflussen, sind Abweichungen der Normalverteilung wesentlich ernstzunehmender

als die T- oder F-Statistiken, denn Konfidenz- und Vorhersageintervalle hängen von der

Normalverteilungsannahme ab. Außerdem können die kleinste-Quadrate-Schätzer auf

eine kleine Teilmenge der Daten empfindlich reagieren, wenn die Fehler von einer

Verteilung mit dickerem / größerem Rest als bei der Normalverteilung herrühren.

Eine einfache Methode um die Normalverteilungsannahme zu überprüfen besteht darin,

die Residuen auf Normalwahrscheinlichkeitspapier zu plotten. Dieses Papier ist so

formatiert, dass die kumulative Normalverteilung als Gerade geplottet wird.

Page 51: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ

- 44 -

Abbildung 11: Beispiele für Normalverteilungsplots: (a) ideal; (b) “heavy tailed“ Verteilung; (c) „light-tailed“

Verteilung; (d) positive Schiefe

Angenommen e1 < e2 < ... < en seien die Residuen, die in aufsteigender Form geordnet

sind. Wenn nun ei gegen die kumulative Wahrscheinlichkeit (bzw. erwarteter

Normalverteilungswert) Pi = (i – 1/2) / n auf Normalverteilungspapier geplotet wird, so

sollten die Punkte näherungsweise auf einer Geraden liegen. Das folgt aus der Tatsache,

dass E(ei) = Φ -1[(i - 1/2) / n] angenommen wird. Beträchtliche Abweichungen von einer

Gerade indizieren, dass die Verteilung nicht normal ist.

Abbildung 11 a) zeigt einen „idealisierten“ Normalverteilungsplot bei dem die Punkte

annähernd um eine Gerade streuen. Die Darstellungen b) – d) zeigen andere typische

Probleme. So sieht man in Beispiel b) eine stark ansteigende Kurve, die sich dann

abflacht, ehe sie wieder stärker steigt, was indiziert, dass die Enden dieser Verteilung zu

heftig abweichen, um als Normalverteilung klassifiziert zu werden. Umgekehrt zeigt c)

eine Abflachung an den Enden, eine typische Sorge bei Beispielen mit Verteilungen, die

dünnere Enden haben, als die normale. Das Studieren derartiger Plots, trägt insgesamt

dazu bei, ein Gefühl dafür zu bekommen, wie viel Abweichung von der Geraden

akzeptabel ist. Außerdem kann angemerkt werden, dass Normalverteilungsplots oft gar

kein ungewöhnliches Verhalten zeigen, sogar dann, wenn die Fehler εi nicht

normalverteilt sind. Dieses Problem entsteht, weil die Residuen keine einfache

Page 52: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ

- 45 -

Zufallsstichprobe sind; vielmehr sind sie ein Überbleibsel eines Parameter

Schätzprozesses, die sich als Linearkombinationen der Modellfehler εi darstellen lassen.

Deshalb führt ein Anpassen der Parameter zur Vernichtung der Beweislage für

Nichtnormalität in den Residuen und folglich können wir uns nicht immer auf

Normalverteilungsplots stützen, um Abweichungen von der Normalverteilung

aufzudecken. Ein gängiger Defekt, welcher in Normalverteilungsplots aufgezeigt wird,

ist das Auftreten von ein bis zwei großen Residuen, die manchmal ein Indiz dafür sind,

dass die korrespondierenden Beobachtungen Ausreißer sind. (siehe Abschnitt 3.2).

3.1.3 Plot von Residuen gegen ��𝒊 Ein Plot der Residuen ei (oder der skalierten Residuen di oder ri) versus der

korrespondierenden beobachteten Werte ��𝑖, ist dazu nützlich, um einige gängige Typen

von Modellunangemessenheiten aufzudecken. Wenn ein Plot der unten dargestellten

Abbildung a) ähnelt, was indiziert, dass die Residuen um ein horizontales Band streuen,

dann liegen keine offensichtlichen Modelldefekte vor. Plots von ei versus yi die einer

der Musterdarstellungen b) - d) ähneln, sind symptomatisch für Modelldefizite.

Abbildung 12: Muster für Residuenplots

Die Muster in den Darstellungen b) und c) indizieren, dass die Varianz der Fehler nicht

konstant ist. Das nach außen offene Trichtermuster in b) sagt aus, dass die Varianz eine

ansteigende Funktion von y ist. Die Darstellung c) tritt oft auf, wenn y ein Maß

zwischen null und eins ist. Die varianz der Binomialverteilung nahe 0,5 ist größer als

eine nahe 0 oder 1. Die gewöhnliche Annäherung an derartige Varianz

Ungleichmäßigkeiten erfolgt durch die Wahl einer geeigneten Transformation für die

0 0

��𝑖 ��𝑖

��𝑖 ��𝑖

0 0

��𝑖 ��𝑖

��𝑖 ��𝑖

(a) (b)

(c) (d)

Page 53: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ

- 46 -

abhängige oder unabhängige Variable bzw. durch die Methode der Gewichtung der

kleinsten Quadrate. Ein Kurvenplot wie in d) ist ein Indiz für Nichtlinearität, was

bedeuten kann, dass andere Regressorvariablen im Modell zusätzlich gebraucht werden.

Ein Plot von Residuen gegen ��𝑖 kann auch das eine oder andere ungewöhnlich große

Residuum enthüllen. Diese Punkte sind natürlich potentielle Ausreißer. Große Residuen

die als extreme ��𝑖 Werte auftreten könnten auch bedeuten, dass entweder die varianz

nicht konstant ist oder die wahre Beziehung zwischen y und x nicht linear ist. Diese

Möglichkeiten sollten untersucht werden, bevor man Punkte als Ausreißer betrachtet.

3.1.4 Plot von Residuen gegen xi

Die Residuen gegen die korrespondierenden Werte der Regressorvariable zu ploten ist

auch hilfreich, weil diese Plots oft Muster wie jene in der Abbildung oben aufweisen,

mit dem Unterschied, dass die horizontale Skalierung nicht ��𝑖 ist, sondern xi. Wiederum

ist der Anblick eines horizontalen Bandes, um das die Residuen streuen wünschenswert.

Abbildung 13: Plot der Residuen ei gegen die geschätzten yi

3.1.5 Andere Residuenplots

Zusätzlich zu diesen standardmäßigen Residuenplots gibt es einige andere die

gelegentlich sinnvoll sein können. Wenn die Zeitspanne zum Beispiel bekannt ist, in der

die Daten gesammelt wurden, kann es sinnvoll sein, die Residuen und verschiedenen

Zeitpunkte in einem Koordinatensystem zusammen zu ploten. Sofern die entstehende

Punktwolke ähnlich zu einem Muster oben ist, ist das ein Indiz dafür, dass sich die

Varianz mit der Zeit ändert oder dass mit der Zeit lineare oder quadratische Terme mit

der Zeit zum Modell hinzugefügt werden. Dieser Zeitsequenz-Plot der Residuen kann

indizieren, dass die Fehler einer Zeitperiode mit Fehlern anderer Zeitperioden

korrelieren. Die Korrelation zwischen Modellfehlern zu unterschiedlichen Zeitperioden

nennt man Autokorrelation.

Page 54: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ

- 47 -

Abbildung 14: ein Prototyp von Residuenplots gegen die Zeit zeigt Autokorrelation in den Fehlern a)

positive Autokorrelation; b) negative Autokorrelation

Die Präsenz von Autokorrelation in den Fehlern ist ein ernstzunehmendes Vergehen

gegen die Basisregressionsannahmen.

Außerdem können manchmal Modellunangemessenheiten aufgedeckt werden, indem

man Residuen gegen irgendwelche weggelassenen Regressoren plotet. Natürlich ist ein

derartiger Plot nur möglich, wenn die Ebenen der weggelassenen Regressoren bekannt

sind. Irgendein systematisches Muster, dass sich dadurch ergibt, indiziert, dass das

Modell durch Hinzufügen des neuen Regressors verbessert werden kann.

3.2 Erkennung bzw. Umgang mit Ausreißern

Datenanalysen sollten nach Möglichkeit, neben der Überprüfung der Modellannahmen,

die Erkennung sowie den Umgang mit extremen/ weit entlegenen Punkten, sogenannten

Ausreißern sowie die Suche nach deren Ursachen umschließen. Residuen die größere

absolute Werte als die anderen haben, sagen wir drei oder vier Standardabweichungen

vom Mittelwert, sind potentielle Ausreißer. Abhängig vom x-Wert, können Ausreißer

moderate bis sehr ernstzunehmende Effekte auf das Regressionsmodell haben.

Residuenplots gegen yi und der Normalverteilungsplot sind hilfreich zum identifizieren

von Ausreißern. Sie sollten sorgfältig untersucht werden, um einen eventuellen Grund

für ihr ungewöhnliches Verhalten zu finden. Manchmal sind Ausreißer „schlechte“

Werte, die als Resultat ungewöhnlicher aber erklärbarer Ereignisse auftreten. Beispiele

können mangelhafte Messungen oder Analysis, eine inkorrekte Datenerhebung und

Fehler des Messinstrumentes sein. Wenn das der Fall sein sollte, dann ist es angebracht,

den Ausreißer (wenn möglich) zu korrigieren oder aus dem Datensatz zu löschen.

Klarerweise ist es wünschenswert schlechte Werte sofort zu verwerfen, weil die

Kleinsten Quadrate die angepasste Gleichung verfälschen können, so wie wenn sie die

Quadratsumme der Residuen minimiert. Bei der einfachen linearen Regression kann

man diese Punkte durch betrachten des Streudiagramms der Wertepaare (xi, yi)

aufdecken. Allerdings nehmen wir an, dass ein strenger nichtstatistischer Beweis

vorliegen sollte, dass der Ausreißer ein schlechter Wert ist, bevor man ihn degradiert.

In den nachfolgenden Abbildungen sieht man, dass x-Werte die abseits der anderen x-

Werte liegen, relativ starken Einfluss auf das Regressionsmodell ausüben. In der

Darstellung wurde die Regressionsgerade mit („strichlierte Linie“) und ohne die

extremen Punkte („durchgezogene Linie“ ) eingezeichnet.

0 0

Zeit Zeit

ei ei

Page 55: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ

- 48 -

Abbildung 15: a) β1 hängt stark von einem oder beiden Punkten A,B und C ab und die übrigen

Datenpunkte würden eine andere Schätzung ergeben, wenn diese Punkte entfernt würden. b) β1 wird zum

Großteil vom extremen Punkt A bestimmt; durch Weglassen dieses Punktes würde β1 womöglich null

sein.

Derartige Situationen treten in der Praxis häufig auf und aus den Abbildungen ist zu

erkennen, dass wir im Wesentlichen zwei Arten (siehe Kapitel 3.1) von Ausreißérn

unterscheiden:

Ausreißer in y-Richtung (Abbildung a)

Ausreißer in x-Richtung

Natürlich kann ein Punkt auch beides erfüllen, allerdings trifft diese Unterteilung der

Ausreißer in x- bzw. y-Richtung nur für die einfache lineare Regression zu.

Für die lineare Mehrfachregression ist es hingegen nicht mehr so einfach, Ausreißer

durch die graphische Veranschaulichung der Datenpunkte der

abhängigen/unabhängigen Variablen zu erkennen, weshalb die Residuen sowie die

Projektionsmatrix zur Analyse herangezogen werden. (siehe multiple Regression)

3.3 Test für den Mangel an Anpassung

Hier soll ein formaler statistischer Test für mangelnde Anpassung eines

Regressionsmodells vorgestellt werden. Dieses Verfahren geht davon aus, dass die

Normalitäts-. Unabhängigkeits- und konstanten Varianzannahmen erfüllt sind und nur

der „first order“ bzw. der geradlinige Charakter der Beziehung angezweifelt werden.

Betrachten wir zum Beispiel die Datenpunkte der Abbildung unten, so sprechen einige

Indizien dafür, dass diese geradlinige Regressionsgerade nicht zufriedenstellend ist und

es hilfreich sein könnte, ein Testverfahren anzuwenden, welches auf systematische

Anpassungsfehler der linearen Regression aufmerksam macht.

Der Test auf Anpassungsmangel erfordert, dass man die Anpassung von y für eine

Auswahl von x wiederholen sollte, wobei zu betonen ist, dass diese wiederholten

Anpassungen tatsächliche Abgleichungen der Messungen sein sollten und nicht nur

Duplikate der Ergebnisse. Angenommen in einem Beispiel sei y die Viskosität und x die

Temperatur, so besteht ein korrekter Abgleich im Durchlaufen von ni separaten

Experimenten bei x = xi und angepasster Viskosität und nicht darin, indem man ein

einziges Experiment bei xi durchlaufen lässt und die Viskosität ni mal misst. Denn die

beobachteten Angaben dieses Verfahrens liefern nur Information für die

Veränderlichkeit der Methode beim Messen der Viskosität. Die Fehlervarianz σ²

(a) (b) y

x

Page 56: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

3. MASSZAHLEN FÜR DIE MODELLADÄQUANZ

- 49 -

inkludiert diesen Messfehler und die Variabilität die verbunden wird mit dem Erreichen

bzw. Beibehalten des gleichen Temperaturlevels in unterschiedlichen Experimenten.

Diese aufgezählten Punkte werden nun verwendet, um eine modellunabhängige

Schätzung von σ² zu erhalten. Angenommen wir haben ni Beobachtungen als Reaktion

der i-ten Stichprobe xi mit i =1,..,m. Wir bezeichnen nun mit yij die j-te Beobachtung als

Reaktion auf xi mit j = 1,... ni. Somit gibt es n =∑ 𝑛𝑖𝑛𝑖=1 Beobachtungen insgesamt. Das

Testverfahren involviert wieder eine Untergliederung der Quadratumme von Residuen

in zwei Komponenten

∑𝑒𝑖2

𝑛

𝑖=1

= 𝐒𝐒𝐏𝐄 + 𝐒𝐒𝐋𝐎𝐅

wobei SSPE die Quadratsumme des reinen Fehlers („pure error“) und SSLOF die

Quadratsumme des Anpassungsmangels („lack of fit“) (siehe auch Kapitel 1).

Zur Entwicklung dieser Partitionierung von ∑𝑒𝑖2 wird angemerkt, dass das ij – te

Residuum jenes ist:

𝑦𝑖𝑗 − ��𝑖 = (𝑦𝑖𝑗 − ��𝑖) + (��𝑖 − ��𝑖)

wo ��𝑖 der Durchschnitt der ni Beobachtungen bei xi ist. Das Quadrieren beider Seiten

dieser Gleichung und die Summation über i und j führt zu

∑∑(𝑦𝑖𝑗 − ��𝑖)2=

𝑛𝑖

𝑗=1

𝑚

𝑖=1

∑∑(𝐲𝐢𝐣 − ��𝐢)𝟐+∑𝐧𝐢(��𝐢 − ��𝐢)²

𝐦

𝐢=𝟏

𝐧𝐢

𝐣=𝟏

𝐦

𝐢=𝟏

nachdem der Kreuzprodukt-Term gleich null ist.

Die linke Seite der Gleichung misst wiederum die gewöhnliche Quadratsumme der

Residuen und die zwei Komponenten der rechten Seite messen den „pure error“ und den

„lack of fit“. Man sieht, dass die reine Fehlerquadratsumme beobachtet werden kann,

indem man die korrigierte Quadratsumme der wiederholten Beobachtungen auf jedem

Level von x berechnet und dann über die m - Levels von x zusammenfasst.

Die Quadratsumme für den Anpassungsmangel ist dann eine gewichtete Quadratsumme

von Abweichungen zwischen dem mittleren beobachteten Wert ��𝑖 bei jedem x Level

und dem korrespondierenden, beobachteten Wert. Wenn die angepassten ��𝑖 Werte nahe

den korrespondierenden durchschnittlichen ��𝑖 Werten liegen, so ist das ein signifikantes

Indiz dafür, dass die Regressionsfunktion linear ist. Folgende Teststatistik lässt sich

dadurch bilden

𝐹0 =𝑆𝑆𝐿𝑂𝐹/(𝑚 − 2)

𝑆𝑆𝑃𝐸(𝑛 − 𝑚)=𝑀𝑆𝐿𝑂𝐹𝑀𝑆𝑃𝐸

(52)

Beispiel

x 1,0 2,0 3,3 3,3 4,0 4,0 4,0 4,7 5,0

y 10,84 16,35 22,88 24,35 24,56 25,46 29,16 24,59 22,25

x 5,6 5,6 5,6 6,0 6,0 6,5 6,9 1,0

y 25,9 27,2 25,61 25,45 26,56 21,03 21,46 9,30

Die angepasste Gerade ist �� = 13,301 + 2,108 𝑥 mit Syy = 487,613, SSR=234,71 und

∑𝑒𝑖2 = 252,90. Zusätzlich kann angemerkt werden, dass 10 individuelle Levels von x

Page 57: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 50 -

vorkommen, mit Wiederholungspunkten bei x = 1,0; x = 3,3; x= 4,0; x = 5,6 und x =

6,0. Die reine Fehlerquadratsumme wird berechnet, indem die wiederholten Punkte wie

folgt verwendet werden

Level von x ∑(yij − yi)j

² Freiheits-

grade

1,0 1,186 1

3,3 1,08 1

4,0 11,247 2

5,6 1,434 2

6,0 0,616 1

Total 15,563 7

Varianzanalyse (ANOVA) für dieses Beispiel

Quadrat

summe

Freiheits-

grade

Mittlere

Quad.

Abweichung

𝐹0

Regression 1,186 1 234,789

Residuum 1,08 1 16,860

„lack of fit“ 11,247 2 29,668 13,34

„pure error“ 1,434 2 2,223

Total 0,616 1 Tabelle 9 a,b und c: Varianzanalyse

SSLOF = ∑ 𝑒𝑖2𝑛

𝑖=1 - SSPE = 252,9 – 15,56 = 237,34 mit 10 – 2 = 8 Freiheitsgraden.

Dieser Test für den Mangel an Anpassung hat eine F - Statistik von 13,34 und nachdem

F0,25,8,7 = 1,7 ist, verwerfen wir die Hypothese, dass das Modell die Daten adäquat

beschreibt.

Kapitel 4

4. MULTIPLE LINEARE REGRESSION

Bislang wurde immer die lineare Abhängigkeit zweier Variablen behandelt, doch viele

praktische Anwendungen erfordern die simultane Berücksichtigung von mehr als nur

einer unabhängigen Variablen. Soll nun also der Erwartungswert einer Zielgröße Y als

lineare Funktion mehrerer Einflussgrößen x1, x2 … xk beschrieben werden, so kommt

die multiple bzw. mehrfache lineare Regression zur Anwendung, die eine

Verallgemeinerung der einfachen linearen Regression darstellt.

Page 58: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 51 -

Sind nun x1 ,…, xk mit k ≥ 2 die Regressoren bzw. Einflussgrößen und Y die Zielgröße,

so vermutet man einen linearen Zusammenhang zwischen den Regressoren (Xi) und

dem Regressand (Y) und legt folgendes Modell zugrunde:

yi = β0 + β1 xi1 + β2 xi2 + …+ βk xik + εi

mit für gewöhnlich unbekannten Parametern β0, β1, …, βk und dem Einfluss des

Fehlerterms εi, wobei für εi Erwartungswert 0 und Kovarianzmatrix σ² I vorausgesetzt

wird. Außerdem müssen die vorliegenden Gleichungen in den βj linear sein. Dank der

Matrixschreibweise kann das multiple Regressionsmodell sehr kompakt präsentiert

werden, indem man eine Stichprobenerhebung vom Umfang n, mit den Werten der

unabhängigen Merkmale X und des abhängigen Merkmals Y heran zieht:

𝐲 = 𝐗 β + 𝛆 (𝟓𝟒)

Dabei enthält der n-Vektor y die Beobachtungen des abhängigen Merkmals, während

die [n x (k + 1)] – Matrix bzw. auch Designmatrix, die Beobachtungen der k

unabhängigen Merkmale charakterisieren und als erste Spalte einen Vektor mit lauter

Einsen als Multiplikatoren für das Interzept beinhaltet. Der (k+1) -Vektor β enthält die

Regressionskoeffizienten und der n -Vektor ε die Störgrößen der Beobachtungen:

X = (

1 𝑥111 𝑥21

… 𝑥1𝑘… 𝑥2𝑘

⋮ ⋮1 𝑥𝑛1

⋱ ⋮… 𝑥𝑛𝑘

) , y = (

𝑦1𝑦2⋮𝑦𝑛

), β=(

𝛽0𝛽1⋮𝛽𝑘

), ε= (

𝜀1𝜀2⋮𝜀𝑛

)

Voraussetzung für die Designmatrix ist, die Beobachtungen an den Punkten (xi1,…xik)

zu betrachten, um zu garantieren, dass die Designmatrix vollen Rang hat. Denn

andernfalls kann es passieren, dass die Schätzer der Regressionskoeffizienten nicht

eindeutig sind, weil die xij nicht zufällige Größen sein müssen. Unter Heranziehung des

Vektors xi = (1,xi1,…xik)´ kann die Modellgleichung der i-ten Beobachtung

auch wie folgt angeschrieben werden:

𝑌𝑖 = 𝑥𝑖´𝛽 + 𝜀𝑖. Beispiel:

Es besteht die Vermutung, dass der Umsatz der Filialen einer Supermarktkette neben

der Verkaufsfläche auch vom durchschnittlichen Einkommen der Haushalte im

Einzugsbereich der Filiale bestimmt wird. Die Tabelle zeigt den entsprechenden

Datensatz, der bearbeitet werden soll:

Aus dieser Tabelle wurde zum einen der

Korrelationskoeffizient zwischen Einkommen und

Umsatz berechnet, der mit 0,222 bedeutend kleiner ist,

als jener zwischen Umsatz und Verkaufsfläche (0,969).

Dadurch gibt es kein markantes Indiz auf einen

möglichen Erklärungsbeitrag des Einkommens für den

Umsatz. Trotzdem weist das Streudiagramm der

Residuen gegen die Variable Einkommen einen

Korrelationskoeffizient von 0,99 auf, weshalb es sich

anbietet, das Modell für den „Umsatz“ um die

Page 59: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 52 -

Tabelle 10: Vergleich von Korrelationskoeffizienten

4.1 Geometrischer Zugang zur multiplen linearen

Regression

Ausgehend von y = Xβ + ε, soll der Fehlerterm ε und somit || y- Xβ||² minimiert werden

um dementsprechend y ≈ Xβ zu erhalten. Dazu sei V ein linearer Unterraum von Rn der

Dimension d < n und die orthogonale Projektion eines Punktes x ϵ Rn auf V eine lineare

Abbildung x → Px (P ist eine n x n Matrix).

Satz: Die Vektoren v1, v2,…, vd bilden eine Basis von V und X ist jene (n x d)-Matrix

mit den Spalten v1,…,vd. Sei P eine (n x n)-Projektionsmatrix definiert durch:

P = X (X´ X)-1 X´, dann gilt:

(a) Px ϵ V ∀ x ϵ Rn (55)

(b) x − Px ⊥ V ∀ x ϵ Rn (d.h P ist die orthogonale Projektion auf V)

Beweis: zuerst wird die Invertierbarkeit der (d x d)-Matrix XT X gezeigt:

Xy =∑yjvj

d

j=1

≠ 0 mit y є Rd\{0}, weil die Spalten vj von X linear unabhängig sind

⇒ ⟨y, XTXy ⟩ = ⟨Xy, Xy⟩ = ||Xy||2 > 0

Ist die Invertierbarkeit für X´X nicht gegeben, so würde ein Vektor y ϵ Rd\{0} existieren

mit XT X y = 0 und somit führt ⟨y, XTXy ⟩ = 0 zu einem Widerspruch.

Ist nun x ϵ Rn und y = (X´X) – 1 XT ϵ Rd, so ist

Px = Xy =∑yjvj ϵ V. (𝐚)

d

j=1

Ist x ϵ Rn und w ϵ V, so ist y1,…,yd mit w = ∑ yjvjdj=1 = Xy.

⇒ ⟨x − Px,w⟩ = ⟨x − Px, Xy⟩ = ⟨XTx − XTPx, y⟩

Filiale Umsatz Fläche Einkommen

1 7,48 157 169,9

2 2,19 109 153,6

3 13,6 279 156,5

4 3,25 120 141,1

5 6,7 172 144,4

6 8,87 196 139,4

7 4,51 120 155,3

8 11,04 247 153,5

9 8,81 231 130,7

10 4,24 128 154,6

11 12,25 259 155,2

12 4,92 116 162

13 6,87 189 149,7

14 11,44 242 144,8

Page 60: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 53 -

= ⟨ x − XTX (XTX)−1 XTx, y⟩ = ⟨ XTx − XTx, y ⟩ = 0 (b)

Abbildung 16: Kleinste Quadrate Schätzung durch Orthogonalprojektion

Nachdem y = Xβ + ε zutrifft und ε der Fehlerterm ist, soll möglichst y ≈ Xβ erreicht

werden, indem man den Fehler bzw. ||y − Xβ|| ² minimiert.

Die Ebene V2 der Skizze sei der von den Spalten von X aufgespannte Unterraum vom

Rn und P2 die Projektion auf den Vektorraum V2. Dadurch gilt, dass P2y − AX ϵ V2, weil

sowohl Xβ ϵ V2 als auch P2y ϵ V2. Aus Satz 4.1 kann gefolgert werden, dass ⟨y −

P2y, P2y − Xβ⟩ = 0 zutrifft und somit ist:

||y − Xβ||2 = ||y − P2y + P2y − Xβ||2 = ||y − P2y||

2 + ||P2y − Xβ||2

⇒ ||y − Xβ||2 minimal ⇔ Xβ = P2y

⇔ Xβ = X(XTX)−1XTy | ∙ (XTX)−1XT von links

⇔ β = (XTX)−1 XTy (= Schätzer für β = β)

Denn für die Schätzung der Regressionskoeffizienten β zieht man im Prinzip wieder die

Kleinste-Quadrate Methode heran und durch Ableiten der Summe der quadrierten

Abweichungen, S(β) = ε´ε = (y - Xβ) (y - Xβ) nach β ergeben sich die

Normalgleichungen (X´X) β = X´ y.

Die dabei auftretende symmetrische Matrix X´X ist:

x

y

z

y

y − y

y = Aβ

y − Aβ

Page 61: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 54 -

XTX =

(

n ∑ xi1i

∑xi2i

… ∑ xiki

∑xi1i

∑xi12

i ∑ xi1

ixi2 … ∑ xi1xik

i

⋮ ⋮ ⋮ ⋱ ⋮

∑ xiki

∑ xikxi1i

∑ xikxi2i

… ∑ xik2

i )

und man nennt sie die Matrix der Summe und Kreuzprodukte. Daraus können nun die

Kleinste-Quadrate Schätzer für β als Lösung der Normalgleichungen gefolgert werden:

𝛃 = (𝐗𝐓𝐗)−1 𝐗𝐓y. (56)

Somit lautet die empirische Regressionsfunktion

�� = Xβ = X (XTX)−1 XTy mit y = (y1⋮yn

).

Beispiel: Für die lineare Einfachregression mit k = 1 und X= (1 𝑥1⋮ ⋮1 𝑥𝑛

) ergibt sich für

XTXβ = XTy das Gleichungssystem für die Normalgleichungen der Einfachregression:

(∑𝑥𝑖2

𝑛

𝑖=1

𝑛��

𝑛�� 𝑛

)(��0��1) = (

∑𝑥𝑖𝑦𝑖

𝑛

𝑖=1

𝑛��

)

4.2 Modellspezifikation und Eigenschaften

Es wird eine Stichprobe vom Umfang n vorausgesetzt, wobei als i-te Beobachtung

i=1,…,n neben dem Wert yi der abhängigen Variablen die erklärenden Variablen

xi1,…xik beobachtet wurden. Außerdem nimmt man an, dass die xij keine zufälligen

Größen sind und die Punkte (xi1, … ,xik), i = 1, … , n der jeweiligen yi geeignet

angeordnet sind, um das Schätzproblem zu lösen. Für die Störgrößen εi werden

dieselben Bedingungen wie beim einfachen, linearen Regressionsmodell vorausgesetzt:

E(εi) = 0.

Cov(εi, εj) = {𝜎2 i = j0 i ≠ j

εi ~ N (0, σ²)

Unkorreliertheit

Zudem kann man auch die stochastischen Eigenschaften der εi in Matrixschreibweise

angeben: ε ~ N(0, σ²Ⅰ) mit:

Page 62: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 55 -

𝛔𝟐Ⅰ = (

𝜎2 0 … 00 𝜎2 … 0⋮ ⋮ ⋱ ⋮0 0 … 𝜎2

)

die als Varianzen der εi in der Hauptdiagonale 𝜎2 und wegen der Unkorreliertheit der

Störgrößen als Nichthauptdiagonalelemente Nullen hat. Die Matrixschreibweise (mit

k=1) unterscheidet sich also in keiner Weise vom einfachen linearen Modell.

Für die Existenz der Eindeutigkeit der Lösung, muss die Voraussetzung r(X) = k + 1

erfüllt sein, womit die (k+1)x(k+1) – Matrix (X´X) dann den Rang k + 1 besitzt und

invertierbar ist.

Die ��𝑖 sind nicht unkorreliert, weil X´X und somit (𝑋´𝑋)−1 keine Diagonalmatrix ist.

(Ausnahme: Spalten von X sind orthogonale Vektoren)

Ein erwartungstreuer Schätzer für die Varianz der Störgrößen ist gegeben durch:

��2 =��´��

𝑛−(𝑘+1)

und der n-te Vektor 𝜀 enthält die Residuen 𝜀 = 𝑦 − 𝑋�� und damit die Differenzen

zwischen beobachteten Werten der yi und den prognostizierten Werten xi´��, die aus

dem geschätzten Modell folgen mit:

𝜀´𝜀

𝜎2~ 𝜒²(𝑛 − 𝑘 − 1)

Im nächsten Schritt werden nun die Eigenschaften der Kleinste-Quadrate Schätzer β in

Matrixform untersucht:

Definition : Die Kovarianzmatrix eines beliebigen Zufallsvektors Z ist definiert

durch (57)

∑ (Cov(Zi, Zj))1 ≤ i,j ≤ nZ mit:

Cov(Zi,Zi) = E((Zi −E(Zi))2) = Var(Xi)

Cov(Zi, Zj) = E[(Zi − E(Zi))(Zj − E(Zj))]

Satz: Ist die Zufallsvariable β = (XTX)−1XTY ist eine linear erwartungstreue

Schätzfunktion für den Spaltenvektor β dann gilt E(β) = β. (58)

Beweis:

E(β) = E[(XTX)−1XTy] = E[(XTX)−1XT(Xβ + ε)]

��

Page 63: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 56 -

= E[β + (XTX)−1XTε] = β wobei E(ε) = 0

Satz : Die Kovarianzmatrix der erwartungstreuen Schätzfunktion für β ist

Cov (β) = ∑ =�� [(β − β)(β − β)T].

Beweis: ∑ = E {[(XTX)−1XTε] [(X´X)−1X ε] }β

= E [(XTX)−1XTXεε´(XTX)−1] = σ2(XTX)−1

I

Seien die Varianzen der geschätzten Zufallsvariablen ��𝑗 per Konvention die Elemente

der Hauptdiagonale von ∑ �� , wobei cjj das j-te Diagonalelement von (X´X)-1 ist, so gilt

Var(��𝑗) = 𝑐𝑗𝑗𝜎2.

Die Herleitung der Varianzen der geschätzten Regressionskoeffizienten für die lineare

Einfachregression lässt sich nun wie folgt zeigen (vgl mit Kapitel 2):

X = (

1 x11 x2⋮ ⋮1 xn

) ⇒ X´X = (n nxnx ∑ 𝑥𝑖

2) ⇒ det(XTX) = n ∑xi2 − n2x2

n

i=1

⇒ (X´X)−1 = 1

n ∑ xi2 − n2x2n

i=1

(∑𝑥𝑖2 −𝑛��

−𝑛�� 𝑛) = Inv (X´X)

⇒ Var(β0) = σ2c00 =

σ2∑xi2

n∑xi2 − n2x2

= σ2 (1

n+

x2

∑xi2 − nx2

)

Var(β1) = σ2c11 =

σ2

∑xi2 − nx2

Eigenschaften von P und Q = 𝐈 − 𝐏

Nun werden einige Eigenschaften der (n x n)-Projektionsmatrix P = X(X´ X)-1 X´

angewendet (mit λi gleich i-ter Eigenwert): (59)

Symmetrie von P: PT = [X(X´ X)−1X´ ]´ = X(X´ X)−1X ´ = P

Idempotenz von P: P2 = X(X´ X)−1(X´ X)(X´ X)−1X´ = X(X´ X)−1 X´ = P

Spur von P: sp(P) = sp(X(X´ X)−1X´ ) = sp(X´X(X´ X)−1)

= sp(Ik+1) = ∑ λi = k + 1 (Summe d. Eigenwerte)

Dabei treten die Eigenwerte 1 (k+1 -fach) und 0 (n-k-1 -fach) auf, weil der Eigenraum

zum Eigenwert 1 der von den Spalten von A aufgespannte Raum ist, und der Eigenraum

von 0 dazu orthogonal liegt.

Page 64: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 57 -

Für Q = I – P gilt, dass aus Y = PY dann Y − Y = (I − P)Y = QY folgt,mit den

Eigenschaften a) Q´ = Q bzw. b) Q² = Q

Wiederum gilt, dass 0 ein (k+1) - facher Eigenwert von Q und 1 ein (n-k-1 )- facher

Eigenwert ist, weil aus Px=x folgt, so dass Q x = 0 und P x = 0 ist mit Q x = x.

4.3 Hypothesentests bei multipler linearer Regression

Bei multiplen Regressionsproblemen sind gewisse Tests von Hypothesen über die

Modellparameter sinnvoll, um die Eignung des Modells zu messen. In diesem Abschnitt

werden nun einige wichtige Hypothesentest – Verfahren beschrieben. Wiederum wird

hier die Normalverteilungsannahme der Fehler vorausgesetzt.

4.3.1 Test auf Signifikanz der Regression

Der Test auf Signifikanz der Regression ist ein Test um festzustellen, ob eine lineare

Beziehung zwischen der abhängigen Variable y und irgendeiner der Regressorvariablen

x1, x2, ... , xk vorliegt. Dafür geeignete Hypothesen sind:

H0 : β1 = β2 = ... = βk = 0

H1 : βj ≠ 0 für mindestens ein j

Die Ablehnung von H0: βj = 0 impliziert, dass zumindest einer der Regressoren

x1, x2, ... , xk einen signifikanten Beitrag zum Modell leistet. Dieses Test-Verfahren ist

eine Verallgemeinerung jener Methode, die bei der einfachen linearen Regression

verwendet wurde. Die Gesamtsumme der Quadrate Syy ( 𝑏𝑧𝑤.∑ (𝑦𝑖𝑛𝑖=1 − ��)²) wird

aufgeteilt in eine Summe von Quadraten die durch Regression erklärt wird: SSR (bzw.

∑ (��𝑖𝑛𝑖=1 − ��)²) und eine Rest-/Störgröße von Quadratsummen SSE

(bzw. ∑ (𝑦𝑖𝑛𝑖=1 − ��𝑖)²) zum Beispiel:

⟹ σyy = σR + σE

Wenn nun H0: βj = 0 wahr ist, so ist σR / σ² ~ 𝜒𝑘2 und die dabei auftretende Anzahl der

Freiheitsgrade ist äquivalent zur Anzahl der Regressorvariablen im Modell.

Zudem kann gezeigt werden, dass SSE/𝜎2 ~ 𝜒𝑛−𝑘−12 und dass SSE und SSR unabhängig

sind.

Beim Testverfahren für H0: 𝛽𝑗 = 0 berechnet man

F0 =σR/k

σE/(n − k − 1)=σRσE=mittleres Quadrat von σRmittleres Quadrat von σE

und verwirft H0 wenn F0 > Fα, k, n-k-1 ist. Für gewöhnlich wird dieser Prozess in einer

Varianzanalysetabelle zusammengefasst.

Eine Formel für 𝜎𝑅 erhält man, indem man ausgeht von

Page 65: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 58 -

σE = 𝐲𝐓𝐲 − ��𝐓𝐗𝐓𝐲 (60)

und anschließend die bereits bekannte Darstellung für Syy verwendet:

Syy =∑yi2 −

(∑ yini=1 )2

n

n

i=1

= 𝐲𝐓𝐲 −(∑ yi

ni=1 )²

n

und dadurch erhält man für die Gleichung σE oben:

σE = 𝐲𝐓𝐲 −

(∑ yi)²ni=1

n− [��𝐓𝐗𝐓𝐲 −

(∑ yini=1 )2

n] bzw. σE = σyy − σR

Deshalb ist die Quadratsumme der Regression:

𝜎𝑅 = ��𝑇𝑋𝑇𝑦 −

(∑ 𝑦𝑖)²𝑛𝑖=1

𝑛 (61)

die Quadratsumme der Residuen:

𝜎𝐸 = 𝑦𝑇𝑦 − ��𝑇𝑋𝑇𝑦 (62)

und die gesamte Quadratsumme:

𝜎𝑦𝑦 = 𝑦𝑇𝑦 −

(∑ 𝑦𝑖)²𝑛𝑖=1

𝑛 (63)

Beispiel:

Ein Limonadenabfüller möchte die Servicerouten für die Getränkeautomaten in seinem

Vertriebssystem analysieren. Darum ist er daran interessiert, die benötigte Zeit für eine

Tagesroute (auffüllen, warten etc. der Automaten) vorherzusagen. Der für die

Zeitkalkulierung verantwortliche Mitarbeiter nimmt an, dass die zwei wichtigsten

Parameter für die Auslieferungszeit die Anzahl der aufzufüllenden Produkte und die

zurückgelegte Distanz sind. Aus 25 gesammelten Stichproben bzw. realen

Beobachtungen soll nun eine Schätzung der Modellparameter und anschließende

Durchführung eines Signifikanztests erfolgen (siehe Tabelle 8: eines

Getränkelieferanten; im Anhang)

Die X T X Matrix ist

𝐗𝐓𝐗 = (1 1 … 17 3 … 4560 220 … 150

) (

1 7 5601 3 220⋮ ⋮ ⋮1 4 150

)

= (25 219 10 232219 3.05 133 89910 232 133 899 6 725 688

)

und der XTy Vektor ist dann:

Page 66: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 59 -

𝐗𝐓𝐲 = (1 1 … 17 3 … 4560 220 … 150

)(

16,6811,50⋮

10,75

) = (559,67 375,44337 072

)

Der kleinste Quadrate Schätzer von β ist gegeben durch �� = (𝐗𝐓𝐗)−𝟏𝐗𝐓𝐲 = (2,3411,6160,014

)

Und zudem erhält man durch Bestimmung von ��𝑖 und ei für jede beobachtung yi die

angepasste Gerade y = 2,34 + 1,62x1 + 0,014x2

Nun erfolgt der Test auf Signifikanz der Regression anhand dieses Beispiels.

Angenommen wir wollen den Wert der gegebenen Regressorvariable „Distanz“ (x2)

dahingehend beurteilen, ob die Regressor- „Fälle“ (x1) im Modell auftreten oder nicht.

σyy = 𝐲𝐓𝐲 −

(∑ yi)²ni=1

n

= 18 310,63 −559,6²

25

= 5 784,547

σR = ��𝐓𝐗𝐓𝐲 −

(∑ yi)²ni=1

n

= 18 076,90 – (559,6)²

25

= 5 550,6177

und dadurch

𝜎𝐸 = 𝜎𝑦𝑦 − 𝜎𝑅

= 𝒚𝑻𝒚 − ��𝑻𝑿𝑻

= 233,726

Um nun H0: 𝛽1 = 𝛽2 = 0 zu testenberechnet man die Statisitk:

𝐹0 =𝜎𝑅𝜎𝐸=2 775,41

10,63= 261,24

Nachdem F0 > F0,05, 2, 22 = 3,44 ist, schließt man, dass sich die Auslieferungszeit auf das

Auslieferungsvolumen und/ oder die –distanz bezieht. Allerdings impliziert das nicht

zwingend, dass die gefundene Beziehung eine geeignete ist, um die Auslieferungszeit

als Funktion von Volumen und Distanz anzugeben. Hier sind weitere Tests für die

Aussagekraft des Modells nötig.

4.3.2 Tests an einzelnen Regressionskoeffizienten

Page 67: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 60 -

Wir sind hauptsächlich daran interessiert, Hypothesentests bei einzelnen

Regressionskoeffizienten anzuwenden. Diese Tests sind hilfreich um den Wert jedes

Regressors im Modell zu ermitteln. So könnte das Modell zum Beispiel durch Inklusion

zusätzlicher Regressoren oder dem Streichen eines/mehrerer Regressor/en effektiver

sein. Fügt man eine Variable hinzu, so bewirkt das ein Ansteigen der Quadratsumme für

die Regression und ein Sinken der Quadratsumme des Residuums.

Deshalb muss entschieden werden, ob die Erhöhung der Regressions- Quadratsumme

ausreichend ist, um die Verwendung eines zusätzlichen Regressors im Modell

gewährleisten zu können. Das Hinzufügen eines Regressors bewirkt auch ein Ansteigen

der Varianz der geschätzten Werte �� , weshalb man Acht geben muss nur solche

Regressoren zu verwenden die einen tatsächlichen Wert haben zur Erklärung der

unabhängigen Variable y. Außerdem kann das Hinzufügen eines unwichtigen

Regressors xi den Mittelwert der Residuen erhöhen, was die Nützlichkeit des Modells

senkt.

Die Hypothesen zum Testen des Signifikanz eines individuellen

Regresssionskoeffizienten , wie βj, sind:

H0: βj = 0

H1: βj ≠ 0

Sofern H0: βj = 0 nicht verworfen wird, weist das darauf hin, dass der Regressor xj aus

dem Modell gelöscht werden kann. Die Test-Statistik für diese Hypothese ist

t0 =βj

√σ2 Cjj

=βj

se(βj) (64)

wo das Diagonalelement von (XT X), also Cjj, mit ��𝑗 korreliert.

Die Nullhypothese H0: βj = 0 wird verworfen, wenn |𝑡0| > tα2, n−k−1.

Anzumerken ist die Tatsache, dass hier nur von einem partiellen bzw. marginalen Test

die Rede ist, weil der Regressionskoeffizient βj von allen anderen Regressorvariablen xi

(i ≠ j) abhängt, die im Modell auftreten. Deshalb ist das ein Test von der Verteilung xj,

die durch die anderen Regressoren gegeben ist.

Beispiel:

Wiederum betrachten wir die Zeitdaten für die Limonadenauslieferung (Tabelle 11 im

Anhang). Angenommen man möchte die Verteilung der Variable „Distanz (x2)“ zum

Modell untersuchen.

Dafür geeignete Hypothesen wären:

H0: β2 = 0

H1: β2 ≠ 0

Um diese Hypothesen zu testen, brauchen wir eine extra Quadratsumme bedingt durch

β2, oder σR(β2|β1, β0) = σR(β1, β2, β0) − σR(β1, β0) =

Page 68: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 61 -

= σR (β1, β2|β0) − σR(β1|β0)

Aus dem Beispiel in 4.3.1 weiß man:

σR(β1, β2|β0) = βTXTy −

(∑ yi)²ni=1

n= 5 550,82 (2 Freiheitsgrade)

Das reduzierte Modell y = β0 + β1x1 + ε wurde in einem Beispiel im Kapitel zur

Einfachen Linearen Regression berechnet und ist gegeben durch y = 3,32 + 2,18x1.

Die Quadratsumme der Regression für dieses Modell ist:

σR(β1|β0) = β1σxy = 2,18 ∙ 2 473,34 = 5 382,41 (1 Freiheitsgrad)

Darum haben wir:

σR(β2|β1, β0) = 5 550.82 − 5 382,41 = 168,41 (1 Freiheitsgrad)

Das ist genau jene Zunahme der Regressions-Quadratsumme, welche durch Hinzufügen

von x2 zu einem bereits bestehenden Modell (das x1 beinhaltet), entsteht.

Um H0: 𝛽2 = 0 zu testen, formulieren wir den Test:

F0 =σR(β2|β1, β0)/1

σE=168,41/1

10,62= 15,85 (65)

An dieser Stelle muss angemerkt werden, dass das σE, sowohl x1 als auch x2 im Nenner

der Teststatistik verwendet. Nachdem F0,05, 1,22 = 4,30 ist, wird H0: β2 = 0 verworfen

und man schließt daraus, dass die Distanz (x2) einen bedeutenden Beitrag zum Modell

leistet. Seit dieser partielle F-Test eine einzige Variable umfasst, ist er äquivalent zum

T-Test. Diese Erkenntnis erhält man, weil der T-Test auf H0: β2 = 0 aus der

Teststatistik t0 =3,98 resultiert und seitdem das Quadrat eine t-verteilte Zufallsvariable

mit υ – Freiheitsgraden ist. Somit haben wir: t02 = (3,98)2 = 15,84 = F0

4.3.3 Spezialfall von orthogonalen Spalten in X

Wir betrachten das Modell (aus Abschnitt 4.3.2):

𝐲 = 𝐗𝛃 + 𝛆

= 𝐗𝟏𝛃𝟏 + 𝐗𝟐𝛃𝟐 + 𝛆

Die Extra-Quadratsummen-Methode lässt es zu, die Auswirkungen der Regressoren in

X2 bedingt durch jene in X1 zu messen, indem man σR(𝜷𝟐|𝜷𝟏) berechnet. Im

Allgemeinen können wir nicht darüber sprechen, die Quadratsummen bedingt durch β2,

σR(β2) zu finden, ohne Zugang zur Abhängigkeit dieser Mengenmäßigkeit auf die

Regressoren in X1 zu haben. Dennoch können wir eine Summe von Quadraten bedingt

durch β2 bestimmen, die keinerlei Abhängigkeit von den Regressoren in X2 aufweist,

aber nur dann, wenn die Spalten in X1 orthogonal zu jenen in X2 sind.

Um das zu demonstrieren, bilden wir die Normalgleichungen (𝑋𝑇𝑋)�� = 𝑋𝑇𝑦 wiederum

für das Modell aus Abschnitt 4.3.2. Die Normalgleichungen sind nun:

Page 69: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 62 -

[X1TX1 X1

TX2X2TX1 X2

TX2] [

β1

β2 ] = [

X1Ty

X2Ty ] (66)

Wenn die Spalten von X1 jetzt orthogonal zu den Spalten in X2 sind, so ist 𝑿𝟏𝑻𝑿𝟐 = 𝟎

und 𝑿𝟐𝑻𝑿𝟏 = 𝟎. Die Normalgleichungen ergeben darum:

𝐗𝟏𝐓 𝐗𝟏 ��𝟏 = 𝐗𝟏

𝐓𝐲

𝐗𝟐𝐓 𝐗𝟐 ��𝟐 = 𝐗𝟐

𝐓 𝐲

mit den Lösungen:

��𝟏 = (𝐗𝟏𝐓𝐗𝟏)

−𝟏 𝐗𝟏𝐓 𝐲

��𝟐 = (𝐗𝟐𝐓𝐗𝟐)

−𝟏 𝐗𝟐𝐓 𝐲

Anzumerken ist, dass der kleinste Quadrate Schätzer von β1 die Variable β1 ist,

gleichgültig ob X2 im Modell enthalten ist oder nicht und der kleinste Quadrate Schätzer

von β2 ist ��2 ungeachtet davon ob X1 im Modell ist.

Als Regressionsquadratsumme für das komplette Modell folgert man:

σR(β) = βTXTy

= [β1, β2] [X1T y

X2 Ty]

= ��1𝑇𝑋1

𝑇𝑦 + 𝛽2𝑇𝑋2

𝑇𝑦

= yTX1(X1TX1)

−1X1Ty + yTX2(X2

TX2)−1X2

Ty

Allerdings gibt es zwei Arten von Normalgleichungen, für die wir jeweils anmerken:

σR(β1) = β1TX1

Ty = yTX1(X1TX1)

−1X1Ty

𝜎𝑅(𝛽2) = 𝛽2𝑇𝑋2

𝑇𝑦 = 𝑦𝑇𝑋2(𝑋2𝑇𝑋2)

−1𝑋2𝑇𝑦

Vergleicht man die beiden Gleichungen für σR(β1) bzw. σR(β2) mit σR(β) so sehen

wir, dass:

𝜎𝑅(𝜷) = σR(𝛃𝟏) + σR(𝛃𝟐)

Deshalb ist:

𝜎𝑅(𝜷𝟏|𝜷𝟐) = 𝜎𝑅(𝜷) − σR(𝛃𝟐) ≡ σR(𝛃𝟏)

und

𝜎𝑅(𝜷𝟐|𝜷𝟏) = 𝜎𝑅(𝜷) − σR(𝛃𝟏) ≡ σR(𝛃𝟐)

Folglich misst σR(β1) die Verteilung des Regressors in 𝑋1 zum Modell ohne Vorbehalt,

ebenso wie σR(β2) die Verteilung des Regressors in X2 zum Modell bedingungslos

misst. Nachdem man den Effekt eines jeden Regressors eindeutig bestimmen kann,

wenn die Regressoren orthogonal sind, macht es Sinn, die Daten für Berechnungen

durch orthogonale Variablen auszudrücken.

Page 70: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 63 -

Beispiel:

Als Regressionsmodell mit orthogonalen Regressoren betrachten wir das Modell

𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + 𝛽3𝑥3 + 𝜀 , mit gegebener X – Matrix:

𝑋 =

(

+1 −1 −1 −1+1 +1 −1 −1+1 −1 +1 −1+1 −1 −1 +1+1 +1 +1 −1+1 +1 −1 +1+1 −1 +1 +1+1 +1 +1 +1)

Daraus ist ersichtlich, dass die Spalten von X orthogonal sind. Deshalb misst

𝜎𝑅(βj) für j = 1,2,3 die Verteilung des Regressors xj, unabhängig davon, ob

irgendwelche anderen Regressoren dieser Anpassung entsprechen.

4.3.4 Test der allgem. linearen Hypothese Tβ= 0

Viele Hypothesen über Regressionskoeffizienten können durch beinahe einheitliches

Vorgehen getestet werden. Die Extra-Quadratsummen-Methode ist ein Spezialfall

dieses Verfahrens, denn im allgemeinen Fall wird die verwendete Quadratsumme bei

Hypothesentests für gewöhnlich als Differenz zwischen zwei Residualsummen

berechnet. In diesem Abschnitt wird nur das Verfahren an sich umrissen und zugehörige

Beweise die den Umfang der Arbeit sprengen würden, werden weggelassen.

Wir nehmen an, dass die Hypothese die uns interessiert, durch H0: Tβ = 0 ausgedrückt

werden kann, wobei T eine m x p Matrix von Konstanten ist, so dass nur r von den m

Gleichungen bei Tβ = 0 unabhängig sind. Das vollständige Modell ist y = Xβ + ε, mit

�� = (𝐗𝐓𝐗)−𝟏𝐗𝐓𝐲 und die Quadratsumme der Residuen ist

σE(FM) = 𝐲𝐓𝐲 − ��𝐓𝐗𝐓𝐲. (n − p Freiheitsgrade)

Um das reduzierte Modell zu erhalten, werden die r unabhängigen Gleichungen in

Tβ = 0 verwendet und für r Parameter der Regressionskoeffizienten im vollständigen

Modell bezüglich der verbleibenden p - r Regressionskoeffizienten aufgelöst. Das führt

uns zu dem reduzierten Modell y = Zγ + ε, wo zum Beispiel Z eine n x (p - r) Matrix

und γ ein (p - r) x 1 Vektor von unbekannten Regressionskoeffizienten ist. Die

Schätzung von γ ist:

�� = (𝐙𝐓𝐙)−𝟏𝐙𝐓𝐲 (67)

und die Quadratsumme der Residuen für das reduzierte Modell

σE(RM) = 𝐲𝐓𝐲 − ��𝐓𝐙𝐓𝐲 (n − p + r Freiheitsgrade)

Page 71: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 64 -

Das reduzierte Modell (RM) beinhaltet weniger Parameter als das vollständige Modell

(VM), weshalb 𝜎𝐸(𝑅𝑀) ≥ 𝜎𝐸(𝑉𝑀) ist. Zum Testen der Hypothese H0:Tβ = 0,

werwendet man die Differenz der Quadratsummen der Residuen:

σH = σE(RM) − σE(VM) (n − p + r − (n − p) = r − Freiheitsgrade)

Hier wird 𝜎𝐻 als jene Quadratsumme bezeichnet, die sich auf die Hypothese H0: Tβ = 0

bezieht. Die Teststatistik dieser Hypothese ist:

F0 =σH/r

σE(VM)/(n − p)

Wir verwerfen H0: Tβ = 0 wenn F0 > Fα, r, n-pn-p

Beispiel 1: (Test auf Gleichheit zweier Regressionskoeffizienten)

Der allgemeine Hypothesenansatz kann verwendet werden, um die Gleichheit zweier

Regressionskoeffizienten zu testen. Dazu wird folgendes Modell gewählt:

y = β0 + β1x1 + β2x2 + β3x3 + ε

Im vollständigen Modell hat 𝜎𝐸(𝑉𝑀) 𝑛 − 𝑝 = 𝑛 − 4 Freiheitsgrade und wir wollen

H0: β1 = β3 testen. Diese Hypothese kann ausgewiesen werden als H0: Tβ = 0, wobei

𝐓 = [0, 1, 0, −1]

ein 1 x 4 -Zeilenvektor ist. Es existiert nur eine Gleichung in Tβ = 0, nämlich

β1 − β3 = 0, die eingesetzt in das Vollständige Modell das folgende reduzierte Modell

ergibt:

y = β0 + β1x1 + β2x2 + β1x3 + ε

= β0 + β1(x1 + x3) + β2x2 + ε

= γ0 + γ1z1 + γ2z2 + ε

mit 𝛾0 = 𝛽0, 𝛾1 = 𝛽1 (= 𝛽3), 𝑧1 = 𝑥1 + 𝑥3, 𝛾2 = 𝛽2, und 𝑧2 = 𝑥2. Die Quadratsumme

bedingt durch die hypothese 𝜎𝐻 = 𝜎𝐸(𝑅𝑀) − 𝜎𝐸(𝑉𝑀) hat einen Freiheitsgrad. Das F-

Verhältnis ist 𝐹0 = (𝜎𝐻/1) / [𝜎𝐸(𝑉𝑀)/(𝑛 − 4)]. Diese Hypothese könnte jedoch auch

mit einer T-Statistik mit 3 Freiheitsgraden getestet werden.

Beispiel 2: Wir nehmen das folgende Modell an:

y = β0 + β1x1 + β2x2 + β3x3 + ε

und möchten H0: 𝛽0 = 𝛽3, 𝛽2 = 0 testen. Um das in Form einer allgemeinen Hypothese

zu erklären, legen wir zuerst T fest

𝐓 = [0 1 0 −10 0 1 0

]

Jetzt ergeben sich aus 𝐓𝛃 = 𝟎 zwei Gleichungen, nämlich β1 − β3 = 0 und β2 = 0.

Diese Gleichungen erzeugen ein reduziertes Modell

Page 72: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 65 -

𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽1𝑥3 + 𝜀

= 𝛽0 + 𝛽1(𝑥1 + 𝑥3) + 𝜀

= 𝛾0 + 𝛾1𝑧1 + 𝜀

In diesem Beispiel hat 𝜎𝐸(𝑅𝑀) n-2-Freiheitsgrade und darum hat 𝜎𝐻 n-2-(n-4)=2

Freiheitsgrade. Das F-Verhältnis ist F0 = (𝜎𝐻/2) / [𝜎𝐸(𝑉𝑀)/(𝑛 − 4)].

Zudem kann die Teststatistik für die allgemeine lineare Form in einer anderen Form

geschrieben werden, nämlich

F0 =��𝐓𝐓𝐓[𝐓(𝐗𝐓𝐗)−𝟏𝐓𝐓]−𝟏𝐓𝛃 / 𝑟

σE(VM) / (n − p)

Wiederum werden die Hypothesen gebildet:

H0: 𝐓𝛃 = 𝐜

H1: 𝐓𝛃 ≠ 𝐜

Die Teststatistik dafür ist

F0 =(𝐓�� − 𝐜)𝐓[𝐓(𝐗𝐓𝐗)−𝟏𝐓𝐓]−𝟏(𝐓�� − 𝐜) / 𝑟

σE(VM)/(n − p)

Wir verwerfen die Nullhypothese 𝐻0: 𝐓𝛃 = 𝐜 wenn F0 > 𝐹𝛼, 𝑟, 𝑛−𝑝. Das ist das

Testverfahren eines einseitigen F-Tests. Anzumerken ist, dass der Zähler von F0 eine

Maßzahl ausdrückt, welche die quadratische Distanz zwischen Tβ und c standardisiert

durch die Kovarianzmatrix von T�� angibt.

Um die Anwendung dieses erweiterten Verfahrens zu demonstrieren, greifen wir die

beschriebene Situation aus Beispiel 1 aufund nehmen an, dass wir H0:𝛽1 − 𝛽3 = 2

testen wollen. Offensichtlich ist dabei T =[0,1,0, -1] und c =[2]

Sofern die Hypothese H0: Tβ = 0 nicht verworfen werden kann, mag es außerdem

vernünftig sein, β zu schätzen und zwar durch die von der Nullhypothese vorgegebene

Bedingung.

4.4 Beispiel: „Arbeitsmotivation mit mehreren

Prädiktoren“

Beispiel: y ist die Motivation ( bzw. die Einschätzung der Arbeitsmotivation durch

Experten) und die folgenden Prädiktoren sind beliebige Fragebogenwerte:

(siehe Tabelle 11 im Anhang: Arbeitsmotivation mit mehreren Prädiktoren)

Untersucht werden in der Tabelle folgende Prädiktoren (Tabelle 12 im Anhang):

Page 73: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 66 -

Prädiktoren: Eigenschaften

x1: Ehrgeiz (Fragebogen)

x2: Kreativität (Fragebogen)

x3: Leistungsstreben (Fragebogen)

Prädiktoren: Rahmenbedingungen

x4: Hierarchie (Position in der Hierarchie des Unternehmens)

x5: Lohn (Bruttolohn pro Monat)

x6: Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.)

Prädiktoren: Inhalte der Tätigkeit

x7: Lernpotential (Lernpotential der Tätigkeit)

x8: Vielfalt (Vielfalt an Teiltätigkeiten)

x9: Anspruch (Komplexität der Tätigkeit)

Die Tabelle liefert Daten (x1, y1) ... (xn, yn), wobei es k unabhängige Variablen

xi = (x1i ... xki) gibt und yi die Realisation einer Zufallsvariablen (unter der Bedingung

xi) ist. Folgender Zusammenhang zwischen der Variablen Y und dem Vektor xi wird

nun angenommen (im Beispiel ist k = 9):

𝑌𝑖 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2+. . . + 𝛽𝑘𝑥𝑘𝑖 + 𝜀𝑖

= 𝛽0 + ∑𝛽𝑗

𝑘

𝑗=1

𝑥𝑗𝑖 + 𝜀𝑖

𝜀𝑖 charakterisiert eine zufällige „Störung“ und es wird angenommen, dass die Störungen

𝜀1…𝜀𝑛 unabhängig und normalverteilt sind mit EW null und Varianz 𝜎2 > 0.

Somit kann ein linearer Zusammenhang zwischen x und Y postuliert werden, welcher

noch zufälligen Störungen unterliegt.

Schätzung bei multipler linearer Regression

Bezüglich der Wahl von 𝛽0…𝛽𝑘 wird folgender Ausdruck mit der Methode der

kleinsten Quadrate (analog zur einfachen linearen Regression) minimiert:

∑(𝑦𝑖 − 𝛽0 − 𝛽1𝑥1𝑖 − . . . − 𝛽𝑘𝑥𝑘𝑖)²

𝑛

𝑖=1

und die mathematische Statistik bzw. das allgemeine lineare Modell liefert die

Schätzwerte ��0, ��1… . ��𝑘 für die Parameter 𝛽0…𝛽𝑘

⟹ Schätzer für die Varianz der Messfehler:

𝑆𝑦|𝑥2 =

1

𝑛 − 𝑘 − 1∑(𝑦𝑖 − ��0 − ��1𝑥1𝑖 − …− ��𝑘𝑥𝑘𝑖)²

𝑛

𝑖=1

Für das Beispiel ergeben sich laut SPSS folgende Ergebnisse für die Schätzwerte:

��𝟎 = −2,286 ��𝟏 = 0,18 ��𝟐 = 0,153 ��𝟑 = 0,46 ��𝟒 = 0,291

Page 74: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 67 -

��𝟓 = −0,001 ��𝟔 = −0,26 ��𝟕 = 0,19 ��𝟖 = 0,213 ��𝟗 = 0,029

Daraus resultieren einige mögliche Fragen:

A) Wie exakt sind diese Schätzungen tatsächlich?

B) Inwiefern besteht ein (signifikanter) Einfluss der unabhängigen Merkmale auf

die Motivation?

H0: β1 = 0

H1: β2 = 0

⋮ ⋮

C) Wie zufriedenstellend ist das Ausmaß in dem das multiple Regressionsmodell

die Situation beschreibt?

Zu A) Genauigkeit der Schätzung bei multipler linearer Regression

Die Schätzer eβ0… eβk für die Standardfehler von β0 ... βk sind aus dem

allgemeinen linearen Modell verfügbar.

Wenn der Stichprobenumfang wächst, konvergieren die Schätzer eβj gegen 0

nach dem Motto „je größer der Stichprobenumfang, desto genauer die

Schätzungen“ (-> Konfidenzintervalle werden kleiner).

Somit kann man Konfidenzintervalle für β0 … βk bilden, so ist in etwa:

(β0 − tn−k−1,1− α2 eβo , β0 + tn−k−1,1− α

2 eβo )

Ein (1 − α) - Konfidenzintervall für β0 und tn−k−1,1− α2 ist ein (1 – α/2 ) –Quantil der

T-Verteilung mit n – k – 1 -Freiheitsgraden (siehe T-Verteilung)

Für den Standardfehler der Schätzer im multiplen linearen Regressionsmodell

ergeben sich die genannten Werte:

��𝛃𝟎 = 4,672 ��𝛃𝟏 = 0,082 ��𝛃𝟐 = 0,05 ��𝛃𝟑 = 0,065 ��𝛃𝟒 = 0,132

��𝛃𝟓 = 0,001 ��𝛃𝟔 = 0,055 ��𝛃𝟕 = 0,09 ��𝛃𝟖 = 0,051 ��𝛃𝟗 = 0,042

Wegen t15, 0,975 = 2,1314 ist

[-0,093; 0,186]

zum Beispiel ein 95 % - Konfidenzintervall für den Parameter 𝛽3.

0,05 + 2,1314 ∙ 0,065 ≈ 0,186

n = 25, k = 9 ⇒ n – k – 1 = 15

Page 75: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 68 -

Tabelle 13: 95 % - Konfidenzintervall , Standardfehler etc

:

Mit diesem linearen Regressionsmodell können nun auch Vorhersagen für Werte (bzw.

weitere Arbeiter) an der Stelle x = (x1, … , xk) (mit k = 9 im Beispiel) gemacht werden:

y(𝐱) = β0 +∑βjxj

n

j=1

Somit ergibt sich z.B als Vorhersage der multiplen Regression an der Stelle:

x1 = 21, x2 = 45, x3 = 18, x4 = 13, x5 = 3000, x6 = 39, x7 = 27, x8 = 55, x9 = 53

der Wert: y(𝐱) = 25,43

Trotzdem muss man unterscheiden zwischen der Vorhersage für den Wert der multiplen

Regression an der Stelle x = (x1, …, xk) (im Beispiel ist k =9) und der Vorhersage für

den Wert einer neuen Beobachtung an der Stelle x.

Für beide Vorhersagen können außerdem wieder Standardfehler bestimmt und

Konfidenzintervalle angegeben werden.

Das Bestimmtheitsmaß bei multipler linearer Regression

Die Werte der abhängigen Variable zerfallen in Modellvorhersage(��) und Residuum (𝜀) d.h: 𝑦𝑖 = ��𝑖 + 𝜀��

Modellvorhersage:

��𝑖 = ��0 + ��1𝑥1+ . . . +��𝑘𝑥𝑘𝑖 = ��0 +∑��𝑗𝑥𝑗𝑖

𝑘

𝑗=1

Residuum: 𝜀�� = 𝑦𝑖 − ��𝑖 = 𝑦𝑖 − (��0 + ∑ ��𝑗𝑘𝑗=1 𝑥𝑗𝑖)

Daraus kann das Bestimmtheitsmaß R² bzw. die Güte der Modellanpassung gefolgert

werden (Anteil der erklärten Varianz):

𝑅2 = 1 −∑ (𝑦𝑖 − ��𝑖)

2𝑛𝑖=1

∑ (𝑦𝑖 − ��)𝑛𝑖=1

2 =∑ (��𝑖 − ��)

2𝑛𝑖=1

(𝑦𝑖 − ��)2.

Page 76: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 69 -

In unserem Beispiel ist n = 25 und k = 9

∑ (𝑦𝑖 − ��𝑖)² = 53,651𝑛𝑖=1

∑ (𝑦𝑖 − ��) = 790,96𝑛𝑖=1

𝑅2 = 1 −53,65

790,96= 92,95

Somit werden 92,95 % der Varianz der Variablen „Motivation“ durch das lineare

Regressionsmodell erklärt.

Statistische Tests bei der multiplen linearen Regression

B) Inwiefern besteht ein (signifikanter) Einfluss der unabhängigen Merkmale auf

die Motivation?

H0: β1 = 0

H1: β2 = 0

⋮ ⋮

Zuerst soll ein Gesamttest auf Signifikanz durchgeführt werden. Hierzu überprüft man

ob mindestens eine der Prädiktorvariablen x1 … xk einen Einfluss auf die abhängige

Variable y hat und formuliert die Hypothese:

Nullhypothese: H0: 𝛽𝑗 = 0 𝑓ü𝑟 𝑎𝑙𝑙𝑒 𝑗 є {1…𝑘}

Alternative: H1: 𝛽𝑗 ≠ 0 für mindestens ein 𝑗 є {1…𝑘}

Im Anschluss daran könnte die Frage auftreten, ob die Prädiktorvariable 𝑥𝑗 (z.B

Ehrgeiz) einen Einfluss auf die abhängige Variable y hat. Dann würde sich diese

mathematische Formulierung der Hypothese ergeben:

Nullhypothese: H0: 𝛽𝑗 = 0

Alternative: H1: 𝛽𝑗 ≠ 0

Schritt 1: Gesamttest auf Signifikanz

Mit H0: 𝛽𝑗 = 0 für alle j ϵ {1,2…k}

H1: 𝛽𝑗 ≠ 0 für min. ein j ϵ {1,2…k}

Man bestimmt die Varianz der Regression (𝜎2 =1

𝑘∑ (��𝑖 − ��)

2𝑛𝑖=1 ) und die

Residualvarianz 𝑆𝑥𝑦2 =

1

𝑛−𝑘−1∑ (𝑦𝑖 − ��𝑖)²𝑛𝑖=1 , wobei genau wie im linearen

Regressionsmodell vorgegangen wird.

H0 wird zugunsten der Alternative verworfen, falls gilt:

𝐹𝑛 =𝜎2

𝜎𝑥𝑦2> 𝐹𝑘;𝑛−𝑘−1;1−𝛼

Page 77: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

4. MULTIPLE LINEARE REGRESSION

- 70 -

Wenn H0 durch diesen Test verworfen wird, so bleibt noch unklar, welches

dieser Merkmale signifikant ist

Schritt 2: Tests für die Signifikanz einzelner Merkmale

Mit H0: 𝛽𝑗 = 0

H1: 𝛽𝑗 ≠ 0

Man verwirft die Nullhypothese H0 zugunsten der Alternative H1 falls gilt:

𝑇𝑛 = |��𝑗

��𝛽𝑗| > 𝑡𝑛−𝑘−1; 1−𝛼/2

(oder der entsprechende p-Wert kleiner als α ist)

𝑡𝑛−𝑘−1; 1−𝛼/2 ist das (1 - α/2) – Quantil der T-Verteilung mit n-k-1

Freiheitsgraden und ��𝛽𝑗 der Standardfehler von ��𝑗

Nun wird diese Theorie auf unser Beispiel angewendet:

„Besteht ein Einfluss von einer der 9 Prädiktorvariablen auf die abhängige

Variable?“

Mathematische Hypothesen:

H0: 𝛽𝑗 = 0 für alle j = 1 … 9

H1:𝛽𝑗 ≠ 0 für mindestens ein j ϵ {1, … ,9}

Fn = 21,404, F9, 15, 0,95 = 2,59

Die Nullhypothese wird mit Irrtumswahrscheinlichkeit von 5% verworfen, weil

Fn > 21,404 > 2,59

ANOVAa

Modell

Quadratsum

me df

Mittel der

Quadrate F Sig.

1 Regression 705,988 9 78,443 21,404 ,000b

Residuum 54,972 15 3,665

Gesamtsumme 760,960 24

a. Abhängige Variable: Y

b. Prädiktoren: (Konstante), x9, x2, x5, x6, x3, x8, x7, x4, x1

Tabelle 14: ANOVA

„Besteht ein Einfluss der Prädiktorvariable Ehrgeiz (x1) auf die abhängige

Variable Motivation (Signifikanz des Regressionskoeffizienten 𝜷𝟏)?“

Mathematische Hypothesen:

H0: 𝛽1 = 0

H1: 𝛽1 ≠ 0

��1 = 0,18 , ��𝛽1 = 0,082, 𝑡25−10,0,975 = 2,1314 ⇒T25 = 2,19

Page 78: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

5. DIE VARIANZANALYSE

- 71 -

Nachdem 2,19 > 2,1314 ist, wird die Nullhypothese H0 zu Gunsten der

Alternative H1: 𝛽1 ≠ 0 verworfen (mit α =5%).

(vgl. mit den Signifikanzwerten in der Tabelle oben)

Kapitel 5

5. DIE VARIANZANALYSE

Zum Einstieg in dieses Kapitel betrachten wir ein Beispiel, welches sich auf die

Variabilität der Gewichtszunahme einer fest vorgegebenen Anzahl von Tieren z.B

Zuchtrindern etc. bezieht, auch wenn die Futterart und –menge bzw. die

Lebensbedingungen völlig gleich sind. Diese Tatsache muss als Zufallsveränderliche

angesehen werden, die durch Umstände hervorgerufen wird, die sich unserer Kenntnis

und Kontrolle entziehen.

Wenn die Tiere hingegen unterschiedlich lange gefüttert werden, so wird die

Zufallsvariabilität möglicherweise durch eine Variabilität überlagert, die sich durch

Futterunterschiede ergeben. Nun stellt sich die Frage, ob die Futterart einen Einfluss auf

die Gewichtszunahme hat und dazu muss man diesen Einfluss vom Zufallseinfluss zu

trennen versuchen. Dies ist eine typische Aufgabe der einfachen Varianzanalyse. Um

zwei Einflüsse gleichzeitig zu untersuchen erfordert dies die Anwendung einer

doppelten Varianzanalyse, mit der versucht wird, die beiden Einflüsse voneinander und

außerdem vom Zufallseinfluss, zu trennen.

Die Varianzanalyse als solche beruht auf einer rein arithmetischen Zerlegung der

„Quadratsumme“ (=Summe der Quadrate der Abweichungen der Stichprobenwerte

vom Mittelwert), wobei man in eine Summe von Bestandteilen zerlegt, die jede für sich

einer bestimmten Variationsursache entspricht (z.B Futterart bzw. zu untersuchende

Variable) und deren anderer Bestandteil der Zufallseinfluss ist.

Demnach wird bei der Varianzanalyse die vorliegende Stichprobe in Teilstichproben

zerlegt, deren Mittelwerte verglichen werden,

5.1 Mittelwertvergleich von Normalverteilungen bei

einfacher Varianzanalyse

n-Versuchstiere werden abgewogen und anschließend nach dem Zufallsprinzip in u -

Gruppen eingeteilt. Diesen u- Gruppen werden jeweils u- verschiedene Futtermittel

verabreicht. Nach einer bestimmten Zeit werden die Tiere wieder abgewogen und die

Gewichtszunahme wird notiert. Somit erhält man eine Stichprobe von insgesamt n

Werten, welche sich in u - Gruppen untergliedert, etwa:

x11, x12,...,x1n1 (1. Zuchtrindgruppe)

Page 79: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

5. DIE VARIANZANALYSE

- 72 -

x21, x22,...,x2n2 (2. Zuchtrindgruppe)

Hier bezeichnet der erste Index die Gruppe und der zweite die Nummer des Tieres in

der Gruppe, wobei die 1. Gruppe aus n1 Tieren und die 2. Gruppe aus n2 Tieren besteht,

mit n1 + n2 + ... + nu = n.

Nun soll mit der Varianzanalyse geprüft werden, ob hinsichtlich der mittleren

Gewichtszunahme bei den auftretenden Gruppen signifikante, durch unterschiedliches

Futter hervorgerufene, Unterschiede bestehen oder diese eine zufallsbedingte Ursache

haben. Bestehen bloß zufallsbedingte Unterschiede, wäre es egal mit welchem der

genannten Futtermittel man mästet. Unter der Annahme, dass die u- Gruppen von

Zahlen aus u-normalverteilten Grundgesamtheiten entstammen, die alle dieselbe

Varianz haben (𝜎² muss nicht bekannt sein) soll geprüft werden, ob die Mittelwerte

μ1, ..., μu der genannten Grundgesamtheiten ebenfalls übereinstimmen.

Dementsprechend testet man die Hypothese, dass alle diese u Mittelwerte gleich sind

und zerlegt die „Quadratsumme“ q in zwei Bestandteile q1 und q2:

q =∑∑(xik − x)

ni

k=1

r

i=1

² ⟹ q = q1 + q2 (68)

Dabei beschreibt der erste Bestandteil q1 die Streuung zwischen den Gruppen und der

zweite q2 die Streuung innerhalb jeder Gruppe. Im Anschluss werden diese beiden

Bestandteile dann miteinander verglichen.

Nun erfolgt der schrittweise Test der Hypothese, dass die normalverteilten

Grundgesamtheiten gleicher Varianz, aus denen die u- Gruppen stammen, alle

denselben Mittelwert haben.

1.Schritt: Berechnung der u-Mittelwerte ��1, … , ��𝑢 der Gruppen:

��𝑖 = 1

𝑛𝑖(𝑥𝑖1 + 𝑥𝑖2 + …+ 𝑥𝑖𝑛𝑖)

und Berechnung des Mittelwertes der gesamten Stichprobe:

�� = 1

𝑛∑∑𝑥𝑖𝑘

𝑛𝑖

𝑘=1

𝑢

𝑖=1

= 1

𝑛∑𝑛𝑖��𝑖

𝑢

𝑖=1

.

2.Schritt: Berechnung der „Quadratsumme zwischen den Mittelwerten der Gruppen“:

𝑞1 =∑𝑛𝑖(��𝑖 − ��)2,

𝑢

𝑖=1

(69)

und der „Quadratsumme innerhalb der Gruppen“:

𝑞2 =∑∑(𝑥𝑖𝑘 − ��𝑖)

𝑛𝑖

𝑘=1

𝑢

𝑖=1

². (70)

Daraus bildet man einen Quotienten und legt eine Signifikanzzahl α (5% oder 1%) fest:

𝑣0 =

𝑞1𝑢 − 1𝑞2

(𝑛 − 𝑢)

Page 80: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

5. DIE VARIANZANALYSE

- 73 -

3.Schritt: Bestimmung der Lösung c der Gleichung aus der Tafel der F-Verteilung im

Anhang mit (u - 1, n - u) Freiheitsgraden:

P (V ≤ c) = 1 – 𝛼

Ist nun 𝑣0 ≤ c, so wird die Hypothese μ1 = μ2 = ... = μu angenommen und wenn v0 > c

ist, dann wird sie verworfen (d.h man nimmt an, dass die Mittelwerte nicht alle gleich

sind)

Variation Freiheitsgrade Quadratsumme Durchschnittsquadrat

Zwischen den Gruppen

Innerhalb der Gruppen

u – 1

n – u

q1

q2

q1/ (u - 1)

q2/ (n - u)

Insgesamt n – 1 q Tabelle 15: Ein Beispiel für die einfache Varianzanalyse

5.2 Ein Beispiel für die einfache Varianzanalyse

In diesem Beispiel soll untersucht werden, ob die Zugfestigkeit von Alufolien an allen

Stellen dieselbe ist. Zu diesem Zweck wurden 4 Alufolien untersucht, und es ergeben

sich die Werte in der Tabelle).

Messstelle Messwerte

1. Gruppe (Ecke)

2. Gruppe (Mitte)

3. Gruppe (Kante)

137 142 128 137

140 139 117 137

142 140 133 141 Tabelle 16: Stichprobenwerte für die Zugfestigkeit von Folien

1. Schritt: Als Gruppenmittelwerte ergeben sich:

��1 = 136, ��2 = 133,25, ��3 = 139

Als Mittelwert der gesamten Stichprobe berechnet man:

�� =1

12(4��1 + 4��2 + 4��3) =

1

3(��1 + ��2 + ��3) = 136,08

2. Schritt: Berechnen der Quadratsumme zwischen den Gruppen:

q1 = 4 [(x1 − x)2 + (x2 − x)

2 + (x3 − x)2]

= 4 [0,0832 + 2,8332 + 2,9172] = 66,167.

Berechnen die Quadratsumme innerhalb der Gruppen:

q2 =∑∑(xik − xi)2 =

4

k=1

3

i=1

= (137 − 136)2 + (142 − 136)2 +⋯+ (141 − 139)2 = 508,75.

⟹ v0 =q1/2

q2/9=

33,08

56,52= 0,585. Zusätzlich wählen wir die Signifikanzzahl α=0,05.

3.Schritt: Nachdem u = 3, n = 12 ist, kann man u-1=2, n – u = 9 annehmen.

Aus der Tabelle im Anhang ergibt sich als Lösung der Gleichung:

P (V ≤ c) = 0,95

Page 81: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

5. DIE VARIANZANALYSE

- 74 -

der Wert c = 4,26 mit v0 < c, weshalb die Hypothese μ1= μ2= μ3 angenommen wird.

Somit kann man durch die Stichprobe aussagen, dass die Zugfestigkeit der Folien

zwischen den verschiedenen Stellen der Messung nur zufallsbedingt schwankt, der

Unterschied der Messwerte also nicht signifikant ist.

Variation Freiheitsgrade Quadratsumme Quadratmittel

Zwischen den Gruppen

Innerhalb der Gruppen

2 (k-1)

9 (n-k)

66,16 (L)

508,75 (F) 33,08 (

1

𝑘−1𝐿)

56,53( 1

𝑛−𝑘𝐿)

Insgesamt 11 (n-1) 574,92 (T) Tabelle 17: Vergleich der Variation zwischen und innerhalb der Gruppen

5.3 Die doppelte Varianzanalyse

Bislang wurden derartige Stichproben analysiert, welche sich nach einem Merkmal in

Gruppen unterteilen ließen, so dass dies einer einzelnen Variationsursache (bzw. der

einfachen Varianzanalyse) entsprach. Nun lassen sich die Gruppen nach einem

zusätzlichen Merkmal untergliedern, weshalb man die doppelte Varianzanalyse zum

Untersuchen des Einflusses zweier Variationsmerkmale verwendet. Jene Teile, die man

bei der genannten Unterteilung der Gruppen einer Stichprobe erhält, werden als Klassen

bezeichnet. Es wird eine Stichprobe von insgesamt n-Werten vorgegeben und in r

Gruppen geteilt, wobei sich jede Gruppe in p-Klassen untergliedert. Danach behandeln

wir den einfachsten Fall, dass jede Klasse nur einen einzelnen Fall enthält (⟹ n = r ∙ p).

Die Stichprobenwerte werden wiederum mit xik bezeichnet, wobei der erste Index die

Gruppennummer und der zweite die Nummer der Klasse ist. Die Stichprobe lässt sich

nun wie folgt anordnen: p-Spalten (Klassen)

x11 x11 … x1px21 x22 … x2p⋮ ⋮ ⋱ ⋮xr1 xr2 … xrp

Dabei wird die Voraussetzung angenommen, dass die n-Beobachtungen aus n-

unabhängigen normalverteilten Grundgesamtheiten mit derselben Varianz 𝜎2 und den

möglicherweise verschiedenen Mittelwerten 𝜇11, … , 𝜇𝑟𝑝 entstammen (σ muss nicht

bekannt sein). Jetzt ist die Hypothese auf Gleichheit der Mittelwerte zu testen, wodurch

beurteilt werden kann, ob alle n - genannten Grundgesamtheiten völlig gleich verteilt

sind. Somit wird der Mittelwert der i-ten Zeile mit ��𝑖∙ definiert und jener der k-ten

Spalte mit ��∙𝑘.

xi∙ =1

p∑xik

p

k=1

=Zeilensumme

Anzahl der Werte pro Zeile mit i

= 1,… , r (71)

x∙k =1

r∑xik

r

i=1

=Spaltensumme

Anzahl der Werte pro Spalte mit k = 1, … , p

r-Gruppen

(Zeilen)

Page 82: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

5. DIE VARIANZANALYSE

- 75 -

Dem Hinzuzufügen ist, dass die Punkte bei den Indizes zur Unterscheidung der beiden

Arten von Mittelwerten stehen und zwar bei jenem Index, über den man summiert.

Der Mittelwert �� ist gleich definiert wie oben und die Quadratsumme q

q =∑∑(xik − x)

ni

k=1

r

i=1

²

wird anstatt in zwei Bestandteile, nun in drei (q1, q2, q3) zerlegt: (72)

𝑞 =∑∑(��𝑖∙ − ��)2

𝑘

+

𝑖

∑∑(��∙𝑘 − ��)2

𝑘

+

𝑖

∑∑(𝑥𝑖𝑘 − ��𝑖∙ − ��∙𝑘 + ��)2

𝑘

.

𝑖

Nachdem in den ersten beiden Doppelsummen jeweils nur ein Index auftritt, lassen sie

sich auf einfache Summen reduzieren.

q = q1 + q2 + q3 mit:

q1 = p∑(xi∙ − x)²

r

i=1

p ist die Anzahl der Klassen

q2 = r∑(x∙k − x)²

n

k=1

r ist die Anzahl der Gruppen

q3 = ∑∑(xik − xi∙ − x∙k + x)²

p

k=1

r

i=1

Hier erklärt q1 die Quadratsumme zwischen den Mittelwerten der Zeilen, q2 die

Quadratsumme zwischen den Mittelwerten der Spalten und q3 die Restsumme.

Wiederum werden auch hier die n Stichprobenwerte xik als einzelne Beobachtungen von

n Zufallsvariablen Xik aufgefasst. Wenn man nun die xik im einfachen

Varianzanalysemodell durch Xik ersetzt, folgen daraus Zufallsvariable die mit den

jeweils entsprechenden Großbuchstaben Xi∙ , X∙k, X, Q, Q1, Q2, Q3 benannt werden.

Sofern die Hypothese richtig ist haben Q/σ², Q1/σ², Q2/σ², Q3/σ² jeweils eine χ²-

Verteilung mit n – 1, r – 1, p – 1 bzw. (r – 1) ( p – 1) Freiheitsgraden und der Mittelwert

dieser Variablen ist gleich σ²:

σ12 =

1

r − 1Q1, σ2

2 =1

p − 1Q2, σ3

2 =1

(r − 1)(p − 1)Q3

Ein Vergleich der Varianzen von Normalverteilungen führt zu folgenden Quotienten

𝐕𝟏 = σ12/ σ2

2 und 𝐕𝟐 = σ22/ σ3

2

die eine F-Verteilung mit [r − 1, (r − 1)(p − 1)] bzw. [p − 1, (r − 1)(p − 1)]

Freiheitsgraden besitzen.

5.4 Ein Beispiel für die doppelte Varianzanalyse

Nun wird die doppelte Varianzanalyse in einem Beispiel angewendet und zwar beziehen

wir uns wieder auf das Eingangsbeispiel mit den Zuchtrindern.

Page 83: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

5. DIE VARIANZANALYSE

- 76 -

Zwölf Rinder werden aufgrund des Gewichtes in r=4 Gruppen zu p=3 Rindern

unterteilt. Eine gewisse Zeit später stellt man die Gewichtszunahme fest und testet die

Hypothese, dass die Unterschiede zwischen den beobachteten und gemessenen Werten

rein zufällig sind. Es haben also weder die verwendeten Futterarten noch die

Anfangsgewichte Einfluss auf die Gewichtszunahme und die Zufallsvariable ist

normalverteilt.

A

Futterart

B

C

Gruppe 1 7,0 14,0 8,5

... 2

... 3

16,0

10,5

15,5

15,0

16,5

9,5

... 4 13,5 21,0 13,5

Tabelle 18: Stichprobe der Gewichtszunahme durch Futterarten

1. Schritt: Hier wird die Variation zwischen den Zeilen, Zwischen den Spalten bzw. der

Rest berechnet.

Variation Freiheitsgrade Quadratsumme Durchschnittsquad.

Zwischen den Zeilen

bzw. den Gruppen

r – 1 = 3 q1 = 87,73 𝜎12 =

𝑞13= 29,24

Zwischen den Spalten

bzw. Futterarten

p – 1 = 2 q2 = 54,12 𝜎22 =

𝑞2

2= 27,06

Rest

(r-1) (p-1) = 6 q3 = 28,21 𝜎32 =

𝑞36= 4,70

Insgesamt n – 1 = 11 q = 170,06 Tabelle 19: Quadratsummen zwischen Zeilen bzw. Gruppen und Spalten bzw. Futterarten

2. Schritt: Es ist

v1 = 29,24

4,702= 6,219 und v2 =

27,06

4,702= 5,755.

3. Schritt: Die Signifikanzzahl α = 0,05 wird vorgegeben.

4. Schritt: Somit hat die Gleichung P (V ≤ c1) = 1 – α = 0,95 für die F-Verteilung mit

(3, 6) – Freiheitsgraden die Lösung

c1 = 4,76

⟹ v1 = 6,219 > c1 = 4,76.

Demnach kann angenommen werden, dass zwischen den Gruppen ein signifikanter

Unterschied besteht, d. h dass das Anfangsgewicht das Endgewicht beeinflusst. Die zu

testende Hypothese wird dadurch bereits verworfen.

Page 84: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

5. DIE VARIANZANALYSE

- 77 -

5. Schritt: Zudem wird vorausgesetzt, dass Additivität vorliegt und für die F-Verteilung

mit (2, 6) Freiheitsgraden hat die Gleichung P (V ≤ c2) = 1 – α = 0,95 nun die Lösung:

c2 = 5,14.

Damit ist v2 = 5,755 > c2 = 5,14. Darum darf man annehmen, dass zwischen den

Spalten ebenfalls ein signifikanter Unterschied besteht, das heißt, dass auch die Futterart

die Gewichtszunahme beeinflusst.

5.5 Das Schließen auf die allgemeine Form

Man kann derartige Fragestellungen auch explizit als lineare Regression formulieren,

indem die unabhängigen Variablen nur durch die Werte 0 und 1 ausgedrückt werden

und so eine Zerlegung in Teilstichproben erfolgt.

Demnach wird die j-te Indikatorvariable vj = { 1 z. B für Rindergruppe j 0 sonst

gesetzt und

die Stichprobe y1, y2, ... , yn spaltet sich in k Teilstichproben mit entsprechenden

Mittelwerten M1 , M2, ... , Mk auf.

y1, y2, ...,𝑦𝑛1 vom Umfang n1 (n1 –Rinder denen Futtermittel x1 verabreicht wird)

𝑦𝑛1+1, ..., 𝑦𝑛1+𝑛2 vom Umfang n2

⋮ ⋮

𝑦𝑛1+𝑛2+⋯𝑛𝑘−1+1, … , 𝑦𝑛1+𝑛2+⋯+𝑛𝑘 vom Umfang nk

Im günstigsten Fall gilt y = Aβ wobei A = (v1, v2, ... ,vk) ist und βi (für i = 1,...,w) die

durchschnittliche Gewichtszunahme jener Rindergruppe ausdrückt, die mit Futtermittel

xi gefüttert wurde. (73)

Aus A =

(

1 0 … 0⋮ ⋮ … ⋮1 0 … ⋮0 1 … ⋮⋮ ⋮ … 0⋮ 1 … ⋮⋮ 0 … 1⋮ ⋮ … ⋮0 0 … 1)

, βi = (

𝛽1⋮⋮𝛽𝑤

) folgert man

𝑦1 = 𝛽1 0 0 0⋮ ⋮ ⋮ ⋮ ⋮

𝑦𝑛1 = 𝛽1 0 0 0

𝑦𝑛1+1 = 0 𝛽2 0 0

⋮ ⋮ ⋮ ⋮ ⋮𝑦𝑛1+𝑛2 = 0 𝛽2 0 0

⋮ ⋮ ⋮ ⋱ ⋮𝑦… = 0 0 0 𝛽𝑤⋮ ⋮ ⋮ ⋮ ⋮

𝑦… = 0 0 0 𝛽𝑤

Allerdings sind diese Gleichungen aufgrund störender Einflüsse nicht korrekt, weshalb

wir jene 𝛽𝑖 suchen, die diese Gleichungen möglichst optimal erfüllen.

Der Schätzer β für β ist nach Kapitel 5.1 gegeben durch �� = (ATA)−1 AT y.

Daraus lässt sich folgendes ableiten:

Page 85: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

5. DIE VARIANZANALYSE

- 78 -

AT A = diag (n1, ... , nk) =

(

yn1 0 … 0

0 yn2 … 0

0 0 … 0⋮ ⋮ ⋱ 00 0 0 ynk)

⟹ (ATA) -1 =

(

1

yn10 … 0

01

yn2… 0

0 0 … 0⋮ ⋮ ⋱ ⋮

0 0 01

ynk)

AT y = (

y1 + …+ yn1yn1+1 + …+ yn1+n2

⋮yn1+n2+⋯nk−1+1, … , yn1+n2+⋯+nk

) ⟹

(ATA)−1ATy =

(

1

n1(y1 + …+ yn1)

1

n1+n2(yn1+1 + …+ yn1+n2)

⋮1

yn1+n2+⋯+nk(yn1+n2+⋯nk−1+1, … , yn1+n2+⋯+nk))

= (

µ1µ2⋮µk

)

Somit erhält man also β1 = µ1, β2 = µ2, … , βk = µk (74)

Bei Varianzanalysen werden also die Mittelwerte von z - unabhängigen Stichproben

verglichen. Seien 𝜇1, 𝜇2 ... 𝜇𝑧 die Mittelwerte, so wird die Hypothese H0: 𝜇1, 𝜇1, … , 𝜇𝑘

getestet. Nun wird Y =(Y1, ..., Yn) verwendet und die folgenden Annahmen

angenommen:

1. Y1, Y2, ...,Yn sind voneinander unabhängig

2. Yn1+n2+⋯nj−1+1, … , Yn1+n2+⋯+nj sind N (µj, σ) - verteilt

5.5.1 Test der Hypothese H0: 𝝁𝟏 = 𝝁𝟐 = ⋯ = 𝝁𝒌

Man testet die Hypothese H0: 𝜇1 = 𝜇2 = … = 𝜇𝑘 und sucht eine Testvariable.

Ferner bezeichnet man die Menge der Indizes der j-ten Teilstichprobe z.B mit

Ij= {n1 + ... + nj - 1 +1, ....... ,n1 + ... +nj}.

Zudem sei ��𝑗 = 1

𝑛𝑗∑ 𝑌𝑙𝑙𝜖𝐼𝑗

ein Schätzer für μj

��𝑗2 =

1

𝑛𝑗−1∑ (𝑌𝑙𝑙𝜖𝐼𝑗

− ��𝑗)² ein Schätzer für 𝜎𝑗2 = 𝜎2

�� = 1

𝑛 ∑𝑌𝑙 =

1

𝑛∑𝑛𝑗��𝑗

𝑘

𝑗=1

𝑛

𝑙=1

ein Schätzer für den Gesamtmittelwert

Die Abweichungen zwischen den Mittelwerten werden geschätzt durch:

𝐿 = ∑𝑛𝑗 (��𝑗 − ��)2 (75)

𝑘

𝑗=1

Page 86: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

5. DIE VARIANZANALYSE

- 79 -

Daraus folgert man, dass wegen ��𝑗 ≈ 𝜇𝑗 kleine Werte von L für H0 und große Werte von

L gegen H0 sprechen. Außerdem muss L richtig normiert werden.

Nachdem 1

𝑛−𝑘𝐹 ein Mittelwert der ��𝑗

2 ist, kann 1

𝑛−𝑘𝐹 als Schätzer für 𝜎2 gewählt

werden, mit:

𝐹 =∑(𝑛𝑗 − 1)

𝑘

𝑗=1

��𝑗2 =∑∑ (𝑌𝑙

𝑙𝜖𝐼𝑗

𝑘

𝑗=1

−��𝑗)² (76)

F misst z.B Messfehler und zufällig auftretende Fehler sozusagen die Abweichungen

der Yl von ihrem jeweiligen Mittelwert ��𝑗 = μj. Darum gibt σ ≈ 1

𝑛 − 𝑘 𝐹 an, in welchem

Ausmaß die Teilstichproben um den jeweiligen Mittelwert 𝜇𝑗 schwanken.

Abschließend muss man noch die Abweichungen der ��𝑗 = μj (≈1

𝑘−1𝐿) in Relation zu

σ (≈ 1

𝑛 − 𝑘 𝐹) betrachten und die Verteilung dieses Quotienten bei Gültigkeit von H0

berechnen.

𝐻 =

1𝑘 − 1

𝐿

1𝑛 − 𝑘

𝐹 𝐻 𝜖 𝑅+ (77)

Diesbezüglich kann ein Satz aus der Wahrscheinlichkeitsrechnung herangezogen

werden:

Satz: Seien die Zufallsvariablen X1 und X2 unabhängig, X1 C(p) – verteilt und X2

C(q) – verteilt, so hat

1

𝑝X11

𝑞𝑋2

die F(l, m) – Verteilung.

5.5.2 Quadratsummenzerlegung

Zusätzlich zu diesen Angaben gibt T die Abweichung vom Gesamtmittel �� = μ an:

T =∑(Yl − µ)2 (78)

n

l=1

Satz: (79)

Gilt μ1 = μ2 = ... = μk, so hat H die F(k - 1, n - k) – Verteilung und es gilt L + F = T.

Beweis:

Seien V0 ={0} V1 V2 .... Vr – 1 ϲ Vr – 1 ϲ Vr = Rn Teilräume mit Dimensionen

d0 = 0 < d1 < ... < dr – 1 < dr = n und sei Pj die orthogonale Projektion auf Vj so dass

insbesondere P0x = 0 und Prx = x für alle x gilt.

Dann wird V1 vom Vektor e = (1⋮1) und V2 von den Vektoren v1, v2, ... , vk aufgespannt

und vj ist genau jener Vektor der in den Ij , also der Menge der j-ten Teilstichprobe

Einsen hat und sonst lauter Nullen. Somit gilt d1 = 1, d2 = k und d3 = n und wegen

v1 +...+ vk = e folgt V1 V2.

Page 87: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

5. DIE VARIANZANALYSE

- 80 -

Die orthogonale Projektion auf V1 kann berechnet werden indem für A = e die 1 x 1-

Matrix (1/n) durch (ATA) -1 angegeben wird und P1 = A(ATA)-1 AT die n x n –Matrix

(

1

𝑛…

1

𝑛

⋮ ⋱ ⋮1

𝑛…

1

𝑛

) ist.

⟹ P1x ist für alle x ϵ Rn die orthogonale Projektion von x auf den Teilraum V1,

insbesondere gilt P1Y= �� 𝑒.

Zur Bestimmung von P2 wird ähnlich vorgegangen wie bei P1 und A als die Matrix mit

den Spalten v1, ..., vk gewählt:

(ATA)−1 = (

1/n1 0 … 00 1/n2 … 0⋮ 0 ⋱ ⋮0 … … 1/nk

) ⟹ (ATA)−1ATY = (

µ1⋮µk) ⟹

P2Y = A (

µ1⋮µk) = µ1v1 + µ2v2 + …+ µkvk =

= (µ1, … , µ1, µ2, … , µ2, … µk, … , µk)T.

⟹ P3 Y = Y. Somit kann gefolgert werden, dass:

||P2Y − P1Y||2 = ∑nj(µj − µ)

k

j=1

² = L

||Y − P2Y||2 = ∑∑(Yl − µj)

2= F

l ϵIj

k

j=1

||Y − P1Y||2 = ∑(Yl − µ) = T

n

l=1

Nachdem ⟨𝑦 − 𝑃2𝑌, 𝑃2𝑌 − 𝑃1𝑌⟩ = 0 ist und P2Y – P1Y ϵ V2, gilt:

||𝑌 − 𝑃2𝑌||2 = ||𝑌 − 𝑃2𝑌 + 𝑃2𝑌 − 𝑃1𝑌|| =

= ||𝑌 − 𝑃2𝑌||² + ||𝑃2𝑌 − 𝑃1𝑌||² + 2⟨𝑦 − 𝑃2𝑌, 𝑃2𝑌 − 𝑃1𝑌⟩ =

= ||𝑌 − 𝑃2𝑌||² + ||𝑃2𝑌 − 𝑃1𝑌||²

Somit ist die Behauptung T = L + F bewiesen.

Page 88: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

6. TESTVERTEILUNGEN & TESTS FÜR VERTEILUNGSFUNKTIONEN

- 81 -

Kapitel 6

6. TESTVERTEILUNGEN & TESTS FÜR

VERTEILUNGSFUNKTIONEN Jene Verteilungen die in der Statistik auftreten, kann man nach ihrem

Verwendungszweck in zwei Klassen einteilen:

1. Solche Verteilungen, die in Beziehung zu mathematischen Modellen von

Zufallsexperimenten auftreten.

2. Und in Prüf- bzw. Testverteilungen , welche die Basis statistischer Tests bilden.

Im ersten Teilkapitel werden nun zwei besonders wichtige Verteilungen betrachtet, um

im Anschluss daran im zweiten Teil des Kapitels die zugehörigen Tests charakterisieren

zu können.

6.1 Testverteilungen

6.1.1 Chi-Quadrat-Verteilung. Gammafunktion

Wir betrachten die unabhängigen Zufallsvariablen X1, X2, ..., Xn, wobei jede eine

Normalverteilung mit Mittelwert 0 und Varianz 1 hat. Die daraus gebildete Summe der

Quadrate dieser Variablen bezeichnet man allgemein mit χ2 = χ12 + χ2

2 + …+ χn2 .

Die dazugehörige Verteilung nennt sich die Chi-Quadrat-Verteilung, wobei diese die

folgende Wahrscheinlichkeitsdichte hat

𝐟(𝐱) = 𝐊𝐧𝐱(𝐧−𝟐)/𝟐𝐞−𝐱/𝟐 für x > 0 (80)

und für negative x, f (x) = 0 gilt. Diese Bedingung ist deshalb zulässig, weil in dieser

Dichtefunktion x für 𝜒2 steht. Die Anzahl der Freiheitsgrade wird durch n

wiedergegeben und Kn ist eine Konstante.

Dichtefunktion

Abbildung 17: Dichtefunktion – Chi-Quadrat-Verteilung

Page 89: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

6. TESTVERTEILUNGEN & TESTS FÜR VERTEILUNGSFUNKTIONEN

- 82 -

Setzt man für n die Werte n = 1 und 2 ein, so sind die Kurven monoton fallend, während

sie für n > 2 ein Maximum bei x = n – 2 haben, ersichtlich aus der f ´ (x) = 0

Aus der Dichtefunktion erhält man die Verteilungsfunktion

𝐹(𝑥) = 𝐾𝑛∫ 𝑢(𝑛−2)/2𝑒−𝑢/2𝑑𝑢𝑥

0

für x ≥ 0

Dabei muss die auftretende Konstante Kn so gewählt werden, dass F(∞) = 1 wird,

woraus man folgendes erhält:

𝐾𝑛 =1

2𝑛2 Г(

𝑛2) (81)

Dabei ist Г (α) die sogenannte Gammafunktion, die definiert ist durch das Integral

Г(𝛼) = ∫ 𝑒−𝑡𝑡𝛼−1𝑑𝑡∞

0

𝛼 > 0 (82)

Schreiben wir nun α + 1 statt α und integrieren partiell, so folgt unmittelbar

Г(𝛼 + 1) = 𝛼 Г (𝛼) (83)

Beispiel: 3,2 ! = Г(4,2) = ∫ 𝒆−𝒕𝒕𝟑,𝟐∞

𝟎𝒅𝒕

Nun können wir α = 1 in die Gleichung (6.1.2) einsetzen und integrieren

Г(1) = ∫ 𝑒−𝑡𝑑𝑡∞

0

= 1

und dadurch ergibt sich wegen (6.1.3) nacheinander

Г(2) = 1 ∙ Г(1) = 1 !, Г(3) = 2 ∙ Г(2) = 2 !

bzw. allgemein Г(𝐧 + 𝟏) = 𝐧!

Die Gammafunktion ist deshalb eine Verallgemeinerung der elementaren Fakultät. Ist n

gerade, so ist demnach in (81)

Г (𝑛

2) = (

𝑛

2− 1) !

Übrig bleibt dann der Fall ungerader n

Г (1

2) = √𝜋

Wird nun (83) angewendet, so erhält man der Reihe nach: (siehe Tabelle im Anhang)

Г (3

2) =

1

2Г (1

2) =

1

2√𝜋, Г (

5

2) =

3

2Г (3

2) =

3

4√𝜋 usw.

Page 90: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

6. TESTVERTEILUNGEN & TESTS FÜR VERTEILUNGSFUNKTIONEN

- 83 -

6.1.2 T – Verteilung von Student

Eine weitere Grundlage wichtiger Tests, ist die sogenannte studentsche T-Verteilung

(wurde unter dem Pseudonym „Student“ veröffentlicht). Darunter versteht man die

Verteilung der Zufallsvariablen

𝑇 =𝑋

√𝑌/𝑛

mit n-Freiheitsgraden und X bzw. Y unabhängigen Zufallsvariablen.

Definition: Die Verteilung der Zufallsvariable Tn heißt t-Verteilung mit n-

Freiheitsgraden und hat die Wahrscheinlichkeitsdichte (84)

𝑓(𝑧) =Г (𝑛 + 12 )

√𝑛𝜋 Г (𝑛2) ∙

1

(1 +𝑧2

𝑛 )(𝑛+1)/2

(Herleitung siehe Anhang) und die zugehörige Verteilungsfunktion

𝐹(𝑧) =Г (𝑛 + 12 )

√𝑛𝜋 Г (𝑛2) ∙ ∫

𝑑𝑢

(1 +𝑢2

𝑛 )(𝑛+1)/2

𝑧

−∞

.

Für die Freiheitsgrade n =1 und n =2 hat die T-Verteilung keine Varianz. Für n = 3.4---

ergibt sich aber

𝜎2 =𝑛

𝑛 − 2.

Aus der Abbildung ist nun erkenntlich, dass mit wachsendem n die Verteilungsfunktion

der t-Verteilung gegen die Verteilungsfunktion der Normalverteilung mit μ = 0 und

σ = 1 strebt.

Abbildung 18: Dichte der T – Verteilung

6.1.3 F – Verteilung von Fischer

Definition: Vm und Vn seien zwei stochastisch unabhängige Zufallsvariable, die jeweils

Chi-Quadrat verteilt sind mit m bzw. n - Freiheitsgraden. Dann heißt die Zufallsvariable

Page 91: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

6. TESTVERTEILUNGEN & TESTS FÜR VERTEILUNGSFUNKTIONEN

- 84 -

V =

VmmVnn

Fisher verteilt mit (m,n) Freiheitsgraden oder kurz F(m,n)-verteilt.

Satz: Die F(m,n)-Verteilung besitzt die Dichte (85)

gm,n =Г(m + n2 )

Г (m2) Г(

n2)∙ (m

n)m/2 ∙

xm2−1

(1 +mn x)

m+n2

für 𝐱 ≥ 𝟎

Beweis: siehe Anhang

Für x > 0 gilt zum Beispiel für (m,n) = 6,4 bzw. (m, n) = (6, 10)

g6,4 (x) = 12 ∙ 1,53 𝑥2

(1+1,5𝑥)5

g6,10 (x) = 105 ∙ 0,63 𝑥2

(1+0,6𝑥)5

6.2 Tests für Verteilungsfunktionen

Nachdem in den bisherigen Kapiteln diverse Verteilungen bzw. Tests für

Verteilungsfunktionen als bekannt vorausgesetzt wurden, sollen diese nun in diesem

Abschnitt explizit charakterisiert werden. Es soll hier gezeigt werden, wie man von der

Stichprobenverteilung auf die Verteilung der Grundgesamtheit schließen kann. In der

Praxis hat man dabei oft eine Vermutung über die Art der Verteilung der

Grundgesamtheit, die mit Hilfe einer Stichprobe entweder bestätigt oder widerlegt wird.

Somit testen wir ähnlich wie im Kapitel 4 die Hypothese, dass eine Zufallsvariable X,

eine gewisse Verteilungsfunktion F(x) hat. Das empirische Analogon der Funktion F(x)

ist also offenbar die Verteilungsfunktion F(x) (Näherungsfunktion von F(x)) einer

Stichprobe aus der betreffenden Grundgesamtheit. Um etwas über die Abweichung

zwischen F(x) und F(x) aussagen zu können, bedarf es einem Maß für die Abweichung

zwischen diesen beiden Variablen. Außerdem muss man die

Wahrscheinlichkeitsverteilung des Abweichungsmaßes unter der Annahme, die

Hypothese sei richtig kennen, um eine Entscheidung darüber treffen zu können, ob man

die Hypothese verwirft oder beibehält.

Im Folgenden werden nun zwei wichtige Testverfahren diskutiert, zum einen der Chi-

Quadrat-Test für diskrete als auch stetige Verteilungen und zum anderen der

Kolmogoroff-Smirnov-Test für stetige Verteilungen.

6.2.1 Chi-Quadrat-Test

Der Grundgedanke des Chi-Quadrat-Tests besteht darin, die x-Achse in Teilintervalle

zu unterteilen, sich anschließend aus der hypothetischen Verteilungsfunktion F(x) die zu

diesen Intervallen gehörenden Wahrscheinlichkeiten der betreffenden Zufallsvariablen

X auszurechnen und diese dann mit den relativen Klassenhäufigkeiten einer gegebenen

Stichprobe zu vergleichen. Sofern die Diskrepanz zu groß ist, wird die Hypothese, F(x)

sei die Verteilungsfunktion von X, verworfen.

Page 92: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

6. TESTVERTEILUNGEN & TESTS FÜR VERTEILUNGSFUNKTIONEN

- 85 -

1. Schritt: Es wird eine Unterteilung der x-Achse in K Intervalle I1, I2, ... , Ik derart

vorgenommen, dass jedes Intervall zumindest 5 Werte der gegebenen Stichprobe x1,...xn

enthält. Dann wird für jedes Intervall Ij die Anzahl bj der Stichprobenwerte bestimmt,

die in Ij liegen. Liegen Werte auf den Intervallgrenzen, so zählen sie jeweils zur Hälfte

zum einen als auch zum anderen Intervall.

2. Schritt: Es folgt die Berechnung der Wahrscheinlichkeit pj für jedes Intervall Ij aus

F(x), mit der die betreffende Zufallsvariable irgendeinen Wert aus Ij annimmt. Daraus

kann die Anzahl der theoretisch in Ij zu erwartenden Stichprobenwerte

𝑒𝑗 = 𝑛𝑝𝑗

berechnet werden.

3.Schritt: Berechnung der Abweichung

𝜒02 =∑

(𝑏𝑗 − 𝑒𝑗)2

𝑒𝑗

𝑘

𝑗=1

4. Schritt: Man wählt eine Signifikanzzahl α und bestimmt die Lösung c der Gleichung

𝑃(𝜒2 ≤ 𝑐) = 1 − 𝛼

durch Ablesen aus der Tafel der Chi-Quadrat Verteilung mit K – 1 Freiheitsgraden.

Wenn 𝜒02 ≤ 𝑐 ist, wird die Hypothese angenommen, andernfalls verwirft man sie.

Beispiel zum Chi-Quadrat-Test (Mendelsche Gesetze)

G. MENDEL erhielt bei seinen allseits bekannten Kreuzungsversuchen an zehn

Erbsenpflanzen insgesamt 355 gelbe und 123 grüne Erbsen. Zu Testen ist nun, ob das

für oder gegen die Mendelsche Theorie spricht, nach welcher sich gelb : grün wie 3 : 1

verhalten sollte.

1. Schritt: Für die beiden möglichen Ereignisse legen wir zum Beispiel fest

X = 0 (gelbe Erbse) und X = 1 (grüne Erbse)

Anschließend bestimmt man K = 2 Intervalle so, dass jedes Intervall eines von beiden

Ereignissen enthält. Somit ist dann b1 = 355 und b2 = 123.

2. Schritt: Es ist n = 355 + 123 = 478 und wir erhalten

e1 = 478 ∙ 3

4= 358,5 bzw. e2 = 478 ∙

1

4= 119,5

3. Schritt: Dann berechnet man die Abweichung

𝜒02 =

(355 − 358,5)²

358,5+(123 − 119,5)²

119,5= 0,137

Page 93: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

6. TESTVERTEILUNGEN & TESTS FÜR VERTEILUNGSFUNKTIONEN

- 86 -

4. Schritt: Schließlich hat die Gleichung

𝑃(𝜒2 ≤ 𝑐) = 1 − 𝛼 = 0,95

für die Signifikanzzahl α = 5%, die Lösung c =3,84. Nachdem 𝜒02 < 𝑐 wird die

Hypothese angenommen.

6.2.2 Kolmogoroff-Smirnov-Test

Der Kolmogoroff-Smirnov Test eignet sich im Gegensatz zum Chi-Quadrat Test nur für

stetige Verteilungen. Wiederum gibt es eine Funktion F(x), die Verteilungsfunktion

einer Grundgesamtheit, aus der eine Stichprobe entnommen wurde und für die es darum

geht, eine Hypothese zu testen ist.

1. Schritt: Berechnung der Werte der stückweise konstanten Verteilungsfunktion ��(𝑥) der Stichprobe x1, ..., xn.

2. Schritt: Bestimmung der Maximalabweichung

a = max | F(x) − F(x) | bzw. genauer sup | F(x) − F(x) | zwischen F(x) und F(x)

3.Schritt: Bei vorgegebener Signifikanzzahl α bestimmt man die Lösung c der

Gleichung

P(A ≤ c) = 1 − α

aus der dem Stichprobenumfang n entsprechenden Zeile der Tafel für den Kolmogoroff-

Smitnov Test im Anhang. Die hypothese wird angenommen, falls a ≤ c zutrifft.

Beispiel zum Kolmogoroff-Smirnoff-Test (zugehörige Tabelle 12, siehe Anhang)

Es ist zu überprüfen, ob die Stichprobe der Tabelle unten einer Normalverteilung mit

Mittelwert μ = 165,05 cm und der Varianz 𝜎² = 34,31 cm² entspricht.

(�� = 165,05 𝑢𝑛𝑑 𝑠 = √34,31 = 5,86)

1. Schritt: Die Werte der Verteilungsfunktion ��(𝑥) der Stichprobe in der Tabelle erhält

man durch Summenbildung der Spalte mit den relativen Häufigkeiten

2. Schritt: Nun muss man testen, ob die Grundgesamtheit die Verteilungsfunktion

𝐹(𝑥) = 𝛷(𝑥 − 165,05

5,86)

hat, deren Werte aus der Tafel im Anhang stammen. Anschließend werden a1 und a2

berechnet. Zum Beispiel für die zweite Zeile:

a1 = F(154) – ��(153) = 0,03 – 0,01 =0,02

𝑎2 = 𝐹(154) − ��(154) = 0,03 − 0,02 = 0,01

3. Schritt: Bei gegebener Signifikanzzahl α = 5 % und einem Stichprobenumfang von

n = 100, entnimmt man als Lösung der Gleichung aus der Tafel im Anhang

P(A ≤ c) = 1 – α = 0,95 die Zahl c = 0,134 ( Hypothese wird angenommen)

Page 94: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

7. EIGENWERTPROBLEM & ORTHOGONALITÄT

- 87 -

Kapitel 7

7. EIGENWERTPROBLEM &

ORTHOGONALITÄT

Dieses Kapitel verfolgt das Ziel, lineare Transformationen x → Ax in einzelne, leicht

visualisierbare Elemente aufzugliedern. Die Hauptanwendungen der hier aufgegriffen

Basiskonzepte – Eigenwerte und Eigenvektoren – beziehen sich auf diskrete

dynamische Modelle, deren Anwendung sogar in Situationen fernab der Mathematik

nützlich erscheint.

7.1 Eigenwerte & Eigenvektoren

Obwohl durch Transformationen x → Ax Vektoren in beliebige Richtungen gedreht

werden können, ist es oft der Fall, dass spezielle Vektoren existieren, für die

Transformationen durch A besonders günstig sind.

Beispiel 1

A = (3 −21 0

) , u = (−11) und v = (

21)

Die Bilder von v und u durch Multiplikation von A werden in der Abbildung darunter

gezeigt. Tatsache ist, dass Av gerade 2v ist und A dadurch nur v „streckt“.

Abbildung 19: Bilder von v und u durch Multiplikation von A

Sofern nun A eine stochastische Matrix ist, erfüllt der stationäre Vektor q für A die

Gleichung Ax = x. Dieser ist, Aq = 1∙ q.

In diesem Abschnitt werden folglich derartige Gleichungen wie in etwa

Ax = 2x oder Ax = -4x

diskutiert und wir werden nach solchen Vektoren Ausschau halten, die durch A in ein

Skalarprodukt von sich selbst transformiert werden.

Page 95: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

7. EIGENWERTPROBLEM & ORTHOGONALITÄT

- 88 -

Definition: Ein Eigenvektor einer n x n Matrix A ist ein von null verschiedener Vektor

x so dass Ax = λx für irgendein Skalar λ. Ein Skalar λ wird als Eigenwert von A

bezeichnet, wenn eine nichttriviale Lösung x von Ax = λx vorliegt; ein derartiges x ist

ein Eigenvektor der mit λ korrespondiert. (86)

Beispiel 2

Seien A = (1 65 2

) , 𝑢 = (6−5)𝑢𝑛𝑑 𝑣 = (

3−2). Sind u und v Eigenvektoren von A ?

𝐀𝐮 = (1 65 2

) (6−5) = (

−2420

) = −4(6−5) = −4 𝐮

𝐀𝐯 = (1 65 2

) (3−2) = (

−911) ≠ λ (

3−2)

Deshalb ist u ein Eigenvektor, der mit dem Eigenwert -4 korrespondiert, während v kein

Eigenvektor von A ist.

Beispiel 3

Hier soll gezeigt werden, dass 7 ein Eigenwert der Matrix A ist, um anschließend die

korrespondierenden Eigenvektoren bestimmen zu können.

Damit 7 ein Eigenwert ist, muss Ax = 7x eine nichttriviale Lösung haben.

Diese Gleichung ist allerdings äquivalent zu (A – 7 I) x = 0

A – 7I = (1 65 2

) − (7 00 7

) = (−6 65 −5

)

Die Spalten von A – 7I sind offensichtlich linear abhängig, somit hat (A – 7I) x = 0

nichttriviale Lösungen und 7 ist ein Eigenwert von A. Um die dazu korrespondierenden

Eigenvektoren zu finden, werden nun Zeilenoperationen angewendet:

(−6 6 05 −5 0

) ~ (1 −1 00 0 0

)

Die allgemeine Lösung hat die Form y ∙ (11). Jeder Vektor dieser Form, mit y ≠ 0 ist ein

Eigenvektor der mit λ = 7 korrespondiert.

Insofern ist λ ein Eigenwert von A, dann und nur dann, wenn die Gleichung (A−λI)x= 0

eine nichttriviale Lösung hat. Das Set mit allen Lösungen dieser Gleichung ist gerade

der Nullraum der Matrix A –λI, welches ein Unterraum von Rn ist, den man Eigenraum

von A bezüglich λ nennt. Der Eigenraum besteht aus dem Nullvektor und allen

Eigenvektoren die mit λ korrespondieren.

Beispiel 3 zeigt dies für die Matrix A im Beispiel 2, wobei der Eigenraum der sich auf λ

= 7 bezieht, aus allen Vielfachen vom Vektor (1,1) besteht (Linie durch (1,1) und

Ursprung). Aus Beispiel 2 ergibt sich, dass der Eigenraum der mit λ = -4 korrespondiert

Page 96: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

7. EIGENWERTPROBLEM & ORTHOGONALITÄT

- 89 -

die Linie durch (6, -5) ist. Diese Eigenräume werden in der Abbildung 20 gezeigt und

zwar zusammen mit den Eigenvektoren (1, 1) und (3/2, - 5/4) und der geometrischen

Handlung der Transformation x → A x auf jeden Eigenraum.

Abbildung 20: Eigenräume zum Beispiel 3

Beispiel 4

Wir wählen A = (4 −1 62 1 62 −1 8

) und nehmen einen Eigenwert von A mit 2 an. Ziel ist es

nun eine Basis für den korrespondierenden Eigenraum zu finden:

𝐴 − 2𝐼 = (4 −1 62 1 62 −1 8

) − (2 0 00 2 00 0 2

) = (2 −1 62 −1 62 −1 6

)

(2 −1 6 02 −1 6 02 −1 6 0

) ~ (2 −1 6 00 0 0 00 0 0 0

)

Somit haben wir uns davon überzeugt, dass 2 tatsächlich ein Eigenwert von A ist, weil

die Gleichung (A-2I)x = 0 frei Variablen hat. Die allgemeine Lösung ist

(𝑥𝑦𝑧) = 𝑦 (

0,510) + 𝑧 (

−301) , y und z sind frei wählbar

Der Eigenraum ist ein zweidimensionaler Teilraum des R3. Eine Basis ist dadurch

gegeben mit:

{(120) , (

−301)}

Theorem 1: Die Eigenwerte einer Dreiecksmatrix sind die Einträge auf der

Hauptdiagonalen.

Beweis: Zur Vereinfachung betrachten wir den 3 x 3 Fall. Wenn A eine obere

Dreiecksmatrix ist, so hat A – λI die Form

𝐴 − 𝜆𝐼 = (

𝑎11 𝑎12 𝑎130 𝑎22 𝑎230 0 𝑎33

) − (𝜆 0 00 𝜆 00 0 𝜆

)

Multiplikation

mit 7

Multiplikation

mit - 4

Eigenraum

für λ = 7

Eigenraum

für λ = - 4

Page 97: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

7. EIGENWERTPROBLEM & ORTHOGONALITÄT

- 90 -

= (

𝑎11 − 𝜆 𝑎12 𝑎130 𝑎22 − 𝜆 𝑎230 0 𝑎33 − 𝜆

)

Das Skalar λ ist ein Eigenwert von A, wenn die Gleichung (A − λI) x = 0 eine

nichttriviale Lösung hat. Dieser Fall tritt auf, wenn die Gleichung freie Variable

aufweist. Nachdem A – λI Nulleinträge hat, sieht man, dass (A − λI)x = 0 freie Variable

hat, wenn zumindest ein Diagonaleintrag gleich null ist. Dieser Fall tritt nur dann auf,

wenn λ gleich einem der Einträge a11, a22 oder a33 ist.

Theorem 2: Wenn v1, ..., vr Eigenvektoren sind, die mit individuellen Eigenwerten

λ1,...,λr einer n x n Matrix A korrespondieren, dann ist das Set {v1,...,vr}linear

unabhängig.

Beweis: Wenn{v1, ..., vr} linear abhängig ist, so gibt es einen minimalen Index p so dass

vp+1 eine Linearkombination der vorangehenden (linear unabhängigen) Vektoren ist,

und es existieren Skalare c1, ..., cp so dass

(a) c1v1 +⋯+ cpvp = vp+1 gilt.

Multipliziert man nun beide Seiten von (a) mit A und verwendet die Tatsache dass

Avk = λkvk für jedes k ist, so erhalten wir

(b) c1Av1+ . . . +cpAvp = Avp+1

c1λ1v1+. . . +cpλpvp = λp+1vp+1

Multipliziert man beide Seiten von (a) mit λp+1 und zieht das Ergebnis von (b) ab, so

haben wir

(c) c1(𝜆1 − 𝜆𝑝+1)𝑣1 + …+ 𝑐𝑝(𝜆𝑝 − 𝜆𝑝+1)𝑣𝑝 = 0

Nachdem {v1,...,vp} linear unabhängig ist, sind alle Werte ci = 0, aber keiner der

Faktoren 𝜆𝑖 − 𝜆𝑝+1 ist, aufgrund der unterschiedlichen Eigenwerte. Allerdings sagt (a)

aus, dass vp+1 = 0 ist, was unmöglich ist. Darum kann v1 ... vr nicht linear abhängig sein

und ist deshalb linear unabhängig.

7.2 Die charakteristische Gleichung

Nützliche Informationen über die Eigenwerte einer quadratischen Matrix A sind

verschlüsselt in einer speziellen Skalargleichung, die man charakteristische Gleichung

von A nennt

7.2.1 Determinanten

Wir betrachten A als eine n x n Matrix und erhalten eine geeignete Treppenform U

dieser Matrix durch Gauß – Elimination (k ist die Anzahl der Zeilen - Vertauschungen).

Bei auftretenden Zeilenvertauschungen im Eliminationsverfahren ist zusätzlich zur

Page 98: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

7. EIGENWERTPROBLEM & ORTHOGONALITÄT

- 91 -

Multiplikation der Diagonalelemente der Treppenform noch der Faktor (-1)k hinzu zu

multiplizieren.

det A = {(−1)r ∙ (Pivotprodukt von U) wenn A invertierbar

0 wenn A nicht invertierbar

Theorem 3: Eigenschaften von Determinanten

Seien A eine n x n Matrix, dann gilt:

a) A ist invertierbar, dann und nur dann wenn det A ≠ 0

b) det AB =(det A)(det B)

c) det AT = det A

d) Ist A eine Dreiecksmatrix, dann ist det A das Produkt der Einträge auf der

Hauptdiagonale

e) Ein Zeilentausch von A ändert die Determinante nicht. Multiplikation einer Zeiel mit

einem Skalar führt jedoch dazu, das die Determinante mit dem selben faktor

multipliziert wird.

Theorem 4: Wenn n x n Matrizen ähnlich sind, haben sie das selbe charakteristische

Polynom und daher dieselben Eigenwerte (mit den selben Vielfachheiten).

Beweis

Wenn B = P-1 A P, so ist

B – λI = P-1AP – λP-1P = P-1(AP − λP) =P -1 (A − λI)P

Wir verwenden Eigenschaft (b) aus Theorem 3 und berechnen

𝑑𝑒𝑡(𝐵 − 𝜆𝐼) = det [𝑃−1(𝐴 − 𝜆𝐼) 𝑃 ]

= det(P−1) ∙ det (A − λI) ∙ det (P)

Nachdem det (P-1) ∙ det (P) = det (P-1P) = det I = I ist, ist tatsächlich

det (B - λI) = det (A - λI)

7.3 Diagonalisierung

In vielen Fällen kann die Eigenwert – Eigenvektor Information die in einer Matrix A

enthalten ist, in einer nützlichen Faktorisierung der Form A = PDP -1 gezeigt werden.

Mit dieser Faktorisierung gelingt es, Ak für große Werte von k möglichst schnell zu

berechnen und ist somit eine fundamentale Idee in einigen Anwendungen der linearen

Algebra.

Page 99: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

7. EIGENWERTPROBLEM & ORTHOGONALITÄT

- 92 -

Beispiel: Gegeben ist A =

(7 2−4 1

) und es soll eine Formel Ak gefunden werden, so dass A = PDP−1 gilt,

mit P = (1 1−1 −1

) und D = (5 00 3

)

Die Standardformel für die Inverse einer 2 x 2 Matrix ergibt

𝑃−1 = (2 1−1 −1

)

Anschließend verwenden wir die Assoziativität der Matrixmultiplikation:

A2 = (PDP−1)(PDP−1) = PD(P−1P)DP−1 = PDDP−1

= 𝑃𝐷2𝑃−1 = (1 1−1 −2

) (52 00 32

) (2 1−1 −1

)

Im Allgemeinen gilt für k ≥ 1

𝐴𝑘 = 𝑃𝐷𝑘𝑃−1 = (1 1−1 −2

) (5𝑘 00 3𝑘

) (2 1−1 −1

)

= ( 2 ∙ 5𝑘 − 3𝑘 5𝑘 − 3𝑘

2 ∙ 3𝑘 − 2 ∙ 5𝑘 2 ∙ 3𝑘 − 5𝑘)

Theorem 5: Das Diagonalisierungstheorem

Eine n x n Matrix A ist diagonalisierbar, dann und nur dann, wenn A n linear

unabhängige Eigenvektoren hat. Tatsächlich trifft A = PD𝑃−1 , mit der Diagonalmatrix

D, nur zu, wenn die Spalten von P n linear unabhängige Eigenvektoren von A sind. In

diesem Fall sind die Diagonaleinträge von D Eigenwerte von A die zu mit den

Eigenvektoren in P korrespondieren.

7.4 Orthogonalprojektionen und ihre Anwendung bei

der Methode der kl. Quadrate

Ein Set von Vektoren {u1, ..., up} im Rn wird als orthogonales Set bezeichnet, wenn

jedes Paar unterschiedlicher Vektoren des Sets orthogonal ist, sodass ui ∙ uj = 0

(mit i ≠ j).

Theorem 6: Wenn S = {u1, ..., up} ein orthogonales Set von Vektoren ungleich 0 im Rn

ist, so ist S linear unabhängig und daher eine Basis für den Unterraum der durch S

aufgespannt iwrd.

Beweis: Wenn 0 = c1u1 + ... + cpup für einige Skalare c1, ..., cp, dann ist

0 = 0 ∙ u1 = (c1u1 + c2u2 + ... + cpup) ∙ u1

= (c1u1) ∙ u1 + (c2u2) ∙ u1 + ... + (cpup) ∙ u1

= c1(u1 ∙ u1) + c2(u2 ∙ u1) + ... +cp (up ∙ u1)

= c1 (u1 ∙ u1)

weil u1 orthogonal zu u2, ..., up ist. Nachdem u1 ungleich null, u1 ∙ u1 nicht null und c1 = 0

ist. Ähnlich dazu muss c2, ..., cp null sein, wodurch S linear unabhängig ist.

Page 100: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

7. EIGENWERTPROBLEM & ORTHOGONALITÄT

- 93 -

Definition: Eine Orthogonalbasis für einen Unterraum W des Rn ist eine Basis für W,

die außerdem ein orthogonales Set bildet. (87)

Theorem 7: Sei {u1, ..., up}eine Orthogonalbasis für einen Unterraum W des Rn. Dann

wird jedes y in W eindeutig als Linearkombination der u1,..., up repräsentiert.

Tatsächlich gilt, wenn

y = c1u1 + ... + cpup

dass cj =𝑦 ∙ 𝑢𝑗

𝑢𝑗∙ 𝑢𝑗 (mit j = 1, ..., p) ist.

Beweis: Ähnlich wie im vorhergehenden Beispiel, zeigt die Orthogonalität von

{u1, ..., up} dass y ∙ u1 = (c1u1 + c2u2 + ... + cpup) ∙ u1 = c1 ∙ (u1 ∙ u1)

Nachdem u1 ∙ u1 ungleich null ist, kann die Gleichung für c1 gelöst werden. Um cj für j

= 2, ..., p zu finden, berechnet man y ∙ uj und löst für cj auf.

Die Orthogonalprojektion

Nun sei ein Vektor u (im Rn) ungleich null gegeben und wir betrachten das Problem,

dass der Vektor y in eine Summe von zwei Vektoren, einer ein Vielfaches von u und der

andere orthogonal zu u, so dass

y = �� + 𝑧 (88)

wobei y = αu für ein Skalar α und z irgendein orthogonaler Vektor zu u ist.

→ 0 = (y − αu) ∙ u = y ∙ u – (α u) ∙ u = y ∙ u – α (u ∙ u)

Deshalb ist α = 𝑦 ∙𝑢

𝑢∙𝑢 und somit �� =

𝑦 ∙𝑢

𝑢 ∙ 𝑢 𝑢 die Orthogonalprojektion von y auf u

und z = y − 𝑦∙𝑢

𝑢 ∙𝑢𝑢 der orthogonale Bestandteil von y zu u.

Beispiel: Gegeben seien u1 = (25−1) , u2 =(

−211) und y = (

123).

Wir beobachten, dass {u1, u2} eine Orthogonalbasis für W = Span {u1, u2}ist und und

schreiben y als die Summe eines Vektors in W und eines Vektors orthogonal zu W.

y =y ∙ u1

u1 ∙ u1+

y ∙ u2

u2 ∙ u2u2 =

9

30 (25−1) +

3

6(−211) = (

−2/521/5

)

Also

y − y = (123) − (

−2/521/5

) = (7/50

14/5)

Page 101: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

7. EIGENWERTPROBLEM & ORTHOGONALITÄT

- 94 -

Nun können wir uns davon überzeugen, dass y - �� tatsächlich orthogonal zu u1 und u2

ist. Die gewünschte Zerlegung von y ist somit 𝑦 = (123) = (

−2/521/5

) + (7/50

14/5)

Theorem 8: Eine m x n Matrix U hat orthonormale Spalten, dann und nur dann, wenn

U T U = I.

7.5 Das Gram Schmidt Verfahren Das Gram Schmidt Verfahren ist ein einfacher Algorithmus, um eine Orthogonal- oder

Orthonormalbasis für beliebige Unterräume (≠ 0) des Rn zu erzeugen.

Ist eine Basis {x1, ..., xp} für einen Unterraum W des Rn gegeben, so definiert man das

Gram Schmidt Verfahren wie folgt: (89)

v1 = x1

v2 = x2 −𝑥2 ∙ 𝑣2

𝑣1 ∙ 𝑣1 𝑣1

v3 = x3 − 𝑥3 ∙ 𝑣1

𝑣1 ∙ 𝑣1 𝑣1 −

𝑥3 ∙ 𝑣2

𝑣2 ∙ 𝑣2 𝑣2

vp = xp − 𝑥𝑝 ∙ 𝑣1

𝑣1 ∙ 𝑣1 𝑣1 −

𝑥𝑝 ∙ 𝑣2

𝑣2 ∙ 𝑣2 𝑣2 −⋯−

𝑥𝑝 ∙ 𝑣𝑝−1

𝑣𝑝−1 ∙ 𝑣𝑝−1 𝑣𝑝−1

Beispiel: Gegeben sind die beiden Vektoren x1 = (360) und x2 = (

122) mit

W = Span {x1, x2} und wir konstruieren nun eine Orthogonalbasis {v1, v2} für W.

Die Komponente von x2 orthogonal zu x1 ist x2 – p, (p ist die Projektion von x2 auf

x1) und liegt in W, weil sie durch x2 und einem Vielfachen von x1 erzeugt wird. x1 = v1.

v2 = x2 – p = x2 −𝑥2 ∙ 𝑥1

𝑥1 ∙ 𝑥1 ∙ 𝑥1

= (122) −

15

45 (360) = (

002)

Somit ist {v1, v2} schließlich ein orthogonales Set von Vektoren ungleich null in W

Und eine Orthonormalbasis ergibt sich durch Division von {v1, v2} durch die Norm:

u1 = 1

||v1|| v1 =

1

√45 (360) = (

1/√5

2/√50

)

u2 = 1

||v2|| v2 = (

001)

Diese Orthonormalbasen bilden im Wesentlichen die Voraussetzung für eine QR –

Faktorisierung (sofern die Matrix A m x n unabhängige Spalten hat), welche die

Matrix A in die Faktoren Q ∙ R zerlegt. Zuerst bildet man bei diesem Verfahren die

Orthonormalbasis, wie eben gezeigt und R ist eine invertierbare n x n Dreiecksmatrix

mit positiven Einträgen auf der Diagonale (mit A = QR):

QTA = QT (QR) = IR = R

Page 102: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

7. EIGENWERTPROBLEM & ORTHOGONALITÄT

- 95 -

Auf Anwendungen und Beispiele dieser Faktorisierung wird an dieser Stelle verzichtet,

jedoch werden wir im nächsten Unterkapitel nochmal auf diese praktische Form der

Faktorisierung zurück kommen.

7.6 Anwendungen auf Kleinste-Quadrate-Probleme

Dieses Unterkapitel greift teilweise bereits besprochene Inhalte auf und versucht

nochmal einen Gesamtüberblick über „Lineare Algebra“ im Kontext der „Methode der

kleinsten Quadrate“ zu geben, ehe in den letzten beiden Kapiteln explizit die

Hauptfaktorenanalyse samt ihrem Kern der Singulärwertzerlegung näher erläutert wird.

Ausgehend vom Problem, dass Ax = b keine Lösung hat, obwohl eine solche gesucht

wird, ist es das Beste, ein solches x zu finden, welches Ax so gut wie möglich an b

annähert. Je kleiner der Abstand zwischen b und Ax, gegeben durch || b – Ax||, desto

besser die Approximation.

Definition: Sei A eine m x n Matrix und b im Rm, so ist eine kleinste-Quadrate Lösung

von Ax = b ein �� im Rn so dass für alle x im Rn gilt:

||𝑏 − 𝐴��|| ≤ ||𝑏 − 𝐴𝑥|| (90)

Dabei spielt es keine Rolle welches x man wählt, der Vektor Ax liegt notwendigerweise

im Spaltenraum von A und darum suchen wir ein x, so dass Ax der nahste Punkt des

Spaltenraumes A zu b ist.

Abbildung 21: b ist näher zu A𝒙 als zu Ax für andere x

Bei gegebenem A und b wie oben, fügen wir nun die „Beste Näherung“ zum Unterraum

der Spalten von A hinzu. Sei dazu:

�� = projSpalten A 𝐛

und weil �� der nahste Punkt im Spaltenraum A ist, ist die Gleichung A�� = �� konsistent

und es existeirt ein �� im Rn so dass gilt: A�� = ��

Abbildung 22: Die kleinste Quadrate Lösung 𝒙 liegt im Rm

0

b

Ax

Ax A��

�� Unterraum des Rm

0

b = Ax

b 𝑏 − 𝐴��

Rn

Page 103: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

7. EIGENWERTPROBLEM & ORTHOGONALITÄT

- 96 -

AT (b −Ax) = 0

AT b − ATAx = 0

ATA x = AT b

Das Set von kleinste Quadrate Lösungen von Ax = b deckt sich mit dem „nicht leeren“

Set von Normalgleichungen ATA x = AT b.

Beispiel:

Gesucht ist eine kleinste – Quadrate Lösung des inkonsistenten Systems Ax = b

A = (4 00 21 1

) , b = (2011)

Nun berechnet man:

ATA = (4 0 10 2 1

)(4 00 21 1

) = (17 11 5

)

ATb = (4 0 10 2 1

) (2011) = (

1911)

Nun wird die Gleichung ATA�� =ATb zu

(17 11 5

) (x1x2) = (

1911)

und (ATA)-1 ergibt: (ATA)−1 =1

84 (5 −1−1 17

) woraus �� = (ATA)−1ATb folgt.

�� =1

84(5 −1−1 17

) (1911) = (

12)

Alternativ können bei orthogonalen Spalten von A Berechnungen der kleinste Quadrate

Lösungen natürlich auch mit Orthonormalbasen, dem Gram Schmidt Verfahren bzw.

der A = QR Faktorisierung (Ax = b wird zu x = R−1QTb mit A = QR) erfolgen.

Page 104: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

8. SYM. MATRIZEN & QUAD. FORMEN

- 97 -

Kapitel 8

8. SYM. MATRIZEN & QUAD. FORMEN

Symmetrische Matrizen treten in Anwendungen öfter auf, als jede andere Hauptklasse

von Matrizen. Die Diagonalisierung einer symmetrischen Matrix, die nun im Kapitel

7.1 diskutiert wird, bildet die Grundlage für weitergehende Diskussionen in den

Abschnitten 7.2 und 7.3, die quadratischen Formen betreffend.

8.1 Diagonalisierung symmetrischer Matrizen

Eine symmetrische Matrix, ist eine Matrix A mit AT = A, die notwendigerweise

quadratisch ist. Die Einträge der Hauptdiagonale sind willkürlich, aber die anderen

Einträge treten paarweise auf – und zwar auf entgegengesetzten Seiten der

Hauptdiagonale.

Beispiel

Gegeben sei A = (6 −2 −1−2 6 −1−1 −1 5

) mit den Eigenwerten und Eigenvektoren:

𝜆 = 8; 𝑣1 = (−110) ; 𝜆 = 6; 𝑣2 = (

−1−12) ; 𝜆 = 3; 𝑣3 = (

111)

Diese 3 Vektoren formen eine Basis für R3 und somit könnten wir sie als Spalten einer

Matrix P verwenden, die A diagonalisiert (sind orthogonal aufeinander). Trotzdem wäre

es sinnvoller, wenn die Spalten orthonormal wären:

𝑢1 = (−1/√2

1/√20

) , 𝑢2 = (

−1/√6

−1/√6

2/√6

), 𝑢3 = (

1/√3

1/√3

1/√3

)

𝑃 = (

−1/√2 −1/√6 1/√3

1/√2 −1/√6 1/√3

0 2/√6 1/√3

)

Dann ist für gewöhnlich A = PDP−1, wobei dieses Mal P quadratisch ist, orthonormale

Spalten hat, die orthogonal sind und P-1 = PT gilt.

Theorem 9: Wenn A symmetrisch ist, dann sind irgendwelche zwei Eigenvektoren von

unterschiedlichen Eigenräumen orthogonal.

Page 105: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

8. SYM. MATRIZEN & QUAD. FORMEN

- 98 -

Theorem 10: Eine n x n Matrix A ist orthogonal diagonalisierbar, dann und nur dann,

wenn A symmetrisch ist.

Beispiel

Gegeben ist die Matrix A = (3 −2 4−2 6 24 2 3

) und wir diagonalisieren diese Matrix

orthogonal, ausgehend von der charakteristischen Gleichung

0 = −𝜆3 + 12𝜆2 − 21𝜆 − 98 = −(𝜆 − 7)2(𝜆 + 2)

𝜆 = 7; 𝑣1 = (101), 𝑣2 = (

−1/210) ; 𝜆 = −2; 𝑣3 = (

−1−1/21)

Obwohl v1 und v2 linear unabhängig sind, sind sie nicht orthogonal. Allerdings ist eine

Projektion von v2 auf v1 gegeben durch 𝑣2∙𝑣1

𝑣1∙𝑣1𝑣1 und die Komponente von v2

orthogonal zu v1 ist:

𝑧2 = 𝑣2 −𝑣2 ∙ 𝑣1𝑣1 ∙ 𝑣1

𝑣1 = (−1/210) −

−1/2

2(101) = (

−1/411/4

)

Dann ist {v1, v2} ein orthogonales Set im Eigenraum für λ = 7 (z2 ist eine

Linearkombination der Eigenvektoren v1 und v2 und liegt somit im Eigenraum).

Nachdem der Eigenraum 2- dimensional ist, haben wir mit dem orthogonalen Set

{v1, z2} eine Orthogonalbasis für den Eigenraum bzw. durch normieren die

Orthonormalbasis für den Eigenraum (für λ = 7).

𝑢1 = (1/√20

1/√2

), 𝑢2 = (

−1/√18

4/√18

1/√18

)

Eine Orthonormalbasis für den Eigenraum λ = -2 ist:

𝑢3 =1

||2𝑣2||2𝑣3 =

1

3(−2−12) = (

−2/3−1/32/3

)

8.2 Quadratische Formen

Bis jetzt erfolgte in diesem Kapitel eine Fokussierung auf lineare Gleichungen, außer

für die Quadratsummen die bei der Berechnung von xTx auftraten, aber auch bei der

Methode der kleinsten Quadrate. Solche Summen, sogenannte quadratische Formen,

treten somit hauptsächlich in Anwendungen der linearen Algebra auf.

Eine quadratische Form im Rn ist eine Funktion Q, deren Wert bei einem Vektor x

durch einen Ausdruck der Form Q(x) = 𝑥𝑇𝐴𝑥 (mit A symmetrisch) berechnet werden

kann. Das simplste Beispiel einer quadratischen Form ≠ 0 ist Q(x) = xTI x = ||x|| ² bzw.

kann statt I auch eine beliebige symmetrische Matrix A eingesetzt werden.

Page 106: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

8. SYM. MATRIZEN & QUAD. FORMEN

- 99 -

Beispiel

Gegeben: 𝐴 = (4 00 3

) 𝑥𝑇𝐴𝑥 = (𝑥1 𝑥2) (4 00 3

) (𝑥1𝑥2) = 4𝑥1

2 + 3𝑥22

Theorem 11 (Hauptachsentheorem)

Sei A eine symmetrische n x n Matrix. Dann gibt es einen orthogonalen Wechsel der

Variable, x = Py, der die quadratische Form xTAx in die quadratische Form yTDy

transformiert, ohne das Kreuzprodukt zu verwenden.

Die Spalten von P im Theorem sind die Hauptachsen der quadratischen Form xTAx und

der Vektor y ist der Koordinatenvektor von x bezogen auf die Orthonormalbasis von Rn,

die durch diese Hauptachsen gegeben sind.

Beispiel

Gegeben sei die Matrix A= (1 −4−4 −5

) aus der sich folgende Orthonormalbasis ergibt:

𝑃 = (2/√5 1/√5

−1/√5 2/√5) , 𝐷 = (

3 00 −7

)

Dann ist A = PDP -1 und D = P -1AP = 𝑃𝑇𝐴𝑃 und x kann wie folgt geändert werden:

𝐱 = 𝐏𝐲, 𝑤𝑜 𝑥 = (𝑥1𝑥2) 𝑢𝑛𝑑 𝑦 = (

𝑦1𝑦2)

𝑥12 − 8𝑥1𝑥2 − 5𝑥2

2 = 𝑥𝑇𝐴𝑥 = (𝑃𝑦)𝑇𝐴 (𝑃𝑦)

= 𝑦𝑇𝑃𝑇𝐴 𝑃𝑦 = 𝑦𝑇𝐷𝑦

= 3𝑦12 − 7𝑦2

3

Um die Bedeutung der Gleichheit der quadratischen Formen in diesem Beispiel zu

zeigen, können wir Q(x) für x =(2, -2) berechnen, indem wir die quadratische Form

verwenden. Nachdem x = Py ist, ergibt sich y = P-1 x = PT x.

8.3 Singulärwertzerlegung

Die besprochenen Diagonalisierungstheoreme spielen in vielen interessanten

Anwendungen eine Rolle. Doch leider können nicht alle faktorisiert werden durch

A = PDP -1 und der Diagonalmatrix D. Allerdings ist eine Faktorisierung A =QDP-1 für

irgendeine m x n Matrix A möglich. Eine spezielle Faktorisierung dieses Typs, die

sogenannte Singulärwertzerlegung, ist eine der nützlichsten Matrixfaktorisierungen der

angewandten linearen Algebra. Sie basiert auf der folgenden Eigenschaft der

gewöhnlichen Diagonalisierung, die von Rechtecksmatrizen imitiert werden kann:

Die absoluten Werte der Eigenwerte einer symmetrischen Matrix A messen den

Umfang, in dem A gewisse Vektoren (die Eigenvektoren) streckt oder staucht.

Wenn Ax = λx und ||x|| = 1, dann ist

||𝐴𝑥|| = ||𝜆𝑥|| = |𝜆| ∙ ||𝑥|| = |𝜆| (91a)

Page 107: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

8. SYM. MATRIZEN & QUAD. FORMEN

- 100 -

Wenn λ1 jener Eigenwert mit der größten Magnitude ist, dann identifiziert der dazu

korrespondierende Einheitseigenvektor v1 eine Richtung, in welcher der

Ausdehnungseffekt von A am größten ist. Die Länge von Ax wird also durch (91a) dann

maximiert wenn x = v1 und ||Av1|| =| λ1 | ist. Diese Beschreibung von v1 und |λ1| gilt

analog für alle Rechtecksmatrizen, bei denen eine Singulärwertzerlegung durchgeführt

wird.

Beispiel

Angenommen A = (4 11 148 7 −2

), so bildet die lineare Transformation x → Ax die

Einheitskugel {x: ||x|| = 1} im R3 auf eine Ellipse im R2 ab. Ziel ist es nun, einen

Einheitsvektor x zu finden, bei welchem die Länge ||Ax|| maximiert wird.

Abbildung 23: Transformation vom R3 in den R2

Lösung: Die Größe von ||Ax||² ist beim selben x maximal, welches auch ||Ax||

maximiert, wobei ||Ax||² leichter handhabbar ist. Wir beobachten, dass:

||Ax||2 = (Ax)T(Ax) = xTATAx = xT(ATA)x ist.

ATA ist auch eine symmetrische Matrix, nachdem gilt: (ATA)T = ATATT = ATA . Also

besteht das Problem jetzt darin, die quadratische Form 𝑥𝑇(𝐴𝑇𝐴)𝑥 so zu maximieren,

dass sie Gegenstand der Bedingung || x || = 1 wird. Ohne explizit darauf einzugehen ist

der Maximalwert aber genau der größte Eigenwert λ1 von ATA. Außerdem gelangt man

zum Maximalwert durch einen Einheitseigenvektor von ATA der zu λ1 gehört.

𝐴𝑇𝐴 = (4 811 714 −2

)(4 11 148 7 −2

) = (80 100 40100 170 14040 140 200

)

Die Eigenwerte von ATA sind λ1 = 360, λ2 = 90 und λ3 = 0. Die dazu

korrespondierenden Eigenvektoren entsprechen dann

x

y

z

Multiplikation

mit A

x

y

(3, -9)

(18,6)

Page 108: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

8. SYM. MATRIZEN & QUAD. FORMEN

- 101 -

𝑣1 = (

1/32/32/3

) 𝑣2 = (

−2/3−1/32/3

), 𝑣3 = (

2/3−2/31/3

)

Der Maximalwert von ||Ax||² ist 360 und wird erreicht, wenn x der Einheitsvektor v1.

Der Vektor Av1 ist ein Punkt auf der Ellipse, der am weitesten entfernt ist vom

Ursprung, nämlich

𝐴𝑣1 = (4 11 148 7 −2

)(

1/32/32/3

) = (186)

Für ||x|| = 1 ist der Maximalwert von ||Ax|| demnach ||Av1|| = √360 = 6√10

Dieses Beispiel geht davon aus, dass der Effekt von A auf den Einheitskreis im R3 sich

auf die quadratische Form xT (ATA) x bezieht. Tatsächlich kann also das gesamte

geometrische Verhalten der Transformation x → Ax durch diese quadratische Form

„eingefangen“ werden.

8.3.1 Singulärwerte einer m x n Matrix

Sei A eine m x n Matrix, so ist ATA symmetrisch und kann orthogonal diagonalisiert

werden. Sei {v1, ... , v2}eine Orthonormalbasis für Rn bestehend aus Eigenvektoren von

ATA und angenommen λ1, ... λn sind die mit ATA assoziierten Eigenwerte, dann gilt für

1 ≤ i ≤ n,

||𝐴𝑣||2 = (𝐴𝑣𝑖)𝑇𝐴𝑣𝑖 = 𝑣𝑖

𝑇𝐴𝑇𝐴 𝑣𝑖 (91b)

= 𝑣𝑖𝑇(𝜆𝑖𝑣𝑖) nachdem vi ein Eigenvektor von ATA

= 𝜆𝑖 nachdem vi ein Einheitsvektor ist

Die Singulärwerte von A sind die Quadratwurzeln der Eigenwerte von ATA, die

bezeichnet werden mit 𝜎1, … , 𝜎𝑛 und in absteigender Reihenfolge angegeben werden.

So ist σi = √𝜆𝑖 für 1 ≤ i ≤ n

Nach (b) sind die Singulärwerte von A die Längen der Vektoren Av1, ... , Avn.

Beispiel

Sei A dieselbe Matrix wie im vorigen Beispiel. Nachdem die Eigenwerte von ATA 360,

90 und 0 sind, sind die Singulärwerte von A:

𝜎1 = √360 = 6√10, 𝜎2 = √90 = 3√10, 𝜎3 = 0

Aus dem vorigen Beispiel ergibt sich als erster Singulärwert von A das Maximum von

||Ax|| über alle Einheitsvektoren, wobei das Maximum beim Einheitseigenvektor v1

angenommen wird. Der zweite Singulärwert von A ist, ohne explizit die Ursache dafür

anzugeben, gerade das Maximum von ||Ax|| über alle Einheitsvektoren die orthogonal

zu v1 sind, und dieses Maximum wird beim zweiten Einheitseigenvektor v2 erreicht.

𝐴𝑣2 = (4 11 148 7 −2

)(

−2/3−1/32/3

) = (3−9)

Page 109: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

8. SYM. MATRIZEN & QUAD. FORMEN

- 102 -

Dieser Punkt Av2 liegt auf der Nebenachse der Ellipse, so wie Av1 auf der Hauptachse

liegt. Die ersten beiden Singulärwerte von A sind somit die Längen der Haupt- und

Nebenhalbachsen der Ellipse.

Außerdem ist die Tatsache, dass Av1 und Av2 orthogonal aufeinander sind, kein Zufall,

wie der nächste Satz zeigt.

SATZ:

Angenommen {v1, ..., vn}ist eine Orthonormalbasis des Rn bestehend aus Eigenvektoren

von ATA, so dass die dazu korrespondierenden Eigenwerte von ATA angeordnet sind

durch λ1 ≥ ... ≥ λn , wobei A zusätzlich r Singulärwerte ungleich 0 hat. Dann ist

{Av1..., Avr} eine Orthogonalbasis für den Spaltenraum A und Rang A = r.

8.3.2 Singulärwertzerlegung

Die Zerlegung von A involviert eine m x n „Diagonal-“ Matrix Σ der Form

(91c) Σ = (D 00 0

)

ist und D eine r x r Diagonalmatrix beschreibt.

SATZ (Singulärwertzerlegung):

Sei A eine m x n Matrix mit Rang r, so existiert eine m x n - Matrix Σ, wo die

Diagonaleinträge in D die ersten r Singulärwerte von A sind, mit 𝜎1 ≥ 𝜎2 ≥ ⋯ ≥ 𝜎𝑟 >0 und es existieren eine orthogonale m x m – Matrix U und eine orthogonale n x n –

Matrix V, so dass gilt

𝐀 = 𝐔𝚺𝐕𝐓 (92)

Die Spalten von U in einer solchen Zerlegung werden linke Singulärvektoren von A

genannt und die Spalten von V sind die rechten Singulärvektoren von A.

Beispiel a): Gesucht ist eine Singulärwertzerlegung von A = (4 11 148 7 −2

)

Aus den bisherigen zwei Beispielen in diesem Kapitel können wir zum einen v1, v2 und

v3 als die rechten Singulärvektoren von A und zum anderen Av1 und Av2 verwenden.

u1 =1

σ1Av1 =

1

6√10(186) = (

3/√10

1/√10)

u2 = 1

σ2Av2 =

1

3√10(3−9) = (

1/√10

−3/√10)

Dann ist {𝑢1, 𝑢2} eine Basis für R². Sei U = (𝑢1 𝑢2), V = (𝑣1 𝑣2 𝑣3) und

𝐷 = (6√10 0

0 3√10) , 𝛴 = (6√10 0 0

0 3√10 0)

m – r Zeilen

n – r Spalten

Page 110: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

8. SYM. MATRIZEN & QUAD. FORMEN

- 103 -

𝐀 = (3/√10 1/√10

1/√10 −3/√10) (6√10 0 0

0 3√10 0)(

1/3 2/3 2/3−2/3 −1/3 2/32/3 −2/3 1/3

)

U Σ 𝑉𝑇

Beispiel b): Gesucht ist eine Singulärwertzerlegung von A = (1 −1−2 22 −2

)

Zuerst berechnet man ATA = (9 −9−9 9

) . Die Eigenwerte von ATA sind 18 und 0,

mit korrespondierenden Einheitseigenvektoren

𝐯𝟏 = (1/√2

−1/√2), 𝐯𝟐 = (

1/√2

1/√2)

Dann folgt A𝐯𝟏 = (

2/√2

−4/√2

4/√2

) , σ1 = ||A𝐯𝟏|| = √18 = 3√2

und 𝐮𝟏 = 1

3√2A𝐯𝟏 = (

1/3−2/32/3

)

Außerdem ist Av2 = 0 nachdem v2 mit dem Null-Eigenwert von ATA korrespondiert.

Im nächsten Schritt möchte man {u1}so verändern, dass man eine Orthonormalbasis

im R3 erhält. Insofern braucht man zwei Orthonormalvektoren die orthogonal sind zu

u1, wobei jeder Vektor die Gleichung 𝑢1𝑇𝑥 = 0 erfüllen muss (ist äuivalent zur

Gleichung 𝑥1 − 2𝑥2 + 2𝑥3 = 0). Eine Basis für das Lösungsset dieser Gleichung ist

𝑤1 = (210), 𝑤2 = (

−201)

Die Anwendung des Gram Schmidt-Verfahrens auf {w1, w2} führt zu

𝑢2 = (2/√5

1/√50

), 𝑢3 = (

−2/√45

4/√45

5/√45

)

Schlussendlich ist U = (u1 𝑢2 𝑢3), 𝑉 = (𝑣1 𝑣2) und Σ = (3√2 00 00 0

)

𝐴 = (1 −1−2 22 −2

) =

(

1

3

2

√5−

2

√45

−2

3

1

√5

4

√452

30

5

√45 )

(3√2 00 00 0

)(1/√2 −1/√2

1/√2 1/√2)

Page 111: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

8. SYM. MATRIZEN & QUAD. FORMEN

- 104 -

8.3.3 Anwendungen der Singulärwertzerlegung

Die Singulärwertzerlegung findet insbesondere in der numerischen Mathematik

Anwendung, weil sich beispielsweise dadurch fast singuläre lineare Gleichungssysteme

im Rahmen rechentechnischer Genauigkeiten passabel lösen lassen.

In der Statistik ist die Singulärwertzerlegung der rechnerische Kern der

Hauptkomponentenanalyse (siehe nächstes Kapitel) und spielt somit auch eine

entscheidende Rolle bei der Methode der kleinsten Quadrate.

Außerdem beruhen moderne Bildkompressionsverfahren auf einem Algorithmus, der

das Bild (bzw. die Matrix aus Farbwerten) in eine Singulärwertzerleung überführt und

anschließend die Matrix reduziert, indem nur stark von null verschiedene Elemente

berücksichtigt und gespeichert werden. Demnach führt das Weglassen von kleinen

Singulärwerten also zu einem verlustbehafteten Modellreduktionsverfahren.

Beispiel (reduzierte Singulärwertzerlegung und die Pseudoinverse von A)

Wenn Σ Zeilen und Spalten mit Nullen beinhaltet, ist eine kompaktere Zerlegung von A

möglich. Ausgehend von der Notation vorher, sei r = rang A, und es erfolgt eine

Zerlegung von U und V in Teilmatrizen, wobei deren erster Block jeweils r Spalten

beinhaltet:

U = (Ur Um−r), wo Ur = (u1…ur) ist V = (Vr V n−r), wo Vr = (v1…vr) ist

Dann ist Ur eine m x r und Vr eine n x r Matrix und die unterteilte Matrixmultiplikation

zeigt, dass:

A = (Ur Um−r) (D 00 0

)(VrT

Vn−rT ) = UrDVr

T

Diese Faktorisierung von A nennt man eine reduzierte Singulärwertzerlegung.

Nachdem die Diagonaleinträge in D ungleich Null sind, kann nun folgende Matrix

geformt werden (die sogenannte Pseudoinverse von A):

A+ = VrD−1Ur

T (93)

Beispiel (kleinste Quadrate Lösung):

Gegeben ist die Gleichung Ax = b und wir verwenden die eben definierte Pseudoinverse

von A um folgendes zu definieren:

�� = A+𝐛 = VrD−1Ur

T𝐛

Außerdem setzen wir auch den durch A definierten Ausdruck aus dem ersten Beispiel in

Ax ein, so dass

𝐀�� = (UrDVrT) (VrD

−1UrT𝐛)

= UrDD−1Ur

T𝐛

= UrUrT𝐛

Der Ausdruck UrUrT𝐛 ist die Orthogonalprojektion b von b auf den Spaltenraum von A.

Deshalb ist �� eine kleinste Quadrate Lösung von Ax = b. Durch Nachprüfen ergibt sich

Page 112: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

9. HAUPTKOMPONENTENANALYSE

- 105 -

tatsächlich dieses �� als kleinster Abstand unter allen kleinste-Quadrate

Abständen/Lösungen.

Kapitel 9

9. HAUPTKOMPONENTENANALYSE

Die „Hauptkomponentenanalyse“ bzw. „Hauptachsentransformation“ ist eine Methode

der multivariaten Statistik und wird angewendet um ausgedehnte Datensätze zu

strukturieren bzw. zu vereinfachen. Zu diesem Zweck wird eine große Menge an

statistischen Variablen durch eine geringere Zahl möglichst repräsentativer

Linearkombinationen (sogenannten „Hauptkomponenten“) approximiert.

Der Unterschied zur Faktorenanalyse, mit der Ähnlichkeiten bestehen und in der die

Hauptkomponentenanalyse auch als Näherungsmethode zur Faktorenextraktion zur

Anwendung kommt, wird im Unterkapitel Faktorenanalyse diskutiert.

Ein Anwendungsbeispiel der HKA welches als Motivation herangezogen werden soll,

ist das Problem der Gesichtserkennung, die mit der Bewältigung von enormen,

hochdimensionalen Datenmengen verbunden ist. Allerdings sind oft einige

Komponenten einer Datenmenge irrelevant oder weniger relevant als andere, da sie

beinahe konstant sind. Die Gesichter unterscheiden sich in Nasen-, Augen und

Mundpartie in etwa stärker voneinander als in Ausschnitten der Stirn oder der Wangen,

so dass es zweckmäßig ist, nur diese signifikanten Partien als

Unterscheidungsmerkmale zu speichern

9.1 Grundgedanken der Hauptkomponentenanalyse

Ausgehend von einem Datensatz mit Matrixstruktur werden an n-Objekten jeweils m-

Merkmale gemessen. Dieser Datensatz kann somit als Menge von n Punkten im n-

dimensionalen Raum veranschaulicht werden. Ausgewiesenes Ziel der

Hauptkomponentenanalyse ist eine Dimensionsreduktion der Variablen durch eine

Projektion der Datenpunkte in einen k- dimensionalen Teilraum Rk (k < n), so dass

dabei nur ein Minimum an Information verloren geht und die auftretende Redundanz in

Form von Korrelation in den Datenpunkten komprimiert wird.

Zur besseren Anschauung wird nun zunächst ein theoretisches Beispiel einer drei-

dimensionalen Datenmenge Schritt für Schritt erklärt, bis schließlich weiter unten im

Kapitel ein praktisches Anwendungsbeispiel der HKA folgt.

Gegeben sei zunächst eine Reihe mehrdimensionaler Messungen (Datenmenge), die

eine Punktwolke bilden und im Sinne der HKA transformiert und anschließend in ihren

Dimensionen reduziert wird.

Page 113: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

9. HAUPTKOMPONENTENANALYSE

- 106 -

1.Schritt: Ursprung des Koordinatensystems wird in den Schwerpunkt der Punktwolke

gesetzt

2. Schritt: Das Koordinatensystem wird gedreht, so dass die erste Achse in Richtung

der größten Abweichung bzw. der größten Varianz ausgerichtet ist

3.Schritt: Die zweite Achse wird in Richtung der größtmöglichen Varianz unkorreliert

zur ersten Achse gedreht, wodurch die Drehung des Koordinatensystems in jene

Richtung der größtmöglichen Varianz ausgerichtet wird, die möglich ist, ohne die

Richtung der ersten Achse zu ändern (Drehung des Systems um x-Achse) .

4.Schritt: Fortsetzung des Verfahrens, bis die k-te Achse in Richtung der größten

Varianz ausgerichtet ist, unkorreliert zu den ersten (k – 1)-Achsen. Dadurch bezeichnet

die k-te Achse die k-te Hauptkomponente, die geometrisch als Hauptachsen eines

Ellipsoiden (Punktwolke) gedeutet werden können.

9.2 Herleitung der Problemlösung

Ausgehend von einer Datenmenge aus n, p- elementigen Beobachtungen in Form einer

(p x n) Matrix X wird der p-dimensionale Vektor a1 gesucht für den gilt, dass Var(𝑎1𝑇)

maximal wird. Die (p x p) Kovarianzmatrix zu X ist definiert durch S = Kov (X).

Diese Bedingung entspricht nach Definition von Varianz und Kovarianz dem Problem

a1T S a1 zu maximieren. Nachdem allerdings der Ausdruck für beliebige a1 beliebig

groß wird, braucht man eine Schrankenbedingung z.B a1T = 1

Problematisch ist nun die Maximierung eines Ausdrucks mit Nebenbedingung für deren

Lösung der Lagrange-Multiplikator λ in der Gleichung a1TSa1 − λ(a1

Ta1 − 1)verwendet

wird, die Ausdruck und Nebenbedingung in einer Gleichung zusammenfasst. Ziel ist es

den Vektor a1 zu suchen, der das Ergebnis der Gleichung maximiert.

Es wird nach a1 differenziert, um einen Extremwert zu erhalten.

Die Ableitung liefert:

Sa1 − λa1 = 0 ⇒ (S − λE)a1 = 0

Offensichtlich ist dies nun ein Eigenwertproblem von S, wobei λ ein Eigenwert (EW)

von a1 ist. Aus Sa1 − λa1 = 0 folgt Sa1 = λa1. Diese Erkenntnis ergibt eingesetzt in

das ursprüngliche Problem, das durch Maximierung von a1TS gegeben war:

= max{a1´ Sa1|a1

´ a1 = 1} = max{a1´ λa1|a1

´ a1 = 1 ∧ λ ist EW von S}

= max{a1´ λa1|a1

´ a1 = 1 ∧ λ ist EW von S}= max{λ| λ ist EW von S}

Darum ist der größte EW von S gesucht.

Anschließend möchte man den q-dimensionalen Vektor a2 ermitteln, für den gilt:

Var (a2X) wird maximal, a2Ta2 = 1 und a1 ist unkorreliert zu a2.

Page 114: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

9. HAUPTKOMPONENTENANALYSE

- 107 -

Somit muss folgendes zutreffen:

0= Kov(a1TX, a2

TX) = a1 T S a2 = λ1 a1

Ta2 = λ1 a2Ta1

⇒ a1 unkorreliert zu a2 ⇔ a1TSa2 = a2

TSa1 = a1Ta2 = a2

Ta1 = 0

Daraus ergibt sich eine ähnliche Situation wie in Schritt 1, wodurch eine erweiterte

Lagrange-Multiplikatorgleichung angewendet wird, welche zwei Multiplikationen

verwendet:

a2´ Sa2 − λ(a2

´ a2 − 1) − ϕa2´ a1 = max (94a)

Die Ableitung nach a2 liefert

Sa2 − λa2 − ϕa1 = 0. Multiplizieren mit a1 ergibt dann

a1TSa2 − λa1a2 −ϕa1a1 = 0

⇒ ϕ = 0 (94b)

(A) und (B) liefern dann

𝑆𝑎2 − 𝜆𝑎2 = 0 ⇒ (𝑆 − 𝜆𝐸)𝑎2 = 0

Gesucht ist also der zweitgrößte EW

Die Fortsetzung bis q liefert die folgenden Werte:

{a1,…,aq} als Hauptvektoren und somit {a1I,…,aqI} als

Hauptkomponenten mit I=Matrix aus den Basisvektoren des

Ausgangssystems

{λ1,…λm} als deren Varianzen

𝜆𝑚

𝜆1+...+𝜆𝑞 als ein Maß für den Anteil der m-ten Hauptkomponente an der

Gesamtvarianz

9.3 Eigenschaften der Hauptkomponentenanalyse

Eine der wichtigsten Eigenschaften der Hauptkomponentenanalyse ist es, dass sie eine

optimale Rekonstruktion im Sinne der kleinsten Fehlerquadrate erlaubt, wodurch eine

Dimensionsreduktion ermöglicht wird, bei welcher der Informationsverlust minimal ist.

A bezeichnet eine n x p –Matrix und B eine p x q –Matrix.

Eigenschaft a) : (95a)

Sei 𝑦 = 𝐵´𝑥 eine orthonormale Abbildung (mit B = p x q, 1 ≤ q ≤ p ), also

𝑆𝑦 = 𝐵´𝑆𝑥𝐵, mit 𝑆𝑦 = 𝐾𝑜𝑣(𝑦) 𝑢𝑛𝑑 𝑆𝑥 = 𝐾𝑜𝑣(𝑥)

Dann trifft das Folgende zu:

Spur(𝑆𝑦) wird maximal genau dann, wenn B = 𝐴𝑞 ist,

wobei 𝐴𝑞 aus den ersten q Hauptkomponenten besteht.

Beweis:

Page 115: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

9. HAUPTKOMPONENTENANALYSE

- 108 -

Sei B = AC (C ist eine p x q Transformationsmatrix)

Dann folgt:

Spur(B´SB) = Spur(C´A´S A C) = Spur (C´D C) = ∑ λj

p

j,q=1

cjk2 . (1)

D=diag(λ1…λq)

Nachdem die Spalten von A und B orthonormal sind, folgt Orthonormalität für die

Spalten von C:

C´C = B´AA´B = B´B = Eq

⇒ Spur(C´C) = ∑ cjk2

p

j,k=1

= Spur(Eq) = q

Für die Zeilen von C gilt:

cj´cj ≤ 1 da C Teil einer Orthogonalmatrix ist

⇒ ∑ cjk2

p

j,k=1

≤ 1. (2)

Aus (1) und (2) folgt also dass ∑λjcjk2 maximal wird, falls gilt: ∑ cjk

2 =pk=1

Dies wird erfüllt durch C = Eq , also B = Aq

Umgekehrt wird der Wert minimal, falls B=Aq gilt.

Dabei werden die Spalten von Aq aus EV zu den q kleinsten EW gebildet.

Eigenschaft b): Optimale Rekonstruktion (im Sinne der kleinsten Fehlerquadrate) (95b)

Gegeben sei eine Punktwolke {x1,…,xn}in einem p-dimensionalen Raum und

durchzuführen ist eine Projektion auf einen q-dimensionalen Unterraum yi =Bxi mit

kleinstmöglichem Datenverlust.

Eine Maßzahl die den Datenverlust ausdrückt ist jene der Summe der quadrierten

Abstände der Punkte zum Unterraum.

Es gilt, dass die Summe minimal wird, wenn B = Aq ist, sofern Aq die Matrix aus den

EV der größten q EW von S ist.

⇒ yi = Aqxi ist jene Projektion mit dem geringsten Datenverlust

Beweis:

1 j=1...q

0 j=q+1…p

Page 116: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

9. HAUPTKOMPONENTENANALYSE

- 109 -

∑ri´

n

i=1

ri ist also die Summe der quadrierten Fehler

Sowohl die Benennung als auch die Anschauung ist im Fall höherdimensionaler p und

q, mit p > q, gleich. Der Beweis kann darum für den allgemeinen Fall durchgeführt

werden.

Es gilt xi´xi = (mi + ri)´(mi + ri)) = mi´mi + ri´ri + 2rimi = mi´mi + ri´ri

Da mi orthogonal zu ri ist, also

∑ri´

n

i=1

ri =∑xi´xi −∑mi´mi.

n

i=1

n

i=1

Um ∑ri´ri

n

i=1

zu minimieren,muss man ∑mi´mi maximieren, also

n

i=1

∑yi´yi

n

i=1

maximieren.

Einfache Umformungsschritte führen zu einem Maximierungsproblem, das mit von

Hilfe Eigenschaft a) lösbar ist.

∑yi´y = ∑xi´BB´xi = Spur (∑xi´BB´xi

n

i=1

) =∑Spur(xi´BB´xi)

n

i=1

n

i=1

n

i=1

=

∑Spur(B´xixi´B) = Spur [B´ (∑xixi´

n

i=1

)B]

n

i=1

= Spur[B´X´XB] =

(n − 1)Spur(B´SB) = max.

Nach Eigenschaft a) trifft das genau dann zu wenn gilt: B= Aq

9.4 Beispiel für die Hauptkomponentenanalyse

Beispiel 1: Ski - Weltcupabfahrt (Tabelle 20 im Anhang)

Bei einer Weltcupabfahrt wurden die Zeiten von sechs Teilstücken gemessen. Jene

Fahrer die entweder disqualifiziert wurden bzw. deren Zeiten weit von jenen der

anderen Fahrer abwichen wurden weggelassen.(hier 3 Fahrer, siehe Tabelle im Anhang)

Problemstellung

Es soll eine Faktorenanalyse auf den sechs Teilzeiten durchgeführt und als Zahl der

Faktoren soll drei gewählt werden.

Die Korrelationsmatrix der Teilzeiten sieht dann wie folgt aus:

Page 117: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

9. HAUPTKOMPONENTENANALYSE

- 110 -

Tabelle 21: Korrelationsmatrix (erstellt mit Spss)

In dieser Abbildung ist gleich erkennbar, dass nur positive Korrelationen auftreten, die

alle im Bereich zwischen 0,31 und 0,83 liegen. Zudem kann daraus geschlossen werden,

dass die Zeiten benachbarter Streckenabschnitte tendenziell stärker korrelieren als

weiter voneinander entfernt liegende.

Abbildung 18/Tabelle 22: KMO-Index und Bartlett-Test (erstellt mit Spss)

Mit KMO-Index und Bartlett-Test wird überprüft, ob ein nennenswerter Zusammen-

hang zwischen allen Variablen besteht. Ist dies nicht der Fall, macht die Faktoren-

analyse keinen Sinn. Ein KMO-Index von 0.785 entspricht einem „halbwegs guten“

Ausmaß an Interkorrelation zwischen allen Variablen Der Bartlett-Test prüft die

Nullhypothese, dass in der Population kein Zusammenhang zwischen den Variablen

besteht. Wird der Test signifikant, ist diese Hypothese mit einer

Irrtumswahrscheinlichkeit von höchstens 5% widerlegt.

Um die Faktoren (oberer, mittlerer und unterer Streckenabschnitt) zu bestimmen wird

nun die Methode der Hauptkomponenten angewendet und darauffolgend eine

Orthogonalrotation der Faktoren anhand der Varimax-Methode durchgeführt.

1.Hauptkomp. 2.Hauptkomp. 3.Hauptkomp. zugehöriger Eigenwert 3,79 0,84 0,66 Anteil an Gesamtvarianz 0,63 0,14 0,11 Kumulativer Anteil an Varianz 0,63 0,77 0,88

Tabelle 23: bedeutende Kennzahlen der drei Hauptkomponenten

Dadurch können mit dieser Dimensionsreduktion durch die Hauptkomponentenanalyse

mit den drei Faktoren 88% der gesamten Varianz beschrieben werden. Allerdings

beschreibt allein in der unrotierten Lösung der erste Faktor 63 % der Varianz.

Vor einer genaueren Betrachtung der einzelnen Faktoren, wird die Varimax-Methode

für eine Rotation verwendet, welche zu folgenden Faktorladungen in der „rotierten

Komponentenmatrix“ führt:

Page 118: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

9. HAUPTKOMPONENTENANALYSE

- 111 -

Tabelle 24: ( rotierte) Komponentenmatrix

Die Werte der „rotierten Komponentenmatrix“ entsprechen den Korrelationen zwischen

den ursprünglichen Variablen und den Faktoren. Demnach sollen also die drei

unabhängig voneinander wirkenden Faktoren die berechnet wurden, die sechs

ursprünglichen Variablen möglichst ideal widerspiegeln. Die stärkeren Korrelationen

wurden zu diesem Zweck fett markiert. Die Abbildung zeigt, dass Faktor 1 den oberen

Streckenabschnitt (bzw. die ersten 3 Teilstücke), Faktor 2 eher den mittleren

Streckenabschnitt (bzw. die Gleitpassage) und Faktor 3 den unteren Streckenabschnitt

(bzw. der Steilhang bis ins Ziel) beschreibt.

An dieser Stelle ist ohne zusätzliche Information über die Abfahrtsstrecke keine weitere

Interpretation möglich. Diverse Cheftrainer der Skinationen Schweiz und Österreich

gaben zu den Resultaten sich deckende Kommentare ab:

Faktor 1: Der leichte Wind zu Beginn des Rennens wurde mit

Fortdauer des Wettkampfes immer stärker und führte fast zu einem

Abbruch der Veranstaltung

Faktor 2: Der Zwischenteil war ein typisches Gleitstück

Faktor 3: Der Steilhang war mit Kunstdünger stark präpariert und

wurde zu einer harten Eisunterlage

Somit könnte vermutet werden, dass das Rennen wesentlich durch diese drei Faktoren

beeinflusst wurde. Diesen Umstand bestätigt auch die Abbildung 19, denn der erste

Faktor, der hauptsächlich die Zeiten in den oberen Abschnitten charakterisiert, nimmt

mit Fortdauer des Rennens und Höhe der Startnummer beständig zu. Ein derartiger

Trend ist bei den Faktoren 2 und 3 nicht vorhanden.

Zusätzlich ergibt sich die Frage nach der Gewichtung der drei Faktoren bei der

Beschreibung der sechs ursprünglichen Teilzeiten. Man weiß, dass die drei Faktoren

der Dimensionsreduktion 88 % der Gesamtvarianz erklären und durch die Rotation

nicht beeinflusst werden. Allerdings haben sich die Anteile der einzelnen Faktoren wie

folgt verschoben:

1.Faktor 2.Faktor 3.Faktor

Anteil an Gesamtvarianz 0,394 0,312 0,18

Kumulierter Anteil an Varianz 0,394 0,706 0,88 Tabelle 25: Anteil an der Gesamtvarianz/ Kum. Anteil an der Varianz

Daraus kann schlussgefolgert werden, dass die Verteilung der Anteile der drei Faktoren

bezogen auf die 88% der Gesamtvariabilität nach der Rotation gleichmäßiger ist.

Page 119: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

9. HAUPTKOMPONENTENANALYSE

- 112 -

Eine andere Zerlegung der erklärbaren Gesamtvarianz durch Faktoren ist durch den

Anteil der Varianzen der Teilzeiten, welche die drei Faktoren zu erklären imstande sind,

gegeben:

Tabelle 26: Kommunalitäten

Diese Größen werden oft unter dem Begriff „Kommunalitäten“ zusammengefasst und

kennzeichnen das Ausmaß der Varianz der Teilzeiten (Variablen), dass durch die

Varianz erklärt wird. Hier erklären die Faktoren zumindest 80% der Varianz und die

Kommunalitäten ergeben eine Summe von 5,3 (jene 88% der Gesamtvarianz 6, weil 6

standardisierte Variablen vorliegen)

Abbildung 24: Punktwolke welche den Faktor 1 und die Startnummer gegenüber stellt

Beispiel 2: FIS Alpine Ski WM in Vail/Beaver Creek 2015 (Tabelle 28, Anhang)

Dass ein derartiger Zusammenhang zwischen allen Variablen wie im Beispiel oben

nicht immer zutrifft, zeigt der WM-Riesentorlauf der Herren in Vail/Beaver Creek.

Die zugehörige Tabelle im Anhang enthält die Endergebnisse und Zwischenzeiten des

alpinen WM-Riesentorlaufes der Herren vom 13. 2. 2015. Es werden jene

Startnummern außer Acht gelassen die vom Rennkomitee des alpinen Skisports

disqualifiziert wurden und im Endresultat einen Rang außerhalb der „Top-30 Athleten“

einnehmen.

Page 120: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

- 113 -

Wiederum soll eine Faktoranalyse auf den acht Teilzeiten durchgeführt werden, wobei

als Zahl der Faktoren vier gewählt werden soll.

Mit KMO-Index und Bartlett-Test wird wiederum überprüft, ob ein nennenswerter

Zusammenhang zwischen allen Variablen besteht. Sofern dies nicht zutrifft macht die

Faktorenanalyse keinen Sinn ist. Bei der Stichprobeneignung ergab die Berechnung mit

SPSS den Wert 0,6 und eine Irrtumswahrscheinlichkeit von 0,005.

Die Korrelationsmatrix beinhaltet sogar einige negative Zahlen, weshalb dieses Beispiel

mit einer Dimensionsreduktionsmethode wie der Hauptkomponentenanalysen nur unter

speziellen Annahmen gelöst werden kann und im Prinzip keinen eindeutigen linearen

Zusammenhang darstellt.

Im ersten Schritt wird darum wiederum mit SPSS eine Korrelationsmatrix für die

Streckenabschnitte 1a bis 1d (für die Abschnitte a-d im 1. Durchgang) bzw. 2a bis 2d

(für die Abschnitte a-d im 2. Durchgang) berechnet. Die restlichen Schritte erfolgen

ähnlich zum Beispiel 2.

Tabelle 27: KMO und Bartlett Test

Page 121: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

ANHANG

- 114 -

ANHANG

Tabelle 11: Auslieferungszeit eines Getränkelieferanten

Tabelle 12: Arbeitsmotivation mit mehreren Prädiktoren

i y x1 x2 x3 x4 x5 x6 x7 x8 x9

1 32 36 30 20 20 3100 34 29 69 66

2 14 30 11 30 7 2600 39 16 47 36

3 12 19 15 15 8 3200 42 13 32 17

4 27 42 16 39 13 2500 43 15 63 49

5 20 14 22 5 22 3700 42 29 38 62

6 13 12 16 6 11 2600 36 17 39 51

7 17 17 20 12 11 2500 41 18 44 15

8 8 4 5 0 16 3800 23 9 31 33

9 22 32 20 35 20 3500 25 21 40 55

10 19 15 13 8 13 3100 29 21 57 56

11 25 38 5 34 21 3600 59 27 53 67

12 23 24 6 26 9 2600 45 31 54 62

13 17 28 11 32 10 2600 30 7 45 26

14 22 36 4 26 16 2500 52 23 56 64

15 19 18 26 12 6 2500 40 17 54 55

16 27 40 27 36 12 2500 42 29 44 62

17 26 30 28 27 18 3000 38 34 43 64

18 20 27 11 26 10 2600 35 19 46 55

19 11 18 23 13 11 2800 42 18 31 43

20 24 32 18 19 15 2700 48 23 51 53

21 19 33 9 25 6 2400 38 23 37 65

22 19 33 22 30 5 2600 36 30 39 39

23 22 27 28 18 17 4000 45 23 52 54

24 24 30 32 21 11 2700 44 20 41 47

25 17 37 8 11 2 2300 32 20 44 41

Page 122: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

ANHANG

- 115 -

Tabelle 28: Körpergrößen

Körpergröße x

in [cm]

Absolute

Häufigkeit

Relative

Häufigkeit

F(x) Φ(x − 165,05

5,86)

a1 a2

153

154

155

1

1

2

0,01

0,01

0,02

0,01

0,02

0,04

0,02

0,03

0,04

0,02

0,02

0,02

0,01

0,01

0,00

156 3 0,03 0,07 0,06 0,02 0,01

157 3 0,03 0,10 0,09 0,02 0,01

158 5 0,05 0,15 0,12 0,02 0,03

159 6 0,06 0,21 0,15 0,00 0,06

160

4 0,04 0,25 0,19 0,02 0,06

161 5 0,05 0,30 0,25 0,00 0,05

162 7 0,07 0,37 0,30 0,00 0,07

163 5 0,05 0,42 0,36 0,01 0,06

164 5 0,05 0,47 0,43 0,01 0,04

165 6 0,06 0,53 0,50 0,03 0,03

166 7 0,07 0,60 0,56 0,03 0,04

167 5 0,05 0,65 0,63 0,03 0,02

168 4 0,04 0,69 0,69 0,04 0,00

169 5 0,05 0,74 0,75 0,06 0,01

170

5 0,05 0,79 0,80 0,06 0,01

171 6 0,06 0,85 0,85 0,06 0,00

172 4 0,04 0,89 0,88 0,03 0,01

173 3 0,03 0,92 0,91 0,02 0,01

174 2 0,02 0,94 0,94 0,02 0,00

175 3 0,03 0,97 0,96 0,02 0,01

176 1 0,01 0,98 0,97 0,00 0,01

177 1 0,01 0,99 0,98 0,00 0,01

178 1 0,01 1,00 0,99 0,00 0,01

Page 123: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

ANHANG

- 116 -

Tabelle 20: Ski-Weltcupabfahrt

Startnr. Skifahrer 1. 2. 3. 4. 5. 6. total

1 Fahrer 1 17,79 32,47 19,73 21,65 14,91 12,41 118,96

2 Fahrer 2 17,52 32,67 19,75 21,8 15,46 12,3 119,5

3 Fahrer 3 17,48 32,25 19,92 22,01 15,15 12,64 119,45

4 Fahrer 4 17,61 32,07 19,59 21,67 15,35 12,4 118,69

5 Fahrer 5 17,71 32,38 20 22,1 15,18 12,34 119,71

6 Fahrer 6 17,79 32,03 19,87 21,64 15,2 12,42 118,95

7 Fahrer 7 17,79 32,74 20,21 22,56 15,81 12,74 121,85

8 Fahrer 8 17,74 32,1 20,09 22,25 15,56 12,4 120,14

9 Fahrer 9 17,76 32,62 20,17 22,32 15,78 12,75 121,4

10 Fahrer 10 17,69 32,41 20,17 22,19 15,66 12,13 120,25

11 Fahrer 11 17,81 32,91 20,28 22,37 15,46 12,54 121,37

12 Fahrer 12 17,86 32,68 19,9 22,04 15,29 12,57 120,34

13 Fahrer 13 17,67 32,46 20,19 22,33 15,23 12,12 120

14 Fahrer 14 17,73 32,58 20,18 22,31 15,17 12,52 120,49

15 Fahrer 15 17,74 32,73 19,93 21,77 15,58 13,08 120,83

16 Fahrer 16 17,61 31,84 19,8 21,74 15,23 12,13 118,35

17 Fahrer 17 17,78 32,61 19,65 21,54 15,4 12,22 119,2

18 Fahrer 18 17,89 32,63 20,38 22,3 15,66 12,23 121,09

19 Fahrer 19 17,91 32,42 20,16 22,33 15,38 12,33 120,53

20 Fahrer 20 17,68 32,24 19,96 22,06 15,44 12,79 120,17

21 Fahrer 21 17,86 32,72 19,98 21,9 15,19 11,98 119,63

22 Fahrer 22 17,74 32,54 19,83 21,98 15,34 12,35 119,73

23 Fahrer 23 17,84 32,56 20,42 22,29 15,24 12,2 120,55

24 Fahrer 24 17,71 32,41 20,09 22,37 15,18 12,23 119,99

25 Fahrer 25 17,8 32,23 19,77 21,93 14,95 12,19 118,87

26 Fahrer 26 17,62 32,37 19,95 21,93 15,06 12,6 119,53

27 Fahrer 27 17,69 32,77 20,03 21,95 15,03 12,04 119,51

28 Fahrer 28 17,67 32,4 19,78 21,69 14,94 12,58 119,06

29 Fahrer 29 17,83 32,91 19,76 21,56 15,12 12,23 119,41

30 Fahrer 30 17,75 32,93 19,75 21,61 14,94 12,4 119,38

31 Fahrer 31 17,94 33,12 20,53 22,22 15,32 12,6 121,73

32 Fahrer 32 18,06 33,54 20,33 22,24 15,62 12,66 122,45

33 Fahrer 33 18,28 33,29 20,91 22,99 15,32 12,7 123,49

34 Fahrer 34 18,21 32,99 20,3 21,75 15,09 12,78 121,12

35 Fahrer 35 18,1 33,1 20,49 21,94 15,38 12,42 121,43

36 Fahrer 36 18,18 33,29 20,31 22,24 15,41 12,47 121,9

37 Fahrer 37 17,78 32,42 19,84 21,88 15,17 12,6 119,69

38 Fahrer 38 18,11 33,27 20,4 22,08 15,61 12,76 122,23

39 Fahrer 39 17,92 32,82 20,23 21,76 15,26 12,41 120,4

40 Fahrer 40 17,89 33,02 20,32 21,98 15,33 12,85 121,39

41 Fahrer 41 17,91 32,78 20,18 22,31 15,33 12,81 121,32

42 Fahrer 42 17,98 32,8 20,2 21,93 14,97 12,38 120,26

43 Fahrer 43 17,83 33,04 20,07 22,02 15,39 13,09 121,44

44 Fahrer 44 17,84 32,97 20,4 22,37 15,66 12,73 121,97

Teilzeiten in Sekunden

Page 124: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

ANHANG

- 117 -

Tabelle 1: Kraftstoffverbrauchsdaten von VW-Modellen

45 Fahrer 45 17,97 33,32 20,38 22,03 15,39 12,26 121,35

46 Fahrer 46 18,3 33,32 20,65 22,29 16,09 12,37 123,02

47 Fahrer 47 18,33 33,18 20,4 21,95 15,41 12,34 121,61

48 Fahrer 48 18,1 32,84 20,27 22,23 15,25 12,87 121,56

49 Fahrer 49 18 33,28 20,56 22,56 15,1 12,63 122,13

50 Fahrer 50 18,04 32,9 20,39 22,08 14,93 12,13 120,47

51 Fahrer 51 18,63 33,99 21,1 22,86 16,12 12,78 125,48

52 Fahrer 52 18,14 32,96 20,79 22,41 15,65 12,79 122,74

53 Fahrer 53 18,25 33,27 20,17 22,28 15,16 12,52 121,65

54 Fahrer 54 18,21 33,35 20,52 22,19 15,21 12,69 122,17

55 Fahrer 55 18,36 33,23 20,39 22,42 15,37 12,25 122,02

56 Fahrer 56 17,93 33,51 20,16 21,91 15,78 12,7 121,99

57 Fahrer 57 18,08 33,33 20,18 22,19 15,47 12,86 122,11

58 Fahrer 58 17,99 32,99 20,06 21,96 15,6 12,76 121,36

59 Fahrer 59 18 33,27 20,78 23,06 15,74 12,98 123,55

60 Fahrer 60 18,23 34,37 20,89 22,91 15,7 12,45 124,55

61 Fahrer 61 18,5 33,48 20,55 22,25 15,27 12,49 122,54

62 Fahrer 62 18,34 33,49 20,42 22,03 15,29 12,44 122,01

63 Fahrer 63 18,11 33,53 20,63 22,47 15,44 12,8 122,98

64 Fahrer 64 18,07 33,16 20,5 22,11 15,35 12,42 121,61

65 Fahrer 65 18,3 33,39 20,41 22,49 15,48 12,98 123,05

66 Fahrer 66 18,18 33,08 20,39 22,43 15,76 12,81 122,65

67 Fahrer 67 18,43 33,34 20,96 22,83 15,83 12,74 124,13

68 Fahrer 68 18,22 33,64 21,09 23,13 16,05 12,82 124,95

69 Fahrer 69 18,49 34,76 20,92 22,61 15,83 13,01 125,62

Page 125: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

ABBILDUNGSVERZEICHNIS

- 118 -

Tabelle 26: FIS Alpine Ski WM in Vail/Beaver Creek 2015

ABBILDUNGSVERZEICHNIS

Abbildung 1: Kraftstoffverbrauch bei entsprechender Leistung in KW .................... - 2 -

Abbildung 2: geometrische Veranschaulichung der Methode der kleinsten Quadrate- 4

-

Abbildung 3: geschätzte Regressionsgerade im Streudiagramm ................................ - 5 -

Abbildung4: graphische Veranschaulichung der Zerlegung der Abweichung der

beobachteten Werte von ihrem Mittelwert .................................................................. - 7 -

Abbildung 5: Verteilung der Epsilons bei linearer Einfachregression ..................... - 14 -

Start Name des totale

nr. Fahrers 1. 2. 3. 4. 5. 6. 7. 8. Zeit (Sek)

2 Pinturault 16,57 15,15 24,61 19,08 15,87 17,33 26,17 20,26 155,04

3 Hirscher 16,57 15,16 24,50 18,95 15,70 17,97 25,37 20,39 154,61

5 Dopfer 16,99 14,98 25,16 19,56 15,83 17,25 26,63 21,41 157,81

6 Ligety 16,37 14,98 24,84 19,23 15,83 17,01 26,04 19,86 154,16

7 Neureuther 16,87 14,74 24,80 19,00 16,17 17,02 26,44 20,22 155,26

8 Muffat-Jeandet 16,62 15,37 25,08 18,93 15,76 17,12 26,54 20,3 155,72

9 Jitloff 16,67 14,90 24,87 19,35 15,83 18,20 25,56 20,66 156,04

10 Sandell 16,49 15,18 24,80 19,71 16,27 17,19 26,57 20,68 156,89

12 Nani 16,48 14,81 24,72 19,35 15,83 17,39 26,53 20,46 155,57

14 Kristoffersen 16,68 15,03 24,97 19,30 15,85 17,49 26,75 20,82 156,89

15 Janka 16,89 15,03 25,16 19,28 15,89 17,33 26,24 20,57 156,39

16 Luitz 16,58 14,97 25,53 19,34 16,06 17,26 27,33 20,76 157,83

17 Olsson 16,59 14,74 24,92 19,41 15,78 17,2 26,38 20,37 155,39

18 Simoncelli 16,70 15,48 24,91 19,23 16,56 16,69 26,86 20,62 157,05

19 Schörghofer 16,59 14,73 25,27 19,26 15,89 17,14 26,69 20,71 156,28

21 Eisath 14,33 15,11 25,24 19,46 15,91 17,06 26,42 19,9 155,93

22 Caviezel 16,92 15,62 25,45 19,21 16,22 17,32 26,93 20,84 158,51

23 Borsotti 17,02 15,20 25,46 19,86 15,92 17,25 26,87 20,77 158,35

25 Zubcic 16,93 14,84 25,29 19,28 16,13 17,69 26,61 20,25 157,02

26 Torsti 16,64 14,69 26,55 19,52 16,07 17,14 26,79 20,49 157,89

27 Zurbriggen 17,23 15,32 25,57 19,41 15,56 17,69 27,35 20,52 158,65

28 Murisier 17,05 14,95 26,03 20,08 15,97 16,88 26,17 21,82 158,95

29 Cook 16,83 15,26 25,12 19,39 15,92 16,87 26,68 20,35 156,42

31 Brown 17,24 15,53 25,43 19,51 16,3 17,17 26,31 20,5 157,99

33 Rubie 16,88 15,51 25,29 19,80 15,79 17,64 27,04 20,52 158,47

34 Ford 17,04 15,44 25,24 19,69 16,05 17,15 26,49 20,52 157,62

36 Kryzl 16,99 15,59 25,48 19,44 15,82 17,48 26,68 20,53 158,01

38 Philp 17,20 15,50 25,49 19,43 16,08 16,89 26,42 20,4 157,41

40 Choudounsky 17,44 15,40 25,51 19,51 16,28 17,4 26,89 20,47 158,9

44 Read 17,03 15,02 26,08 20,13 15,75 16,87 26,09 21,76 158,73

Zeiten für die Teilstücke im 1. Durchgang Zeiten für die Teilstücke im 2. Durchgang

Page 126: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

ABBILDUNGSVERZEICHNIS

- 119 -

Abbildung 6: Lineares Modell der Einfachen Regression. Bedingte Verteilung der

abhängigen Variable Y. Die Dichte von Y bei gegebenen 𝑥1 ist die Dichte der N

(𝛽1𝑥 + 𝛽0, 𝜎2) - Verteilung ...................................................................................... - 23 -

Abbildung 7: Situationen wo die Hypothese H0: β1= 0 nicht verworfen wird. ....... - 30 -

Abbildung 8: Situationen wo die Hypothese H0: β1 = 0 verworfen wird. ............... - 30 -

Abbildung 9: Beispiel für Extrapolation / Beispiel für Interpolation ....................... - 34 -

Abbildung 10: 95 % - Konfidenzregion für 𝛽0 und 𝛽1 für die Kraftstoffverbrauchsdaten

................................................................................................................................... - 39 -

Abbildung 11: Beispiele für Normalverteilungsplots: (a) ideal; (b) “heavy tailed“

Verteilung; (c) „light-tailed“ Verteilung; (d) positive Schiefe ................................ - 44 -

Abbildung 12: Muster für Residuenplots ................................................................. - 45 -

Abbildung 13: Plot der Residuen ei gegen die geschätzten yi .................................. - 46 -

Abbildung 14: ein Prototyp von Residuenplots gegen die Zeit zeigt Autokorrelation in

den Fehlern a) positive Autokorrelation; b) negative Autokorrelation ..................... - 47 -

Abbildung 15: a) β1 hängt stark von einem oder beiden Punkten A,B und C ab und die

übrigen Datenpunkte würden eine andere Schätzung ergeben, wenn diese Punkte

entfernt würden. b) β1 wird zum Großteil vom extremen Punkt A bestimmt; durch

Weglassen dieses Punktes würde β1 womöglich null sein. ........................................ - 48 -

Abbildung 16: Kleinste Quadrate Schätzung durch Orthogonalprojektion .............. - 53 -

Abbildung 17: Dichtefunktion – Chi-Quadrat-Verteilung ..................................... - 81 -

Abbildung 18: Dichte der T – Verteilung ................................................................. - 83 -

Abbildung 19: Bilder von v und u durch Multiplikation von A ............................... - 87 -

Abbildung 20: Eigenräume zum Beispiel 3 .............................................................. - 89 -

Abbildung 21: b ist näher zu A𝑥 als zu Ax für andere x .......................................... - 95 -

Abbildung 22: Die kleinste Quadrate Lösung 𝑥 liegt im Rm .................................... - 95 -

Abbildung 23: Transformation vom R3 in den R2 .................................................. - 100 -

Abbildung 24: Punktwolke welche den Faktor 1 und die Startnummer gegenüber stellt -

112 -

Page 127: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

TABELLENVERZEICHNIS

- 120 -

TABELLENVERZEICHNIS Tabelle 1: Kraftstoffverbrauchsdaten für VW

Tabelle 2: beobachtete und geschätzte Werte für das Kraftstoffbeispiel

Tabelle 3: Unterschiedliche Skalierungsformen; mögliche Aussagen und Analysemethoden

Tabelle 4: Durbin-Watson-Test - Interpretationshilfe

Tabelle 5: Daten der Getränkeumsätze einer Region

Tabelle 6: Statistik für das kl. Quadrate Modell des Beispiels

Tabelle 7: Konfidenzintervalle für das Kraftstoffverbrauchbeispiel

Tabelle 8: Standardisierte und studentisierte Residuen der Kraftstoffdaten

Tabelle 9: Varianzanalyse

Tabelle 10: Vergleich von Korrelationskoeffizienten

Tabelle 11: Auslieferungszeit eines Getränkelieferanten

Tabelle 12: Arbeitsmotivation mit mehreren Prädiktoren

Tabelle 13: 95 % - Konfidenzintervall , Standardfehler etc

Tabelle 14: ANOVA

Tabelle 15: Ein Beispiel für die einfache Varianzanalyse

Tabelle 16: Stichprobenwerte für die Zugfestigkeit von Folien

Tabelle 17: Vergleich der Variation zwischen und innerhalb der Gruppen

Tabelle 18: Stichprobe der Gewichtszunahme durch Futterarten

Tabelle 19: Quadratsummen zwischen Zeilen bzw. Gruppen und Spalten bzw. Futterarten

Tabelle 20: Ski-Weltcupabfahrt

Tabelle 21: Korrelationsmatrix (erstellt mit Spss)

Tabelle 22: KMO-Index und Bartlett-Test (erstellt mit Spss)

Tabelle 23: bedeutende Kennzahlen der drei Hauptkomponenten

Tabelle 24: ( rotierte) Komponentenmatrix

Tabelle 25: Anteil an der Gesamtvarianz/ Kum. Anteil an der Varianz

Tabelle 26: Kommunalitäten

Tabelle 27: KMO und Bartlett Test

Tabelle 28: FIS Alpine Ski WM in Vail/Beaver Creek 2015 Tabelle 29: Körpergrößen

Page 128: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

LITERATURVERZEICHNIS

- 121 -

LITERATURVERZEICHNIS

BELLGARDT, E. (2004): „Statistik mit SPSS - Ausgewählte Verfahren für

Wirtschaftswissenschaftler“ (Verlag Franz Vahlen Gmbh)

BLUME, J. (1970): „Statistische Methoden für Ingenieure und Naturwissenschaftler –

Grundlagen, Beurteilung von Stichproben, einfache lineare Regression, Korrelation“

(VDI Verlag Gmbh - Düsseldorf)

HACKL,P. /KATZENBEISSER, W. (1994): „Statistik – für Sozial- und

Wirtschaftswissenschaften“ (Oldenbourg Verlag)

HAUER, P. (1991): „Einführung in die lineare Regression: Theoretische und

anwendungsorientierte Aspekte“ (Diplomarbeit der Uni Wien)

KREYSZIG, E. (1977): „Statistische Methoden und ihre Anwendungen“ (Verlag

Vandenhoeck & Ruprecht in Göttingen)

KURZ, B. (2003): „Lineare Regressionsanalyse“ (Diplomarbeit der Uni Wien)

LAY, D. (1996): „Linear Algebra and it´s applications“ (Addison Wesley Longman

Verlag)

MONTGOMERY, D./PECK, E. (1991): „Introduction to linear regression analysis“

(Verlag John Wiley and Sons)

POKROPP, F. (1994): „Lineare Regression und Varianzanalyse“ (Oldenbourg Verlag)

RIEDWYL, H. (1997): „Lineare Regression und Verwandtes“ (Birkhäuser Verlag)

STRANG, G. (2003): „Lineare Algebra“ (Springer Verlag)

YOUDEN (1957): Industrial and Engin. Chem. S. 49, Band 71

Page 129: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

LEBENSLAUF

- 122 -

LEBENSLAUF

Der Verfasser Hofegger Manuel wurde am 22.04.1990 in Scheibbs (Niederösterreich)

geboren.

Er besuchte klassisch jeweils 4 Jahre die Volksschule, die Hauptschule und das BORG

in Scheibbs, welches er im Juni 2008 erfolgreich abgeschlossen hat.

Nach 9 – Monaten Zivildienst beim Roten Kreuz entschloss er sich für ein Studium

nach Wien zu gehen und begann dort im Wintersemester 2009 mit Geodäsie &

Geoinformation zunächst sein einjähriges Gastspiel an der TU Wien, welches von

einigen Abtastversuchen auch in anderen Studiengängen geprägt war, ehe er sich dann

im Wintersemester 2010 für das Lehramtsstudium Mathematik und

Geographie/Wirtschaftskunde an der Universität Wien entschied.

Page 130: Lineare Regression Hauptkomponentenanalyseothes.univie.ac.at/37728/1/2015-05-05_0926716.pdf · lineare Regression, die Art der Beziehung zwischen zwei Variablen festzustellen und

ABSTRACT

- 123 -

ABSTRACT

Die Regressionsanalyse umfasst alle statistischen Verfahren die der statistischen

Analyse von Zusammenhängen zwischen zwei oder mehreren Zufallsvariablen dienen.

Ausgehend von einer Stichprobenerhebung aus der komplexeren Grundgesamtheit

versucht die lineare Regression, die Art der Beziehung zwischen zwei Variablen

festzustellen und durch eine mathematische Funktion diesen Zusammenhang zu

beschreiben, da sie sich naturgemäß anschaulich repräsentieren lässt und sich somit

adäquat zur Vermittlung grundsätzlicher Überlegungen eignet.

Grundsätzlich wird in vielen Praxisbeispielen, als Standardinstrument für derartige

Schätzungen, die Methode der kleinsten Quadrate heran gezogen.

In weiterer Folge spielt auch die Herleitung von statistischen Tests und

Konfidenzintervallen eine Rolle und das Modell wird zusätzlich durch die

Normalverteilungsannahme erweitert.

Ein sehr praxisnahes Bild ergibt sich dann durch die Varianzanalyse, indem in Form

eines Beispiels ein Vergleich mehrerer VW - Automodelle in Hinblick auf eine

quantitative Variable y durchgeführt wird.

Allerdings dürfen auch die Abweichungen der Modellvoraussetzungen nicht zu kurz

kommen, indem die Ursachen, Gründe, bzw. eventuellen Lösungsmöglichkeiten

thematisiert werden. Im Fokus stehen hier vor allem das Problem der Kollinearität der

unabhängigen Variablen bei der linearen Mehrfachregression, ebenso wie mögliche

Lösungen für Varianzinhomogenität. Außerdem wird darauf geachtet, dass durch

Eigenwerte/Eigenvektoren, Diagonalisierbarkeit, Orthogonalitätsprojektionen und

schließlich der Singulärwertzerlegung, der Bezug zur Linearen Algebra mit

zunehmendem Lesefortschritt der Arbeit sich zusehends vernetzter repräsentiert, ehe

abschließend zur Hauptkomponentenanalyse übergeleitet wird.