4 regression - uni kiel · 4 regression 4.1 univariate multiple regression dieses kapitel behandelt...

73
R07 1 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n¨ amlich die univariate multiple Regression. In der Elementarstatistik wird meistens die empirische Fragestellung bearbeitet. ¨ Ahnliche Probleme treten aber auch auf theoretischer Ebene auf und lassen sich v¨ ollig analog behandeln. Um dies etwas klarer zu machen, soll in den ersten Abschnitten, die weitgehend der Wiederholung schon bekannter Sachverhalte dienen, die theoretische Version der Regression dargestellt werden – man wird leicht erkennen, dass dabei die for- malen Unterschiede ganz unwesentlich sind und sich eigentlich auf den Austausch von Symbolen beschr¨ anken. Als praktisch f¨ ur die Formulierungen erweist sich die Verf¨ ugbarkeit der Vektor- und Matrizenschreibweise. Die M¨ oglichkeit der kovarianztreuen Darstellung hilft dazu, viele auf den ersten Blick merkw¨ urdige Ph¨ anomene der multiplen Regression und der Partialkorrela- tion durchsichtiger zu machen. Problemstellung und L¨ osung. Im ersten Abschnitt wird das Problem gestellt und gel¨ ost. Die (im Prinzip schon zum großen Teil bekannten) Er¨ orterungen wer- den am Ende in einer Feststellung zusammengefasst. Gegeben seien also p Zufallsvariablen x j , zusammengefasst zu einem Zufallsvektor x – die Pr¨ adiktoren – und eine weitere Zufallsvariable y – das Kriterium. Alle die- se Zufallsvariablen sollen nat¨ urlich auf einem gemeinsamen Wahrscheinlichkeits- raum definiert sein. Außerdem ist vorauszusetzen, dass alle diese Zufallsvariablen eine endliche Varianz besitzen. Als Beispiel kann man sich vorstellen, dass man sich f¨ ur die Variablen nicht auf Stichprobenebene interessiert, sondern auf Populationsebene, dass es also um so etwas wie eine wahre‘ Regressionsgleichung geht, im Gegensatz zu der, die man mit Hilfe einer empirischen Stichprobe errechnet. Ziel ist es, das Kriterium y mit Hilfe einer Linearkombination der x j oglichst gut vorherzusagen‘, besser w¨ urde man sagen zu approximieren‘. Wie ¨ ublich darf man sich durch die Verwendung der traditionellen Terminologie nicht zu der falschen Assoziation einer zeitlichen Reihenfolge oder gar einer kausalen Beziehung hin-

Upload: others

Post on 30-Apr-2020

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

R07 1

4 Regression

4.1 Univariate multiple Regression

Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend

bekannt ist, namlich die univariate multiple Regression. In der Elementarstatistik

wird meistens die empirische Fragestellung bearbeitet. Ahnliche Probleme treten

aber auch auf theoretischer Ebene auf und lassen sich vollig analog behandeln.

Um dies etwas klarer zu machen, soll in den ersten Abschnitten, die weitgehend

der Wiederholung schon bekannter Sachverhalte dienen, die theoretische Version

der Regression dargestellt werden – man wird leicht erkennen, dass dabei die for-

malen Unterschiede ganz unwesentlich sind und sich eigentlich auf den Austausch

von Symbolen beschranken. Als praktisch fur die Formulierungen erweist sich die

Verfugbarkeit der Vektor- und Matrizenschreibweise.

Die Moglichkeit der kovarianztreuen Darstellung hilft dazu, viele auf den ersten

Blick merkwurdige Phanomene der multiplen Regression und der Partialkorrela-

tion durchsichtiger zu machen.

Problemstellung und Losung. Im ersten Abschnitt wird das Problem gestellt

und gelost. Die (im Prinzip schon zum großen Teil bekannten) Erorterungen wer-

den am Ende in einer Feststellung zusammengefasst.

Gegeben seien also p Zufallsvariablen xj, zusammengefasst zu einem Zufallsvektor

x – die Pradiktoren – und eine weitere Zufallsvariable y – das Kriterium. Alle die-

se Zufallsvariablen sollen naturlich auf einem gemeinsamen Wahrscheinlichkeits-

raum definiert sein. Außerdem ist vorauszusetzen, dass alle diese Zufallsvariablen

eine endliche Varianz besitzen.

Als Beispiel kann man sich vorstellen, dass man sich fur die Variablen nicht auf

Stichprobenebene interessiert, sondern auf Populationsebene, dass es also um so

etwas wie eine’wahre‘ Regressionsgleichung geht, im Gegensatz zu der, die man

mit Hilfe einer empirischen Stichprobe errechnet.

Ziel ist es, das Kriterium y mit Hilfe einer Linearkombination der xj moglichst gut

’vorherzusagen‘, besser wurde man sagen

’zu approximieren‘. Wie ublich darf man

sich durch die Verwendung der traditionellen Terminologie nicht zu der falschen

Assoziation einer zeitlichen Reihenfolge oder gar einer kausalen Beziehung hin-

Page 2: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 2

reißen lassen.

Unter einer Linearkombination ist hier naturlich eine Linearkombination im stati-

stischen Sinn zu verstehen, nicht etwa eine im Sinn der linearen Algebra; gesucht

sind also Koeffizienten bj und eine additive Konstante a, so dass∑

bjxj + a eine

moglichst gute Vorhersage darstellt.

Fasst man die Koeffizienten bj zu einem p-Vektor b zusammen, so kann man die

Aufgabe auch so formulieren, dass ein Vektor b und eine Zahl a gesucht sind, so

dass

y = b′x + a

als Vorhersage optimal ist.

Das Wort’optimal‘ ist allerdings noch zu prazisieren, damit die Forderung uber-

haupt einen Sinn erhalt. Die Prazisierung ist dabei naturlich – entsprechend der

Methode der kleinsten Quadrate im Deskriptiven – die, dass der Erwartungs-

wert der quadrierten Abweichung e der Variable y von der Vorhersage y minimal

werden soll.

Zu einer gegebenen Vorhersage y = b′x + a ist der Fehler – oft auch Residuum

genannt – also definiert als

e = y − y = y − b′x− a ,

und das Ziel ist, durch geeignete Wahl von b und a den Erwartungswert E(e2)

zu minimieren.

Es gilt nun bekanntlich

E(e2) = V(e) + (E(e))2 ,

und man kann daher versuchen, die Minimierungsaufgabe in zwei Teile zu zerle-

gen, namlich in die, die beiden Summanden auf der rechten Seite dieser Gleichung

zu minimieren.

Dabei hangt der erste Summand (wie sich gleich zeigen wird) nicht von der ad-

ditiven Konstante a ab, und man erhalt daher ein Minimum von E(e2), indem

man zunachst durch eine geeignete Wahl von b den ersten Summanden V(e)

minimiert, und dann durch eine geeignete Wahl von a dafur sorgt, dass der zwei-

te Summand (E(e))2 gleich 0 wird – dieser Summand, der ja ein Quadrat ist,

ist namlich offenbar nichtnegativ, so dass ein kleinerer Wert als 0 nicht erzielt

werden kann.

Page 3: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 3

Der zweite, einfachere Schritt soll schon vorgezogen werden. Der Erwartungswert

von e ist

E(y − b′x− a) = E(y)− b′E(x)− a

was offenbar genau durch

a = E(y)− b′E(x)

zu Null gemacht wird. Die optimale Vorhersagegleichung hat daher die Eigen-

schaft, dass man, setzt man E(x) als Wert fur x ein, als Vorhersage E(y) erhalt:

b′E(x) + a = b′E(x) + E(y)− b′E(x) = E(y) .

Fur den Erwartungswertvektor von x wird also der Erwartungswert von y vorher-

gesagt. Die in diesem Schritt erfullte Forderung E(e) = 0 entspricht auch genau

dem, was man von einem Fehler erwartet.

Es bleibt der erste Schritt zu erledigen. Hierzu sollen zunachst einige Bezeichnun-

gen eingefuhrt werden. Die Kovarianzmatrix der aus x und y zusammengesetzten

Variablen (x, y) (eigentlich (x′, y)′) soll sogleich geeignet partitioniert werden,

indem am jeweiligen Ende die zu y gehorende Zeile und Spalte abgetrennt wer-

den. Die Teile der entstehenden partitionierten Matrix sollen folgendermaßen

abgekurzt werden: (K k

k′ κ

),

wobei wegen der Symmetrie der gesamten Matrix der erste Teil der letzten Zeile

der transponierte erste Teil der letzten Spalte ist, die Bezeichnung k′ dafur also

korrekt ist. Ausgeschrieben gilt also

K = V(x) , k = C(x, y) , κ = V(y) .

Offenbar kann man nun e auch schreiben als

e =(−b′ 1

) (x

y

)− a ,

weshalb sich die Varianz von e nach den Regeln uber partitionierte Matrizen

berechnet zu

V(e) =(−b′ 1

) (K k

k′ κ

)(−b

1

)

=(−b′ 1

) (−Kb + k

−k′b + κ

)

= b′Kb− b′k− k′b + κ ,

Page 4: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 4

was wegen b′k = k′b auch

V(e) = b′Kb− 2b′k + κ

geschrieben werden kann.

Es soll gleich noch der Vektor der Kovarianzen von x und e ausgerechnet werden;

fur C(x, e) (dies ist ein p-Vektor) ergibt sich

C(x, e) = C(x, y − b′x− a) = C(x, y)− C(x,x)b = k−Kb .

Es liegt die Vermutung nahe, dass dieser Vektor gleich 0 sein muss, denn wurde

der Fehler noch mit irgendeinem Pradiktor korrelieren, so konnte man womoglich

einen zusatzlichen Teil des Fehlers durch eine modifizierte Vorhersage’erklaren‘.

Es soll daher allgemein berechnet werden, wie sich die Varianz des Fehlers andert,

wenn man die Vorhersagegewichte etwas modifiziert. Die Modifikation soll darin

bestehen, dass zu b noch das h-fache eines Vektors d hinzuaddiert wird, wobei

die Wahl von d und h zunachst noch offen bleibt.

Ersetzt man also in der Formel fur die Varianz von e den Vektor b durch b+hd,

so erhalt man fur die Varianz des neuen Fehlers, der jetzt zur Unterscheidung e1

heißen soll, den Wert

V(e1) = (b + hd)′K(b + hd)− 2 (b + hd)′k + κ

= b′Kb + hb′Kd + hd′Kb + h2d′Kd− 2b′k− 2hd′k + κ

= b′Kb− 2b′k + κ + h2 d′Kd + 2hd′Kb− 2hd′k

= V(e) + h2 d′Kd− 2hd′(k−Kb) ,

wobei an einer Stelle d′Kb = b′Kd benutzt wurde, was sofort durch Transponie-

ren aus der Symmetrie von K folgt. Man beachte, dass in der letzten Klammer

der Vektor k−Kb der Kovarianzen von x und e auftaucht.

Die Varianzen von e1 und e unterscheiden sich also um h2 d′Kd− 2hd′(k−Kb).

Nun soll gezeigt werden, dass diese Differenz bei geeigneter Wahl von h und d

kleiner als Null werden kann, wenn C(x, e) = k − Kb nicht 0 ist. Wenn dies

gezeigt ist, folgt sofort, dass bei der optimalen Losung C(x, e) = k−Kb gleich 0

sein muss, denn sonst ließe sich die Varianz des Fehlers ja noch weiter verkleinern.

Um die gerade aufgestellte Behauptung zu beweisen, setzt man zunachst d =

k −Kb. Dies ist nach Voraussetzung nicht 0, weshalb dann d′d als quadrierte

Page 5: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 5

Lange von d großer als 0 ist. Der untersuchte Ausdruck lasst sich jetzt schreiben

als

h2 d′Kd− 2hd′(k−Kb) = h2 d′Kd− 2hd′d ,

und es ist noch h geeignet zu wahlen. Ist nun einerseits d′Kd = 0 (was ubrigens

nicht moglich ist, wie eine genauere Untersuchung zeigt), so wahlt man h = 1,

um ein echt negatives Ergebnis zu erhalten; ist andererseits d′Kd 6= 0, so ist

es sogar großer als Null, da ja K = V(x) positiv semidefinit ist, und man kann

h = d′d/d′Kd wahlen und erhalt insgesamt mit

(d′d/d′Kd)2d′Kd− 2(d′d/d′Kd)d′d = −(d′d)2/d′Kd

einen Wert, der kleiner als 0 ist.

Damit ist eine Bedingung gefunden, die eine optimale Losung erfullen muss,

namlich die, dass die Kovarianzen des Fehlers mit den Komponenten von x alle

gleich 0 sein mussen. Wegen C(x, e) = k −Kb kann man diese Bedingung nun

auch schreiben als

Kb = k .

Man hat also ein lineares Gleichungssystem fur das gesuchte b gefunden. Diese

Gleichungen nennt man auch die Normalengleichungen; die Koeffizientenmatrix

ist K = V(x), also die Kovarianzmatrix der Pradiktoren, wahrend die rechte Seite

k = C(x, y) der Vektor der Kovarianzen der Pradiktoren mit dem Kriterium ist.

Man kann die Normalengleichungen alternativ also auch als

V(x) b = C(x, y)

schreiben.

Der Ausdruck’Normalengleichungen‘ leitet sich von der Tatsache ab, dass diese

Gleichungen die Unkorreliertheit des Fehlers mit den Pradiktoren zum Ausdruck

bringen; geometrisch entspricht der Unkorreliertheit ja die Orthogonalitat und

das Wort’normal‘ wird in manchen Situationen gebraucht, um einen Vektor zu

kennzeichnen, der senkrecht auf gewissen anderen Vektoren steht.

Es stellt sich sofort die Frage, ob die Normalengleichungen losbar sind, und ob

eine Losung tatsachlich auch zu einer minimalen Fehlervarianz fuhrt.

Was die Losbarkeit anlangt, so ist zunachst die Matrix

(K k

k′ κ

)

Page 6: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 6

als Kovarianzmatrix von (x, y) positiv semidefinit, und die Untersuchung solcher

Matrizen hat gezeigt, dass die Gleichung Kb = k tatsachlich immer eine Losung

besitzt.

Ist K invertierbar (oder gleichbedeutend positiv definit), so ist die Losung ein-

deutig und es gilt

b = K−1k = (V(x))−1 C(x, y) .

Ist der Rang von K hingegen kleiner als die Zahl p der Pradiktoren, so gibt es

viele Losungen, deren Eigenschaften noch genauer zu untersuchen sein werden.

Zuvor ist jedoch zu prufen, ob eine Losung der Normalengleichungen wirklich

auch eine optimale Losung des Regressionsproblems ist. Betrachtet man zu diesem

Zweck die oben hergeleitete Beziehung

V(e1) = V(e) + h2 d′Kd− 2hd′(k−Kb)

zwischen den Varianzen des Fehlers e einer durch den Koeffizientenvektor b ge-

gebenen Vorhersage und des Fehlers e1 der Vorhersage mit dem modifizierten

Koeffizientenvektor b+ hd, setzt man voraus, dass b eine Losung der Normalen-

gleichungen ist, was ja gerade k −Kb = 0 bedeutet, und setzt man außerdem

h = 1, so erhalt man

V(e1) = V(e) + d′Kd .

Wegen der positiven Semidefinitheit von K = V(x) folgt, dass d′Kd ≥ 0 ist, so

dass man insgesamt sieht, dass jede Anderung der durch eine Losung b der Nor-

malengleichungen gegebenen Koeffizienten zu einer weiteren Vorhersage fuhrt,

die jedenfalls keine kleinere Fehlervarianz besitzt. Jede Losung der Normalenglei-

chungen liefert daher eine minimale Fehlervarianz.

Nun soll noch der Fall untersucht werden, dass die Normalengleichungen nicht

eindeutig losbar sind, dass also die Kovarianzmatrix der p Pradiktoren nicht den

Rang p besitzt. Da die Normalengleichungen immer eine Losung besitzen, be-

deutet dies bekanntlich, dass es sogar’sehr viele‘ Losungen gibt, genauer bilden

die Losungen einen ganzen affinen Unterraum der Dimension p − Rang(K), der

parallel ist zu Kern(K).

Dies bedeutet insbesondere, dass die Differenz zweier Losungen ein Element von

Kern(K) ist, und dass man, wenn man zu einer Losung ein Element aus Kern(K)

addiert, eine weitere Losung erhalt.

Sind nun b1 und b2 zwei Losungen der Normalengleichungen, so gilt folglich

Page 7: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 7

(b1 − b2) ∈ Kern(K) oder

K(b1 − b2) = 0 ,

was naturlich auch sofort aus Kb1 = k und Kb2 = k folgt. Sind y1 und y2 die zu

den beiden Losungen gehorenden Vorhersagen, gilt also yi = b′ix + ai, wobei die

additiven Konstanten ai so gewahlt sind, dass die Erwartungswerte der Fehler ei

gleich 0 sind, so folgt

y1 − y2 = b′1x + a1 − b′2x− a2 = (b1 − b2)′x + (a1 − a2) ,

weshalb die Varianz von y1 − y2 gleich

(b1 − b2)′K(b1 − b2) = 0

ist. Wegen yi = y − ei gilt außerdem

y1 − y2 = (y − e1)− (y − e2) = e2 − e1 ,

weshalb der Erwartungswert E(y1 − y2) = E(e2 − e1) = E(e2)− E(e1) = 0 ist.

Fur die Differenz der y1− y2 ist also sowohl die Varianz als auch der Erwartungs-

wert gleich 0. Es folgt, dass diese Differenz gleich einer Konstanten ist (genauer:

fast sicher gleich einer Konstanten ist), und dass diese Konstante, die ja dann

mit dem Erwartungswert ubereinstimmen muss, gleich 0 ist. Insgesamt gilt also

y1 = y2 (f.s.), die beiden Vorhersagen unterscheiden sich also nicht, wenn sie auch

oberflachlich – nach den Koeffizienten zu urteilen – unterschiedliche Form haben

mogen. Hier ist’f.s.‘ naturlich die Abkurzung fur

’fast sicher‘.

Im deskriptiven Fall sind die vorsichtigen Formulierungen (’f.s.‘) uberflussig, hier

folgt analog, dass die beiden Vorhersagen auf den fur die Pradiktoren erhobe-

nen Daten ubereinstimmen. Es kann allerdings vorkommen, dass man fur weitere

mogliche, jedoch nicht erhobene Werte der Pradiktoren unterschiedliche Vorher-

sagen erhalt.

Die bisherigen Uberlegungen sollen nun zusammengefasst werden. Zuvor soll die

benutzte Terminologie kurz rekapituliert werden.

Ausgangspunkt ist eine Situation, in der p Pradiktoren xj, zusammengefasst zu

einem Zufallsvektor x, und eine Kriteriumsvariable y gegeben sind; alle Variablen

sollen endliche Varianz besitzen. Das Regressionsproblem besteht darin, eine Li-

nearkombination y = b′x+ a der Pradiktoren zu finden, die den Erwartungswert

des quadrierten Fehlers e = y − y minimiert. Gesucht ist also der Vektor b der p

Regressionsgewichte und die additive Konstante a.

Page 8: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 8

Als Abkurzungen werden K = V(x) fur die Kovarianzmatrix der Pradiktoren

und k = C(x, y) fur den Vektor der Kovarinzen von x und y benutzt.

Feststellung 1. Das Regressionsproblem, eine Linearkombination y = b′x+a der

Pradiktoren zu finden, die den Erwartungswert des quadrierten Fehlers minimiert,

besitzt immer mindestens eine Losung.

Losungen sind dadurch charakterisiert, dass die Kovarianzen der Pradiktoren mit

dem Fehler alle 0 sind, und dass der zu E(x) gehorende Wert von y gerade E(y)

ist (alternativ: dass E(e) = 0 ist).

Man erhalt die Losungen fur b als Losungen der Normalengleichungen

Kb = k

und die dazu gehorenden Losungen fur a als

a = E(y)− b′E(x) .

Ist die Kovarianzmatrix K der Pradiktoren invertierbar (aquivalent: positiv defi-

nit), so ist die dann eindeutige Losung durch b = K−1k gegeben.

Ist K nicht invertierbar, so gibt es viele Losungen der Normalengleichungen.

Sie unterscheiden sich jeweils um ein Element aus Kern(K). Fur je zwei solche

Losungen stimmen jedoch die zugehorigen Vorhersagen (f.s.) uberein, wenn auch

die Regressionsgewichte und die additive Konstante verschieden sein mogen. ¤

In Zukunft sollen mit b und a nur noch die Koeffizienten und die additive Kon-

stante bezeichnet werden, die zu einer optimalen Vorhersage y gehoren; auch die

Bezeichnung y ist ab jetzt fur optimale Vorhersagen reserviert (der Fall, dass meh-

rere Losungen existieren, ist meist unkritisch, das ja die zugehorigen Vorhersagen

dann (f.s.) ubereinstimmen).

Eine Losung des Problems, eine optimale Vorhersage von y durch eine geeignete

Linearkombination der in x zusammengefassten xj zu finden, soll auch kurz als

Regression von y auf x bezeichnet werden.

Es soll noch kurz auf den Spezialfall eines Pradiktors eingegangen werden. Hier

hat die einzige Normalengleichung fur das einzige Gewicht b die Form

V(x) b = Kov(x, y) ,

Page 9: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 9

woraus sofort

b =Kov(x, y)

V(x)= ρ(x, y)

σ(y)

σ(x)

folgt, wenn σ(x) und σ(y) die Streuungen von x und y sind.

Zur Erganzung seien kurz auch die Modifikationen fur die empirische Situation

einer Stichprobe wiederholt. Hier sind nur Erwartungswerte durch Mittelwerte

und theoretische Kovarianzen und Varianzen durch empirische zu ersetzen. Im

Falle einer singularen Kovarianzmatrix der Pradiktoren stimmen verschiedene

optimale Vorhersagen fur die erhobenen Daten uberein, konnen sich jedoch fur

weitere mogliche Daten unterscheiden.

Im empirischen Fall arbeitet man gelegentlich auch mit den korrigierten Stich-

probenkovarianzen, die man ja erhalt, wenn man die Summen der Produkte der

jeweiligen Abweichungen vom Mittelwert nicht durch n, sondern durch n−1 teilt

(n ist der Stichprobenumfang). Bemerkenswert ist, dass man die gleiche Losung

des Regressionsproblems bekommt, wenn man mit diesen Kovarianzen rechnet,

wie bei den unkorrigierten Kovarianzen. Die Normalengleichungen in den beiden

Fallen sind namlich fast die gleichen; die fur den korrigierten Fall erhalt man

aus den unkorrigierten durch Multiplikation mit dem Faktor n/(n − 1), was an

den Losungen nichts andert. Wenn also auch die Formulierung der Normalenglei-

chungen mit den korrigierten Kovarianzen zunachst wenig motiviert erscheint, so

fuhrt sie doch zur korrekten Losung des Regressionsproblems.

Eigenschaften der Losung. In diesem Abschnitt geht es um Eigenschaften der

Losung des Regressionsproblems. Auch hier sind die Sachverhalte fur die empiri-

sche Situation weitgehend bekannt, weshalb sie jetzt fur die theoretische Situati-

on formuliert werden sollen. Die Unterschiede zwischen diesen beiden Situationen

erweisen sich dabei als unbedeutend. Es wird weiterhin die Terminologie des vor-

angehenden Abschnitts benutzt.

Zunachst sollen Erwartungswert und Varianz von y bestimmt werden. Da der

Fehler Erwartungswert 0 besitzt, folgt aus y = y + e uber E(y) = E(y)+E(e) die

Gleichung

E(y) = E(y)

Die Varianz von y ergibt sich daraus, dass y eine Linearkombination der Pradik-

toren ist, zu b′Kb. Berucksichtigt man, dass b eine Losung der Normalenglei-

chungen Kb = k ist, so erhalt man

V(y) = b′k ,

Page 10: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 10

die Varianz von y kann man also auch als Skalarprodukt des Koeffizientenvektors

b mit dem Vektor k der Kovarianzen von Pradiktoren und Kriterium berechnen.

Im Falle einer invertierbaren Matrix K ist b = K−1k, woraus sich als weitere

Alternative V(y) = k′K−1k ergibt.

Die Kovarianz von y mit dem Fehler e berechnet sich zu

C(y, e) = C(b′x + a, e) = b′C(x, e) = b′0 = 0 ,

da ja die Kovarianzen der Pradiktoren mit dem Fehler alle 0 sind.

Da die Kovarianz von y und e gleich 0 ist, folgt aus y = y + e die ubliche

Varianzzerlegung

V(y) = V(y) + V(e) .

Damit ergibt sich die Fehlervarianz zu

V(e) = V(y)− V(y) = V(y)− b′k ,

und da konstruktionsgemaß E(e) = 0 ist, ist dies gleichzeitig der im Regressi-

onsproblem zu minimierende Erwartungswert des quadrierten Fehlers, also gleich

E(e2).

Feststellung 2. Ist y = b′x + a Losung des Regressionsproblems, so gilt

E(y) = E(y) und V(y) = b′k

sowie

E(e) = 0 und E(e2) = V(e) = V(y)− b′k .

Ferner gilt die Varianzzerlegung

V(y) = V(y) + V(e) . ¤

Man kann nun die Gleichung der Varianzzerlegung noch durch V(y) dividieren,

um so die Anteile der’aufgeklarten Varianz‘ und der

’Residualvarianz‘ an der

Gesamtvarianz zu erhalten. Die Gesamtvarianz wird dabei gewissermaßen auf 1

standardisiert. Es ergibt sich die Gleichung

V(y)

V(y)+

V(e)

V(y)= 1 .

Der Anteil der aufgeklarten Varianz, V(y)/V(y), heißt auch Determinationskoef-

fizient. Er soll hier, da es um die theoretische Ebene geht, auch als P 2 bezeichnet

Page 11: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 11

werden, wobei der Buchstabe P kein lateinisches P sondern ein großes griechisches

Rho ist, also das Gegenstuck zu ρ (auf empirischer Ebene heißt der Determinati-

onskoeffizient bekanntlich R2).

Wenn vom Determinationskoeffizient die Rede ist, soll immer vorausgesetzt sein,

dass V(y) 6= 0 ist, da ja sonst die Division durch V(y) nicht definiert ist.

Eine mogliche Formel fur den Determinationskoeffizienten ist naturlich

P 2 =b′kV(y)

,

in der man fur b′k auch b′Kb oder (bei regularem K) auch k′K−1k schreiben

kann.

Im Spezialfall einer einzigen Pradiktorvariablen ist die Varianz von y gleich

b Kov(x, y) = (Kov(x, y))2/V(x), was man auch als (ρ(x, y))2 V(y) schreiben

kann. Der Determinationskoeffizient ist daher die quadrierte Korrelation ρ2 der

Variablen x und y.

Naturlich liegt der Determinationskoeffizient zwischen 0 und 1. Den minimalen

Wert 0 nimmt er genau dann an, wenn die Vorhersage die Varianz 0 hat, wenn also

die Vorhersage (f.s.) konstant ist, womit sie sozusagen wertlos ist. Der maximale

Wert von 1 wird hingegen dann erreicht, wenn die Fehlervarianz und damit E(e2)

gleich 0 ist, wenn also der Fehler (f.s.) gleich Null ist, womit die Vorhersage

perfekt ist.

Der Fall, dass der Determinationskoeffizient gleich 0 ist, tritt dabei genau dann

ein, wenn alle Pradiktoren mit dem Kriterium die Kovarianz 0 besitzen (also –

in nicht ganz korrekter Formulierung – mit y unkorreliert sind). Der Determina-

tionskoeffizient ist namlich genau dann 0, wenn sein Zahler gleich 0 ist, der als

b′Kb geschrieben werden kann. Da K positiv semidefinit ist, ist dies genau dann

der Fall, wenn Kb = 0 gilt, woraus die Behauptung folgt wegen Kb = k.

Die nachste Feststellung halt diese Eigenschaften fest.

Feststellung 3. Der Determinationskoeffizient P 2 = V(y)/V(y) gibt den Anteil

der Varianz von y an, der durch die Regression auf x aufgeklart wird.

Er liegt zwischen 0 und 1 und es gilt P 2 = 0 genau dann, wenn die Vorhersage y

(f.s.) konstant ist, und P 2 = 1 genau dann, wenn die Vorhersage y perfekt, das

heißt (f.s.) gleich y ist.

Page 12: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 12

Der Fall P 2 = 0 tritt dabei genau dann ein, wenn alle Kovarianzen der Pradiktoren

mit y gleich 0 sind. ¤

Analoge Aussagen gelten naturlich fur die Fehlervarianz, die zwischen 0 und V(y)

liegt, bei einer perfekten Vorhersage 0 ist und bei einer wertlosen Vorhersage V(y).

Fur die Fehlervarianz gilt offenbar

V(e) = E(e2) = (1− P 2) V(y) .

Diese Fehlervarianz heißt naheliegenderweise oft auch Schatzfehlervarianz und

die Fehlerstreuung auch Standardschatzfehler.

Interessant ist der Fall, dass die Pradiktoren sich in zwei untereinander unkorre-

lierte Teilmengen zerlegen lassen, da dann die Varianzaufklarung additiv ist. Hier

lassen sich außerdem die Regressionsgewichte aus zwei Einzelregressionen ohne

die jeweils anderen Pradiktoren bestimmen. Diese Eigenschaften sollen jetzt ge-

zeigt werden.

Der Zufallsvektor x soll sich also jetzt aus zwei Teilvektoren x1 und x2 zusammen-

setzen als x = (x1,x2), wobei jede Variable aus dem ersten Teilvektor mit jeder

aus dem zweiten unkorreliert ist, genauer also C(x1,x2) = 0 gilt. Sind dann K1

und K2 die Kovarianzmatrizen von x1 und x2 und partitioniert man entsprechend

auch den Vektor b der Gewichte in (b1,b2) und den Vektor k der Kovarianzen

von x mit y in (k1,k2), so schreiben sich die Normalengleichungen als

(K1 0

0 K2

)(b1

b2

)=

(k1

k2

),

was mit Ausmultiplizieren zu

K1b1 = k1 und K2b2 = k2

fuhrt. Dies sind gerade die Normalengleichungen, die man erhalten hatte, wenn

man Regressionen von y auf x1 bzw. x2 durchgefuhrt hatte, ohne die jeweils an-

dere Pradiktorengruppe uberhaupt einzubeziehen. Daher ist b = (b1,b2) genau

dann eine Losung der Normalengleichungen der Regression von y auf x, wenn b1

und b2 Losungen der Regressionen von y auf x1 und x2 sind.

Man kann also die Regressionsgewichte fur x1 und x2 durch getrennte Regres-

sionen auf x1 und x2 ermitteln; zur Ermittlung der additiven Konstante mussen

dann naturlich zuerst die beiden Teilergebnisse b1 und b2 zu b = (b1,b2) zu-

sammengesetzt werden.

Page 13: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 13

Die Gewichtsvektoren getrennter Regressionen von y auf x1 und x2 sind also b1

und b2, die einzeln aufgeklarten Varianzen folglich b′1k1 und b′2k2. Die durch x

aufgeklarte Varianz ist hingegen

b′k =(b′1 b′2

) (k1

k2

)= b′1k1 + b′2k2 .

Damit ist in der Tat die durch x aufgeklarte Varianz gleich der Summe der durch

x1 und x2 in getrennten Regressionen aufgeklarten Varianzen.

Bezeichnet man noch die Determinationskoeffizienten der Regressionen von y auf

x1, x2 und x mit P 21 , P 2

2 und P 2, so folgt, wenn man die letzte Gleichung noch

durch V(y) dividiert, schließlich die Beziehung

P 2 = P 21 + P 2

2 .

Feststellung 4. Ist x = (x1,x2) und gilt C(x1,x2) = 0, so ist b = (b1,b2)

Vektor der Gewichte der Regression von y auf x genau dann, wenn b1 und b2

Vektoren der Gewichte der getrennten Regressionen von y auf x1 und x2 sind.

Die durch x aufgeklarte Varianz ist die Summe der durch x1 und x2 getrennt

aufgeklarten Varianzen und der Determinationskoeffizient fur x ist die Summe

der Determinationskoeffizienten fur x1 und x2. ¤

Die Formulierung ist etwas umstandlich, um auch die Moglichkeit singularer Ko-

varianzmatrizen mit einzubeziehen. Ganz analog wird der Fall behandelt, in dem

sich die Pradiktoren in mehrere untereinander unkorrelierte Gruppen einteilen

lassen. Der Extremfall ist der, in dem alle Pradiktoren unkorreliert sind (man be-

achte, dass die Determinationskoeffizienten bei einfachen linearen Regressionen

gerade die quadrierten Korrelationen sind):

Feststellung 5. Sind die Variablen xi alle unkorreliert, so setzt sich der Vek-

tor b = (b1, . . . , bp)′ der Gewichte der Regression von y auf x = (x1, . . . , xp)

zusammen aus den Gewichten bi einfacher linearer Regressionen von y auf die xi.

Die durch x aufgeklarte Varianz ist die Summe der durch die xi getrennt aufge-

klarten Varianzen und fur den Determinationskoeffizienten P 2 gilt

P 2 =∑

ρ2i ,

wo ρi die Korrelationen der xi mit y sind. ¤

Page 14: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 14

Unter der Voraussetzung, dass die Varianz von y nicht 0 ist, kann man auch die

Korrelation von y und y berechnen. Zu diesem Zweck benotigt man zunachst die

Kovarianz, die sich, da die Kovarianz von y und e gleich 0 ist, zu

Kov(y, y) = Kov(y + e, y) = Kov(y, y) + Kov(e, y) = V(y) + 0 = V(y)

berechnet. Hieraus ergibt sich fur die Korrelation

ρ(y, y) =Kov(y, y)√V(y)V(y)

=V(y)√

V(y)V(y)=

√V(y)

V(y)=√

P 2 = P ,

wobei P naturlich als√

P 2 definiert ist. Die Korrelation der optimalen Vorhersage

mit y ist also gleich der Wurzel aus dem Determinationskoeffizienten. Man nennt

daher P auch die multiple Korrelation von y und x.

Diese multiple Korrelation ist ubrigens auch die maximale Korrelation, die ir-

gendeine Linearkombination der xj mit y betragsmaßig besitzen kann, was nun

kurz gezeigt werden soll. Es sei dazu z eine beliebige Linearkombination der xj.

Eine einfache lineare Regression von y auf z liefert eine Vorhersage y1 = b1z +a1;

der zugehorige Fehler sei e1. Ist die Korrelation zwischen y und z gleich ρ, so

ist der Determinationskoeffizient fur diese einfache Regression gleich ρ2 und die

Fehlervarianz und damit E(e21) gleich (1−ρ2) V(y). Da y1 auch eine Linearkombi-

nation der xj ist, kann der Erwartungswert des quadrierten Fehlers e1 bei dieser

Vorhersage nicht kleiner sein als der Erwartungswert des quadrierten Fehlers e

bei der optimalen Vorhersage y von y durch x. Da E(e2) aber gleich (1−P 2) V(y)

ist, folgt

(1− ρ2) V(y) ≥ (1− P 2) V(y) ,

was mit einer einfachen Umformung die gewunschte Beziehung

ρ2 ≤ P 2

liefert.

Die Linearkombination, die die maximale Korrelation mit y hat, ist ubrigens

auch bei invertierbarer Matrix K nicht eindeutig, da die Korrelation sich ja nicht

andert, wenn eine der Variablen (hier die Linearkombination) mit einer positiven

Zahl multipliziert wird.

Zusammenfassend gilt:

Feststellung 6. Ist die Varianz von y nicht 0, so ist die multiple Korrelation

P gleichzeitig die Korrelation von y und y. Die Zahl P ist auch die maximale

Korrelation, die eine Linearkombination der xj mit y besitzen kann. ¤

Page 15: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 15

Die Formulierung uber die maximale Korrelation mag zunachst unbefriedigend

erscheinen, da in ihr negative Korrelationen nicht berucksichtigt zu sein schei-

nen. Wollte man diesen Fall auch explizit berucksichtigen, so wurde die Formu-

lierung an Eingangigkeit verlieren (es musste etwa heißen: P ist das Maximum

der Betrage der Korrelationen von beliebigen Linearkombinationen der xj mit

y). Erinnert man sich jedoch, dass die Korrelation nur ihr Vorzeichen wechselt,

wenn man eine der Variablen (hier die Linearkombination) mit −1 multipliziert,

so erkennt man, dass die Formulierung in der Feststellung auch impliziert, dass

keine Korrelation einer Linearkombination der xj mit y kleiner als −P werden

kann, womit auch der negative Fall abgedeckt ist.

Es durfte schließlich auch fur diesen Abschnitt klar (und bekannt) sein, dass ganz

analoge Feststellungen auch im empirischen Fall gelten.

Alle Aussagen gelten im empirischen Fall ubrigens auch, wenn man einheitlich mit

den korrigierten Stichprobenkovarianzen rechnet (was das inhaltlich auch immer

bedeuten mag). Die Determinationskoeffizienten sind jedenfalls wieder fur beide

Rechnungen die gleichen, da sich der Korrekturfaktor hier wegkurzt (auch fur

den Korrelationskoeffizienten erhalt man ja bekanntlich dasselbe Ergebnis beim

Rechnen mit unkorrigierten und korrigierten Kennwerten).

Transformationen. Es kommt gelegentlich vor, dass man aus unterschiedlichen

Grunden die Pradiktoren durch geeignete Linearkombinationen ersetzt; ebenso

kann es sein, dass das Kriterium linear transformiert wird. Manchmal erachtet

man es beispielsweise als sinnvoll, die Pradiktoren so abzuandern, dass sie danach

unkorreliert sind. Ein anderes Beispiel ist die Standardisierung.

In diesem Abschnitt soll untersucht werden, welche Auswirkungen solche Trans-

formationen auf die Regression haben.

Leicht abzuhandeln ist zunachst der Fall, dass das Kriterium y linear transfor-

miert wird. Statt y soll also jetzt eine lineare Transformation u = cy + d durch

die Pradiktoren optimal vorhergesagt werden; sinnvollerweise ist dabei c 6= 0

vorauszusetzen. Beispiele sind der Ubergang zu einer anderen Skala (mm statt

cm oder Fahrenheit-Grade statt Celsius-Grade) oder auch die z-Transformation

z = (y − E(y))/σ = (1/σ)y − E(y)/σ (σ ist hier naturlich die Streuung von y).

Im Vergleich zur Ausgangssituation andern sich der Vektor der Kovarianzen und

der Erwartungswert des Kriteriums. Der Vektor der Kovarianzen ist

C(x, u) = C(x, cy + d) = c C(x, y) = ck ,

Page 16: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 16

wahrend der Erwartungswert von u gleich c E(y) + d ist. Schreibt man fur den

neuen Vektor der Vorhersagegewichte nun b1 und fur die neue additive Konstante

a1, wahrend b und a ihre Bedeutung als Koeffizienten fur die Vorhersage von y

behalten, so lauten die neuen Normalengleichungen

Kb1 = ck ,

und man sieht sofort, dass sie wegen Kb = k beispielsweise durch b1 = cb gelost

werden. Die neue additive Konstante a1 ergibt sich dann zu

a1 = E(u)− b′1E(x) = c E(y) + d− cb′E(x) = c(E(y)− b′E(x)) + d = ca + d .

Damit ist u = b′1x+ a1 = cb′x+ c a+ d = c y + d Losung des neuen Regressions-

problems. Es durfte keine große Uberraschung sein, dass dies gerade die analog

transformierte alte Vorhersage ist.

Es ist nicht zu erwarten, dass die neue Losung schlechter ist als die alte, und

in der Tat andert sich beispielsweise der Determinationskoeffizient nicht, da sich

die Varianzen von u und u im Vergleich zu denen von y und y jeweils um den

Faktor c2 andern, der sich dann bei der Bildung des Determinationskoeffizienten

weghebt. Der Erwartungswert des quadrierten Fehlers andert sich hingegen, und

zwar um den Faktor c2, da der neue Fehler gerade das c-fache des alten ist.

Feststellung 7. Ist y = b′x + a Regression von y auf x und ist u = c y + d, so

ist

u = c y + d = (cb)′x + c a + d

Regression von u auf x. Fur die Regression von u auf x ist also cb ein moglicher

Koeffizientenvektor und c a + d die zugehorige additive Konstante. Die Determi-

nationskoeffizienten der beiden Regressionen sind gleich. ¤

Interessanter ist der Fall, dass man die ursprunglichen Variablen xj aquivalent

durch geeignete Linearkombinationen ersetzt – genauer soll auf Pradiktorseite

eine Variablentransformation durchgefuhrt werden.

Diese Variablentransformation sei wie ublich gegeben durch ihre Koeffizienten-

matrix G und den Konstantenvektor h. Die Matrix G enthalt in den Spalten

die Koeffizienten zur Bildung der neuen Variablen als Linearkombinationen der

alten; sie soll invertierbar sein. Nennt man die neuen Variablen vj und stellt sie

zu einem Vektor v zusammen, so gilt

v = G′x + h

Page 17: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 17

mit der Umkehrung

x = G′−1(v − h) = G′−1v −G′−1h ,

die das ursprungliche x wieder aus v zuruckgewinnt.

Es soll also jetzt das Problem untersucht werden, y durch v optimal vorherzusa-

gen, wo v = G′x + h ist mit einer invertierbaren Matrix G.

Zunachst werden die fur die neue Situation notigen Matrizen und Vektoren be-

stimmt. Die Kovarianzmatrix von v ist G′KG, der Erwartungswert ist E(v) =

G′E(x) + h, und die Kovarianzen von v und y errechnen sich zu

C(v, y) = C(G′x + h, y) = G′C(x, y) = G′k .

Der Koeffizientenvektor und die additive Konstante der Regression von y auf v

sollen mit b1 und a1 bezeichnet werden, wahrend b und a ihre Bedeutung von

der Regression von y auf x behalten.

Die neuen Normalengleichungen lauten dann

G′KGb1 = G′k .

Multiplikation mit G′−1 von links ergibt die wegen der Invertierbarkeit von G′−1

aquivalente Gleichung

KGb1 = k ,

fur die b1 = G−1b eine mogliche Losung ist, da

KG(G−1b) = Kb = k

gilt.

Das zugehorige a1 errechnet sich nun zu

a1 = E(y)− b′1E(v)

= E(y)− (G−1b)′(G′E(x) + h)

= E(y)− b′E(x)− b′G′−1h

= a− b′G′−1h .

Es lasst sich also aus einer Losung des alten Regressionsproblems eine des neuen

gewinnen.

Page 18: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 18

Man konnte nun alternativ auf den Gedanken kommen, dass man eine Losung

des neuen Problems dadurch erhalt, dass man einfach durch Einsetzen die alte

Losung in die neuen Variablen umrechnet. Dieser Ansatz fuhrt zu der Vorhersage

b′x + a = b′(G′−1(v − h)) + a = (G−1b)′v + a− b′G′−1h ,

die tatsachlich die gleiche ist, wie die zuvor auf dem formalen Weg gewonnene (es

handelt sich hier ubrigens um das bekannte Umschreiben einer Linearkombination

auf transformierte Variablen). Insbesondere ist die Vorhersage y bei der alten

und bei der neuen Regression die gleiche, was bedeutet, dass auch der Fehler der

gleiche ist, und dass sich daher weder die Fehlervarianz noch der Erwartungswert

des quadrierten Fehlers noch der Determinationskoeffizient andern.

Eine einfache Zusatzuberlegung zeigt ubrigens, dass man sich die erste Alternati-

ve hatte ersparen konnen; man muss sich namlich nur klar machen, dass die auf

v umgerechnete ursprungliche Regression ihre Optimalitatseigenschaften auch

unter konkurrierenden Linearkombinationen der vk behalt, denn solche Linear-

kombinationen sind ja gleichzeitig solche der xj.

Feststellung 8. Ist y = b′x+ a Regression von y auf x und ist v = G′x+h mit

einer invertierbaren Matrix G, so ist y, umgeschrieben zu

y = (G−1b)′v + a− b′G′−1h

auch Regression von y auf v. Fur die Regression von y auf v ist also G−1b ein

moglicher Koeffizientenvektor und a−b′G′−1h die zugehorige additive Konstante.

Die Determinationskoeffizienten der beiden Regressionen sind gleich, ebenso die

Fehler. ¤

Es soll noch einmal hervorgehoben werden, dass es sich sowohl im Falle der

Transformation auf Seiten des Kriteriums als auch im Falle der auf Seiten der

Pradiktoren im Grunde nicht um wirklich neue Regressionen handelt, sondern

nur um eine Umrechnungen der alten Regression auf die neuen Situationen.

Als ein Beispiel soll die Standardisierung dienen. Hier geht es darum, wie eine

neue Regression aussieht, wenn man alle Variablen durch ihre z-Transformierten

ersetzt.

Fur derartige Situationen ist es sinnvoll eine neue Notation einzufuhren. Es durfte

hier nichts schaden, wenn man auf theoretischer Ebene und auf empirischer Ebene

die gleiche Symbolik verwendet, weshalb nun immer von Variablen die Rede sein

soll.

Page 19: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 19

Ist zunachst x eine p-dimensionale Variable, so soll die (p×p)-Diagonalmatrix, de-

ren Diagonalelemente die Varianzen von x sind, hier kurz Vx heißen. Die Matrix,

die entsprechend statt der Varianzen die Streuungen enthalt, soll die Bezeichnung

V1/2x bekommen; diese Bezeichnung stammt daher, dass diese Matrix ja entsteht,

indem aus allen Diagonalelementen von Vx die Wurzeln gezogen werden. Außer-

dem uberzeugt man sich sofort von der Richtigkeit der Gleichung(V1/2

x

)2= Vx ,

so dass man V1/2x mit Recht als Wurzel von Vx bezeichnen konnte.

Hat die Variable x beispielsweise die Kovarianzmatrix

V(x) =

25 12 2

12 9 3

2 3 4

,

so ergibt sich

Vx =

25 0 0

0 9 0

0 0 4

und V1/2

x =

5 0 0

0 3 0

0 0 2

.

Sind alle Streuungen von Null verschieden, so soll analog mit V−1/2x die Diago-

nalmatrix bezeichnet werden, die in der Diagonale die Kehrwerte der Streuungen

enthalt. Im Beispiel ist dann

V−1/2x =

1/5 0 0

0 1/3 0

0 0 1/2

.

Man uberzeugt sich im Beispiel und allgemein leicht davon, dass dann(V1/2

x

)−1= V−1/2

x und(V−1/2

x

)2= V−1

x

gilt, was den aus dem Eindimensionalen bekannten Potenzregeln entspricht. Die

Bezeichnungen erweisen sich in dieser Hinsicht also als gerechtfertigt.

Fuhrt man nun mit allen in x zusammengefassten Variablen eine z-Transformation

durch und fasst die Ergebnisse zu einem Vektor z zusammen, so kann man die-

se Operation folgendermaßen schreiben (hier als Beispiel auf der theoretischen

Ebene – empirisch geht alles ganz analog):

z = V−1/2x (x− E(x)) = V−1/2

x x−V−1/2x E(x) .

Page 20: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 20

Die Gesamtoperation ist also eine affine Transformation.

Die Kovarianzmatrix von z – und dies ist ja gleichzeitig die Korrelationsmatrix

von x – ist daher gleich

V(z) = V−1/2x V(x)V−1/2

x

(man beachte, dass V−1/2x symmetrisch ist).

Nun soll es darum gehen, bei einer Regression sowohl die Pradiktoren als auch das

Kriterium einer z-Transformation zu unterwerfen. Die ursprungliche Regression

sei y = b′x+a. Die z-transformierten Pradiktoren seien wie eben zu z zusammen-

gefasst, wahrend das z-transformierte Kriterium mit u bezeichnet sei. Ist σy die

Streuung von y, so gilt u = (1/σy)(y−E(y)) = (1/σy)y−(1/σy)E(y), und mit den

Feststellungen 7 und 8 errechnet sich der neue Vektor der Regressionsgewichte zu

(1/σy)(V−1/2x )−1b = (1/σy)V

1/2x b .

Wie man sieht, erhalt man das neue Regressionsgewicht von zj, indem man das

Regressionsgewicht bj von xj mit der Streuung von xj multipliziert und durch die

Streuung von y teilt. Ist σxjdie Streuung von xj, so ist dieses Gewicht also

σxj

σy

bj .

Bekanntlich bezeichnet man diese’standardisierten Gewichte‘ gelegentlich auch

als β-Gewichte.

Der Vektor (1/σy)V1/2x b der Gewichte im standardisierten Fall soll daher hier

auch β genannt werden, seine Komponenten entsprechend βj.

Interessant ist auch, wie die neuen Normalengleichungen aussehen. Ist wieder K

die Kovarianzmatrix von x und k der Vektor der Kovarianzen von x und y, so ist

die Kovarianzmatrix V−1/2x KV

−1/2x von z gleichzeitig die Korrelationsmatrix von

x, und der Vektor der Kovarianzen von z und u errechnet sich zu (1/σy)V−1/2x k

und erweist sich damit gleichzeitig als Vektor der Korrelationen zwischen x und

y.

Bei den neuen Normalengleichungen ist damit die Koeffizientenmatrix die Korre-

lationsmatrix von x, wahrend die rechte Seite der Vektor der Korrelationen von

x und y ist.

Bezeichnet man die Korrelationsmatrix von x mit P (Rho) und den Vektor der

Korrelationen zwischen den Pradiktoren und dem Kriterium mit ρ, so lauten die

Page 21: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 21

standardisierten Normalengleichungen, die jetzt einen Zusammenhang zwischen

den Korrelationen und den β-Gewichten herstellen

Pβ = ρ ,

mit der Umkehrung β = P−1ρ (fur invertierbares P).

Naturlich ist die additive Konstante bei der Regression nach Standardisierung

gleich 0, da ja alle Variablen nun Erwartungswert 0 haben.

Als kleine Anwendung kann nun der Determinationskoeffizient P 2 mit Hilfe von β,

ρ und P ausgedruckt werden. Da sich bei den durchgefuhrten Transformationen

der Determinationskoeffizient nicht andert, ist P 2 gleich dem Determinationsko-

effizienten fur die transformierten Variablen. Da u jedoch standardisiert ist, ist

die relative aufgeklarte Varianz hier gleich der nicht relativierten, und man erhalt

mit den bekannten Formeln insgesamt

P 2 = β′ρ = β′Pβ = ρ′P−1ρ ,

die letzte Gleichheit naturlich nur fur regulares P.

Im empirischen Fall lauten die entsprechenden Gleichungen, wenn R die Korre-

lationsmatrix der Pradiktoren ist und r der Vektor der Korrelationen der Pradik-

toren mit dem Kriterium, und wenn ferner β auch in diesem Fall den Vektor der

standardisierten Gewichte bezeichnet, folgendermaßen:

R2 = β′r = β′Rβ = r′R−1r ,

die letzte Gleichheit nur fur invertierbares R.

Ein Sonderfall ist der von unkorrelierten Pradiktoren. Dann ist die Korrelati-

onsmatrix der Pradiktoren die Einheitsmatrix, und da dies auch die Koeffizien-

tenmatrix der Normalengleichungen fur den standardisierten Fall ist, folgt, dass

die standardisierten Regressionsgewichte gleich den entsprechenden Korrelatio-

nen der einzelnen Pradiktoren mit dem Kriterium sind.

Was die β-Gewichte im empirischen Fall angeht, so ist es ubrigens gleichgultig, ob

die Berechnung mit den Streuungen oder den korrigierten Stichprobenstreuungen

durchgefuhrt wird, da sich die Korrekturfaktoren wegkurzen, so dass das Ergebnis

dasselbe ist.

Zur Interpretation. In diesem Zusammenhang ist vielleicht ein Wort zur Inter-

pretation nicht uberflussig, insbesondere, da gelegentlich Außerungen der Art zu

Page 22: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 22

horen sind, im Gegensatz zu den ursprunglichen Gewichten seien die β-Gewichte

interpretierbar.

Ein solcher Satz ist zunachst solange sinnlos, wie nicht geklart wird, was unter

’Interpretierbarkeit‘ verstanden werden soll. Versteht man dies Wort in einem

anspruchslosen Sinn, so ist der Satz schlicht falsch, wie eine naheliegende In-

terpretation sogleich zeigen wird. Bei einem ambitionierteren Verstandnis des

Wortes’Interpretierbarkeit‘, bei dem kausale Assoziationen mitschwingen wie et-

wa:’Interpretierbarkeit als Maß fur die Große eines Einflusses‘, bei einem solchen

Verstandnis ist der Satz in dieser naiven Form blanker Unsinn. Dies Schicksal

teilt er mit vielen Rezepten fur den Anwender, und es kann nur davor gewarnt

werden, solchen Maximen blindlings zu folgen.

Zunachst folgt aus der Form y = b′x + a sofort, dass sich die Vorhersage um bj

andert, wenn sich xj um 1 andert und alle anderen xk gleich bleiben, womit man

schon eine Interpretation von bj vor sich hat.

Auch diese an sich unmittelbar einleuchtende Aussage soll kurz begrundet werden.

Sind x1 und x2 zwei mogliche Werte von x, die sich nur an der j-ten Stelle um 1

unterscheiden, so gilt x2 = x1 + ej. Die Differenz der Vorhersagen fur x2 und x1

ist dann

(b′x2 + a)− (b′x1 + a) = b′(x2 − x1) = b′ej = bj .

Naturlich gilt entsprechend, dass sich die Vorhersage um c bj andert, wenn sich

xj um c andert und alle anderen xk gleichbleiben.

So richtig die eben gegebene Interpretation von bj ist, so bedenklich ist sie, wenn

sie nicht richtig verstanden wird. Eine Gefahr ist die, die Formulierung etwa in

der Weise misszuverstehen, als wurde sie lauten: Wenn man xj um 1 andert und

alle anderen xk konstant halt, so andert sich die Vorhersage um bj. Man muss

hier nur noch’Vorhersage‘ als so etwas wie

’das von Messfehlern freie y‘ missver-

stehen, um bei einer in keiner Weise zu rechtfertigenden kausalen Interpretation

anzukommen, wo der Koeffizient bj so etwas wie die Große des Einflusses angibt.

Dass eine derartige unreflektierte kausale Interpretation absurd ist, sieht man

beispielsweise daran, dass man aus einer Gruppe irgendwie zusammenhangender

Variablen jede als Kriterium auswahlen kann, also beispielweise auch eine, die von

den anderen auf keinen Fall beeinflusst werden kann, weil sie ihnen beispielsweise

zeitlich vorausgeht. Ein anderes Argument ist das, dass Regressionsgewichte sich

unter Umstanden stark andern konnen, wenn man Pradiktoren weglasst oder

andere Pradiktoren aufnimmt.

Page 23: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 23

Es ist andererseits nicht ausgeschlossen, dass in der einen oder anderen Situation

eine Interpretation mit kausaler Farbung angemessen sein kann.

Dies kann beispielsweise dann so sein, wenn man aus Grunden, die außerhalb

der Statistik liegen, die Uberzeugung hat, dass die Pradiktoren tatsachlich das

Kriterium bewirken. Dies reicht allerdings noch nicht aus, vielmehr muss man

zusatzlich fordern, dass alle Einflusse eine lineare Form haben, also die Form der

Regressionsgleichung. Von einer Begrundung fur solche Annahmen mochte man

erwarten, dass sie reale Mechanismen aufzeigt, die den Rechenoperationen der

Addition und der Multiplikation entsprechen. Außerdem ist zu fordern, dass man

alle wesentlichen Einflussgroßen in den Pradiktoren erfasst hat (Anmerkung: Wo

nur gibt es so schone Situationen?).

Aber selbst wenn man solche Voraussetzungen macht, ist eine Interpretation der

Regressionsgewichte als Indikatoren fur die Große des Einflusses nicht unproble-

matisch, wenn die Pradiktoren sich auch noch untereinander beeinflussen. Dann

wirken die Pradiktoren namlich nicht nur direkt auf das Kriterium, sondern auch

noch indirekt auf dem Umweg uber andere Pradiktoren. Nur der direkte Einfluss

wird dann durch den entsprechenden Regressionskoeffizienten erfasst, weshalb die

genannte Interpretation zweifelhaft ist.

Ein Indiz, dass derartige Einflusse der Pradiktoren untereinander nicht auszu-

schließen sind, sind substantielle Korrelationen der Pradiktoren untereinander.

Dies mag ein Grund sein, weshalb Situationen, in denen die Pradiktoren mehr

als nur unbedeutende Interkorrelationen aufweisen, ziemlich unbeliebt sind (man

spricht hier von’Multikollinearitat‘). Man kann nun versuchen, auch Einflusse

der Pradiktoren untereinander in geeigneten Modellen zu erfassen. Solche Mo-

delle sind beispielsweise Pfadmodelle oder etwas’fortgeschrittener‘ Strukturglei-

chungsmodelle. Leider unterstellt man dort fur die weiteren Einflusse ebenfalls

Linearitat, so dass eine entscheidende Frage bei der Anwendung derartiger Mo-

delle die ist, ob man die jetzt sogar akkumulierten Linearitatsannahmen noch fur

tragbar halt.

Eine andere Situation, in der man an eine kausale Interpretation denken konnte,

ware eine empirische, in der man die Werte der Pradiktoren in systematischer

Weise kontrolliert vorgegeben hat, und nur das Kriterium frei hat sich ergeben

lassen. Allerdings muss man auch dann an eine lineare Form des Einflusses glau-

ben. Außerdem wird man in einer derartigen Situation zur Auswertung der Daten

wohl nicht zur multiplen Regression seine Zuflucht nehmen.

Page 24: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 24

Wenn nun trotz dieser Uberlegungen im Folgenden gelegentlich von’Einflussen‘

der Pradiktoren auf das Kriterium die Rede ist, so geschieht das nur mangels eines

besseren griffigen Ausdrucks. Die Leserin stelle sich entweder eine Situation vor, in

der eine Interpretation mit kausaler Farbung moglich ist, oder verstehe das Wort

ausschließlich im Sinne einer Abkurzung fur die zuerst gegebene Interpretation.

Dass es problematisch ist, die Regressionsgewichte naiv als Indikatoren fur die

Große des Einflusses zu interpretieren, sieht man schon daran, dass sie von den

verwendeten Skalen abhangig sind. Bei einer Regression des sozialen Status auf

mehrere Pradiktorvariablen, unter denen auch die Korpergroße ist, andert sich

das Gewicht der Korpergroße beispielsweise um den Faktor 1/1000, wenn man

von einer Angabe in Meter zu einer in Millimeter ubergeht (dies ist ein einfacher

Fall einer Transformation auf Pradiktorseite).

Es ist also klar, dass eine Interpretation der Gewichte als Indikatoren fur die

Große des Einfluss nur dann sinnvoll ist, wenn die verwendeten Skalen und ihre

Einheiten mit erwahnt werden.

Oft tritt der Wunsch auf, die Wichtigkeit der Pradiktoren fur die Regression zu

vergleichen. Der sich zu diesem Zweck anbietende Vergleich der Regressionsge-

wichte ist, wie die vorangehende Bemerkung zeigt, sicher bestenfalls dann fur ein

solches Ziel tauglich, wenn die Skalen, auf denen die entsprechenden Pradiktoren

gemessen werden, in einem angemessenen Zusammenhang stehen.

Ein solcher Zusammenhang ist sicher dann nicht gegeben, wenn die Skalen nichts

miteinander zu tun haben. Beispielsweise konnte man neben der Korpergroße

zur Vorhersage des sozialen Status auch das Einkommen heranziehen (das man

ja auch – bei einem internationalen Vergleich – in unterschiedlichen Wahrungen

messen kann). Dass hier ein Vergleich der Regressionsgewichte unsinnig ist, leuch-

tet sofort ein.

Auch dann aber, wenn zwei Pradiktoren mit der gleichen Skala gemessen wer-

den, ist ein direkter Vergleich von Regressionsgewichten nicht notwendigerweise

vernunftig, wenn er in vielen Situationen auch angemessen sein mag. Man nehme

als Beispiel eine Regression der Fahigkeit im Weitsprung auf die Korpergroße

und die Lange des großen Zehs (die sicher viel mit der Sprungkraft zu tun hat).

Misst man beide Langen in der gleichen Einheit, so wird dennoch ein Vergleich

der Regressionsgewichte womoglich in die Irre fuhren.

Zur Erlauterung sei angenommen, dass sich fur die Korperlange das Gewicht 10

Page 25: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 25

und fur die Zehlange das Gewicht 30 ergeben habe – beide Langen und ebenso

die Sprungweite seien in Meter gemessen. Eine naive Interpretation ware dann

die, dass der Einfluss der Zehlange 3 mal so groß ist wie die der Korperlange.

Liegen nun aber die Korperlangen normalerweise zwischen 1.5 m und 2 m und

die Zehlangen zwischen 3 cm und 7 cm, also zwischen .03 m und .07 m, so ist die

entsprechende Spannweite in den Vorhersagen bei der Korperlange 10 · (.5 m) =

5 m und bei der Zehlange 30 · (.04 m) = 1.2 m, womit man den Einfluss der

Korperlange als großer werten wurde – gegen den ersten durch die Gewichte

vermittelten Anschein. Die Rechnungen setzen naturlich hier voraus, dass jeweils

nur der eine Pradiktor variiert, wahrend der andere konstant bleibt; dies wirft

auch auf die zweite Einschatzung ein schiefes Licht.

Beispiele wie das gerade behandelte fuhren zu der Idee, die unterschiedlichen

Skalen dadurch vergleichbar zu machen, dass man ihnen als’naturliche‘ Einheit

eine gibt, die ihre statistischen Schwankung widerspiegelt. Am einfachsten ist es,

hierzu mit allen Variablen eine z-Transformation vorzunehmen, was gerade die

im letzten Abschnitt besprochene Standardisierung ist.

Vielleicht ist es nicht uberflussig, die anfangs gegebene Interpretation in Stan-

dardabweichungen umzuschreiben. Ist wieder bj das Gewicht des j-ten Pradiktors

und sind σy und σxjdie Streuungen von y und xj, so fuhrt eine Anderung des

j-ten Pradiktors um σxj(bei gleichbleibenden Werten der anderen Pradiktoren)

zu einer Anderung der Vorhersage um bj σxj= (σxj

/σy) bj σy, also um (σxj/σy) bj

Streuungseinheiten von y. Das oben schon berechnete und gelegentlich mit βj be-

zeichnete standardisierte Regressionsgewicht (σxj/σy) bj gibt also an, um wieviele

Standardabweichungen von y sich die Vorhersage andert, wenn sich xj um eine

Standardabweichung andert und alle anderen Pradiktoren gleich bleiben.

Es mag im ersten Moment so scheinen, als hatte man mit dieser Standardisierung

das Problem des Vergleichs der Bedeutung der Pradiktoren uber die Regressions-

gewichte gelost. Dies mag fur manche Situationen zutreffen, allgemein sind jedoch

drei Einwande zu machen.

Der erste Einwand betrifft die Frage, ob die Standardeinheiten tatsachlich natur-

liche Einheiten sind. Wenn dies nicht der Fall ist, fallen wesentliche Argumente fur

die Standardisierung weg. Ein typisches Beispiel ist eine empirische Situation, in

der die Standardabweichungen der Pradiktoren womoglich weniger die Streuun-

gen in der Population wiederspiegeln als vielmehr die Art der Stichprobenziehung

– beispielsweise dann, wenn nur bestimmte Gruppen, womoglich Extremgruppen

untersucht werden. Da unterschiedliche Prinzipien bei der Stichprobenziehung

Page 26: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 26

dann im Allgemeinen zu unterschiedlichen β-Gewichten fuhren werden, ist ein

Vergleich uber solche Gewichte in vielen Fallen sicher irrefuhrend.

Der zweite Einwand betrifft wieder das Problem der mittelbaren Einflusse auf

dem Umweg uber andere Pradiktoren, die durch die Regressionsgewichte eben

nicht erfasst werden. Ein Hinweis darauf, dass in dieser Hinsicht ein Problem

bestehen konnte, sind bedeutsame Interkorrelationen der Pradiktoren, also die

schon angesprochene Multikollinearitat.

Der dritte Einwand betrifft die Auswahl der Pradiktoren. Wie man sich leicht

an Beispielen klar macht, kann das Weglassen eines Pradiktors oder das Hin-

zufugen eines weiteren Pradiktors eine betrachtliche Anderung der anderen Re-

gressionsgewichte zur Folge haben. Solche Anderungen sind wieder vor allem bei

Multikollinearitat zu erwarten.

Von den drei Einwanden ist nur der erste ein Einwand, der fur die β-Gewichte

spezifisch ist. Die anderen beiden Einwande treffen auch fur Situationen zu, in

denen nicht standardisiert wurde.

Es sollte insgesamt klar geworden sein, dass es, was die Interpretierbarkeit von

Regressionsgewichten angeht, kein Patentrezept gibt oder geben kann, jedenfalls,

wenn man bei der Interpretation ambitioniertere Ziele verfolgt als das, das mit

der eingangs gegebenen Deutung schon erreicht wurde und das sich nur auf den

technischen Aspekt der optimalen’Vorhersage‘ bezieht. Ohne eine genaue Analy-

se der jeweils vorliegenden Situation kann eine weitergehende Interpretation nicht

erfolgen.

Hat man die etwas vage Frage, was eine Variable mit anderen Variablen zu tun

hat, so hat man als Informationen einerseits die Kovarianzen zur Verfugung und

andererseits die Regressionsgewichte, die man erhalt, wenn man die erste Variable

zum Kriterium einer Regression macht und die anderen zu den Pradiktoren. Bei

Standardisierung werden daraus die Korrelationen einerseits und die standardi-

sierten Regressionsgewichte andererseits.

Ist K wieder die Kovarianzmatrix der Pradiktoren, k der Vektor der Kovarianzen

der Pradiktoren mit dem Kriterium und b der Vektor der Regressionsgewichte,

so gilt Kb = k bzw. b = K−1k (wobei hier der Einfachheit halber eine regulare

Kovarianzmatrix vorausgesetzt sei). Entsprechende Gleichungen gelten fur Kor-

relationen und standardisierte Regressionsgewichte – man muss nur Matrix und

Vektor der Kovarianzen durch Matrix und Vektor der Korrelationen ersetzen und

Page 27: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 27

den Vektor der Regressionsgewichte durch den der standardisierten Regressions-

gewichte.

Fur das wohl praktisch wichtigste Beispiel der standardisierten Regressionsge-

wichte und Korrelationen im empirischen Fall sollen die Gleichungen eigens auf-

geschrieben werden: Wenn R die Korrelationsmatrix der Pradiktoren ist, r der

Vektor der Korrelationen zwischen Pradiktoren und Kriterium und β der Vek-

tor der standardisierten Regressionsgewichte, so gelten (wieder bei invertierbarer

Korrelationsmatrix) die Beziehungen

Rβ = r beziehungsweise β = R−1r .

An Beispielen sieht man leicht, dass dann oft das, was man aus b (bzw. β) her-

auslesen mochte, nicht mit dem harmoniert, was zu k (bzw. r) passt. Es kann

beispielsweise sein, dass ein Pradiktor mit dem Kriterium eine positive Korrelati-

on hat, wahrend das Regessionsgewicht negativ ist. Hat man nun einen positiven

oder einen negativen Zusammenhang? Ebenso kann die eine dieser Zahlen Null

sein, wahrend die andere deutlich von Null verschieden ist. Derartige dem hoff-

nungsvollen Interpreten argerliche Phanomene treten besonders stark bei deutli-

cher Multikollinearitat auf.

Erinnert man sich an das Prinzip der multiplen Regression, so wird das Problem

in vielen Fallen sofort verschwinden. Das Ziel der Regression ist es ja nicht, Zu-

sammenhange aufzudecken, schon gar keine kausalen, sondern nur eine optimale

’Vorhersage‘ zu machen (man meide auch bei diesem Wort falsche Assoziationen).

Es besteht damit gar kein Anlass, b im Sinne eines Zusammenhangs interpretie-

ren zu wollen.

Es gibt aber auch Falle, in denen Anwender – hoffentlich auf Grund nichtstatisti-

scher Argumente – daran glauben, dass eine linear-kausale Struktur vorliegt, die

sie dann hoffen mit Hilfe der Regression aufdecken zu konnen. Solche Anwender

werden naturlich, wenn ihr Glaube fest ist, nur den Regressionsgewichten trauen

und die Korrelationen als oberfachlichen Schein abtun. Auch hier tritt das Pro-

blem der Interpretationen nicht harmonierender Gewichte und Korrelationen also

gar nicht auf.

Bedauernswert ist nur der Anwender, der hin- und herschwankt und sich nicht

entscheiden kann, ob er nun die Regressionsgewichte in einem kausalen Sinn in-

terpretieren will oder nicht. Ihm kann man nur raten, sich zunachst grundlich mit

den inhaltlichen Gegebenheiten auseinanderzusetzen – die Statistik kann ihm da-

Page 28: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 28

bei leider nicht weiter helfen. Merkwurdigerweise erwarten manche Anwender an

solchen Stellen von der Statistik Wunderdinge, beispielsweise die Erlaubnis, sich

eigenes Nachdenken zu ersparen. Solche unrealistischen Erwartungen durften in

vielen Fallen aus einem vollig unzulanglichen statistischen Verstandnis resultie-

ren.

Schließlich ist bei der Gegenuberstellung von Korrelationen und Regressionsge-

wichten noch daran zu erinnern, dass auch Korrelationen Zusammenhange nur

insoweit erfassen, als sie linear sind, und dass naturlich auch Korrelation mit

Kausalitat im allgemeinen Fall nichts zu tun hat.

Residuen und Partialkorrelationen. Haufig interessiert man sich nicht nur

fur das, was man durch eine Regression vorhersagen kann, sondern auch fur den

Fehler, der ubrigbleibt. Bei der Deutung dieses Residuums trifft man oft auf

Vorstellungen der Art, dass es das sei, was ubrig bleibt, wenn man das Kriterium

um den Einfluss der Pradiktoren’bereinigt‘ habe.

Wieweit Assoziationen, die derartig blumige Sprechweisen hervorrufen, gerecht-

fertigt sind, bleibt einer Prufung im Einzelfall vorbehalten. Hier sollen einige

Konzepte und Notationen, die von solchen Ideen motiviert sind, vorgestellt wer-

den.

Will man verdeutlichen, welche Variablen zur Regression herangezogen wurden,

so fugt man sie meist nach einem Punkt an. Im Falle einer Regression von y auf

x, das aus x1, . . . , xp zusammengesetzt ist, schreibt man beispielsweise fur die

Schatzfehlervarianz, also die Varianz des Residuums

σ2y.x1,...,xp

oder kurz σ2y.x .

Die Streuung wird entsprechend mit σy.x1,...,xp oder σy.x bezeichnet. Im empiri-

schen Fall schreibt man entsprechend S2y.x1,...,xp

etc..

Ist P 2 (zur Erinnerung: Rho) der Determinationskoeffizient, so gilt also

σ2y.x = σ2

y(1− P 2) ,

wobei fur die Varianz von y hier die gut in den Kontext passende Bezeichnung

σ2y verwendet wird. Die entsprechende Formel fur den empirischen Fall ist S2

y.x =

S2y(1−R2).

Auch beim Determinationskoeffizienten mochte man Kriterium und Pradiktoren

oft kenntlich machen; man schreibt dann statt eines einfachen P 2 etwas ausfuhrli-

cher P 2y,x, und analog im empirischen Fall R2

y,x.

Page 29: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 29

Oft tritt die Situation auf, dass man fur zwei Variablen x und y Regressionen auf

dieselben Pradiktoren z durchfuhrt (die Anderung der Benennung geschieht im

Hinblick auf die weitgehend ublichen Bezeichnungen in der gleich herzuleitenden

Formel). Die Korrelation der beiden Residuen nennt man dann auch Partialkorre-

lation und kurzt sie mit ρxy.z ab (empirisch: rxy.z). Man spricht dann auch davon,

dass man z auspartialisiert.

Zur Herleitung einer Formel fur die Partialkorrelation mussen zunachst einige Be-

zeichnungen eingefuhrt werden. Die Kovarianzmatrix V(z) der Pradiktoren soll

wieder K heißen und die zugehorige Korrelationsmatrix P (Rho); die Diagonal-

matrix der Varianzen von z soll hier kurz V (statt Vz) genannt werden. Da jetzt

zwei Regressionen durchgefuhrt werden, sollen die fur die einzelnen Regressionen

ublichen Bezeichnungen mit der jeweiligen Kriteriumsvariable indiziert werden.

Der Vektor der Kovarianzen von x mit den Pradiktoren soll also kx genannt

werden, der Vektor der entsprechenden Korrelationen ρx und die Vektoren der

Regressionsgewichte bx und βx. Fur die Regression von y auf z gelten analoge

Bezeichnungen mit dem Index y.

Zunachst wird nun die Kovarianz zwischen den Residuen bestimmt. Bis auf die

unwesentlichen Konstanten sind diese Residuen gleich

x− b′x z und y − b′y z .

Die Kovarianz errechnet sich dann zu

C(x− b′x z, y − b′y z) = C(x, y)− b′xC(z, y)− C(x, z)by + b′xC(z, z)by .

Hier ist C(x, y) = Kov(x, y), C(z, z) = K, C(z, y) = ky und C(x, z) = k′x. Setzt

man dies ein, so erhalt man fur b′xC(z, y) den Wert b′xky = b′xKby, was mit

dem letzten Summanden ubereinstimmt. Fur C(x, z)by erhalt man mit k′xby =

(Kbx)′y = b′xKby den gleichen Wert, so dass man unter Berucksichtigung der

Vorzeichen als Kovarianz der Residuen insgesamt den Wert

Kov(x, y)− b′xKby

bekommt.

Fur die Varianzen der Residuen hatten sich oben als mogliche Formeln beispiels-

weise V(x) − b′xKbx und V(y) − b′yKby ergeben. Wie man sieht, ist die gerade

hergeleitete Formel fur die Kovarianz diesen Formeln strukturell sehr ahnlich, was

naturlich nicht verwunderlich ist, da ja die Varianz einer Variable ihre Kovarianz

mit sich selber ist.

Page 30: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 30

Die gesuchte Partialkorrelation errechnet sich nun als Quotient der Kovarianz

und des Produkts der Streuungen zu

ρxy.z =Kov(x, y)− b′xKby√

V(x)− b′xKbx

√V(y)− b′yKby

.

In diesem Ausdruck kann man noch eine der Ersetzungen

b′xKby = b′xky = k′xby = k′xK−1ky

vornehmen (die letzte nur, wenn K invertierbar ist), und analog kann man fur

die Terme b′xKbx und b′yKby im Nenner verfahren.

In den bisherigen Formeln wird mit Kovarianzen gerechnet. Manchmal mochte

man statt dessen jedoch Formeln mit Korrelationen haben. Solche Formeln ge-

winnt man beispielsweise durch einfache Umformungen.

Einfacher ist es jedoch, sich klar zu machen, dass sich die Partialkorrelation nicht

andert, wenn man alle Variablen einzeln linear transformiert, wobei die Faktoren

der Transformationen allerdings positiv sein mussen. Solche Transformationen

bei den Pradiktorvariablen z fuhren ja keine Veranderung der Vorhersage herbei

(weshalb man hier auch multivariat affin transformieren konnte), wahrend sich die

Vorhersagen x und y (abgesehen von den unwesentlichen additiven Konstanten)

mit dem jeweils gleichen Faktor andern wie die Kriteriumsvariablen x und y

selber. Hieraus folgt, dass sich auch die Residuen um diesen jeweiligen Faktor

andern. Bekanntlich andert sich nun aber die Korrelation von zwei Variablen –

hier der Residuen – nicht, wenn man beide Variablen linear transformiert, falls

die Faktoren positiv sind.

Insgesamt folgt so, dass die Partialkorrelation der Variablen x und y bei aus-

partialisiertem z gleich bleibt, wenn man alle diese Variablen z-transformiert.

Man kann also in der gewonnenen Formel alle Varianzen, Kovarianzen und Re-

gressionsgewichte durch die Varianzen, Kovarianzen und Regressionsgewichte der

z-transformierten Variablen ersetzen. Dabei sind jedoch die Varianzen der z-

transformierten Variablen 1, wahrend ihre Kovarianzen gleichzeitig die Korre-

lationen der ursprunglichen Variablen sind und die Regressionsgewichte die β-

Gewichte. Insgesamt erhalt man so die Formel

ρxy.z =ρxy − β′xPβy√

1− β′xPβx

√1− β′yPβy

,

Page 31: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 31

in der man analog wieder Ersetzungen

β′xPβy = β′xρy = ρ′xβy = ρ′xP−1ρy

etc. vornehmen mag. Eine Alternativformel, in der auch noch berucksichtigt ist,

dass β′xPβx gerade der Determinationskoeffizient P 2x,z bei der Regression von x

auf z ist und analog fur y, ist also beispielsweise

ρxy.z =ρxy − β′xρy√

1− P 2x,z

√1− P 2

y,z

.

Bei Berucksichtigung der Tatsache, dass bei einer einfachen linearen Regressionen

das β-Gewicht mit der Korrelation ubereinstimmt, erhalt man als Spezialfall fur

eine auszupartialisierende Variable z die bekannte Formel

ρxy.z =ρxy − ρxz ρyz√

1− ρ2xz

√1− ρ2

yz

.

Ein wichtiger Punkt ist nun wieder die Interpretation der Partialkorrelation. Hier

gibt es Sprechweisen wie die, dass die Partialkorrelation die um den Einfluss der

Drittvariable(n) bereinigte Korrelation ist.

Als Beispiel sollen hier die Schulleistungen in zwei Fachern dienen, die sicher

auch etwas mit dem Alter zu tun haben. Korreliert man die Leistungen uber alle

Altersgruppen hinweg, so sollte sich eine deutlich positive Korrelation einstellen,

die jedoch womoglich dadurch hervorgerufen ist, dass altere Kinder in beiden

Fachern deutlich bessere Leistungen zeigen als jungere. Die hohe Korrelation ist

daher vielleicht wesentlich den Altersunterschieden zu danken, so dass der Wunsch

verstandlich wird, den Einfluss des Alters auszuschalten, um so zum’eigentlichen‘

korrelativen Zusammenhang zwischen den beiden Leistungen vorzudringen. Die

Erfullung dieses Wunsches erhofft man sich oft von der Partialkorrelation – zu

Recht? Die gerade genannte Formulierung ist jedenfalls viel versprechend.

Bei dieser Formulierung liegt die Assoziation nahe, dass es sich bei der Partial-

korrelation um die Korrelation handelt, die bestehen wurde, wenn der Einfluss

der Drittvariable ausgeschaltet wird, also beispielsweise um die Korrelation bei

Konstanthaltung der Drittvariable. Es ist klar, dass solche Interpretationen durch

die Konstruktion in keiner Weise gedeckt sind, und es kann nur davor gewarnt

werden, derartige Formulierungen gedankenlos zu ubernehmen.

Page 32: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 32

Die Formulierung, die Partialkorrelation sei die Korrelation bei Konstanthaltung

der Drittvariablen, ist immerhin noch so prazise, dass man sie daraufhin unter-

suchen kann, ob – oder unter welchen Bedingungen – sie richtig ist. Daher soll

kurz genauer auf sie eingegangen werden.

Von der Korrelation von x und y bei konstant gehaltenen Drittvariablen z kann

man zunachst nur dann sprechen, wenn die Korrelation von x und y immer die-

selbe ist, egal, welche Werte die Drittvariablen z annehmen. Davor ist allerdings

noch zu klaren, was die Korrelation von x und y bei einem fixierten Wert von z

uberhaupt sein soll.

Dies beruhrt das Thema der bedingten Verteilungen, dessen Behandlung im all-

gemeinen Fall, in dem die Drittvariablen auch stetig sein konnen, wegen der

benotigten mathematischen Hilfsmittel hier nicht einmal im Ansatz moglich ist.

In dem Fall hingegen, in dem die Drittvariablen diskret sind, also beispielsweise in

dem, in dem sie nur endlich viele Werte annehmen konnen, sollte die Bestimmung

bedingter Wahrscheinlichkeiten unter der Bedingung, dass z einen bestimmten

Wert annimmt, bekannt sein; die bedingten Verteilungen sind dann nur die Zu-

sammenfassungen dieser bedingten Wahrscheinlichkeiten zu einem (bedingten)

Wahrscheinlichkeitsmaß. Auf Grund jeder dieser Verteilungen kann dann eine (be-

dingte) Korrelation bestimmt werden. Den allgemeinen Fall mit moglicherweise

stetigen Variablen mag man sich analog vorstellen.

Im Beispiel der Leistungen und des Alters konnte man beispielsweise das Alter in

diskreten Schritten angeben, also beispielsweise nur in vollen Jahren, und hatte

dann in jeder Altersgruppe eine gemeinsame Verteilung der beiden Leistungsva-

riablen und damit auch eine Korrelation. Offenbar kann es jetzt nur dann sinnvoll

sein, von der Korrelation bei konstant gehaltenem Alter zu sprechen, wenn alle

diese Korrelationen ubereinstimmen.

Setzt man voraus, dass alle bedingten Korrelationen gleich groß sind, so dass die

untersuchte Formulierung sinnvoll ist, so bleibt die Frage, ob man diese Korrela-

tion mit der Technik der Partialkorrelation ermitteln kann, ob also beispielsweise

die Partialkorrelation der Schulleistungen bei auspartialisiertem Alter mit den in

allen Altersgruppen gleichen bedingten Korrelationen ubereinstimmt.

Leider ist die Antwort auf diese Frage im allgemeinen Fall negativ. Da die Bildung

der Residuen auf der Regression beruht, und diese einen linearen Zusammenhang

unterstellt, kann man nun auf die Idee kommen, dass die Antwort dann positiv

ausfallt, wenn die bedingten Erwartungswerte von x und y in linearer Weise von z

Page 33: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 33

abhangen. Im Beispiel wurde das bedeuten, dass die Erwartungswerte der beiden

Leistungsvariablen lineare Funktionen des Alters sind.

Auch diese Voraussetzung reicht jedoch noch nicht aus, um die Gleichheit der be-

dingten Korrelationen mit der Partialkorrelation zu gewahrleisten. Eine positive

Antwort erhalt man beispielsweise dann, wenn man zusatzlich die Gleichheit der

bedingten Varianzen fordert. Im Beispiel mussten also die Varianzen jeder der

beiden Leistungen in allen Altersgruppen gleich groß sein.

Wie man nun sieht, ist die Interpretation der Partialkorrelation als Korrelation

bei konstant gehaltenen Drittvariablen nicht notwendigerweise falsch, jedoch an

die Erfullung vieler Voraussetzungen gebunden.

Wenn solche Formulierungen oft ohne irgendeine Reflexion der Voraussetzungen

bei der Interpretation der Partialkorrelation in konkreten Situationen gedankenlos

nachgeplappert werden, so mag das auch daran liegen, dass sich die Partialkorre-

lation im allgemeinen Fall einer Deutung, die uber die technische Beschreibung

hinausgeht, verschließt. Allerdings sollte man in einem Fall, in dem man einen

Kennwert nicht vernunftig interpretieren kann, vielleicht besser auf diesen Kenn-

wert uberhaupt verzichten.

Kovarianztreue Darstellung. In diesem Abschnitt sollen die bisher besproche-

nen Sachverhalte mit Hilfe kovarianztreuer Darstellungen veranschaulicht wer-

den. Zunachst soll als Motivation kurz die einfache lineare Regression mit einem

Pradiktor x und dem Kriterium y illustriert werden.

Hier findet man immer eine zweidimensionale kovarianztreue Darstellung durch

Vektoren x und y (man muss ja nur x und y durch Vektoren x und y darstellen,

deren Langen gleich den Streuungen der Variablen sind und dıe einen Winkel

einschließen, dessen Kosinus die Korrelation zwischen x und y ist).

.......................................................................................................................................................................................................................................

.............................................................................................................................................................................................................................................................................................. ...................x

y

Bezeichnet man die optimale Vorhersage mit y = b x+a und den Fehler mit e, so

gilt e = y− y. Die Vorhersage und der Fehler werden also durch Vektoren y und e

dargestellt, fur die y = bx und e = y− y gilt. Die Vorhersage wird insbesondere

Page 34: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 34

durch einen Vektor reprasentiert, der auf der durch x bestimmten Gerade liegt,

und der Fehler durch die Verbindung dieses Vektors zu y. Nutzt man nun aus,

dass die Fehlerstreuung bei der Regression zu minimieren ist, so muss y der

Vektor auf der durch x bestimmten Gerade sein, der von y minimalen Abstand

hat, mit anderen Worten muss seine Spitze gerade im Fußpunkt des Lotes von y

auf die Gerade liegen. Der Fehler selber steht damit senkrecht auf dieser Gerade.

Die Situation muss in der kovarianztreuen Darstellung also so aussehen, wie es die

folgende Abbildung veranschaulicht. Der Fehlervektor ist dabei so eingezeichnet,

dass die Vektoraddition y = y + e unmittelbar deutlich wird:

.............................................................................................................................................................................................................................................................................................. ..........................................................................................................................................................................................................................................................

..................

...................

...................

...................

...................

..................

...................

...................

.................................................

.............................................................................................................................. ...................x

y e

y......................................

......................................................

Vorhersage

Residuum

Eine Alternativdarstellung, die den Fehlervektor an der Stelle einzeichnet, wo er

hingehort, ist die folgende, die vielleicht etwas deutlicher macht, dass y in zwei

unkorrelierte Anteile zerlegt wird.

.............................................................................................................................................................................................................................................................................................. ..........................................................................................................................................................................................................................................................

...................

..................

...................

...................

...................

...................

..................

...................

.................................................

.............................................................................................................................. ...................

............. ............. ............. ............. ...........................................................................................

x

ye

y......................................

......................................................

Vorhersage

Residuum

In diesen Abbildungen kann man die Streuungen des Fehlers und der Vorher-

sage nun auch graphisch dadurch ermitteln, dass man die Langen von e und y

ausmisst.

Die Varianzzerlegung

V(y) = V(y) + V(e)

schreibt sich, ubersetzt in die kovarianztreuen Darstellung, als

‖y‖2 = ‖ y‖2 + ‖e‖2 ,

Page 35: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 35

was gerade ein Beispiel fur den Satz des Pythagoras ist.

Da y gerade das b-fache von x ist, kann man auch b graphisch ermitteln, indem

man in einer kovarianztreuen Darstellung von x und y das Lot von y auf die

durch x gegebene Gerade fallt und den Faktor b dann uber das Verhaltnis der

Langen des zum Fußpunkt gehorenden Vektors y und des Vektors x bestimmt

– falls die Vektoren in entgegengesetzte Richtungen weisen, ist noch ein negati-

ves Vorzeichen hinzuzufugen. Anders gesagt kann man b ablesen, wenn man auf

der durch x gegebenen Achse eine Skala einfuhrt, die ihren Nullpunkt in 0 hat

und die Einheit in der Spitze von x. Noch anders ausgedruckt fuhrt man das

Koordinatensystem zur Basis x des Erzeugnisses von x ein.

Nach diesem Einleitungsbeispiel soll nun die multiple Regression behandelt wer-

den. Es zeigt sich, dass man das Regressionsproblem in ein geometrisches Pro-

blem umformulieren und dann auch losen kann, was eine Alternative zu der oben

gewahlten Zugangsweise bietet (allerdings lassen sich die beiden Argumentatio-

nen ziemlich direkt ineinander ubersetzen, so dass man eher davon reden sollte,

dass man dieselbe Losung unter zwei Aspekten betrachtet).

Im Allgemeinen soll vorausgesetzt werden, dass die Kovarianzmatrix der Pradik-

toren regular ist, was bekanntlich aquivalent dazu ist, dass die Vektoren, die

in einer kovarianztreuen Darstellung die Pradiktoren reprasentieren, linear un-

abhangig sind.

Nachdem man wie oben das Teilproblem der Konstanten a abgespaltet hat, bleibt

die Aufgabe zu losen, die Koeffizienten bj einer Linearkombination y =∑

bjxj +a

der Pradiktoren zu finden, fur die der Fehler e = y− y minimale Varianz besitzt.

In geometrischer Sicht ubersetzt sich dieses statistische Problem in das Problem,

eine y entsprechende Linearkombination y =∑

bjxj der die Pradiktoren re-

prasentierenden Vektoren xj zu finden, die von dem das Kriterium reprasen-

tierenden Vektor y minimalen Abstand hat. Fur jede zur Vorherage verwendete

Linearkombination y der xj wird ja der Fehler durch den Verbindungsvektor

e = y− y von y zu y reprasentiert, wobei die Varianz des Fehlers die quadrierte

Lange des Vektors e ist, also gerade das Quadrat des Abstandes.

Die Linearkombinationen der xj bilden insgesamt einen Unterraum U , namlich

das Erzeugnis der xj. Gesucht ist also ein Punkt y dieses Unterraums, der von y

minimalen Abstand hat. Geometrisch wird dieses Problem dadurch gelost, dass

man y orthogonal auf U projiziert, oder anders gesagt das Lot von y auf U fallt,

Page 36: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 36

um y als den Lotfußpunkt y zu ermitteln.

Die folgende Zeichnung illustriert dies fur den Fall von zwei Pradiktoren x1 und

x2, die durch Vektoren x1 und x2 reprasentiert werden.

x1

x2

y

y

e

U..................................................................................................................................................................................................................................................................................................................................................................................

........................................................................................................

........................................................................................................

........................................................................................................

........................................................................................................

...........................

.........................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........................................

........................................

........................................

........................................

........................................

....................................

........................................

............................

..............................................................................................................................................................................................................................................................................................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

........................

......................................................................

......................................................................

......................................................................

......................................................................

...........................................................................................

................................................................................................... ...................

..............................................................................................................................

................................... .................................................................................................................................................................................................................................................................................................................................. ................... ..............

..................

...................

..................

..................

..................

...................

..................

..................

..................

........................................................

.............................

........

........

........

........

Regressionsgewichte sind die Koeffizienten von y bei einer Darstellung als Linear-

kombination der xj. Falls die xj linear unabhangig sind, sind diese Koeffizienten

eindeutig bestimmt und konnen als Koordinaten von y in dem Koordinatensy-

stem ermittelt werden, das durch die xj auf U etabliert wird. In der Abbildung

sind die Hilfslinien zum Ablesen der Regressionsgewichte schon mit eingezeichnet.

Der Fall, dass die xj linear unabhangig sind, sollte der Normalfall sein; bekannt-

lich ist diese Bedingung gleichbedeutend dazu, dass die Kovarianzmatrix der

Pradiktorvariablen xj regular ist.

In dem anderen Fall der linearen Abhangigkeit der xj (also eines Rangdefekts der

Kovarianzmatrix) kann jeder Punkt des Unterraums auf vielfache Art als Linear-

kombination der xj geschrieben werden – die Regressionsgewichte sind dann also

nicht eindeutig. Immerhin ist jedoch y als orthogonale Projektion von y eindeu-

tig bestimmt, so dass die verschiedenen Linearkombinationen immer zur gleichen

Variable fuhren (jedenfalls f.s.). Die Uneindeutigkeit bezieht sich damit nicht auf

die Vorhersage, sondern nur auf ihre spezielle Darstellung.

Man kann ubrigens auch die Normalengleichungen geometrisch motivieren, was

nun kurz skizziert werden soll. Die Vektoren xj seien dazu die Spalten einer

Matrix X. Der Reprasentant einer Vorhersage mit b als Koeffizientenvektor ist

dann Xb und der Vektor, der den zugehorigen Fehler reprasentiert ist e = y−Xb.

Die Forderung, dass e zu U senkrecht ist, ist gleichbedeutend dazu, dass die

Skalarprodukte der xj mit e alle 0 sind, dass also X′e = 0 gilt. Durch Einsetzen

erhalt man X′(y −Xb) = 0 oder umgeformt

X′Xb = X′y ,

Page 37: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 37

worin man die bekannten Normalengleichungen erkennt, denn wegen den Eigen-

schaften einer kovarianztreuen Darstellung ist ja X′X als Matrix der Skalarpro-

dukte der xj gleichzeitig die Matrix der Kovarianzen der xj, also die Kovarianz-

matrix der Pradiktoren, und entsprechend X′y der Vektor der Kovarianzen der

Pradiktoren mit dem Kriterium.

Die Normalengleichungen drucken also tatsachlich gerade aus, dass der Fehlerre-

prasentant e senkrecht auf U steht (was statistisch die Unkorreliertheit des Fehlers

mit den Pradiktoren bedeutet), womit nun auch die die Bezeichnung’Normalen-

gleichungen‘ gerechtfertigt ist (man erinnert sich, dass’normal‘ gelegentlich auch

’senkrecht‘ bedeutet).

Es folgt nun ein Beispiel fur den Fall von zwei Pradiktoren. Die Kovarianzmatrix

von x1, x2 und y sei

4 −2 6

−2 9 5

6 5 25

,

die Erwartungswerte sind uninteressant, da es ja nur um die Regressionsgewichte

gehen soll. Die Regressionsgewichte errechnen sich aus den Normalengleichungen

leicht zu b1 = 2 und b2 = 1.

Fur eine dreidimensionale kovarianztreue Darstellung kann man zunachst die Kor-

relationsmatrix ermitteln; es ergibt sich hier

1 −2/6 3/5

−2/6 1 1/3

3/5 1/3 1

.

Eine Umrechnung der Korrelationen in Winkel liefert die Winkel 109.5◦, 53.1◦

und 70.5◦, so dass man die kovarianztreue Darstellung erhalt, wenn man drei

Vektoren der Langen 2, 3 und 5 mit den entsprechenden gerade berechneten

Winkeln zusammenfugt. Das Ergebnis seien die Vektoren x1, x2 und y.

Diese Situation ist genau die, die oben schon zur Illustration benutzt wurde;

hier folgt noch einmal die entsprechende Abbildung, die die Vektoren x1, x2 und

y zeigt, außerdem y und e und die Hilfslinien zum Ablesen der Regressionsge-

wichte als Koordinaten; man erahnt auch, dass die Koordinaten mit den gerade

berechneten Werten b1 = 2 und b2 = 1 ubereinstimmen.

Page 38: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 38

x1

x2

y

y

e

U..................................................................................................................................................................................................................................................................................................................................................................................

........................................................................................................

........................................................................................................

........................................................................................................

........................................................................................................

...........................

.........................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........................................

........................................

........................................

........................................

........................................

....................................

........................................

............................

..............................................................................................................................................................................................................................................................................................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

........................

......................................................................

......................................................................

......................................................................

......................................................................

...........................................................................................

................................................................................................... ...................

..............................................................................................................................

................................... .................................................................................................................................................................................................................................................................................................................................. ................... ..............

..................

..................

...................

..................

..................

..................

...................

..................

..................

........................................................

.............................

........

........

........

........

In dieser Abbildung erkennt man auch wieder die Tatsache, dass die Varianz-

zerlegung V(y) = V(y) + V(e) geometrisch gerade ein Beispiel fur den Satz des

Pythagoras ist, da ja y und e orthogonal sind, und da die Varianzen der Variablen

gleich den quadrierten Langen der zugehorigen Vektoren sind.

Zur geometrischen Veranschaulichung von weiteren Konzepten und Eigenheiten

der multiplen Regression ist es sinnvoll, eine zweidimensionale Darstellung der

Ebene U zu verwenden.

Die folgende Abbildung zeigt daher diese x1-x2-Ebene mit dem projizierten Vek-

tor y und den Linien zum Ablesen der Regressionsgewichte. Diese Linien sind

naturlich die Koordinatenlinien in dem Koordinatensystem, dessen Achsen und

Einheiten durch x1 und x2 gegeben sind. Neben der Abbildung findet sich auch

ein Maßstab.

.................................................................................................................................................................. ...................x1

............................................................................................................................................................................................................................................................

x2

............................................................................................................................................................................................................................................................................................................................................y

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.........................................................................................................................................................................................................................................................................................................................................................................................................

......................................................................................................................................................................................................................

.............................................................................................................................................................................................................................................................................................

...........................................................................................................................................................................................................................................................................................................................

.............................

.............................

...........................................

...........................................

...........................................

In dieser Zeichnung kann man nun die Regressionsgewichte direkt ablesen. Offen-

bar stimmt das Ergebnis mit dem oben schon zur Kontrolle berechneten uberein.

Außerdem kann man die Streuung von y als Lange von y ermitteln.

Bei der graphischen Ermittlung der Regressionsgewichte wurden als Einheiten

die Langen von x1 und x2 benutzt; in Bezug auf diese Einheiten wurden auf den

Page 39: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 39

Achsen die Strecken vom Nullpunkt bis zu den Schnittpunkten mit den Hilfslini-

en gemessen. Interessanterweise haben aber auch die mit dem Originalmaßstab

gemessenen Langen dieser Strecken eine Bedeutung: Dividiert man sie namlich

noch durch ‖y‖ = σy, so erhalt man gerade die sogenannten β-Gewichte.

Die Langen der Strecken in der absoluten Einheit erhalt man ja gerade, indem

man die Vergroßerungsfaktoren bj mit den Langen der Vektoren xj multipliziert.

Wegen ‖xj‖ = σxjerhalt man als Ergebnis

bjσxj= (σxj

/σy) bjσy = βjσy ,

was in der Tat das mit ‖y‖ = σy multiplizierte β-Gewicht ist.

Bis auf den gemeinsamen Faktor σy kann man in der Zeichnung also auch unmit-

telbar die β-Gewichte ablesen.

Konkret ergeben sich fur die β-Gewichte mit Berucksichtigung von σy = 5 hier

durch Ablesen die Werte β1 = 4/5 = .4 und β2 = 3/5 = .6, deren Richtigkeit

man durch eine Kontrollrechnung unmittelbar bestatigt.

Man kann in der letzten Zeichnung auch die Lote von y auf die Achsen fallen und

aus den Fußpunkten weitere wichtige Kennwerte ermitteln. In der nachsten Dar-

stellung sind neben diesen Loten zum Vergleich auch die Koordinatenhilfslinien

schwach mit eingezeichnet.

.................................................................................................................................................................. ...................x1

............................................................................................................................................................................................................................................................

x2

............................................................................................................................................................................................................................................................................................................................................

y

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.............................................................................................................................................................................................................................................................................................................................

..........................................................................................................................................................................................................

.............................................................................................................................................................................................................................................................................

...........................................

.........................................................

...........................................................................................................................................................................................................................................................................................................................

.............................

.............................

...........................................

...........................................

...........................................

Zunachst soll jetzt genauer angegeben werden, was man aus dieser Graphik ent-

nehmen kann; die Begrundungen dafur folgen spater.

Die Vektoren, deren Spitzen die Lotfußpunkte sind, sind die Reprasentanten

der Vorhersagen von y mit einfachen linearen Regressionen auf die jeweiligen

Pradiktoren. Sie sollen daher y1 und y2 heißen.

In relativen Einheiten der Achsen liest man an den Lotfußpunkten die Gewichte

Page 40: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 40

bei einfachen linearen Regressionen ab; es ergeben sich hier die Werte 1.5 fur den

Pradiktor x1 und .55 fur den Pradiktor x2; dies sind auch die Werte, die man mit

der Formel Kov(xj, y)/V(y) zur Kontrolle leicht ausrechnet.

In absoluten Einheiten erhalt man hingegen bis auf den Faktor σy die β-Gewichte

fur die einfachen Regressionen, die ja im Falle eines Pradiktors mit den Korre-

lationen ubereinstimmen. Hier ergeben sich die Werte 3/5 = .6 fur ρx1y und

1.66/5 = .33 fur ρx2y, ebenfalls in Ubereinstimmung mit der Kontrollrechnung.

Zur weiteren Verdeutlichung der geschilderten Sachverhalte sind in der nachsten

Abbildung die auf diese Weise mit dem absoluten Maßstab (rechts) gemessenen

Kenngroßen noch einmal hervorgehoben.

............................................................................................................................................................................................................................................................................................................................................

y

......................................................................................................................................................................................................................................... ...................y1....................

.........................................................................................................................................

y2

............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

..........................................................................................................................................................................................................

.............................................................................................................................................................................................................................................................................

...........................................

.........................................................

......................

......................

......................................

......................................

ρx2y σy

......................

......................

......................................................................................

......................................................................................

β2 σy

........

........

......

........

........

............................................................... .........................................................ρx1y σy

........

........

......

........

........

.......................................................................................................... ....................................................................................................β1 σy...........................

...........................

..........................

..............

..........

......................................

................

...........................................................................................................................................................................................................................................................................................................................

.............................

.............................

...........................................

...........................................

...........................................

Derartige Darstellungen ermoglichen damit einen anschaulichen Vergleich zwi-

schen den Regressionsgewichten bei der multiplen Regression mit den Regressi-

onsgewichten bei den Regressionen mit jeweils nur einem Pradiktor. Außerdem

geben sie Hinweise darauf, wie gut (β-)Regressionsgewichte und Korrelationen

harmonieren, da diese Kennwerte bis auf den Faktor σy direkt abgelesen werden

konnen.

Da die quadrierten Langen der Vektoren y, y1 und y2 gerade die durch die ent-

sprechenden Regressionen aufgeklarten Varianzen sind, bekommt man einen un-

mittelbaren Eindruck von dem Zuwachs an Varianzaufklarung der multiplen Re-

gression im Vergleich zu den Einzelregressionen.

Der Nutzen solcher Veranschaulichungen liegt auch darin, dass man fur die be-

kannten Merkwurdigkeiten der multiplen Regression (wie die gelegentlich’wider-

spruchlichen‘ Informationen aus Regressionsgewichten und Korrelationen oder

wie unerwartete Anderungen der Varianzaufklarung bei Hinzunahme weiterer

Page 41: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 41

Pradiktoren oder beim Weglassen von Pradiktoren) nun ein geometrisches Bild

zur Verfugung hat, das diese Phanomene verstandlicher werden lasst, als sie es

sind, wenn man sich nur auf (oft nicht unproblematische) Assoziationen zu den

statistischen Begriffen stutzt. Man kann sogar gezielt solche Merkwurdigkeiten

konstruktiv erzeugen.

Zur noch ausstehenden Rechtfertigung des Ableseverfahrens mit Hilfe der Lote

bemerkt man zunachst, dass es genugt, zu zeigen, dass die Fußpunkte der Lote

von y auf die Achsen die gleichen sind wie die, die man erhalten hatte, wenn

man die Lote gleich von y auf diese Achsen gefallt hatte. Wenn dies namlich

richtig ist, so haben die Argumentationen weiter oben schon die Richtigkeit des

Ableseverfahrens gezeigt, da diese Argumentationen ja nicht von der Zahl der

Pradiktoren abhingen und daher auch fur den Fall eines Pradiktors gelten (das

Fallen der Lote von y auf die Achsen ist ja gerade die Projektion auf die dann

eindimensionalen Unterraume, die von jeweils einem xj erzeugt werden).

Ist beispielsweise V1 der von x1 erzeugte Unterraum und y1 die Projektion von

y auf V1, so steht nach Konstruktion y − y1 senkrecht auf V1. Andererseits ist

y − y senkrecht zu U und wegen V1 ⊆ U insbesondere auch senkrecht auf V1.

Damit steht auch y − y1 = (y − y) + (y − y1) senkrecht auf V1, weshalb in der

Tat y1 auch die Projektion von y auf V1 ist. Genauso argumentiert man fur x2.

Der gerade geometrisch bewiesene Sachverhalt ist ubrigens ein Spezialfall der

Gleichung PV PU = PV , die allgemein fur orthogonale Projektionen PU und PV

auf U und V mit V ⊆ U gilt.

Fur den Fall der Lote von y und y auf die x1-Achse wird die Gleichheit der

Fußpunkte durch die nachste Abbildung illustriert.

x1

x2

y

yU..................................................................................................................................................................................................................................................................................................................................................................................

........................................................................................................

........................................................................................................

........................................................................................................

........................................................................................................

...........................

.........................................................................................................................................................................................................................................................................................................................................................................................................................................................................

..............................................................................................................................................................................................................................................................................................................................

......................................................................

......................................................................

......................................................................

......................................................................

...........................................................................................

................................................................................................... ...................

..............................................................................................................................

................................... ..................................................................................................................................................... ............................................................................................................................................................ ................... ........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

........................................

.............

.............................................................................................................................................................................................................................................................................................................

........................................

........................................

........................................

........................................

....................................

........................................

..................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

....

...............................................................................................................................................................................

Die Tatsachen, die die Lote von y auf die Pradiktorachsen betreffen, verdienen es,

noch einmal allgemein hervorgehoben zu werden. Die gegebenen Begrundungen

Page 42: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 42

besitzen offenbar auch fur den allgemeinen Fall Gultigkeit.

Feststellung 9. Sind x1, . . . ,xp und y Vektoren, die in einer kovarianztreuen

Darstellung der Situation einer multiplen Regression die Pradiktoren xj (mit re-

gularer Kovarianzmatrix) und das Kriterium y reprasentieren, und reprasentieren

y und y1, . . . , yp die Vorhersagen von y mit Hilfe der multiplen Regression und

der einfachen Regressionen mit jeweils einem Pradiktor, so sind die yj gleich-

zeitig die orthogonalen Projektionen von y auf die Pradiktorachsen. Man kann

also in dieser Darstellung die Regressionsgewichte fur Einzelregressionen und die

Korrelationen der Pradiktoren mit dem Kriterium auch ermitteln, wenn man die

Lote von y auf die Pradiktorgeraden fallt. ¤

Die nachste Abbildung zeigt eine mogliche Situation, in der die beiden Pradiktoren

x1 und x2 eine hohe Korrelation besitzen. In der durch Reprasentanten x1 und x2

dieser Pradiktoren erzeugten Ebene U ist die Reprasentation y der Vorhersage

eines Kriteriums y eingezeichnet samt Hilfslinien zum Ablesen von Regressions-

gewichten und Korrelationen.

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

................................................................

..............................

...........................................

................................

..........................

..........................

..........................

..........................

..........................

..........................

.....................................................................................................................................................

.............................................................................................................................................................................................................................................................................................. .........................................................................................................................................................................

......................................................................................................................................................

................................................. ...................

.............................................................................................................................................................................................

x1

x2y

Man erkennt hier ein deutliches Auseinanderklaffen der Regressionsgewichte der

multiplen Regression und derer der Einzelregressionen, anders gelesen von β-

Gewichten und Korrelationen. Bei x1 steht eine positive Korrelation einem ne-

gativen β-Gewicht gegenuber, das womoglich deutlich kleiner als −1 ist (wenn

namlich der Fehler, der senkrecht auf der Ebene steht, klein ist).

Ist die Darstellung eine einer empirischen Situation, so erkennt man auch die

Instabilitat der Gewichte: Wenn sich die y-Daten nur sehr wenig in der Weise

andern, dass sich y nach oben oder unten verschiebt, so zieht dies eine starke

Anderung der Regressionsgewichte nach sich.

Die Abbildung illustriert damit sehr gut die Multikollinearitatsprobleme.

Gelegentlich fuhrt man mit den Pradiktoren eine Variablentransformation durch,

beispielsweise zu Standardisierungszwecken, oder um zur Vermeidung von Mul-

Page 43: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 43

tikollinearitatsproblemen mit einem Satz unkorrelierter Pradiktoren arbeiten zu

konnen (ob dies sinnvoll ist, sei dahingestellt).

Ist die Koeffizientenmatrix fur diese Variablentransformation G und sind G und

die Kovarianzmatrix der Pradiktoren invertierbar, so bedeutet der Ubergang zu

den neuen Variablen geometrisch nur, dass man in dem von den xj aufgespann-

ten Unterraum die aus den xj bestehende Basis ersetzt durch eine andere, deren

Vektoren bezuglich der ursprunglichen Basis als Koordinatenvektoren gerade die

Spalten der Matrix G besitzen (diese Vektoren entsprechen naturlich den neuen

Pradiktoren). Die neuen Regressionsgewichte erhalt man dann, indem man die

Koordinaten von y in dem durch die neuen Vektoren gegebenen Koordinaten-

system abliest. Der Effekt dieser Variablentransformation auf die Regressionsge-

wichte ist also geometrisch gesehen wieder der gleiche wie der der entsprechenden

Koordinatentransformation.

Es folgt ein Beispiel zur Verdeutlichung. In der oben untersuchten Situation sollen

die bisherigen Pradiktoren x1 und x2 durch neue, womoglich aus inhaltlichen

Grunden interessante Pradiktoren v1 = x1 + x2 und v2 = x2 − x1 ersetzt werden.

Die reprasentierenden Vektoren v1 = x1 + x2 und v2 = x2 − x1 sind in der

folgenden Abbildung mit eingezeichnet.

y

yU

v2v1..................................................................................................................................................................................................................................................................................................................................................................................

........................................................................................................

........................................................................................................

........................................................................................................

........................................................................................................

...........................

.........................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........................................

........................................

........................................

........................................

........................................

....................................

........................................

............................

..............................................................................................................................................................................................................................................................................................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

........................

................................................................................................... ...................

......................................................

......................................................

........................................................................

......................................................................

......................................................................

......................................................................

......................................................................

...........................................................................................

............................................................................................................................................................................................................................................................................................................... ................... ....................................................................................................................................................................................................

..................................................................................................................................................................................................................................... ........................................................................................................................................................

Die Abbildung verdeutlicht, dass v1 und v2 eine alternative mogliche Basis von U

bilden. Nach den bisherigen Uberlegungen ist klar, dass sich an der Vorhersage y

nichts andert, es andern sich lediglich ihre Koordinaten (die Regressionsgewichte)

bei dem Ubergang zu der neuen Basis.

Die nachste Darstellung zeigt die Ebene U mit den neuen Koordinatenachsen und

den Hilfslinien zum Ablesen der neuen Regressionsgewichte.

Page 44: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 44

.................................................................................................................................................................. ...................

x1

............................................................................................................................................................................................................................................................

x2

............................................................................................................................................................................................................................................................................................................................................y

......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

......................

............................................................................................................................................................................................................................................................

v1

......................................................

......................................................

......................................................

......................................................

......................................................

..............................................................

v2

..............................................................................................

...........................................................................................................................................................................................................................................................................................................................

.............................

.............................

...........................................

...........................................

...........................................

Zur Kontrolle soll auch noch die zugehorige Rechnung durchgefuhrt werden.

Die Transformationsmatrix der Variablentransformation von den x- zu den v-

Variablen ist

G =

(1 −1

1 1

).

Ihre Inverse errechnet sich zu

G−1 =

(.5 .5

−.5 .5

),

und die neuen Koordinaten von y erhalt man, indem man den alten Koordina-

tenvektor (2, 1)′ mit G′−1 multipliziert, als (1.5,−.5)′ in Ubereinstimmung mit

der Graphik.

Außer zur Ermittlung der Regressionsgewichte kann die neue Darstellung naturlich

auch wieder dazu dienen, mit Hilfe von Loten die Vektoren zu ermitteln, die die

Vorhersagen mit Hilfe einfacher linearer Regressionen auf v1 und v2 reprasentieren.

Auch die Korrelationen und die β-Gewichte konnen genau wie oben graphisch be-

stimmt werden.

Oft wird es als wunschenswert erachtet, die gegebenen Pradiktoren durch unkor-

relierte zu ersetzen, womoglich sogar durch solche mit Varianz 1. Es sei dabei

vorausgesetzt, dass die Kovarianzmatrix der Pradiktoren den maximalen Rang

besitzt (gegebenenfalls lasst man uberflussige Pradiktoren weg).

Geometrisch bedeutet die Aufgabe, dass fur U eine Orthogonalbasis oder eine

Orthonormalbasis zu finden ist.

Page 45: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 45

Will man also solche unkorrelierten Pradiktoren finden, so kann man sich die

Techniken der Linearen Algebra zu Nutze machen, die gegebene Vektoren durch

orthogonale (oder orthonormale) Linearkombinationen dieser Vektoren ersetzen,

die denselben Unterraum aufspannen.

Dabei ist zunachst zu klaren, wie und warum man Losungen dieser Aufgabe in

der Linearen Algebra auf die Statistik ubertragen kann.

Sind x1, . . . ,xp also Vektoren, die die Pradiktoren x1, . . . , xp reprasentieren, und

sind v1, . . . ,vp Linearkombinationen dieser Vektoren, die orthogonal (oder ortho-

normal) sind und den gleichen Raum U wie x1, . . . ,xp aufspannen, so definiert

man neue Variablen v1, . . . , vp als Linearkombinationen der xj mit denselben Ko-

effizienten, mit denen die vk aus den xj hergestellt werden. Die additiven Kon-

stanten konnen dabei beliebig gewahlt werden, nutzlich ist es hier oft, sie so zu

wahlen, dass die vk Mittelwert bzw. Erwartungswert 0 besitzen.

Die neuen Pradiktoren gehen dann durch eine invertierbare affine Transformation

aus den alten hervor, weshalb sie die gleichen Vorhersagen liefern wie die alten,

wobei sich die Regressionskoeffizienten nach den gegebenen Formeln umrechnen

lassen. Die vk werden außerdem durch die vk reprasentiert, womit sie unkorreliert

sind. Man kann also tatsachlich Losungen des Orthogonalisierungsproblems aus

der Linearen Algebra auf die Statistik ubertragen.

Aus der Linearen Algebra ist das Orthonormalisierungsverfahren von Gram und

Schmidt bekannt. Sieht man von der genauen technischen Durchfuhrung ab (die

dazu hilft, den Rechenaufwand zu minimieren), so kann dies Verfahren im Prinzip

auch auf die folgende Art beschreiben, die eine anschaulichere Verbindung zur Re-

gression herstellen lasst. Man wahlt als v1 den Vektor x1. Danach bestimmt man

iterativ die vj so, dass vj senkrecht zu x1, . . . ,xj−1 ist; genauer erhalt man vj, in-

dem man zu xj diejenige eindeutig bestimmte Linearkombination der x1, . . . ,xj−1

addiert, die gerade bewirkt, dass das Resultat (die Summe aus xj und der Li-

nearkombination) senkrecht zu x1, . . . ,xj−1 ist (man macht gewissermaßen xj zu

x1, . . . ,xj−1 senkrecht). Nachdem man so alle vj hergestellt hat, bringt man sie

in einem letzten Schritt auf die Lange 1 – auf diesen letzten Schritt kann man

aber auch verzichten, wenn man sich mit einer Orthogonalbasis zufrieden gibt.

Da bei diesem Verfahren der Vektor vj dann bekanntlich gerade das Lot von

xj auf den von x1, . . . ,xj−1 erzeugten Unterraum ist (genauer: der Verbindungs-

vektor vom Lotfußpunkt zu xj), ist dieses vj auch Reprasentant des Residuums

bei der Regression von xj auf x1, . . . , xj−1. Bildet man also nun vj als die Li-

Page 46: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 46

nearkombination von x1, . . . , xj, die die gleichen Koeffizienten besitzt wie vj als

Linearkombination von x1, . . . ,xj, und sorgt man zudem durch geeignete Wahl

der additiven Konstante dafur, dass der Erwartungswert bzw. Mittelwert von vj

gleich 0 ist, so erkennt man, dass vj dann durch vj reprasentiert wird und somit

schließlich das Residuum der Regression von xj auf x1, . . . , xj−1 ist.

Man kann damit fur dieses Verfahren den Ubergang von den Ausgangspradiktoren

x1, . . . , xp zu gleichwertigen unkorrelierten Pradiktoren v1, . . . , vp kurz so be-

schreiben, dass man als v1 die Variable x1 wahlt, und fur vj das Residuum der

Regression von xj auf x1, . . . , xj−1.

Damit ist die gewunschte anschauliche Deutung des Orthogonalisierungsverfah-

rens gelungen. Es bleibt zu erwahnen, dass die technische Durchfuhrung sich zur

Vereinfachung der Rechnung besser an der aus der Linearen Algebra bekannten

Vorgehensweise orientiert, und dass schließlich gegebenenfalls in einem letzten

Schritt die neuen Pradiktorvariablen auf Varianz 1 zu normieren sind.

Mit kovarianztreuen Darstellungen kann man sich auch den oft uberraschenden

Verhaltnissen bei der Partialkorrelation geometrisch nahern. Viele merkwurdige

Phanomene werden dadurch erheblich durchsichtiger.

Die betrachtete Situation ist die, dass die Partialkorrelation von zwei Variablen

x und y gebildet werden werden soll, wobei eine Drittvariable z auspartialisiert

wird. Ziel ist es, auch fur diese Situation eine geometrische Anschauung zu ge-

winnen.

Zunachst sei noch einmal an das Bild erinnert, das fur die einfache lineare Regres-

sion von x auf z die Zerlegung von x in Vorhersage und Residuum veranschaulicht.

Das Residuum soll jetzt den Namen x bekommen. Die entsprechenden Vektoren

seien x, z und x. Analoge Verhaltnisse gelten fur y, und dort seien die Bezeich-

nungen entsprechend.

.............................................................................................................................................................................................................................................................................................. ..........................................................................................................................................................................................................................................................

..................

...................

...................

...................

...................

..................

...................

...................

.................................................

.............................................................................................................................. ...................

............. ............. ............. ............. ...........................................................................................

z

xx

x......................................

......................................................

Vorhersage

Residuum

Die Partialkorrelation von x und y ist defitionsgemaß die Korrelation von x und

Page 47: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.1 Univariate multiple Regression R07 47

y; in einer kovarianztreuen Darstellung ist dies der Kosinus des Winkels zwischen

den Vektoren x und y.

Beginnt man wieder mit einer kovarianztreuen dreidimensionalen Darstellung der

Ausgangsvariablen x, y und z durch Vektoren x, y und z, so befinden sich auch

die Vektoren x und y als Linearkombinationen der Ausgangsvektoren in dem

gegebenen dreidimensionalen Raum. Da sie senkrecht auf z stehen, befinden sie

sich genauer in der Ebene E, die zu z senkrecht ist.

Die Verbindungsvektoren x− x von x zu x und y− y von y zu y sind Vielfache

von z (es handelt sich ja hierbei um Reprasentanten der jeweiligen Vorhersagen)

und stehen daher auch senrecht auf E. Dies bedeutet gerade, dass x und y die

orthogonalen Projektionen von x und y auf E sind – die Verbindungsvektoren

entsprechen den Loten.

Man erhalt damit das folgende Bild, in dem der Winkel zwischen x und y via

Kosinus der Korrelation von x und y entspricht und der zwischen x und y der

Partialkorrelation.

................................................................

....................................................................................................

..................................................................................................................................

......................................................................................... ...................

..................

...........

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

..................

.........................................

............................................................................................................................................. ................................................................................................................................................................................................................... ...................

z

x

x

y

y

....................................................................................

......................................................................

.........................................................................................

..............................................................................................

..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

............................................................................................................................................

....................................................................................................................

........................................

........................................

..........................

...................................

......................

Fur diejenigen, die die Situation mit geeigneten Hilfsmitteln wie Pfeifenreinigern

nachbasteln wollen: die Kovarianzmatrix der drei Variablen in der Reihenfolge x,

y, z ist die gleiche wie die in dem Beispiel zur multiplen Regression.

Mit dem Hilfsmittel der kovarianztreuen Darstellung sollte es nun keine große

Muhe bereiten, sich Situationen herzustellen, in denen beim Ubergang von Kor-

relationen zu Partialkorrelationen alle moglichen Arten von Besonderheiten auf-

treten. Beispielsweise kann aus einer Nullkorrelation eine Partialkorrelation von 1

werden, das Vorzeichen der Partialkorrelation kann dem der Korrelation entgegen-

Page 48: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 48

gesetzt sein, aus einer betragsmaßig großen Korrelation kann eine betragsmaßig

kleine Partialkorrelation werden, und dergleichen mehr. Was auf der statistischen

Ebene manchmal merkwurdig und unverstandlich erscheint, wird beim Ubergang

zur geometrischen Betrachtungsweise oft seine Ratselhaftigkeit verlieren.

4.2 Multivariate multiple Regression

In diesem Kapitel soll die multivariate multiple Regression mit einigen Anwen-

dungen behandelt werden. Nachdem im letzten Kapitel die Sprache der theoreti-

schen Ebene gewahlt wurde, was gezeigt haben durfte, dass die Unterschiedlich-

keit zwischen empirischer und theoretischer Ebene bei der Problembehandlung in

kaum mehr als der Notation an der Oberflache liegt, soll hier auf der empirischen

Ebene argumentiert werden; es sollte dabei unmittelbar klar sein, dass analo-

ge Aussagen bei fast wortlich gleichen Begrundungen auch fur die theoretischen

Sachverhalte gelten.

Problem und Losung. Als Ausgangssituation sollen an n Personen p Pradiktor-

variablen x1, . . . , xp und q Kriteriumsvariablen y1, . . . , yq erhoben sein, die zu

Vektoren x und y zusammengefasst werden.

Die Zentroide der Variablen seien x und y, ihre Kovarianzmatrizen Sx und Sy;

die Matrizen der Kovarianzen zwischen diesen Variablengruppen sollen mit Sxyund Syx abgekurzt werden. Dann ist Sxy eine (p × q)-Matrix und Syx eine

(q × p)-Matrix und es gilt S′xy = Syx. Fasst man beide Variablengruppen zu

einer Gesamtvariable (x,y) zusammen, so sind

(x

y

)und

(Sx SxySyx Sy

)

der Mittelwertvektor und die Kovarianzmatrix dieser zusammengefassten Varia-

blen.

Die Werte der einzelnen Versuchspersonen i auf dem Variablenvektor x sollen xi

heißen und die Werte, die diese Versuchspersonen i auf der j-ten Komponente

von x haben, xij. Analoges gilt fur y und weitere gegebenenfalls zu untersu-

chende Variable. Diese Bezeichnungen sind ubrigens die aus dem Umgang mit

Datenmatrizen gelaufigen.

Ziel der multivariaten multiplen Regression ist es nun, eine Vorhersage y des

Page 49: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 49

y-Variablenvektors mit Hilfe einer affinen Transformation der Form

y = Bx + a

zu finden, die den Durchschnitt der quadrierten Distanzen zwischen den tatsach-

lichen und den vorhergesagten Datenvektoren minimiert.

Die Matrix B soll dabei auch Koeffizientenmatrix heißen und der Vektor a auch

Konstantenvektor.

Oft formuliert man das Optimalitatskriterium auch als Forderung, dass die Sum-

me der quadrierten Distanzen minimiert werden soll, diese Forderung ist aber

offenbar der hier verwendeten gleichwertig, da sich ja die Summe und der Durch-

schnitt nur um den Faktor n unterscheiden.

Die k-te Komponente yk von y ist die Linearkombination der xj, deren Koeffizi-

enten in der k-ten Zeile von B stehen und deren additive Konstante ak ist. Dies

ist folglich eine mogliche univariate Vorhersage von yk. Zu bemerken ist dabei,

dass die Koeffizienten der einzelnen univariaten Vorhersagen yk unabhangig von-

einander gewahlt werden konnen, da sie in verschiedenen Zeilen von B stehen

bzw. verschiedene Komponenten von a sind.

Dies fuhrt zu der Idee, dass man vielleicht das multivariate Problem dadurch

losen konnte, dass man die univariaten Regressionen der einzelnen Komponenten

yk auf x einfach zu einer Gesamtvorhersage zusammensetzt. Dies ist tatsachlich

so moglich, wie nun gezeigt werden soll.

Naheliegenderweise fuhrt man wieder den Vorhersagefehler e = y − y ein als

Differenz zwischen dem tatsachlichen und dem vorhergesagten Variablenvektor.

Die Optimalitatsbedingung ist dann die, dass der Durchschnitt der quadrierten

Normen der ei minimal werden soll.

Diesen Durchschnitt der quadrierten Normen kann man nun folgendermaßen um-

schreiben:1

n

∑i

‖ei‖2 =1

n

∑i

k

e2ik =

k

1

n

∑i

e2ik .

Die eik sind dabei gerade die Werte der Versuchspersonen auf dem Fehler ek der k-

ten Komponentenvorhersage. Fur ein festes k ist der Durchschnitt der quadrierten

eik daher mindestens so groß wie der Durchschnitt der quadrierten Fehler bei der

optimalen univariaten Regression von yk auf x und erreicht diesen Minimalwert

dann und nur dann, wenn yk eine optimale Vorhersage im univariaten Sinn ist.

Page 50: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 50

Da die Komponentenvorhersagen unabhangig voneinander gewahlt werden konnen,

folgt, dass das Optimalitatskriterium (1/n)∑

i ‖ei‖2 genau dann minimiert wird,

wenn die Komponentenvorhersagen yk optimale Vorhersagen im univariaten Sinn

sind.

Damit zeigt sich, dass das multivariate Regressionsproblem nichts prinzipiell Neu-

es im Vergleich zum univariaten Problem ist, und dass man Losungen des mul-

tivariaten Problems genau dadurch erhalt, dass man Losungen der univariaten

Regressionen der yk auf x zu einem Variablenvektor zusammensetzt.

Als Zwischenergebnis kann notiert werden:

Feststellung 1. Die Losungen des multivariaten Regressionsproblems erhalt man

genau, indem man Losungen yk der univariaten Regressionen der yk auf x zu

einem Vektor y zusammensetzt. ¤

Man bekommt also die moglichen Koeffizientenmatrizen B, indem man (transpo-

nierte) Vektoren von Regressionsgewichten aus univariaten Regressionen der yk

auf x zeilenweise zu einer Matrix zusammensetzt.

Den Konstantenvektor a erhalt man dann, indem man die additiven Konstanten

der Einzelregressionen zu einem Vektor zusammenfasst.

Es folgt nun ein Beispiel mit zwei Pradiktoren x1 und x2 und drei Kriteriumsva-

riablen y1, y2 und y3. An diesem Beispiel sollen spater auch noch weitere Sach-

verhalte illustriert werden.

Die Kovarianzmatrix der Variablen x1, x2, y1, y2, y3 (in dieser Reihenfolge) sei

4 −2 6 0 −2

−2 9 5 16 −7

6 5 25 19 −7

0 16 19 36 −17

−2 −7 −7 −17 16

.

Die Mittelwerte der Variablen in der gleichen Reihenfolge seien 1, 3, 2, −1, 0.

Oben wurde die Kovarianzmatrix aller Variablen schon partitioniert. Zur Illu-

stration folgen zwei der Teilmatrizen in dem speziellen Beispiel:

Sx =

(4 −2

−2 9

)und Sxy =

(6 0 −2

5 16 −7

).

Page 51: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 51

Die Normalengleichungen der univariaten (multiplen) Regression von y1 auf x1

und x2 haben folgendes Koeffizientenschema:

4 −2 . 6

−2 9 . 5,

mit dem man leicht die Regressiongewichte zu 2 und 1 bestimmt. Die additive

Konstante ist dann −3, und man erhalt fur y1 insgesamt die Regressionsgleichung

y1 = 2 x1 + 1 x2 − 3.

Ganz analog bestimmt man die Regressionsgleichungen fur die Regressionen von

y2 und y3 auf x1 und x2 zu y2 = 1 x1 + 2 x2 − 8 und y3 = −1 x1 − 1 x2 + 4.

Naturlich wird man die Gewichte etwas okonomischer berechnen als hier angedeu-

tet, da man ja auf der linken Seite immer die gleichen Koeffizienten hat. Hinweise

folgen weiter unten.

Man kann nun die drei Einzelregressionen zusammenfassen und erhalt dann

y1 = 2 x1 + 1 x2 + (−3)

y2 = 1 x1 + 2 x2 + (−8)

y3 = (−1) x1 + (−1) x2 + 4

oder kurz

y1

y2

y3

=

2 1

1 2

−1 −1

(x1

x2

)+

−3

−8

4

,

womit man die Form y = Bx + a gefunden hat. Die Zeilen von B enthalten

die Regressionsgewichte aus den drei univariaten Regressionen und a die drei

additiven Konstanten.

Nun soll der Fehlervektor noch etwas genauer betrachtet werden. Der Durch-

schnitt der quadrierten Fehler bei einer einzelnen univariaten Regression ist be-

kanntlich gleich der Varianz des Fehlers, wahrend der Durchschnitt der Fehler-

werte gleich 0 ist. Damit ist fur die multivariate Regression der minimale Durch-

schnitt der quadrierten Normen der Fehlervektoren gleich der Summe der Vari-

anzen der Fehlerkomponenten, wahrend der Durchschnitt der Fehlervektoren fur

die optimale Losung 0 ist. Die Summe der einzelnen Fehlervarianzen ist dabei

gleichzeitig die Spur der Kovarianzmatrix von e, die ja auch als Gesamtvarianz

von e bezeichnet wurde.

Mit analogen Uberlegungen wie eben sieht man daher, dass eine optimale Losung

des multivariaten Problems genau dann vorliegt, wenn e = 0 gilt und wenn die

Page 52: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 52

Gesamtvarianz (im Sinne der Spur) von e minimal wird. Diese Gesamtvarianz

ist dann gleichzeitig der Durchschnitt der quadrierten Fehlernormen, und kann

daher als ein Maß fur die Gute der Vorhersage benutzt werden.

Es bleibt noch die Aufgabe, die univariaten Losungsbedingungen geeignet zusam-

menzufassen. Da die Koeffizienten fur die k-te Komponente von y gerade die k-te

Zeile von B, also die k-te Spalte von B′ bilden und die Kovarianzen von yk mit x

gerade die k-te Spalte von Sxy, sind die Normalengleichungen fur die Regression

von yk auf x gerade die k-te Spalte der Matrizengleichung

Sx B′ = Sxy ,

die damit alle Normalengleichungen zusammenfasst. Im Fall der Invertierbarkeit

von Sx, der die Regel sein sollte, erhalt man durch Multiplikation mit dieser

Inversen B′ = S−1x Sxy und daraus durch Transponieren die Losung

B = SyxS−1x .

Die Bedingung dafur, dass der Mittelwert des Fehlervektors 0 ist, kann man unter

Berucksichtigung von e = y− y = y− (Bx+ a) umschreiben zu y−Bx− a = 0

oder

a = y −Bx .

Die bisherigen Ergebnisse sollen nun noch einmal zusammengefasst werden; Seist dabei naturlich die Kovarianzmatrix des Fehlers.

Feststellung 2. Die Losungen des multivariaten Regressionsproblems erhalt

man, indem man fur B eine Losung der Normalengleichungen

Sx B′ = Sxy

wahlt und dann

a = y −Bx

setzt. Ist Sx invertierbar, so erhalt man die dann eindeutige Losung fur B als

B = SyxS−1x .

Die Losungen sind dadurch gekennzeichnet, dass fur den Fehler e = y − y die

Bedingungen gelten, dass e = 0 ist und dass die Spur von Se minimal wird; diese

Spur ist dann gleichzeitig der Durchschnitt der quadrierten Normen der ei. ¤

Page 53: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 53

Man kann nun leicht im oben behandelten Beispiel diese Formeln anwenden und

erhalt damit die schon gefundene Losung noch einmal, allerdings mit weniger

Aufwand.

Im Falle einer nicht invertierbaren Kovarianzmatrix Sx unterscheiden sich je zwei

mogliche Losungen fur B zeilenweise um Elemente des Kerns von Sx, und um-

gekehrt erhalt man aus einer speziellen Losung alle anderen, indem man zu den

Zeilen von B beliebige Elemente des Kerns von Sx addiert. Dies folgt unmittelbar

aus entsprechenden Uberlegungen im univariaten Fall.

Ebenso wie im univariaten Fall unterscheiden sich aber fur verschiedene Losungen

B und a die zugehorigen Vorhersagen y nicht; mogen also auch die Koeffizienten

zur Bildung der Vorhersage nicht eindeutig sein, so ist es doch die Vorhersage

selber. Allerdings muss hier angemerkt werden, dass diese Aussage nur gilt, wenn

man die Vorhersage auf die Daten anwendet, auf deren Grundlage die Vorhersa-

gegleichungen ermittelt wurden; setzt man neue Daten ein, so konnen zwei als

mogliche Losungen ermittelte Vorhersagegleichungen auch durchaus unterschied-

liche Vorhersagen liefern.

Das nachste Ziel ist die Verallgemeinerung der Varianzzerlegung und die Bestim-

mung von Sy und Se.

Da die Fehlerkomponenten als Fehler aus univariaten Regressionen mit den Pradik-

toren unkorreliert sind, folgt zunachst fur die Matrix Sxe der Kovarianzen der

Pradiktoren und der Fehler

Sxe = 0 .

Hieraus erhalt man unmittelbar die multivariate Varianzzerlegung

Sy = Sy + Se .

Diese Gleichung folgt namlich aus der Beziehung y = y + e nach den bekannten

Rechenregeln fur Kovarianzmatrizen unter Berucksichtigung der Tatsache, dass

die Matrix der Kovarianzen von y und e die Nullmatrix ist. Dies gilt wegen Sxe =

0, woraus folgt, dass auch die Matrix der Kovarianzen der affinen Transformation

y von x und von e die Nullmatrix ist.

Insbesondere folgt hieraus die Gleichung

Spur(Sy) = Spur(Sy) + Spur(Se) ,

Page 54: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 54

also eine Varianzzerlegung der Gesamtvarianz im Sinne der Spur in aufgeklarte

Varianz und Fehlervarianz.

Nun soll die Kovarianzmatrix Sy von y bestimmt werden. Da y = Bx+a gilt, er-

rechnet sie sich nach den Regeln uber Kovarianzmatrizen bei affinen Abbildungen

zu

Sy = BSxB′ .

Da B′ eine Losung der Normalengleichungen ist (da also SxB′ = Sxy gilt), kann

man dies auch umformulieren zu BSxy. Da diese Matrix symmetrisch ist, bleibt

sie beim Transponieren gleich und man erhalt die weitere Darstellungsmoglichkeit

SxyB′. Ist schließlich Sx invertierbar, so gilt ja B = SyxS−1x , weshalb sich dann

schließlich auch noch die Beziehung

Sy = SyxS−1x Sxy

ergibt.

Die Matrix Se erhalt man wegen der Varianzerlegung, indem man die gerade

gewonnene Matrix von Sy abzieht.

Im Beispiel erhalt man

Sy = BSxy =

2 1

1 2

−1 −1

(6 0 −2

5 16 −7

)=

17 16 −11

16 32 −16

−11 −16 9

,

und daraus

Se = Sy − Sy =

25 19 −7

19 36 −17

−7 −17 16

17 16 −11

16 32 −16

−11 −16 9

=

8 3 4

3 4 −1

4 −1 7

.

Die Varianzzerlegung Sy = Sy + Se ist daher hier

25 19 −7

19 36 −17

−7 −17 16

=

17 16 −11

16 32 −16

−11 −16 9

+

8 3 4

3 4 −1

4 −1 7

.

In der Diagonale dieser Gleichung findet man die Varianzzerlegungen bei der Vor-

hersage der yi durch x, beispielsweise ist die Varianzzerlegung bei der Vorhersage

von y1 gegeben durch 25 = 17 + 8. Die Zerlegung der Gesamtvarianz erhalt man

durch Bildung der Spur als 77 = 58 + 19.

Page 55: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 55

In diesem Beispiel sind die Fehler nicht unkorreliert – ein Hinweis darauf, dass un-

korrelierte Fehler die Ausnahme sind. Wenn man die Kovarianzmatrix der Fehler

in die zugehorige Korrelationsmatrix umwandelt, erhalt man ubrigens außerhalb

der Diagonalen gerade die Partialkorrelationen der yi bei auspartialisiertem x.

Es folgt die Zusammenfassung der bisherigen Ergebnisse.

Feststellung 3. Die Matrix Sxe der Kovarianzen der Pradiktoren x mit dem

Fehlervektor e ist die Nullmatrix.

Die Kovarianzmatrix von y hat die Zerlegung

Sy = Sy + Se ,

woraus insbesondere die Zerlegung

Spur(Sy) = Spur(Sy) + Spur(Se)

der Gesamtvarianz folgt.

Fur die Kovarianzmatrix der Vorhersage gilt

Sy = BSxB′ = BSxy = SxyB′ = SyxS−1x Sxy ,

wobei bei der letzten Gleichung die Invertierbarkeit von Sx vorausgesetzt ist; fur

die Kovarianzmatrix Se = Sy − Sy von e folgt daraus beispielsweise

Se = Sy −BSxB′ = Sy −BSxy = Sy − SyxS−1x Sxy ,

letzteres wieder nur fur invertierbares Sx. ¤

Auch im multivariaten Fall kann es sein, dass die Pradiktoren teilweise unkor-

reliert sind. Im univariaten Fall war in einer solchen Situation die insgesamt

aufgeklarte Varianz die Summe der durch die Teilgruppen von Pradiktoren auf-

geklarten Varianzen. Da der multivariate Fall vom univariaten nicht wesentlich

verschieden ist, sollte hier eine ahnliche Zerlegung moglich sein.

Die Pradiktoren x sollen jetzt also in zwei Teilgruppen x1 und x2 aufgeteilt sein,

zwischen denen die Kovarianzen alle 0 sind; bei entsprechender Partitionierung

haben die Kovarianzmatrix von x = (x1,x2) und die Matrix der Kovarianzen von

x und y dann die Form

Sx =

(Sx1 0

0 Sx2

)und Sxy =

(Sx1ySx2y

).

Page 56: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 56

Zerlegt man auch die Koeffizientenmatrix B in einen Teil B1, der die zu x1

gehorenden Koeffizienten enthalt und einen Teil B2 fur die zu x2 gehorenden, so

gilt B = (B1,B2) und man kann die Normalengleichungen(Sx1 0

0 Sx2

)(B′

1

B′2

)=

(Sx1ySx2y

)

durch Ausmultiplizieren zerlegen in

Sx1B′1 = Sx1y und Sx2B

′2 = Sx2y .

Dies sind genau die Normalengleichungen fur die Regressionen von y auf x1 und

auf x2, so dass man wieder die Gesamtlosung B aus zwei durch getrennte Regres-

sionen auf x1 und x2 gewonnene Teillosungen B1 und B2 zusammensetzen kann.

Berechnet man nun die Kovarianzmatrix von y, so erhalt man

Sy = BSxy =(B1 B2

) (Sx1ySx2y

)= B1Sx1y + B2Sx2y ,

also genau die Summe der Kovarianzmatrizen der Vorhersagen von y durch x1

und durch x2. Insgesamt erhalt man also die folgende Feststellung:

Feststellung 4. Sind fur die in zwei Teile partitionierten Pradiktoren x =

(x1,x2) die Kovarianzen der zu x1 und der zu x2 gehorenden Pradiktoren alle

0, so kann man die Koeffizientenmatrix B der Regression von y auf x zusammen-

setzen als B = (B1,B2), wo B1 und B2 Koeffizientenmatrizen aus getrennten

Regressionen von y auf x1 und x2 sind. Sind Sy1und Sy2

die Kovarianzmatrizen

der Vorhersagen von y durch x1 und durch x2, so gilt

Sy = Sy1+ Sy2

. ¤

Man hat also auch multivariat eine additive Zerlegung der aufgeklarten Varianz

in zwei Teile, die zu den getrennt behandelten Pradiktorengruppen gehoren. Bil-

det man die Spur, so erhalt man eine entsprechende Zerlegung der aufgeklarten

Gesamtvarianz.

Auf die gleiche Weise bekommt man vollig analoge Zerlegungen fur den Fall,

dass alle Pradiktoren untereinander unkorreliert sind. Insbesondere ist dann die

(multivariat) aufgeklarte Varianz (im Sinne der Spur) die Summe der durch die

einzelnen Pradiktoren aufgeklarten Varianzen. Die durch einen Pradiktor (multi-

variat) aufgeklarte Varianz ist dabei die Summe der Diagonalelemente der Kova-

rianzmatrix der Vorhersage durch diesen Pradiktor, also die Summe der bei den

Kriteriumsvariablen (univariat) durch diesen Pradiktor aufgeklarten Varianzen.

Page 57: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 57

Transformationen. Nun wird wieder untersucht, wie sich die Regressionsglei-

chung bei Transformationen verhalt. Interessanter als bei der univariaten Regres-

sion ist die Frage, was geschieht, wenn man das Kriterium durch eine Transfor-

mation andert.

Genauer soll in der schon bekannten Situation der multivariaten multiplen Re-

gression von y auf x eine neue Variable z definiert sein durch z = Cy + d, und

es soll untersucht werden, ob man die Regression von z auf x leicht aus der von

y auf x gewinnen kann.

Dabei wird von C nicht vorausgesetzt, dass es quadratisch oder invertierbar ist,

insofern ist die Fragestellung allgemeiner als bei den schon behandelten univaria-

ten Variablentransformationen.

In der Situation des Beispiels konnte z vielleicht aus 2 Komponenten bestehen

und aus y durch die Gleichung

z =

(1 1 1

2 −1 −1

)y +

(0

−3

)

gegeben sein.

Zunachst sollen die Normalengleichungen fur die neue Regression aufgeschrieben

werden. Auf der rechten Seite ist hier Sxy durch Sxz zu ersetzen, das sich nach

den bekannten Regeln zu SxyC′ errechnet. Multipliziert man nun die Normalen-

gleichungen SxB′ = Sxy der Ausgangssituation von rechts mit C′, so erhalt man

die Gleichungen

SxB′C′ = SxyC′ = Sxz ,

die zeigen, dass fur jede Losung B′ der alten Gleichungen die Matrix B′C′ =

(CB)′ eine Losung der neuen Gleichungen ist.

Ist nun CB eine Losung fur die Koeffizientenmatrix, so erhalt man den Konstan-

tenvektor als z−CBx. Setzt man hier Bx = y−a und z = Cy+d ein, so erhalt

man insgesamt

Cy + d−Cy + Ca = Ca + d

als Konstantenvektor der Vorhersage.

Die Vorhersage fur z ist damit insgesamt CBx + Ca + d = C(Bx + a) + d.

Berucksichtigt man, dass hier Bx + a die Vorhersage y war, so sieht man, dass

man eine Losung der Regression von z auf x einfach dadurch erhalt, dass man

Page 58: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 58

auf eine Losung der Regression von y auf x die betrachtete affine Abbildung

anwendet. Man kann also kurz z = Cy + d schreiben.

Man errechnet sofort die Kovarianzmatrix der neuen Vorhersage und des neuen

Fehlers und erhalt damit die nachste Feststellung.

Feststellung 5. Ist y = Bx + a Regression von y auf x, und ist z = Cy + d, so

ist

z = Cy + d = CBx + Ca + d

Regression von z auf x. Sind Sy und Se die Kovarianzmatrizen von Vorhersage

und Fehler der Regression von y auf x, so sind die entsprechenden Kovarianzma-

trizen fur die Regression von z auf x die Matrizen CSyC′ und CSeC′. ¤

Man beachte, dass die Feststellung so formuliert ist, dass sie auch fur den Fall

einer singularen Kovarianzmatrix Sx der Pradiktoren gultig ist. Falls Sx regular

ist, sind die Regressionsgleichungen eindeutig, und man kann vor das Wort’Re-

gression‘ jedesmal den bestimmten Artikel setzen.

Im Beispiel von oben erhalt man fur die Regression der neu gebildeten Variable

z auf x als Koeffizientenmatrix und Konstantenvektor

CB =

(1 1 1

2 −1 −1

)

2 1

1 2

−1 −1

=

(2 2

4 1

)und Ca + d =

(−7

−5

).

Spezialfalle sind Summen und Differenzen von Variablen; man erhalt also die

Regression einer Summe oder Differenz auf gewisse Pradiktoren x, indem man

die Summe oder Differenz der Einzelregressionen bildet. Dasselbe gilt naturlich

fur Linearkombinationen.

Die Summe y1 + y2 + y3 im Beispiel ist gerade z1; die Vorhersagegleichung dieser

Summe ist also 2x1 + 2x2 − 7, was sich auch durch Addition der drei Einzelre-

gressionsgleichungen fur die yi ergibt.

Was Transformationen auf Pradiktorenseite angeht, so gibt es wegen Feststellung

1 wenig Neues im Vergleich zum univariaten Fall. Man erhalt unmittelbar aus

Feststellung 8 aus Kapitel 4.1 die folgende Feststellung:

Feststellung 6. Ist y = Bx + a Regression von y auf x und ist v = G′x + h

mit einer invertierbaren Matrix G, so ist y, umgeschrieben zu

y = (BG′−1)v + a−BG′−1h

Page 59: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 59

auch Regression von y auf v. Fur die Regression von y auf v ist also BG′−1 eine

mogliche Koeffizientenmatrix und a−BG′−1h der zugehorige Konstantenvektor.

Die Fehler der beiden Regressionen sind gleich. ¤

Im Beispiel konnte es vielleicht aus inhaltlichen Grunden sinnvoll sein, die beiden

Pradiktoren durch die Variablen v1 = x1 + x2 und v2 = x2 − x1 zu ersetzen. Hier

ist dann

G =

(1 −1

1 1

),

woraus man als neue Koeffizientenmatrix BG′−1 die Matrix

1.5 −0.5

1.5 0.5

−1. 0.

berechnet. Da in diesem Beispiel der Vektor h gleich 0 ist, andert sich hier der

Vektor der additiven Konstanten nicht.

In den meisten Anwendungen kommt es weniger auf die Konstantenvektoren an

als vielmehr auf die Koeffizientenmatrizen.

Wichtige Anwendungen betreffen die Falle, dass die Pradiktoren oder die Krite-

riumsvariablen oder beide Gruppen standardisiert (z-transformiert) werden. Fur

diese Falle sollen nun kurz die Formeln fur die Koeffizientenmatrizen angegeben

werden.

Dabei ist es nutzlich, fur eine Kovarianzmatrix Sx von irgendwelchen in einem

Vektor x zusammengefassten Variablen mit Vx wieder die Diagonalmatrix zu

bezeichnen, die als Diagonalelemente die Varianzen der xj enthalt. Die Matrizen

V1/2x und V

−1/2x sind entsprechend die Diagonalmatrizen mit den Streuungen und

den Kehrwerten der Streuungen.

Die Matrizen, die den linearen Anteil der Standardisierungen von x und y bilden

(dies sind ja affine Abbildungen), sind V−1/2x und V

−1/2y . Diese Matrizen sind

naturlich symmetrisch, stimmen also mit ihren Transponierten uberein.

Ist dann B Koeffizientenmatrix der Regression von y auf x, so folgt sofort, dass

die Matrizen

BV1/2x , V

−1/2y B und V

−1/2y BV

1/2x

Koeffizientenmatrizen fur die neuen Vorhersagen sind, bei denen nur x, nur y

und beide Variablengruppen durch ihre Standardisierungen ersetzt werden.

Page 60: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 60

Die letzte dieser Matrizen besteht naturlich aus den β-Gewichten fur die Regres-

sionen der Komponenten von y auf x.

In dem Fall der Standardisierung auf beiden Seiten ist offenbar auch der Kon-

stantenvektor 0.

Rechnet man in standardisierten Variablen, und bezeichnet man die Korrelati-

onsmatrix von x mit Rx und die Matrix der Korrelationen von y mit x mit Ryx,

so lauten die (hier gleich transponierten) Normalengleichungen

BRx = Ryx .

Mit diesen Gleichungen wird jetzt auch fur den multivariaten Fall eine Beziehung

zwischen β-Gewichten (in B) und entsprechenden Korrelationen hergestellt; im

Falle einer regularen Korrelationsmatrix erhalt man mit B = RyxR−1x auch gleich

die Losung.

Will man in der Situation der Faktorenanalyse die beobachtbaren Variablen x

durch die Faktoren f vorhersagen, so erkennt man, dass die Ladungsmatrix Λ

in der gerade betrachteten Gleichung eine Losung fur B darstellt, da dann diese

Gleichung gerade die Beziehung zwischen Faktorstruktur und Faktormuster ist.

Es folgt, dass die Vorhersage der beobachtbaren Variablen durch die Faktoren die

Form Λf annimmt, was wiederum mit den dort so genannten reduzierten Varia-

blen ubereinstimmt. Damit erweist sich die Bezeichnung x fur diese reduzierten

Variablen als im Sinne der Regression stimmig.

Die Gesamtkommunalitat ist dann die (multivariat) aufgeklarte Varianz im Sin-

ne der Spur, und bei unkorrelierten Faktoren ist diese Gesamtkommunalitat die

Summe der durch die einzelnen Faktoren aufgeklarten Varianzen.

Kovarianztreue Darstellungen und Rotationen. Im Grunde ist in Kapitel

4.1 alles Wesentliche zu den kovarianztreuen Darstellungen gesagt worden. Neu

ist nur, dass in die entsprechenden Abbildungen nicht nur ein Kriterium einzu-

zeichnen ist, sondern mehrere.

Im Allgemeinen ist eine solche Situation leider der Anschauung nicht mehr zugang-

lich, da man im einfachsten Fall mit zwei Pradiktoren und zwei Kriteriumsvaria-

blen bereits den vierdimensionalen Raum zur Darstellung benotigt (von uninter-

essanten Fallen abgesehen, wie beispielsweise dem, dass die beiden Fehler eine

Korrelation von 1 besitzen).

Page 61: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 61

Sinnvollerweise beschrankt man sich daher in der Darstellung auf den von den

Reprasentanten der Pradiktoren aufgespannten Unterraum, in dem sich ja auch

die Reprasentanten der Vorhersagen finden.

Man erhalt dann Darstellungen, die ahnlich den Ladungsdiagrammen der Fakto-

renanalyse sind, was ja, wie sich gerade gezeigt hat, auch kein Zufall ist, da diese

sich vielmehr als Spezialfalle erweisen.

Variablentransformationen auf Pradiktorseite sind in der Faktorenanalyse die so

genannten Rotationen, weshalb auch im allgemeinen Fall jetzt oft diese Bezeich-

nung verwendet werden soll. Die Motivationen fur solche Rotationen sind im

Ubrigen in vielen Fallen auch der Wunsch, Variablen zu konstruieren, die im

Sinne der Regression eine womoglich einleuchtendere inhaltliche Deutung zu er-

lauben scheinen. Ein Beispiel dafur sind die Rotationen im Rahmen der Haupt-

komponentenanalyse.

An dem oben immer wieder verwendeten Beispiel mit zwei Pradiktoren und drei

Kriteriumsvariablen sollen nun diese Sachverhalte genauer erlautert werden, wo-

bei ein wichtiger Aspekt immer der ist, dass nicht alles, was im Spezialfall der

Faktorenanalyse gilt, auch im allgemeineren Fall richtig ist.

Zur Notation ist eine Vorbemerkung notig: Wie in solchen Situationen ublich,

sollen die zur Darstellung von Variablen xj verwendeten Vektoren xj heißen etc..

Die Kollision dieser Bezeichnung mit der Bezeichnung des Vektors der Werte der

j-ten Versuchsperson in allen x-Variablen ist harmlos, da solche Vektoren von

Werten hier gar nicht betrachtet werden.

Die Kovarianzmatrix der Variablen x1, x2, y1, y2, y3 wurde oben schon angege-

ben, wo auch schon die Matrix der Regressionsgewichte bestimmt wurde. Diese

Matrix war

B =

2 1

1 2

−1 −1

.

Oben hatte sich auch gezeigt, dass hier die Fehler nicht unkorreliert sind (im

Gegensatz zum Modell der Faktorenanalyse).

Es folgt eine kovarianztreue Darstellung der xj und yk in der durch die beiden

Pradiktoren aufgespannten Ebene; rechts sind wieder zwei Einheiten des verwen-

deten Maßstabs.

Page 62: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 62

Die Graphik wurde so hergestellt, dass zuerst die zu den Pradiktoren gehorenden

Vektoren x1 und x2 mit der richtigen Lange und dem zugehorigen Winkel gezeich-

net wurden, und dann mit Hilfe des dadurch etablierten Koordinatensystems die

yk uber ihre Koordinaten, die ja gleich den Regressionsgewichten sein mussen.

.............................................................................................................................................................................................................................................................................................

....................................................................................................................................................................................................................................................................................................................................................

........................................................................................... ....................................................................................................................................................................

.........................................................................................................................................................................................

..................

..................

..................

...................

..................

..................

..................

...................

..................

..................

..................

........................................

.................................................................................................................................................

x1

x2y1

y2

y3

......................................................................................................................................................................................................

......................

......................

......................

Die Langen der Vektoren sind wie ublich die Streuungen der entsprechenden

Variablen; bei den Pradiktoren also deren Streuungen und bei den Vorhersa-

gen der Kriteriumsvariablen die Streuungen dieser Vorhersagen. Da weder die

Pradiktoren noch die Kriteriumsvariablen standardisiert sind, sind die Langen

der xj nicht gleich 1 und die der yk nicht ≤ 1. Solange keine weitere Information

uber die Streuungen der Variablen yk selber gegeben ist, kann man nichts uber

die aufgeklarten (relativen) Varianzanteile sagen (im Gegensatz zur Faktorenana-

lyse, wo ja die Kommunalitaten aus der Zeichnung ermittelt werden konnen). Hat

man diese Zusatzinformation, so sind die durch die Varianzen der yk dividierten

quadrierten Langen der yk diese relativen aufgeklarten Varianzen.

Was die Winkel zwischen den Vektoren angeht, so sind deren Kosinus die Kor-

relationen zwischen den entsprechenden Variablen. Leider kann hier fur zwei der

yk nicht ohne weiteres – wie bei der Faktorenanalyse – aus der Korrelation der

yk durch Multiplikation mit den Streuungen dieser Variablen die Kovarianz der

entsprechenden yk ermittelt werden, was daran liegt, dass die Fehler nicht un-

korreliert sein mussen. Fur jeweils einen Pradiktor und eine Vorhersage hingegen

fuhrt dies Verfahren zu der korrekten Kovarianz, wie man sich leicht uberlegt.

In den nachsten beiden Graphiken sind mehrere Sachverhalte illustriert. Einer-

seits erinnern im linken Teil die Koordinatenlinien bei y3 daran, dass die Ko-

ordinaten bezuglich des x1-x2-Systems gerade die Regressionsgewichte sind. Die

von y1 auf die Achsen gefallten Lote lassen entsprechend die Regressionsgewichte

bei einfachen linearen Regressionen ablesen (mit der Kenntnis der Varianzen der

yk kann man auch die β-Gewichte und die Korrelationen ermitteln, wie im letz-

Page 63: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 63

ten Kapitel gezeigt wurde; man beachte aber, dass wegen der unterschiedlichen

Varianzen der yk die entsprechenden Langen bei unterschiedlichen Kriteriumsva-

riablen nicht direkt vergleichbar sind). Im rechten Teil ist illustriert, dass man

den Reprasentanten v der Regression der Summe v = y1 +y2 auf die Pradiktoren

einfach als entsprechende Linearkombination y1 + y2 der Reprasentanten der

Einzelvorhersagen findet.

.............................................................................................................................................................................................................................................................................................

...........................................................................................................................................................................................................................................................................................................................................................................................................................................

........................................................................................... ....................................................................................................................................................................

.........................................................................................................................................................................................

...................

..................

..................

..................

...................

..................

..................

..................

..................

...................

..................

.......................................

.................................................................................................................................................

........................................................................

.........................................

......................................................

x1

x2y1

y2

y3

.............................................................................................................................................................................................................................................................................................

...........................................................................................................................................................................................................................................................................................................................................................................................................................................

........................................................................................... ....................................................................................................................................................................

.........................................................................................................................................................................................

...................

..................

..................

..................

...................

..................

..................

..................

..................

...................

..................

.......................................

.................................................................................................................................................

.......................................................................................................................................................................................................................................................................................................................................................................

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

........

.....................

...................

.........................................................................................................................................................................................

x1

x2y1

y2

y3

v

......................................................................................................................................................................................................

......................

......................

......................

In der nachsten Darstellung sind sowohl die Pradiktoren wie die Kriteriums-

variablen standardisiert; die standardiserten xj sollen dabei zj heißen und die

standardisierten yk den Namen uk bekommen. Im Vergleich zur ursprunglichen

Darstellung sind hier die Vektoren durch die Streuungen der xj einerseits und der

yk andererseits zu dividieren. Das fuhrt dazu, dass die zj die Lange 1 besitzen und

die uk hochstens diese Lange haben konnen, da ihre quadrierte Lange nun die

relative aufgeklarte Varianz ist. Der Maßstab der Zeichnung ist großer gewahlt

und es ist auch der Einheitskreis eingezeichnet, der auf die gerade geschilderten

Verhaltnisse bei den Langen der Vektoren hinweist.

......................................................................................................................................................................................................................................................................................................................................................

............................................................................................................................................................................................................................................................................................................................

.................................................................................................................................................................. ........................................................................................................................................................................................................

............................................................................................................................................................

..................

..................

..................

..................

..................

..................

..................

...............................................

.................................................................................................................................................

........

........

........

.......................................................................

.....................

..........................

....................................

...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

....................................

.............................................................................................................................................z1

z2

u1

u2

u3

......................................................................................................................................................................................................................................................................................................................................................

............................................................................................................................................................................................................................................................................................................................

.................................................................................................................................................................. ........................................................................................................................................................................................................ rr

r...............................................................................................

.....................

..........................

....................................

...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

....................................

.............................................................................................................................................z1

z2

u1

u2

u3

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.............................

.........................................................

.........................................................

......................................................................................

......................................................................................

......................................................................................

Page 64: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 64

Hier liegen nun fast die aus der Faktorenanalyse bekannten Verhaltnisse vor. Die

Darstellung der vorhergesagten Variablen durch Pfeile ist links zur Vergleich-

barkeit mit der ersten Abbildung beibehalten worden; daneben findet sich die

vertrautere Darstellung mit Punkten. Als Koordinaten der uk liest man die β-

Gewichte ab und mit Hilfe der Lote die Korrelationen der yk mit den xj. Zum

Vergleich folgen die nach den gegebenen Formeln berechneten Matrizen der β-

Gewichte und der Korrelationen:

0.8 0.6

0.3333 1.

−0.5 −0.75

0.6 0.3333

0. 0.8889

−0.25 −0.5833

.

Der Unterschied zu den Verhaltnissen bei der Faktorenanalyse liegt aber immer

noch darin, dass die Korrelationen der vorhergesagten Variablen wegen der kor-

relierenden Fehler nicht durch Multiplikation mit den zugehorigen Streuungen in

die Korrelationen der Originalvariablen umgerechnet werden konnen.

Als letztes folgt noch die Darstellung einer Rotation. Als neue Pradiktoren sollen

nun die Variablen v1 = x1 + x2 und v2 = x2− x1 dienen. Die Rotationsmatrix ist

daher

G =

(1 −1

1 1

),

woraus man als neue Koeffizientenmatrix BG′−1 die Matrix

1.5 −0.5

1.5 0.5

−1. 0.

berechnet.

Wie gewohnt kann man in die ursprungliche Darstellung die Reprasentanten der

neuen Pradiktoren als die entsprechenden Linearkombinationen eintragen und

dann in dem zugehorigen neuen Koordinatensystem in der gleichen Weise Kenn-

werte ermitteln wie in dem alten. Es folgt nun diese Darstellung, zusatzlich die-

selbe Darstellung mit den eher vertrauten Punkten statt der Vektoren fur die

vorhergesagten Variablen.

Page 65: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 65

......................................................................................................................................................................................................................................................................................................................................................................................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

..........

.................................................................................................................................................

......................................................

......................................................

.............................................................................

.........................................................................................................................................................................................

..................

..................

..................

..................

...................

..................

..................

..................

...................

..................

..................

........................................

.................................................................................................................................................

........................................................................................... ....................................................................................................................................................................

v1v2 y1

y2

y3

......................................................................................................................................................................................................................................................................................................................................................................................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

........................

..........

.................................................................................................................................................

........................

........................

........................

........................

........................

........................

.........................................

........................................................................................... ....................................................................................................................................................................r

r

rv1v2

y1

y2

y3

......................................................................................................................................................................................................

......................

......................

......................

Naturlich ware hier auch eine graphische Rotation moglich gewesen, bei der man

sich die neuen Achsen in geeigneter Lage zu den Punkten gesucht hatte.

Regression und Determinante. In diesem Abschnitt sollen Beziehungen zwi-

schen den Determinanten der Kovarianzmatrizen der bei der Regression beteilig-

ten Variablen untersucht werden.

Die Beziehung y = Bx + e kann man etwas kunstlich erweitern, indem man die

Gleichung x = x am Anfang hinzufugt. Fasst man dann x und y zu einem Vektor

zusammen und ebenso x und e, so erhalt man die Gleichung(x

y

)=

(I 0

B I

)(x

e

),

aus der man unmittelbar folgende Gleichung fur Kovarianzmatrizen erhalt:

V(

(x

y

)) =

(I 0

B I

)V(

(x

e

))

(I B′

0 I

).

Die Determinante der Kovarianzmatrix von (x,y) ist daher das Produkt der

Determinanten der Matrizen auf der rechten Seite. Die Determinanten der bei-

den Matrizen rechts und links sind hier 1, und wegen der Unkorreliertheit von

Pradiktoren und Fehlern ist

V(

(x

e

)) =

(Sx 0

0 Se

)

und daher die Determinante der mittleren Matrix gleich dem Produkt der Deter-

minanten von Sx und Se. Insgesamt erhalt man

det(V(

(x

y

))) = det(Sx) det(Se) .

Page 66: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 66

Schreibt man fur die Kovarianzmatrix von (x,y) etwas kurzer S(x,y) und fur die

Kovarianzmatrix des Fehlers deutlicher Sy.x, so erhalt man

det(S(x,y)) = det(Sx) det(Sy.x) .

Feststellung 7. Bei einer multivariaten multiplen Regression von y auf x gilt

fur die Determinanten der Kovarianzmatrix S(x,y) von (x,y), der Kovarianzma-

trix Sx der Pradiktoren x und der Residualkovarianzmatrix Sy.x des Fehlers die

Beziehung

det(S(x,y)) = det(Sx) det(Sy.x) . ¤

In dem oben betrachteten Beispiel bestimmt man mit etwas Aufwand die De-

terminante der (5 × 5)-Kovarianzmatrix der beiden x-Variablen und der drei

y-Variablen zu 2080. Die Determinante der (2 × 2)-Kovarianzmatrix der beiden

x-Variablen ist 32 und die der (3×3)-Kovarianzmatrix der Fehlervariablen gleich

65. In der Tat gilt hier 2080 = 32 · 65.

Mit der Beziehung aus der letzten Feststellung kann der Determinante einer Ko-

varianzmatrix eine neue Bedeutung gegeben werden, was nun geschehen soll.

Zunachst gilt fur den Spezialfall, dass y nur aus einer Variable besteht, dass die

Varianz des Fehlers gleich S2y (1−R2

y,x) ist, wo S2y die Varianz von y ist und R2

y,x

der Determinationskoeffizient der Regression von y auf x. Man erhalt dann die

Gleichung

det(S(x,y)) = det(Sx) S2y (1−R2

y,x) .

Betrachtet man nun fur nur noch einen Variablenvektor x die Regression der

letzten Variable xp auf die vorherigen, die zu einem Vektor x1 = (x1, . . . , xp−1)′

zusammengefasst seien, und schreibt man fur den Determinationskoeffizienten

dieser Regression R2p,1...(p−1), so erhalt man

det(Sx) = det(Sx1) S2xp

(1−R2

p,1...(p−1)

).

Auf die gleiche Art kann man aber auch Sx1 darstellen und diesen Prozess wei-

terfuhren bis man bei nur noch einer Variable angelangt ist. Mit der Bezeich-

nung R2q+1,1...q fur den Determinationskoeffizienten der Regression von xq+1 auf

(x1, . . . , xq) ergibt sich so

det(Sx) = S2x1

S2x2

(1−R2

2,1

). . . S2

xp

(1−R2

p,1...(p−1)

)

Page 67: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 67

oder umgeordnet

det(Sx) = S2x1

S2x2

. . . S2xp

(1−R2

2,1

) (1−R2

3,12

). . .

(1−R2

p,1...(p−1)

).

Die Determinante von Sx ist also das Produkt der Varianzen der xj mit den

Faktoren(1−R2

q+1,1...q

), die jeweils die (relativen) aufgeklarten Varianzanteile

angeben, wenn man Regressionen der Einzelvariablen auf die jeweils vorherge-

henden durchfuhrt.

Dividiert man daher die Determinante von Sx durch das Produkt der Varianzen,

so erhalt man mit dem Produkt der(1−R2

q+1,1...q

)ein Maß fur die Abhangigkeit

der Variablen untereinander im Sinne der relativen Varianzaufklarung durch Re-

gressionen.

Berucksichtigt man ferner, dass die Korrelationsmatrix Rx sich auch schreiben

lasst als V−1/2x SxV

−1/2x (wobei Vx wieder die Diagonalmatrix der Varianzen der

xj ist), so folgt

det(Rx) = det(V−1/2x ) det(Sx) det(V

−1/2x )

= det(V−1/2x ) det(V

−1/2x ) det(Sx)

= det(V−1x ) det(Sx) = det(Sx)/ det(Vx) ,

und da die Determinante von Vx gerade das Produkt der Varianzen S2xj

ist, so

ergibt sich

det(Rx) =(1−R2

2,1

) (1−R2

3,12

). . .

(1−R2

p,1...(p−1)

).

Feststellung 8. Sind Sx und Rx die Kovarianz- und Korrelationsmatrix der

Variablen xj mit Varianzen S2xj

, und ist R2q+1,1...q der Determinationskoeffizient

bei Regression von xq+1 auf x1, . . . , xq, so gilt

det(Rx) =(1−R2

2,1

) (1−R2

3,12

). . .

(1−R2

p,1...(p−1)

)

und

det(Sx) = S2x1

S2x2

. . . S2xp

(1−R2

2,1

) (1−R2

3,12

). . .

(1−R2

p,1...(p−1)

).

Fur die Determinanten von Kovarianz- und Korrelationsmatrix gilt ferner

det(Rx) = det(Sx)/(

S2x1

. . . S2xp

). ¤

Page 68: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 68

Nebenbei ergibt sich damit ubrigens eine Abschatzung der Determinante: Da die

Determinationskoeffizienten alle zwischen 0 und 1 liegen, ist dasselbe der Fall fur

die Faktoren bei der Kovarianzmatrix, und es folgt

0 ≤ det(Sx) ≤ S2x1

. . . S2xp

und fur die Korrelationsmatrix entsprechend

0 ≤ det(Rx) ≤ 1 .

Hier drangt sich naturlich die Frage auf, unter welchen Bedingungen die Deter-

minante minimal (also 0) und maximal (also 1) ist. An der gerade hergeleiteten

Produktdarstellung sieht man, dass die Determinante genau dann gleich 0 ist,

wenn mindestens einer der Faktoren 0 ist. Da alle Faktoren ≤ 1 sind, ist die

Determinante genau dann 1, wenn alle Faktoren gleich 1 sind.

Nun erhalt man die Faktoren dadurch, dass man von 1 einen Determinations-

koeffizienten abzieht. Es folgt, dass die Determinante genau dann 0 ist, wenn

mindestens einer der Determinationskoeffizienten 1 ist, und genau dann 1, wenn

alle Determinationskoeffizienten 0 sind. Diese beiden Moglichkeiten sind nun ge-

nauer zu bestimmen.

Die Feststellung 3 aus Kapitel 4.1 zeigt, dass ein Determinationskoeffizient genau

dann 0 ist, wenn das Kriterium mit keinem Pradiktor korreliert. Der Fall, dass alle

Determinationskoeffizienten im Produkt 0 sind, tritt also genau dann ein, wenn

fur alle Variablen die Korrelationen mit den in der Reihenfolge vorangehenden

Variablen alle 0 sind, mit anderen Worten genau dann, wenn alle Korrelationen

0 sind, wenn also die Korrelationsmatrix die Einheitsmatrix ist.

Der Fall, dass ein Determinationskoeffizient 1 ist, ist hingegen gleichbedeutend

damit, dass die Vorhersage mit dem Kriterium ubereinstimmt. Hier heißt das,

dass eine der Variablen perfekt durch die vorangehenden vorhergesagt werden

kann. Dann kann sie naturlich erst recht perfekt vorhergesagt werden, wenn man

die ubrigen Variablen auch noch zu den Padiktoren hinzufugt. Kann umgekehrt

eine Variable perfekt durch die anderen vorhergesagt werden, so erhalt man eine

Variable der Varianz 0, wenn man die Vorhersage von dieser Variable abzieht –

mit anderen Worten gibt es eine Linearkombination der Variablen, bei der nicht

alle Koeffizienten 0 sind und die die Varianz 0 besitzt. Hieraus folgt jedoch, dass

die Kovarianzmatrix der Variablen nicht positiv definit und folglich singular ist,

was sich auch auf die Korrelationsmatrix ubertragt. Lasst sich also eine Variable

Page 69: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 69

durch die ubrigen perfekt vorhersagen, so ist auch die Determinante der Korre-

lationsmatrix gleich 0.

Insgesamt erhalt man so das folgende Resultat:

Feststellung 9. Die Determinante einer Korrelationsmatrix ist genau dann 0,

wenn eine der Variablen perfekt durch die anderen vorhergesagt werden kann,

und sie ist genau dann 1, wenn alle Variablen unkorreliert sind.

In diesem Sinn kann man die Determinante einer Korrelationsmatrix deuten als

Hinweis darauf, in welchem Ausmaß Variablen durch die anderen vorhergesagt

werden konnen. Ist die Determinante 0, so kann (mindestens) eine Variable per-

fekt durch die anderen vorhergesagt werden, ist die Determinante 1, so sind alle

Korrelationen 0 und alle Vorhersagen einer Variablen durch die jeweils anderen

sind konstant, also nutzlos.

Bei Werten, die nicht 0 oder 1 sind, ist zur Interpretation die Darstellung der

Determinante als Produkt aus Feststellung 8 hilfreich.

Mit aller gebotenen Vorsicht kann man so die Determinante einer Korrelations-

matrix als ein Maß fur die Multikollinearitat benutzen, wobei kleine Werte fur

starke wechselseitige Abhangigkeiten sprechen und große Werte fur geringe.

Regression und Inverse. Auch die Inverse der Kovarianzmatrix der Pradiktoren

x und Kriteriumsvariablen y enthalt (zumindest theoretisch) noch interessante

Informationen.

Es soll also jetzt vorausgesetzt sein, dass diese Matrix invertierbar ist. Weiter oben

hat sich schon ein Zusammenhang mit der Kovarianzmatrix der Pradiktoren und

der Residuen gezeigt, namlich

V(

(x

y

)) =

(I 0

B I

)V(

(x

e

))

(I B′

0 I

),

wobei B die Matrix der Regressionsgewichte war.

Diese Gleichung soll nun invertiert werden (wenn die Matrix auf der linken Seite

invertierbar ist, so mussen auch die auf der rechten Seite invertierbar sein). Als

erstes soll das Inverse der ersten Matrix auf der rechten Seite bestimmt werden.

Hier pruft man sofort nach, dass(

I 0

B I

)(I 0

−B I

)=

(I 0

B−B I

)=

(I 0

0 I

)

Page 70: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 70

gilt, also (I 0

B I

)−1

=

(I 0

−B I

).

Durch Transponieren erhalt man

(I B′

0 I

)−1

=

(I −B′

0 I

).

Da die Kovarianzmatrix der Pradiktoren und der Fehler invertierbar ist, mussen

auch die beiden Matrizen in ihrer Diagonale invertierbar sein (da sie ja sonst

einen Rangdefekt hatte), und man erhalt (wieder mit der Schreibweise Sy.x fur

die Kovarianzmatrix von e)

V(

(x

e

))−1 =

(Sx 0

0 Sy.x

)−1

=

(S−1x 0

0 S−1y.x

).

Insgesamt folgt

V(

(x

y

))−1 =

(I B′

0 I

)−1

V(

(x

e

))−1

(I 0

B I

)−1

=

(I −B′

0 I

) (S−1x 0

0 S−1y.x

) (I 0

−B I

)

=

(S−1x + B′ S−1

y.x B −B′ S−1y.x

−S−1y.x B S−1

y.x

).

Der Teil der Inversen der Kovarianzmatrix von x und y, der y entspricht, ist also

gerade das Inverse der Kovarianzmatrix des Residuums. Diese Kovarianzmatrix

kann man also (theoretisch) auch berechnen, indem man zunachst die Kovarianz-

matrix von x und y invertiert und dann den zu y gehorenden Teil des Ergebnisses

noch einmal invertiert.

Feststellung 10. Bei einer multiplen multivariaten Regression eines q-dimensiona-

len Kriteriums y auf einen p-dimensionalen Pradiktor x erhalt man, falls die

Kovarianzmatrix K von (x,y) invertierbar ist, die Kovarianzmatrix Sy.x des Re-

siduums auch als Inverse der rechten unteren (q × q)-Teilmatrix von K−1. ¤

Page 71: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 71

Beispielsweise sei die Kovarianzmatrix von zwei Pradiktorvariablen und drei Kri-

teriumsvariablen die folgende Matrix:

1 2 −1 −1 −2

2 5 −3 −1 −3

−1 −3 3 −3 −2

−1 −1 −3 12 14

−2 −3 −2 14 19

.

Die Inverse dieser Matrix berechnet man zu

7 −5 −4 −2 1

−5 10 13 6 −2

−4 13 19 9 −3

−2 6 9 5 −2

1 −2 −3 −2 1

,

und hier ist der Teil, der y entspricht, gerade

19 9 −3

9 5 −2

−3 −2 1

.

Die Inverse dieser Matrix ist die Kovarianzmatrix des Fehlers, so dass man schließ-

lich

Sy.x =

1 −3 −3

−3 10 11

−3 11 14

erhalt.

Ein Spezialfall ist der mit nur einer Kriteriumsvariable. Die Fehlervarianz bei

einer nun univariaten multiplen Regression ist dann der Kehrwert des Elements,

das unten rechts in der Inversen der Kovarianzmatrix der Pradiktoren und des

Kriteriums steht. Wollte man im eben betrachteten Beispiel die letzte Variable

mit den ersten vier vorhersagen, so ware die Fehlervarianz der Kehrwert des

Elements unten rechts in der Inversen, also der Kehrwert von 1 und damit 1.

Was fur die letzte Variable gilt, gilt jedoch ebenso fur alle anderen Variablen: Je-

des Diagonalelement der Inversen der Kovarinanzmatrix einer Variablen x ist der

Kehrwert der Residualvarianz bei Regression der entsprechenden Komponente

von x auf alle anderen Komponenten. Ist die oben betrachtete Kovarianzma-

trix nun die Kovarianzmatrix von 5 Variablen xi, so ist beispielsweise das zweite

Page 72: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 72

Diagonalelement 10 der Inversen gerade der Kehrwert der Residualvarianz bei

Regression von x2 auf die ubrigen Variablen; diese Residualvarianz ist folglich

gleich .1.

Dies folgt aus dem gerade behandelten Fall beispielsweise folgendermaßen: Geht

es um das i-te Diagonalelement, so definiert zunachst eine Matrix T, die auf einen

Vektor x angewendet gerade das i-te und das letzte Element vertauscht. Diese

Matrix T ist dann offenbar die Einheitsmatrix, bei der man die i-te und die letzte

Spalte vertauscht; im Beispiel mit den 5 Variablen, in dem x2 durch die restlichen

Variablen vorhergesagt werden soll, ware T gerade

1 0 0 0 0

0 0 0 0 1

0 0 1 0 0

0 0 0 1 0

0 1 0 0 0

.

Die Matrix T hat offenbar die bemerkenswerten Eigenschaften T2 = I, also T−1 =

T, und T′ = T.

In dem Vektor Tx stehen die Variablen nun in einer brauchbaren Reihenfolge,

weshalb der Kehrwert des Elements unten rechts im Inversen der Kovarianzma-

trix von Tx gerade die gesuchte Residualvarianz ist. Nun ist die Kovarianzmatrix

von Tx aber TV(x)T′ und besitzt wegen der Eigenschaften von T die Inverse

TV(x)−1T. Man erkennt jedoch sofort, dass das Element rechts unten in dieser

Matrix gerade gerade das i-te Diagonalelement von V(x)−1 ist, da die Multipli-

kationen mit T von links und rechts gerade die i-te Zeile bzw. Spalte mit der

letzten Zeile bzw. Spalte vertauscht. Die Behauptung ist damit gezeigt.

Feststellung 11. Ist K die Kovarianzmatrix einer Variable x, so sind die Kehr-

werte der Diagonalelemente von K−1 gerade die Residualvarianzen bei Regression

der xi auf die jeweils restlichen Komponenten xj von x. ¤

Geht man beispielsweise von einer Korrelationsmatrix aus (also der Kovarianzma-

trix der standardisierten Variablen), so sind die Kehrwerte der Diagonalelemente

der invertierten Kovarianzmatrix wieder die Residualvarianzen, wobei aber jetzt

die Gesamtvarianzen 1 sind. Zieht man also diese Werte von 1 ab, so erhalt man

die entsprechenden Determinationskoeffizienten.

Page 73: 4 Regression - Uni Kiel · 4 Regression 4.1 Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, n˜amlich die

4.2 Multivariate multiple Regression R07 73

Beispielsweise sei

1. 0.6 0.36

0.6 1. 0.6

0.36 0.6 1.

die Korrelationsmatrix von drei Variablen. Die Inverse dieser Matrix berechnet

sich zu

1.5625 −0.9375 0

−0.9375 2.125 −0.9375

0 −0.9375 1.5625

.

Die Kehrwerte der Diagonalelemente 1.5625, 2.125 und 1.5625 sind hier 0.64,

0.470588 und 0.64, weshalb sich die Determinationskoeffizienten zu .36, .529412

und .36 errechnen.