teil 13: die einfache lineare regression · dozent: dawid bekalarczyk universität duisburg-essen...

Dozent: Dawid Bekalarczyk

Universität Duisburg-Essen

Fachbereich Gesellschaftswissenschaften

Institut für Soziologie

Lehrstuhl für empirische Sozialforschung

Raum: LF 161

TEIL 13: DIE EINFACHE LINEARE REGRESSION






Raum: LF 161

Die einfache lineare Regression – Grundlagen

• Die einfache lineare Regression ist ebenfalls den bivariaten Ver-

fahren für metrische Daten zuzuordnen1

• Sie hat einen Sonderstatus, da sie nicht bloß eine einfache

Maßzahl darstellt, sondern ein komplexeres Verfahren bzw. die

Realisierung eines Modells darstellt

• Es werden gerichtete Beziehungen betrachtet:

o � stellt die unabhängige Variable (angenommene Ursache)

und � die abhängige Variable (angenommene Wirkung) dar

o Somit lassen sich gerichtete Hypothesen der Art „� hat ei-

nen Einfluss auf �“ überprüfen

1 „einfach“ bezieht sich hier darauf, dass nur zwei Variablen betrachtet werden (bivariat); bei mehr als zwei Variablen stellt die lineare Regression ein multivariates Verfahren dar und wird nicht mehr als „einfache“ son-

dern als „multiple“ Regression bezeichnet.






Raum: LF 161

• Es wird eine Verbindung zwischen drei gedanklichen Ansätzen

realisiert:

o Untersuchung des Zusammenhangs zwischen � und �

o Prognose / Schätzung der Werte von � unter Berücksichti-

gung der Informationen von �

o Erklärung der Streuung von � mithilfe der Informationen

von �






Raum: LF 161

Prognosen / Schätzungen

• Fragestellung: Welche Merkmalsausprägung einer Variablen �

kann einem zufällig gewählten Objekt zugeordnet werden?

o Beispiel: Es soll das Einkommen einer Person geschätzt wer-

den, die man zufällig in der Stadt trifft

• Liegen keine weiteren Informationen über die Person vor, so

muss sich die Prognose auf das beschränken, was über � (hier

im Beispiel: das Einkommen) gewusst wird2

• Der für die Prognose geeignetste Wert der eigenen Verteilung

von � ist das arithmetische Mittel3 ��

2 Dies entspricht einer Prognosen anhand der eigenen univariaten Verteilung von �

3 Hier im Beispiel: das Durchschnittseinkommen; man würde also vermuten, dass das Einkommen der zufällig getroffenen Person dem Durchschnittseinkommen entspricht






Raum: LF 161

• ABER: Je größer aber die Streuung einer Variablen, umso

schlechter eignet sich der Mittelwert zur Vorhersage bzw. um-

so größer ist die Gefahr, dass man sich stark verschätzt

Visualisierung des Beispiels „Einkommen einer Person“:

• Prognosen können verbessert werden, wenn Informationen

über ein weiteres Merkmal

• Wissen wir z.B., welchen Beruf die Person ausübt, dann kön

ten wir u.U. eine bessere S


Prognosen können verbessert werden, wenn Informationen

weiteres Merkmal � hinzugezogen werden

issen wir z.B., welchen Beruf die Person ausübt, dann kön

en wir u.U. eine bessere Schätzung des Einkommens abgeben






Raum: LF 161


Prognosen können verbessert werden, wenn Informationen

hinzugezogen werden

issen wir z.B., welchen Beruf die Person ausübt, dann könn-

chätzung des Einkommens abgeben

Verbindung zwischen Prognose

schen � und �

• Je stärker � und �besser ist � geeignet

• Die Vorhersagewerte

sionsgeraden: �� (y-

Mittelwert von y

y

Verbindung zwischen Prognose von � und Zusammenhang zw

miteinander linear zusammenhängen,

geeignet, um die Werte von � vorauszusagen

Vorhersagewerte sind hierbei die �-Werte der sog. Regre

� -Dach)

x

Regressionsgerade






Raum: LF 161

und Zusammenhang zwi-

miteinander linear zusammenhängen, umso

vorauszusagen

Werte der sog. Regres-






Raum: LF 161

Die Regressionsgerade

• Die Gerade, welche sich einer bivariaten Punktewolke am bes-

ten anpasst

• Je stärker der Zusammenhang zwischen � und �, umso weniger

weichen im Schnitt die tatsächlichen �-Werte von der Regres-

sionsgeraden (also von ��) ab






Raum: LF 161

Bestimmung der Parameter der Regressionsgeraden:

• Es lassen sich nach Augenmaß viele „passende“ Geraden durch

eine Punktewolke legen

• Doch es gibt nur eine Gerade, welche mathematisch gesehen

die beste Anpassung an die Punktewolke liefert � Die Regres-

sionsgerade

• Allgemein: Eine Gerade ist eindeutig bestimmt, wenn die Stei-

gung („�“) und der y-Achsenabschnitt („�“) bekannt ist

• „�“ lässt sich wiederum berechnen, wenn die Steigung und ein

Punkt der Geraden bekannt sind






Raum: LF 161

Geraden-Formel:4

�� = � + ��

Kriterium zur Bestimmung der besten Anpassung einer Geraden

an eine Punktewolke:

• Die Summe der Abweichungen zwischen den echten und den

vorhergesagten �-Werten soll minimal sein (damit alle Abwei-

chungen positiv sind, werden sie quadriert)

�(� − ��)� → min�

��

4 � = Laufindex für die einzelnen untersuchten Fälle; � stellt den letzten Fall dar und entspricht somit der Anzahl der untersuchten Fälle. Dies gilt für alle folgenden Laufindizes.






Raum: LF 161

• Wird im nächsten Schritt �� mit dem Ausdruck der Geraden-

Gleichung ersetzt, ergibt sich:

�(� − (� + ��))� → min�

��

• Dieser Ausdruck lässt sich nun nach � ableiten

• Somit kann rechnerisch eine eindeutige Größe bestimmt wer-

den, welche das Kriterium zur besten Anpassung einer Geraden

an eine Punktewolke erfüllt:5

5 ��steht hierbei für die Varianz von �






Raum: LF 161

� = Cov� ��

• � steht für die Steigung der Geraden, besagt somit, wie sich der

�-Schätzwert �� ändert, wenn � um eine Einheit steigt

• � ist unstandardisiert und somit nicht geeignet zur Beurteilung

der Vorhersagekraft der Regressionsgeraden






Raum: LF 161

Bestimmung von „!“:

• Ferner soll eine Regressionsgerade durch den Schwerpunkt der

Verteilung gehen

• Der Schwerpunkt setzt sich aus den beiden Mittelwerten von �

und � zusammen, ist also der Punkt: "(�#|�%)

• Damit ist auch ein Punkt der Geraden bekannt; werden die

Koordinaten in die Geraden-Gleichung eingesetzt, lässt sich „�“

bestimmen:

� = � − ��

• � steht für den �-Achsenabschnitt und besagt somit, welchen

geschätzten Wert � annimmt, wenn � gleich 0 ist






Raum: LF 161

Allgemeine Anmerkungen:

• Es lässt sich für jede Punktewolke eine Regressionsgerade ma-

thematisch bestimmen:

o Diese Gerade ist immer die beste Gerade, die sich an diese

Punktewolke anpassen lässt!

• Wenn aber keine oder nur eine schwache lineare Beziehung

zwischen � und � besteht, dann vermag auch die Regressions-

gerade die Schätzung der �-Werte kaum zu verbessern:






Raum: LF 161






Raum: LF 161

Bestimmung der Güte der Anpassung durch eine Regressionsge-

rade �� der Determinationskoeffizient

• Nun soll das Konzept der Prognose von � mit der Erklärung der

Streuung von � verbunden werden

• Denn es muss Gründe geben, warum die Werte von Variablen

� mehr oder weniger streuen (und nicht für alle Merkmalsträ-

ger gleich sind)

• Diese Gründe werden in der Regressionsanalyse durch unab-

hängige �-Variablen formalisiert, von denen man annimmt,

dass sie z.T. für die Streuung einer Variablen � verantwortlich

sind






Raum: LF 161

Beispiele für Fragestellungen, welche sich auf die Varianz interes-

santer abhängiger Variablen beziehen:

• Warum gibt es derartige Leistungsunterschiede zwischen Schul-

kindern?6

• Warum gibt es unterschiedliche Einkommen?

• Warum gibt es Unterschiede in dem Ausmaß der Integration

von Migranten?

• Warum erkranken manche Leute an einer bestimmten Krank-

heit und die anderen wiederum nicht?

6 Die Leistungsunterschiede (�) könnten beispielsweise z.T. durch die unterschiedliche Lernmotivation der Schulkinder (�) erklärt werden. Analog dazu ließen sich unabhängige Variablen für die anderen hier aufgeführten

Beispiele finden.






Raum: LF 161

Funktionsweise des Determinationskoeffizienten:

• Das Ausmaß, mit dem � die Streuung von � erklären kann, lässt

sich mathematisch quantifizieren mit Hilfe des Determinati-

onskoeffizienten

• Der Determinationskoeffizient wird definiert als der Anteil der

erklärten Varianz an der Gesamtvarianz von �






Raum: LF 161

Die Gesamtvarianz von �:

& ( '( ))*'+,

�

Die „Erklärte Varianz“ von �

& ( �'( ))*'+,

�

Die „Nicht-Erklärte Varianz“ von �:

& ( '( �'))*'+,

�

� Die quadrierte Abweichung zwischen Vorhersagewert und

Mittelwert von �; um diese Differenz lässt sich die Vorher-

sage gegenüber dem Mittelwert verbessern

� Diese Größe stellt nichts anderes dar als die Varianz von �

� Die quadrierte Abweichung zwischen Vorhersagewert und

dem beobachteten Wert von �; diese Differenz ist sozusa-

gen der Rest, welcher auch durch die Regressionsgerade

nicht erklärt werden kann

Allgemein gilt: Erklärte Varianz + Nicht Erklärte Varianz = Gesamtvarianz






Raum: LF 161

Visualisierung der Aufteilung der Gesamtvarianz von � an nur ei-

ner Person:

( )ii yy −

( )iiy y−






Raum: LF 161

Formel des Determinationskoeffizienten:

-� = Erklärte VarianzGesamtvarianz = & (�� − �)��

��& (� − �)��

��

• Diese Maßzahl setzt die erklärte Varianz in Relation zur Gesamt-

varianz

• Sie drückt aus, wie groß der Anteil der erklärten Varianz an der

Gesamtvarianz ist

• Sie bewegt sich immer zwischen 0 und 1, da die „Erklärte Va-

rianz“ nur ein Bestandteil der Gesamtvarianz ist






Raum: LF 161

• Wird das Ergebnis mit 100 multipliziert, so lässt sich der neue

Wert prozentual deuten

o So besagt bspw. ein Wert von 0,74, dass 74% der Varianz von

� durch das Hinzuziehen der Informationen von � erklärt

werden kann

• Ist der Wert 1, dann entspricht die „Erklärte Varianz“ der Ge-

samtvarianz:

o Es bleibt kein Rest, alle Punkte liegen exakt auf der Regressi-

onsgeraden und es besteht ein perfekter linearer Zusam-

menhang zwischen � und �

o � kann die gesamte Streuung von � „aufklären“






Raum: LF 161

• Der Determinationskoeffizient lässt sich leicht aus dem Korrela-

tionskoeffizienten berechnen, indem letzterer quadriert wird

teil 13: die einfache lineare regression · dozent: dawid bekalarczyk universität duisburg-essen...

Documents