teil 13: die einfache lineare regression · dozent: dawid bekalarczyk universität duisburg-essen...
TRANSCRIPT
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
TEIL 13: DIE EINFACHE LINEARE REGRESSION
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die einfache lineare Regression – Grundlagen
• Die einfache lineare Regression ist ebenfalls den bivariaten Ver-
fahren für metrische Daten zuzuordnen1
• Sie hat einen Sonderstatus, da sie nicht bloß eine einfache
Maßzahl darstellt, sondern ein komplexeres Verfahren bzw. die
Realisierung eines Modells darstellt
• Es werden gerichtete Beziehungen betrachtet:
o � stellt die unabhängige Variable (angenommene Ursache)
und � die abhängige Variable (angenommene Wirkung) dar
o Somit lassen sich gerichtete Hypothesen der Art „� hat ei-
nen Einfluss auf �“ überprüfen
1 „einfach“ bezieht sich hier darauf, dass nur zwei Variablen betrachtet werden (bivariat); bei mehr als zwei Variablen stellt die lineare Regression ein multivariates Verfahren dar und wird nicht mehr als „einfache“ son-
dern als „multiple“ Regression bezeichnet.
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Es wird eine Verbindung zwischen drei gedanklichen Ansätzen
realisiert:
o Untersuchung des Zusammenhangs zwischen � und �
o Prognose / Schätzung der Werte von � unter Berücksichti-
gung der Informationen von �
o Erklärung der Streuung von � mithilfe der Informationen
von �
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Prognosen / Schätzungen
• Fragestellung: Welche Merkmalsausprägung einer Variablen �
kann einem zufällig gewählten Objekt zugeordnet werden?
o Beispiel: Es soll das Einkommen einer Person geschätzt wer-
den, die man zufällig in der Stadt trifft
• Liegen keine weiteren Informationen über die Person vor, so
muss sich die Prognose auf das beschränken, was über � (hier
im Beispiel: das Einkommen) gewusst wird2
• Der für die Prognose geeignetste Wert der eigenen Verteilung
von � ist das arithmetische Mittel3 ��
2 Dies entspricht einer Prognosen anhand der eigenen univariaten Verteilung von �
3 Hier im Beispiel: das Durchschnittseinkommen; man würde also vermuten, dass das Einkommen der zufällig getroffenen Person dem Durchschnittseinkommen entspricht
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• ABER: Je größer aber die Streuung einer Variablen, umso
schlechter eignet sich der Mittelwert zur Vorhersage bzw. um-
so größer ist die Gefahr, dass man sich stark verschätzt
Visualisierung des Beispiels „Einkommen einer Person“:
• Prognosen können verbessert werden, wenn Informationen
über ein weiteres Merkmal
• Wissen wir z.B., welchen Beruf die Person ausübt, dann kön
ten wir u.U. eine bessere S
Visualisierung des Beispiels „Einkommen einer Person“:
Prognosen können verbessert werden, wenn Informationen
weiteres Merkmal � hinzugezogen werden
issen wir z.B., welchen Beruf die Person ausübt, dann kön
en wir u.U. eine bessere Schätzung des Einkommens abgeben
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Visualisierung des Beispiels „Einkommen einer Person“:
Prognosen können verbessert werden, wenn Informationen
hinzugezogen werden
issen wir z.B., welchen Beruf die Person ausübt, dann könn-
chätzung des Einkommens abgeben
Verbindung zwischen Prognose
schen � und �
• Je stärker � und �besser ist � geeignet
• Die Vorhersagewerte
sionsgeraden: �� (y-
Mittelwert von y
y
Verbindung zwischen Prognose von � und Zusammenhang zw
miteinander linear zusammenhängen,
geeignet, um die Werte von � vorauszusagen
Vorhersagewerte sind hierbei die �-Werte der sog. Regre
� -Dach)
x
Regressionsgerade
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
und Zusammenhang zwi-
miteinander linear zusammenhängen, umso
vorauszusagen
Werte der sog. Regres-
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die Regressionsgerade
• Die Gerade, welche sich einer bivariaten Punktewolke am bes-
ten anpasst
• Je stärker der Zusammenhang zwischen � und �, umso weniger
weichen im Schnitt die tatsächlichen �-Werte von der Regres-
sionsgeraden (also von ��) ab
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bestimmung der Parameter der Regressionsgeraden:
• Es lassen sich nach Augenmaß viele „passende“ Geraden durch
eine Punktewolke legen
• Doch es gibt nur eine Gerade, welche mathematisch gesehen
die beste Anpassung an die Punktewolke liefert � Die Regres-
sionsgerade
• Allgemein: Eine Gerade ist eindeutig bestimmt, wenn die Stei-
gung („�“) und der y-Achsenabschnitt („�“) bekannt ist
• „�“ lässt sich wiederum berechnen, wenn die Steigung und ein
Punkt der Geraden bekannt sind
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Geraden-Formel:4
�� = � + ��
Kriterium zur Bestimmung der besten Anpassung einer Geraden
an eine Punktewolke:
• Die Summe der Abweichungen zwischen den echten und den
vorhergesagten �-Werten soll minimal sein (damit alle Abwei-
chungen positiv sind, werden sie quadriert)
�(� − ��)� → min�
��
4 � = Laufindex für die einzelnen untersuchten Fälle; � stellt den letzten Fall dar und entspricht somit der Anzahl der untersuchten Fälle. Dies gilt für alle folgenden Laufindizes.
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Wird im nächsten Schritt �� mit dem Ausdruck der Geraden-
Gleichung ersetzt, ergibt sich:
�(� − (� + ��))� → min�
��
• Dieser Ausdruck lässt sich nun nach � ableiten
• Somit kann rechnerisch eine eindeutige Größe bestimmt wer-
den, welche das Kriterium zur besten Anpassung einer Geraden
an eine Punktewolke erfüllt:5
5 ��steht hierbei für die Varianz von �
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
� = Cov� ��
• � steht für die Steigung der Geraden, besagt somit, wie sich der
�-Schätzwert �� ändert, wenn � um eine Einheit steigt
• � ist unstandardisiert und somit nicht geeignet zur Beurteilung
der Vorhersagekraft der Regressionsgeraden
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bestimmung von „!“:
• Ferner soll eine Regressionsgerade durch den Schwerpunkt der
Verteilung gehen
• Der Schwerpunkt setzt sich aus den beiden Mittelwerten von �
und � zusammen, ist also der Punkt: "(�#|�%)
• Damit ist auch ein Punkt der Geraden bekannt; werden die
Koordinaten in die Geraden-Gleichung eingesetzt, lässt sich „�“
bestimmen:
� = � − ��
• � steht für den �-Achsenabschnitt und besagt somit, welchen
geschätzten Wert � annimmt, wenn � gleich 0 ist
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Allgemeine Anmerkungen:
• Es lässt sich für jede Punktewolke eine Regressionsgerade ma-
thematisch bestimmen:
o Diese Gerade ist immer die beste Gerade, die sich an diese
Punktewolke anpassen lässt!
• Wenn aber keine oder nur eine schwache lineare Beziehung
zwischen � und � besteht, dann vermag auch die Regressions-
gerade die Schätzung der �-Werte kaum zu verbessern:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bestimmung der Güte der Anpassung durch eine Regressionsge-
rade ���� der Determinationskoeffizient
• Nun soll das Konzept der Prognose von � mit der Erklärung der
Streuung von � verbunden werden
• Denn es muss Gründe geben, warum die Werte von Variablen
� mehr oder weniger streuen (und nicht für alle Merkmalsträ-
ger gleich sind)
• Diese Gründe werden in der Regressionsanalyse durch unab-
hängige �-Variablen formalisiert, von denen man annimmt,
dass sie z.T. für die Streuung einer Variablen � verantwortlich
sind
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Beispiele für Fragestellungen, welche sich auf die Varianz interes-
santer abhängiger Variablen beziehen:
• Warum gibt es derartige Leistungsunterschiede zwischen Schul-
kindern?6
• Warum gibt es unterschiedliche Einkommen?
• Warum gibt es Unterschiede in dem Ausmaß der Integration
von Migranten?
• Warum erkranken manche Leute an einer bestimmten Krank-
heit und die anderen wiederum nicht?
6 Die Leistungsunterschiede (�) könnten beispielsweise z.T. durch die unterschiedliche Lernmotivation der Schulkinder (�) erklärt werden. Analog dazu ließen sich unabhängige Variablen für die anderen hier aufgeführten
Beispiele finden.
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Funktionsweise des Determinationskoeffizienten:
• Das Ausmaß, mit dem � die Streuung von � erklären kann, lässt
sich mathematisch quantifizieren mit Hilfe des Determinati-
onskoeffizienten
• Der Determinationskoeffizient wird definiert als der Anteil der
erklärten Varianz an der Gesamtvarianz von �
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die Gesamtvarianz von �:
& ( '( ))*'+,
�
Die „Erklärte Varianz“ von �
& ( �'( ))*'+,
�
Die „Nicht-Erklärte Varianz“ von �:
& ( '( �'))*'+,
�
� Die quadrierte Abweichung zwischen Vorhersagewert und
Mittelwert von �; um diese Differenz lässt sich die Vorher-
sage gegenüber dem Mittelwert verbessern
� Diese Größe stellt nichts anderes dar als die Varianz von �
� Die quadrierte Abweichung zwischen Vorhersagewert und
dem beobachteten Wert von �; diese Differenz ist sozusa-
gen der Rest, welcher auch durch die Regressionsgerade
nicht erklärt werden kann
Allgemein gilt: Erklärte Varianz + Nicht Erklärte Varianz = Gesamtvarianz
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Visualisierung der Aufteilung der Gesamtvarianz von � an nur ei-
ner Person:
( )ii yy −
( )iiy y−
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Formel des Determinationskoeffizienten:
-� = Erklärte VarianzGesamtvarianz = & (�� − �)��
��& (� − �)��
��
• Diese Maßzahl setzt die erklärte Varianz in Relation zur Gesamt-
varianz
• Sie drückt aus, wie groß der Anteil der erklärten Varianz an der
Gesamtvarianz ist
• Sie bewegt sich immer zwischen 0 und 1, da die „Erklärte Va-
rianz“ nur ein Bestandteil der Gesamtvarianz ist
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Wird das Ergebnis mit 100 multipliziert, so lässt sich der neue
Wert prozentual deuten
o So besagt bspw. ein Wert von 0,74, dass 74% der Varianz von
� durch das Hinzuziehen der Informationen von � erklärt
werden kann
• Ist der Wert 1, dann entspricht die „Erklärte Varianz“ der Ge-
samtvarianz:
o Es bleibt kein Rest, alle Punkte liegen exakt auf der Regressi-
onsgeraden und es besteht ein perfekter linearer Zusam-
menhang zwischen � und �
o � kann die gesamte Streuung von � „aufklären“
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Der Determinationskoeffizient lässt sich leicht aus dem Korrela-
tionskoeffizienten berechnen, indem letzterer quadriert wird