lineare regression

Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Lineare Regression

Christian Herta

Oktober, 2013

1 von 33 Christian Herta Lineare Regression

Lernziele

Lineare RegressionKonzepte des Maschinellen Lernens:

Lernen mittels TrainingsmengeKostenfunktion (cost function)Gradientenabstiegsverfahren (gradient descent)

Outline

1 Problemstellung

2 Kostenfunktion

3 Gradientenabstiegsverfahren

Lineare Regression

Überwachtes Lernen(supervised learning):

m-Beobachtungen: {x (i)}mit Zielwerten {y (i)}Ziel: Vorhersage einesWertes y für einen neuenWert für x.

Lineares ModellWie sieht dieGeradengleichung aus?

Lineare Regression

Überwachtes Lernen(supervised learning):

m-Beobachtungen: {x (i)}mit Zielwerten {y (i)}Ziel: Vorhersage einesWertes y für einen neuenWert für x.

Lineares Modell (zweiParameter):hΘ(x) = Θ0 + Θ1x

Lineare Regression

Idee: Finde eine Gerade hΘ(x), die �möglichst nahe� zu denDatenpunkten ist.

Trainingsmenge

Notation:

m: Anzahl derTrainingsbeispiele

x : Inputvariable

y : Outputvariable

(x , y): ein Trainingsbeispiel

(x (i), y (i)):ite-Trainingsbeispiel

Beispieldatensatz: Hg-PCVhaemoglobin packed celllevel / g/dL (x) volume (y)

15.5 0.45013.6 0.42013.5 0.44013.0 0.395. . . . . .

Übersicht: Trainingsverfahren

Modell hΘ(x)

Bestimmen derModellparameter Θmittels Lernen aus denDaten (Trainingsmenge)

Funktion hΘ : Hypothese

Lineare Regression mit einer Variable (Univariate LineareRegression)

Warum der Name �Lineare Regression mit einer Variable�?

Eine Variable: x

Hypothese hΘ(x) = Θ0 + Θ1x

Hypothese ist linear bezüglich der Variable x

Hypothese ist linear bezüglich der anpassbaren ParameterΘ0,Θ1.

Vorhersage einer Flieÿkomma-Zahl mittels der Hypothese:Regression

Outline

1 Problemstellung

2 Kostenfunktion

Kostenfunktion (cost fuction)

AusgangspunktHypothese hΘ(x) = Θ0 + Θ1x

Trainingsmenge D (Paare (x , y) )

Ziel: Bestimmen der Modellparameter Θ = {Θ0,Θ1} mittelsLernen aus den Daten (Trainingsmenge)

Kostenfunktion ((squared error) cost function):

JD(Θ) =12m

m∑i=1

(hΘ(x (i))− y (i))2

Ziel: Minimieren der Kosten(funktion)

minimizeθJ(Θ)

Kostenfunktion (cost fuction)

Beachte Kostenfuntion J(Θ) ist eine Funktion von Θ.

Hypothese hΘ(x) ist eine Funktion von x mit festenParametern Θ.

Erläuterung beider Funktionen an der Tafel am einfachen Beispiel hΘ1(x) = Θ1 ∗ x und 3

Trainingsbeispiele, für die eine Hypothese (nur hier: JΘmin1

= 0) gefunden werden kann.

Beipiel: Kostenfunktion und Hypothese

Datenerzeugung: y(x) = x + N(µ = 0, σ = 2.5) (N: Normalverteilung)

Hypothese: h(x) = Θ1 · x

Problemstellung mit zwei Parametern

Hypothese: hΘ(x) = Θ0 + Θ1 · xzwei Parameter: Θ0,Θ1

Kostenfunktion: J(Θ0,Θ1) = 1

∑mi=1

(hΘ(x (i))− y (i))2

⇒ Darstellung von J(Θ0,Θ1) in drei Dimensionen: Θ0,Θ1, J

Contour Plot

Konvexes Problem: nur ein Minimum14 von 33 Christian Herta Lineare Regression

Datenraum und Parameterraum

Kostenfunktion - Übersicht

Kosten sind eine Funktion der Parameter

Ziel ist es die Kosten zu minimieren, um gute Parameter zu�nden.

Konzept der Kostenfunktion auch für andere Arten vonModellfunktionen, wie Neuronale Netze und K-MeansClustering

Outline

1 Problemstellung

2 Kostenfunktion

Problemstellung

Hypothese: hΘ(x) = Θ0 + Θ1 · xParameter: Θ0,Θ1

Kostenfunktion: J(Θ0,Θ1) = 1

∑mi=1

(hΘ(x (i))− y (i))2

Ziel: minimizeΘJ(Θ)

Gradientenabstieg

minimizeθJ(Θ)

1 Starte mit speziellen Werten für Θ. Bei univariater linearerRegression: Θ = {Θ0,Θ1}

2 Verändere die Werte für Θ so, sodass J(Θ) kleiner wird.Wiederhole Schritt 2 solange, bis ein Minimum erreicht ist.

Gradientenabstiegsverfahren

minimizeθJ(Θ)

1 Starte mit speziellen Werten für Θ0,Θ1

2 Bestimme den Gradienten (partiellen Ableitungen), um neueΘ0,Θ1 Werte in der Umgebung der alten Θ-Werte mitfolgender Update Rule zu �nden:

Θneuj ← Θalt

j − α∂

∂Θj

J(Θalt)

mit α : Lernrate (learning rate)

3 Gehe zu 2 bis ein Stopp Kriterium (stopping condition) erfülltist, wie z.B. nur noch marginale Änderung der Kosten.

Gleichzeitiges Update aller Parameter

Beachte bei der Implementierung: Gleichzeitiges Update allerParameter

temp0← Θ0 − α∂

∂Θ0

J(Θ0,Θ1)

temp1← Θ1 − α∂

∂Θ1

J(Θ0,Θ1)

Θ0 ← temp0

Θ1 ← temp1

Berechung der Gradienten

Rechenübung

Gradientenabstiegsverfahren für lineare Regression: Θ0

Θ0 ← Θ0 − α∂

∂Θ0

J(Θ) =∂

∂Θ0

m∑i=1

(hΘ(x (i))− y (i))2

∂Θ0

m∑i=1

(Θ0 + Θ1 · x (i) − y (i))2

m∑i=1

(Θ0 + Θ1 · x (i) − y (i))

Gradientenabstiegsverfahren für lineare Regression: Θ1

Θ1 ← Θ1 − α∂

∂Θ1

J(Θ) =∂

∂Θ1

m∑i=1

(hΘ(x (i))− y (i))2

∂Θ1

m∑i=1

(Θ0 + Θ1 · x (i) − y (i))2

m∑i=1

(Θ0 + Θ1 · x (i) − y (i)) · x (i)

Schrittweite

Schrittweite hängt von zwei Faktoren ab:

Gröÿe des Gradienten ∂∂Θi

Lernrate α > 0 (Hyperparameter)

α muss richtig gewählt werden (mehr hierzu später).

Annäherungen der Gerade mit den Iterationen

Startwert für Θ = (1., 1.)

Beispieldatensatz: Hg-PCV26 von 33 Christian Herta Lineare Regression

Annäherungen der Gerade mit den Iterationen

Startwert für Θ = (1., 1.)

Beispieldatensatz: Hg-PCV27 von 33 Christian Herta Lineare Regression

Warum ist das Lernen so langsam?

(negative) Gradient zeigt (meist) weg vom Minimum!→ Zig-Zag Bewegung im Parameterraum oder sehr kleines α

Beispieldatensatz: Hg-PCV

Kostenfunktion bei umskalierten x-Werte

Lösung: Feature Scaling - Erklärung später im KursBeachte: Der Gradient zeigt direkt zum Minimum!

Beispieldatensatz: Hg-PCV

Kostenfunktion bei umskalierten x-Werte

Erklärung an einfachem Beispiel: x-Werte der grünen Daten sindmit Faktor 2 multipliziert.

Batch, Mini-Batch und Online Learning

Batch-Learning: Verwende alle Trainingsdaten für einenOptimierungsschritt

Mini-Batch Learning: Verwende einen (kleinen) Teil derTraingsdaten für einen Optimierungsschritt

Online Learning: Verwende nur ein Trainingsdatum pro Schritttypischerweise Auswahl per Zufall (Stochastic Gradient

Descent)

Literaturangabe

Andrew Ng: Machine Learning. Openclassroom StanfordUniversity, 2013

Weiterführende Literatur:

C. Bishop: Pattern recognition and Machine Learning,Springer Verlag 2006

lineare regression - christianherta

Documents

kovarianz , korrelation, (lineare) regression

eine einführung in r: lineare regression · eine...

univariate lineare regression (eine unabhängige...

kovarianz, korrelation, (lineare) regression

beispiel lineare regression - statistik.boku.ac.at lineare...

lineare regression - eth...

3. regression · multiple lineare regression § multiple...

poisson regression [1em] verallgemeinerte lineare...

fehlerrechnung und –schätzung, lineare und nichtlineare...

korrelationsrechnung 2-würfel-experiment....

multiple lineare regression für die unterstützung bei der...

beispiel: lineare regression mit mathematica - d-phys ·...

ibe, korr. (l6-2)1 korrelation und lineare regression...

tutorium 30.05.07. aufgabe 1 a) variablen y=posttest (cpm2)...

3 multiple lineare regression modell und statistik a y x ......

inhalt 1. problemstellung 2. univariate lineare regression...

verallgemeinerte lineare modelle - eth...

bivariate und multiple lineare regression

2. regression - swl.htwsaar.de€¦ · 5 inhalt § 2.1...