lineare regression - christianherta
TRANSCRIPT
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lineare Regression
Christian Herta
Oktober, 2013
1 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lernziele
Lineare RegressionKonzepte des Maschinellen Lernens:
Lernen mittels TrainingsmengeKostenfunktion (cost function)Gradientenabstiegsverfahren (gradient descent)
2 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Outline
1 Problemstellung
2 Kostenfunktion
3 Gradientenabstiegsverfahren
3 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lineare Regression
Ăberwachtes Lernen(supervised learning):
m-Beobachtungen: {x (i)}mit Zielwerten {y (i)}Ziel: Vorhersage einesWertes y fĂŒr einen neuenWert fĂŒr x.
Lineares ModellWie sieht dieGeradengleichung aus?
4 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lineare Regression
Ăberwachtes Lernen(supervised learning):
m-Beobachtungen: {x (i)}mit Zielwerten {y (i)}Ziel: Vorhersage einesWertes y fĂŒr einen neuenWert fĂŒr x.
Lineares Modell (zweiParameter):hÎ(x) = Î0 + Î1x
4 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lineare Regression
Idee: Finde eine Gerade hÎ(x), die ïżœmöglichst naheïżœ zu denDatenpunkten ist.
5 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Trainingsmenge
Notation:
m: Anzahl derTrainingsbeispiele
x : Inputvariable
y : Outputvariable
(x , y): ein Trainingsbeispiel
(x (i), y (i)):ite-Trainingsbeispiel
Beispieldatensatz: Hg-PCVhaemoglobin packed celllevel / g/dL (x) volume (y)
15.5 0.45013.6 0.42013.5 0.44013.0 0.395. . . . . .
6 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Ăbersicht: Trainingsverfahren
Modell hÎ(x)
Bestimmen derModellparameter Îmittels Lernen aus denDaten (Trainingsmenge)
Funktion hÎ : Hypothese
7 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Lineare Regression mit einer Variable (Univariate LineareRegression)
Warum der Name ïżœLineare Regression mit einer Variableïżœ?
Eine Variable: x
Hypothese hÎ(x) = Î0 + Î1x
Hypothese ist linear bezĂŒglich der Variable x
Hypothese ist linear bezĂŒglich der anpassbaren ParameterÎ0,Î1.
Vorhersage einer FlieĂżkomma-Zahl mittels der Hypothese:Regression
8 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Outline
1 Problemstellung
2 Kostenfunktion
3 Gradientenabstiegsverfahren
9 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Kostenfunktion (cost fuction)
AusgangspunktHypothese hÎ(x) = Î0 + Î1x
Trainingsmenge D (Paare (x , y) )
Ziel: Bestimmen der Modellparameter Î = {Î0,Î1} mittelsLernen aus den Daten (Trainingsmenge)
Kostenfunktion ((squared error) cost function):
JD(Î) =12m
mâi=1
(hÎ(x (i))â y (i))2
Ziel: Minimieren der Kosten(funktion)
minimizeΞJ(Î)
10 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Kostenfunktion (cost fuction)
Beachte Kostenfuntion J(Î) ist eine Funktion von Î.
Hypothese hÎ(x) ist eine Funktion von x mit festenParametern Î.
ErlĂ€uterung beider Funktionen an der Tafel am einfachen Beispiel hÎ1(x) = Î1 â x und 3
Trainingsbeispiele, fĂŒr die eine Hypothese (nur hier: JÎmin1
= 0) gefunden werden kann.
11 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Beipiel: Kostenfunktion und Hypothese
Datenerzeugung: y(x) = x + N(” = 0, Ï = 2.5) (N: Normalverteilung)
Hypothese: h(x) = Î1 · x
12 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Problemstellung mit zwei Parametern
Hypothese: hÎ(x) = Î0 + Î1 · xzwei Parameter: Î0,Î1
Kostenfunktion: J(Î0,Î1) = 1
2m
âmi=1
(hÎ(x (i))â y (i))2
â Darstellung von J(Î0,Î1) in drei Dimensionen: Î0,Î1, J
13 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Contour Plot
Konvexes Problem: nur ein Minimum14 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Datenraum und Parameterraum
15 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Kostenfunktion - Ăbersicht
Kosten sind eine Funktion der Parameter
Ziel ist es die Kosten zu minimieren, um gute Parameter zuïżœnden.
Konzept der Kostenfunktion auch fĂŒr andere Arten vonModellfunktionen, wie Neuronale Netze und K-MeansClustering
16 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Outline
1 Problemstellung
2 Kostenfunktion
3 Gradientenabstiegsverfahren
17 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Problemstellung
Hypothese: hÎ(x) = Î0 + Î1 · xParameter: Î0,Î1
Kostenfunktion: J(Î0,Î1) = 1
2m
âmi=1
(hÎ(x (i))â y (i))2
Ziel: minimizeÎJ(Î)
18 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Gradientenabstieg
Ziel: Minimieren der Kosten(funktion)
minimizeΞJ(Î)
1 Starte mit speziellen Werten fĂŒr Î. Bei univariater linearerRegression: Î = {Î0,Î1}
2 VerĂ€ndere die Werte fĂŒr Î so, sodass J(Î) kleiner wird.Wiederhole Schritt 2 solange, bis ein Minimum erreicht ist.
19 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Gradientenabstiegsverfahren
Ziel: Minimieren der Kosten(funktion)
minimizeΞJ(Î)
1 Starte mit speziellen Werten fĂŒr Î0,Î1
2 Bestimme den Gradienten (partiellen Ableitungen), um neueÎ0,Î1 Werte in der Umgebung der alten Î-Werte mitfolgender Update Rule zu ïżœnden:
Îneuj â Îalt
j â αâ
âÎj
J(Îalt)
mit α : Lernrate (learning rate)
3 Gehe zu 2 bis ein Stopp Kriterium (stopping condition) erfĂŒlltist, wie z.B. nur noch marginale Ănderung der Kosten.
20 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Gleichzeitiges Update aller Parameter
Beachte bei der Implementierung: Gleichzeitiges Update allerParameter
temp0â Î0 â αâ
âÎ0
J(Î0,Î1)
temp1â Î1 â αâ
âÎ1
J(Î0,Î1)
Î0 â temp0
Î1 â temp1
21 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Berechung der Gradienten
RechenĂŒbung
22 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Gradientenabstiegsverfahren fĂŒr lineare Regression: Î0
Î0 â Î0 â αâ
âÎ0
J(Î)
â
âÎ0
J(Î) =â
âÎ0
12m
mâi=1
(hÎ(x (i))â y (i))2
=â
âÎ0
12m
mâi=1
(Î0 + Î1 · x (i) â y (i))2
=1m
mâi=1
(Î0 + Î1 · x (i) â y (i))
23 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Gradientenabstiegsverfahren fĂŒr lineare Regression: Î1
Î1 â Î1 â αâ
âÎ1
J(Î)
â
âÎ1
J(Î) =â
âÎ1
12m
mâi=1
(hÎ(x (i))â y (i))2
=â
âÎ1
12m
mâi=1
(Î0 + Î1 · x (i) â y (i))2
=1m
mâi=1
(Î0 + Î1 · x (i) â y (i)) · x (i)
24 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Schrittweite
Schrittweite hÀngt von zwei Faktoren ab:
Gröÿe des Gradienten ââÎi
J(Î)
Lernrate α > 0 (Hyperparameter)
α muss richtig gewÀhlt werden (mehr hierzu spÀter).
25 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
AnnÀherungen der Gerade mit den Iterationen
Startwert fĂŒr Î = (1., 1.)
Beispieldatensatz: Hg-PCV26 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
AnnÀherungen der Gerade mit den Iterationen
Startwert fĂŒr Î = (1., 1.)
Beispieldatensatz: Hg-PCV27 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Warum ist das Lernen so langsam?
(negative) Gradient zeigt (meist) weg vom Minimum!â Zig-Zag Bewegung im Parameterraum oder sehr kleines α
Beispieldatensatz: Hg-PCV
28 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Kostenfunktion bei umskalierten x-Werte
Lösung: Feature Scaling - ErklÀrung spÀter im KursBeachte: Der Gradient zeigt direkt zum Minimum!
Beispieldatensatz: Hg-PCV
29 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Kostenfunktion bei umskalierten x-Werte
ErklĂ€rung an einfachem Beispiel: x-Werte der grĂŒnen Daten sindmit Faktor 2 multipliziert.
30 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Batch, Mini-Batch und Online Learning
Batch-Learning: Verwende alle Trainingsdaten fĂŒr einenOptimierungsschritt
Mini-Batch Learning: Verwende einen (kleinen) Teil derTraingsdaten fĂŒr einen Optimierungsschritt
Online Learning: Verwende nur ein Trainingsdatum pro Schritttypischerweise Auswahl per Zufall (Stochastic Gradient
Descent)
31 von 33 Christian Herta Lineare Regression
Problemstellung Kostenfunktion Gradientenabstiegsverfahren
Literaturangabe
Andrew Ng: Machine Learning. Openclassroom StanfordUniversity, 2013
WeiterfĂŒhrende Literatur:
C. Bishop: Pattern recognition and Machine Learning,Springer Verlag 2006
32 von 33 Christian Herta Lineare Regression