zusammenfassung: lernprobleme, bayes‘sches lernen, evaluierung€¦ · sterling. friend. zoo ......
TRANSCRIPT
![Page 1: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/1.jpg)
Universität PotsdamInstitut für Informatik
Lehrstuhl Maschinelles Lernen
Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung
Christoph Sawade/Niels Landwehr/Paul PrasseSilvia MakowskiTobias Scheffer
![Page 2: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/2.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Überblick
Lernprobleme
Bayes‘sches Lernen
Evaluierung
2
![Page 3: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/3.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Problemstellung Lernen Eingabe Lernproblem: Trainingsdaten.
Ausgabe: Hypothese, Modell
),(),...,,( 11 NN yyL xx=
=
im
i
i
x
x...
1
x
:f → 1 3 6, 1 0 1
( ),
wenn x x xf
sonst= ∧ = ∧ =
=
x
3
, diskret (Klassifikation) oder kontinuierlich (Regression)
y∈ ∈x
![Page 4: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/4.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
4
Klassifikation: Beispiel Eingabe: Instanz (Objekt) .
Ausgabe: : erkannte Ziffer
∈x
= Menge aller 16x16 Pixel Bitmaps
Grauwert Pixel 1
Grauwert Pixel 256
…
Klassifikator
Attribute Instanz x
256 Pixelw
erte
0.10.30.45...0.650.87
{0,1, 2,3, 4,5,6,7,8,9}y∈ =
"6"
![Page 5: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/5.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
5
Klassifikation: Beispiel Eingabe: Instanz (Objekt) .
Ausgabe:
∈x
= Menge aller möglichen Email-Texte
Wort 1 kommt vor?
Wort N kommt vor?
…
Klassifikator
Attribute Instanz x
{ , }y spam ok∈ =
Alternative
Beneficiary
Sterling
Friend
Zoo
…
010...10
Dear Beneficiary,
your Email address has been picked online in this years MICROSOFT CONSUMER AWARD as aWinner of One Hundred and Fifty Five ThousandPounds Sterling…
Dear Beneficiary,
We are pleased to notify you that your Email addresshas been picked online in this second quarter'sMICROSOFT CONSUMER AWARD (MCA) as aWinner of One Hundred and Fifty Five ThousandPounds Sterling…
„Spam“
100000≈N
![Page 6: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/6.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
6
Lernen durch Berechnung des Version Space
Version Space: alle mit den Daten konsistenHypothesen
x 1 x 2 x 3 x 4 x 5 x 6 yx1 0 1 0 0 1 1x2 0 1 1 0 1 1x3 1 0 1 0 1 0x4 0 1 1 0 0 0
Medikamente in der Kombination
Bei
spie
l-K
ombi
natio
nen
3
1 1
1 1 2 2 3 3 4 4( , ), ( , ), ( , ), ( , )L y y y y= x x x x
1 0x =2 1x =
2 41 0x x= ∧ = 1 20 1x x= ∧ = 1 40 0x x= ∧ =
1 2 40 1 0x x x= ∧ = ∧ =
2 22
,( )
,j J j jwenn x v
fsonst
∈ ==
∧x
![Page 7: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/7.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
7
Unsicherheit
Version Space-Ansatz in der Praxis problematisch Der Hypothesenraum ist meist unendlich groß. Der Version Space ist dann meist auch unendlich groß,
oder leer.
Alternativer Ansatz: Lernen als Optimierungsproblem
![Page 8: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/8.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
8
Verlustfunktion, Optimierungskriterium
Alternativer Ansatz: Lernen als Optimierungsproblem
Verlustfunktion misst, wie gut Modell zu Trainingsdaten passt
Regularisierungsfunktion misst, ob das Modell nach unserem Vorwissen wahrscheinlich ist.
Optimierungskriterium ist Summe aus Verlust und Regularisierer.
Suchen Minimum des Optimierungskriteriums
2ˆ ( , ) ( ( ), ) | |i iiR L f y λ= +∑ ww x w
Verlust auf Trainingsdaten
Regularisierer
![Page 9: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/9.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
9
Verlustfunktion Verschiedene Verlustfunktionen (anwendungsspezifisch)
Beispiel: Verlustfunktionen in Form von Kostenmatrix
Zum Beispiel diagnostische Klassifikationsprobleme, übersehene Erkrankungen (False Negatives) schlimmer als False Positives.
1 1( ( ), ) ( ) 1 0
( ) 1 0FP
FN
y yf y f c
f c
= + = −= = + = −
x xx
![Page 10: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/10.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
10
Regularisierer
Unterschiedliche Regularisierer möglich
Häufig wird die Annahme ausgedrückt, dass wenige der Attribute für ein gutes Modell ausreichen. Anzahl der Attribute, L0-Regularisierung Betrag der Attribut-Gewichtungen, L1-Regularisierung Quadrat der Attribut-Gewichtungen, L2-Regularisierung.
![Page 11: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/11.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
11
Optimierungsproblem
Rechtfertigung für Optimierungskriterium? Mehrere Rechtfertigungen und Herleitungen.
Wahrscheinlichste Hypothese (MAP-Hypothese). Hypothese, die Daten am stärksten komprimiert
(Minimum Description Length). Niedrige obere Schranke für Fehler auf zukünftigen
Daten abhängig von |w|. (SRM).
![Page 12: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/12.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Überblick
Lernprobleme
Bayes‘sches Lernen
Evaluierung
12
![Page 13: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/13.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
13
Diskrete und kontinuierliche Zufallsvariablen
Diskrete Zufallsvariablen Endliche, diskrete Menge von Werten D möglich Verteilung beschrieben durch diskrete Wahrscheinlichkeiten
Kontinuierliche Zufallsvariablen Kontinuierliche, unendliche Menge von Werten möglich Verteilung beschrieben durch kontinuierliche Dichtefunktion
mit ( ) 1p x dx∞
−∞=∫0( )p x ≥∈
( ) mit ([0, )1] 1x D
p x p x∈
∈ =∑
Wahrscheinlichkeit f [ , ] :ür ( ( )[ , ])b
aax p x p xa xb b d∈ ∈ = ∫
![Page 14: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/14.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
14
Diskrete Zufallsvariablen
Binomialverteilung: Anzahl „Köpfe“ bei NMünzwürfen
Bern(X )|~i iX µ
Bin( | , ) (1 )X N XNX N
Xµ µ µ −
= −
~ Bin( | , )X X N µ
10, 0.5N µ= =
1, {0,..., }
N
ii
X X X N=
= ∈∑
![Page 15: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/15.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Kontinuierliche Zufallsvariablen Normalverteilung (Gaußverteilung) Beispiel: Körpergröße X
Annähernd normalverteilt:
15
Dichte der Normalverteilung
z.B. 170, 10µ σ= =
2~ ( | , )X x µ σ
![Page 16: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/16.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
16
Erwartungswert und Varianz Erwartungswert einer Zufallsvariable
Gewichteter Mittelwert
Varianz einer Zufallsvariable Erwartete quadrierte Abweichung der Zufallsvariable von
ihrem Erwartungswert Mass für die Stärke der Streuung
( ) ( )x
E X xp X x= =∑( ) ( )E X xp x dx= ∫
X diskrete ZV
X kontinuierliche ZV mit Dichte p(x)
2 2Verschiebungssatz: ( ) ( ) ( )Va rX E X E X= −
2( ) (( ( )) )Var X E X E X= −
![Page 17: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/17.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Beispiel: Erwartungswert Normalverteilung
Erwartungswert Normalverteilung
17
2~ ( | , )X x µ σ
2( ) ( | , )E X x x dxµ σ∞
−∞
= ∫
22 1/2 2
1 1exp ( )(2 ) 2
x x dxµπσ σ
∞
−∞
= − − ∫
22 1/2 2
1 1( ) exp(2 ) 2
z z dzµπσ σ
∞
−∞
= + − ∫
2 22 1/2 2 2 1/2 2
1 0
1 1 1 1exp exp(2 ) 2 (2 ) 2
z dz z z dzµ µπσ σ πσ σ
∞ ∞
−∞ −∞
= =
= − + − = ∫ ∫
z x µ= −
![Page 18: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/18.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Bayes‘sches Lernen: Anwendung probabilistischer Überlegungen auf Modelle, Daten, und Vorhersagen
Bayes‘sche Regel: Modellwahrscheinlichkeit gegeben Daten und Vorwissen
Bayessche Lernen
( | ) ( )( | )( )
p Daten Modell p Modellp Modell Datenp Daten
=
Posterior: wie ist die Wahrscheinlichkeit für Modelle, gegeben Evidenz der Trainingsdaten?
Likelihood: Wie hoch ist die Wahrscheinlichkeit, bestimmte Daten zu sehen, unter der Annahme dass Modell das korrekte Modell ist?
A-priori Verteilung über Modelle: Vorwissen
Wahrscheinlichkeit der Daten, unabhängig von Modell
![Page 19: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/19.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
19
Parameter von Verteilungen schätzen Erste Anwendung Bayes‘scher Überlegungen:
Parameterschätzung in Münzwurfexperimenten
Münze mit unbekanntem Parameter wird N Mal geworfen Daten L in Form von NK Kopfwürfen und NZ Zahlwürfen Was sagen uns diese Beobachtungen über den echten
Münzwurfparameter ? Wissen über echten Münzwurfparameter abgebildet in a-
posteriori Verteilung
Ansatz mit Bayesscher Regel:
( | )p Lθ
( | (( | )( )
p L pp Lp Lθ θθ ) )
=
θ
![Page 20: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/20.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
20
Parameterschätzungen von Wahrscheinlichkeitsverteilungen: Binomial
Geeignete Prior-Verteilung: Beta-Verteilung Kontinuierliche Verteilung über Konjugierter Prior: a-posteriori Verteilung wieder Beta
1
0
( | , ) 1K ZBeta dθ α α θ =∫
5, 5K Zα α= = 1, 1K Zα α= = 4, 2K Zα α= =
θ
1 1
( ) ( |
(1k z
k z
k z
k z
p Beta
α α
θ θ α αα α θ θα α
− −
= , )Γ( + )
= − )Γ( )Γ( )
![Page 21: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/21.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
21
Parameterschätzungen von Wahrscheinlichkeitsverteilungen: Binomial
Mit Hilfe der Bayes‘schen Regel werden Vorwissen (Beta-Verteilung) und Beobachtungen (NK , NZ) zu neuem Gesamtwissen P(θ |L) integriert
A-priori-Verteilung Beta
Daten L: NK=50x Kopf, Nz=25x Zahl
Konjugierter Prior: A-posteriori Verteilung wieder Beta
( ) ( | 5 5P Betaθ θ= , )
( | ) ( | 55 30P L Betaθ θ= , )
![Page 22: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/22.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
22
Bayessche Lineare Regression Bayes‘sche Lineare Regression: Bayes‘sches Modell für
Regressionsprobleme
Lineares Modell
Annahme über datengenerierenden Prozess: echtes lineares Modell plus Gauß‘sches Rauschen
~ ( | 0, )ε ε σ 2*( )i iy f ε= +x mit
( ) Tf =w x w x 01
m
i ii
w w x=
= +∑*( )f x
*( )f x
![Page 23: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/23.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
23
Bayessche Lineare Regression: Prior Ziel zunächst Berechnung der a-posteriori Verteilung mit
Bayes‘scher Regel
Geeignete (konjugierte) Prior-Verteilung: Normalverteilung über Parametervektoren w
( | ) ( )( | )( )
P L PP Lp L
=w ww
Größte Dichtebei w=0
„Erwarten kleine Attributgewichte“
![Page 24: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/24.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
24
Bayessche Lineare Regression: Posterior
Posterior-Verteilung über Modelle gegeben Daten
Posterior ist wieder normalverteilt, mit neuem Mittelwert und Kovarianzmatrix
1( | ) ( | ) ( )P L P L PZ
=w w w
1mit A Xσ −2 −=w y TpA XXσ −2 −1= + Σ
T1 ( | , ) ( | 0, )pX IZ
σ 2= ⋅ Σy w w
Bayessche Regel
1( | , )A−= w w
w 1A−
![Page 25: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/25.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
25
Bayes‘sche Vorhersage Nicht auf MAP-Modell festlegen, solange noch Unsicherheit
über Modelle besteht Stattdessen Bayes‘sche Vorhersage: berechne direkt
wahrscheinlichstes Label für Testinstanz
Bayes‘sche Vorhersage: Mitteln der Vorhersage über alle Modelle. Gewichtung: wie gut passt Modell zu Trainingsdaten.
*Vorhersage arg max ( | , )
arg max ( | , ( | )y
y
y p y L
p y p L d
=
= )∫x
w x w w
Vorhersage, gegeben Modell
Modell gegeben Trainingsdaten
Bayesian Model Averaging
Neue Testinstanz x
![Page 26: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/26.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
26
Bayes‘sche Vorhersage für die Lineare Regression
Für die Bayes‘sche lineare Regression kann die Bayes-optimale Vorhersage direkt berechnet werden:
Vorhersageverteilung wieder normalverteilt
( | , ) ( | , ) ( | )P y L P y P L d= ∫x x w w w
1mit A Xσ −2 −=w y TpA XXσ −2 −1= + Σ
( )1| ,T Ty A−= x w x x
2 1( | , ) ( | , )Ty A dσ −= ∫ x w w w w
![Page 27: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/27.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Lineare Regression auf nichtlinearen Basisfunktionen
Nichtlineare Zusammenhänge in Daten darstellbar durch lineare Regression in nichtlinearen Basisfunktionen
: Abbildung von in höherdimensionalen Raum Lineare Regression in entspricht nichtlinearer
Regression in .
27
01
( )d
i ii
w wφ=
= +∑ x( ) ( )Tf φ=x w x
( )φ
x2x
x
yy
2( ) 1 3f x x x= − + φ
( )φ φ
![Page 28: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/28.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Beispiel nichtlineare Regression: Vorhersageverteilung
28
N=1
N=25
N=2
N=4
sin(2 )y xπ=
( )f x Datenpunkt
![Page 29: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/29.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Beispiel nichtlineare Regression: Samples aus dem Posterior
29
N=1
N=4
N=2
N=25
![Page 30: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/30.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Naive Bayes Klassifikator Naive Bayes Klassifikator als einfaches probabilistisches
Klassifikationsmodell
Keine Bayes‘sche Vorhersage möglich, aber Berechnung des MAP-Modells
30
arg max ( ) ( , |MAP P P Xθθ θ θ= )y
![Page 31: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/31.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Naive Bayes Klassifikator Naive Unabhängigkeitsannahme
Likelihood zerfällt in Produkt von Bernoulliverteilungen
Konjugierter Prior Betaverteilung, Lösung für MAP Parameter wie bei Münzwurfexperimenten 31
,1( | ) ( |N
j jjP L P yθ θ
== )∏ x
|
1 1( | ( | , i jN m x yy
j ji jj iP y P x yθ θ
= == ) )∏ ∏
Unabhängigkeit Instanzen
Unabhängigkeit Attribute
1( | ( | , )N
j j jjP y P yθ θ
== )∏ x Produktregel
1
( | , ) ( | , )m
ii
P y P x yθ θ=
=∏x „Attribute xi unabhängig gegeben die Klasse y“
Münzwurf für Klasse Münzwurf für Attribut, gegeben Klasse
![Page 32: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/32.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
32
Naive Bayes: Lernalgorithmus Eingabe: Schätze Klassenverteilung:
Für Klassen y=0 und y=1, für alle Attribute i:
Alle Modellparameter gelernt!
1 1( , ),..., ( , )N NL y y= x x
1
0
: Anzahl Beispiele mit Klasse 1 in
: Anzahl Beispiele mit Klasse 0 in N LN L
Zähle
|
|
| ||
| | | |
: Anzahl Beispiele mit 1 und Klasse in
: Anzahl Beispiele mit 0 und Klasse in
1
2
i
i
i ii
i i i i
x y i
x y i
x y x yx yMAP
x y x y x y x y
N x y L
N x y L
NN N
αθ
α α
=
=
+ −=
+ + + −
Zähle
1 1
0 0 1 1
1 2
yMAP
NN N
αθα α
+ −=
+ + + − Standardlösung für Münzwürfe
Standardlösung für Münzwürfe
![Page 33: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/33.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
33
Naive Bayes: Beispiel
Gelernte Parameter/Hypothese Merkmalsverteilungen
Klassenprior
0 2/31 1/3
1( | 0)P x y =1x0 1/41 3/4
1( | 1)P x y =1x
0 1/31 2/3
2( | 0)P x y =2x0 2/41 2/4
2( | 1)P x y =2x
0 2/51 3/5
( )P yy
( | )iP x y
( )P y
![Page 34: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/34.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
34
Naive Bayes: Eigenschaften
Einfach zu implementieren, effizient, populär. Funktioniert ok, wenn die Attribute wirklich
unabhängig sind. Das ist aber häufig nicht der Fall. Unabhängigkeitsannahme und modellbasiertes
Training führen häufig zu schlechten Ergebnissen. Logistische Regression, Winnow, Perzeptron sind
meist besser.
![Page 35: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/35.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Überblick
Lernprobleme
Bayes‘sches Lernen
Evaluierung
35
![Page 36: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/36.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Hypothesenbewertung Problem der Risikoschätzung für gelernte Hypothesen Risiko einer Hypothese: erwarteter Verlust auf
Testbeispielen
Risiko lässt sich aus Testdaten schätzen
36
( ) [ ( , ( ))] ( , ( )) ( , )R f E y f y f p y d d y= = ∫x x x x
~ ( , ) Testb( , spiel) eiy p yx x
1
1ˆ( ) ( , ( )) "Risikoschätzer, empirisches Risiko"m
j jjmR f y f== ∑ x
1 1( , ),...,( , ) ( , ) ~ ( , )i im mT y y y p y= x x x x
![Page 37: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/37.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Der Risikoschätzer als Zufallsvariable Risikoschätzer ist Zufallsvariable Charakterisiert durch Bias und Varianz: systematischer Fehler
und zufällige Streuung
Fehler des Schätzers lässt sich zerlegen in Bias und Varianz
37
R
R
Bias dominiert
Varianz dominiert
ˆWert ( )R f
2 2
2
2 22
2
2
2
2
2
ˆ ˆ ˆ[( ( ) ) ] [ ( ) 2 ( ) ]ˆ ˆ[ ( ) ] 2 [ ( )]
ˆ ˆ2 [ (ˆ ˆ[ ( )] [ ()] [ ( ) ]ˆ ˆ( [ ( )] ) [ ( )]
ˆ ˆ[ ( )] [ ( )
)]
]
E R f R E R f RR f R
E R f RE R f R
RE R f R E R f
E R f R Va rR f
Bias R f Var R
E R f E R f
f
− = − +
= − +
= − + +
=
−
= − +
+
![Page 38: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/38.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Risikoschätzung auf Trainingsdaten?
Risikoschätzung kann nicht auf Trainingsdaten erfolgen: optimistischer Bias
Problem ist die Abhängigkeit von gewählter Hypothese und zur Fehlerschätzung verwendeten Daten
Ansatz: Testdaten verwenden, die von den Trainingsdaten unabhängig sind.
38
ˆ[ ( )] ( ) LE R f R f<
![Page 39: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/39.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
39
Holdout-Testing Gegeben Daten Teile Daten auf in Trainingsdaten und
Testdaten Starte Lernalgorithmus mit Daten L, gewinne so Hypothese . Ermittle empirisches Risiko auf Daten T. Starte Lernalgorithmus auf Daten D, gewinne so Hypothese . Ausgabe: Hypothese , benutze als Schätzer für das
Risiko von
ˆ ( )LTR f
ˆ ( )LTR f
Lf
DfDf
Df
L T
1 1( , ),..., ( , )d dD y y= x x
1 1( , ),..., ( , )m mL y y= x x1 1( , ),..., ( , )m m d dT y y+ += x x
![Page 40: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/40.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
40
Cross-Validation Gegeben: Daten Teile D in n gleich große Blöcke Wiederhole für i=1..n
Trainiere fi mit Li =D \ Di. Bestimme empirisches Risiko auf Di. Fehlerschätzung
),(),...,,( 11 dd yyD xx=
)(ˆiD fR
i
Training examples
1,..., nD D
1D 2D 3D 4D
∑==
n
i iD fRRin 1
)(ˆ1
![Page 41: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/41.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
41
Bias und Varianz in Holdout-Testing und Cross-Validation
Bias und Varianz der Fehlerschätzung aus Holdout-Testing und Cross-Validation?
Fehlerschätzungen aus Holdout-Testing und Cross-Validation jeweils leicht pessimistisch
Aber im Gegensatz zum Trainingsfehler in der Praxis brauchbar
Cross-Validation hat geringere Varianz als Holdout-Testing, weil wir über mehrere Holdout-Experimente mitteln
![Page 42: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/42.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Überblick
Lernprobleme
Bayes‘sches Lernen
Evaluierung
42
![Page 43: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/43.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Überblick
Hypothesenbewertung Konfidenzintervalle ROC-Analyse
Entscheidungsbäume Lineare Klassifikatoren
43
![Page 44: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/44.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
44
Konfidenzintervalle
Idee Konfidenzintervall: Intervall um den geschätzten Fehler angeben,
so dass der echte Fehler „meistens“ im Intervall liegt Quantifiziert Unsicherheit der Schätzung
Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable
)(ˆ fR
R[ ]
)(ˆ fR
)(ˆ fR
![Page 45: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/45.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
45
Normalverteilung Empirisches Risiko annähernd normalverteilt:
Für die weitere Analyse betrachten wir das standardisierte Risiko, dieses ist standardnormalverteilt:
Schätzen der Varianz des empirischen Risikos:
2ˆ
(1 )r
r rm
σ −=
ˆ ˆ
ˆ ˆ( ) ( ) ( ) ( ) ~ | 0,1 [approximativ, für große m]T T
r r
R f R f R f R fNσ σ
− −
( )2ˆ
ˆ ˆ( ) ~ ( ) | , [approximativ, für große m]rT TR f N R f r σ
22ˆ ˆr rsσ ≈ 2
ˆˆ ˆ(1 ) ˆ, ( )
1ˆ
r Tr r Rs r fm−
= =−
![Page 46: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/46.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
ε
12
−δ
46
Konfidenzintervalle
Ermitteln des einseitigen 1-δ-Konfidenzintervalls:
Konfidenzintervall ist (Konfidenzlevel 1-2δ)
( )
( )
( )ˆ
ˆ
1
1
ˆ
1
1
ˆ( ) ( ) 1
1
T
r
r
sr
P R f R f
ss
ε
δ
δ
ε δ
δ
ε
ε
−
−
−
−
≤ + ≥ −
⇔ Φ ≥ −
⇔ ≥Φ
⇔ ≥ Φ
ˆ ˆ[ ( ) , ( ) ]T TR f R fε ε− +
( )21( ) exp2
z
z x dxπ−∞
Φ = − / 2∫
![Page 47: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/47.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
47
ROC-Analyse Entscheidungsfunktion + Schwellwert = Klassifikator
Fehler hängen vom Schwellwert ab Großer Schwellwert: Mehr positive Bsp falsch. Kleiner Schwellwert: Mehr negative Bsp falsch.
ROC-Analyse: Bewertung der Entscheidungsfunktion unabhängig vom konkreten Schwellwert.
Charakterisieren das Verhalten des Klassifikators für alle möglichen Schwellwerte.
1: ( )Vorhersage
1: sonstf θ+ ≥
= −
x
![Page 48: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/48.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
48
ROC-Kurven Rate der „False Positives“ und „True Positives“ in Abhängigkeit
des Schwellwertes X-Achse: „False Positive Rate“ Y-Achse: „True Positive Rate“
Theorem: AUC = P(f(x+) > f(x-)).
TP/(T
P+FN
)
Perfekte Funktion
Gute Funktion
Zufällig raten
f(x) = +1 f(x) = -1
y = +1 TP FN
y = -1 FP TN
FP/(FP+TN)
![Page 49: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/49.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
49
Precision / Recall Evaluierungsmaße für schiefe Klassenverteilung:
Precision TPTP FP
=+
Recall TPTP FN
=+
← Alle Instanzen mit Vorhersage „+“
← Alle Instanzen mit echtem Label „+“
2 Precision RecallF-measure=Precision + Recall⋅ ⋅
Breakeven-Point
![Page 50: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/50.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Überblick
Hypothesenbewertung Konfidenzintervalle ROC-Analyse
Entscheidungsbäume Lineare Klassifikatoren
50
![Page 51: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/51.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Entscheidungsbäume
Testknoten: Testen, ob der Wert eines Attributs eine Bedingung erfüllen; bedingte Verzweigung in einen Ast.
Terminalknoten: Liefern einen Wert als Ausgabe.
51
Länger als 3 Monatebeschäftigt?
Arbeitslos?
nein
Kredit - Sicherheiten> 5 x verfügbares
Einkommen?
Ja
Kredit - Sicherheiten> 2 x verfügbares
Einkommen?
nein
abgelehnt
nein
abgelehnt
ja
Schufa-Auskunftpositiv?
ja
abgelehnt
nein
angenommen
ja
Student?
nein
abgelehnt
ja
angenommen
nein
abgelehnt
ja
![Page 52: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/52.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Anwendung von Entscheidungsbäumen
Entscheidungsbäume sinnvoll, wenn: Instanzen durch Attribut-Werte-Paare beschrieben
werden. Zielattribut hat einen diskreten Wertebereicht.
Bei Erweiterung auf Modellbäume auch kontinuierlicherer Wertebereich möglich.
Interpretierbarkeit der Vorhersage gewünscht ist.
Anwendungsgebiete: Medizinische Diagnose Kreditwürdigkeit
52
![Page 53: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/53.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Lernen von Entscheidungsbäumen
Eleganter Weg: Unter den Bäumen, die mit den Trainingsdaten konsistent sind, wähle einen möglichst kleinen Baum (möglichst wenige Knoten).
Kleine Bäume sind gut, weil: sie leichter zu interpretieren sind; sie in vielen Fällen besser generalisieren. Es gibt mehr Beispiele pro Blattknoten. Die
Klassenentscheidungen in den Blättern stützen sich so auf mehr Beispiele.
53
![Page 54: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/54.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Lernen von Entscheidungsbäumen
Idee: rekursiver Algorithmus. Wähle das Attribut, welches die Unsicherheit / Fehler
bzgl. der Zielklasse maximal verringert. Aufteilen der Trainingsdaten nach diesem Kriterium
und rekursiver Aufruf für Teilbaum.
Algorithmen Klassifikation: ID3, C4.5, SLIQ Regression: CART
Verschiedene Erweiterungen: Fehlende Attribute Attribute mit Kosten 54
![Page 55: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/55.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Modellbäume
Entscheidungsbaum, aber lineares Regressionsmodell in Blattknoten.
55.1 .2 .3 .4 .5 .6 .7 .8 .9 1.0 1.1 1.2 1.3
x < .9
x < .5 x < 1.1
ja
ja nein
nein
nein
![Page 56: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/56.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Pruning mit Schwellwert
Für alle Blattknoten: Wenn weniger als rTrainingsbeispiele in den Blattknoten fallen Entferne darüberliegenden Testknoten. Erzeuge neuen Blattknoten, sage Mehrheitsklasse
vorher.
Regularisierungsparameter r. Einstellung mit Cross Validation.
56
![Page 57: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/57.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Entscheidungsbaum: Pro / Kontra
Vorteile: Einfach zu interpretieren. Können effizient aus vielen Beispielen gelernt
werden.
Nachteile: Nicht robust gegenüber Rauschen Tendenz zum Overfitting Instabil
57
![Page 58: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/58.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Überblick
Hypothesenbewertung Konfidenzintervalle ROC-Analyse
Entscheidungsbäume Lineare Klassifikatoren
58
![Page 59: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/59.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Rocchio: Fisher-Diskr.: Perceptron: SVM: LogReg:
Lineare Klassifikatoren
59T
i iy w x
l
0 1
1
1−
1 1*
+ −= −w x x1*
1 1( )W−
+ −= −w S x x
( )* max 0,arg min Ti ii
y−∈ ∑w ww x( ) 2* max 0,1arg mi n T
ii iy C−= +∑ww w wx
( )( ) 2* log 1 earg mi xn pi
Ti iy C−= ++∑w xw ww
Geschlossene Lösung
Wenn linear-separierbar
ist kalibrierte Fehlerwahrscheinlichkeit( )*T
i iyσ − w x
Lösung ist sparse
![Page 60: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/60.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
60
Rocchio
Trennebenen hat maximalen Abstand von den Mittelpunkten der Klassen.
Trainingsbeispiele können falsch klassifiziert werden.
Problem: Differenz der Mittelwerte kann schlechter Normalenvektor fürDiskrimination sein.
![Page 61: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/61.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
61
Fisher-Diskriminante
Fisher-Optimierungskriterium:
Rocchio Fisher
für Mittelwerte möglichst unterschiedlich
Geringe Varianz von innerhalb der KlassenwSwwSww
W
BJ T
T
)( =( )f x
( )f x
![Page 62: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/62.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
62
Perzeptron
Lineares Modell:
Perzeptron-Optimierungskriterium:
Subgradient für Beispiel (xi, yi):
Gradientenabstieg: Wiederhole, für alle Beispiele mit
+
--
--
++
+
+
xwx T)( =f
{ }T
( , )( ) max ,0
i i
P i iy L
J y∈
= −∑x
w w x
T0, wenn 0( )
sonsti i
i Pi i
yJ
y >∇ = −
w xw
x
i iy← +w w x0T ≤iiy xw
![Page 63: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/63.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
63
Support Vector Machine (hard-margin)
Finde Ebene, die alle Beispiele mindestens von Ebene entfernt:
Für den größtmöglichen Wert .
Optimierungsproblem:
T
| |i iy ρ >
w xw
ρ
ρ
( )
2
Twobei
1min2
: 1 i iyi∀ >
w
w x
w
![Page 64: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/64.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
64
Support Vector Machine (soft-margin)
Finde Ebene, die alle Beispiele mindestens von Ebene entfernt:
Für den größtmöglichen Wert . Zusätzlich: Fehlerterm für Marginverletzung Optimierungsproblem:
T
| |i iy ρ >
w xw
ρ
ρ
( )
2
Twobe 1
1min
i
2
:
i
i i
i
iy
C
i
ξ
ξ∀ > −
+ ∑w
w x
w
ξ
![Page 65: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/65.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
65
Logistische Regression
SVM: großer Entscheidungsfunktionswert ~ hohe Sicherheit der Vorhersage.
Aber: beim Lernen nicht auf korrekte Kalibrierung der Klassenwahrscheinlichkeiten optimiert.
f(x)=18.3 → Risiko eines Fehlers?
Logistische Regression: Vorhersage der Klassenwahrscheinlichkeit.
![Page 66: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/66.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
66
Logistische Regression
Prior über Parameter: Normalverteilung, .
Posterior:
Verlustfunktion+Regularisierer:
1
[[ 1]] [[ 1]]T T1
( | ) ( | , ) ( )
( ) (1 ( )) ( )i i
Ni ii
N y yi ii
P L p y p
pσ σ=
=+ =−
=
∝
= −
∏∏
w x w w
w x w x w
TT T
21
( , ) log ( | )
[[ 1]]log ( ) [[ 1]]log(1 ( ))2
Ni i i ii
E L p L
y yστ
σ=
= −
= − = + + = − − −∑
w ww ww x w x
( )2~ ,τw I0
![Page 67: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/67.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
67
Kernel
Lineare Klassifikatoren: Oft adäquat, aber nicht immer.
Idee: Beispiele in anderen Raum abbilden, in dem sie linearklassifizierbar sind.
Abbildung
Zugehöriger Kernel
Kernel = Inneres Produkt =Ähnlichkeit der Beispiele.
--
-+
+
+
+
--
-
-
--
+
φ(-)φ(-)
φ(-)φ(-)
φ(-)
φ(-)φ(-)
φ(-)φ(-)
φ(+)φ(+)
φ(+)
φ(+) φ(+)( )ϕx x
T( , ) ( ) ( )i j i jk ϕ ϕ=x x x x
![Page 68: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/68.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
68
Representer Theorem
Gegeben Abbildung Trennebenen Die Trennebene w*, die
minimiert, lässt sich repräsentieren als
Primale Sicht: Hypothese so viele Parameter wi
wie Dimensionen hat. Duale Sicht:
Hypothese hat so viele Parameter αj wie Beispiele existieren.
T0| | max{0,1 ( ) )}i ii
C y wϕ+ − ( +∑w w x
),(),...,,( 11 NN yyL xx=
T0( ) )f wϕ= ( +x w x
T( ) mit dazu analogem Kernel ( , ) ( ) ( )i j i jkϕ ϕ ϕ=x x x x x
*T0 01
( ) ) ( , )Nj j jj
f w y k wϕ α=
= ( + = +∑x w x x x
T0( ) )f wϕ= ( +x w x
∑=+=
N
i jjj wkyf1 0),()( xxx α
![Page 69: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/69.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen Weitere Literatur:
B.Schölkopf, A.J.Smola: „Learning with Kernels”. 2002
69
Kernel-Funktionen
Polynomielle Kernels
Radiale Basisfunktion
djijik )1(),( T
poly += xxxx
2)(RBF ),( jiek ji
xxxx −−= γ
![Page 70: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/70.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
70
Kernelisierte Verfahren
Umformung des Optimierungsproblem, so dassBeispiele nur im paarweisen Skalarprodukt
Perzeptron SVM
Logistische Regression …
1( ) ( , )m
i j j j ijf y kα
==∑x x x
1 , 1
1min ( , )2
N N
i i j i j i ji i j
y y kα α α α= =
−∑ ∑ x x
![Page 71: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/71.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen Originalreferenz:
J.Weston, C.Watkins: „ Support vector machines for multi-class pattern recognition”. 1999
71
Multiklassen SVM
Klassifikation bei mehr als zwei Klassen:
Gewichtsvektors für jede mögliche Klasse
Optimierungsproblem:
Mit Nebenbedingungen
* arg max ( , ) arg max ,y y yy f y= =x w x
2
1 1min
k n
i ii i
C ξ= =
+∑ ∑w
: ( , ) ( , ) 1i i i i iy y f y f y ξ∀ ≠ ≥ + −x x
![Page 72: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/72.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Feature-Mapping
Entscheidungsfunktion bekommt zwei Parameter:
Gemeinsame Repräsentation von Ein- und Ausgabe:
Gleicher Ansatz für Taxonomien, Sequenz- und Struktur-Lernen, Ranking, Ordinale Regression,… 72
),),( T yyf xwx (Φ=
( )
1
2
3
4
5
6
, y
y
y
y
y
y
y
=
= = =
Φ
=
=
=
x
x
x
x x
x
x
1
=
x
00
0
0
0
2
3
4
5
6
![Page 73: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/73.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
kodiert z.B. ein Dokument ist ein Pfad z.B. in einem Themenbaum
Klassifikation mit Taxonomien
73
( )
2 2
2 2
1 11
1
3
2
31
3
33
3
3
2
,
y v
y v
y v
y v
y v
y v
= = = = = =
=
Φ
x
x
x
x y x
x
x
11v
21v 2
2v
31v 3
2v 33v
=
0
00
x
x
x
( )1 2 31 2 3, ,
Tv v v=y
x
![Page 74: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/74.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
Ausgaberaum Y beinhaltet komplexe Objekte Wortart- und Eigennamenerkennung Natural Language Parsing Sequence Alignment …
Mehrstufenverfahren propagieren Fehler Warum ist das kein einfaches Multiklassen-
Problem? Exponentielle Anzahl von Parametern Effektive Vorhersage Effektives Lernen
Strukturierte Ein-/Ausgaben
74
![Page 75: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/75.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
75
Lernen mit strukturierten Ausgaben
Optimierungsproblem
Mit Nebenbedingungen
Iteratives Training. Negative Constraints werden hinzugefügt, wenn
beim Training Fehler auftritt.
2
1min
n
ii
C ξ=
+ ∑w
( ) ( )( ),1 : 1,i iT
i i ii n ξ∀ = ∀ ≠ ≥ −… Φ −Φx yxyy y w: 01 ini ξ∀ …= ≥
![Page 76: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/76.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
76
Lernen mit strukturierten AusgabenSchnittebenenalgorithmus
Gegeben: Wiederhole bis alle Sequenzen korrekt
vorhergesagt werden. Iteriere über alle Beispiele (xi, yi).
Bestimme Wenn (Margin-Verletzung)
dann füge Constraint dem Working Set hinzu.
Löse Optimierungsproblem für Eingabe xi, Ausgabe yi, und negative Pseudo-Beispiele y (working set).
Liefere w zurück.
),maxarg T yxwy yy ii(Φ= ≠
1),), TT +(Φ<(Φ yxwyxw iii
iiii ξ−+(Φ≥(Φ 1),), TT yxwyxw
( ) ( ){ }1 1 ,..., ,, n nL yy= x x
![Page 77: Zusammenfassung: Lernprobleme, Bayes‘sches Lernen, Evaluierung€¦ · Sterling. Friend. Zoo ... Dear Beneficiary, your Email address has been picked online in this years MICROSOFT](https://reader034.vdocuments.pub/reader034/viewer/2022050116/5f4cacc909b5fa18f709358f/html5/thumbnails/77.jpg)
Saw
ade/Landwehr/S
cheffer, Maschinelles Lernen
77
Halbüberwachtes Lernen
Verschiedene Mechanismen, mit denen Informationen aus ungelabelten Daten genutzt werden. Transduktion Graph-Laplacians Co-Lernen