vorlesung neuronale netze - maschinelles lernen: grundlagen und –ideen - ss 2004 holger fröhlich...
TRANSCRIPT
![Page 1: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/1.jpg)
Vorlesung Neuronale Netze- Maschinelles Lernen: Grundlagen und –ideen -
SS 2004
Holger Fröhlich
Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell
![Page 2: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/2.jpg)
Neuronale Netze, SS 2004 2Univ. Tübingen, Informatik, Abt. Prof. Zell,
Gliederung
Allgemeiner ÜberblickDas Problem Generalisierungsfähigkeit beim
überwachten LernenDesign und Evaluation von Klassifikatoren
![Page 3: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/3.jpg)
Neuronale Netze, SS 2004 3Univ. Tübingen, Informatik, Abt. Prof. Zell,
Menschliches Gehirn
![Page 4: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/4.jpg)
Neuronale Netze, SS 2004 4Univ. Tübingen, Informatik, Abt. Prof. Zell,
Eigenschaften des Gehirns
FrequenzcodierungHochgradige VernetzungMassiv parallele Verarbeitung
große SpeicherfähigkeitLern- und Assoziationsfähigkeit
Kann man das mit einer Maschine auch???
![Page 5: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/5.jpg)
Neuronale Netze, SS 2004 5Univ. Tübingen, Informatik, Abt. Prof. Zell,
Maschinelles Lernen
Was genau soll eine Maschine eigentlich lernen?
Wie kann man den Lernerfolg messen?
Wie kann man das effizient auf einem herkömmlichen Computer implementieren?
=> Notwendigkeit der Konkretisierung und Formalisierung
![Page 6: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/6.jpg)
Neuronale Netze, SS 2004 6Univ. Tübingen, Informatik, Abt. Prof. Zell,
Arten des Maschinellen Lernens
Überwachtes Lernen: Lerne “Regel” (Modell, Hypothese) aus Menge von Beispielen
Verstärkendes Lernen: Lernen mit Hilfe von Kritik (“Dein letzter Versuch war gut / schlecht”)
Unüberwachtes Lernen: Lerne etwas durch Vergleich von Objektenz.B.: Objekt A sieht so ähnlich aus wie Objekt B. Also
müssen sie beide zur selben “Kategorie” gehören.
![Page 7: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/7.jpg)
Neuronale Netze, SS 2004 7Univ. Tübingen, Informatik, Abt. Prof. Zell,
Überwachtes Lernen - Klassifikation
Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000
![Page 8: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/8.jpg)
Neuronale Netze, SS 2004 8Univ. Tübingen, Informatik, Abt. Prof. Zell,
Mögliche Klassifikationen?
Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000
![Page 9: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/9.jpg)
Neuronale Netze, SS 2004 9Univ. Tübingen, Informatik, Abt. Prof. Zell,
Probleme
Wie können wir entscheiden, welche Klassifikation korrekt ist?
Wir wollen einen Klassifikator, der auch möglichst richtig auf ungesehenen Daten arbeitet, d.h. generalisiert!
Wie können wir solch einen Klassifikator konstruieren?
![Page 10: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/10.jpg)
Neuronale Netze, SS 2004 10Univ. Tübingen, Informatik, Abt. Prof. Zell,
Überwachtes Lernen - Regression
Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002
![Page 11: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/11.jpg)
Neuronale Netze, SS 2004 11Univ. Tübingen, Informatik, Abt. Prof. Zell,
Dieselben Probleme
Wie können wir entscheiden, welche Regressions-Funktion korrekt ist?
Wir wollen eine Regressions-Funktion, die auch möglichst richtig auf ungesehenen Daten arbeitet, d.h. generalisiert!
Wie können wir solch eine Regressions-Funktion konstruieren?
![Page 12: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/12.jpg)
Neuronale Netze, SS 2004 12Univ. Tübingen, Informatik, Abt. Prof. Zell,
Unüberwachtes Lernen – Bsp. Clustering
![Page 13: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/13.jpg)
Neuronale Netze, SS 2004 13Univ. Tübingen, Informatik, Abt. Prof. Zell,
Problem
Wie kann man die Objekte sinnvoll in gleichartige Kategorien/Cluster einteilen?
Wie kann man die Güte einer solchen Einteilung beurteilen?
Wie viele Cluster sollen gefunden werden?
![Page 14: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/14.jpg)
Neuronale Netze, SS 2004 14Univ. Tübingen, Informatik, Abt. Prof. Zell,
Allgemeiner ÜberblickDas Problem Generalisierungsfähigkeit beim
überwachten LernenDesign und Evaluation von Klassifikatoren
![Page 15: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/15.jpg)
Neuronale Netze, SS 2004 15Univ. Tübingen, Informatik, Abt. Prof. Zell,
Überwachtes Lernen formal
Geg.: ges.:
Klassifikation: Y endlich Regression: Y = d
Annahme: Daten wurden statistisch unabhängig (i.i.d.) einer unbekannten Zufallsverteilung P(x,y) entnommen
YXyxyxD nn ),(),...,,( 11
YXf :
![Page 16: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/16.jpg)
Neuronale Netze, SS 2004 16Univ. Tübingen, Informatik, Abt. Prof. Zell,
Empirisches Risiko
Vereinfachung:Empirisches Risiko (=Trainingsfehler)
Funktion heißt FehlerfunktionHier:
1: Xf
emp1
1[ ] ( , ( ))
n
i ii
R f y f xn
:Y Y 1 '
( , ')0
y yy y
sonst
![Page 17: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/17.jpg)
Neuronale Netze, SS 2004 17Univ. Tübingen, Informatik, Abt. Prof. Zell,
Kernproblem
Wahres Risiko
Ein guter Klassifikator sollte R[f] minimieren
ABER: R[f] kann man nicht berechnen!!! (da P(x,y) nicht bekannt ist)
Reicht die Minimierung des emp. Risikos statt dessen aus???
[ ] ( , ( )) ( , )X Y
R f y f x dP x y
![Page 18: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/18.jpg)
Neuronale Netze, SS 2004 18Univ. Tübingen, Informatik, Abt. Prof. Zell,
Statistische Perspektive (Vapnik, Chervonenkis, 1979)
Begreife Remp[f] als statist. Schätzer für R[f].
Gewünscht: Konsistenz von Remp[f], d.h.
Frage: Ist dies möglich?
optemp
Proptemp
lim Pr(| [ ] [ ] | ) 0 0
kurz: [ ] [ ] 0
n
n
n
R f R f
R f R f
![Page 19: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/19.jpg)
Neuronale Netze, SS 2004 19Univ. Tübingen, Informatik, Abt. Prof. Zell,
Beobachtung 1:Beobachtung 2: Insbesondere gilt dann
Summe der Ungleichungen:
opt[ ] [ ] 0 R f R f f F
emp emp[ ] [ ] 0 nR f R f f F
opt
optemp emp
[ ] [ ] 0
und [ ] [ ] 0
n
n
R f R f
R f R f
opt optemp emp
opt optemp emp
opt optemp emp
0 [ ] [ ] [ ] [ ]
[ ] [ ] [ ] [ ]
sup( [ ] [ ]) [ ] [ ]
n n
n n
f F
R f R f R f R f
R f R f R f R f
R f R f R f R f
![Page 20: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/20.jpg)
Neuronale Netze, SS 2004 20Univ. Tübingen, Informatik, Abt. Prof. Zell,
Zweite Hälfte der Gleichung: opt ist unabhängig von Trainingsdaten! Daher:
Aber:
erfordet gleichmäßige Konvergenz über alle Funktionen, die die Maschine implementieren kann!
Propt optemp| [ ] [ ] | 0 (Gesetz der großen Zahlen)R f R f
Prempsup( [ ] [ ]) 0
f FR f R f
![Page 21: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/21.jpg)
Neuronale Netze, SS 2004 21Univ. Tübingen, Informatik, Abt. Prof. Zell,
Gleichmäßige Konvergenz
Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002
![Page 22: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/22.jpg)
Neuronale Netze, SS 2004 22Univ. Tübingen, Informatik, Abt. Prof. Zell,
Gleichmäßige Konvergenz (2)
Wie kann gleichmäßige Konvergenz a priori garantiert werden?
Satz (Vapnik, Chervonenkis): Für alle >0
N(F,2n) heißt shattering Koeffizient der Funktionenklasse F.
N(F,2n) ist ein Maß, um die Komplexität (Kapazität) von F zu messen.
2
empPr(sup( [ ] R [ ]) ) 4 ( , 2 )exp8f F
nR f f N F n
![Page 23: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/23.jpg)
Neuronale Netze, SS 2004 23Univ. Tübingen, Informatik, Abt. Prof. Zell,
Shattering
Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002
![Page 24: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/24.jpg)
Neuronale Netze, SS 2004 24Univ. Tübingen, Informatik, Abt. Prof. Zell,
VC-Dimension
Shattering = Realisierung aller 2n verschiedenen Klasseneinteilungen von n Punkten
VC-Dimension = maximale Anzahl Punkte h, für die es eine Menge von h Punkten gibt, die F shattern kann (und , falls es kein solches h gibt).
Bsp.: VC-Dimension der Klasse der Hyperebenen in 2 ist 3.
![Page 25: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/25.jpg)
Neuronale Netze, SS 2004 25Univ. Tübingen, Informatik, Abt. Prof. Zell,
VC-Schranke
Folgerung: gleichmäßige Konvergenz hängt von Kapazität von F ab.
=> Kapazität sollte beschränkt werden (Bevorzugung möglichst “einfacher” Funktionen)
Quantitativ (aus vorherigem Satz):
emp
Mit Wahrscheinlichkeit 1 gilt:
1 2 4[ ] R [ ] ln 1 ln
nR f f h
n h
![Page 26: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/26.jpg)
Neuronale Netze, SS 2004 26Univ. Tübingen, Informatik, Abt. Prof. Zell,
Überanpassung vs. Unteranpassung
Überanpassung (overfitting): emp. Risiko klein (vielleicht 0), aber h groß.
Unteranpassung (underfitting): h klein, aber emp. Risiko groß.
![Page 27: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/27.jpg)
Neuronale Netze, SS 2004 27Univ. Tübingen, Informatik, Abt. Prof. Zell,
Überanpassung vs. Unteranpassung (2)
Source: Schölkopf, Smola, Learning with Kernels, MIT Press, 2002
![Page 28: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/28.jpg)
Neuronale Netze, SS 2004 28Univ. Tübingen, Informatik, Abt. Prof. Zell,
Regularisierung
Trade-off zwischen Überanpassung und Unteranpassung.
Idee: Minimierung des regularisierten Risikos
-> Idee bei Support Vector Machines
reg emp[ ] [ ] [ ], 0R f R f f
![Page 29: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/29.jpg)
Neuronale Netze, SS 2004 29Univ. Tübingen, Informatik, Abt. Prof. Zell,
Allgemeiner ÜberblickDas Problem Generalisierungsfähigkeit beim
überwachten LernenDesign und Evaluation von Klassifikatoren
![Page 30: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/30.jpg)
Neuronale Netze, SS 2004 30Univ. Tübingen, Informatik, Abt. Prof. Zell,
Das Klassifikations-Framework
Source: Duda, Hart, Stork, Pattern Classification, Wiley Interscience, 2000
![Page 31: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/31.jpg)
Neuronale Netze, SS 2004 31Univ. Tübingen, Informatik, Abt. Prof. Zell,
Vorverarbeitung der Daten
(falls möglich) Codierung als reelwertiger VektorNormalisierung aller Merkmale auf Mittelwert 0
und Standardabweichung 1.Alternativ: Skalierung, z.B. zwischen [-1,1].
Anzahl Räder Motor (ja/nein) Farbe Fahrzeugtyp4 ja blau Auto3 nein grün Dreirad2 ja gelb Motorrad2 nein rot Fahrrad4 ja silber Auto
... ... ... ...
![Page 32: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/32.jpg)
Neuronale Netze, SS 2004 32Univ. Tübingen, Informatik, Abt. Prof. Zell,
Merkmalsauswahl
Entfernung irrelevanter Merkmale (hier: “Farbe”)Extraktion möglichst informativer Merkmale aus
den ursprünglichen Daten durch Transformation (z.B. Principal Component Analysis)
![Page 33: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/33.jpg)
Neuronale Netze, SS 2004 33Univ. Tübingen, Informatik, Abt. Prof. Zell,
Evaluation eines Klassifikators
Möglichkeit 1: Teste auf einer großen Menge von ungesehenen Testdaten
Möglichkeit 2 (besser): benutze Kreuzvalidierung (cross-validation)
![Page 34: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/34.jpg)
Neuronale Netze, SS 2004 34Univ. Tübingen, Informatik, Abt. Prof. Zell,
K-fold Kreuzvalidierung
![Page 35: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/35.jpg)
Neuronale Netze, SS 2004 35Univ. Tübingen, Informatik, Abt. Prof. Zell,
Eigenschaften der Kreuzvalidierung
Schätzer für Generalisierungsleistung (Risiko)Schätzung um so genauer, je mehr folds. -> extrem: Leave-one-out cross-validationVorteil: einfacher Vergleich von KlassifikatorenNachteil: Rechenzeit
![Page 36: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/36.jpg)
Neuronale Netze, SS 2004 36Univ. Tübingen, Informatik, Abt. Prof. Zell,
No Free Lunch
Gibt es einen universal besten Klassifikator? Sei hk die von Klassifikator k gelernte
Hypothese und g die Zielfunktion.Sei Pr(hk|D) die Wahrscheinlichkeit, daß der
Algorithmus hk liefert, wenn er auf Datensatz D trainiert wurde.
Definiere “Matching” zwischen Verteilungen P(hk|D) und P(g|D)
, '
( ) ( )(1 ( ( ), ( ))) ( | ) ( | )k
k k
h F g F x D
Match D P x g x h x P h D P g D
![Page 37: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/37.jpg)
Neuronale Netze, SS 2004 37Univ. Tübingen, Informatik, Abt. Prof. Zell,
No Free Lunch (2)
Folgerung: Ohne Vorwissen von P(g|D) kann man eigentlich gar nichts über P(hk|D) zeigen.
Definiere sog. off-training Fehler
offtrain ( , ) ( )(1 ( ( ), ( ))) ( | )k k k k
x D
E g D P x g x h x P h D dx
![Page 38: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/38.jpg)
Neuronale Netze, SS 2004 38Univ. Tübingen, Informatik, Abt. Prof. Zell,
Satz (No Free Lunch Theorem)
1. Es gilt
2. Für irgendeinen festen Datensatz D gilt
3. 1 + 2 gelten auch gleichverteilt gemittelt über alle Priors P(g)
1 2offtrain offtrain( | )( [ , ] [ , ]) 0g D
P D g E g D E g D
1 2offtrain offtrain( | )( [ , ] [ , ]) 0g
P D g E g D E g D
![Page 39: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/39.jpg)
Neuronale Netze, SS 2004 39Univ. Tübingen, Informatik, Abt. Prof. Zell,
Interpretation von 1 + 2
1. Falls alle Zielfunktionen gleich wahrscheinlich sind, dann wird, egal wie clever wir einen “guten” Lernalgorithmus P1(h1|D) und einen “schlechten” P2(h2|D) wählen, der “gute” nicht besser als der “schlechte” sein.
2. Das gleiche gilt, falls D schon bekannt ist.
Wie kann man 3. Interpretieren?
![Page 40: Vorlesung Neuronale Netze - Maschinelles Lernen: Grundlagen und –ideen - SS 2004 Holger Fröhlich Lehrstuhl Rechnerarchitektur, Prof. Dr. A. Zell](https://reader035.vdocuments.pub/reader035/viewer/2022081516/55204d7549795902118c9183/html5/thumbnails/40.jpg)
Neuronale Netze, SS 2004 40Univ. Tübingen, Informatik, Abt. Prof. Zell,
Folgerungen
Selbst ein theoretisch gut fundierter Algorithmus wird auf einigen Daten schlecht funktionieren.
Vergleiche der Generalisierungsleistung von Algorithmen sind nur auf vorhandenen Datensätzen sinnvoll.
Jeder Lernalgorithmus muß (implizite) Annahmen über das Lernproblem machen.
Es gibt keinen universalen Lernalgorithmus, der ohne Vorwissen auskommt.