![Page 1: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/1.jpg)
Data Mining
8.5.2007
Georg Pölzlbauer
![Page 2: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/2.jpg)
Datenmatrix (1)
• Messungen werden in Tabellenform dargestellt
• N Zeilen sind gemessene Objekte xi
(samples, patterns)
• D Spalten sind Merkmale (features, variables)
NDN
D
xx
xx
X
1
111
![Page 3: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/3.jpg)
Datenmatrix (2)
• Beispiel: Umfrage; es werden 100 Personen zu ihrer Einstellung zu 5 politischen Parteien gefragt (Bewertung auf Skala von 0 bis 10)
100 Zeilen, 5 Spalten
• Es gibt auch andere Arten von Daten (z.B. Zeitreihen, strukturierte Daten, …), diese sind aber nicht Thema dieser Vorlesung
![Page 4: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/4.jpg)
Geometrische Interpretation (1)
• Samples xi sind Punkte in einem Vektorraum
• "Datenpunkte" bilden Datenwolke
![Page 5: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/5.jpg)
Geometrische Interpretation (2)
1,50 1,60 1,70 1,80 1,90
40
50
60
70
80
90
100
Gewicht(kg)
Größe(m)
![Page 6: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/6.jpg)
Skalentypen (1)
• NominalskalaWerte stehen in keiner Ordnung zueinander,
unterschiedliche Werte sind sich alle gleich unähnlich
z.B. Haarfarbe (blond, brünett, schwarz, …)
• Ordinalskalanumerische Skala, aber Abstände zwischen
den Werten haben keine Bedeutungz.B. Noten (ist der Abstand zw. 4 und 5 genau
so groß wie der zwischen 2 und 3?)
![Page 7: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/7.jpg)
Skalentypen (2)
• IntervallskalaAbstand zwischen 2 Werten kann gemessen
und mit anderen Abständen verglichen werden
z.B. Temperatur (in Celsius, Fahrenheit)
• Verhältnisskalawie Intervallskala, man kann aber Verhältnisse
berechnen, hat sinnvollen Nullpunktz.B. Gewicht, Größe (Person A ist 1,2x so groß
wie B)
![Page 8: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/8.jpg)
Metriken (1)
• Welche Datenpunkte sind ähnlich?
• Euklidische Distanz (L2-Metrik)
• Manhattan Distanz (L1-Metrik, City-Block)
D
iii xxxxxxd
1
2212121 )(),(
D
iii xxxxxxd
1212121 ),(
![Page 9: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/9.jpg)
Metriken (2)
Abstand?
![Page 10: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/10.jpg)
Metriken (2)
EuklidischeDistanz
![Page 11: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/11.jpg)
Metriken (2)
City Block
![Page 12: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/12.jpg)
Mittelwert, Varianz (1)
• Arithmetisches Mittel (Mittelwert, mean) kann pro Merkmal gebildet werden
• Streuungsmaße wie Varianz bzw. Standardabweichung können ebenfalls für jedes Merkmal berechnet werden
N
iijj x
Nx
1
1
![Page 13: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/13.jpg)
Mittelwert, Varianz (2)
1,50 1,60 1,70 1,80 1,90
40
50
60
70
80
90
100
Gewicht(kg)
Größe(m)
1x
2x
![Page 14: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/14.jpg)
Mittelwert, Varianz (2)
1,50 1,60 1,70 1,80 1,90
40
50
60
70
80
90
100
Gewicht(kg)
Größe(m)
s1
s2
![Page 15: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/15.jpg)
1-zu-N Kodierung (1)
• Die meisten Data Mining Algorithmen benötigen intervallskalierte Daten
• Problem v.a. bei kategorischen Daten (nominalskaliert)
• Lösung: Eine binäre Variable für jede mögliche Ausprägung
![Page 16: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/16.jpg)
1-zu-N Kodierung (2)
feature
red
blue
green
red
red
green
blue
red blue green
1 0 0
0 1 0
0 0 1
1 0 0
1 0 0
0 0 1
0 1 0
![Page 17: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/17.jpg)
Fehlende Werte
• Oft vorkommendes Problem bei Data Mining
• Mögliche Lösungen:– Verfahren verwenden, die damit umgehen
können (Decision Trees, SOMs) – Diese Samples weglassen – Werte interpolieren (missing value prediction)
![Page 18: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/18.jpg)
Ausreißer
• Ausreißer können Fehlmessungen oder einfach stark untypische Samples sein
• Problem bei Berechnung von Varianz, Kovarianz etc.
• Robuste Statistik: Median, Quartile, etc.
![Page 19: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/19.jpg)
Normalisierung von Daten (1)
1,50 1,60 1,70 1,80 1,90
40
50
60
70
80
90
100
Gewicht(kg)
Größe(m)
Abstand = sqrt(0,3^2 + 45^2)= sqrt(2025,09)
= 45
45
0,3
![Page 20: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/20.jpg)
Normalisierung von Daten (1)
1500 1600 1700 1800 1900
40
50
60
70
80
90
100
Gewicht(kg)
Größe(mm)
Abstand = sqrt(300^2 + 45^2)= sqrt(92025)
= 303
45
300
![Page 21: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/21.jpg)
Normalisierung von Daten (2)
• Die Abstandsmeßung sollte von der Maßeinheit der Merkmale unabhängig gemacht werden
• Standardisierung (zero-mean-unit-variance):
j
jijij s
xxz
![Page 22: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/22.jpg)
Normalisierung von Daten (3)
1,50 1,60 1,70 1,80 1,90
40
50
60
70
80
90
100
Gewicht(kg)
Größe(m)
![Page 23: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/23.jpg)
Normalisierung von Daten (3)
-2 -1 0 1 2
-3-2-1
01
23
Gewicht
Größe
5,5
4,5
![Page 24: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/24.jpg)
Normalisierung von Daten (4)
Chebyshevs Ungleichung75% der standardisierten Werte zwischen -2
und +2
89% der Werte zwischen -3 und +3
94% der Werte zwischen -4 und +4
![Page 25: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/25.jpg)
Dichtefunktion
• Es wird angenommen, daß den gemessenen Werten (Datenmatrix) eine Dichtefunktion zu Grunde liegt
• Diese Funktion ist unbekannt, es ist eine unserer Aufgaben sie zu schätzen
![Page 26: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/26.jpg)
Normalverteilung (1)
• Die Normalverteilung nimmt in der Statistik eine besondere Rolle ein
• Eine Zufallsvariable X ist normalverteilt:
),(~ 2NX
2)(2
1
2
1)(
x
exf
![Page 27: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/27.jpg)
Normalverteilung (2)
![Page 28: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/28.jpg)
Multivariate Verteilungen (1)
• MV Zufallsvariable werden durch mehrdimensionale Dichtefunktionen beschrieben
• Für MV Normalverteilung schreibt man z.B. ),(~ NX
Zufallsvektor Vektor von Mittelwerten
Kovarianzmatrix
![Page 29: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/29.jpg)
Multivariate Verteilungen (2)
![Page 30: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/30.jpg)
Stichproben (1)
• Die konkreten Ausprägungen, die gemessen werden, sind Stichproben der Population
• Die Stichprobe besteht aus N Samples, Population wird durch kontinuierliche Dichtefunktion beschrieben
![Page 31: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/31.jpg)
Stichproben (2)
![Page 32: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/32.jpg)
Population vs. Stichprobe
Stichprobe Population
Mittelwert
Varianz
![Page 33: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/33.jpg)
Bayes Theorem (1)
• Oft stehen Zufallsereignisse mit einander in Verbindung
• Wenn man z.B. die Ereignisse „die Erde ist naß“ (A) und „es regnet“ (B) betrachtet:– Wahrscheinlichkeiten P(A) = 0,15 und P(B) =
0,12– Mit der Information, daß der Boden naß ist
(also A eingetreten ist), scheint es wahrscheinlicher, daß es regnet
![Page 34: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/34.jpg)
Bayes Theorem (2)
• Bedingte Wahrscheinlichkeit:P(B|A) = 0,8
D.h. unter der Voraussetzung, dass der Boden naß ist, regnet es mit W. von 80% (ohne dieser Information: 12%)
• Das Bayes Theorem erlaubt die Berechnung der W. in die andere Richtung (d.h. wenn man die Bedingung vertauscht)
![Page 35: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/35.jpg)
Bayes Theorem (3)
• Bayes Theorem:
• Z.B.: P(A|B)… W. daß der Boden naß ist wenn es regnet
• P(A|B) = 0,15*0,8/0,12 = 1
)(
)|()()|(
BP
ABPAPBAP
![Page 36: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/36.jpg)
Kovarianz
• Kovarianz mißt die Stärke des linearen Zusammenhangs zweier Variablen
1,50 1,60 1,70 1,80 1,90405060708090
100
Gewicht(kg)
Größe(m)
![Page 37: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/37.jpg)
Kovarianzmatrix
• Die Kovarianzmatrix hat die Varianzen der Variablen in der Diagonale, und die Kovarianzen außerhalb der Diagonale
• Beispiele:
2212
1221
232313
232212
131221
![Page 38: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/38.jpg)
Korrelation
• Standardisierte Kovarianz (dimensionslos, zwischen -1 und +1, ähnlich Normalisierung)
• Negative Korrelation: Wenn x1 steigt, sinkt x2
• Positive Korrelation: Wenn x1 steigt, steigt auch x2
• Korrelation = 0: Kein linearer Zusammenhang
![Page 39: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/39.jpg)
Schiefe (1)
• Weiteres „statistisches Moment“ (neben Mittelwert, Varianz)
• Schiefe ist ungleich 0 wenn Verteilung nicht symmetrisch
![Page 40: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/40.jpg)
Schiefe (2)
![Page 41: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/41.jpg)
Informationstheorie: Entropie
![Page 42: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/42.jpg)
Datenanalyse: Scatterplots
![Page 43: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)](https://reader036.vdocuments.pub/reader036/viewer/2022062623/55204d7f49795902118d171b/html5/thumbnails/43.jpg)
Hauptkomponentenanalyse