katharina morik lehrstuhl informatik viii universität dortmund
DESCRIPTION
Data Mining – Merkmalsextraktion, Merkmalsgenerierung, Merkmalsselektion als Schlüssel zum Erfolg. Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund www-ai.cs.uni-dortmund.de [email protected]. Überblick. Unterstützung des Data Mining Prozesses - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/1.jpg)
Data Mining – Merkmalsextraktion,
Merkmalsgenerierung, Merkmalsselektion
als Schlüssel zum Erfolg
Katharina MorikLehrstuhl Informatik VIII
Universität Dortmundwww-ai.cs.uni-dortmund.de
![Page 2: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/2.jpg)
Überblick
Unterstützung des Data Mining Prozesses MiningMart – direkte Datenbankintegration
– Telekommunikationsanwendung– Versicherungsanwendung
Yale – stand-alone mit Datenbank- oder Dateizugriff– automatische Merkmalsextraktion aus Musikdaten– peer2peer Organisation von Musiksammlungen
Credo
![Page 3: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/3.jpg)
DM Prozess 3
CRISP – Prozess der Wissensentdeckung
Businessunderstanding
Dataunderstanding
EvaluationDeployment
Modeling
Datapreparation
64% der Wissensentdecker brauchen mehr als 61% der Zeit einer Anwendung für die Vorverarbeitung (KDnuggets poll Okt.2003).
![Page 4: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/4.jpg)
DM Prozess
Werkzeuge für Data Mining
Unterstützung des zentralen Lernschrittes (Modellierung) bereits sehr gut – Vorverarbeitung?
Dokumentation des gesamten Prozesses? Wiederverwendbarkeit eines Prozesses?
LS8 entwickelt Werkzeuge, die den gesamten Prozess unterstützen dokumentieren wiederverwenden lassen!
![Page 5: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/5.jpg)
DM Prozess 5
Vorverarbeitung
Fehlende Werte Zusammenstellen der Informationen aus mehreren
Datenbanktabellen zu einem Beispiel (in einer Tabelle)
Ausreißererkennung Sampling Erzeugen der Merkmale gemäß der Anforderung des
Lernalgorithmus’.
![Page 6: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/6.jpg)
MiningMart 6
Mining Mart Ziele
Operatoren für die Vorverarbeitung– direkt auf der Datenbank– maschinelles Lernen für die Vorverarbeitung
Dokumentation – der Daten– der Fälle
Wiederverwendung von abstrahierten Fällen
![Page 7: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/7.jpg)
MiningMart 7
Mining Mart Ansatz
Metadaten zur Beschreibung von– Daten, – Operatoren und– Fällen (Sequenzen von Operatoren)
Compiler, der Metadaten in ausführbaren SQL-Code übersetzt
Sammlung von Fällen in Form von operationalen Metadaten
![Page 8: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/8.jpg)
Lernoperatoren des MetamodellsDataMiningStep
Classification Regression Clustering Associations Subgroupdiscovery
SVM_light decisionTree MySVM k-means Sidos,Midos
Lernoperatoren sind auch Vorverarbeitungoperatoren!Beispiel: C4.5 zur Disketisierung oder Ersetzung fehlender Werte.
NEU
![Page 9: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/9.jpg)
MiningMart 9
Meta Modell für Metadaten
Das begriffliche Modellbeschreibt die Objekte und Klassen der Anwendung
Das Fallmodellbeschreibt Operator-ketten
Das Ausführungsmodellgeneriert SQL statementsoder Aufrufe externer Verfahren
Das relationale Modellbescheibt die Datenbank
![Page 10: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/10.jpg)
MiningMart 10
TILab
CustomerData Warehouse
Daten• Kundeninformation• Service Profil der Kunden• Tarifdetails der Kunden• Extra service Information Anrufdaten aggregiert je Monat• Rechnungsdaten aggregiert je Monat
• Beschwerden • Missbrauch • Kundenkontakt • Marktdaten
13 operationale Systeme
•Mehr als 500 Attribute je Kunde•Loading: monatlich•Datenvolumen: 1.5 Tb
Welche Kunden werden den Vertrag kündigen?
![Page 11: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/11.jpg)
Fallentwicklung mit Mining Mart
Schritte:–Begriffe, Attribute, Relationen
– Operatoren
– Kette aufbauen
![Page 12: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/12.jpg)
MiningMart 12
Begriffe, Attribute, Relationen
Demographische Attribute
Anrufdaten
Daten über Services
Einnahmedaten
![Page 13: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/13.jpg)
MiningMart 13
Vorverarbeitungskette
![Page 14: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/14.jpg)
MiningMart 14
Ergebnis der Vorverarbeitung
16 Rohattribute
45 Generierte Attribute
Merkmalsgenerierung Merkmalsauswahl
![Page 15: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/15.jpg)
Churn prediction Ketten Medium value customers are selected
training set
decision tree operator applied to fit predict the likelihood of a customer to become a churner in the month M6
Save output
4 Lernläufe, einen für jedes Kundensegment
![Page 16: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/16.jpg)
Lernergebnis
![Page 17: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/17.jpg)
Performanz
PRED_ACTPRED_CHN
ACTIVE
CHURNER
11
8986
140
20
40
60
80
100
MEDIUM customer model performance
PRED_ACTPRED_CHN
ACTIVE
CHURNER
19
8194
60
20
40
60
80
100
HIGH customer model performance
Training / test set: 70% / 30%
![Page 18: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/18.jpg)
MiningMart 18
Schlussfolgerung von TILab:
Speed up for some preprocessing tasks increased by 50% at least.
Power users may find Mining Mart as easy to use as the leading commercial dm platforms.
It enables building libraries of predefined data mining applications that can be easily modified.
MiningMart guarantees the highest scalability, since it exploits leading commercial db tools features.
Quality of data mining output increases. Bottom line: Mining Mart supports efficiently and effectively the
preprocessing stage of a data mining process.
![Page 19: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/19.jpg)
MiningMart 19
Versicherungsanwendung
Versicherung (SwissLife): Analyse der Rückkäufe Daten:
– Auszug aus dem Data Warehouse einer Versicherungsgesellschaft in anonymisierter Form
– Oracle-Datenbank, 18 Tabellen und 15 Relationen– Informationen zu Versicherungsverträgen und
demographische Daten zu den Partnern– 217 586 Versicherungsverträge und 163 745 Partner
Mit gegebenen Merkmalen Lernergebnis nur max. – Precision: 57%– Recall: 80%
![Page 20: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/20.jpg)
MiningMart 20
Auszug aus der VersicherungstabelleVVID VVAENDR VVWIVON VVWIBIS VVAENDAT VVAENDART ...
16423 1 1946 1998 1946 1000
16423 2 1998 1998 1998 27
16423 3 1998 1998 1998 4
16423 4 1998 1998 1998 54
16423 5 1998 1998 1998 4
16423 6 1998 9999 1998 61
5016 1 1997 1999 1997 33
5016 2 1999 2001 1999 33
5016 3 2001 2001 2001 33
5016 4 2001 2001 2001 33
5016 5 2001 2002 2001 81
5016 6 2002 9999 2001 94
... ... ... ... ... ... ...
![Page 21: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/21.jpg)
MiningMart 21
Merkmalsgenerierung mit Hilfe von TFIDF Termfrequenz beschreibt, wie oft ein bestimmtes
Attribut in einem Vertrag geändert wurde
Die Dokumentfrequenz entspricht der Anzahl der Verträge, in denen das Attribut geändert wurde
TFIDF Merkmale
geändert wurde|Zeitpunkte),( iji axcatf
geändert wurde|)( iji aCcadf
)(C
log),(),(i
jiji adfcatfcatfidf
![Page 22: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/22.jpg)
MiningMart 22
Erzeugung der TFIDF MerkmaleVVID ... VVSTACD VVPRFIN VVPRZA VVINKZWEI VVBEG VVEND VVINKPRL ...16423 4 1 2 2 1946 1998 295,29
16423 4 1 2 2 1946 1998 295,29
16423 4 5 2 0 1946 2028 0
16423 5 3 2 0 1946 2028 0
16423 4 1 2 2 1946 1998 295,29
16423 5 3 2 0 1946 1998 0
VVSTACDVVPRFINVVPRZAVVINKZWEIVVBEGVVENDVVINKPRL
3403023 Hanna Köpcke
![Page 23: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/23.jpg)
MiningMart 23
Lernverfahren und Ergebnisse
Training einer SVM 10-fache Kreuzvalidierung Ergebnis
– Accuracy: 99,4%– Precision: 94,9%– Recall: 98,2%
Die guten Ergebnisse können mit Thorsten Joachims TCat-Theorie erklärt werden.
Schlüssel zum Erfolg lag in der Erzeugung von TFIDF-Merkmalen.
![Page 24: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/24.jpg)
TCat-Konzepte
Das TCat-Konzept
beschreibt eine binäre Klassifikationsaufgaben mit s disjunkten Mengen von Merkmalen. Die i-te Menge enthält fi Merkmale. Jedes positive Beispiel enthält pi Merkmale aus der jeweiligen Menge, und jedes negative Beispiele enthält ni Merkmale aus der Menge. Das gleiche Merkmal kann mehrmals in einem Dokument vorkommen.
sss fnpfnpTCat ::,,:: 111
![Page 25: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/25.jpg)
TCat im Bild
20 aus 100 Stoppwörtern, 5 aus 600 mittelhäufigen und 10 aus seltenen Wörtern kommen in POS- und NEG-Dokumenten vor;4 aus 200 mittelhäufigen Wörtern in POS, 1 in NEG, 9 aus 3000 seltenen Wörtern in POS, 1 in NEG(Es müssen nicht immer die selben Wörter sein!)
positive Dokumente
negative Dokumente
4
4
9
91
1 10
101
1Wörter nachRang geordnet
![Page 26: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/26.jpg)
Lernbarkeit von TCat-Konzepten
Schranke des erwarteten Generalisierungsfehles einer Support Vector Maschine nach Joachims
2
2 21 bac
cbanR
2
1
2
1
2
1
2
1
2
d
r
s
i i
i
s
i i
ii
s
i i
i
krcR
fnc
fnpb
fpa
mit
![Page 27: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/27.jpg)
Yale 27
Systemunterstützung durch Yale
Experimente sind (geschachtelte) Ketten von Operatoren für Vorverarbeitung, maschinelles Lernen und Evaluation.
Abspeichern der Ketten erlaubt ihre Wiederverwendung mit anderen Parametern:– Daten:
• Datenformat in XML beschrieben• Datei
– Lernparameter
![Page 28: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/28.jpg)
Yale 28
Yale
Ralf Klinkenberg,Ingo Mierswa,Simon Fischer
![Page 29: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/29.jpg)
Yale 29
Lernergebnis einer Analyseaufgabe
![Page 30: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/30.jpg)
Yale 30
Intelligente Systeme für Musik
Automatische Annotation von Musik Lernen von Metadaten
Klassifikation von Musik nach– Genre (nur noch als benchmark)– Benutzerpräferenzen– Gelegenheiten
Automatische Organisation von Sammlungen Empfehlungen
z.B. EU-Projekt SIMAChttp://www.semanticaudio.org/
![Page 31: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/31.jpg)
Yale 31
Technischer Kern
Audiodaten sind Zeitreihenunivariat: Elongation
Wir müssen Ähnlichkeiten von Zeitreihen erkennen– Indexing– Clustering
![Page 32: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/32.jpg)
Yale 32
Clustering von Zeitreihen – Standard
Database C
Query Q(template)
Given a Query Q, a reference database C and a distance measure, find the location that best matches Q.
The best matching subsection.
Note that we can always convert subsequence matching to whole matching by sliding a window across the long sequence, and copying the window contents.
So passen ähnliche Musikstücke nicht!
![Page 33: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/33.jpg)
Yale 33
Dynamic Time Warping
C
QC
Q
(i,j) = d(qi,cj) + min{ (i-1,j-1) , (i-1,j ) , (i,j-1) }
Warping path w
So auch nicht!
![Page 34: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/34.jpg)
Yale 34
Technischer Kern
Merkmalsextraktion ist notwendig für– Annotation– Indexierung– Clustering– Klassifikation
Je Aufgabe unterschiedliche Merkmale nötig!– Klangähnlichkeit, Liedtexte, Kulturelle Metadaten
(MPEER, Stephan Baumann)– Verschiedene Benutzer verwenden andere Merkmale
(Klassifikation von Benutzerpräferenzen, Ingo Mierswa)
![Page 35: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/35.jpg)
Yale 35
Low Level Descriptors
Lautstärke Spectral Centroid (Cepstral) Mel Frequency Cepstral Coefficient (MFCC) Zero Crossing Rate Peaks: Amplitude, Zweithöchster/ Höchsten, Intervall
zwischen Zweithöchstem und Höchstem
![Page 36: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/36.jpg)
Yale 36
High-Level Descriptors
Genre Stimmung: glücklich, traurig, neutral Tempo: sehr langsam – sehr schnell, variierend Komplexität: gering, mittel, hoch Gefühl: sanft, neutral, aggressiv Fokus: Gesang, beides, InstrumentLernaufgabe: Klassifikation nach HLD, gegeben LLDErgebnis: klappt nicht!
Pohle et al. 2005
![Page 37: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/37.jpg)
Yale 37
Merkmalsextraktion lernen lassen!
Zils, A. Pachet, F. 2004. Automatic Extraction of Music Descriptors from Acoustic Signals. ISMIR
Mierswa, I. Morik, K. 2005. Automatic Feature Extraction for Classifying Audio Data. Machine Learning Journal, 58, 127 - 149.
Genetische Programmierung zur Optimierung der Merkmalsextraktion für eine Lernaufgabe!
Einzelbestandteile der LLD kombinieren lassen zu einem Merkmalsbaum, der ein Merkmal extrahiert.
![Page 38: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/38.jpg)
Frequenz -- Peaks
![Page 39: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/39.jpg)
Frequenz -- Stärkste Frequenz
![Page 40: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/40.jpg)
Intervalle im Frequenzbereich
![Page 41: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/41.jpg)
Phasenraum )1ty,t(yyt
Zeitreihe Ny,...,1y
Deter-ministicProcess
yt
time t yt
yt+1
AR(1)-process with outlier (AO)
yt
timet yt
yt+1
Heart rate
HRt
time t yt
yt+1
U.Gather, M. Bauer
Phasenraum
Deterministischer Prozess
AR(1) Prozessmit Ausreißer
Herzrate
![Page 42: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/42.jpg)
Audiodaten: Phasenraum Pop
![Page 43: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/43.jpg)
Audiodaten: Phasenraum Klassik
![Page 44: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/44.jpg)
Yale 44
Darstellung der geeigneten Transformationen für eine Aufgabe
Methodenbaum:– Reihe von Transformationen, durch ein Funktional
abgeschlossen• Transformationen von Wertereihen in Wertereihen• Transformation in einen anderen Raum
– Fensterung ist eine Transformation, die selbst wieder ein Methodenbaum ist
Aufbau eines Methodenbaums:– Dynamische Fensterung erzeugt neue Teilbäume
Anwendung eines Methodenbaums erzeugt Merkmale für eine gegebene Wertereihe
![Page 45: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/45.jpg)
Yale 45
Methodenbaum
T: FFT F: MaxIndexT: Hanning
T: Fensterung
Wertereihe Merkmale
F: Avg + Var
Wurzel
T: EMA
![Page 46: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/46.jpg)
Yale 46
Lernen eines Methodenbaums für eine Aufgabe mit genetischer Programmierung Training der Merkmalsextraktion auf Teilmenge der
Daten. Anwendung der Merkmalsextraktion auf alle Daten
für die Lösung einer Lernaufgabe. Genetische Programmierung:
– Individuen: Methodenbäume– Fitness durch Kreuzvalidierung der jeweiligen
Lernaufgabe nach Vorverarbeitung durch das zu evaluierende Individuum.
![Page 47: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/47.jpg)
Yale 47
Jede Aufgabe verlangt andere Merkmale
Pop vs. Klassik: durchschnittliche Länge nach einer Phasenraumtransformation bestes Merkmal; korrekte Klassifikation von 184 der 200 Instanzen
Pop vs. Techno: Varianz der Extremadifferenz als bestes Merkmal; korrekte Klassifikation von 132 der 160 Instanzen.
Benutzerpräferenzen: jeder Benutzer braucht andere Merkmale! 84,5 -- 95,2 accuracy85,9 – 98,3 precision83,7 – 99,0 recall
![Page 48: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/48.jpg)
Yale 48
Experimente zum Lernen mit Merkmalstransformation
Lernen des Methodenbaums für eine Aufgabe:Ergebnis diese Lernlaufs ist ein Yale-Experiment.
Durchführung des gelernten Yale-Experiments. Lernen der Analyseaufgabe mit den gelernten
Merkmalen.
![Page 49: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/49.jpg)
Yale 49
Wertereihen
![Page 50: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/50.jpg)
Yale 50
Lernen der Merkmalsextraktion
![Page 51: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/51.jpg)
Yale 51
Lernverlauf
![Page 52: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/52.jpg)
Yale 52
Lernergebnis
![Page 53: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/53.jpg)
Methodenbäume in Yale
![Page 54: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/54.jpg)
Yale 54
Allgemein: Funktionsapproximation
Approximiert wird die zu Grunde liegende Funktion.
Diese ist oft nichtlinear. Die Güte der Approximation
wird anhand neuer, vorher nicht gesehener Daten bewertet.
Multikriterielle Optimierung:– so einfach wie möglich– so korrekt wie möglich– Paretofront möglicher
Lösungen
![Page 55: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/55.jpg)
Nemoz
NEtwork Media OrganiZer:
Collaborative clustering in P2P networks
Einbindung von Yale
Kopieren
Clustering
Klassifikation
Stöberngemäß eigener Präferen
zen
![Page 56: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/56.jpg)
Yale 56
Ergebnisse
39 Taxonomien von Liedern. Alle Objekte einer Taxonomie
herausnehmen als Xq
Clustering durch– LACE,– K-means clustering,– Single link clustering
Wurst, Morik, Mierswa 2006
Method Correlation Absolute distance
Collabor. clustering
0.44 0.68
K-means 0.23 1.9
Single-link 0.1 10.8
random 0.09 1.8
Tatsächlich verbessern die Taxonomien der andern das Ergebnis.
![Page 57: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/57.jpg)
Zusammenfassung Erzeugte Merkmale ermöglichen erst Lernerfolg in
vielen Anwendungen.– Telekommunikation– Versicherung
Musikdaten sind der Härtetest für Merkmalsextraktion– Merkmalsextraktion– Verschiedene Merkmalsextraktion je konkreter
Lernaufgabe– Komplizierte Ähnlichkeitsmaße
Lernen der Merkmalsextraktion– LLD dekomponieren zu einfachen Bausteinen– HLD als Methodenbaum
![Page 58: Katharina Morik Lehrstuhl Informatik VIII Universität Dortmund](https://reader036.vdocuments.pub/reader036/viewer/2022081422/56815d63550346895dcb6ade/html5/thumbnails/58.jpg)
Credo
Vorverarbeitung ist entscheidend für die Qualität der Wissensentdeckung.
Vorverarbeitung ist aufwändig und schwierig, daher Wiederverwendung wichtig.– Abstraktion durch Metadaten (MiningMart) bzw.
Experimente (Yale)
Vielen Dank für Ihre Aufmerksamkeit!