datenanalyse und musik katharina morik lehrstuhl informatik viii universität dortmund ...

Datenanalyse und Musik

Katharina Morik

Lehrstuhl Informatik VIII

Universität Dortmund

www-ai.cs.uni-dortmund.de

[email protected]

Überblick

Motivation– Technische Grundlagen– Arbeitsfelder

Merkmalsextraktion für Audiodaten Unterstützung der Vorverarbeitung – Yale

– Lernen der geeigneten Merkmalstransformation Lernen aus heterogenen verteilten Audiobeständen

NemOz– Verteiltes kollaboratives Clustering

Zusammenfassung

Motivation – technische Grundlagen

Moving Pictures Expert Group Audio Layer 3Karlheinz Brandenburg, TU Ilmenau, Fraunhofer Inst.1987 – 89 Fraunhofer Erlangen u.a.Standard für Musik und Filme, min. 1/12 komprimiert

Tauschbörsen für Musik:– Napster 80 Mio. Benutzer

Nachfolger: Morpheus, Gnutella, KaZaA

– KaZaA 500 Mio. Musikstücke

– Privatsammlungen oft mehr als 10 000 Musikstücke Speichern, Abspielen, GUI zum Anbieten von Musik

Motivation -- Arbeitsfelder Wissenschaftliche Untersuchung von Musik

Computer Music Journal– Komposition– Interpretation (Gerhard Widmer)

Der "Performance Worm": Eine Bewegung des Wurms nach rechts oben beschreibt ein gleichzeitiges Beschleunigen und Lauterwerden. Der dunkelste Punkt repräsentiert den gegenwärtigen Zeitpunkt, die Vergangenheit erscheint blasser. Typische Muster für Künstler finden.

Motivation -- Arbeitsfelder

Untersuchung menschlichen Hörens, Akustik Noten erkennen (Audio Midi) Music Information Retrieval (MIS)

– Anfragen (über ID3 tags, query by humming)

– Indexierung (semantic web über Metadaten, automatisch über Audiodaten)

– Navigation gemäß Ähnlichkeit

– Musikempfehlungen Organisation von Musiksammlungen

– Persönliche Taxonomien

– Abspiellisten (persönliche, automatic DJ)

Intelligente Systeme für Musik

Automatische Annotation von Musik Lernen von Metadaten

Klassifikation von Musik nach– Genre (nur noch als benchmark)– Benutzerpräferenzen– Gelegenheiten

Automatische Organisation von Sammlungen Empfehlungen

z.B. EU-Projekt SIMAChttp://www.semanticaudio.org/

Technischer Kern

Audiodaten sind Zeitreihenunivariat: Elongation

Wir müssen Ähnlichkeiten von Zeitreihen erkennen– Indexing

– Clustering

Clustering von Zeitreihen – Standard

Database C

Query Q(template)

Given a Query Q, a reference database C and a distance measure, find the location that best matches Q.

The best matching subsection.

Note that we can always convert subsequence matching to whole matching by sliding a window across the long sequence, and copying the window contents.

So passen ähnliche Musikstücke nicht!

Dynamic Time Warping

C

QC

Q

(i,j) = d(qi,cj) + min{ (i-1,j-1) , (i-1,j ) , (i,j-1) }

Warping path w

So auch nicht!

Technischer Kern

Merkmalsextraktion ist notwendig für– Annotation

– Indexierung

– Clustering

– Klassifikation Je Aufgabe unterschiedliche Merkmale nötig!

– Klangähnlichkeit, Liedtexte, Kulturelle Metadaten (MPEER, Stephan Baumann)

– Verschiedene Benutzer verwenden andere Merkmale(Klassifikation von Benutzerpräferenzen, Ingo Mierswa)

Merkmalsextraktion

Paul-Taiwo, A. Sandler, M. B. Davies, M. E. 2004. Feature extractors for Music Information Retrieval: Noise Robustness. AES Convention

Gómez, E. Herrera, P. 2004. Automatic Extraction of Tonal Metadata from Polyphonic Audio Recordings. AES Conference

Pohle,T. Pampalk, E. Widmer, G. 2005. Evaluation of Frequently Used Audio Features. Workshop Content-Based Multimedia Indexing.

Low Level Descriptors

Lautstärke Spectral Centroid (Cepstral) Mel Frequency Cepstral Coefficient (MFCC) Zero Crossing Rate Peaks: Amplitude, Zweithöchster/ Höchsten, Intervall

zwischen Zweithöchstem und Höchstem

High-Level Descriptors

Genre Stimmung: glücklich, traurig, neutral Tempo: sehr langsam – sehr schnell, variierend Komplexität: gering, mittel, hoch Gefühl: sanft, neutral, aggressiv Fokus: Gesang, beides, Instrument

Lernaufgabe:

Klassifikation nach HLD, gegeben LLD

Ergebnis: klappt nicht!

Pohle et al. 2005

Merkmalsextraktion lernen lassen!

Zils, A. Pachet, F. 2004. Automatic Extraction of Music Descriptors from Acoustic Signals. ISMIR

Mierswa, I. Morik, K. 2005. Automatic Feature Extraction for Classifying Audio Data. Machine Learning Journal, 58, 127 - 149.

Genetische Programmierung zur Optimierung der Merkmalsextraktion für eine Lernaufgabe!

Einzelbestandteile der LLD kombinieren lassen zu einem Merkmalsbaum, der ein Merkmal extrahiert.

LLD Merkmale genauer -- Zeit

Merkmale in der Zeitdimension – mittlere Lautstärke

– Extrema extrahieren und andere Werte null setzen Differenz zwischen den Extrema

– Tempobestimmung (Autokorrelation verschobener Reihe)• Phasenverschiebung des Musikstückes um einen Takt.• Bestimmung der Autokorrelation durch Berechnung der

gemittelten Differenz zum Original.• Iteriere Berechnung für alle Geschwindigkeiten im Intervall

zwischen 90 und 170 bpm. IngoMierswa

n

iixn

xLS1

||1

)~(

LLD genauer -- Frequenz

Merkmale in der Frequenzdimension (Fast Fourier Transform.)– Peaks– Stärkste Frequenz in Zeitfenstern:

• Bei einer vollständigen FT geht die Information verloren, wann genau die Frequenzen auftreten.

• Verschieben eines Zeitfensters der Breite w mit Schrittweite s und Berechnung der Frequenz des stärksten Peaks nach einer FT liefert die Zeitreihe:

))))(((max( },...,{ wsjsjiij xFTindexy

Frequenz -- Peaks

Frequenz -- Stärkste Frequenz

Intervalle im Frequenzbereich

IngoMierswa

Neue LLD -- Phasenraum

Merkmale im Phasenraum– Winkel

– Länge von Teilstücken

Phasenraum )1ty,t(yyt

Zeitreihe Ny,...,1y

Deter-ministicProcess

yt

time t yt

yt+1

AR(1)-process with outlier (AO)

yt

timet yt

yt+1

Heart rate

HRt

time t yt

yt+1

U.Gather, M. Bauer

Phasenraum

Deterministischer Prozess

AR(1) Prozessmit Ausreißer

Herzrate

Audiodaten: Phasenraum Pop

Audiodaten: Phasenraum Klassik

Darstellung der geeigneten Transformationen für eine Aufgabe

Methodenbaum:– Reihe von Transformationen, durch ein Funktional

abgeschlossen• Transformationen von Wertereihen in Wertereihen• Transformation in einen anderen Raum

– Fensterung ist eine Transformation, die selbst wieder ein Methodenbaum ist

Aufbau eines Methodenbaums:– Dynamische Fensterung erzeugt neue Teilbäume

Anwendung eines Methodenbaums erzeugt Merkmale für eine gegebene Wertereihe Ingo

Mierswa

Methodenbaum

T: FFT F: MaxIndexT: Hanning

T: Fensterung

Wertereihe Merkmale

F: Avg + Var

Wurzel

T: EMA

IngoMierswa

Lernen eines Methodenbaums für eine Aufgabe mit genetischer Programmierung Training der Merkmalsextraktion auf Teilmenge der

Daten. Anwendung der Merkmalsextraktion auf alle Daten

für die Lösung einer Lernaufgabe. Genetische Programmierung:

– Individuen: Methodenbäume

– Fitness durch Kreuzvalidierung der jeweiligen Lernaufgabe nach Vorverarbeitung durch das zu evaluierende Individuum.

IngoMierswa

Jede Aufgabe verlangt andere Merkmale

Pop vs. Klassik: durchschnittliche Länge nach einer Phasenraumtransformation bestes Merkmal; korrekte Klassifikation von 184 der 200 Instanzen

Pop vs. Techno: Varianz der Extremadifferenz als bestes Merkmal; korrekte Klassifikation von 132 der 160 Instanzen.

Benutzerpräferenzen: jeder Benutzer braucht andere Merkmale! 84,5 -- 95,2 accuracy85,9 – 98,3 precision83,7 – 99,0 recall

Systemunterstützung durch Yale

Experimente sind (geschachtelte) Ketten von Operatoren für Vorverarbeitung, maschinelles Lernen und Evaluation.

Abspeichern der Ketten erlaubt ihre Wiederverwendung mit anderen Parametern:– Daten:

• Datenformat in XML beschrieben• Datei

– Lernparameter

Yale

Ralf Klinkenberg,Ingo Mierswa,Simon Fischer

Lernergebnis einer Analyseaufgabe

Experimente zum Lernen mit Merkmalstransformation

Lernen des Methodenbaums für eine Aufgabe:Ergebnis diese Lernlaufs ist ein Yale-Experiment.

Durchführung des gelernten Yale-Experiments. Lernen der Analyseaufgabe mit den gelernten

Merkmalen.

Wertereihen

Lernen der Merkmalsextraktion

Lernverlauf

Lernergebnis

Methodenbäume in Yale

37

Allgemein: Funktionsapproximation

Approximiert wird die zu Grunde liegende Funktion.

Diese ist oft nichtlinear.

Die Güte der Approximation wird anhand neuer, vorher nicht gesehener Daten bewertet.

Merkmalstransformation und Kernfunktionen SVM optimiert gemäß strukturellem Risiko:

– empirisches Risiko und

– Komplexitätsmaß des Hypothesenraums SVM separiert Klassen linear. Kernfunktion transformiert Beispiele in einen anderen

Raum, in dem sie linear separierbar sind.

x1

x2

(x1)2

x2

(x1,x2) = (x12,x2)

Kernfunktionen für Wertereihen?

Skalarprodukt Abbildung in Raum mit Skalarprodukt

definiert eine Abbildung in einen Hilbert-Raum von Sinus- und Kosinusschwingungen, die bei geeignetem Skalarprodukt folgende Kernfunktion ergibt:

2121021 coscossinsin),( xxxxxxk ii

iiii

ii

jiji xxxxk ,),(

)(),(),( jiji xxxxk

m ,...,1

Nemoz

NEtwork Media OrganiZer:

Collaborative clustering in P2P networks

Einbindung von Yale

Kopieren

Clustering

Klassifikation

Stöberngemäß eigener Präferen

zen

Grundlage der Prozesse

Taxonomie: hierarchisches clustering Ci.Jeder Teilbaum ist natürlich auch eine Taxonomie.

Anfrage an peers, dass Xq zu clustern ist. Bestimme einige Ci die am besten zu Xq passen.

Klassifiziere Objekte in Xq gemäß Ci, modifiziere Ci.Präsentiere alle Ci dem Benutzer, der das beste wählt.

Annahme: Benutzer-gemachte Taxonomien sind besser als ‘reines’ clustering.

Kollaboratives Filtern -- Amazon

Einkäufe eines Kunden als cluster interpretiert Ähnlichkeit: co-occurrence von Objekten Neuer Einkauf eines (anderen) Kunden: Xq

Finden des maximal ähnlichen clusters zu Xq

Also: keine (hierarchische) Struktur als Ergebniskeine Berücksichtigung der Struktur bei der Suche

nach ähnlichem cluster

Für die Organisation von Daten nicht geeignet.

Verteiltes kollaboratives Clustering

Die n besten Taxonomien werden ausgegeben. Nicht nur Merkmale, auch Taxonomien (der peers) werden

berücksichtigt.

Gegeben eine Menge von Taxonomien CM = {C0,C1,…,Ck} und eine Menge von Objekten Xq

Finde Taxonomien {Cres1,Cres2,…,Cresn} so dass cluster Bedingungen für alle xi in Xq gelten und es gibt irgendein Ci in CM und Cresj wobei entweder

ext(Ci ) ext(Cresj) – jetzt mehr einsortiert -- oder

ext(Ci ) = ext(Cresj) und |{ci in Cresj }| > |{ci in Ci }| – jetzt feiner strukturiert

Wurst, Morik 2005

Ähnlichkeit von Anfrage zu Teilbaum

Repräsentation eines clusters durch ausgewählte Punkte.

Abstand zwischen den Punkten eines clusters und allen Punkten in Xq.

Bottom-up Kombination der Ähnlichkeit von Teilbäumen Ci‘ zur Ähnlichkeit des direkt übergeordneten Baums C.

Xq

c1 c2 c3

c

...

Sequenzielles Abdecken

Elemente von Xq werden in den ähnlichsten Teilbaum einsortiert, sofern sie ähnlich genug sind.

Für die restlichen wird wieder verteiltes kollaboratives clustering aufgerufen. Das Ergebnis wird als Teilbaum eingehängt.

Xq

c1 c2 c3

ci

...

c4 c5

ck

c4 c5

ck

Ergebnisse

39 Taxonomien von Liedern. Alle Objekte einer Taxonomie

herausnehmen als Xq

Clustering durch– Kollaboratives clustering,– K-means clustering,– Single link clustering

Method Correlation Absolute distance

Collabor. clustering

0.44 0.68

K-means 0.23 1.9

Single-link 0.1 10.8

random 0.09 1.8

Tatsächlich verbessern die Taxonomien der andern das Ergebnis.

Was wissen Sie jetzt?

Musiksammlungen stellen viele Aufgaben– Klassifikation– Clustering– Organisation der Sammlung in Taxonomien

Musikdaten sind der Härtetest für Merkmalsextraktion– Merkmalsextraktion– Verschiedene Merkmalsextraktion je konkreter

Lernaufgabe– Komplizierte Ähnlichkeitsmaße

Lernen der Merkmalsextraktion– LLD dekomponieren zu einfachen Bausteinen– HLD als Methodenbaum

Credo

Vorverarbeitung ist entscheidend für die Qualität der Wissensentdeckung.

Vorverarbeitung ist aufwändig und schwierig, daher Wiederverwendung wichtig.– Abstraktion durch Metadaten (MiningMart) bzw.

Experimente (Yale)

datenanalyse und musik katharina morik lehrstuhl informatik viii universität dortmund ...

Documents