Stream Mining: Clustering von Streamdaten- 1Matthias Biehl
Stream Mining:Clustering von Streamdaten
Matthias BiehlBetreuer: Prof. Dr. Klemens Böhm
Imperfektion und erweiterte Konzepteim Data Warehousing
Seminar im Sommersemester 200506.06.2005
Stream Mining: Clustering von Streamdaten- 2Matthias Biehl
Stream Mining
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Gold Stream Mining Alaska, USA; um 1900 [12]
Stream Mining: Clustering von Streamdaten- 2Matthias Biehl
Stream Mining
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Gold Stream Mining Alaska, USA; um 1900 [12]
ClusteringAlgorithmus
Datenstrom
Zusammenhängein Daten
Stream Mining: Clustering von Streamdaten- 3Matthias Biehl
Anwendungsbeispiel: Network Intrusion Detection
…...............
...http37K9114.2.12.2999.40.22.12
...ssh99K12114.2.12.1383.12.44.10
...http20K10114.2.12.54101.23.0.23
...protocolbytesdurationdestinationsourceBeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 3Matthias Biehl
Anwendungsbeispiel: Network Intrusion Detection
…...............
...http37K9114.2.12.2999.40.22.12
...ssh99K12114.2.12.1383.12.44.10
...http20K10114.2.12.54101.23.0.23
...protocolbytesdurationdestinationsourceBeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
X
X
X XX
X
X
X
X
Buffer Overflow
DOS Normal
duration
bytes
Stream Mining: Clustering von Streamdaten- 4Matthias Biehl
Übersicht
� Herkömmliches Clustering� Stream Clustering
�Eigenschaften von Streamdaten�Allg. Lösungsansätze
� Algorithmus für Stream Clustering�Datenstruktur�Mikroclustering�Pyramidal Time Frame�Makroclustering
� Zusammenfassung
Stream Mining: Clustering von Streamdaten- 5Matthias Biehl
Übersicht
� Herkömmliches Clustering� Stream Clustering
�Eigenschaften von Streamdaten�Allg. Lösungsansätze
� Algorithmus für Stream Clustering�Datenstruktur�Mikroclustering�Pyramidal Time Frame�Makroclustering
� Zusammenfassung
Stream Mining: Clustering von Streamdaten- 6Matthias Biehl
Herkömmliches Clustering
� Gruppen in statischen Daten finden
XXXX
X
X
X
X
X
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
XX
XXXX
X XX
Stream Mining: Clustering von Streamdaten- 6Matthias Biehl
Herkömmliches Clustering
� Gruppen in statischen Daten finden
XXXX
X
X
X
X
X
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Datenpunkt
XMikroclusteringPyramidal TimeMakroclustering
Zusammenfsg.
XX
XXXX
X XX
Stream Mining: Clustering von Streamdaten- 6Matthias Biehl
Herkömmliches Clustering
� Gruppen in statischen Daten finden
XXXX
X
X
X
X
X
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Datenpunkt
XMikroclusteringPyramidal TimeMakroclustering
Zusammenfsg.
Dimension
MakroclusteringZusammenfsg.
XX
XXXX
X XX
Stream Mining: Clustering von Streamdaten- 6Matthias Biehl
Herkömmliches Clustering
� Gruppen in statischen Daten finden
XXXX
X
X
X
X
X
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Datenpunkt
XMikroclusteringPyramidal TimeMakroclustering
Zusammenfsg.
Dimension
MakroclusteringZusammenfsg.
Abstand
X
x
XX
XXXX
X XX
Stream Mining: Clustering von Streamdaten- 6Matthias Biehl
Herkömmliches Clustering
� Gruppen in statischen Daten finden
XXXX
X
X
X
X
X
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Datenpunkt
XMikroclusteringPyramidal TimeMakroclustering
Zusammenfsg.
Dimension
MakroclusteringZusammenfsg.
Abstand
X
x
Cluster
x
XX
XXXX
X XX
Stream Mining: Clustering von Streamdaten- 7Matthias Biehl
Übersicht
� Herkömmliches Clustering� Stream Clustering
�Eigenschaften von Streamdaten�Allg. Lösungsansätze
� Algorithmus für Stream Clustering�Datenstruktur�Mikroclustering�Pyramidal Time Frame�Makroclustering
� Zusammenfassung
Stream Mining: Clustering von Streamdaten- 8Matthias Biehl
Stream Clustering
� Gruppen in dynamischen Daten finden� Aktuelles Clustering zu jedem Zeitpunkt� Analyse der historischen Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
XXXX
X
X
X
XX
XXXX
XXX
X
X
XX
X
XXX X
X
XX
XX
XX
X
XXX
XXX
X
XXX
X
X XXXXX
X
XX
XX
X
XX
XXX
XX
XX
XX
XX X
X
X
X
XX
X
XXX
XX
X
XX
XXX
XX
Stream Mining: Clustering von Streamdaten- 8Matthias Biehl
Stream Clustering
� Gruppen in dynamischen Daten finden� Aktuelles Clustering zu jedem Zeitpunkt� Analyse der historischen Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
XXXX
X
X
X
X
XX
XXXX
XXX
X
X
XX
X
XXX X
X
XX
XX
XX
X
XXX
XXX
X
XXX
X
X XXXXX
X
XX
XX
X
XX
XXX
XX
XX
XX
XX X
X
X
X
XX
X
XXX
XX
X
XX
XXX
XX
Stream Mining: Clustering von Streamdaten- 8Matthias Biehl
Stream Clustering
� Gruppen in dynamischen Daten finden� Aktuelles Clustering zu jedem Zeitpunkt� Analyse der historischen Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
XXXX
X
X
X
X
XX
XXXX
XXX
X
X
XX
X
XXX X
X
XX
XX
XX
X
XXX
XXX
X
XXX
X
X XXXXX
X
XX
XX
X
XX
XXX
XX
XX
XX
XX X
X
X
X
XX
X
XXX
XX
X
XX
XXX
XX
Stream Mining: Clustering von Streamdaten- 8Matthias Biehl
Stream Clustering
� Gruppen in dynamischen Daten finden� Aktuelles Clustering zu jedem Zeitpunkt� Analyse der historischen Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
X XX
X
X
XXX
X
XXXXX
XXXX
X
X
XXX
X
XXXX
XX
XX
XX X
X
X
XXXX
X
X
X
XX
XXXX
XXX
X
X
XX
X
XXX X
X
XX
XX
XX
X
XXX
XXX
X
XXX
X
X XXXXX
X
XX
XX
X
XX
XXX
XX
XX
XX
XX X
X
X
X
XX
X
XXX
XX
X
XX
XXX
XX
Stream Mining: Clustering von Streamdaten- 9Matthias Biehl
Eigenschaften von Streamdaten
� Zeitliche Komponente�Aktuelle Daten�Historische Daten
� Kontinuität�Große Datenmengen�Hohe Datenraten
� EingschränkteZugriffsmöglichkeit
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 9Matthias Biehl
Eigenschaften von Streamdaten
� Zeitliche Komponente�Aktuelle Daten�Historische Daten
� Kontinuität�Große Datenmengen�Hohe Datenraten
� EingschränkteZugriffsmöglichkeit
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
x
neumittel
altXX XX
X
XX
XX
y
Stream Mining: Clustering von Streamdaten- 9Matthias Biehl
Eigenschaften von Streamdaten
� Zeitliche Komponente�Aktuelle Daten�Historische Daten
� Kontinuität�Große Datenmengen�Hohe Datenraten
� EingschränkteZugriffsmöglichkeit
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
x
neumittel
altXX XX
X
XX
XX
y
t0 1 2 3 ...
Stream Mining: Clustering von Streamdaten- 9Matthias Biehl
Eigenschaften von Streamdaten
� Zeitliche Komponente�Aktuelle Daten�Historische Daten
� Kontinuität�Große Datenmengen�Hohe Datenraten
� EingschränkteZugriffsmöglichkeit
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
x
neumittel
altXX XX
X
XX
XX
y
t0 1 2 3 ...
15
11
78
40
... ClusteringAlgorithmus
Stream Mining: Clustering von Streamdaten- 10Matthias Biehl
Allgemeine Lösungsansätze
� Aktuelle Cluster�Einfache Operationen�Konstanter Speicher:
Alte Daten verdrängen
� Historische Cluster�Verlangsamen des Wachstums:
Alte Daten eliminieren�Approximation eliminierter Daten
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 11Matthias Biehl
Übersicht
� Herkömmliches Clustering� Stream Clustering
�Eigenschaften von Streamdaten�Allg. Lösungsansätze
� Algorithmus für Stream Clustering�Datenstruktur�Mikroclustering�Pyramidal Time Frame�Makroclustering
� Zusammenfassung
Stream Mining: Clustering von Streamdaten- 12Matthias Biehl
Architektur eines Stream Clustering Systems
Snapshots
Mikroclustering
15
11
78
40
...
Online
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 12Matthias Biehl
Architektur eines Stream Clustering Systems
Snapshots
Mikroclustering
15
11
78
40
...
Online
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Clustering Ergebnis
Makroclustering Offline
Stream Mining: Clustering von Streamdaten- 12Matthias Biehl
Architektur eines Stream Clustering Systems
Snapshots
Mikroclustering
15
11
78
40
...
Online
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Clustering Ergebnis
Makroclustering Offline
Mikroclustering
Stream Mining: Clustering von Streamdaten- 13Matthias Biehl
Mikrocluster Datenstruktur
� Repräsentiert ein Cluster� Fasst Daten über kurze Zeitperiode zusammen� Anzahl der Mikrocluster konstant
� Eigenschaft: Additivität und Subtraktivität� Erlaubt inkrementelle Updates
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Mikrocluster
xi: Datenpunktn: # Datenpunkted: DimensionID n
Stream Mining: Clustering von Streamdaten- 13Matthias Biehl
Mikrocluster Datenstruktur
� Repräsentiert ein Cluster� Fasst Daten über kurze Zeitperiode zusammen� Anzahl der Mikrocluster konstant
� Eigenschaft: Additivität und Subtraktivität� Erlaubt inkrementelle Updates
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Mikrocluster
xi: Datenpunktn: # Datenpunkted: DimensionID n
Stream Mining: Clustering von Streamdaten- 14Matthias Biehl
Projected Clustering Algorithmus
� Betrachte für jedes Cluster nur eine Teilmenge der Dimensionen
� 2 Aufgaben:�Finden geeignete Dimensionen D�Finden von Cluster auf D
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
y
x
xx
x
x
xx
xx
xx
xxx
xx
xxx
xx
xx z
x
xxxxxx
xxxxxxxxxx
Stream Mining: Clustering von Streamdaten- 15Matthias Biehl
Mikroclustering Algorithmus (1)
XXXX
X
X
X
X
X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 15Matthias Biehl
Mikroclustering Algorithmus (1)
XXXX
X
X
X
X
X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
X
Stream Mining: Clustering von Streamdaten- 15Matthias Biehl
Mikroclustering Algorithmus (1)
XXXX
X
X
X
X
X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
X
X XX
XX X
Stream Mining: Clustering von Streamdaten- 15Matthias Biehl
Mikroclustering Algorithmus (1)
XXXX
X
X
X
X
X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
X
XXXX
X
Stream Mining: Clustering von Streamdaten- 15Matthias Biehl
Mikroclustering Algorithmus (1)
XXXX
X
X
X
X
X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
XXX X
Stream Mining: Clustering von Streamdaten- 15Matthias Biehl
Mikroclustering Algorithmus (1)
XXXX
X
X
X
X
X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
XXX X
01C3
11C2
11C1
yx
Stream Mining: Clustering von Streamdaten- 16Matthias Biehl
Mikroclustering Algorithmus (2)
XXXX
X
X
X
X
X X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
ManhattanSegmental Distance
Âd (xd - md)#dmsd =
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 16Matthias Biehl
Mikroclustering Algorithmus (2)
XXXX
X
X
X
X
X X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
ManhattanSegmental Distance
Âd (xd - md)#dmsd =
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
2--2C3
1,512C2
3,534C1
msdyx
Stream Mining: Clustering von Streamdaten- 16Matthias Biehl
Mikroclustering Algorithmus (2)
XXXX
X
X
X
X
X X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
ManhattanSegmental Distance
Âd (xd - md)#dmsd =
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
2--2C3
1,512C2
3,534C1
msdyxX XXX
XX X
Âd (xd - m#dmsd =
Stream Mining: Clustering von Streamdaten- 16Matthias Biehl
Mikroclustering Algorithmus (2)
XXXX
X
X
X
X
X X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
ManhattanSegmental Distance
Âd (xd - md)#dmsd =
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
2--2C3
1,512C2
3,534C1
msdyxXXXX
X
Stream Mining: Clustering von Streamdaten- 16Matthias Biehl
Mikroclustering Algorithmus (2)
XXXX
X
X
X
X
X X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
ManhattanSegmental Distance
Âd (xd - md)#dmsd =
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
2--2C3
1,512C2
3,534C1
msdyx
XX X
Stream Mining: Clustering von Streamdaten- 17Matthias Biehl
Mikroclustering Algorithmus (3)
XXXX
X
X
X
X
X X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
natural limiting radius:Verwende Daten aus
Mikrocluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
3
XXXX
X
Stream Mining: Clustering von Streamdaten- 17Matthias Biehl
Mikroclustering Algorithmus (3)
XXXX
X
X
X
X
X X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
natural limiting radius:Verwende Daten aus
Mikrocluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
2
XXXX
X 3
XXXX
X
Stream Mining: Clustering von Streamdaten- 18Matthias Biehl
Mikroclustering Algorithmus (3)
XXXX
X
X
X
X
X X
1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster
x
y
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 19Matthias Biehl
Architektur eines Stream Clustering Systems
Snapshots
Mikroclustering
15
11
78
40
...
Online
Clustering Ergebnis
Makroclustering Offline
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 20Matthias Biehl
Speichern der Snapshots
� Momentaner Zustand aller Mikrocluster� Periodisch alte Snapshots filtern
�Unterschiedliche zeitliche Auflösungen�Zeitliche Auflösung
–abhängig von Neuigkeit–bestimmt die Granularität
�Umgesetzt in Pyramidal Time Frame
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 21Matthias Biehl
Pyramidal Time Frame
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 21Matthias Biehl
Pyramidal Time Frame
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 21Matthias Biehl
Pyramidal Time Frame
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 21Matthias Biehl
Pyramidal Time Frame
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
� Anzahl Daten ∈ O(log(t))
Stream Mining: Clustering von Streamdaten- 22Matthias Biehl
Architektur eines Stream Clustering Systems
Snapshots
Mikroclustering
15
11
78
40
...
Online
Clustering Ergebnis
Makroclustering Offline
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 23Matthias Biehl
Makroclustering
• Anzahl A der Cluster• Zeithorizont H
1. Erstelle Menge der Mikrocluster über Zeithorizont H
2. Berechne A Cluster aus Mikroclustern mit herkömmlichem Algorithmus
Clustering Ergebnis
Makroclustering
Snapshots
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 24Matthias Biehl
Übersicht
� Herkömmliches Clustering� Stream Clustering
�Eigenschaften von Streamdaten�Allg. Lösungsansätze
� Algorithmus für Stream Clustering�Datenstruktur�Mikroclustering�Pyramidal Time Frame�Makroclustering
� Zusammenfassung
Stream Mining: Clustering von Streamdaten- 25Matthias Biehl
Zusammenfassung
� Finden von Zusammenhängen in schnellen Datenströmen
� Veraltete Daten identifizieren und „vergessen“
� Datenstruktur: Inkrementelle Updates� Algorithmus: Zerlegung in
Online-/Offline-Komponenten� Umgang mit hochdimensionalen Daten
BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.
Stream Mining: Clustering von Streamdaten- 26Matthias Biehl
Literatur (1)� [1] C. Aggarwal. An intuitive framework for understanding
changes in evolving datastreams, 2002.� [2] Charu C. Aggarwal. A framework for diagnosing changes
in evolving data streams. In ACM SIGMOD 2003.� [3] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and
Philip S. Yu. A framework for clustering evolving data streams. In VLDB 2003.
� [4] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for projected clustering of high dimensional data streams. In VLDB 2004.
� [5] P. Domingos and G. Hulten. Mining high-speed data streams. In Knowledge Discovery and Data Mining, pages 71–80, 2000.
� [6] John A. Hartigan. Clustering Algorithms. Wiley, New York, 1975.
� [7] Anil K. Jain and Richard C. Dubes. Algorithms for Clustering Data. Prentice Hall,1988.
Stream Mining: Clustering von Streamdaten- 26Matthias Biehl
Literatur (1)� [1] C. Aggarwal. An intuitive framework for understanding
changes in evolving datastreams, 2002.� [2] Charu C. Aggarwal. A framework for diagnosing changes
in evolving data streams. In ACM SIGMOD 2003.� [3] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and
Philip S. Yu. A framework for clustering evolving data streams. In VLDB 2003.
� [4] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for projected clustering of high dimensional data streams. In VLDB 2004.
� [5] P. Domingos and G. Hulten. Mining high-speed data streams. In Knowledge Discovery and Data Mining, pages 71–80, 2000.
� [6] John A. Hartigan. Clustering Algorithms. Wiley, New York, 1975.
� [7] Anil K. Jain and Richard C. Dubes. Algorithms for Clustering Data. Prentice Hall,1988.
� [3] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for clustering evolving data streams. In VLDB 2003.
� [4] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for projected clustering of high dimensional data streams. In VLDB 2004.
Stream Mining: Clustering von Streamdaten- 27Matthias Biehl
Literatur (2)� [8] L. Kaufman and P.J. Rousseeuw. Finding Groups in Data: An
Introduction to Cluster Analysis. Wiley, New York, 1990.
� [9] Rainer Koschke and Thomas Eisenbarth. A framework for experimental evaluation of clustering techniques. In 8th International Workshop on Program Comprehension (IWPC2000), pages 201 –210, Limerick, Irland, Juni 2000.
� [10] L. O’Callaghan, N. Mishra, A. Meyerson, S. Guha, and R. Motwani. Streamingdata algorithms for high-quality clustering. In Proceedings of IEEE International Conference on Data Engineering, 2002.
� [11] Tian Zhang, Raghu Ramakrishnan, and Miron Livny. Birch: An efficient clustering method for very large databases. In ACM SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery, pages 103–114, Montreal, Canada, 1996.
� [12] Alaska State Library http://library.state.ak.us/hist/goldrush/table.html
� [13] NYSE Statistical Data http://www.nyse.com/marketinfo/datalib/1022743347427.html