data mining & texte mining partie i : data mining chapitre
TRANSCRIPT
Data Mining & Texte Mining
Partie I : Data Mining
Chapitre 4 : Clustering
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Master Big Data & Aide à la décision
1ère Année / Semestre 2
ENSA Khouribga
Pr. DARGHAM ABDELMAJID
Année académique : 2018/2019
Chapitre 4 : Clustering
• Introduction
• Similarité et disimilarité
• Clustering partitionnel
• Clustering hiérarchique
• Clustering basé sur la densité
Sommaire
• Clustering basé sur la densité
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• C’est quoi le clustering ?
–Le clustering est une technique d’analyse
descriptive et de data mining.
– Il est utilisé lorsqu’on cherche à distinguer un
grand volume de données en des sous-ensembles
Introduction
homogènes (classes / groupes / clusters).
–L’objectif principal du clustering est que les
objets d’un même cluster doivent être similaires
(ou liés) les uns aux autres, et différents (ou non
liés) aux objets des autres clusters.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• C’est quoi le clustering ?
–Plus la similitude (ou l’homogénéité) est
grande au sein d’un groupe et plus la
différence entre les groupes est grande, plus le
clustering est net ou meilleur.
Introduction
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Philosophie du clustering
Introduction
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• De la difficulté du clustering
–Dans de nombreuses applications, la notion de
cluster n’est pas bien définie.
–Pour comprendre la difficulté de décider de ce
qui constitue un cluster, considérons la figure
de la page suivante qui présente 20 points et 3
Introduction
de la page suivante qui présente 20 points et 3
façons différentes de les diviser en clusters.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Introduction
Points originaux Deux clusters
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Quatre clusters Six clusters
• Difficulté du clustering
–Cette figure montre que :
• La définition d’un cluster est imprécise.
• La meilleure définition dépend de la nature
des données et des résultats souhaités.
Introduction
des données et des résultats souhaités.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Quelques applications du clustering
–Marketing : rechercher des divers profils de
client constituant une clientèle.
–Médecine : déterminer des groupes de patients
susceptibles d’être soumis à des protocoles
thérapeutiques déterminées.
Introduction
thérapeutiques déterminées.
–Sociologie : répartir la population en groupes
homogènes de point de vue
sociodémographiques.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Complexité du clustering
–Le nombre de partitions (non recouvrantes)
e n objets est le nombre de Bell :
Bn = e-1 (∑∑∑∑k ≥≥≥≥ 1 kn / k!)
–Pour n = 30 objets, B30 = 8,47 × 1023, ce qui est
Introduction
–Pour n = 30 objets, B30 = 8,47 × 10 , ce qui est
un nombre énorme.
–Généralement, Bn ≥ en, ce qui montre qu’il est
hors question de tester toutes les
combinaisons possibles en temps
raisonnable.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Questions relatives au clustering
–Le nombre de clusters : est-t-il fixé par
l’expert ou calculé par optimisation ?
–Quelle mesure de similarité utiliser ?
–Quel est le meilleur partitionnement ?
Introduction
–Quel est le meilleur partitionnement ?
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Types de clustering
– Il existe plusieurs types de clustering :
•Hiérarchique
• Partitionnel
•Chevauchement
Introduction
•Chevauchement
• Flou.
•Complet
• Partiel.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Clustering partitionnel
–Un clustering partitionnel est simplement une
division de l’ensemble d’objets de données en
plusieurs clusters disjoints, de sorte que
chaque objet de données se trouve dans un
seul cluster.
Introduction
seul cluster.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Clustering hiérarchique
–Si nous autorisons les clusters à avoir des
sous-clusters, nous obtenons un clustering
hiérarchique, qui est un ensemble de clusters
imbriqués organisés sous forme
d’arborescence.
Introduction
d’arborescence.
–Chaque nœud (cluster) de l’arborescence (à
l’exception des feuilles) est l’union de ses
enfants (sous-clusters), et la racine de
l’arborescence est le cluster contenant tous les
objets.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Clustering chevauchement
–Un clustering chevauchement est utilisé pour
refléter le fait qu’un objet peut appartenir
simultanément à plus d’un cluster.
• Clustering flou
Introduction
–Dans un clustering flou, chaque objet
appartient à un cluster avec un poids
d’appartenance compris entre 0 (absolument
n’appartient pas) et 1 (absolument appartient).
–En d’autres termes, les clusters sont traitées
comme des ensembles flous.Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Clustering complet / partiel
–Un clustering complet affecte chaque objet à
un cluster.
–Par contre, dans un clustering partiel, certains
objets se trouvent non affectés à aucun
cluster.
Introduction
cluster.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Qualité d’un clustering
–Une bonne méthode de clustering produira des
clusters d’excellente qualité avec :
• Une similarité intra-clusters maximale.
• Une similarité inter-clusters minimale.
– La qualité d’un clustering dépend de :
Introduction
– La qualité d’un clustering dépend de :
• La mesure de similarité utilisée.
• L’implémentation de cette mesure.
– La qualité d’une méthode de clustering est
évaluée par son abilité à découvrir certains ou
tous les « patterns » cachés.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Caractéristiques des méthodes de clustering
–Scalabilité.
–Abilité à traiter différents types de données.
–Découverte de clusters de différentes formes.
–Connaissances requises (paramètres de
Introduction
–Connaissances requises (paramètres de
l’algorithme).
–Abilité à traiter les données bruitées et
extrémales.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Structure des données à regrouper
– Il n’y a pas de définition unique de la
similarité entre objets, mais plutôt des
différentes mesures de distances d(x,y).
–La définition de la similarité entre objets
dépend du :
Similarité & disimilarité
dépend du :
• Type des données considérées.
• Type de similarité recherchée.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Structure des données à regrouper
–Pour regrouper les objets similaires, il faut
définir un « critère de similarité ».
–Pour cela on examine l’ensemble des
informations dont on dispose concernant les
individus, et on imagine que chaque individu
Similarité & disimilarité
individus, et on imagine que chaque individu
est un point de l’espace.
–Par exemple s’il s’agit de patients, on peut
représenter les données (pression artérielle,
température, taux de métabolisme, ...) par un
point (xi, yi, zi, ...) pour le ième individu.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Structure des données à regrouper
–Soit Ω = i1, i2, …, in un ensemble de n
individus décrits par p variables.
–En général, il y a 2 représentations possibles :
•Matrice rectangulaire dont les n lignes sont
Similarité & disimilarité
•Matrice rectangulaire dont les n lignes sont
les individus et dont les p colonnes sont les
variables (attributs) : « Xij » représente la «
jème » variable du « ième » individu.
•Matrice carrée de similarités (n lignes, n
colonnes) : « Xij » représente la similarité
entre le « ième » et le « jème » individu.
•Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Mesure de la (di)similarité
–Plusieurs mesures de disimilarité et de
similarité ont été proposées dans la littérature
et sont appliquées dans la pratique.
–Leur objectif commun est d’exprimer
numériquement le degré dans laquelle deux
Similarité & disimilarité
numériquement le degré dans laquelle deux
instances (individus) d’un même domaine,
décrites par le même ensemble d’attributs, sont
différentes ou similaires les unes des autres.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Mesure de la (di)similarité
–Les mesures de (di)similarité les plus populaires
peuvent être classées en deux catégories :
•Mesures Basées sur la différence : celles-ci
transforment et agrègent en quelque sorte les
différences de valeur d’attribut pour les deux
Similarité & disimilarité
différences de valeur d’attribut pour les deux
individus comparés.
•Mesures basées sur la corrélation : celles-ci
détectent le modèle commun des valeurs
minimales et maximales d’attributs pour les
deux individus comparés.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Disimilarité basée sur la différence
–Soient deux individus x1 et x2, chacun d’eux
étant composé de n attributs.
–On note par ai(xj), la valeur du ième attribut de
l’individu xj (i = 1, 2, …, n; j = 1, 2).
Similarité & disimilarité
j
–Le vecteur a(xj) = (a1(xj), a2(xj), …, an(xj))
représente les valeurs des n attributs de
l’individu xj.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Similarité & disimilarité
Distance Euclidien
Distance de Minkowski
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Distance de Manhattan
Distance de Canberra
Similarité & disimilarité
Distance de Chebyshev
Distance de Hamming
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Pondération des attributs
– Il est possible d’intégrer facilement toute
connaissance du domaine disponible
concernant l’importance relative d’attributs
particuliers lors de l’évaluation de la
disimilarité entre deux individus.
Similarité & disimilarité
disimilarité entre deux individus.
–Pour ce faire, vous pouvez affecter des
pondérations numériques aux attributs et
pondérer les valeurs des attributs
correspondants en conséquence.
–Notons par γγγγi le poids affecté à l’attribut ai.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Similarité & disimilarité
Distance Euclidien pondérée
Distance de Minkowski pondérée
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Distance de Manhattan pondérée
Similarité & disimilarité
Distance de Chebyshev pondérée
Distance de Canberra pondérée
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Distance de Hamming pondérée
• Similarité basée sur la corrélation
–La mesure de la similarité basée sur la
différence semble parfaitement raisonnable et
constitue en fait le bon moyen à suivre dans la
plupart des situations, mais elle peut donner des
résultats trompeurs dans certains domaines.
Similarité & disimilarité
résultats trompeurs dans certains domaines.
–C’est le cas lorsque des individus ont des valeurs
d’attribut très différentes, mais doivent être
considérés comme similaires selon la
connaissance du domaine, car ils partagent à
peu près le même modèle de valeur relative.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Similarité basée sur la corrélation
–Considérez par exemple, des attributs qui
représentent :
• Les fréquences de certains événements;
• Le nombre d’occurrences de mots dans les
documents texte;
Similarité & disimilarité
documents texte;
• Les évaluations de performances ou de
qualité;
• Les scores ou préférences exprimées par
certains individus;
• etc.Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Similarité basée sur la corrélation
– Pour ces situations, ce ne sont pas nécessairement
les différences de valeurs qui importent
vraiment lorsqu’on compare deux individus, mais
plutôt les modèles « Hauts » et « Bas » :
• Les mêmes événements sont-ils souvent
Similarité & disimilarité
• Les mêmes événements sont-ils souvent
particulièrement fréquents ?
• Les mêmes mots sont-ils toujours dominants ?
• Les mêmes personnes, organisations, appareils,
ou toute autre entité atteignent toujours des
performances ou des qualités optimales ?
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Similarité basée sur la corrélation
• Les mêmes articles sont-ils pour la plupart les
plus notées ou préférés ?
–C’est ces types de similarité considérablement
différents qui peuvent être capturés par des
mesures basées sur la corrélation, qui -
Similarité & disimilarité
mesures basées sur la corrélation, qui -
contrairement aux mesures basées sur la différence
- mesurent typiquement la similarité plutôt que
la disimilarité, en affectant des valeurs élevées à
des individus similaires et des valeurs faibles à
des individus différents.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Quelques mesures de similarité basée sur la
corrélation
Similarité & disimilarité
Similarité de corrélation de Pearson
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Similarité du Cosinus
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Définition d’un clustering partitionnel
– Soit un ensemble d’individus ΩΩΩΩ.
–La structure recherchée est la partition.
– Si on définit un critère de qualité W sur une
partition P = (C1, C2, …, CK) mesurant
l’homogénéité des clusters, le problème de
Clustering partitionnel
1 2 K
l’homogénéité des clusters, le problème de
clustering est un problème d’optimisation
parfaitement définit :
Trouver, parmi l’ensemble de toutes les partitions
possibles en K clusters de ΩΩΩΩ, la partition qui
optimise le critère W.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Algorithme K-moyennes (K-means)
– Input : un data set ΩΩΩΩ de n individus x1, x2, …, xn, et
un entier naturel k ≥ 2.
1. Choisir k centres initiaux c1, c2, …, ck.
2. Répartir chacun des n individus dans le cluster Gi
dont le centre ci est le plus proche.
Clustering partitionnel
dont le centre ci est le plus proche.
3. Si aucun individu ne change de cluster, alors
l’algorithme s’arrête et retourne les clusters G1,
G2, …, Gk.
4. Calculer les nouveaux centres : Pour tout i, ci est la
moyenne (barycentre) des individus du cluster Gi.
5. Aller en 2.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering partitionnel
Illustration de l’algorithme K-means
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering partitionnel
Initialisation : choix de k centres
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering partitionnel
Répartition : assigner chaque objet à son cluster
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering partitionnel
Réajustement des centres
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering partitionnel
Réassigner les objets & Itération jusqu’à
stabilité
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Avantages de l’algorithme K-moyennes
–Relativement scalable dans le traitement
d’ensembles de données de taille importante.
–Relativement efficace, car de complexité
temporelle O(I.K.n), où :
Clustering partitionnel
• I est le nombre d’itérations;
• K est le nombre de clusters formés;
• n est le nombre d’individus.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Inconvénients de l’algorithme K-moyennes
–Applicable seulement dans le cas où la
moyenne des objets est bien définie.
–Besoin de spécifier le nombre de clusters (k) à
l’avance.
– Incapable de traiter les données bruitées
Clustering partitionnel
– Incapable de traiter les données bruitées
(noisy data).
–Les points isolés sont mal gérés.
–Produit généralement un optimum local.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Définition d’un clustering hiérarchique
– Soit un ensemble d’individus ΩΩΩΩ.
–La structure recherchée est maintenant la
hiérarchie.
–Une hiérarchie H de ΩΩΩΩ est un ensemble de
classes de ΩΩΩΩ appelés paliers comprenant les
Clustering hiérarchique
classes de ΩΩΩΩ appelés paliers comprenant les
singletons (classes réduites a un élément),
l’ensemble ΩΩΩΩ, et des classes dont l’intersection
est soit vide, soit l’une ou l’autre des classes.
–Cette définition d’une hiérarchie est
ensembliste.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Définition d’un clustering hiérarchique
–Maintenant, pour pourvoir représenter une
hiérarchie par un graphique, il faut pouvoir
évaluer ses paliers, c’est-à-dire leur assigner
une hauteur.
–Cette représentation graphique d’une hiérarchie
Clustering hiérarchique
–Cette représentation graphique d’une hiérarchie
s’appelle un dendrogramme ou arbre
hiérarchique.
– Il y a deux formes classiques pour représenter un
dendrogramme.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Un exemple de dendrogramme d'une hiérarchie indicée
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Les deux formes de dendrogrammes
• Méthodes de construction d’une hiérarchie
indicée
– Il existe 2 stratégies de construction d’une
hiérarchie :
• Stratégies ascendantes.
Clustering hiérarchique
• Stratégies ascendantes.
• Stratégies descendantes.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Stratégies ascendantes
Clustering hiérarchique
–On construit la hiérarchie en partant du bas
de l’arbre (des singletons) et on agrège, deux
par deux les clusters les plus proches, et ce
jusqu’à l’obtention d’un seul cluster (c’est-à-
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
jusqu’à l’obtention d’un seul cluster (c’est-à-
dire l’univers ΩΩΩΩ).
• Stratégies descendantes (Méthode divisive)
Clustering hiérarchique
–On construit la hiérarchie à partir du haut de
l’arbre en procédant par divisions
successives de l’ensemble ΩΩΩΩ jusqu’à obtenir
des clusters réduits à un élément, ou des
clusters ne contenant que des individus
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
clusters ne contenant que des individus
identiques.
• Algorithme général d’une stratégie ascendante
– Input : un dataset ΩΩΩΩ = x1, x2, …, xn de n
individus.
1. Commencer avec n clusters G1, G2, …,
Gn, avec Gi = xi.
Clustering hiérarchique
Gn, avec Gi = xi.
2. Fusionner les 2 clusters les plus proches.
3. S’arrêter lorsque tous les individus sont
membres d’un seul cluster (Ω).
4. Aller en 2.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Mesures d’agrégations entre clusters
– Il y a trois mesures d’agrégation classiques
(il en existe d’autres) entre deux clusters C1 et
C2 de ΩΩΩΩ.
Clustering hiérarchique
2
–Ces mesures utilisent la distance ou la
disimilarité d choisie pour comparer deux
individus.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• La mesure d’agrégation du lien minimum
(Single linkage)
D1(C1, C2) = Min xi ∈ C1, xj ∈ C2 d(xi, xj)
• La mesure d’agrégation du lien maximum
(Complete linkage)
Clustering hiérarchique
(Complete linkage)
D2(C1, C2) = Max xi ∈ C1, xj ∈ C2 d(xi, xj)
• La mesure d’agrégation de Ward
D3(C1, C2) = ((µµµµC1µµµµC2) / (µµµµC1 + µµµµC2)) d2(gC1, gC2)
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering hiérarchique
µµµµCk
gCk
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
gCk
• Avantages des méthodes hiérarchiques
–Conceptuellement simples.
–Propriétés théoriques bien connues.
–Quand les clusters sont groupés, la décision est
définitive => le nombre d’alternatives
Clustering hiérarchique
définitive => le nombre d’alternatives
différentes à examiner est réduit.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Inconvénients des méthodes hiérarchiques
–Groupement de clusters définitif =>
décisions erronées sont impossibles à
modifier ultérieurement.
–Méthodes non extensibles pour des ensembles
Clustering hiérarchique
–Méthodes non extensibles pour des ensembles
de données de grandes tailles.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Un exemple concret
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Un exemple concret
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Un exemple concret
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Un exemple concret
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Un exemple concret
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Un exemple concret
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Un exemple concret
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Un exemple concret
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Introduction
–Cette catégorie de clustering est basée sur des
fonctions de connectivité et de densité.
–Exemples :
•DBSCAN (Density-Based Spatial
Clustering basé sur la densité
•DBSCAN (Density-Based Spatial
Clustering of Applications with Noise) : le
plus cité de cette catégorie.
•DJ-Cluster (Density and Join-based
Clustering ).
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering basé sur la densité
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Idée de base
–Les clusters sont considérés comme des
régions de forte densité dans l’espace de
données, séparés par des régions de faible
densité.
Clustering basé sur la densité
–Les régions de faible densité sont considérées
comme du bruit.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Terminologie
– εεεε-Voisinage (ou εεεε-Neighborhood) d’un
individu p : le sous-ensemble d’individus
(objets) appartenant au disque de centre p et
de rayon εεεε.
Clustering basé sur la densité
Nεεεε(p) = q ∈ ΩΩΩΩ | d(p, q) ≤ εεεε
–Un individu p est considéré être de forte
densité, si et seulement si Nε(p) contient au
moins MinPts objets (points) :
|Nεεεε(p)| ≥≥≥≥ MinPts
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering basé sur la densité
εεεε-Voisinages de deux points p et de q
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
εεεε-Voisinages de deux points p et de q
Si MinPts = 4, alors :
« p » est de forte densité
« q» est de faible densité
• Terminologie
–Point central (Core point) : c’est un point p tel
que |Nε(p)| ≥ MinPts.
–Point bordure (Border point) : c’est un point q
qui appartient à Nε(p) d’un core point p, mais
Clustering basé sur la densité
qui appartient à Nε(p) d’un core point p, mais
tel que |Nε(q)| < MinPts.
–Point bruit (Noise point) : c’est un point qui
n’est, ni un point central, ni un point
bordure.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering basé sur la densité
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Accessibilité directe par densité
–Un point p est directement accessible par
densité (d.a.p.d) depuis un autre point q, si q
est un point central, et si de plus : p ∈ Nε(q).
– Il s’agit d’une propriété asymétrique : si p est
Clustering basé sur la densité
– Il s’agit d’une propriété asymétrique : si p est
d.a.p.d depuis un point q, alors q n’est pas
nécessairement d.a.p.d depuis p.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Accessibilité par densité
–Un point p est accessible par densité depuis un
autre point q, s’il existe une séquence finie de
points (q1, q2, …, qn) tels que :
• q1 est d.a.p.d à q.
Clustering basé sur la densité
• q1 est d.a.p.d à q.
• q2 est d.a.p.d à q1.
•…
• qn est d.a.p.d à qn-1.
• p est d.a.p.d à qn.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Connexion par densité
–Deux points p et r sont dits connectés par
densité, s’il existe un point q tel que :
• p est accessible par densité à q.
• q est accessible par densité à r.
Clustering basé sur la densité
• q est accessible par densité à r.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Cluster
–Un cluster C est un ensemble non vide de points
satisfaisant les conditions suivantes :
1. Maximalité : pour tous points p et q, si p est
dans C, et si q est a.p.d depuis p, alors q est
aussi dans C.
Clustering basé sur la densité
aussi dans C.
2. Connectivité : pour tous points p et q dans C, p
et q sont connectés par densité.
• Bruit
–Tous les points qui ne sont pas d.a.p.d depuis au
moins un point central.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Algorithme DBSCAN : idée de base
–Si deux points p et q sont connectés par
densité, alors p et q seront affectés au même
cluster.
–Si un point p n’est pas connecté par densité à
Clustering basé sur la densité
–Si un point p n’est pas connecté par densité à
aucun autre point, alors p est considéré
comme un bruit.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Algorithme DBSCAN
– Input : un dataset ΩΩΩΩ = x1, x2, …, xn de n
individus.
Pour chaque individu xi dans ΩΩΩΩ Faire
Si xi n’est pas encore classé, Alors
Clustering basé sur la densité
Si xi n’est pas encore classé, Alors
Si xi est un core-point, Alors
Collecter tous individus qui sont connectés
par densité à xi et les regrouper dans un
même cluster.
Sinon, considérer xi comme point bruit.Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Exemple
Clustering basé sur la densité
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Remarque
–Le résultat est indépendant de l’ordre de
traitement des points.
• Complexité
–Spatiale : O(n)
Clustering basé sur la densité
–Spatiale : O(n)
–Temporelle : O(n2)
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Avantages
– Insensible au bruit.
–Détection d’outlier.
–Complexité temporelle plus faible que
l’algorithme K-means.
Clustering basé sur la densité
l’algorithme K-means.
• Inconvénients
–Fonctionne mal en haute dimensions.
–Paramètres utilisateurs difficiles à définir.
–Sensible quand les densités sont inégales.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK