data mining & texte mining partie i : data mining chapitre

of 86 /86
Data Mining & Texte Mining Partie I : Data Mining Chapitre 4 : Clustering Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK Master Big Data & Aide à la décision 1 ère Année / Semestre 2 ENSA Khouribga Pr. DARGHAM ABDELMAJID Année académique : 2018/2019 Chapitre 4 : Clustering

Author: others

Post on 19-Jun-2022

0 views

Category:

Documents


0 download

Embed Size (px)

TRANSCRIPT

Microsoft PowerPoint - Chap_4 -- ClusteringMaster Big Data & Aide à la décision
1ère Année / Semestre 2
Sommaire
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• C’est quoi le clustering ?
–Le clustering est une technique d’analyse
descriptive et de data mining.
– Il est utilisé lorsqu’on cherche à distinguer un
grand volume de données en des sous-ensembles
Introduction
(ou liés) les uns aux autres, et différents (ou non
liés) aux objets des autres clusters.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• C’est quoi le clustering ?
–Plus la similitude (ou l’homogénéité) est
grande au sein d’un groupe et plus la
différence entre les groupes est grande, plus le
clustering est net ou meilleur.
Introduction
• Philosophie du clustering
• De la difficulté du clustering
–Dans de nombreuses applications, la notion de
cluster n’est pas bien définie.
–Pour comprendre la difficulté de décider de ce
qui constitue un cluster, considérons la figure
de la page suivante qui présente 20 points et 3
Introduction
de la page suivante qui présente 20 points et 3
façons différentes de les diviser en clusters.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Introduction
Quatre clusters Six clusters
des données et des résultats souhaités.
Introduction
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Quelques applications du clustering
client constituant une clientèle.
susceptibles d’être soumis à des protocoles
thérapeutiques déterminées.
homogènes de point de vue
sociodémographiques.
• Complexité du clustering
e n objets est le nombre de Bell :
Bn = e-1 (∑∑∑∑k ≥≥≥≥ 1 kn / k!)
–Pour n = 30 objets, B30 = 8,47 × 1023, ce qui est
Introduction
–Pour n = 30 objets, B30 = 8,47 × 10 , ce qui est
un nombre énorme.
hors question de tester toutes les
combinaisons possibles en temps
• Questions relatives au clustering
l’expert ou calculé par optimisation ?
–Quelle mesure de similarité utiliser ?
–Quel est le meilleur partitionnement ?
Introduction
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Types de clustering
•Hiérarchique
• Partitionnel
•Chevauchement
Introduction
•Chevauchement
• Flou.
•Complet
• Partiel.
• Clustering partitionnel
division de l’ensemble d’objets de données en
plusieurs clusters disjoints, de sorte que
chaque objet de données se trouve dans un
seul cluster.
• Clustering hiérarchique
sous-clusters, nous obtenons un clustering
hiérarchique, qui est un ensemble de clusters
imbriqués organisés sous forme
l’exception des feuilles) est l’union de ses
enfants (sous-clusters), et la racine de
l’arborescence est le cluster contenant tous les
objets.
• Clustering chevauchement
refléter le fait qu’un objet peut appartenir
simultanément à plus d’un cluster.
• Clustering flou
appartient à un cluster avec un poids
d’appartenance compris entre 0 (absolument
n’appartient pas) et 1 (absolument appartient).
–En d’autres termes, les clusters sont traitées
comme des ensembles flous. Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Clustering complet / partiel
un cluster.
cluster.
Introduction
cluster.
• Qualité d’un clustering
clusters d’excellente qualité avec :
• Une similarité intra-clusters maximale.
• Une similarité inter-clusters minimale.
Introduction
• La mesure de similarité utilisée.
• L’implémentation de cette mesure.
– La qualité d’une méthode de clustering est
évaluée par son abilité à découvrir certains ou
tous les « patterns » cachés.
• Caractéristiques des méthodes de clustering
–Scalabilité.
–Découverte de clusters de différentes formes.
–Connaissances requises (paramètres de
extrémales.
• Structure des données à regrouper
– Il n’y a pas de définition unique de la
similarité entre objets, mais plutôt des
différentes mesures de distances d(x,y).
–La définition de la similarité entre objets
dépend du :
Similarité & disimilarité
dépend du :
• Structure des données à regrouper
–Pour regrouper les objets similaires, il faut
définir un « critère de similarité ».
–Pour cela on examine l’ensemble des
informations dont on dispose concernant les
individus, et on imagine que chaque individu
Similarité & disimilarité
est un point de l’espace.
–Par exemple s’il s’agit de patients, on peut
représenter les données (pression artérielle,
température, taux de métabolisme, ...) par un
point (xi, yi, zi, ...) pour le ième individu.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Structure des données à regrouper
–Soit = {i1, i2, …, in} un ensemble de n
individus décrits par p variables.
–En général, il y a 2 représentations possibles :
•Matrice rectangulaire dont les n lignes sont
Similarité & disimilarité
les individus et dont les p colonnes sont les
variables (attributs) : « Xij » représente la «
jème » variable du « ième » individu.
•Matrice carrée de similarités (n lignes, n
colonnes) : « Xij » représente la similarité
entre le « ième » et le « jème » individu.
• Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Mesure de la (di)similarité
similarité ont été proposées dans la littérature
et sont appliquées dans la pratique.
–Leur objectif commun est d’exprimer
numériquement le degré dans laquelle deux
Similarité & disimilarité
décrites par le même ensemble d’attributs, sont
différentes ou similaires les unes des autres.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Mesure de la (di)similarité
peuvent être classées en deux catégories :
•Mesures Basées sur la différence : celles-ci
transforment et agrègent en quelque sorte les
différences de valeur d’attribut pour les deux
Similarité & disimilarité
individus comparés.
minimales et maximales d’attributs pour les
deux individus comparés.
• Disimilarité basée sur la différence
–Soient deux individus x1 et x2, chacun d’eux
étant composé de n attributs.
–On note par ai(xj), la valeur du ième attribut de
l’individu xj (i = 1, 2, …, n; j = 1, 2).
Similarité & disimilarité
représente les valeurs des n attributs de
l’individu xj.
Similarité & disimilarité
Distance Euclidien
Distance de Manhattan
Distance de Canberra
• Pondération des attributs
connaissance du domaine disponible
particuliers lors de l’évaluation de la
disimilarité entre deux individus.
pondérations numériques aux attributs et
pondérer les valeurs des attributs
correspondants en conséquence.
–Notons par γγγγi le poids affecté à l’attribut ai.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Similarité & disimilarité
Distance de Manhattan pondérée
Distance de Hamming pondérée
–La mesure de la similarité basée sur la
différence semble parfaitement raisonnable et
constitue en fait le bon moyen à suivre dans la
plupart des situations, mais elle peut donner des
résultats trompeurs dans certains domaines.
Similarité & disimilarité
–C’est le cas lorsque des individus ont des valeurs
d’attribut très différentes, mais doivent être
considérés comme similaires selon la
connaissance du domaine, car ils partagent à
peu près le même modèle de valeur relative.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Similarité basée sur la corrélation
–Considérez par exemple, des attributs qui
représentent :
• Le nombre d’occurrences de mots dans les
documents texte;
Similarité & disimilarité
documents texte;
qualité;
certains individus;
• Similarité basée sur la corrélation
– Pour ces situations, ce ne sont pas nécessairement
les différences de valeurs qui importent
vraiment lorsqu’on compare deux individus, mais
plutôt les modèles « Hauts » et « Bas » :
• Les mêmes événements sont-ils souvent
Similarité & disimilarité
particulièrement fréquents ?
• Les mêmes personnes, organisations, appareils,
ou toute autre entité atteignent toujours des
performances ou des qualités optimales ?
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Similarité basée sur la corrélation
• Les mêmes articles sont-ils pour la plupart les
plus notées ou préférés ?
mesures basées sur la corrélation, qui -
Similarité & disimilarité
contrairement aux mesures basées sur la différence
- mesurent typiquement la similarité plutôt que
la disimilarité, en affectant des valeurs élevées à
des individus similaires et des valeurs faibles à
des individus différents.
• Quelques mesures de similarité basée sur la
corrélation
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Similarité du Cosinus
• Définition d’un clustering partitionnel
– Soit un ensemble d’individus .
–La structure recherchée est la partition.
– Si on définit un critère de qualité W sur une
partition P = (C1, C2, …, CK) mesurant
l’homogénéité des clusters, le problème de
Clustering partitionnel
clustering est un problème d’optimisation
parfaitement définit :
possibles en K clusters de , la partition qui
optimise le critère W.
• Algorithme K-moyennes (K-means)
– Input : un data set de n individus x1, x2, …, xn, et
un entier naturel k ≥ 2.
1. Choisir k centres initiaux c1, c2, …, ck.
2. Répartir chacun des n individus dans le cluster Gi
dont le centre ci est le plus proche.
Clustering partitionnel
3. Si aucun individu ne change de cluster, alors
l’algorithme s’arrête et retourne les clusters G1,
G2, …, Gk.
4. Calculer les nouveaux centres : Pour tout i, ci est la
moyenne (barycentre) des individus du cluster Gi.
5. Aller en 2.
Clustering partitionnel
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering partitionnel
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering partitionnel
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering partitionnel
Clustering partitionnel
stabilité
• Avantages de l’algorithme K-moyennes
–Relativement scalable dans le traitement
d’ensembles de données de taille importante.
–Relativement efficace, car de complexité
temporelle O(I.K.n), où :
• K est le nombre de clusters formés;
• n est le nombre d’individus.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Inconvénients de l’algorithme K-moyennes
–Applicable seulement dans le cas où la
moyenne des objets est bien définie.
–Besoin de spécifier le nombre de clusters (k) à
l’avance.
Clustering partitionnel
(noisy data).
–Produit généralement un optimum local.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Définition d’un clustering hiérarchique
– Soit un ensemble d’individus .
–La structure recherchée est maintenant la
hiérarchie.
classes de appelés paliers comprenant les
Clustering hiérarchique
singletons (classes réduites a un élément),
l’ensemble , et des classes dont l’intersection
est soit vide, soit l’une ou l’autre des classes.
–Cette définition d’une hiérarchie est
ensembliste.
• Définition d’un clustering hiérarchique
–Maintenant, pour pourvoir représenter une
hiérarchie par un graphique, il faut pouvoir
évaluer ses paliers, c’est-à-dire leur assigner
une hauteur.
Clustering hiérarchique
hiérarchique.
dendrogramme.
Clustering hiérarchique
Un exemple de dendrogramme d'une hiérarchie indicée
Clustering hiérarchique
Les deux formes de dendrogrammes
• Méthodes de construction d’une hiérarchie
indicée
hiérarchie :
• Stratégies ascendantes
Clustering hiérarchique
de l’arbre (des singletons) et on agrège, deux
par deux les clusters les plus proches, et ce
jusqu’à l’obtention d’un seul cluster (c’est-à-
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
jusqu’à l’obtention d’un seul cluster (c’est-à-
dire l’univers ).
• Stratégies descendantes (Méthode divisive)
l’arbre en procédant par divisions
successives de l’ensemble jusqu’à obtenir
des clusters réduits à un élément, ou des
clusters ne contenant que des individus
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
clusters ne contenant que des individus
identiques.
– Input : un dataset = {x1, x2, …, xn} de n
individus.
Gn}, avec Gi = {xi}.
membres d’un seul cluster ().
4. Aller en 2.
Clustering hiérarchique
• Mesures d’agrégations entre clusters
– Il y a trois mesures d’agrégation classiques
(il en existe d’autres) entre deux clusters C1 et
C2 de .
disimilarité d choisie pour comparer deux
individus.
• La mesure d’agrégation du lien minimum
(Single linkage)
• La mesure d’agrégation du lien maximum
(Complete linkage)
Clustering hiérarchique
(Complete linkage)
• La mesure d’agrégation de Ward
D3(C1, C2) = ((µµµµC1µµµµC2) / (µµµµC1 + µµµµC2)) d 2(gC1, gC2)
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
Clustering hiérarchique
gCk
définitive => le nombre d’alternatives
Clustering hiérarchique
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Inconvénients des méthodes hiérarchiques
–Groupement de clusters définitif =>
modifier ultérieurement.
Clustering hiérarchique
de données de grandes tailles.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Un exemple concret
• Un exemple concret
• Un exemple concret
• Un exemple concret
• Un exemple concret
• Un exemple concret
• Un exemple concret
• Un exemple concret
• Introduction
fonctions de connectivité et de densité.
–Exemples :
•DBSCAN (Density-Based Spatial
plus cité de cette catégorie.
•DJ-Cluster (Density and Join-based
Clustering basé sur la densité
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Idée de base
régions de forte densité dans l’espace de
données, séparés par des régions de faible
densité.
–Les régions de faible densité sont considérées
comme du bruit.
• Terminologie
individu p : le sous-ensemble d’individus
(objets) appartenant au disque de centre p et
de rayon εεεε.
Nεεεε(p) = {q ∈ | d(p, q) ≤ εεεε}
–Un individu p est considéré être de forte
densité, si et seulement si Nε(p) contient au
moins MinPts objets (points) :
Clustering basé sur la densité
εεεε-Voisinages de deux points p et de q
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
εεεε-Voisinages de deux points p et de q
Si MinPts = 4, alors :
• Terminologie
–Point central (Core point) : c’est un point p tel
que |Nε(p)| ≥ MinPts.
qui appartient à Nε(p) d’un core point p, mais
Clustering basé sur la densité
qui appartient à Nε(p) d’un core point p, mais
tel que |Nε(q)| < MinPts.
bordure.
Clustering basé sur la densité
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Accessibilité directe par densité
densité (d.a.p.d) depuis un autre point q, si q
est un point central, et si de plus : p ∈ Nε(q).
– Il s’agit d’une propriété asymétrique : si p est
Clustering basé sur la densité
– Il s’agit d’une propriété asymétrique : si p est
d.a.p.d depuis un point q, alors q n’est pas
nécessairement d.a.p.d depuis p.
• Accessibilité par densité
autre point q, s’il existe une séquence finie de
points (q1, q2, …, qn) tels que :
• q1 est d.a.p.d à q.
Clustering basé sur la densité
• q1 est d.a.p.d à q.
• q2 est d.a.p.d à q1.
•…
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Connexion par densité
• p est accessible par densité à q.
• q est accessible par densité à r.
Clustering basé sur la densité
• q est accessible par densité à r.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Cluster
–Un cluster C est un ensemble non vide de points
satisfaisant les conditions suivantes :
1. Maximalité : pour tous points p et q, si p est
dans C, et si q est a.p.d depuis p, alors q est
aussi dans C.
aussi dans C.
2. Connectivité : pour tous points p et q dans C, p
et q sont connectés par densité.
• Bruit
–Tous les points qui ne sont pas d.a.p.d depuis au
moins un point central.
• Algorithme DBSCAN : idée de base
–Si deux points p et q sont connectés par
densité, alors p et q seront affectés au même
cluster.
–Si un point p n’est pas connecté par densité à
Clustering basé sur la densité
–Si un point p n’est pas connecté par densité à
aucun autre point, alors p est considéré
comme un bruit.
• Algorithme DBSCAN
individus.
Si xi n’est pas encore classé, Alors
Clustering basé sur la densité
Si xi n’est pas encore classé, Alors
Si xi est un core-point, Alors
Collecter tous individus qui sont connectés
par densité à xi et les regrouper dans un
même cluster.
Sinon, considérer xi comme point bruit. Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Exemple
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK
• Remarque
traitement des points.
–Spatiale : O(n)
–Temporelle : O(n2)
• Avantages
l’algorithme K-means.
l’algorithme K-means.
–Sensible quand les densités sont inégales.
Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK