data mining & texte mining partie i : data mining chapitre

86
Data Mining & Texte Mining Partie I : Data Mining Chapitre 4 : Clustering Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK Master Big Data & Aide à la décision 1 ère Année / Semestre 2 ENSA Khouribga Pr. DARGHAM ABDELMAJID Année académique : 2018/2019 Chapitre 4 : Clustering

Upload: others

Post on 19-Jun-2022

20 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Data Mining & Texte Mining

Partie I : Data Mining

Chapitre 4 : Clustering

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Master Big Data & Aide à la décision

1ère Année / Semestre 2

ENSA Khouribga

Pr. DARGHAM ABDELMAJID

Année académique : 2018/2019

Chapitre 4 : Clustering

Page 2: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Introduction

• Similarité et disimilarité

• Clustering partitionnel

• Clustering hiérarchique

• Clustering basé sur la densité

Sommaire

• Clustering basé sur la densité

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 3: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 4: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• C’est quoi le clustering ?

–Le clustering est une technique d’analyse

descriptive et de data mining.

– Il est utilisé lorsqu’on cherche à distinguer un

grand volume de données en des sous-ensembles

Introduction

homogènes (classes / groupes / clusters).

–L’objectif principal du clustering est que les

objets d’un même cluster doivent être similaires

(ou liés) les uns aux autres, et différents (ou non

liés) aux objets des autres clusters.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 5: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• C’est quoi le clustering ?

–Plus la similitude (ou l’homogénéité) est

grande au sein d’un groupe et plus la

différence entre les groupes est grande, plus le

clustering est net ou meilleur.

Introduction

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 6: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Philosophie du clustering

Introduction

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 7: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• De la difficulté du clustering

–Dans de nombreuses applications, la notion de

cluster n’est pas bien définie.

–Pour comprendre la difficulté de décider de ce

qui constitue un cluster, considérons la figure

de la page suivante qui présente 20 points et 3

Introduction

de la page suivante qui présente 20 points et 3

façons différentes de les diviser en clusters.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 8: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Introduction

Points originaux Deux clusters

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Quatre clusters Six clusters

Page 9: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Difficulté du clustering

–Cette figure montre que :

• La définition d’un cluster est imprécise.

• La meilleure définition dépend de la nature

des données et des résultats souhaités.

Introduction

des données et des résultats souhaités.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 10: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Quelques applications du clustering

–Marketing : rechercher des divers profils de

client constituant une clientèle.

–Médecine : déterminer des groupes de patients

susceptibles d’être soumis à des protocoles

thérapeutiques déterminées.

Introduction

thérapeutiques déterminées.

–Sociologie : répartir la population en groupes

homogènes de point de vue

sociodémographiques.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 11: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Complexité du clustering

–Le nombre de partitions (non recouvrantes)

e n objets est le nombre de Bell :

Bn = e-1 (∑∑∑∑k ≥≥≥≥ 1 kn / k!)

–Pour n = 30 objets, B30 = 8,47 × 1023, ce qui est

Introduction

–Pour n = 30 objets, B30 = 8,47 × 10 , ce qui est

un nombre énorme.

–Généralement, Bn ≥ en, ce qui montre qu’il est

hors question de tester toutes les

combinaisons possibles en temps

raisonnable.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 12: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Questions relatives au clustering

–Le nombre de clusters : est-t-il fixé par

l’expert ou calculé par optimisation ?

–Quelle mesure de similarité utiliser ?

–Quel est le meilleur partitionnement ?

Introduction

–Quel est le meilleur partitionnement ?

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 13: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Types de clustering

– Il existe plusieurs types de clustering :

•Hiérarchique

• Partitionnel

•Chevauchement

Introduction

•Chevauchement

• Flou.

•Complet

• Partiel.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 14: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Clustering partitionnel

–Un clustering partitionnel est simplement une

division de l’ensemble d’objets de données en

plusieurs clusters disjoints, de sorte que

chaque objet de données se trouve dans un

seul cluster.

Introduction

seul cluster.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 15: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Clustering hiérarchique

–Si nous autorisons les clusters à avoir des

sous-clusters, nous obtenons un clustering

hiérarchique, qui est un ensemble de clusters

imbriqués organisés sous forme

d’arborescence.

Introduction

d’arborescence.

–Chaque nœud (cluster) de l’arborescence (à

l’exception des feuilles) est l’union de ses

enfants (sous-clusters), et la racine de

l’arborescence est le cluster contenant tous les

objets.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 16: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Clustering chevauchement

–Un clustering chevauchement est utilisé pour

refléter le fait qu’un objet peut appartenir

simultanément à plus d’un cluster.

• Clustering flou

Introduction

–Dans un clustering flou, chaque objet

appartient à un cluster avec un poids

d’appartenance compris entre 0 (absolument

n’appartient pas) et 1 (absolument appartient).

–En d’autres termes, les clusters sont traitées

comme des ensembles flous.Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 17: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Clustering complet / partiel

–Un clustering complet affecte chaque objet à

un cluster.

–Par contre, dans un clustering partiel, certains

objets se trouvent non affectés à aucun

cluster.

Introduction

cluster.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 18: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Qualité d’un clustering

–Une bonne méthode de clustering produira des

clusters d’excellente qualité avec :

• Une similarité intra-clusters maximale.

• Une similarité inter-clusters minimale.

– La qualité d’un clustering dépend de :

Introduction

– La qualité d’un clustering dépend de :

• La mesure de similarité utilisée.

• L’implémentation de cette mesure.

– La qualité d’une méthode de clustering est

évaluée par son abilité à découvrir certains ou

tous les « patterns » cachés.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 19: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Caractéristiques des méthodes de clustering

–Scalabilité.

–Abilité à traiter différents types de données.

–Découverte de clusters de différentes formes.

–Connaissances requises (paramètres de

Introduction

–Connaissances requises (paramètres de

l’algorithme).

–Abilité à traiter les données bruitées et

extrémales.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 20: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 21: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Structure des données à regrouper

– Il n’y a pas de définition unique de la

similarité entre objets, mais plutôt des

différentes mesures de distances d(x,y).

–La définition de la similarité entre objets

dépend du :

Similarité & disimilarité

dépend du :

• Type des données considérées.

• Type de similarité recherchée.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 22: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Structure des données à regrouper

–Pour regrouper les objets similaires, il faut

définir un « critère de similarité ».

–Pour cela on examine l’ensemble des

informations dont on dispose concernant les

individus, et on imagine que chaque individu

Similarité & disimilarité

individus, et on imagine que chaque individu

est un point de l’espace.

–Par exemple s’il s’agit de patients, on peut

représenter les données (pression artérielle,

température, taux de métabolisme, ...) par un

point (xi, yi, zi, ...) pour le ième individu.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 23: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Structure des données à regrouper

–Soit Ω = i1, i2, …, in un ensemble de n

individus décrits par p variables.

–En général, il y a 2 représentations possibles :

•Matrice rectangulaire dont les n lignes sont

Similarité & disimilarité

•Matrice rectangulaire dont les n lignes sont

les individus et dont les p colonnes sont les

variables (attributs) : « Xij » représente la «

jème » variable du « ième » individu.

•Matrice carrée de similarités (n lignes, n

colonnes) : « Xij » représente la similarité

entre le « ième » et le « jème » individu.

•Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 24: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Mesure de la (di)similarité

–Plusieurs mesures de disimilarité et de

similarité ont été proposées dans la littérature

et sont appliquées dans la pratique.

–Leur objectif commun est d’exprimer

numériquement le degré dans laquelle deux

Similarité & disimilarité

numériquement le degré dans laquelle deux

instances (individus) d’un même domaine,

décrites par le même ensemble d’attributs, sont

différentes ou similaires les unes des autres.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 25: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Mesure de la (di)similarité

–Les mesures de (di)similarité les plus populaires

peuvent être classées en deux catégories :

•Mesures Basées sur la différence : celles-ci

transforment et agrègent en quelque sorte les

différences de valeur d’attribut pour les deux

Similarité & disimilarité

différences de valeur d’attribut pour les deux

individus comparés.

•Mesures basées sur la corrélation : celles-ci

détectent le modèle commun des valeurs

minimales et maximales d’attributs pour les

deux individus comparés.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 26: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Disimilarité basée sur la différence

–Soient deux individus x1 et x2, chacun d’eux

étant composé de n attributs.

–On note par ai(xj), la valeur du ième attribut de

l’individu xj (i = 1, 2, …, n; j = 1, 2).

Similarité & disimilarité

j

–Le vecteur a(xj) = (a1(xj), a2(xj), …, an(xj))

représente les valeurs des n attributs de

l’individu xj.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 27: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Similarité & disimilarité

Distance Euclidien

Distance de Minkowski

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Distance de Manhattan

Distance de Canberra

Page 28: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Similarité & disimilarité

Distance de Chebyshev

Distance de Hamming

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 29: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Pondération des attributs

– Il est possible d’intégrer facilement toute

connaissance du domaine disponible

concernant l’importance relative d’attributs

particuliers lors de l’évaluation de la

disimilarité entre deux individus.

Similarité & disimilarité

disimilarité entre deux individus.

–Pour ce faire, vous pouvez affecter des

pondérations numériques aux attributs et

pondérer les valeurs des attributs

correspondants en conséquence.

–Notons par γγγγi le poids affecté à l’attribut ai.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 30: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Similarité & disimilarité

Distance Euclidien pondérée

Distance de Minkowski pondérée

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Distance de Manhattan pondérée

Page 31: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Similarité & disimilarité

Distance de Chebyshev pondérée

Distance de Canberra pondérée

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Distance de Hamming pondérée

Page 32: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Similarité basée sur la corrélation

–La mesure de la similarité basée sur la

différence semble parfaitement raisonnable et

constitue en fait le bon moyen à suivre dans la

plupart des situations, mais elle peut donner des

résultats trompeurs dans certains domaines.

Similarité & disimilarité

résultats trompeurs dans certains domaines.

–C’est le cas lorsque des individus ont des valeurs

d’attribut très différentes, mais doivent être

considérés comme similaires selon la

connaissance du domaine, car ils partagent à

peu près le même modèle de valeur relative.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 33: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Similarité basée sur la corrélation

–Considérez par exemple, des attributs qui

représentent :

• Les fréquences de certains événements;

• Le nombre d’occurrences de mots dans les

documents texte;

Similarité & disimilarité

documents texte;

• Les évaluations de performances ou de

qualité;

• Les scores ou préférences exprimées par

certains individus;

• etc.Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 34: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Similarité basée sur la corrélation

– Pour ces situations, ce ne sont pas nécessairement

les différences de valeurs qui importent

vraiment lorsqu’on compare deux individus, mais

plutôt les modèles « Hauts » et « Bas » :

• Les mêmes événements sont-ils souvent

Similarité & disimilarité

• Les mêmes événements sont-ils souvent

particulièrement fréquents ?

• Les mêmes mots sont-ils toujours dominants ?

• Les mêmes personnes, organisations, appareils,

ou toute autre entité atteignent toujours des

performances ou des qualités optimales ?

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 35: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Similarité basée sur la corrélation

• Les mêmes articles sont-ils pour la plupart les

plus notées ou préférés ?

–C’est ces types de similarité considérablement

différents qui peuvent être capturés par des

mesures basées sur la corrélation, qui -

Similarité & disimilarité

mesures basées sur la corrélation, qui -

contrairement aux mesures basées sur la différence

- mesurent typiquement la similarité plutôt que

la disimilarité, en affectant des valeurs élevées à

des individus similaires et des valeurs faibles à

des individus différents.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 36: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Quelques mesures de similarité basée sur la

corrélation

Similarité & disimilarité

Similarité de corrélation de Pearson

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Similarité du Cosinus

Page 37: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 38: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Définition d’un clustering partitionnel

– Soit un ensemble d’individus ΩΩΩΩ.

–La structure recherchée est la partition.

– Si on définit un critère de qualité W sur une

partition P = (C1, C2, …, CK) mesurant

l’homogénéité des clusters, le problème de

Clustering partitionnel

1 2 K

l’homogénéité des clusters, le problème de

clustering est un problème d’optimisation

parfaitement définit :

Trouver, parmi l’ensemble de toutes les partitions

possibles en K clusters de ΩΩΩΩ, la partition qui

optimise le critère W.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 39: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Algorithme K-moyennes (K-means)

– Input : un data set ΩΩΩΩ de n individus x1, x2, …, xn, et

un entier naturel k ≥ 2.

1. Choisir k centres initiaux c1, c2, …, ck.

2. Répartir chacun des n individus dans le cluster Gi

dont le centre ci est le plus proche.

Clustering partitionnel

dont le centre ci est le plus proche.

3. Si aucun individu ne change de cluster, alors

l’algorithme s’arrête et retourne les clusters G1,

G2, …, Gk.

4. Calculer les nouveaux centres : Pour tout i, ci est la

moyenne (barycentre) des individus du cluster Gi.

5. Aller en 2.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 40: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering partitionnel

Illustration de l’algorithme K-means

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 41: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering partitionnel

Initialisation : choix de k centres

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 42: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering partitionnel

Répartition : assigner chaque objet à son cluster

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 43: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering partitionnel

Réajustement des centres

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 44: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering partitionnel

Réassigner les objets & Itération jusqu’à

stabilité

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 45: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Avantages de l’algorithme K-moyennes

–Relativement scalable dans le traitement

d’ensembles de données de taille importante.

–Relativement efficace, car de complexité

temporelle O(I.K.n), où :

Clustering partitionnel

• I est le nombre d’itérations;

• K est le nombre de clusters formés;

• n est le nombre d’individus.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 46: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Inconvénients de l’algorithme K-moyennes

–Applicable seulement dans le cas où la

moyenne des objets est bien définie.

–Besoin de spécifier le nombre de clusters (k) à

l’avance.

– Incapable de traiter les données bruitées

Clustering partitionnel

– Incapable de traiter les données bruitées

(noisy data).

–Les points isolés sont mal gérés.

–Produit généralement un optimum local.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 47: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 48: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Définition d’un clustering hiérarchique

– Soit un ensemble d’individus ΩΩΩΩ.

–La structure recherchée est maintenant la

hiérarchie.

–Une hiérarchie H de ΩΩΩΩ est un ensemble de

classes de ΩΩΩΩ appelés paliers comprenant les

Clustering hiérarchique

classes de ΩΩΩΩ appelés paliers comprenant les

singletons (classes réduites a un élément),

l’ensemble ΩΩΩΩ, et des classes dont l’intersection

est soit vide, soit l’une ou l’autre des classes.

–Cette définition d’une hiérarchie est

ensembliste.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 49: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Définition d’un clustering hiérarchique

–Maintenant, pour pourvoir représenter une

hiérarchie par un graphique, il faut pouvoir

évaluer ses paliers, c’est-à-dire leur assigner

une hauteur.

–Cette représentation graphique d’une hiérarchie

Clustering hiérarchique

–Cette représentation graphique d’une hiérarchie

s’appelle un dendrogramme ou arbre

hiérarchique.

– Il y a deux formes classiques pour représenter un

dendrogramme.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 50: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Un exemple de dendrogramme d'une hiérarchie indicée

Page 51: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Les deux formes de dendrogrammes

Page 52: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Méthodes de construction d’une hiérarchie

indicée

– Il existe 2 stratégies de construction d’une

hiérarchie :

• Stratégies ascendantes.

Clustering hiérarchique

• Stratégies ascendantes.

• Stratégies descendantes.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 53: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Stratégies ascendantes

Clustering hiérarchique

–On construit la hiérarchie en partant du bas

de l’arbre (des singletons) et on agrège, deux

par deux les clusters les plus proches, et ce

jusqu’à l’obtention d’un seul cluster (c’est-à-

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

jusqu’à l’obtention d’un seul cluster (c’est-à-

dire l’univers ΩΩΩΩ).

Page 54: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Stratégies descendantes (Méthode divisive)

Clustering hiérarchique

–On construit la hiérarchie à partir du haut de

l’arbre en procédant par divisions

successives de l’ensemble ΩΩΩΩ jusqu’à obtenir

des clusters réduits à un élément, ou des

clusters ne contenant que des individus

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

clusters ne contenant que des individus

identiques.

Page 55: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Algorithme général d’une stratégie ascendante

– Input : un dataset ΩΩΩΩ = x1, x2, …, xn de n

individus.

1. Commencer avec n clusters G1, G2, …,

Gn, avec Gi = xi.

Clustering hiérarchique

Gn, avec Gi = xi.

2. Fusionner les 2 clusters les plus proches.

3. S’arrêter lorsque tous les individus sont

membres d’un seul cluster (Ω).

4. Aller en 2.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 56: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 57: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Mesures d’agrégations entre clusters

– Il y a trois mesures d’agrégation classiques

(il en existe d’autres) entre deux clusters C1 et

C2 de ΩΩΩΩ.

Clustering hiérarchique

2

–Ces mesures utilisent la distance ou la

disimilarité d choisie pour comparer deux

individus.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 58: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• La mesure d’agrégation du lien minimum

(Single linkage)

D1(C1, C2) = Min xi ∈ C1, xj ∈ C2 d(xi, xj)

• La mesure d’agrégation du lien maximum

(Complete linkage)

Clustering hiérarchique

(Complete linkage)

D2(C1, C2) = Max xi ∈ C1, xj ∈ C2 d(xi, xj)

• La mesure d’agrégation de Ward

D3(C1, C2) = ((µµµµC1µµµµC2) / (µµµµC1 + µµµµC2)) d2(gC1, gC2)

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 59: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering hiérarchique

µµµµCk

gCk

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

gCk

Page 60: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Avantages des méthodes hiérarchiques

–Conceptuellement simples.

–Propriétés théoriques bien connues.

–Quand les clusters sont groupés, la décision est

définitive => le nombre d’alternatives

Clustering hiérarchique

définitive => le nombre d’alternatives

différentes à examiner est réduit.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 61: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Inconvénients des méthodes hiérarchiques

–Groupement de clusters définitif =>

décisions erronées sont impossibles à

modifier ultérieurement.

–Méthodes non extensibles pour des ensembles

Clustering hiérarchique

–Méthodes non extensibles pour des ensembles

de données de grandes tailles.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 62: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Un exemple concret

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 63: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Un exemple concret

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 64: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Un exemple concret

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 65: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Un exemple concret

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 66: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Un exemple concret

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 67: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Un exemple concret

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 68: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Un exemple concret

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 69: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Un exemple concret

Clustering hiérarchique

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 70: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 71: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Introduction

–Cette catégorie de clustering est basée sur des

fonctions de connectivité et de densité.

–Exemples :

•DBSCAN (Density-Based Spatial

Clustering basé sur la densité

•DBSCAN (Density-Based Spatial

Clustering of Applications with Noise) : le

plus cité de cette catégorie.

•DJ-Cluster (Density and Join-based

Clustering ).

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 72: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering basé sur la densité

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 73: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Idée de base

–Les clusters sont considérés comme des

régions de forte densité dans l’espace de

données, séparés par des régions de faible

densité.

Clustering basé sur la densité

–Les régions de faible densité sont considérées

comme du bruit.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 74: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Terminologie

– εεεε-Voisinage (ou εεεε-Neighborhood) d’un

individu p : le sous-ensemble d’individus

(objets) appartenant au disque de centre p et

de rayon εεεε.

Clustering basé sur la densité

Nεεεε(p) = q ∈ ΩΩΩΩ | d(p, q) ≤ εεεε

–Un individu p est considéré être de forte

densité, si et seulement si Nε(p) contient au

moins MinPts objets (points) :

|Nεεεε(p)| ≥≥≥≥ MinPts

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 75: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering basé sur la densité

εεεε-Voisinages de deux points p et de q

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

εεεε-Voisinages de deux points p et de q

Si MinPts = 4, alors :

« p » est de forte densité

« q» est de faible densité

Page 76: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Terminologie

–Point central (Core point) : c’est un point p tel

que |Nε(p)| ≥ MinPts.

–Point bordure (Border point) : c’est un point q

qui appartient à Nε(p) d’un core point p, mais

Clustering basé sur la densité

qui appartient à Nε(p) d’un core point p, mais

tel que |Nε(q)| < MinPts.

–Point bruit (Noise point) : c’est un point qui

n’est, ni un point central, ni un point

bordure.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 77: Data Mining & Texte Mining Partie I : Data Mining Chapitre

Clustering basé sur la densité

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 78: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Accessibilité directe par densité

–Un point p est directement accessible par

densité (d.a.p.d) depuis un autre point q, si q

est un point central, et si de plus : p ∈ Nε(q).

– Il s’agit d’une propriété asymétrique : si p est

Clustering basé sur la densité

– Il s’agit d’une propriété asymétrique : si p est

d.a.p.d depuis un point q, alors q n’est pas

nécessairement d.a.p.d depuis p.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 79: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Accessibilité par densité

–Un point p est accessible par densité depuis un

autre point q, s’il existe une séquence finie de

points (q1, q2, …, qn) tels que :

• q1 est d.a.p.d à q.

Clustering basé sur la densité

• q1 est d.a.p.d à q.

• q2 est d.a.p.d à q1.

•…

• qn est d.a.p.d à qn-1.

• p est d.a.p.d à qn.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 80: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Connexion par densité

–Deux points p et r sont dits connectés par

densité, s’il existe un point q tel que :

• p est accessible par densité à q.

• q est accessible par densité à r.

Clustering basé sur la densité

• q est accessible par densité à r.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 81: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Cluster

–Un cluster C est un ensemble non vide de points

satisfaisant les conditions suivantes :

1. Maximalité : pour tous points p et q, si p est

dans C, et si q est a.p.d depuis p, alors q est

aussi dans C.

Clustering basé sur la densité

aussi dans C.

2. Connectivité : pour tous points p et q dans C, p

et q sont connectés par densité.

• Bruit

–Tous les points qui ne sont pas d.a.p.d depuis au

moins un point central.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 82: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Algorithme DBSCAN : idée de base

–Si deux points p et q sont connectés par

densité, alors p et q seront affectés au même

cluster.

–Si un point p n’est pas connecté par densité à

Clustering basé sur la densité

–Si un point p n’est pas connecté par densité à

aucun autre point, alors p est considéré

comme un bruit.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 83: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Algorithme DBSCAN

– Input : un dataset ΩΩΩΩ = x1, x2, …, xn de n

individus.

Pour chaque individu xi dans ΩΩΩΩ Faire

Si xi n’est pas encore classé, Alors

Clustering basé sur la densité

Si xi n’est pas encore classé, Alors

Si xi est un core-point, Alors

Collecter tous individus qui sont connectés

par densité à xi et les regrouper dans un

même cluster.

Sinon, considérer xi comme point bruit.Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 84: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Exemple

Clustering basé sur la densité

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 85: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Remarque

–Le résultat est indépendant de l’ordre de

traitement des points.

• Complexité

–Spatiale : O(n)

Clustering basé sur la densité

–Spatiale : O(n)

–Temporelle : O(n2)

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK

Page 86: Data Mining & Texte Mining Partie I : Data Mining Chapitre

• Avantages

– Insensible au bruit.

–Détection d’outlier.

–Complexité temporelle plus faible que

l’algorithme K-means.

Clustering basé sur la densité

l’algorithme K-means.

• Inconvénients

–Fonctionne mal en haute dimensions.

–Paramètres utilisateurs difficiles à définir.

–Sensible quand les densités sont inégales.

Data Mining & Texte Mining Pr. DARGHAM Abdelmajid ENSAK