presentation tisic 2011

68
Pr´ esentation de quelques m´ ethodes et applications de clustering de graphes Etienne Cˆ ome, [email protected] 8 D´ ecembre 2011 Cˆome,E. (IFSTTAR) Clustering de graph 8 D´ ecembre 2011 1 / 68

Upload: ticien

Post on 12-Jul-2015

3.959 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Presentation Tisic 2011

Presentation de quelques methodes et applications declustering de graphes

Etienne Come,[email protected]

8 Decembre 2011

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 1 / 68

Page 2: Presentation Tisic 2011

Outline

1 IntroductionGraphesProblematique de la recherche de communaute

2 Clustering de graphes, quelques methodesModele de melange d’Erdos RenyiMaximisation de la modulariteClustering spectral

3 Extraction locale de communauteProblematiqueSolutions existantesNoise cluster modelExperimentation : extraction de communautes de blogs

4 Clustering hierarchique / multi-echellesProblematiqueClustering spectral sur graphes orientesExtension hierarchiqueExperimentation : Identification d’aires urbaines

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 2 / 68

Page 3: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Graphe

Deux elements G = {V ,E} :

I V : nœuds ou sommets

I E : liens, arcs (oriente) ou aretes (non-oriente)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 3 / 68

Page 4: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Plusieurs representations

I Matrice d’adjacence A :

A :

{Aij = 1, si i ∼ j

Aij = 0, sinon.

I liste d’adjacence

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 4 / 68

Page 5: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Plusieurs variationsI oriente / non oriente

I value / non value

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 5 / 68

Page 6: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Plusieurs variationsI oriente / non oriente

I value / non value

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 6 / 68

Page 7: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Plusieurs variationsI oriente / non oriente

I value / non value

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 7 / 68

Page 8: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 8 / 68

Page 9: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 9 / 68

Page 10: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 10 / 68

Page 11: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

−8 −6 −4 −2 0 2 4 6 8−6 −4 −2 0 2 4 6 8 10

−8

−6

−4

−2

0

2

4

6

8

1234

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 11 / 68

Page 12: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

100 200 300 400 500 600 700 800 900 1000

100

200

300

400

500

600

700

800

900

1000

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 12 / 68

Page 13: Presentation Tisic 2011

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

100 200 300 400 500 600 700 800 900 1000

100

200

300

400

500

600

700

800

900

1000

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 13 / 68

Page 14: Presentation Tisic 2011

Introduction Problematique de la recherche de communaute

Problematique

”A community could be loosely described as a collection of vertices withina graph that are densely connected amongst themselves while beingloosely connected to the rest of the graph.”

I regrouper les nœuds d’un graphe dans differents groupes ou clusters⇒ de maniere a ”maximiser la connectivite intra-cluster et/ouminimiser la connectivite inter-cluster”.

I Rmq : le nombre de clusters peut etre connu ou inconnu.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 14 / 68

Page 15: Presentation Tisic 2011

Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi

Modele de melange d’Erdos Renyi

Variables :I Xij ∈ {0, 1} variable binaire encodant la presence ou l’absence d’un

liens entre i et j :

xij =

{1, si il existe un liens entre i et j

0, sinon.(1)

I Zj ∈ {1, . . . ,K} sont des variables latentes, decrivant l’appartenancede j a un des K clusters possibles :

zj = k , si j appartient au cluster k . (2)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 15 / 68

Page 16: Presentation Tisic 2011

Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi

Modele de melange d’Erdos Renyi

Modele generatif :

1 tirer le groupe de chaque noeud suivant les proportions γ

2 ajouter un lien entre i et j avec une probabilite πkl si i appartient aucluster k et j appartient au cluster l .

Zji .i .d∼ M(1, γ), ∀j ∈ {1, . . . ,N} (3)

Xij |Zi = k ,Zj = li .i .d∼ B(πkl), ∀i , j ∈ {1, . . . ,N}, (4)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 16 / 68

Page 17: Presentation Tisic 2011

Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi

Modele de melange d’Erdos Renyi

Parametres :I γ : proportions, exemple γ = (0.1, 0.2, 0.6, 0.1)

I π : matrice de liens, exemple :

π =

0.1 0.01 0.01 0.005

0.005 0.2 0.01 0.010.005 0.001 0.1 0.010.005 0.001 0.01 0.3

.

Recherche de communaute :

π =

α1 ε ε εε α2 ε εε ε α3 εε ε ε α4

,

avec α >> ε.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 17 / 68

Page 18: Presentation Tisic 2011

Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi

Modele de melange d’Erdos Renyi

Optimization :

Strategie alternee de type EM...! mais probleme plus complique que EM classique (pas d’independanceconditionnellement aux donnees observees)

I approche variationnelle

I CEM, online CEM

I ...

Remarques

I permet une modelisation assez fine (pas limite a la recherche decommunaute)

I k doit etre fixe ou choisi par balayage

I assez lourd en temps de calcul (difficile de traiter des gros graphes)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 18 / 68

Page 19: Presentation Tisic 2011

Clustering de graphes, quelques methodes Maximisation de la modularite

Maximisation de la modularite

Definition du critere

La modularite Q est egale a la somme des connectivites intra-clustermoins la connectivite intra-cluster attendue sous hypothese uniforme.

Q =∑i 6=j

(Aij −kikj

m)δ(zi , zj),

avec ki =∑N

j=1 Aij le degre du nœud i et m =∑N

j=1 kj , zi le numero decluster du noeud i et δ la fonction de Kronecker.

Remarques

I permet de travailler sans un nombre de clusters predefini.

I assez leger en temps de calcul.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 19 / 68

Page 20: Presentation Tisic 2011

Clustering de graphes, quelques methodes Maximisation de la modularite

Maximisation de la modularite

Optimisation

I Recuit Simule

I Optimisation gloutonne Louvain

I ...

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 20 / 68

Page 21: Presentation Tisic 2011

Clustering de graphes, quelques methodes Clustering spectral

Clustering spectral recursif sur graphe oriente/value

L, matrice Laplacienne (graphes non orientes) :

L = D − A (5)

! f tLf =∑

i∼j(fi − fj)2 (Mesure de regularite de f sur L)

L, matrice Laplacienne normalisee (graphes non orientes) :

L = D−1/2LD−1/2 = I − D−1/2AD1/2 (6)

Proprietes :

1 L et L etant symetriques, leurs valeurs propres sont reelles et nonnegatives.

2 0 = λ0 <= λ1 <= ... <= λn−1.

3 Nombre de composante connexe de G = multiplicite de la valeurpropre 0.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 21 / 68

Page 22: Presentation Tisic 2011

Clustering de graphes, quelques methodes Clustering spectral

Definitions : coupe S , volume vol , ...

Coupe

S

S

I Coupe :V = {S ∪ S} (7)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 22 / 68

Page 23: Presentation Tisic 2011

Clustering de graphes, quelques methodes Clustering spectral

Definitions : coupe S , volume vol , ...

Coupe

S

S

I Volume d’un noeud :vol v =

∑u

Av ,u (8)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 23 / 68

Page 24: Presentation Tisic 2011

Clustering de graphes, quelques methodes Clustering spectral

Definitions : coupe S , volume vol , ...

Coupe

S

S

I Volume d’un ensemble de noeuds :

vol S =∑v∈S

vol v (9)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 24 / 68

Page 25: Presentation Tisic 2011

Clustering de graphes, quelques methodes Clustering spectral

Definition : coupe S , volume vol , ...

Coupe

S

S

I Volume d’une coupe :

vol δS =∑

u∈S ,v∈S

Au,v (10)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 25 / 68

Page 26: Presentation Tisic 2011

Clustering de graphes, quelques methodes Clustering spectral

Criteres de coupes

Ration Cut :

RatioCut(S , S) =vol δS

|S |.|S |, (11)

ou |S | et |S | sont respectivement les nombres de sommets de S et de S .Le probleme de minimisation pour trouver la solution approximee se resouta partir de la matrice laplacienne L et de son second plus petit vecteurpropre(cf. [HK92]).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 26 / 68

Page 27: Presentation Tisic 2011

Clustering de graphes, quelques methodes Clustering spectral

Criteres de coupes

Conductance ou constante de Cheeger :

φG (S) =vol δS

min(vol S , vol S)(12)

On peut aussi definir la conductance d’un graphe :

φG = minS⊂V

φG (S) (13)

Inegalite de cheeeger :

φ2G

2≤ λ1 ≤ 2φG (14)

Ces inegalites permettent de considerer la solution relachee obtenue apartir de la matrice laplacienne normalisee, comme le montre Chung dans[Chu07].

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 27 / 68

Page 28: Presentation Tisic 2011

Clustering de graphes, quelques methodes Clustering spectral

Criteres de coupes

Normalized Cut :

ncut(S) = vol δS(1

vol S+

1

vol S) (15)

La solution relachee de la minimisation de ce critere se trouve a partir dela matrice laplacienne normalisee L et de son second plus petit vecteurpropre (cf. [SM00]).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 28 / 68

Page 29: Presentation Tisic 2011

Clustering de graphes, quelques methodes Clustering spectral

Algorithme de recherche coupe optimale

1 Calcul de la matrice L ou L du graphe G (on suppose ici que legraphe est fortement connexe)

2 Calcul du vecteur propre v1 associe a la seconde plus petite valeurpropre λ1

3 Tri du vecteur v1 pour obtenir une permutation p de la matrice L ou L4 Calcul du critere de coupe sur chaque coupe possible de la matrice Lp

ou Lp apres permutation

5 Choix de la coupe I qui minimise le critere parmi les n − 1 coupespossibles

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 29 / 68

Page 30: Presentation Tisic 2011

Extraction locale de communaute

Extraction locale de communaute

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 30 / 68

Page 31: Presentation Tisic 2011

Extraction locale de communaute Problematique

Introduction

Motivations Extraction de communauteI Extraire une communaute en partant d’un ensemble de graines

I Algorithme ”On line”, complexite ∼ taille de la communaute

Solution : Noise cluster modelI Modele generatif simple

I Une communaute environnee par du bruit

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 31 / 68

Page 32: Presentation Tisic 2011

Extraction locale de communaute Problematique

Introduction, (exemple jouet)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 32 / 68

Page 33: Presentation Tisic 2011

Extraction locale de communaute Problematique

Introduction, (graphe clustering)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 33 / 68

Page 34: Presentation Tisic 2011

Extraction locale de communaute Problematique

Introduction, (graines)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 34 / 68

Page 35: Presentation Tisic 2011

Extraction locale de communaute Problematique

Introduction, (extraction d’une communaute)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 35 / 68

Page 36: Presentation Tisic 2011

Extraction locale de communaute Problematique

Introduction, (community extraction)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 36 / 68

Page 37: Presentation Tisic 2011

Extraction locale de communaute Problematique

Avantages

I les graines permettent d’avoir un focus pour analyser le graphe

I meilleure complexite

I exploration du graphe complet evitee

I moins de probleme avec des tailles de communautes differentes

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 37 / 68

Page 38: Presentation Tisic 2011

Extraction locale de communaute Solutions existantes

Solutions existantes au probleme de l’extraction

Bagrow & al [BB05]

I Parcours en largeur d’abord du graph en partant d’une graine ;

I jusqu’a ce que le taux d’expansion tombe en-dessous d’un seuilpredefini. (i.e. la proportion de liens trouves au niveau courant qui nemenent pas a des noeuds deja connus)

ProblemesI Uniquement une graıne

I Tous les noeuds d’un niveau sont inclus.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 38 / 68

Page 39: Presentation Tisic 2011

Extraction locale de communaute Solutions existantes

Solutions existantes au probleme de l’extraction

Clauset [Cla05]

I optimisation gloutonne a partir d’une graine d’un critere ”modularitelocale” Qloc ;

I frontiere B : ensemble des noeuds ayant un voisin encore inconnu ;

I ”modularite locale” : nombre de liens entre B et l’ensemble desnoeuds connus C diviser par le nombre total de liens ayant au moinsune extremite dans B.

Qloc =

∑i∈C,j∈B Bij +

∑i∈B,j∈C Bij∑

i ,j Bij, (16)

avec Bij = 1 si i j et l’un ou l’autre des noeuds appartient a B.

ProblemesI Ne peut prendre en compte qu’une graıne

I definition et choix du critere d’arret

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 39 / 68

Page 40: Presentation Tisic 2011

Extraction locale de communaute Solutions existantes

Solutions existantes au probleme de l’extraction

Autres solutionsI [AL06] marche aleatoire et conductance

I [SG10] optimisation combinatoire

ProblemeI complexite depend de la taille du graphe.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 40 / 68

Page 41: Presentation Tisic 2011

Extraction locale de communaute Noise cluster model

Noise cluster model

Definition du modele

Zii .i .d∼ B(γ), ∀i ∈ {1, . . . ,N}, (17)

Xij |Zi × Zj = 1i .i .d∼ B(α), ∀i , j ∈ {1, . . . ,N}, (18)

Xij |Zi × Zj = 0i .i .d∼ B(β), ∀i , j ∈ {1, . . . ,N}, (19)

avec zi = 1, si i appartient a la communaute et 0 sinon.

π =

(α ββ β

),

avec α >> β.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 41 / 68

Page 42: Presentation Tisic 2011

Extraction locale de communaute Noise cluster model

Notations :I Taille de la communaute :

Nc =∑

i

zi

I Degres :

d inj =

∑i :zi =1

xij , doutj =

∑i :zi =1

xji , dj =∑

i :zi =1

(xij + xji )

I Probabilite a posteriori :

pinj = P(Zj = 1|Xij = xij ,Zi = zi , ∀i ∈ {1, . . . ,N}),

poutj = P(Zj = 1|Xji = xji ,Zi = zi , ∀i ∈ {1, . . . ,N}),

pin,outj = P(Zj = 1|Xij = xij ,Xji = xji ,Zi = zi , ∀i ∈ {1, . . . ,N}),

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 42 / 68

Page 43: Presentation Tisic 2011

Extraction locale de communaute Noise cluster model

Simplifications :

Avec ce modele les probabilites a posteriori se simplifient :

I parametres (α, β, γ) ;

I nombre de liens avec la communaute (d inj , d

outj , d in,out

j ) ;

I taille de la communaute (Nc) ;

Exemple pour pinj

pinj =

αd inj × (1− α)(Nc−d in

j ) × γαd in

j × (1− α)(Nc−d inj ) × γ + βd in

j × (1− β)(Nc−d inj ) × (1− γ)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 43 / 68

Page 44: Presentation Tisic 2011

Extraction locale de communaute Noise cluster model

Test d’appartenance a la communaute

Test d’appartenance a la communaute : seuil sur le nombre de liens avecles membres de la communaute.

{pinj > s} ⇔ {d in

j > dmin}, (20)

with

dmin =

⌊log(s × (1− β)Nc × (1− γ)

)− log

((1− s)× (1− α)Nc × γ

)log (α× (1− β))− log ((1− α)× β)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 44 / 68

Page 45: Presentation Tisic 2011

Extraction locale de communaute Noise cluster model

● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 10 20 30 40 50

0.0

0.4

0.8

alpha=0.1,beta=0.001,gamma=0.05,Nc=200

din

pc

0 100 200 300 400

24

68

10

alpha=0.1,beta=0.001,gamma=0.05

Nc

dmin

Fig.: (haut) valeur de pinj en fonction de d in

j avec α = 0.1, β = 0.001, γ = 0.05et Nc = 200 ; (bas) evolution du seuil dmin par rapport a Nc avec α = 0.1,β = 0.001, γ = 0.05 et s = 0.5.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 45 / 68

Page 46: Presentation Tisic 2011

Extraction locale de communaute Noise cluster model

Apprentissage des parametres ”CEM on line”[ZAM08]

Vraisemblance classifiante :

Lc(X,Z, θ) =∑

i

zi log(γ) +∑

i

(1− zi ) log(1− γ)

+∑

i ,j :i 6=j

zi × zj × xij log(α) +∑

i ,j :i 6=j

zi × zj(1−×xij) log(1− α)

+∑

i ,j :i 6=j

(1− zi × zj)× xij log(β) +∑

i ,j :i 6=j

(1− zi × zj)× (1− xij) log(1− β)

avec Z = {z1, . . . , zN}, X = {xij : i 6= j , i , j ∈ {1, . . . ,N}}, et θ = (γ, α, β)le vecteur de parametres.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 46 / 68

Page 47: Presentation Tisic 2011

Extraction locale de communaute Noise cluster model

Apprentissage des parametres ”CEM on line”[ZAM08]

Si la partition Z = {z1, . . . , zN} est connue, les parametres maximisant lavraisemblance classifiante sont donnees par :

γ =Nc

N, (21)

α =1

N2c

N∑i ,j=1, i 6=j

(zi × zj)xij , (22)

β =1

Nc × (N + Nc)

N∑i ,j=1, i 6=j

(1− zi × zj)xij , (23)

avec Nc = N − Nc .

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 47 / 68

Page 48: Presentation Tisic 2011

Extraction locale de communaute Noise cluster model

Procedure d’extraction proposee

Algorithme

Couple un algorithme de parcours de graphe en largeur (en partant desgraines) avec la procedure suivante,Pour chaque noeuds traverse :

1 utiliser le test d’appartenance definit precedemment (20) pourl’ajouter ou non a la communaute

2 mettre a jour les parametres (21, 22, 23), en utilisant la partitioncourante

Jusqu’a ce qu’aucun noeud ne passe le test d’appartenance.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 48 / 68

Page 49: Presentation Tisic 2011

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Experimentation : extraction de communautes de blogs

Protocole :I crawler multi-thread utilisant l’algorithme precedent ;

I graınes : classement de blogs pour differentes categories ( URLshttp ://www.wikio.com)

I 100 ou 50 graines pour 4 communautes test :

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 49 / 68

Page 50: Presentation Tisic 2011

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Extraction de communautes de blogs

Illustration (fr) Scrapbooking (fr) Cuisine(fr) Politics (en)

α 0.01829 0.02955 0.03846 0.02004

β 0.00094 0.00232 0.00209 0.00068

β/α 0.05139 0.07851 0.05434 0.03393Nc 1 360 701 622 1 808N 37 101 13 467 16 364 84 702dia 8 8 6 7apl 3.059 2.749 2.71 3.014

Tab.: Parametres estimees α, β et statistiques descriptives des communautesextraites : dia diametre, apl longueur moyen des chemin entre membres de lacommunaute.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 50 / 68

Page 51: Presentation Tisic 2011

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Extraction de communautes de blogs

Community Precision Vocabulary extracted

Illustration (fr) 99% (animation 34.37%, drawing 28.96%,illustration 25.30%, sketches 24.55%,world 20.31%,...)

Scrapbooking (fr) 98% (scrap 84.16%, scrapbooking 58.24%,tampons 47.71%, scrapper 29.58%,embellissements 22.53%,...)

Cooking (fr) 100% (cuisine 83.72%, recettes 79.45%, re-cette 73.81%, chocolat 68.73%, sucre64.14%,...)

Politics (en) 96% (senate 28.78%, conservatives21.12%, pundit 20.11%, terrorism19.76%, congressional 19.25%,...)

Tab.: Analyse du contenue. Precision evaluee sur 100 blogs au hasard,vocabulaire representatif de la communaute.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 51 / 68

Page 52: Presentation Tisic 2011

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Illustration (fr).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 52 / 68

Page 53: Presentation Tisic 2011

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Scrapbooking (fr).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 53 / 68

Page 54: Presentation Tisic 2011

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Cuisine (fr).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 54 / 68

Page 55: Presentation Tisic 2011

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Cuisine (fr).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 55 / 68

Page 56: Presentation Tisic 2011

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Politics (en).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 56 / 68

Page 57: Presentation Tisic 2011

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Politics (en).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 57 / 68

Page 58: Presentation Tisic 2011

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Conclusion

ConclusionI approche gloutonne simple ;

I complexite ∼ taille de la communaute ;

I extraction de communautes de blogs

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 58 / 68

Page 59: Presentation Tisic 2011

Clustering hierarchique / multi-echelles

Clusteringhierarchique / multi-echelles

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 59 / 68

Page 60: Presentation Tisic 2011

Clustering hierarchique / multi-echelles Problematique

Problematique

Introduction

Analyse de graphe presentant differentes echelles d’analyse pertinentes :Regionales, Aire urbaines, ...

Piste etudiee

Mise en relation des poles urbains elementaires grace a des donneesrelatives au transport :

I flux (domicile-travail/ecole et autres)

I infrastructures (transports en commun et individuels)

Traitement sous forme de graphe, aspect multi-echelle et hierarchique.Recherche de communautes, clustering de graphe :

I clustering spectral recursif [Gleich06,Chung05]

I maximisation de la modularite hierarchique [Newman04]

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 60 / 68

Page 61: Presentation Tisic 2011

Clustering hierarchique / multi-echelles Clustering spectral sur graphes orientes

Extension aux graphes orientes

Matrice laplacienne normalisee dirigee :

L = L(G ) = I − 1

2(Π1/2PΠ−1/2 + Π−1/2PΠ1/2), (24)

ou P est la matrice de transition associe a G ; Π est la matrice diagonaleformee par π la distribution stationnaire de la marche aleatoire.

Avantages :

I extension des notions de coupe, volumes ...

I permet de se ramener a une matrice symetrique

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 61 / 68

Page 62: Presentation Tisic 2011

Clustering hierarchique / multi-echelles Extension hierarchique

Extension aux graphes orientes

Algorithme de clustering hierarchique

1 Calcul de la matrice laplacienne dirigee L du graphe G

2 Separation de G en composantes connexes et application des etapessuivantes sur chaque composante

3 Calcul du vecteur propre v1 associe a la seconde plus petite valeurpropre

4 Tri du vecteur v1 pour obtenir une permutation p1 de la matrice L5 Calcul du critere ncut, ou ϕ sur la matrice Lp1 apres permutation

6 Choix de la coupe I qui minimise le critere choisi sur Lp1

7 Application recursive des etapes 2 a 7 sur les partitions engendreespar la coupe I , tant que les partitions obtenues sont de taillesuperieure a p (la taille minimale definie initialement).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 62 / 68

Page 63: Presentation Tisic 2011

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

Experimentation : Identification d’aires urbaines

Donnees

Matrice OD (domicile/travail, INSEE) = Graphe oriente value.37 948 communes=communes, 1 560 058 arcs.

Fig.: Matrice d’adjacence ordonnee aleatoirement.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 63 / 68

Page 64: Presentation Tisic 2011

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

Experimentation : Identification d’aires urbaines

Donnees

Matrice OD (domicile/travail, INSEE) = Graphe oriente value.37 948 communes=communes, 1 560 058 arcs.

Fig.: Matrice d’adjacence ordonnee par clustering spectral.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 64 / 68

Page 65: Presentation Tisic 2011

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

Experimentation : Identification d’aires urbaines

Région Nord-Est de la France :

Champagne-ArdenneAlsaceLorraineFranche-Comté(+département de l'Aisne)

Flux transfrontaliers :Belgique, Luxembourg,Allemagne, Suisse

Fig.: Imbrication des structures de communes sur la matrice WS apres permutation.

Premier niveau : cluster de communes du Nord-Est de la France

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 65 / 68

Page 66: Presentation Tisic 2011

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

Experimentation : Identification d’aires urbaines

Région Est de la France :AlsaceFranche-Comté(+départements Haute-Marneet Vosges)

Flux transfrontaliers :Allemagne, Suisse

Fig.: Imbrication des structures de communes sur la matrice WS apres permutation.

Deuxieme niveau : cluster de communes de l’Est de la France (zoom sur le 1er niveau)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 66 / 68

Page 67: Presentation Tisic 2011

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

Experimentation : Identification d’aires urbaines

Régions Est :Centrée certaines communes du Doubs :

Cantons de Morteau, Montbenoit,Russey, Vercel, Pierrefontaine les Varans,Clerval

Et de certaines communes Suisseau Nord de Neuchâtel

Fig.: Imbrication des structures de communes sur la matrice WS apres permutation.

Troisieme niveau : cluster de communes du Doubs (zoom sur le 2eme niveau)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 67 / 68

Page 68: Presentation Tisic 2011

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

R. Andersen and K. Lang.Communities from seed sets.In Proceedings of the 15th International Conference on World Wide Web, pages 223–232.ACM Press, 2006.

J.P. Bagrow and E.M. Bollt.A local method for detecting communities.Phys Rev E Stat Nonlin Soft Matter Phys, 72(4) :046108, 2005.

F. Chung.Four proofs for the cheeger inequality and graph partition algorithms.In Proceedings of ICCM, volume 2, pages 751–772, 2007.

A. Clauset.Finding local community structure in networks.Phys Rev E Stat Nonlin Soft Matter Phys, 72(2) :026132, 2005.

L. Hagen and A.B. Kahng.New spectral methods for ratio cut partitioning and clustering.11(9) :1074–1085, 1992.

M. Sozio and A. Gionis.The community-search problem and how to plan a successful cocktail party.In Proceedings of the 16th ACM SIGKDD Conference On Knowledge Discovery and DataMining (KDD), pages –, 2010.

J. Shi and J. Malik.Normalized cuts and image segmentation.22(8) :888–905, 2000.

H. Zanghi, C. Ambroise, and V. Miele.Fast online graph clustering via erdos-renyi mixture.Pattern Recognition, 41(12) :3592–3599, December 2008.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 68 / 68