presentation tisic 2011

Post on 12-Jul-2015

3.960 Views

Category:

Education

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Presentation de quelques methodes et applications declustering de graphes

Etienne Come,etienne.come@ifsttar.fr

8 Decembre 2011

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 1 / 68

Outline

1 IntroductionGraphesProblematique de la recherche de communaute

2 Clustering de graphes, quelques methodesModele de melange d’Erdos RenyiMaximisation de la modulariteClustering spectral

3 Extraction locale de communauteProblematiqueSolutions existantesNoise cluster modelExperimentation : extraction de communautes de blogs

4 Clustering hierarchique / multi-echellesProblematiqueClustering spectral sur graphes orientesExtension hierarchiqueExperimentation : Identification d’aires urbaines

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 2 / 68

Introduction Graphes

Introduction, graphes

Graphe

Deux elements G = {V ,E} :

I V : nœuds ou sommets

I E : liens, arcs (oriente) ou aretes (non-oriente)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 3 / 68

Introduction Graphes

Introduction, graphes

Plusieurs representations

I Matrice d’adjacence A :

A :

{Aij = 1, si i ∼ j

Aij = 0, sinon.

I liste d’adjacence

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 4 / 68

Introduction Graphes

Introduction, graphes

Plusieurs variationsI oriente / non oriente

I value / non value

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 5 / 68

Introduction Graphes

Introduction, graphes

Plusieurs variationsI oriente / non oriente

I value / non value

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 6 / 68

Introduction Graphes

Introduction, graphes

Plusieurs variationsI oriente / non oriente

I value / non value

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 7 / 68

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 8 / 68

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 9 / 68

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 10 / 68

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

−8 −6 −4 −2 0 2 4 6 8−6 −4 −2 0 2 4 6 8 10

−8

−6

−4

−2

0

2

4

6

8

1234

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 11 / 68

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

100 200 300 400 500 600 700 800 900 1000

100

200

300

400

500

600

700

800

900

1000

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 12 / 68

Introduction Graphes

Introduction, graphes

Beaucoup de domaines d’application

I reseaux routiers, biologiques, sociaux, ....

I analyse de donnees dans Rp en utilisant un noyau Gaussien ou k−ppv

I ...

100 200 300 400 500 600 700 800 900 1000

100

200

300

400

500

600

700

800

900

1000

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 13 / 68

Introduction Problematique de la recherche de communaute

Problematique

”A community could be loosely described as a collection of vertices withina graph that are densely connected amongst themselves while beingloosely connected to the rest of the graph.”

I regrouper les nœuds d’un graphe dans differents groupes ou clusters⇒ de maniere a ”maximiser la connectivite intra-cluster et/ouminimiser la connectivite inter-cluster”.

I Rmq : le nombre de clusters peut etre connu ou inconnu.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 14 / 68

Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi

Modele de melange d’Erdos Renyi

Variables :I Xij ∈ {0, 1} variable binaire encodant la presence ou l’absence d’un

liens entre i et j :

xij =

{1, si il existe un liens entre i et j

0, sinon.(1)

I Zj ∈ {1, . . . ,K} sont des variables latentes, decrivant l’appartenancede j a un des K clusters possibles :

zj = k , si j appartient au cluster k . (2)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 15 / 68

Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi

Modele de melange d’Erdos Renyi

Modele generatif :

1 tirer le groupe de chaque noeud suivant les proportions γ

2 ajouter un lien entre i et j avec une probabilite πkl si i appartient aucluster k et j appartient au cluster l .

Zji .i .d∼ M(1, γ), ∀j ∈ {1, . . . ,N} (3)

Xij |Zi = k ,Zj = li .i .d∼ B(πkl), ∀i , j ∈ {1, . . . ,N}, (4)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 16 / 68

Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi

Modele de melange d’Erdos Renyi

Parametres :I γ : proportions, exemple γ = (0.1, 0.2, 0.6, 0.1)

I π : matrice de liens, exemple :

π =

0.1 0.01 0.01 0.005

0.005 0.2 0.01 0.010.005 0.001 0.1 0.010.005 0.001 0.01 0.3

.

Recherche de communaute :

π =

α1 ε ε εε α2 ε εε ε α3 εε ε ε α4

,

avec α >> ε.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 17 / 68

Clustering de graphes, quelques methodes Modele de melange d’Erdos Renyi

Modele de melange d’Erdos Renyi

Optimization :

Strategie alternee de type EM...! mais probleme plus complique que EM classique (pas d’independanceconditionnellement aux donnees observees)

I approche variationnelle

I CEM, online CEM

I ...

Remarques

I permet une modelisation assez fine (pas limite a la recherche decommunaute)

I k doit etre fixe ou choisi par balayage

I assez lourd en temps de calcul (difficile de traiter des gros graphes)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 18 / 68

Clustering de graphes, quelques methodes Maximisation de la modularite

Maximisation de la modularite

Definition du critere

La modularite Q est egale a la somme des connectivites intra-clustermoins la connectivite intra-cluster attendue sous hypothese uniforme.

Q =∑i 6=j

(Aij −kikj

m)δ(zi , zj),

avec ki =∑N

j=1 Aij le degre du nœud i et m =∑N

j=1 kj , zi le numero decluster du noeud i et δ la fonction de Kronecker.

Remarques

I permet de travailler sans un nombre de clusters predefini.

I assez leger en temps de calcul.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 19 / 68

Clustering de graphes, quelques methodes Maximisation de la modularite

Maximisation de la modularite

Optimisation

I Recuit Simule

I Optimisation gloutonne Louvain

I ...

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 20 / 68

Clustering de graphes, quelques methodes Clustering spectral

Clustering spectral recursif sur graphe oriente/value

L, matrice Laplacienne (graphes non orientes) :

L = D − A (5)

! f tLf =∑

i∼j(fi − fj)2 (Mesure de regularite de f sur L)

L, matrice Laplacienne normalisee (graphes non orientes) :

L = D−1/2LD−1/2 = I − D−1/2AD1/2 (6)

Proprietes :

1 L et L etant symetriques, leurs valeurs propres sont reelles et nonnegatives.

2 0 = λ0 <= λ1 <= ... <= λn−1.

3 Nombre de composante connexe de G = multiplicite de la valeurpropre 0.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 21 / 68

Clustering de graphes, quelques methodes Clustering spectral

Definitions : coupe S , volume vol , ...

Coupe

S

S

I Coupe :V = {S ∪ S} (7)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 22 / 68

Clustering de graphes, quelques methodes Clustering spectral

Definitions : coupe S , volume vol , ...

Coupe

S

S

I Volume d’un noeud :vol v =

∑u

Av ,u (8)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 23 / 68

Clustering de graphes, quelques methodes Clustering spectral

Definitions : coupe S , volume vol , ...

Coupe

S

S

I Volume d’un ensemble de noeuds :

vol S =∑v∈S

vol v (9)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 24 / 68

Clustering de graphes, quelques methodes Clustering spectral

Definition : coupe S , volume vol , ...

Coupe

S

S

I Volume d’une coupe :

vol δS =∑

u∈S ,v∈S

Au,v (10)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 25 / 68

Clustering de graphes, quelques methodes Clustering spectral

Criteres de coupes

Ration Cut :

RatioCut(S , S) =vol δS

|S |.|S |, (11)

ou |S | et |S | sont respectivement les nombres de sommets de S et de S .Le probleme de minimisation pour trouver la solution approximee se resouta partir de la matrice laplacienne L et de son second plus petit vecteurpropre(cf. [HK92]).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 26 / 68

Clustering de graphes, quelques methodes Clustering spectral

Criteres de coupes

Conductance ou constante de Cheeger :

φG (S) =vol δS

min(vol S , vol S)(12)

On peut aussi definir la conductance d’un graphe :

φG = minS⊂V

φG (S) (13)

Inegalite de cheeeger :

φ2G

2≤ λ1 ≤ 2φG (14)

Ces inegalites permettent de considerer la solution relachee obtenue apartir de la matrice laplacienne normalisee, comme le montre Chung dans[Chu07].

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 27 / 68

Clustering de graphes, quelques methodes Clustering spectral

Criteres de coupes

Normalized Cut :

ncut(S) = vol δS(1

vol S+

1

vol S) (15)

La solution relachee de la minimisation de ce critere se trouve a partir dela matrice laplacienne normalisee L et de son second plus petit vecteurpropre (cf. [SM00]).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 28 / 68

Clustering de graphes, quelques methodes Clustering spectral

Algorithme de recherche coupe optimale

1 Calcul de la matrice L ou L du graphe G (on suppose ici que legraphe est fortement connexe)

2 Calcul du vecteur propre v1 associe a la seconde plus petite valeurpropre λ1

3 Tri du vecteur v1 pour obtenir une permutation p de la matrice L ou L4 Calcul du critere de coupe sur chaque coupe possible de la matrice Lp

ou Lp apres permutation

5 Choix de la coupe I qui minimise le critere parmi les n − 1 coupespossibles

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 29 / 68

Extraction locale de communaute

Extraction locale de communaute

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 30 / 68

Extraction locale de communaute Problematique

Introduction

Motivations Extraction de communauteI Extraire une communaute en partant d’un ensemble de graines

I Algorithme ”On line”, complexite ∼ taille de la communaute

Solution : Noise cluster modelI Modele generatif simple

I Une communaute environnee par du bruit

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 31 / 68

Extraction locale de communaute Problematique

Introduction, (exemple jouet)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 32 / 68

Extraction locale de communaute Problematique

Introduction, (graphe clustering)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 33 / 68

Extraction locale de communaute Problematique

Introduction, (graines)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 34 / 68

Extraction locale de communaute Problematique

Introduction, (extraction d’une communaute)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 35 / 68

Extraction locale de communaute Problematique

Introduction, (community extraction)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 36 / 68

Extraction locale de communaute Problematique

Avantages

I les graines permettent d’avoir un focus pour analyser le graphe

I meilleure complexite

I exploration du graphe complet evitee

I moins de probleme avec des tailles de communautes differentes

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 37 / 68

Extraction locale de communaute Solutions existantes

Solutions existantes au probleme de l’extraction

Bagrow & al [BB05]

I Parcours en largeur d’abord du graph en partant d’une graine ;

I jusqu’a ce que le taux d’expansion tombe en-dessous d’un seuilpredefini. (i.e. la proportion de liens trouves au niveau courant qui nemenent pas a des noeuds deja connus)

ProblemesI Uniquement une graıne

I Tous les noeuds d’un niveau sont inclus.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 38 / 68

Extraction locale de communaute Solutions existantes

Solutions existantes au probleme de l’extraction

Clauset [Cla05]

I optimisation gloutonne a partir d’une graine d’un critere ”modularitelocale” Qloc ;

I frontiere B : ensemble des noeuds ayant un voisin encore inconnu ;

I ”modularite locale” : nombre de liens entre B et l’ensemble desnoeuds connus C diviser par le nombre total de liens ayant au moinsune extremite dans B.

Qloc =

∑i∈C,j∈B Bij +

∑i∈B,j∈C Bij∑

i ,j Bij, (16)

avec Bij = 1 si i j et l’un ou l’autre des noeuds appartient a B.

ProblemesI Ne peut prendre en compte qu’une graıne

I definition et choix du critere d’arret

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 39 / 68

Extraction locale de communaute Solutions existantes

Solutions existantes au probleme de l’extraction

Autres solutionsI [AL06] marche aleatoire et conductance

I [SG10] optimisation combinatoire

ProblemeI complexite depend de la taille du graphe.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 40 / 68

Extraction locale de communaute Noise cluster model

Noise cluster model

Definition du modele

Zii .i .d∼ B(γ), ∀i ∈ {1, . . . ,N}, (17)

Xij |Zi × Zj = 1i .i .d∼ B(α), ∀i , j ∈ {1, . . . ,N}, (18)

Xij |Zi × Zj = 0i .i .d∼ B(β), ∀i , j ∈ {1, . . . ,N}, (19)

avec zi = 1, si i appartient a la communaute et 0 sinon.

π =

(α ββ β

),

avec α >> β.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 41 / 68

Extraction locale de communaute Noise cluster model

Notations :I Taille de la communaute :

Nc =∑

i

zi

I Degres :

d inj =

∑i :zi =1

xij , doutj =

∑i :zi =1

xji , dj =∑

i :zi =1

(xij + xji )

I Probabilite a posteriori :

pinj = P(Zj = 1|Xij = xij ,Zi = zi , ∀i ∈ {1, . . . ,N}),

poutj = P(Zj = 1|Xji = xji ,Zi = zi , ∀i ∈ {1, . . . ,N}),

pin,outj = P(Zj = 1|Xij = xij ,Xji = xji ,Zi = zi , ∀i ∈ {1, . . . ,N}),

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 42 / 68

Extraction locale de communaute Noise cluster model

Simplifications :

Avec ce modele les probabilites a posteriori se simplifient :

I parametres (α, β, γ) ;

I nombre de liens avec la communaute (d inj , d

outj , d in,out

j ) ;

I taille de la communaute (Nc) ;

Exemple pour pinj

pinj =

αd inj × (1− α)(Nc−d in

j ) × γαd in

j × (1− α)(Nc−d inj ) × γ + βd in

j × (1− β)(Nc−d inj ) × (1− γ)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 43 / 68

Extraction locale de communaute Noise cluster model

Test d’appartenance a la communaute

Test d’appartenance a la communaute : seuil sur le nombre de liens avecles membres de la communaute.

{pinj > s} ⇔ {d in

j > dmin}, (20)

with

dmin =

⌊log(s × (1− β)Nc × (1− γ)

)− log

((1− s)× (1− α)Nc × γ

)log (α× (1− β))− log ((1− α)× β)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 44 / 68

Extraction locale de communaute Noise cluster model

● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 10 20 30 40 50

0.0

0.4

0.8

alpha=0.1,beta=0.001,gamma=0.05,Nc=200

din

pc

0 100 200 300 400

24

68

10

alpha=0.1,beta=0.001,gamma=0.05

Nc

dmin

Fig.: (haut) valeur de pinj en fonction de d in

j avec α = 0.1, β = 0.001, γ = 0.05et Nc = 200 ; (bas) evolution du seuil dmin par rapport a Nc avec α = 0.1,β = 0.001, γ = 0.05 et s = 0.5.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 45 / 68

Extraction locale de communaute Noise cluster model

Apprentissage des parametres ”CEM on line”[ZAM08]

Vraisemblance classifiante :

Lc(X,Z, θ) =∑

i

zi log(γ) +∑

i

(1− zi ) log(1− γ)

+∑

i ,j :i 6=j

zi × zj × xij log(α) +∑

i ,j :i 6=j

zi × zj(1−×xij) log(1− α)

+∑

i ,j :i 6=j

(1− zi × zj)× xij log(β) +∑

i ,j :i 6=j

(1− zi × zj)× (1− xij) log(1− β)

avec Z = {z1, . . . , zN}, X = {xij : i 6= j , i , j ∈ {1, . . . ,N}}, et θ = (γ, α, β)le vecteur de parametres.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 46 / 68

Extraction locale de communaute Noise cluster model

Apprentissage des parametres ”CEM on line”[ZAM08]

Si la partition Z = {z1, . . . , zN} est connue, les parametres maximisant lavraisemblance classifiante sont donnees par :

γ =Nc

N, (21)

α =1

N2c

N∑i ,j=1, i 6=j

(zi × zj)xij , (22)

β =1

Nc × (N + Nc)

N∑i ,j=1, i 6=j

(1− zi × zj)xij , (23)

avec Nc = N − Nc .

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 47 / 68

Extraction locale de communaute Noise cluster model

Procedure d’extraction proposee

Algorithme

Couple un algorithme de parcours de graphe en largeur (en partant desgraines) avec la procedure suivante,Pour chaque noeuds traverse :

1 utiliser le test d’appartenance definit precedemment (20) pourl’ajouter ou non a la communaute

2 mettre a jour les parametres (21, 22, 23), en utilisant la partitioncourante

Jusqu’a ce qu’aucun noeud ne passe le test d’appartenance.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 48 / 68

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Experimentation : extraction de communautes de blogs

Protocole :I crawler multi-thread utilisant l’algorithme precedent ;

I graınes : classement de blogs pour differentes categories ( URLshttp ://www.wikio.com)

I 100 ou 50 graines pour 4 communautes test :

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 49 / 68

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Extraction de communautes de blogs

Illustration (fr) Scrapbooking (fr) Cuisine(fr) Politics (en)

α 0.01829 0.02955 0.03846 0.02004

β 0.00094 0.00232 0.00209 0.00068

β/α 0.05139 0.07851 0.05434 0.03393Nc 1 360 701 622 1 808N 37 101 13 467 16 364 84 702dia 8 8 6 7apl 3.059 2.749 2.71 3.014

Tab.: Parametres estimees α, β et statistiques descriptives des communautesextraites : dia diametre, apl longueur moyen des chemin entre membres de lacommunaute.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 50 / 68

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Extraction de communautes de blogs

Community Precision Vocabulary extracted

Illustration (fr) 99% (animation 34.37%, drawing 28.96%,illustration 25.30%, sketches 24.55%,world 20.31%,...)

Scrapbooking (fr) 98% (scrap 84.16%, scrapbooking 58.24%,tampons 47.71%, scrapper 29.58%,embellissements 22.53%,...)

Cooking (fr) 100% (cuisine 83.72%, recettes 79.45%, re-cette 73.81%, chocolat 68.73%, sucre64.14%,...)

Politics (en) 96% (senate 28.78%, conservatives21.12%, pundit 20.11%, terrorism19.76%, congressional 19.25%,...)

Tab.: Analyse du contenue. Precision evaluee sur 100 blogs au hasard,vocabulaire representatif de la communaute.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 51 / 68

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Illustration (fr).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 52 / 68

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Scrapbooking (fr).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 53 / 68

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Cuisine (fr).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 54 / 68

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Cuisine (fr).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 55 / 68

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Politics (en).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 56 / 68

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Fig.: Politics (en).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 57 / 68

Extraction locale de communaute Experimentation : extraction de communautes de blogs

Conclusion

ConclusionI approche gloutonne simple ;

I complexite ∼ taille de la communaute ;

I extraction de communautes de blogs

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 58 / 68

Clustering hierarchique / multi-echelles

Clusteringhierarchique / multi-echelles

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 59 / 68

Clustering hierarchique / multi-echelles Problematique

Problematique

Introduction

Analyse de graphe presentant differentes echelles d’analyse pertinentes :Regionales, Aire urbaines, ...

Piste etudiee

Mise en relation des poles urbains elementaires grace a des donneesrelatives au transport :

I flux (domicile-travail/ecole et autres)

I infrastructures (transports en commun et individuels)

Traitement sous forme de graphe, aspect multi-echelle et hierarchique.Recherche de communautes, clustering de graphe :

I clustering spectral recursif [Gleich06,Chung05]

I maximisation de la modularite hierarchique [Newman04]

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 60 / 68

Clustering hierarchique / multi-echelles Clustering spectral sur graphes orientes

Extension aux graphes orientes

Matrice laplacienne normalisee dirigee :

L = L(G ) = I − 1

2(Π1/2PΠ−1/2 + Π−1/2PΠ1/2), (24)

ou P est la matrice de transition associe a G ; Π est la matrice diagonaleformee par π la distribution stationnaire de la marche aleatoire.

Avantages :

I extension des notions de coupe, volumes ...

I permet de se ramener a une matrice symetrique

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 61 / 68

Clustering hierarchique / multi-echelles Extension hierarchique

Extension aux graphes orientes

Algorithme de clustering hierarchique

1 Calcul de la matrice laplacienne dirigee L du graphe G

2 Separation de G en composantes connexes et application des etapessuivantes sur chaque composante

3 Calcul du vecteur propre v1 associe a la seconde plus petite valeurpropre

4 Tri du vecteur v1 pour obtenir une permutation p1 de la matrice L5 Calcul du critere ncut, ou ϕ sur la matrice Lp1 apres permutation

6 Choix de la coupe I qui minimise le critere choisi sur Lp1

7 Application recursive des etapes 2 a 7 sur les partitions engendreespar la coupe I , tant que les partitions obtenues sont de taillesuperieure a p (la taille minimale definie initialement).

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 62 / 68

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

Experimentation : Identification d’aires urbaines

Donnees

Matrice OD (domicile/travail, INSEE) = Graphe oriente value.37 948 communes=communes, 1 560 058 arcs.

Fig.: Matrice d’adjacence ordonnee aleatoirement.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 63 / 68

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

Experimentation : Identification d’aires urbaines

Donnees

Matrice OD (domicile/travail, INSEE) = Graphe oriente value.37 948 communes=communes, 1 560 058 arcs.

Fig.: Matrice d’adjacence ordonnee par clustering spectral.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 64 / 68

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

Experimentation : Identification d’aires urbaines

Région Nord-Est de la France :

Champagne-ArdenneAlsaceLorraineFranche-Comté(+département de l'Aisne)

Flux transfrontaliers :Belgique, Luxembourg,Allemagne, Suisse

Fig.: Imbrication des structures de communes sur la matrice WS apres permutation.

Premier niveau : cluster de communes du Nord-Est de la France

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 65 / 68

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

Experimentation : Identification d’aires urbaines

Région Est de la France :AlsaceFranche-Comté(+départements Haute-Marneet Vosges)

Flux transfrontaliers :Allemagne, Suisse

Fig.: Imbrication des structures de communes sur la matrice WS apres permutation.

Deuxieme niveau : cluster de communes de l’Est de la France (zoom sur le 1er niveau)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 66 / 68

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

Experimentation : Identification d’aires urbaines

Régions Est :Centrée certaines communes du Doubs :

Cantons de Morteau, Montbenoit,Russey, Vercel, Pierrefontaine les Varans,Clerval

Et de certaines communes Suisseau Nord de Neuchâtel

Fig.: Imbrication des structures de communes sur la matrice WS apres permutation.

Troisieme niveau : cluster de communes du Doubs (zoom sur le 2eme niveau)

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 67 / 68

Clustering hierarchique / multi-echelles Experimentation : Identification d’aires urbaines

R. Andersen and K. Lang.Communities from seed sets.In Proceedings of the 15th International Conference on World Wide Web, pages 223–232.ACM Press, 2006.

J.P. Bagrow and E.M. Bollt.A local method for detecting communities.Phys Rev E Stat Nonlin Soft Matter Phys, 72(4) :046108, 2005.

F. Chung.Four proofs for the cheeger inequality and graph partition algorithms.In Proceedings of ICCM, volume 2, pages 751–772, 2007.

A. Clauset.Finding local community structure in networks.Phys Rev E Stat Nonlin Soft Matter Phys, 72(2) :026132, 2005.

L. Hagen and A.B. Kahng.New spectral methods for ratio cut partitioning and clustering.11(9) :1074–1085, 1992.

M. Sozio and A. Gionis.The community-search problem and how to plan a successful cocktail party.In Proceedings of the 16th ACM SIGKDD Conference On Knowledge Discovery and DataMining (KDD), pages –, 2010.

J. Shi and J. Malik.Normalized cuts and image segmentation.22(8) :888–905, 2000.

H. Zanghi, C. Ambroise, and V. Miele.Fast online graph clustering via erdos-renyi mixture.Pattern Recognition, 41(12) :3592–3599, December 2008.

Come, E. (IFSTTAR) Clustering de graph 8 Decembre 2011 68 / 68

top related