afcm_ jahidi

21
1 ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPOLES : A.F.C.M. Objectifs de l’A.F.C.M Objectifs de l’A.F.C.M est de mettre en évidence : Les similitudes entre les modalités des variables : carte des variables. Les proximités entre les individus : carte des individus. Les liens entre les individus et les modalités des variables. Intérêt de l’A.F.C.M Son Intérêt est de : Tenir compte de l’aspect multidimensionnel des données Très adaptées au dépouillement des questionnaires. Analyse de plusieurs variables nominales. Mise en relation des thèmes d’un questionnaire Les données Tableau : Individus X Variables Qualitatives Avec - x ijl = 1 si l’individu i choisi la modalit l de la variable X j = 0 sinon,

Upload: amine-bentalleb

Post on 01-Jul-2015

344 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: AFCM_ jahidi

1

ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPOLES :

A.F.C.M. Objectifs de l’A.F.C.M Objectifs de l’A.F.C.M est de mettre en évidence :

‐ Les similitudes entre les modalités des variables : carte des variables. ‐ Les proximités entre les individus : carte des individus. ‐ Les liens entre les individus et les modalités des variables.  

Intérêt de l’A.F.C.M Son Intérêt est de :

‐ Tenir compte de l’aspect multidimensionnel des données ‐ Très adaptées au dépouillement des questionnaires. ‐ Analyse de plusieurs variables nominales.   

Mise en relation des thèmes d’un questionnaire

Les données Tableau : Individus X Variables Qualitatives

Avec - xijl= 1 si l’individu i choisi la modalit l de la variable Xj = 0 sinon,

Page 2: AFCM_ jahidi

2

- m nombre de variables observées - n nombre d’individus. La variable Xj possède pj modalités et p=Σ pj est le nombre total de modalités.. Principe :

‐ Réduction de l’espace de représentation des individus ‐ Réduction de l’espace de représentation des modalités des variables. 

Algorithme : ‐ Réaliser une ACP sur les profils lignes du tableau disjonctif complet (individus) ‐ Réaliser une ACP sur les profils colonnes du tableau disjonctif complet (modalités) ‐ Étudier le lien entre les deux ACP. 

En utilisant les mêmes notations que l’AFC il vient que Profils lignes associés à l’individu i : Profils colonnes associés à la modalité l de la variable Xj : Profils lignes marginaux : Profils colonnes marginaux :

nmn

ff

nnmx

f

nmx

f

nmk

jln

iijljl

m

j

p

l

ijli

ijlijl

j

==

==

=

=

∑∑

=

= =

1.

1 1.

1

{ }{ }

2

..1 .

2

2.

)(1),(

dansdu métrique la deet ,......,

poids des munis ,......, colonnes profils des nuage )(

st

ist

jl

ijln

i i

stI

jlI

njl

jlI

ff

ff

fffd

Rf

fJN

−=

=

∑=

χ

,...)(..., ,...)(...,. m

xff

f ijl

i

ijliJ ==

,...)(..., ,...)(...,. jl

ijl

jl

ijljlI n

xff

f ==

,...)(...,,...)(..., . nmn

ff jljlJ ==

,...)1

(...,,...)(..., . nff iI ==

{ }{ }

2

..1 .1

2

2.

)(1),(

dansdu métrique la deet ,......,

poids des munis ,......, lignes profils des nuage )(

k

kjl

i

ijlp

l jl

m

j

kJ

iJ

pi

iJ

ff

ff

fffd

Rf

fIN

j

−=

=

∑∑==

χ

Page 3: AFCM_ jahidi

3

Propriétés du nuage N(I) Distance du profil-ligne au centre de gravité Ainsi plus un individu possède des modalités rares, plus il est loin du centre de gravité du nuage N(I). L’inertie totale du nuage s’écrit Propriétés du nuage N(J) La distance du profil-colonne au centre de gravité s’écrit Ainsi un profil-colonne est d’autant plus éloigné du centre de gravité que son effectif est faible. La contribution de Xj à l’inertie totale vaut (pj -1)/m. Elle est d’autant plus élevée que le nombre de modalités de la variable Xj est élevé. Il est préférable en AFCM d’utiliser des variables ayant le même nombre de modalités. L’inertie totale du nuage s’écrit ACP des nuages N(I) et N(J) Les axes principaux du nuage N(I) (respectivement N(J)) Les axes principaux Δ1,..., Δρ (resp. Φ1,..., Φρ) passent par le centre de gravité fJ ( resp. fI) et sont portés par les vecteurs propres u1,…,ur (resp.v1,…,vr ) de la matrice A (resp.B ) associé aux valeurs propres λ1,..., λρ rangées par ordre décroissant. Remarque : r est au plus égal à p-m. On ne retient donc un axe factoriel que si la valeur propre associée est supérieure à 1/m (moyenne des p-m valeurs propres). La matrice A est de terme général (Resp. la matrice B est de terme général ) Les composantes principales Les composantes F1,…,Fr (resp. G1,…,Gr ) sont les coordonnées des projections des profils lignes (resp. colonnes ) sur les axes Δ1,..., Δρ(resp. Φ1,..., Φρ)..

.11

' .'.

'

i

p

lffff

m

jii fb

j

jli

jliijl −= ∑∑==

iJf Jf

1),(11

2 −= ∑∑== jl

ijlp

l

m

jJ

iJ n

xmnffd

j

1)),(( −=mpfINI J

jlIf If

1),(2 −=jl

Ijl

I nnffd

1)),(( −=mpfINI J

jl

n

iffff

ljlj falji

lijijl

.1

'' ''..

'' −= ∑=

Page 4: AFCM_ jahidi

4

Propriétés Les composantes principales sont centrées de variance λh et sont non corrélées entres elles. Taux d’inertie Le taux d’inertie associé à l’axe h définie par est majoré par . On remarque que plus le nombre de modalités des questions est important plus le taux d’inertie associé aux axes est faible. On ne peut donc ici appliquer les résultats de l’AFC sur tableau de contingence. Deux attitudes peuvent être adoptées :

- Concentrer l’analyse sur le premier plan principale. - Retenir les axes pour lesquels il est possible d’établir une interprétation claire et

constructive.

Interprétation des axes factoriels Elle se base sur les modalités à forte contribution selon les règles suivantes :

- On classe les modalités par contribution décroissante et partant des premières on extrait assez de modalités de rangs consécutifs pour que la somme des contributions soit comprise entre 50% et 80%. 

- On prend en compte que les modalités dont la contribution est supérieure à 1/p. 

La contribution de la modalité jl à la composante Gh vaut On en déduit la contribution de la variable Xj à la composante Gh qui vaut Distance entre modalités La distance entre les modalités jl et ts s’écrit : On en déduit :

- 2 modalités sont confondues lorsque tous les individus qui ont choisi une modalité ont choisi l’autre. 

- 2 modalités sont proches lorsqu’ elles ont été fortement associées. Cette proximité est renforcée lorsque ces modalités ont été choisies par un grand nombre d’individus. 

- 2 modalités sont éloignées lorsqu’elles ont été très peu associées. Cette distance est renforcée lorsque ces modalités sont rares. 

mmp

h−

λmp

m−

h

hjlh nm

jlGnjlCTR

λ)(

)(2

=

)()(1

jlCTRjCTRjp

lhh ∑

=

=

2

1

2 )(),(ts

itsn

i jl

ijltsI

jlI n

xnx

nffd −= ∑=

Page 5: AFCM_ jahidi

5

Distance entre profils colonnes exprimé en fonction des composantes La distance entre deux modalités jl et ts s’écrit aussi La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils exprimée en fonction des composantes. Distance entre individus La distance entre deux individus i et k s’écrit On en déduit

- 2 individus sont d’autant plus éloignés que sont nombreuses les modalités pour lesquelles ils ont fait des choix opposés. Un individu est d’autant plus éloigné des autres individus qu’il a opté pour des modalités rares 

- 2 individus sont d’autant plus proches que sont nombreuses les modalités pour lesquelles ils ont fait les mêmes choix. Leur proximité est renforcée lorsque les modalités pour lesquelles ils ont fait des choix opposés ont des fréquences élevées 

Distance entre profils lignes exprimé en fonction des composantes La distance entre deux individus i et l s’écrit aussi La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils exprimée en fonction des composantes. Relations de transition On a les deux relations de transition suivantes :

scomposante de nombre

))()((),( 2

1

2

=

−= ∑=

r

tsGjlGffd hh

r

h

tsI

jlI

2

11

2 )(),( kjlijl

p

l jl

m

j

kJ

iJ xx

nnffd

j

−= ∑∑==

scomposante de nombre

))()((),( 2

1

2

=

−= ∑=

r

lFiFffd hh

r

h

lJ

iJ

)(

)()(

1 1

11

1 1

1.

jlGx

jlGiF

m

jhijl

p

lm

m

jhf

fp

lh

j

h

i

ijlj

h

∑∑

∑∑

= =

= =

=

=

λ

λ

)(

)()(

1

11

1

1.

iFx

iFjlG

n

ihijln

n

ihf

fh

jlh

jl

ijl

h

=

=

=

=

λ

λ

Page 6: AFCM_ jahidi

6

A près - Fh(i) est au barycentre des Gh(jl) pour l’ensemble des modalités jl caractérisant l’individu 

i.  - Gh(jl) est au barycentre des Fh(i) pour l’ensemble des individus i possédant la modalité jl.  

Indice d’attraction répulsion Il s’écrit Il est d’autant plus élevé que l’individu i possède une modalité jl rare. Représentation graphique L’individu i est représenté par le point profil-ligne La modalité l de la de la variable j est représentée par le point profil-colonne La représentation graphique suivante résume les différentes situations rencontrées en AFCM

1 hλ

nnx

fff

djl

ijl

ji

ijij ==

..

))(),(( 21 iFiFAi =

))(),(( 21 jlGjlGBjl =

Page 7: AFCM_ jahidi

7

Page 8: AFCM_ jahidi

8

Analyse des correspondances multiples sous SPSS

On souhaite faire l’AFCM de plusieurs variables qualitatives X1, . . . , Xm. Les modalités de chaque variables Xj sont numérotées de 1 à pj et p représente le nombre total de modalités. Chaque variable est observée sur n individus.

• Les données en entrée dans SPSS ont donc la forme standard :

Individu X1 ... Xm Nom 2 … 3 Nom 1 … 4 Nom 3 … 1

Si les variables d’origine sont nominales, on les transforme en variables numériques à valeurs entières (1, 2, 3,. . .) via la commande Transformer > Recoder automatiquement...

Instruction : Analyse > Factorisation > Codage optimal...

Page 9: AFCM_ jahidi

9

Dans la fenêtre Codage optimal (Positionnement multidimensionnel), cocher - Niveau du codage optimal : Toutes les variables nominales multiples - Nombre de groupes de variables : Un seul afin de sélectionner l’analyse d’homogénéité 

(HOMALS). 

Faire passer les variables Xj et définir les intervalles de valeurs (1 à pj). Définir dans Dimension de la solution le nombre d’axes à retenir. Le nombre maximal étant p - m.

Page 10: AFCM_ jahidi

Option

-

- V- - - V

d- C

Option-  - C-  

d

Option Pnouvelle

ns - AffichFréquencesles quantifiValeurs proHistorique Mesures deValeurs affedes modalitCoordonnéPeu d’intérê(voir ci‐dess

ns - DiagrValeurs affCoordonnéMesures ddécrites ci‐d

ns - EnregPermet d’enes variables

her : s : affiche lecations. opres : afficdes itératioe discriminaectées aux tés de chaqées principaêt. Se limitesous). 

ramme fectées auxées principae discrimindessus. 

gistrer lesnregistrer les hom x_y o

es effectifs m

he la valeurons : peu d’ation : afficmodalités ue variableales : afficheer au diagra

x modalités ales : affichenation : repr

s coordones coordonnoù x est le n

marginaux. 

r propre (inintérêt. Ignhe la discrim: affiche le te dans les axe les coordoamme ou le

: graphiquee le diagramrésente gra

nnées prinnées des indinuméro de l’

Peu d’intér

ertie) assocorer. mination detableau desxes factorieonnées des s enregistre

e des modamme synthéphiquemen

ncipales ividus sur le’axe et y le

rêt car ils ap

ciée à chaqu

e chaque vas quantificatls. individus daer dans des 

lités dans letique des innt les mesur

es axes factnuméro de

pparaissent 

ue axe. 

ariable par ltions, coord

ans les axesvariables h

e plan factondividus. res de discr

toriels dans l’analyse.

10

aussi dans 

es axes. données 

s factoriels. om x_y 

oriel. 

imination 

de

0

 

Page 11: AFCM_ jahidi

11

Résultats

- Fréquences marginales   Tableau des fréquences marginales des modalités des variables. Permet de détecter des modalités ayant des effectifs trop faibles ou des variables ayant trop/pas assez de modalités.

 

- Historique des itérations  • L’algorithme HOMALS utilisé par SPSS pour l’AFCM procède par minimisation d’une

fonction de perte (Loss function) représentant la dispersion intra-individuelle. • L’ajustement LDN (Fit) correspond à la somme des valeurs propres calculées.

 - Valeurs propres  • Valeurs propres calculées. SPSS ne renvoie que le nombre de valeurs propres demandé et

non l’ensemble de la solution.

couleur

446

0

coulouicoulnonManquant

Effectifmarginal

design

29210

designouidesignnonManquant

Effectifmarginal

Page 12: AFCM_ jahidi

12

• Rappelons que la somme de toutes les valeurs propres est p/m - 1 et que le nombre maximal d’axes est p – m (nombre total de modalités moins nombre de variables).

  

- Mesure de discrimination  • La discrimination de Xj par l’axe correspond à la variance de la variable quantifiée

(par ses coordonnées sur les axes). Plus précisément

• La somme des discriminations des variables sur l’axe est égale à . • Elles permettent de déterminer quelles variables sont discriminées par quels axes. Cela

permet d’interpréter les axes.

Historique des itérations

,451673 ,000003Itération10a

AjustementLDN

Différencepar rapportà l'itérationprécédente

Le processus d'itération s'est interrompu carla valeur test de la convergence a été atteinte.

a.

Valeurs propres

,244,208

Dimension12

Valeur propre

Mesures de discrimination

,221 ,037,010 ,360,248 ,043,125 ,284,119 ,039,177 ,523,374 ,044,346 ,050,315 ,232,439 ,034,085 ,336,027 ,001,680 ,721

couleurdesigndynamiqueélégantespacefonctionnellefraicheurjeunemodeoriginalpauvresalariéprojet

1 2Dimension

()(),( ×==∑ jkj XCTRmnkGnXdiscr λλ λλ

Page 13: AFCM_ jahidi

13

Quantifications

Ce sont les coordonnées des projections de modalités de chaque variable sur le plan factoriel. On retrouve ces informations sur le graphique. Permet aussi de calculer les contributions des modalités sur les axes. La contribution d’une modalité k d’une variable Xj sur l’axe est où k représente une modalité de Xj, représente la coordonnée de la modalité k sur l’axe et nk l’effectif marginal de cette modalité.

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7

Dimension 1

0,0

0,2

0,4

0,6

0,8

Dim

ensi

on 2

couleur

design

dynamique

élégant

espace

fonctionnelle

fraicheurjeune

mode

original

pauvre

salarié

projet

Mesures de discrimination

couleur

4 1,593 -,65246 -,139 ,0570

coulouicoulnonManquant

Effectifmarginal 1 2

Dimension

Valeurs affectées auxmodalités

projet

8 1,465 1,49416 ,445 -1,04226 -,724 ,1810

écoles-hopitauxbureauxmaisons individuellesManquant

Effectifmarginal 1 2

Dimension

Valeurs affectées auxmodalités

Page 14: AFCM_ jahidi

14

Coordonnées principales

C’est le diagramme synthétique des individus. Chaque étoile/cercle représente un groupe d’individus. Le nombre de branches de chaque étoile est proportionnel au nombre d’individus représentés par le groupe.

-1 0 1 2

Dimension 1

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

Dim

ensi

on 2

couloui

coulnon

designoui

designnon

dynamiqoui

dynamiqnon

élégantoui

élégantnon

espaceoui

fonctoui

fonctnon

fraichoui

jeuneoui

jeunenon

modeoui

modenon

originaloui

pauvreoui

pauvrenon

non salarié

écoles-hopitaux

bureaux

couleurdesigndynamiqueélégantespacefonctionnellefraicheurjeunemodeoriginalpauvresalariéprojet

Quantifications

Page 15: AFCM_ jahidi

15

Ce diagramme est suffisant lorsque les individus sont anonymes. Sinon, il peut être complété par un diagramme de diffusion des variables hom x_y (en ayant coché Options - Enregistrer les coordonnées principales).

-2 -1 0 1 2 3 4

Dimension 1

-2

-1

0

1

2

Dim

ensi

on 2

Observations pondérées par le nombre d'objets.

Coordonées principales

-2,00 -1,00 0,00 1,00 2,00 3,00 4,00

Dimension 1

-2,00

-1,00

0,00

1,00

2,00

Dim

ensio

n 2

1

23

4

5

6

7

8

9

10

11

12

13

14

1516

17

18

19

20

21

22

23 24

25

2627

28

29

30

31

32

3334

35 36

37

38

39

40

41

42

43

44

45

46

47

4849

50

Page 16: AFCM_ jahidi

16

Analyse de l’AFCM

- Axes et valeurs propres  • Le nombre maximal d’axes est p - m (nombre total de modalités moins nombre de

variables), les valeurs propres (non triviales) sont inférieures à 1, la somme de toutes les valeurs propres est p/m - 1.

• À la différence de l’ACP et de l’AFC, les (parts d’) inerties expliquées ne sont plus interprétables et ne mesurent plus une qualité globale de représentation. On convient de conserver les axes correspondants aux valeurs propres supérieures à 1/m (1 sur le nombre de variables).

- Interprétation des axes   Chaque variable ayant un taux de discrimination par un axe suffisamment important (> 50 %) permet d’interpréter l’axe, les oppositions ou les progressions étant établies en fonction des coordonnées des modalités de ces variables sur l’axe.

- Interprétation des modalités   On interprète les proximités des modalités intra ou inter variables comme en AFC (en prenant donc garde à l’interprétation des proximités entre les modalités de différentes variables). Les positions des modalités en fonction du sens donné aux axes doivent aussi être interprétées. L’origine des axes (du nuage des modalités) représente le point correspondant au profil uniforme (sur les individus) (1/n, . . . , 1/n). C’est aussi le barycentre des modalités (pondérées) de chaque variable Xi. On peut donc interpréter l’origine des axes comme la « modalité moyenne » de chacune des variables.

- Cas des variables ordinales  Lorsqu’une variable est ordinale, il est souvent utile de joindre les points modalités. Lorsque plusieurs variables proviennent de la discrétisation de variables quantitatives, des «courbes » parallèles signifient une forte corrélation entre les variables alors que des courbes orthogonales révèlent une indépendance linéaire.

- Interprétation des individus   Finalement, on interprète la disposition des points individus par rapport au sens donné aux axes.

- Qualité de représentation des individus   Pour les individus, il existe une solution un peu lourde semblable à celle utilisée en ACP : Faire une AFCM en demandant le nombre maximal d’axes (q = p - m) et en enregistrant les variables. Calculer la norme des individus à l’aide de ces variables : norm² = (hom 1_1)² + (hom 2_1)² + · · · + (hom q_1)² Puis calculer les COS² et les QLT via les formules : COS²_ i = (hom i _1)² /norm² QLT = COS²_1 + COS²_2

Page 17: AFCM_ jahidi

17

AFCM via l’analyse des correspondances

Il est possible de faire une AFCM en effectuant une AFC du tableau disjonctif. Toutefois, SPSS ne gère pas directement de tels tableaux. Il faut donc transformer le tableau initial (plusieurs variables qualitatives) en un nouveau tableau ne contenant qu’une seule variable dont les modalités sont la réunion des modalités des variables initiales.

- Transformation des données   On suppose qu’on possède un tableau statistique sous la forme présentée précédemment et que les variables ont été recodées (en variables entières correspondant au numéro de la modalité). Utiliser la commande Données > Restructurer avec les options : – Restructurer les variables sélectionnées en observations – Un seul groupe de variables – Identification de groupes d’observations : Utiliser une variable sélectionnée en faisant passer la variable contenant le nom des individus (si individus anonymes, laisser utiliser un numéro d’observation) – Variables à transposer : faire passer toutes les variables qualitatives. (Conserver trans1 comme nom de variable cible.) – Créer Une variable d’index – Utiliser les noms de variable comme valeurs d’index.

Il faut ensuite regrouper les deux variables index1 et trans1 en une seule variable mod via la commande Transformer > Calculer... avec une formule du type : CONCAT( SUBSTR(index1,1,2) , STRING(trans1,F1.0) )

Page 18: AFCM_ jahidi

18

qui retourne la concaténation des 2 premiers caractères de la variable index1 et de la variable trans1 transformée en chaîne de caractères.

Avant de valider, mettre le type de la variable de destination à chaîne.

Page 19: AFCM_ jahidi

19

• Finalement, il reste à recoder la variable mod en une variable numérique mod_id via la commande Transformer > Recoder automatiquement...

Page 20: AFCM_ jahidi

20

Analyse des correspondances

Il est à présent possible de faire une analyse des correspondances des variables individus et mod_id via la commande Analyse > Factorisation > Analyse des correspondances. Demander l’affichage du Tableau des correspondances pour obtenir le tableau disjonctif. Utiliser une normalisation principale ou symétrique (pour un biplot). La méthodologie d’interprétation est identique à celle de l’AFC. La différence principale concerne les taux d’inertie expliquée qui sont largement sous-estimés en AFCM. On peut soit utiliser la règle des valeurs propres supérieures à 1/m ou utiliser les QLT des modalités pour estimer la qualité de l’analyse.

Comparaison avec l’AFCM directe Au signe près (orientation des axes), cette méthode doit amener des résultats proches de ceux obtenus via une AFCM directe (codage optimal), à condition d’utiliser une normalisation principale.

Limitations et avantages Lorsque les variables initiales ne sont pas ordinales numériques (i.e., les modalités des variables ne sont pas naturellement numérotées), la restructuration du tableau des données fait perdre les labels (étiquettes) associés aux modalités. Il faudra les recréer à la main. Les avantages sont évidents : d’une part la sortie de SPSS est complète (CTR, CO2, QLT), d’autre part il est possible de mettre des modalités ou des variables en points supplémentaires, permettant une analyse plus fine.

Page 21: AFCM_ jahidi

Nom du document : Document1 Répertoire : Modèle :

C:\Users\jahidi\AppData\Roaming\Microsoft\Templates\Normal.dotm

Titre : Sujet : Auteur : Utilisateur Windows Mots clés : Commentaires : Date de création : 11/01/2011 16:56:00 N° de révision : 1 Dernier enregistr. le : Dernier enregistrement par : Temps total d'édition : 0 Minutes Dernière impression sur : 11/01/2011 16:58:00 Tel qu'à la dernière impression Nombre de pages : 20 Nombre de mots : 2 669 (approx.) Nombre de caractères : 14 683 (approx.)