chapitre 4 : analyse factorielle des correspondancesbeveraggi.free.fr/afc/cours afc.pdf ·...

24
Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03 Chapitre 4 : Analyse factorielle des correspondances binaires Objet – L’analyse Factorielle des Correspondances ou AFC constitue une technique d'analyse statistique d'un ou de plusieurs tableaux de contingences permettant une représentation graphique des attractions et des distances entre les modalités des variables choisies. L’analyse factorielle des correspondances (AFC) peut être considérée comme une extension de l’analyse en composantes principales (ACP). Elle est adaptée au traitement de données qualitatives sans restrictions fortes, son but répond à tout essai d’analyse d’un tableau formé par des observations qualitatives sur des individus ou des catégories. Ce chapitre sera scindé en deux sections : - 1. le tableau de contingences et la mesure des distances, - 2 l’analyse des correspondances binaires, Le chapitre 5 sera consacré à l’analyse des correspondances multiples quand les variables sont purement qualitatives. 1. Tableau de contingence et distances entre individus. 1.1 Définition du tableau de contingence. Le tableau de contingence 1 est un moyen particulier de représenter simultanément deux caractères 2 observés sur une même population, s'ils sont discrets ou bien continus et regroupés en classes. Les deux caractères sont X et Y, la taille de l'échantillon est n. Les modalités ou classes de X seront notées a 1 ,a 2 ,….a n , celles de Y sont notées b 1 ,b2,…b n . . Les données initiales sont sur une population, il existe donc une contrainte d’homogénéité du tableau, on étudie donc la répartition d’une population par rapport à deux critères qualitatifs de répartition soit en analyse économique par rapport à une nomenclature préétablie. On note : - ki,j l'effectif conjoint de a i et b j : c'est le nombre d'individus pour lesquels X prend la valeur ai et Y la valeur bj. Ainsi dans un tableau croisant catégories professionnelles (CSP) et diplômes, l’effectif conjoint peut représenter les professions intermédiaires possédant le DEUG. - k i. l'effectif marginal de ligne i : , , 1 p ij i j k k = . = 1 Pour un échantillon bidimensionnel discret, ou regroupé en classes, la table de contingence contient les effectifs conjoints des couples de modalités ou des couples de classes. Autrement dit l’observation x(i,j) est placé dans la case de colonne i et de ligne j du tableau de contingence car elle possède les deux modalités i et j comme caractéristique. 2 Pour recueillir une série statistique, on observe un ou plusieurs caractères sur les individus d'une population. 1

Upload: others

Post on 24-May-2020

21 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Chapitre 4 : Analyse factorielle des correspondances binaires Objet – L’analyse Factorielle des Correspondances ou AFC constitue une technique d'analyse statistique d'un ou de plusieurs tableaux de contingences permettant une représentation graphique des attractions et des distances entre les modalités des variables choisies.

L’analyse factorielle des correspondances (AFC) peut être considérée comme une extension de l’analyse en composantes principales (ACP). Elle est adaptée au traitement de données qualitatives sans restrictions fortes, son but répond à tout essai d’analyse d’un tableau formé par des observations qualitatives sur des individus ou des catégories. Ce chapitre sera scindé en deux sections : - 1. le tableau de contingences et la mesure des distances, - 2 l’analyse des correspondances binaires, Le chapitre 5 sera consacré à l’analyse des correspondances multiples quand les variables sont purement qualitatives. 1. Tableau de contingence et distances entre individus. 1.1 Définition du tableau de contingence. Le tableau de contingence1 est un moyen particulier de représenter simultanément deux caractères2 observés sur une même population, s'ils sont discrets ou bien continus et regroupés en classes. Les deux caractères sont X et Y, la taille de l'échantillon est n. Les modalités ou classes de X seront notées a1,a2,….an, celles de Y sont notées b1,b2,…bn. . Les données initiales sont sur une population, il existe donc une contrainte d’homogénéité du tableau, on étudie donc la répartition d’une population par rapport à deux critères qualitatifs de répartition soit en analyse économique par rapport à une nomenclature préétablie. On note : - ki,j l'effectif conjoint de ai et bj : c'est le nombre d'individus pour lesquels X prend la valeur ai et Y la valeur bj. Ainsi dans un tableau croisant catégories professionnelles (CSP) et diplômes, l’effectif conjoint peut représenter les professions intermédiaires possédant le DEUG. - ki. l'effectif marginal de ligne i :

, ,1

p

i j ij

k k=

.=∑

1 Pour un échantillon bidimensionnel discret, ou regroupé en classes, la table de contingence contient les effectifs conjoints des couples de modalités ou des couples de classes. Autrement dit l’observation x(i,j) est placé dans la case de colonne i et de ligne j du tableau de contingence car elle possède les deux modalités i et j comme caractéristique.

2 Pour recueillir une série statistique, on observe un ou plusieurs caractères sur les individus d'une population.

1

Page 2: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

c'est le nombre d'individus pour lesquels X prend la valeur i , soit poursuivant notre exemple l’ensemble des effectifs de professions intermédiaires pour tous les diplômes.

- k.j l'effectif marginal de colonne j : c'est le nombre d'individus pour lesquels Y

prend la valeur j , soit poursuivant notre exemple l’ensemble des diplômés de niveau DEUG pour toutes les CSP.

, .,1

n

i j ji

k k=

=∑

On représente ainsi ces différentes valeurs dans un tableau à double entrée, dit tableau de contingence.

X / Y

b1 … bj … bp Total

a1 k1,1 … k1,j … k1,p

k1,.

… ... ... ... ... ... ... ai k i,1 ... ki,j ... ki,p ki,.

… … … … … … … an kn,1 … kn,j ... kn,p k n,.

Total k.,1 … k.,j … k.,p k.,.

Chaque ligne et chaque colonne correspond à un sous-échantillon particulier. La ligne d'indice i est la répartition sur les p caractères des individus pour lesquels le caractère X prend la valeur ai. La colonne d'indice j est la répartition sur les i caractères lignes des individus pour lesquels le caractère X prend la valeur bj. En divisant les lignes et les colonnes par leurs sommes, on obtient sur chacune des distributions empiriques constituées de fréquences conditionnelles. 1.2 Etude des fréquences conditionnelles. La première étape consiste à passer du tableau brut, effectifs contingentés, au tableau des fréquence. Chaque case peut s’interpréter : combien détiennes le caractère X sachant que par ailleurs ils possèdent le caractère Y. Dans la mesure où le total sur chaque caractère donne l’univers des possibles, la proportion de contingence renvoie à la notion de probabilité conditionnelle. Aussi la contingence pose le fait que la case k i,j indique la probabilité conditionnelle Prob(X=i) sachant Prob(Y=j). Il est ainsi logique de passer au tableau des fréquences telle que f i,j= ki,j / k.. Pour comparer les lignes de ce dernier tableau, on fait appel aux profils de lignes. On notera pour chaque case la probabilité conditionnelle « posséder le caractère colonne j sachant que l’on possède le caractère ligne i » soit Prob (Y=j | X=i), soit fréquence de i sachant que l’on est conditionné par l’appartenance à j : , , , , , ,( | ) soit / / avec /i

j i j j i j i i j i j ,f i j f k k f f f k k• • •= = = •

Soit en termes de tableau des profils lignes :

2

Page 3: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Soit en terme de profils-colonnes :

On trouvera les notations ( | )ou et, d'autre part, ( | )ou i

jj

if i j f f j i f comme alternatives pour les profils.

3

Page 4: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

1.3 Un exemple : la localisation des ingénieurs suivant le secteur d’activité. Cette présentation sous forme de tableau contingent va être appliquée sur un exemple, il s’agit de la localisation, au lieu de travail, des ingénieurs diplômés de grandes écoles scientifiques et techniques, suivant leur secteur de spécialisation. Les résultats proviennent de l’enquête réalisée, début 2001, par le CNISF (Conseil national des ingénieurs et scientifiques de France)3. La répartition retient les 95 départements de la France métropolitaine (Corse réunie), les DOM, les TOM et l’étranger ( observations n=98). La répartition des variables colonnes reprend les dix spécialités suivantes :

- agro : agronomie, - ind : industrie et énergie, - conseil : activités de conseil, - SSII : société de service et d’ingénierie informatique, - Etudes : bureaux d’études et de contrôle, - Finances : activités de finances, banques et assurances, - Telec : télécommunications, - Comm : commerces et services de proximité, - Fonc. Publique : fonction publique et activités non marchandes, - Autres : activités qui ne relèvent pas des précédentes.

Dans notre cas k (i,j) représente donc le nombre d’ingénieurs du secteur de spécialisation j dans le département i. Les profils colonne indiqueront donc pour un département la ventilation des ingénieurs entre les divers secteurs ; les profils lignes représenteront la répartition de ces secteurs, au niveau national, entre les divers départements. La notion de distance prend alors plusieurs interprétations :

- un département comporte-t-il plus ou moins d’ingénieurs dans une spécialité ; - quelle est la part d’une spécialité dans un département donné en rapport aux autres

spécialités.

Dep

agro ind btp conseil ssii etudes Finance telec comm Fonc Publique

autres total

1 7 94 6 1 5 10 2 0 3 5 7 140 2 18 53 6 1 0 7 3 0 3 3 3 97 3 4 43 0 2 1 2 0 0 0 3 4 59 4 1 10 2 1 1 0 0 0 0 4 1 20 5 1 1 2 2 0 2 0 0 0 4 0 12 6 9 71 12 6 38 28 1 55 14 22 29 285 7 1 22 1 1 1 1 0 4 0 6 2 39 8 3 51 1 0 0 2 0 0 1 5 3 66 9 2 8 0 0 0 0 0 0 1 5 1 17 10 7 22 1 1 0 2 0 0 0 3 5 41 11 7 6 1 2 1 0 1 0 2 3 1 24 12 8 7 3 0 6 2 2 8 2 6 0 44 13 15 310 42 19 53 113 7 28 24 92 62 765 14 11 61 11 3 3 8 1 7 2 28 5 140 15 5 3 2 0 0 1 2 0 0 1 1 15 16 6 45 4 0 1 2 2 1 1 8 6 76 17 7 20 3 1 0 4 0 0 3 5 8 51

3 Une présentation est donnée de ces résultats dans « 14e enquête sur les rémunérations des ingénieurs », Revue ID CNISF, n°80 bis, septembre 2001.

4

Page 5: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

18 4 49 1 0 0 10 4 2 0 8 6 84 19 6 19 3 0 0 6 0 1 1 8 0 44 20 1 1 0 0 0 2 0 0 2 2 0 8 21 13 69 8 0 0 9 1 0 12 22 8 142 22 12 17 1 1 7 2 3 55 4 7 5 114 23 1 1 1 0 0 0 0 0 1 1 1 6 24 9 10 5 0 0 2 1 0 1 6 3 37 25 7 92 7 2 9 18 1 0 3 11 7 157 26 11 63 2 4 10 15 2 7 2 9 12 137 27 10 109 5 1 1 8 1 2 3 16 19 175 28 9 52 4 2 1 2 6 4 1 6 5 92 29 17 48 11 2 4 11 7 9 4 15 20 148 30 10 41 3 2 4 18 2 0 3 9 9 101 31 21 305 31 21 119 202 7 80 26 104 86 1002 32 7 5 4 1 0 1 2 0 1 1 3 25 33 25 145 21 7 26 45 8 8 11 57 32 385 34 24 40 13 8 16 27 2 3 11 48 17 209 35 33 82 15 11 65 37 10 95 11 35 31 425 36 2 21 0 0 2 4 1 1 0 4 1 36 37 7 63 7 3 3 10 6 1 6 12 10 128 38 14 396 16 18 72 78 3 37 11 51 92 788 39 4 26 1 0 2 3 0 2 0 2 4 44 40 15 16 2 1 0 1 0 0 1 8 0 44 41 10 35 4 0 5 8 3 0 0 1 5 71 42 8 92 7 5 4 19 1 2 7 21 13 179 43 5 21 2 0 0 1 0 0 1 5 0 35 44 29 138 30 14 47 44 16 27 15 43 26 429 45 39 113 16 2 6 23 3 3 4 18 27 254 46 1 12 1 1 0 4 1 0 0 4 3 27 47 6 7 1 0 0 1 1 0 1 3 2 22 48 1 0 0 0 0 0 1 0 0 2 1 5 49 36 89 11 9 8 12 3 5 5 17 18 213 50 3 35 4 3 1 14 0 0 0 4 6 70 51 37 84 11 5 4 9 3 1 6 17 11 188 52 2 15 1 1 0 0 0 0 6 4 2 31 53 10 30 6 1 2 1 1 3 1 6 0 61 54 10 78 19 4 8 12 1 2 4 49 18 205 55 2 13 0 0 0 0 0 0 0 6 2 23 56 15 18 8 2 3 6 1 0 3 10 10 76 57 5 143 16 6 8 20 3 7 8 26 14 256 58 2 33 1 0 0 1 0 0 0 11 2 50 59 40 366 77 35 102 92 24 21 117 85 71 1030 60 19 173 22 7 2 18 2 0 13 12 20 288 61 9 32 3 5 0 1 1 0 1 2 4 58 62 33 162 25 4 3 17 2 9 5 15 20 295 63 15 144 8 0 5 18 2 0 7 57 19 275 64 6 86 3 5 12 7 0 2 3 14 5 143 65 4 16 0 0 2 6 0 0 0 3 2 33 66 4 2 1 1 0 2 1 0 0 4 1 16 67 22 151 32 19 32 34 8 18 12 58 31 417 68 7 136 23 2 6 17 0 2 3 14 24 234 69 22 511 56 57 160 165 21 47 52 123 99 1313 70 1 11 0 0 0 1 0 1 0 3 0 17 71 16 82 7 0 2 6 1 2 4 11 5 136 72 8 79 6 3 3 7 5 24 5 6 9 155

5

Page 6: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

73 4 51 9 0 3 4 0 0 5 6 9 91 74 5 126 6 2 9 17 1 5 4 3 14 192 75 91 337 67 385 527 207 392 150 140 409 265 2970 76 24 252 33 2 6 34 1 9 12 25 25 423 77 25 164 15 5 10 29 2 8 26 24 23 331 78 30 659 70 37 137 230 16 206 49 48 124 1606 79 8 26 6 1 1 2 6 0 1 8 2 61 80 26 69 6 1 0 7 0 0 1 18 8 136 81 3 24 3 2 1 2 1 1 1 9 2 49 82 7 4 0 1 1 1 0 0 0 1 2 17 83 1 18 6 1 13 7 1 2 1 22 8 80 84 20 23 13 3 3 13 2 0 4 16 3 100 85 16 45 7 6 2 4 3 0 1 4 8 96 86 7 55 2 4 1 4 1 2 2 12 5 95 87 7 41 6 1 0 6 1 1 2 12 10 87 88 4 45 5 1 0 2 0 0 0 5 6 68 89 8 45 2 3 0 1 0 1 1 4 7 72 90 0 39 1 3 5 12 0 3 1 3 0 67 91 23 308 21 14 63 86 8 94 46 74 82 819 92 44 1130 125 228 570 369 173 353 104 91 217 3404 93 15 273 30 2 34 36 11 16 52 29 31 529 94 11 151 31 17 51 53 20 28 60 47 47 516 95 7 178 32 7 23 26 2 30 53 23 31 412 DOM 10 9 12 6 3 13 1 3 6 20 7 90 TOM 0 7 2 1 1 5 0 1 4 13 2 36 Etranger 78 733 61 68 140 141 92 109 61 114 275 1872

Total 1275 10216 1230 1116 2480 2572 927 1608 1091 2339 2192 27046

Correspondance numéro d’ordre noms de département et régions

Dep Départements Régions 1 Ain Rhône-Alpes 2 Aisne Picardie 3 Allier Auvergne 4 Alpes Hte-Prov. PACA 5 Hautes-Alpes PACA 6 Alpes Maritimes PACA 7 Ardèche Rhône-Alpes 8 Ardennes Champ-Ardennes 9 Ariège Midi-Pyrénées 10 Aube Champ-Ardennes 11 Aude Lang-Roussillon 12 Aveyron Midi-Pyrénées 13 B-du-Rhône PACA 14 Calvados Basse-Normandie 15 Cantal Auvergne 16 Charente Poitou-Charentes 17 Ch-Maritime Poitou-Charentes 18 Cher Centre 19 Corrèze Limousin 20 Haute Corse et Corse du Sud PACA 21 Côte d'Or Bourgogne 22 Côte d'Armor Bretagne 23 Creuse Limousin 24 Dordogne Aquitaine

6

Page 7: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

25 Doubs Franche-Comté 26 Drome Rhône-Alpes 27 Eure Haute-Normandie 28 Eure et Loire Centre 29 Finistère Bretagne 30 Gard Lang-Roussillon 31 Haute-Garonne Midi-Pyrénées 32 Gers Midi-Pyrénées 33 Gironde Aquitaine 34 Hérault Lang-Roussillon 35 Ille et Vilaine Bretagne 36 Indre Centre 37 Indre et Loire Centre 38 Isère Rhône-Alpes 39 Jura Franche-Comté 40 Landes Aquitaine 41 Loir et Cher Centre 42 Loire Rhône-Alpes 43 Haute Loire Auvergne 44 Loire Atlantique Pays de Loire 45 Loiret Centre 46 Lot Midi-Pyrénées 47 Lot et Garonne Aquitaine 48 Lozère Lang-Roussillon 49 Maine et Loire Pays de Loire 50 Manche Basse-Normandie 51 Marne Champ-Ardennes 52 Haute-Marne Champ-Ardennes 53 Mayenne Pays de Loire 54 Meurthe Moselle Lorraine 55 Meuse Lorraine 56 Morbihan Bretagne 57 Moselle Lorraine 58 Nièvre Bourgogne 59 Nord Nord 60 Oise Picardie 61 Orne Basse-Normandie 62 Pas de Calais Nord 63 Puy de Dome Auvergne 64 Pyrénées Atlant. Aquitaine 65 Haute-Pyrénées Midi-Pyrénées 66 Pyrénées Orient. Lang-Roussillon 67 Bas Rhin Alsace 68 Haut Rhin Alsace 69 Rhône Rhône-Alpes 70 Haute-Saône Franche-Comté 71 Saône et Loire Bourgogne 72 Sarthe Pays de Loire 73 Savoie Rhône-Alpes 74 Haute Savoie Rhône-Alpes 75 Paris Ile de France 76 Seine Maritime Haute Normandie 77 Seine et Marne Ile de France

7

Page 8: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

78 Yvelines Ile de France 79 Les Deux Sèvres Poitou-Charentes 80 Somme Picardie 81 Tarn Midi-Pyrénées 82 Tarn et Garonne Midi-Pyrénées 83 Var PACA 84 Vaucluse PACA 85 Vendée Pays de Loire 86 Vienne Poitou-Charentes 87 Haute Vienne Limousin 88 Vosges Lorraine 89 Yonne Bourgogne 90 Belfort Franche Comté 91 Essonne Ile de France 92 Hauts de Seine Ile de France 93 Seine St-Denis Ile de France 94 Val de Marne Ile de France 95 Val d'Oise Ile de France 96 DOM 97 TOM 98 Etranger

Une première interprétation peut être donnée à partir des tableaux attraction/répulsion, c’est à dire l’expression générale de la contribution de chaque case à la distance du

Chi2 ou 2χ , soit :

, , 2,

,

, ,

,

.( )

( , ) .

i ji j

i j

k kf

kd i j k k

k

• •

• •

• •

• •

−=

Cette distance ou contribution d’une cellule au χ2 possède une valeur est positive ou nulle par construction, dans ce dernier cas la valeur de la cellule correspond à celle de totale conformité avec les structures des marges. Dans la pratique on utilise une forme plus directe privilégiant la dimension ligne, le coefficient de spécificité, ou coefficient de Moran en analyse géographique, il indique, s’il est supérieur à 1, une sur représentation de la modalité j pour l’observation i, et par symétrie une sous-représentation quand il est inférieur à 1. Sa valeur est positive ou nulle par construction.

, ,( , ) /( . )ij i jS i j f f f• •=

Cette valeur de ce coefficient représente ici la proportion des ingénieurs du secteur de spécialité j dans le département i, ceci par rapport à ce secteur représenterait si la répartition dans ce département était identique à celle de l’ensemble des localisations possibles (grand total). Ainsi en prenant l’exemple des départements de la région Bourgogne, on remarque que la spécialité agronomie est plus représentée et moins pour les spécialités de la finance et les SSII. Dans nos exemples, la plus forte contribution est les métiers de la finance à Paris.

8

Page 9: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Agro ind btp conseil Ssii etudes Finance telec comm foncpub Autres total

21 1,9 1,3 1,2 0,7 0,2 2,1 1,8 0,7 1,058 0,9 1,8 0,4 0,2 2,5 0,5 1,071 2,5 1,6 1,1 0,2 0,5 0,2 0,3 0,7 0,9 0,5 1,075 0,7 0,3 0,5 3,1 1,9 0,7 3,9 0,9 1,2 1,6 1,1 1,089 2,4 1,7 0,6 1,0 0,2 0,2 0,3 0,6 1,2 1,0

Etranger 0,9 1,0 0,7 0,9 0,8 0,8 1,4 1,0 0,8 0,7 1,8 1,0Tableau : indicateurs de spécificité : ingénieurs Dans le traitement de ce type de tableau, l'enjeu principal est d'étudier la dépendance des deux : répartition des ingénieurs pour un département entre toutes les spécialités et répartition de la spécialité entre les départements. Deux caractères i et j sont indépendants si la valeur de l'un n'influe pas sur les distributions des valeurs de l'autre. Si c'est le cas, les profils-lignes seront tous peu différents de la distribution empirique de Y, et les profils-colonnes de celle de X :

,, , , ,/ /i

ij i j j i jf k k f k k

• • •= ≈ = , , , , ,/ /ji i j j i i j• et f k k f k k• • • •= ≈ =

C'est équivalent à dire que les fréquences conjointes doivent être proches des produits de fréquences marginales. ( ) ( ), , , , , , , , ,/ . / . /i j i j i j i jf f k f f k k k k• • • • • • • • • •= ≈ = Les fréquences conjointes d'une part, et les produits de fréquences marginales d'autre part, constituent deux distributions de probabilité sur l'ensemble produit [a1,a2,….ai,…..an] x [b1, b2,….bj,….bp]. Un des moyens de quantifier leur proximité est de calculer la distance du chi-deux de l'une par rapport à l'autre. Dans ce cas particulier, on parle de chi-deux de contingence . Ainsi, la distance du chi-deux de contingence de la distribution empirique à la distribution théorique

,i jf

, ,*i j j i,f f f• •= × .

vaut : ( ), , , ,2

1 1 1 1, , , . ,

.( ) 1

.

p pn ni j i j i j

i j i ji j i

f f f kD

jf f kχ • •

= = = =• • • •

−= = − +∑∑ ∑∑ k

La première expression est l'application directe de la définition sur les écarts de marges. Pour passer à la seconde, on développe le carré. La distance du chi-deux vaut 0 si les deux caractères sont indépendants. Elle est maximale s'il existe une dépendance systématique. Supposons une table carrée n=j et une application bi-univoque Y=F(X), pour une certaine fonction bijective F. Sur chaque ligne et chaque colonne du tableau de contingence, une seule case est non nulle, et la distance du chi-deux vaut n-1. Dans l’exemple des ingénieurs,, il est aisé avec un tableur d’obtenir ce calcul d’une distance au Chi-deux. Dans le tableau de contingence, nous croisons, dans cet exemple, 11 critères de secteurs avec 98 critères de localisation. Propre à tout tableau de contingence, puisqu’une ligne et une colonne peuvent être obtenues connaissant les contraintes (f.j et fi.), il y aura donc (n-1) x (p-1) degrés de liberté, soit ici 97 x 10 = 970. Test d'indépendance entre les lignes et les colonnes actives du tableau de contingence : Valeur observée du khi² (ddl = 970) : 9162,476

9

Page 10: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Le test étant unilatéral, la p-value est comparée au seuil de risque : alpha= 0,050 (5%). Suivant la table, la valeur critique du khi² (ddl = 970) : 1043,583. La conclusion indique qu’au seuil de risque alpha= 0,050, on peut rejeter l'hypothèse nulle d'indépendance entre les lignes et les colonnes. Autrement dite, la dépendance entre les lignes et les colonnes est significative. La répartition des ingénieurs suivant leur spécialisation n’est pas homogène entre les différentes localisations enregistrées. 2 Analyse des correspondances binaires. Dans un sens pratique, on peut avancer que l’analyse des correspondances met en valeur les résultats significatifs d’un tableau de contingence et des contributions au Chi2 qui viennent d’être évoquées. Aussi peut-on avancer que la méthode de l’AFC revient en une analyse du tableau de contingence en plusieurs étapes. La première étape revient à réaliser une ACP du tableau des profils lignes. Les modalités de type ai en sont les « individus » et les modalités bj les variables. Simplement des différences fondamentales existent puisque ici chaque individu n’a pas le même poids ; il possède le poids attribué à sa fréquence marginale ,if • et par ailleurs sa distance ne sera plus sa contribution à la variance (donc à l’inertie) mais la distance du Chi2 le caractérisant. La seconde étape revient à effectuer le processus transposé de la première étape. . Les modalités de type bj en sont ici les « individus » et les modalités ai les variables. Les individus bj auront comme poids la mesure des distances entre profils colonnes, donc leur contribution au Chi2. La troisième étape est basée sur la comparaison des deux premières par l’analyse des liens entre les ACP constituant les 2 premières étapes. Ceci revient à une analyse croisée des vraisemblance et dissemblance entre profils lignes et profils colonnes. La quatrième et dernière étape, revient à donner une vision synthétique des liaisons entre lignes et colonnes en comparant distances et proximités dans les profils lignes et colonnes. 2.1 Etape 1 : comparaison des profils lignes Les lignes du tableau du profil ligne permettent de définir la probabilité conditionnelle pour chaque individu : Possède-t-il la modalité bj, sachant que par ailleurs, il possède la modalité ai ? Aussi chaque profil ligne est formé de probabilités qui en terme de marge ligne se cumulent sur l’élément certain : la contrainte du tableau croisé fait que tout individu possédant la modalité ai possédera une modalité b donc une loi de probabilité sur Y.

Ainsi la jème coordonnées du profil ligne, notée où , traduit la loi de probabilité de Y sachant que le caractère X=i est possédé par l’individu. De ce fait

chaque profil ligne est formé d’une loi de probabilité sur J de forme :

10

Page 11: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

L’ensemble des profils lignes sur p dimensions introduit un hyperplan généré par l’équation x1+ x2…+xp=1. Alors que dans l’ACP chaque point se voit caractériser par sa distance à l’origine, ici l’on part de la reconstruction des données en profil-lignes

et l’on compare chaque par rapport à la fréquence de marge de ligne qui peut lui

être associée. Ainsi , les profils lignes pondérés, engendre un nuage N(I)

sur . Le centre de gravité g de ce nuage ne peut être alors, que la pondération des

profils lignes pour chaque caractère,

1

ni

J i ji

g f •=

= ∑ f . Donc chaque jème élément de gj

vaut , jf• puisque , , , , ,

1 1 1( )

n n ni

i j i i i j i j ji i i

,f f f f f f• • •= = =

= × = =∑ ∑ ∑ f•

Si l’on considère que ƒJ est le vecteur formé des fréquences marginales de colonne (ƒ.,1,……ƒ.,j…….ƒ.,p) il vient gj= ƒJ

Les profils-lignes ƒiJ génèrent donc un nuage N(I) dont le centre de gravité s’assimile au

profil ligne marginal ƒJ. Cette situation est reprise dans le graphique suivant dans une simulation de l’hyperespace dans les trois dimensions.

Note :dans ce graphique, on lira f(i,j) comme ƒi,j et fJ comme ƒJ.La géométrie générale du problème de l’AFC est posée ; maintenant il faut évoquer la représentation des distances. Au sens de la métrique du Chi2 le produit scalaire de deux vecteurs x et y, dans un espace Rp , s’écrit :

11

Page 12: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Il en découle la distance du Chi2 :

L’expression permet de vérifier le résultat sur le profil ligne marginal en terme de

norme 2 2, ,

1

, (1/ )p

J J J j jj

f f f f f• •=

= =∑ 1=

Le vecteur fJ et le vecteur engendré par sont orthogonaux puisque leur produit scalaire est nul

L’inertie totale du nuage N(I) s’obtient en tenant compte du poids de chaque ligne et de la distance au Chi2 :

L’inertie totale est une mesure de la correspondance entre les variables qualitatives X et Y indépendantes elles mêmes de l’effectif du tableau utilisé. Si l’inertie totale est nulle ceci signifie que tous les profils lignes fi

J se confondent au point fJ tel que f(i,j)/fi,.= f.,j pour tous les croisements i x j, soit l’indépendance entre lignes et colonnes. Ainsi dans le tableau pris comme exemple la valeur de 2χ est 9162 puisque k correspond à un effectif de 27.046, l’inertie totale sera de 0,336. 4.2.2 Etape 1 suite : ACP des profils lignes Les démarches de la méthode s’assimilent ici totalement à ce qui a été présenté au chapitre 3. Le premier axe principal D1 du nuage N(I) est ainsi la droite qui s’ajuste au mieux par rapport au nuage N(I). Cet axe se détermine en minimisant l’inertie de N(I) en rapport à D1 :

où est la projection du profil ligne fi

J sur l’axe D1. Par analogie avec l’ACP, il est évident que l’axe D1 passe par le centre de gravité fJ du nuage N(I) et est parallèle à une direction u1 ; ce dernier étant le vecteur propre normé au sens de la métrique du Chi2 de la matrice A constitué de j x j éléments, tels que :

12

Page 13: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Intuitivement, on remarque de la taille de l’élément ajj’ à la singularité des fréquences ƒij entre les individus, de ce fait on ne teste plus une situation de corrélation entre des caractères comme dans l’ACP mais une hétérogénéité de la distribution des caractères entre les individus4. L’axe D1 sera généré par la plus grande valeur propre 1λ de cette matrice A

Le centre de gravité ƒJ du nuage N(I) est orthogonal au vecteur caractéristique u. Sauf le cas limite de totale indépendance qui entraînerait un Chi2 nul donc =0, le vecteur u1 peut s’écrire

représente la j composante de la matrice A. Le vecteur u1 est combinaison linéaire de e

, qui est lui même orthogonal au centre d’inertie . La première composante associée F1 s’assimile à une nouvelle variable où pour chaque

individu i, F(i) représente la longueur algébrique du segment

c’est à dire la coordonnée de la projection sur l’axe D1 en prenant comme origine le centre de gravité ƒJ du nuage N(I). Ceci conduit à :

4 Une présentation plus précise et détaillée de la constitution de cette matrice A se trouve dans l’ouvrage de JAMBU M. (1989), Exploration informatique et statistique des données, Dunod

13

Page 14: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

La composante principale F1 est ainsi :

Qui possède les caractéristiques : 1. centrée puisque 2 Possède une variance égale à sa valeur propre λ1. Variance égale à l’inertie du nuage N(I) projeté sur l’axe D1, en rapport à fj. Erreur !

La qualité de F1 s’apprécie comme pour les ACP en fonction de la part d’inertie dont-

elle rend compte : Ceci peut s’écrire :

2 2 2, , ,

1 1 1

( , ) ( . 1( ), ) ( , . 1( ))n n n

i i ii J J i J J i J i

i i i

jf d f f f d P D f f f d f P D f• • •= = =

= +∑ ∑ ∑

Soit une décomposition de l’inertie totale entre celle expliquée par l’axe D1 et celle restant à l’inertie résiduelle : Il en ressort que la part d’inertie expliquée par D1 peut s’exprimer :

Toujours par similitude à l’ACP, on peut en déduire les contributions de chaque modalité à la variance de F1 puisque

On en déduit que la contribution CTR1(i) de la modalité ai à la variance de F1 dérive de la formule

ainsi, par construction, la somme des CTR sur i vaut 1. Un profil ligne ƒi

j possède une contribution d’autant plus forte à l’axe principal D1 que le CTR(i) sera élevé. Toujours par analogie aux ACP, la qualité de la représentation du profil ligne fi

J sur

l’axe D1 sera représentée par le cosinus carré entre l’axe D1 et le vecteur

14

Page 15: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Autrement dit plus un point fj sera proche de l’axe plus sa projection sur l’axe sera significative. Dans le graphe suivant on s’intéressera à la longueur des projections (segment de couleur bleu sur les axes). Erreur !

De manière générale, si r représente le nombre de composantes r<=p prises en compte, l’inertie expliquée par l’axe Dh est égale à λh. Ainsi on peut vérifier que la trace de la

matrice A est égale à l’inertie totale . À l’identique, les contributions des modalités a(i) à la composante principale Fh sont définies par

Pour l’interprétation, on doit conserver en mémoire de ceci que l’axe D1 se trouve généré en particulier par les modalités à forte contribution. En généralisant aussi, la qualité de la représentation des profils ligne fi

J sur l’axe Dh

sera représentée par le cosinus carré entre l’axe Dh et le vecteur

Avec l’égalité sur la répartition entre composantes des sources d’une distance normée :

La distance entre deux profils lignes peut s’écrire sur les r composantes principales retenues :

15

Page 16: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

On en déduit que deux modalités bien représentées dans le plan principal (F1,F2) possèdent des profils lignes voisins. 2.3 Etape 2 réplication sur les profils colonnes Notations et résultats de l’analyse des profils lignes et du nuage N(I) se généralisent à l’analyse N(J) du nuage des profils colonnes. Le nuage N(J) des profils colonnes se présente comme l’association, à chaque colonne du tableau des profils colonnes, du point :

Les lignes du tableau du profil colonne permettent de définir la probabilité conditionnelle pour chaque individu :Possède-t’il la modalité bj, sachant que par ailleurs il possède la modalité ai ? Aussi chaque profil colonne est formé de probabilités qui en termes de marge colonne se cumulent sur l’élément certain. Chaque individu appartient à l’univers des possibles puisqu’il répond à une modalité. La contrainte du tableau croisé fait que tout individu possédant la modalité bj possédera une modalité a donc une loi de probabilité sur X.

Ainsi la ième des coordonnées du profil ligne, notée où , traduit la loi de probabilité de X sachant que le caractère Y=bj est possédé par l’individu. De ce fait

chaque profil ligne est formé d’une loi de probabilité sur I de forme :

L’ensemble des profils lignes sur p dimensions introduit un hyperplan généré par l’équation y1+ y2…+yp=1. Alors que dans l’ACP chaque point se voit caractériser par sa distance à l’origine, ici l’on part de la reconstruction des données en profil-lignes

et l’on compare chaque par rapport à la fréquence de marge de colonne qui peut

lui être associée. Ainsi les profils lignes colonnes pondérés, engendrent

un nuage N(J) sur . Le centre de gravité g de ce nuage est formé de l’ensemble des

points pondérés par la marge . La distance du Chi2 est alors définie dans Rn par le produit scalaire

Il en découle la distance du Chi2 :

L’inertie totale du nuage N(J) s’obtient en tenant compte du poids de chaque colonne et de la distance au Chi2 :

16

Page 17: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Les axes principaux E1,E2,….Er du nuage N(J) coupent le centre de gravité fI et sont parallèles aux vecteurs propres normés v1,v2…..vr, associés aux valeurs propres

, caractérisant la matrice B dont les éléments s’expriment :

Il est facile de comprendre que les valeurs propres des matrices A et B sont identiques, ceci va permettrent d’ailleurs les relations de transitions entre les deux analyses.

Les composantes associés G1,G2,…..,Gr sont coordonnées des profils colonnes générés dans le système d’axes E1,E2,….Er d’origine ƒI. Les composantes principales sont définies par :

et la qualité de représentation de la modalité bj sur l’axe Eh est donnée par

2.4 La richesse de l’AFC : les relations de transition En tenant compte de la construction des profils, on se rend compte que les analyses sur un nuage se déduisent de celles de l’autre nuage. Il est aisé de retrouver des relations qui précèdent que les composantes principales d’un nuage sont reliées linéairement aux direction des axes principaux de l’autre nuage :

De ceci il vient la nécessité d’une référence au même système de valeurs propres pour les matrices A et B, d’une part, et l’établissement des relations de transition d’autre part. Ces dernières partent de :

Ainsi au terme inverse près Fh(i) se situe au barycentre des Gh(j), le poids de Gh(j) est

la jéme coordonnée du profil ligne Par symétrie, on obtient :

17

Page 18: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Ainsi au terme inverse près Gh(j) se situe au barycentre des Fh(i), le poids de Fh(i) est

la iéme coordonnée du profil colonne Les relations de transition permettent de déduire que: 1-les valeurs propres sont toutes inférieures ou égales à l’unité, 2-la corrélation entre les composantes principale Fh et Gh est égale à hλ .. La covariance entre les distances et les composantes s’exprime

La corrélation entre dij et Gh, s’exprime par :

22

2

( )( )( , ( ))( , )ij i

J J

F h iCor d G hd f f

=

3-une relation, pour un niveau de composante h, entre le cosinus de l’angle d’une modalité et la corrélation entre la distance et la composante.

2.5 Retour sur l'exemple La suite reprend pour l’essentiel la sortie des résultats de l’exemple traité avec XLSTAT®5. Ce logiciel est un logiciel commercial qui constitue une annexe de Excel. Utilisant les macros commandes, il est totalement intégré au tableur et ainsi évite toute question de transfert de données6

Valeurs propres et pourcentage de variance :

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 Valeur propre 0,146 0,071 0,038 0,028 0,020 0,014 0,010 0,006 0,004 0,002% variance 43,119 20,822 11,285 8,148 6,033 4,084 2,867 1,749 1,160 0,733% cumulé 43,119 63,941 75,226 83,374 89,408 93,492 96,358 98,108 99,267 100,000

Dans la suite des résultats, on ne retient que les 4 premières valeurs propres, dont 4 facteurs associés ; ceci permet de prendre en compte près de 84% de l’inertie.. Coordonnées des points-colonnes :

F1 F2 F3 F4 agro 0,422 -0,596 0,607 -0,151 ind 0,330 0,077 -0,094 -0,099 btp 0,222 -0,126 0,040 0,154 conseil -0,773 -0,267 -0,121 -0,197 ssii -0,568 0,130 -0,056 -0,009

5 Le traitement de ce même exemple sera réalisé, en travaux dirigés, à l’aide du logiciel SPAD.

6 Le site associée est :

http://www.xsltat.com

Il est possible, par télé-déchargement de ce site, d’obtenir une version totalement fonctionnelle du logiciel permettant une prise en main d’XLSTAT pour une durée de temps limitée.

18

Page 19: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

etudes -0,041 0,188 -0,046 0,175 finance -0,954 -0,429 -0,084 -0,336 telec -0,367 0,624 0,508 0,029 comm -0,093 -0,045 -0,134 0,319 foncpub -0,055 -0,394 0,003 0,326 autres -0,046 -0,006 -0,031 -0,019

Le graphique de distribution des valeurs propres est le suivant :

Valeurs propres

F1

F2

F3F4 F5 F6 F7 F8 F9 F10

0,0

0,1

0,2

Contributions des points-colonnes (%) :

F1 F2 F3 F4 Agro 5,750 23,760 45,387 3,874 Ind 28,130 3,192 8,743 13,356 Btp 1,537 1,019 0,195 3,889 Conseil 16,861 4,186 1,581 5,794 Ssii 20,231 2,191 0,765 0,027 Etudes 0,107 4,754 0,538 10,550 Finance 21,359 8,932 0,627 14,056 Telec 5,488 32,785 40,055 0,184 Comm 0,241 0,117 1,907 14,840 Foncpub 0,179 19,059 0,002 33,324 Autres 0,118 0,005 0,200 0,105 Cosinus carrés des points-colonnes :

F1 F2 F3 F4 Agro 0,185 0,369 0,382 0,024

19

Page 20: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Ind 0,801 0,044 0,065 0,072Btp 0,205 0,066 0,007 0,098Conseil 0,775 0,093 0,019 0,050Ssii 0,842 0,044 0,008 0,000Etudes 0,011 0,225 0,014 0,196Finance 0,713 0,144 0,005 0,089Telec 0,166 0,478 0,317 0,001Comm 0,018 0,004 0,038 0,211Foncpub 0,009 0,463 0,000 0,316Autres 0,020 0,000 0,009 0,003

20

Page 21: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Informations individus :

Coordonnées des points-lignes : Contributions des points-lignes

(%): Cosinus carrés des points-lignes F1 F2 F3 F4 F1 F2 F3 F4 F1 F2 F3 F4

1 0,532 0,042 -0,219 -0,264 1,004 0,013 0,648 1,302 0,677 0,004 0,114 0,1662 0,591 -0,348 0,263 -0,318 0,857 0,617 0,651 1,316 0,474 0,165 0,094 0,1373 0,591 -0,019 -0,184 -0,408 0,522 0,001 0,193 1,316 0,551 0,001 0,053 0,2634 0,335 -0,338 -0,115 0,075 0,057 0,120 0,025 0,015 0,217 0,222 0,025 0,0115 -0,142 -0,787 0,116 0,661 0,006 0,389 0,016 0,703 0,010 0,305 0,007 0,2166 -0,206 0,417 0,363 0,195 0,307 2,599 3,630 1,445 0,103 0,420 0,318 0,0917 0,311 0,110 0,045 -0,026 0,095 0,025 0,008 0,003 0,251 0,032 0,005 0,0028 0,703 0,021 -0,251 -0,282 0,825 0,001 0,402 0,704 0,670 0,001 0,086 0,1089 0,472 -0,575 0,094 0,297 0,096 0,295 0,015 0,201 0,221 0,328 0,009 0,08710 0,586 -0,341 0,232 -0,299 0,356 0,249 0,214 0,491 0,506 0,171 0,079 0,13211 0,184 -0,933 0,650 -0,159 0,021 1,096 0,981 0,082 0,021 0,538 0,261 0,01612 -0,149 -0,152 0,875 0,139 0,025 0,053 3,259 0,114 0,023 0,024 0,783 0,02013 0,142 0,046 -0,134 0,189 0,389 0,086 1,337 3,675 0,194 0,021 0,174 0,34614 0,325 -0,252 0,132 0,186 0,374 0,466 0,236 0,650 0,304 0,183 0,050 0,10015 0,261 -1,022 0,883 -0,374 0,026 0,821 1,132 0,282 0,027 0,414 0,309 0,05516 0,500 -0,177 -0,036 -0,176 0,481 0,125 0,009 0,316 0,690 0,086 0,004 0,08517 0,429 -0,346 0,155 0,044 0,237 0,319 0,119 0,013 0,402 0,261 0,053 0,00418 0,386 -0,023 -0,127 -0,167 0,317 0,002 0,131 0,314 0,433 0,002 0,047 0,08119 0,495 -0,337 0,244 0,231 0,273 0,262 0,252 0,314 0,415 0,192 0,101 0,09020 0,122 -0,481 0,101 1,046 0,003 0,097 0,008 1,172 0,006 0,101 0,004 0,47521 0,479 -0,303 -0,020 0,192 0,825 0,685 0,006 0,705 0,560 0,224 0,001 0,09022 -0,413 0,829 1,440 0,043 0,491 4,104 22,875 0,028 0,050 0,203 0,615 0,00123 0,340 -0,685 0,334 0,532 0,018 0,147 0,065 0,227 0,071 0,288 0,068 0,17424 0,468 -0,784 0,600 0,107 0,205 1,193 1,287 0,057 0,167 0,471 0,276 0,00925 0,422 0,027 -0,208 -0,089 0,707 0,006 0,655 0,166 0,673 0,003 0,163 0,03026 0,206 0,024 0,069 -0,130 0,147 0,004 0,064 0,308 0,399 0,006 0,045 0,15827 0,537 -0,055 -0,133 -0,164 1,276 0,028 0,297 0,632 0,739 0,008 0,045 0,06928 0,336 -0,180 0,089 -0,370 0,262 0,157 0,070 1,685 0,319 0,092 0,022 0,38829 0,161 -0,239 0,281 -0,017 0,097 0,441 1,134 0,006 0,107 0,237 0,330 0,00130 0,279 -0,164 0,011 0,040 0,199 0,143 0,001 0,022 0,314 0,109 0,000 0,00731 -0,062 0,222 0,004 0,253 0,098 2,586 0,002 8,615 0,019 0,236 0,000 0,30832 0,260 -0,856 0,692 -0,250 0,043 0,961 1,156 0,210 0,037 0,405 0,264 0,03533 0,169 -0,176 -0,012 0,163 0,278 0,627 0,005 1,372 0,258 0,281 0,001 0,24134 0,030 -0,475 0,189 0,452 0,005 2,472 0,720 5,716 0,002 0,449 0,071 0,40635 -0,316 0,334 0,617 0,095 1,077 2,482 15,637 0,513 0,161 0,179 0,612 0,01436 0,355 0,005 -0,093 -0,120 0,115 0,000 0,030 0,069 0,397 0,000 0,027 0,04537 0,268 -0,169 -0,138 -0,067 0,232 0,191 0,237 0,077 0,475 0,189 0,127 0,03038 0,191 0,191 -0,153 -0,083 0,730 1,508 1,786 0,723 0,244 0,243 0,156 0,04639 0,488 0,064 0,078 -0,257 0,265 0,010 0,026 0,388 0,693 0,012 0,018 0,19240 0,637 -0,962 0,860 -0,086 0,451 2,133 3,149 0,043 0,178 0,407 0,325 0,00341 0,381 -0,176 0,136 -0,320 0,261 0,116 0,126 0,972 0,332 0,071 0,042 0,23442 0,355 -0,077 -0,159 0,055 0,570 0,056 0,439 0,073 0,687 0,032 0,138 0,01743 0,678 -0,370 0,142 -0,068 0,408 0,251 0,069 0,022 0,637 0,190 0,028 0,00644 -0,031 -0,067 0,109 0,068 0,010 0,100 0,491 0,266 0,021 0,100 0,265 0,10345 0,462 -0,279 0,241 -0,125 1,371 1,039 1,433 0,534 0,514 0,188 0,140 0,03846 0,228 -0,186 -0,180 0,052 0,036 0,049 0,085 0,010 0,178 0,119 0,111 0,00947 0,442 -0,795 0,629 -0,094 0,109 0,729 0,842 0,026 0,146 0,471 0,295 0,00748 -0,360 -1,371 0,510 0,176 0,016 0,492 0,126 0,021 0,039 0,559 0,078 0,009

21

Page 22: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

49 0,345 -0,359 0,311 -0,179 0,642 1,438 1,987 0,914 0,291 0,315 0,236 0,07850 0,364 0,040 -0,186 -0,022 0,235 0,006 0,235 0,004 0,360 0,004 0,094 0,00151 0,474 -0,477 0,351 -0,172 1,068 2,238 2,243 0,741 0,350 0,354 0,192 0,04652 0,369 -0,278 -0,187 0,263 0,107 0,126 0,105 0,286 0,146 0,083 0,038 0,07453 0,473 -0,320 0,380 -0,154 0,345 0,328 0,852 0,194 0,366 0,168 0,236 0,03954 0,261 -0,347 -0,050 0,340 0,354 1,296 0,049 3,177 0,151 0,267 0,005 0,25655 0,536 -0,420 -0,011 0,087 0,167 0,213 0,000 0,023 0,324 0,199 0,000 0,00956 0,286 -0,602 0,423 0,120 0,157 1,444 1,313 0,146 0,106 0,467 0,230 0,01957 0,353 0,024 -0,200 -0,005 0,810 0,008 0,987 0,001 0,609 0,003 0,194 0,00058 0,587 -0,221 -0,197 0,038 0,436 0,128 0,187 0,010 0,442 0,063 0,050 0,00259 0,042 -0,075 -0,150 0,200 0,046 0,305 2,254 5,493 0,009 0,030 0,120 0,21260 0,527 -0,069 -0,145 -0,163 2,023 0,072 0,582 1,029 0,764 0,013 0,058 0,07361 0,441 -0,371 0,140 -0,447 0,285 0,418 0,110 1,552 0,300 0,212 0,030 0,30962 0,532 -0,119 0,130 -0,189 2,115 0,219 0,484 1,415 0,759 0,038 0,045 0,09663 0,433 -0,254 -0,125 0,167 1,302 0,932 0,418 1,029 0,436 0,151 0,037 0,06564 0,340 -0,006 -0,194 -0,140 0,419 0,000 0,522 0,374 0,419 0,000 0,137 0,07165 0,423 -0,109 0,074 -0,038 0,149 0,021 0,018 0,007 0,386 0,026 0,012 0,00366 0,081 -1,003 0,628 0,172 0,003 0,843 0,610 0,063 0,004 0,630 0,247 0,01867 0,075 -0,143 0,010 0,124 0,060 0,447 0,004 0,860 0,076 0,274 0,001 0,20668 0,496 0,037 -0,198 -0,085 1,459 0,017 0,888 0,226 0,672 0,004 0,107 0,02069 -0,010 0,071 -0,170 0,092 0,003 0,343 3,660 1,500 0,002 0,083 0,479 0,14270 0,535 -0,026 0,013 -0,019 0,123 0,001 0,000 0,001 0,450 0,001 0,000 0,00171 0,598 -0,178 0,081 -0,173 1,231 0,226 0,087 0,547 0,784 0,070 0,014 0,06672 0,197 0,283 0,252 -0,197 0,152 0,651 0,953 0,808 0,117 0,243 0,193 0,11873 0,501 -0,045 -0,185 -0,014 0,579 0,010 0,301 0,002 0,687 0,006 0,094 0,00174 0,459 0,217 -0,230 -0,250 1,024 0,473 0,979 1,610 0,560 0,125 0,140 0,16675 -0,808 -0,350 -0,072 -0,072 49,106 19,083 1,503 2,060 0,826 0,155 0,007 0,00776 0,534 0,020 -0,094 -0,093 3,054 0,009 0,362 0,486 0,881 0,001 0,027 0,02677 0,376 -0,061 -0,037 0,029 1,186 0,065 0,044 0,036 0,721 0,019 0,007 0,00478 0,042 0,410 0,093 0,009 0,073 14,161 1,335 0,018 0,009 0,888 0,045 0,00079 0,237 -0,559 0,143 -0,181 0,086 1,001 0,121 0,268 0,096 0,539 0,035 0,05780 0,626 -0,473 0,329 -0,121 1,351 1,593 1,427 0,269 0,506 0,288 0,140 0,01981 0,302 -0,288 -0,047 0,061 0,113 0,214 0,010 0,024 0,304 0,278 0,007 0,01282 0,423 -0,935 1,080 -0,422 0,077 0,779 1,916 0,406 0,057 0,281 0,375 0,05783 -0,134 -0,244 -0,089 0,524 0,036 0,249 0,062 2,946 0,028 0,091 0,012 0,42384 0,290 -0,645 0,441 0,249 0,212 2,178 1,878 0,829 0,090 0,448 0,209 0,06785 0,373 -0,412 0,219 -0,365 0,337 0,853 0,446 1,710 0,256 0,313 0,089 0,24586 0,412 -0,175 -0,055 -0,133 0,408 0,152 0,028 0,225 0,538 0,097 0,010 0,05687 0,426 -0,242 0,007 0,050 0,400 0,267 0,000 0,029 0,636 0,206 0,000 0,00988 0,625 -0,080 -0,149 -0,231 0,672 0,023 0,147 0,486 0,744 0,012 0,043 0,10289 0,556 -0,168 0,033 -0,354 0,563 0,106 0,008 1,211 0,598 0,054 0,002 0,24390 0,238 0,316 -0,262 -0,076 0,096 0,351 0,445 0,052 0,137 0,243 0,167 0,01491 0,037 0,236 0,095 0,135 0,028 2,399 0,710 1,998 0,012 0,491 0,079 0,16092 -0,319 0,256 -0,011 -0,130 8,770 11,709 0,038 7,734 0,507 0,327 0,001 0,08493 0,279 0,073 -0,192 0,036 1,045 0,148 1,884 0,093 0,337 0,023 0,159 0,00694 -0,115 0,004 -0,104 0,249 0,172 0,000 0,540 4,270 0,071 0,000 0,058 0,33295 0,182 0,162 -0,093 0,194 0,346 0,567 0,345 2,068 0,103 0,082 0,027 0,11696 -0,030 -0,515 0,267 0,573 0,002 1,251 0,618 3,959 0,001 0,333 0,089 0,41297 -0,025 -0,377 -0,147 0,968 0,001 0,268 0,075 4,520 0,000 0,113 0,017 0,74298 -0,003 0,016 -0,029 -0,132 0,000 0,025 0,149 4,379 0,000 0,003 0,010 0,214

22

Page 23: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Le graphique suivant donne la représentation standard de l’AFC , la superposition des cartes (F1,F2) et (G1,G2) est aussi appelé représentation « pseudo-barycentrique » du fait de la relation de transition, voir page 17. On peut apprécier les proximités et les différences sachant que le graphique suivant donne une lecture rapide de la représentation et d’aide à l’interprétation. Quelques éléments d’association répulsions ont été matérialisés sur la représentation.

Aussi le graphique suivant montre que le premier axe classerait les secteurs suivant leur niveau de matérialité. On aurait les secteurs producteurs de biens à droite de cet axe et les secteurs de services à gauche. Le second axe, comptant, pour moitié moins dans l’inertie pourrait être un indicateur de « technologie », les activités paraissant d’autant plus riches en niveaux de technologies qu’elles se situent haut sur l’axe. Ainsi les SSII et l’industrie auraient une utilisation comparable de la technologie ; mais se différencieraient par la matérialité de leur production. On remarque un « amas » de départements assez faiblement représentés dans le plan, ce qui démontre qu’ils non pas une spécificité très prononcé de l’utilisation des ingénieurs. Ceci s’oppose par exemple à la spécialisation parisienne dans la finance et des Côtes-d’Armor pour les télécommunications.

23

Page 24: Chapitre 4 : Analyse factorielle des correspondancesbeveraggi.free.fr/AFC/Cours AFC.pdf · Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03

Points-lignes et points-colonnes (axes F1 et F2 : 64 %)

1

2

3

4

5

6

78

9

10

11

12

13

14

15

16

17

18

19

20

21

22

2324

252627

2829

30

31

32

33

34

35

36

37

3839

40

4142

43

44

4546

47

48

49

50

51

52 535455

56

57

58

59 60

61

62

63

6465

66

67

686970

71

72

73

74

75

7677

78

7980

81

82

83

84

85

8687

8889

909192

9394

95

96

97

98

agro

ind

btp

conseil

ssii etudes

finance

telec

comm

foncpub

autres

-1,5

-1

-0,5

0

0,5

1

-1,2 -1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8

-- axe F1 (43 %) -->

24