etude pour l’implantation d’un hypermarche dans le...
TRANSCRIPT
L3 Mathématiques, Informatique,
Statistique Parcours Génie Informatique et Statistique
UNIVERSITE DE BRETAGNE-SUD – IUP DE VANNES
ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE DEPARTEMENT DU
HAUT-RHIN
Camille LOTTHE Gaëlle PROUX
Pierre-François BUSSON Vincent LANGLO
2
Année universitaire 2006 – 2007
3
SOMMAIRE
INTRODUCTION ................................................................................ 5
I- PRESENTATION GENERALE ................................................................ 6
I.1 - Présentation de l’étude............................................................. 7 I.1.1 - Présentation du Haut-Rhin ...................................................... 7 I.1.2 - Présentation d’une étude de marché ......................................... 7 I.1.3 - Objectifs de l’étude ............................................................. 8 I.1.4 - Cahier des charges ............................................................... 9 I.1.5 - Logiciels utilisés .................................................................10
I.2 – Présentation des données ........................................................ 10 I.2.1 - La population en 1999 ..........................................................10 I.2.2 - L'âge ...............................................................................11 I.2.3 - Les Ménages ......................................................................12 I.2.4 - Les CSP............................................................................13 I.2.5 - Les consommations..............................................................13
II- CLASSIFICATION DES VILLES DU HAUT-RHIN ........................................ 15
II.1 - Nettoyage des données........................................................... 16
II.2 – L’Analyse en Composantes Principales ....................................... 17 II.2.1 - Principe de l’ACP ...............................................................17
a) Les données et leurs caractéristiques .....................................18 b) Espace des individus..........................................................18 c) Espace des variables .........................................................18
II.2.2 - Interprétation ...................................................................19 II.2.2.1 – Interprétation dans le cas général .....................................19 a) Qualité des représentations sur les plans principaux...................19 b) Nombres d’axes à retenir ...................................................19 c) Choix des variables ...........................................................20 d) Choix des individus ...........................................................20
II.2.2.2 - Interprétation dans le cas de notre étude .............................21 a) ACP pour les variables sociodémographique .............................21 b) ACP pour les variables de consommation .................................22 c) ACP générale ..................................................................23
II.3 - La Classification Ascendante Hiérarchique .................................. 26 II.3.1 - Présentation de la CAH ........................................................26 II.3.2 - Interprétation ...................................................................28 II.3.2.1 – Variables socio démographiques ........................................28 II.3.2.2 – Variables de consommation ..............................................29 II.3.2.3 - Conclusion ..................................................................30
II.4 - La méthode des K-moyennes .................................................... 31
4
II.4.1 – Présentation de la méthode...................................................31 II.4.2 – Résultats de la classification..................................................33 II.4.2.1 – Variables socio démographiques ........................................33 II.4.2.2 – Variables de consommation ..............................................35
II.5 - Comparaison des méthodes de classification ............................... 38 II.5.1 – Avantages et inconvénients de la classification par K-moyennes .......38 II.5.2 – Avantages et inconvénients de la classification ascendante hiérarchique.............................................................................................38 II.5.3 - Comparaison des résultats trois méthodes..................................39
III – Choix de la ville d’implantation de l’hypermarché.............................. 41 III.1 – La régression logistique......................................................... 42 III.2 - L’analyse factorielle discriminante .......................................... 44 III.2.1 - Méthode des plus proches voisins............................................45 III.2.2 - Méthode linéaire ...............................................................45 III.2.3 - Méthode quadratique..........................................................46
III.3 - Décision finale..................................................................... 47 III.4 - Partie client ....................................................................... 48
CONCLUSION ................................................................................. 50 TABLE DES TABLEAUX ...................................................................... 51 TABLE DES GRAPHIQUES ................................................................... 51
5
INTRODUCTION
Ce projet a été réalisé dans le cadre de l’obtention de notre licence en
Mathématiques, Informatique et Statistique à l’IUP de Vannes.
Notre étude porte sur l’implantation d’un hypermarché dans le département du
Haut-Rhin (68). Nous avons dû étudier les villes de ce département, afin de
sélectionner celle qui serait la plus apte à recevoir la construction d’un
hypermarché.
La première partie de ce rapport porte sur une présentation de l’étude et des
données. La deuxième partie développe la classification des villes du Haut-Rhin en
plusieurs groupes, et la dernière partie concerne le processus du choix de la ville
d’implantation de l’hypermarché.
6
I- PRESENTATION GENERALE
7
I.1 - Présentation de l’étude
I.1.1 - Présentation du Haut-Rhin
Le département du Haut-Rhin (68) fait partie de la région Alsace. Il est limitrophe
des départements du Bas-Rhin (67), des Vosges (88) et du Territoire de Belfort (90)
mais également de l’Allemagne à l’est et de la Suisse au sud. Sa superficie est de
3 508 km² et sa population en 1999 est de 707 772 habitants. L’évolution de son
nombre d’habitants entre 1990 et 1999 a été de plus de 5%. Les habitants du Haut-
Rhin sont appelés les Haut-rhinois.
Le plus grand bassin de population, mais aussi d’activités commerciales et
industrielles, d’éducation et de services divers, se situe dans l’aire urbaine de
Mulhouse, capitale économique, avec 110 359 habitants. La ville de Colmar, 65 136
habitants est la capitale administrative regroupant les services de la Préfecture et
du Conseil Général.
Le triangle formé par les villes Mulhouse, Guebwiller et Thann développe une zone
attractive marquée, avec l’implantation de commerces, observée surtout dans le
nord de l’agglomération.
Le département dispose d’importantes ressources minières telles que les carrières
de sables ou encore de graviers. L’activité industrielle se développe (industrie
chimique, textile, alimentaire, métallurgie) grâce au Marché commun et à la
navigation sur le Rhin. De plus la production hydroélectrique est devenue une
nouvelle source d’activité importante du département.
I.1.2 - Présentation d’une étude de marché
8
Un marché est le lieu (l’environnement) dans lequel évolue l'entreprise et où se
rencontrent l'offre et la demande d'un bien ou d’un service, c'est à dire
principalement les clients potentiels et la concurrence.
Un marché peut-être national, régional, saisonnier, concentré, diffus, captif,
fermé, ambulant...
Chaque caractéristique du marché entraîne des contraintes et des clefs de
succès spécifiques qu'il est important d'identifier à ce stade.
L’étude de marché est une étape fondamentale qui est un passage obligé pour tout
futur chef d'entreprise, dans la mesure où elle lui permet :
- de mieux connaître les grandes tendances et les acteurs de son marché, et de
vérifier l’opportunité de se lancer à un endroit donné,
- de réunir suffisamment d’informations lui permettant de fixer des hypothèses de
chiffre d’affaires,
- de faire les meilleurs choix commerciaux pour atteindre ses objectifs (déterminer
sa stratégie),
- de fixer, de la manière la plus cohérente possible, sa politique "produit", "prix",
"distribution" et "communication" (mix marketing),
- d’apporter des éléments concrets qui serviront à établir un budget prévisionnel.
Sa vocation est de réduire au maximum les risques en permettant au futur chef
d’entreprise de mieux connaître l'environnement de sa future entreprise, et ainsi
de prendre des décisions adéquates et adaptées.
I.1.3 - Objectifs de l’étude
On souhaite implanter un hypermarché dans une commune du Haut-Rhin. Nous
disposions pour notre travail de différentes bases de données contenant les
caractéristiques sociodémographiques, ainsi que les indices de consommation de
toutes les communes du Haut-Rhin. Notre objectif a été d’appliquer et de
comparer différentes méthodes statistiques qui nous ont permis de distinguer
plusieurs groupes de villes, puis de déterminer dans quelle ville il serait optimal
d’implanter l’hypermarché.
9
Dans ce but, il est possible d’établir un cahier des charges, permettant d’organiser
le déroulement du projet, en termes d’opérations et de délais.
I.1.4 - Cahier des charges
Nous avions 11 semaines pour réaliser ce projet.
12/01/07 : Choix et prise de connaissance du sujet.
Etude et compréhension des différentes variables.
19/01/07 : Grâce au logiciel SAS, concaténation des 3 fichiers Excel en un seul.
Suppressions des variables doublons (exemple : dept).
Analyse variable par variable (recherche de valeurs manquantes ou
aberrantes).
26/01/07 : Fin de l’analyse variable par variable avec la proc univariate sous SAS.
Création des programmes des ACP pour l’étude des variables
sociodémographique et de consommation sous SAS.
02/02/07 : Analyse des résultats des ACP.
Création des programmes des méthodes de classification (CAH et
K-moyennes).
Du 09/02/07 au 09/03/07 : Analyse et interprétation des classifications.
Rédaction des descriptions et des analyses des résultats obtenus grâce
aux différentes méthodes, pour le rapport.
Du 16/03/07 au 23/03/07 : 2ème partie : arbre de décision, régression logistique et
rédaction finale du rapport.
10
I.1.5 - Logiciels utilisés
Pour l’étude de marché à traiter, nous avons utilisé le logiciel SAS (Statistical
Analysis System), qui est un logiciel d’analyse statistique, économétrique et de
recherche opérationnelle qui possède de puissants outils pour la gestion des
données, le calcul matriciel et la programmation d’applications graphiques. Ses
procédures de gestion de données et de calcul matriciel font que SAS est un
véritable langage de programmation.
Nous avons également utilisé le logiciel Excel pour les traitements préliminaires
tels que les analyses descriptives. Ce logiciel est un tableur électronique. Il sert
avant tout à créer des tableaux dans lesquels on peut inscrire des données et
effectuer des calculs. Il est également possible de tracer des graphiques pour
illustrer les valeurs inscrites dans les tableaux.
I.2 – Présentation des données
I.2.1 - La population en 1999
Analysis Variable : RD99PSDC
Minimum Maximum Moyenne Écart-type 1er centile 90e
centile 95e
centile 99e
centile
47 110359 1887 6897.57 136 3108 5581 15026
Tableau 1 : Statistiques descriptives de la population en 1999
11
Figure 1 : Répartition de la population en 1999
En étudiant la population, nous pouvons remarquer que 9 communes sur 10 ont
3000 ou moins de 3000 habitants, la moyenne étant de 1890 habitants par
commune dans le Haut-Rhin. Cet indicateur est à relativiser car l'écart type s'élève
à 6897. Seulement 5% des communes ont plus de 5500 habitants et 1% plus de
15026 habitants. Les villes de plus de 15000 habitants sont : Mulhouse (110359),
Colmar (65136), Saint Louis (19961) et Wittenheim (15026).
I.2.2 - L'âge
12
201511188390
94442
44136
178977178977
0
50000
100000
150000
200000
250000
0-20 ans 20-40 ans 40-60 ans 60-75 ans 75 ans et plus
Figure 2 : Répartition de la population selon l’âge
Nous pouvons dégager de ce graphique une part d’individu similaire dans les
classes 0-20 ans, 20-40 ans et 40-60 ans. 80% de la population a moins de 60 ans.
Les 75 ans et plus représentent seulement 6% de la population totale
I.2.3 - Les Ménages
13
86846
50500
41090
15619
7473
7429474294
0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000
Ménages de 1 personne
Ménage de 2 personnes
Ménages de 3 personnes
Ménages de 4 personnes
Ménages de 5 personnes
Ménages de plus de 6 personnes
Figure 3 : Répartition de la population selon le nombre de personnes dans le ménage
La majorité des ménages comportent 1, 2 voire 3 personnes (76% du nombre total
de ménages). Il y a seulement 7473 ménages de 6 personnes ou plus, sur 275822
ménages dans le Haut Rhin.
I.2.4 - Les CSP
10304
14540
19572
21424
35500
69828
73084
32003200
0 10000 20000 30000 40000 50000 60000 70000 80000
Agriculteurs, exploitants
Artisants, commerçants, chefs d''entreprise
Autres personnes sans actiités
Cadres
Employés
Professions intermédiaires
Retraités
Ouvriers
Figure 4 : Répartition de la population selon la CSP
Nous pouvons voir que le nombre d'agriculteurs est plus de 20 fois moins important
que celui des ouvriers. Les CSP les plus représentées sont les ouvriers, retraités, et
professions intermédiaires (70% du total). Il faut noter cependant que toute la
population du Haut Rhin n'est pas classée dans ces CSP, seulement 247452
habitants sur 707772.
I.2.5 - Les consommations
14
4,5
-3
7,36
14,5 14,75
0,93
17,27
-8,01-10
-5
0
5
10
15
20
Alim
enta
tion
Repas e
t
consom
mation
exté
rieure
Equip
em
ent
de
la p
ers
onne
Equip
em
ent
de
la m
ais
on
Auto
mobile
s e
t
cycle
s
Culture
et
lois
irs
Tabac e
t
cig
are
ttes
Autr
es
Figure 5 : Indices de consommation par rapport à l’indice national
Les données qui nous sont fournies pour les variables relatives à la consommation
sont en indices de consommation. Nous pouvons donc comparer les habitudes du
Haut Rhin en terme de consommation par rapport aux autres départements
français. Nous pouvons mettre en exergue une plus forte consommation alimentaire
dans ce département vis à vis des autres (4% supérieure à la moyenne). Ceci est
également vrai pour l'équipement de la personne. Nous constatons aussi que la
consommation en équipement de la maison et automobiles et cycles est bien
supérieure aux autres départements (+ 15%). Pour finir, les haut-rhinois
consomment 17,7% de tabac et cigarettes de plus que la moyenne nationale.
Pour la culture et les loisirs (téléphonie, appareils audiovisuels, informatique /
jeux video, audio, video, livres, journaux, papeterie, jouets, sports, camping,
plantes, fleurs, animaux), les habitants du Haut-Rhin ont une consommation
« presque semblable » à la moyenne française (+0,93%).
A l'inverse, nous voyons que les haut-rhinois consomment moins de repas à
l'extérieur du domicile (-3%) que les Français en général. De plus, pour les
consommations telles que les produits de parapharmacie, coiffure, esthétique,
nettoyage, blanchissage, santé, service, etc., les haut-rhinois ont une
consommation bien inférieure à celle des Français (-8%).
15
II- CLASSIFICATION DES VILLES DU HAUT-RHIN
16
II.1 - Nettoyage des données
Afin de pouvoir exploiter correctement les données, nous avons effectué des
analyses préalables afin d’évaluer les valeurs manquantes et aberrantes.
Tout d’abord, nous avons étudié les différentes variables pour les comprendre.
Nous avons donc observé que les variables de consommation étaient des IDC (Indice
de Disparité des Dépenses de Consommation) qui mesurent, par rapport à une
moyenne nationale –indice 100- le niveau des dépenses de consommation des
ménages, selon leur lieu de résidence, pour un produit ou une famille de produits
donnée. Ils permettent également de calculer le potentiel d’achat des ménages.
Nous avons ensuite concaténé les trois fichiers de données en un seul (nommé
projet) à l’aide du logiciel SAS, et nous avons supprimé les variables doublons,
comme le département.
Nous avons également effectué des analyses descriptives simples sur chaque
variable afin de repérer les valeurs aberrantes. Nous avons donc supprimé deux
villes : Magny et St Cosme puisque l’on observait des valeurs aberrantes telles que
le nombre de ménage de 1 personne qui est nul dans une petite commune ou
encore un nombre de ménage de plus de 6 personnes supérieur à 20%. Étant donné
la taille des villes, nous avons considéré que nous pouvions les supprimer.
Nous avons également constaté une valeur aberrante sur la ville de Bellemagny, il y
avait beaucoup de personnes âgées. Une vérification nous a appris qu’il y a une
maison de retraite dans cette ville. Comme Bellemagny est une petite ville, le
pourcentage trouvé est normal, nous avons donc gardé cette ville.
Nous avons également pu constater lors de la concaténation qu’une ville n’était
pas orthographiée de la même façon dans les différentes tables. Cette erreur a été
corrigée, afin d’avoir les bonnes valeurs pour la table projet, afin que les données
ne soient pas faussées.
17
De plus, nous avons supprimé l’effet taille des villes pour toutes les variables
sociologiques, en divisant leur valeur soit par la population en 1999 sans double
compte, soit par le nombre de ménages.
II.2 – L’Analyse en Composantes Principales
II.2.1 - Principe de l’ACP
L’analyse en composante principale est une méthode statistique exploratoire
d’analyse de données permettant une description essentiellement graphique de
l’information contenue dans de grands tableaux de données de type (individu *
variables quantitatives). Son objectif est d’extraire l’essentiel de l’information et
de la structurer. Dans la plupart des applications, il s’agit d’étudier p variables
mesurées sur un ensemble de n individus.
L’analyse en composante principale, notées ACP par la suite, est souvent
considérée comme la méthode de base de l’analyse factorielle des données dont
l’objectif est de déterminer des fonctions des p variables ou facteurs qui serviront
à visualiser les observations de façon simplifiée. En ramenant un grand nombre de
variables, souvent corrélées entre elles, à un petit nombre de composantes
principales (les premières) non corrélées, l’ACP est une méthode de réduction de la
dimension.
Le but de l’ACP est donc de fournir des représentations synthétiques de vastes
ensembles de données numériques, essentiellement sous forme de visualisations
graphiques planes. Les espaces initiaux de représentations des individus et des
variables étant de trop grandes dimensions, il est impossible d’y visualiser le nuage
de points, c’est-à-dire qui respectent le plus possible la configuration initiale.
La méthode consiste à projeter le nuage de points en minimisant les déformations
des distances inhérentes à la projection.
18
a) Les données et leurs caractéristiques
Les données sont généralement représentées sous la forme d’un tableau à n lignes
représentant les individus et à p colonnes correspondant aux variables. Le choix
des individus et des variables est une phase essentielle qui influence, les résultats
d’une ACP. Ce choix doit être fait en fonction des buts de l’étude ; les variables
doivent notamment décrire le plus possible les phénomènes que l’on cherche à
mettre en évidence.
b) Espace des individus
On associe aux données un nuage de points : chaque individu étant défini par p
coordonnées est alors considéré comme un élément d’un espace vectoriel de
dimension p, appelé espace des individus.
Les coordonnées des n individus sur un axe composent un vecteur colonne appelé
composante principale de l’axe.
Le principe de l’ACP est de visualiser le plus fidèlement possible, dans un espace
de faible dimension, ce nuage de points.
c) Espace des variables
Chaque variable est définie par n coordonnées ; on la considère alors comme un
vecteur d’un espace à n dimension appelé espace des variables.
Dans l’espace des variables, on s’intéressera aux angles plutôt qu’aux distances
puisque la représentation des variables se fera à l’aide du cercle des corrélations
de centre 0 et de rayon 1.
Mise en œuvre de l’ACP :
19
Nous avons réalisé la classification sur toutes les variables qui nous intéressaient,
auxquelles nous avions retiré l’effet taille. L’analyse a été réalisée sur SAS, grâce à
la macro ACP qui utilise la procédure proc princomp.
II.2.2 - Interprétation
II.2.2.1 – Interprétation dans le cas général
a) Qualité des représentations sur les plans principaux
L’ACP permet d’obtenir une représentation graphique des individus dans un espace
de dimension plus faible que p mais celle-ci n’est qu’une vision déformée de la
réalité. L’un des points les plus délicats de l’interprétation des résultats d’une ACP
consiste à apprécier cette déformation, autrement dit la perte d’information
engendrée par la réduction de la dimension, et à déterminer le nombre d’axe à
retenir.
Le critère habituellement utilisé pour mesurer la qualité d’une ACP est le
pourcentage d’inertie totale expliquée.
Nous pourrons déterminer le nombre d’axes à retenir de sorte que ce pourcentage
soit le plus significatif.
b) Nombres d’axes à retenir
En général on commence par analyser le premier plan factoriel. Si la qualité de
l’information n’est pas suffisante on doit alors considérer les axes suivants. On a
alors trois critères afin de savoir combien d’axes sont à retenir :
Inertie moyenne :
On conserve tous les axes restituant une inertie supérieur ou égale à l’inertie
moyenne (souvent égale à 1), c’est le critère de Kaiser.
Diagramme des valeurs propres
20
On recherche s’il y a une cassure dans l’évolution des valeurs propres et on
conserve les axes avant cette cassure.
Pourcentage d’inertie à priori
On retient les premiers axes tel que la somme des parts d’inertie restituées par ces
axes soit supérieure à un certain pourcentage fixé.
Ce critère n’est pas le meilleur car il pose le problème du choix du pourcentage, on
l’utilise plutôt en critère d’accompagnement.
c) Choix des variables
L’ACP construit les composantes principales, nouvelles variables artificielles
combinaisons linéaires des variables initiales. Interpréter une ACP, c’est donner
une signification à ces composantes principales (en fonction des variables initiales).
Pour choisir les variables, on se place dans le tableau des corrélations
(variables*facteurs) et on sélectionne les variables dont la valeur de la corrélation
en valeur absolue est supérieure à 0,7.
d) Choix des individus
L’étude des individus consiste à examiner leurs coordonnées et surtout les
représentations graphiques appelées plans principaux qui en résultent – le but
étant de voir comment se répartissent les individus, quels sont ceux qui se
ressemblent ou qui se distinguent.
Inversement, l’utilisation des résultats de l’étude des variables permet
d’interpréter les individus.
Dans cette étude des individus, il est aussi très utile de s’intéresser pour chaque
axe aux différentes contributions qu’ils apportent car elles peuvent aider à
l’interprétation des axes.
On a ainsi deux contributions, la contribution relative et la contribution absolue. La
première mesure la qualité de la représentation de l’individu sur un axe, et la
seconde mesure la part apportée par un individu à la construction de l’axe
On s’intéressera dans notre étude aux contributions relatives importantes c’est-à-
dire celles qui excèdent deux fois la contribution moyenne.
21
Il est à noter que lorsque les poids sont tous égaux, les contributions n’apportent
pas plus d’information que les coordonnées.
II.2.2.2 - Interprétation dans le cas de notre étude
a) ACP pour les variables sociodémographique
On a choisi de garder trois axes, grâce aux méthodes vues précédemment. Les
trois axes représentant seulement 49% de l’information.
De plus, seulement quelques variables sont bien représentés sur le premier cercle
des corrélations.
L’axe 1 restitue seulement 27% de l’information, il oppose les villes qui sont
composées de ménages d’une personne, de ménages vivant dans un immeuble ou
encore de ménages ayant une voiture et, en moindre partie, de ménages locataires
et de ménages n’ayant pas de voiture, avec les villes qui sont composées de
ménages propriétaires vivant dans une maison indépendante, ayant 2 voitures et
composés de 4 personnes.
Le premier groupe, c’est à dire celui caractérisé par les ménages d’une personne,
est composé entre autre de villes telles que Mulhouse, Lucelle, Colmar et le second
groupe est composé de villes telles que Schwoben, Fortschwihr, Hecken.
On constate que le premier groupe contient des villes qui ont soit un hypermarché
soit un supermarché et souvent les personnes qui n’ont pas ou ont une seule
voiture. A l’inverse, toutes les villes du deuxième groupe n’ont ni hypermarché ni
supermarché. On a ainsi les principales caractéristiques sociologiques des villes qui
22
contiennent un hypermarché, à savoir les ménages d’une seule personne, les
ménages vivant dans un immeuble et étant locataires, et également les ménages
possédant 0 ou 1 voiture.
L’axe 2 restitue 9% de l’information, il oppose deux groupes de villes sans
impliquer de variables particulières.
Le premier groupe est composé des villes telles que Buethwiller, Fessenheim ou
Appenwihr, et s’oppose aux villes telles que Lucelle, Rimbach-Pres-Guebwiller,
Bellemagny,…
Cet axe n’est pas vraiment significatif pour l’étude puisque dans aucun des deux
groupes il n’y a une majorité de villes contenant un hypermarché ou un
supermarché.
b) ACP pour les variables de consommation
On a encore choisi de garder deux axes, grâce aux méthodes vues précédemment.
Les trois axes représentant 82% de l’information.
De plus, toutes les variables de consommations sont bien représentées sur le
premier cercle des corrélations.
L’axe 1 restitue plus de la moitié (65%) de l’information, et caractérise un groupe
de ville selon des caractéristiques de consommation.
Le groupe de ville qui est constitué entre autres de Colmar, Mulhouse et
Wittenheim consomme principalement des produits de luxe tel que la parfumerie,
l’hygiène, la beauté, l’horlogerie, bijouterie et maroquinerie, coiffure esthétique,
santé et services ou des produits de loisirs tels que la téléphonie, les appareils
audiovisuels, les livres, cd, cassettes, audio vidéo, jouets, journaux et papeterie.
Ces villes dépensent également pour les arts de la table, les meubles et literie, les
linges de maison, les réparations (sauf automobile) et en tissus, mercerie et
vêtements (prêt à porter, sous-vêtements, lingerie, nettoyage, blanchissage).
23
A l’inverse, elles dépensent moins pour l’alimentation (pain, pâtisserie, fruits et
légumes, surgelés et glaces, boissons alcoolisées), pour l’énergie domestique et
pour les plantes, fleurs, animaux et jardins.
Ainsi le principal de la dépense des ménages de ces villes revient à tous ce qui
permet le bien être des ménages et ils dépensent moins pour tout ce qui concerne
l’alimentation.
Cependant, on constate que 4 des 9 villes qui ont un hypermarché sont dans ce
groupe et seulement 14 des 30 villes (47%) du groupe n’ont ni hypermarché ni
supermarché.
On constate alors que les ménages de ces villes ont un pouvoir d’achat qui est
assez important puisqu’ils peuvent se permettre de consommer de nombreux
produits autres que les produits primaires tels que l’alimentation.
L’axe 2 restitue seulement 17% de l’information.
Le deuxième axe oppose les villes qui consomment des produits d’entretien tels
que des appareils d’équipements ménagers, des produits de lavage, etc., ainsi que
des produits d’épicerie, aux autres villes.
Le groupe des villes qui consomment des produits d’entretien est entre autre
composé de Altkirch, Hirsingue, et le groupe opposé est composé de Saint-louis,
Illzach, Mulhouse, Cernay…
Le premier groupe possède 2 hypermarchés sur les 9 du département contre 7 sur 9
dans le groupe 2, et 40 villes sur 53 (soit 75%) ne possèdent ni supermarché, ni
hypermarché contre 15 sur 37 (soit 40%) dans le groupe 2.
c) ACP générale
On a cette fois choisi de garder trois axes, grâce aux méthodes vues
précédemment. Les trois axes représentant 62% de l’information.
24
De plus, la plupart des variables de consommations sont bien représentées sur le
premier cercle des corrélations.
On constate particulièrement trois groupes sur les axes 1 et 2.
On remarque que le premier groupe est constitué plutôt de grandes villes (9183
habitants en moyenne), la deuxième classe rassemble des villes petites et grandes,
la plus petite comptant 320 habitants et la plus grande, 110 359 habitants
(moyenne de 11 184 habitants) ; la troisième classe comporte plutôt des petites
villes (764 habitants de moyenne).
On a également pu voir qu’il n’y avait quasiment aucune différence de CSP en ce
qui concerne les trois groupes.
L’axe 1 restitue près de la moitié (40%) de l’information, et caractérise un groupe
de ville selon des caractéristiques de consommation.
Le groupe de ville qui est constitué entre autres de Colmar, Mulhouse, Saint Louis
ou Wittenheim, consomme principalement des produits de luxe tel que la
parfumerie, l’hygiène, la beauté et l’horlogerie, bijouterie et maroquinerie,
coiffure esthétique, santé et services ou des produits culturels tels que la
téléphonie, les appareils audiovisuels, les livres, cd, cassettes, audio vidéo, jouets,
journaux et papeterie. Ces villes dépensent également pour les arts de la table, les
meubles et la literie, les linges de maison, les réparations (sauf automobile) et en
tissus, mercerie et vêtements (prêt à porter, sous-vêtements, lingerie, nettoyage,
blanchissage).
A l’inverse, elles dépensent moins pour l’alimentation (pain, pâtisserie, fruits et
légumes, surgelés et glaces, boissons alcoolisées), pour l’énergie domestique et
pour les plantes, fleurs animaux et jardins.
Ainsi le principal de la dépense des ménages de ces villes revient à tout ce qui
permet le bien être des ménages et ils dépensent moins pour tous ce qui concerne
l’alimentation.
25
Cependant, on a constate que 7 des 9 villes qui ont un hypermarché sont dans ce
groupe et seulement 13 des 44 villes (30%) du groupe n’ont ni hypermarché ni
supermarché.
On constate alors que les ménages de ces villes ont un pouvoir d’achat qui est
assez important puisqu’ils peuvent se permettre de consommer de nombreux
produits autres que les produits primaires tels que l’alimentation.
L’axe 2 restitue seulement 13% de l’information.
Le deuxième axe oppose les villes dont les ménages ont 2 voitures et les villes des
ménages d’une personne.
Le groupe des villes des ménages qui ont deux voitures est entre autres composé de
Munster, Colmar, Dietwiller ou Cernay, et le groupe opposé est composé de
Aubure, Battenheim, Bellemagny, Bischwihr…
On constate que les villes qui ont principalement des ménages d’une personne
contiennent rarement un hypermarché ou supermarché (seulement une ville
contient un hypermarché et deux villes contiennent un supermarché soit 8%).
A l’inverse, on retrouve plus d'hypermarchés ou supermarchés dans les villes dont
les ménages ont 2 voitures, mais cela est peu significatif étant donné qu’il y a
moins de la moitié des villes qui en possèdent un (41%).
Cependant cela n’est vraiment pas significatif car quand on ne prend en compte
que les caractères sociologiques on constate l’inverse c'est-à-dire qu’il n’y a ni
hypermarché ni supermarché lorsque les ménages ont 2 voitures et qu’il y a en
majorité des hypermarchés pour les ménages d’une personne.
L’axe 3 restitue seulement 10% de l’information.
Il oppose les villes dont les ménages dépensent en chaussures ou en matériel de
sport et camping et les villes dont les ménages dépensent en Poissons, crustacés et
coquillage, en appareils d’équipements ménagers, en bricolage et en produits de
lavage.
26
Le groupe des villes des ménages qui dépensent en Poissons, crustacés et
coquillage, en appareils d’équipements ménagers, en bricolage et en produit de
lavage est constitué de Ruelisheim, Kiffis, Rixheim…
On constate que beaucoup de villes sont dans ce groupe (98 villes), parmi ces
villes on trouve 6 des 7 villes ayant un hypermarché.
On a également pu voir qu’il n’y avait quasiment aucune différence de CSP en ce
qui concerne les trois groupes (axe 1 et 2).
II.3 - La Classification Ascendante Hiérarchique
II.3.1 - Présentation de la CAH
La classification permet de regrouper les individus d'un jeu de données selon leur
degré de ressemblance, pour former des classes les plus homogènes possible. Nous
avons entre autres utilisé une méthode de classification hiérarchique, la méthode
de Ward.
La classification hiérarchique consiste à construire une suite de partitions en n
classes, n-1 classes, n-2 classes, etc., emboîtées les unes dans les autres de la
manière suivante :
Etape initiale :
- On adopte une partition initiale dans laquelle chaque individu constitue une
classe à lui tout seul.
- On calcule les distances entre chacune des classes de la partition initiale
(correspondant à cette étape aux individus).
- On crée une nouvelle partition en réunissant dans une même classe les deux
classes (ou individus) de la partition initiale les plus proches, selon le critère
d'agrégation retenu.
27
Etapes 1 à m :
- On calcule les distances entre chacune des classes de la partition
précédente.
- On crée une nouvelle partition en réunissant dans une même classe les deux
classes de la partition précédente les plus proches selon le critère
d'agrégation retenu.
- On recommence ce processus jusqu'à ce que le nombre de classes soit égal à
1.
On parle de classification hiérarchique ascendante, car chaque classe d'une
partition est incluse dans une classe de la partition suivante. Elle est dite
ascendante puisque l'analyse remonte de l'individu isolé vers le groupe.
A première vue, cette procédure apparaît contradictoire avec l’objectif fixé
puisque, en fin de parcours, tous les individus se retrouvent dans une seule classe.
En fait, à partir de l’étude des différents niveaux de regroupement, on peut
décider du nombre de groupes qui paraît le plus judicieux à retenir car au-delà les
regroupements seront jugés trop hétérogènes.
Mise en œuvre de la classification ascendante hiérarchique :
Nous avons réalisé la classification sur la plupart des variables, auxquelles nous
avions retiré l’effet taille. La classification a été réalisée sur SAS, grâce à la proc
cluster.
Choix du nombre de classes (clusters) à étudier :
Pour choisir le nombres de classes que l’on va étudier, on se base en général sur le
R2 semi-partiel, qui est fourni par le logiciel lorsque l’on effectue la classification
sous SAS.
Nous nous sommes aidés de cette valeur pour choisir le nombre de classes, mais
nous nous sommes aussi appuyés sur le dendrogramme obtenu sur SAS. On y voit
28
qu’entre trois et quatre classes, le R2 semi-partiel effectue un saut important, et
qu’il commence à devenir assez intéressant. Enfin, le choix du nombre de classes a
été confirmé par les résultats de l’ACP. En effet, on observe, sur le graphe des
axes 1 et 2, trois groupes distincts.
II.3.2 - Interprétation
II.3.2.1 – Variables socio démographiques
La première chose à noter lorsqu’on observe les résultats de la classification est
que la première classe regroupe 45 communes (12% du nombre total), la deuxième
en regroupe 258 (68,8%), et la troisième en compte 72 (19,2%).
On remarque que la première classe est constituée plutôt de grandes villes (9100
habitants en moyenne), la deuxième classe rassemble des villes plutôt petites
(moyenne de 680 habitants), et la troisième classe compte des villes moyennes
(1700 habitants de moyenne). La densité semble suivre la même tendance
puisqu’elle est en moyenne de 674 habitants/km2 dans la première classe, de 98
habitants/km2 dans la deuxième classe et de 190 habitants/km2 dans la troisième.
En revanche, il ne semble pas y avoir de différence entre les trois classes en ce qui
concerne la répartition de la population dans les différentes classes d’âge. La
répartition du nombre de personnes dans les ménages paraît aussi être la même
dans les trois classes.
Le nombre de logements considérés comme résidences principales avoisine les 90%
du nombre total de résidences dans chacune des trois classes. On observe
cependant que plus la population moyenne dans une classe est grande, plus le
nombre de logements en immeuble dans cette classe est grand. Au contraire, plus
la population moyenne dans une classe est grande, plus le nombre de logements
occupés à titre locatif dans cette classe est grand. On remarque que la proportion
de ménages possédant au moins 2 voitures est plus grand dans la classe regroupant
29
les villes à “faible” population que dans les deux autres classes (56% contre 43% et
48%).
On n’observe pas de différence significative de répartition des différentes CSP dans
les trois classes retenues.
II.3.2.2 – Variables de consommation
On peut dégager plusieurs oppositions entre les différentes classes en ce qui
concerne les variables de consommation, quand on regarde les statistiques
descriptives.
On voit tout d’abord que la première classe s’oppose aux deux autres sur le poste
“alimentation”. En effet, la moyenne de l’indice de consommation des villes de la
première classe est de 0,26, contre 5,41 et 3,89 pour les classes 2 et 3. Le poste
“alimentation” comprend plusieurs postes tels que “pain et pâtisserie fraîche”,
“fruits et légumes frais”, “viandes, volailles et charcuterie”, “épicerie”, etc. En
résumé, ce poste correspond à tout ce qui concerne les achats permettant de
préparer à manger chez soi.
La conséquence de l’observation précédente est l’opposition de la classe 1 aux
classes 2 et 3 sur le poste “repas et consommation extérieurs” (indice moyen : 4,81
contre -4,19 et -3,63).
Le poste “équipement de la personne” inclus les postes “prêt à porter”, “sous-
vêtements et lingerie”, “tissus et mercerie”, “chaussures”, “parfumerie, hygiène
et beauté” et “Horlogerie, bijoux et maroquinerie”. On observe sur ce poste une
opposition des classes 1 et 3 (indices moyens de consommation respectif : 14,44 et
10,57) avec la classe 2 (5,23).
Le poste “équipement de la maison” regroupe les postes “énergie domestique”,
“meubles et literie”, “linge de maison”, “appareils d’équipement ménager”, “arts
30
de la table”, “bricolage, peinture, sols et murs”, et “produits de lavage et
entretien”. On remarque plusieurs oppositions sur ces différents postes :
- Les classe 1, 2 et 3 s’opposent sur le poste “énergie domestique” (indices
respectifs : 4,82, 76,75 et 36,75). Elles s’opposent aussi sur le poste
“bricolage, peinture, sols et murs” (indices moyens : -6,12, 4,38 et 19,06).
- Les classes 1 et 3 s’opposent à la classe 2 sur le poste “meubles et literie”
(25,91 pour la classe 1 et 28,97 pour la classe 3 contre 13,33 pour la classe 2).
Ces classes s’opposent aussi sur le poste “arts de la table” (-6,30 et -3,13 pour
les classes 1 et 3 contre -15,99 pour la classe 2).
- Ce sont les classes 1 et 2 qui s’opposent à la classe 3 sur le poste “appareils
d’équipement ménager” (respectivement 10,80 et 11,96 contre 34,14).
- Le poste “produits de lavage et entretien” oppose, quant à lui, les classes 2 et
3 (-0,33 et 0,19) à la classe 1 (-2,72).
On note une opposition des classes 2 et 3 avec la classe 1 sur le poste “automobiles
et cycles” (15,88 et 14,73 contre 8,29).
Le poste “culture et loisirs” semble opposer les classes 1 et 3 à la classe 2
(respectivement 6,75 et 4,51 contre -1,08).
Les classes 1 et 3 s’opposent, enfin, à la classe 2 sur les postes “coiffure et
esthétique” (3,18 et 3,48 contre -4,96), “réparations, sauf automobile” (11,87 et
23,23 contre -13,40) et “santé et services” (6,00 et 6,13 contre 1,21).
II.3.2.3 - Conclusion
On peut dire, en conclusion, que les trois classes que nous avons déterminées se
distinguent sur de nombreux points :
La première classe semble être caractérisée par des villes de grandes tailles, à
forte densité (par rapport aux villes composant les autres classes). C’est dans les
villes de cette classe qu’il y a le plus de logements, pour beaucoup en immeubles
et occupés à titre locatif. Les habitants de ces villes préparent moins de repas chez
31
eux que les habitants des villes composant les autres classes, mais il consomment
plus de repas à l’extérieur. Des villes des trois classes, celles de la première sont
celles qui ont le plus fort taux de consommation (en moyenne) de vêtements,
chaussures, produits d’hygiène et de beauté, bijoux et maroquinerie. En revanche,
elles ont le moins fort taux de consommation d’énergie domestique, de produits de
bricolage et peinture, de produits de lavage et d’entretien et d’automobiles et
cycles.
La seconde classe paraît être composée de villes de petite taille, avec une densité
faible par rapport à celle des autres classes. A l’inverse de la classe précédente,
dans celle-ci c’est la proportion de logements individuels et occupés à titre
propriétaire qui semble être la plus forte. C’est aussi dans la classe 2 que la
proportion de ménages possédant 2 voitures est la plus forte. De tous les ménages
du Haut-Rhin, ce sont ceux qui habitent dans les villes de la deuxième classe qui
ont le moins fort taux de consommation (en moyenne), en ce qui concerne les
vêtements, chaussures, produits d’hygiène et de beauté, bijoux et maroquinerie ;
ainsi qu’en ce qui concerne les meubles, la literie, les équipements d’arts de la
table, la culture, les loisirs, la santé et les services. Par contre, ce sont eux qui
consomment le plus d’énergie domestique.
La troisième classe apparaît comme un intermédiaire entre les deux premières. Les
villes ont tendance à y être de taille et de densité moyennes. Cependant, ces villes
sont celles qui dépensent le plus (en moyenne) en appareils d’équipement ménager
et en produits de lavage et d’entretien. C’est aussi dans ces villes que les dépenses
moyennes de santé et de services sont les plus fortes.
II.4 - La méthode des K-moyennes
II.4.1 – Présentation de la méthode
La classification consiste à partitionner l’ensemble des individus en classes
homogènes à l’intérieur des groupes. L’objectif de la classification est donc
32
d’explorer des données, de les réduire éventuellement, de les valider en infirmant
ou en confirmant une hypothèse soutenue, d’agir sur les individus suivant la nature
du groupe où ils se trouvent. Le regroupement d’objets ou d’individus en classes
peut générer des hypothèses à tester dans une étape ultérieure.
Contrairement aux méthodes de classification hiérarchiques, les méthodes de
partitionnement fournissent une partition unique des éléments à classer. Le
nombre de classes de la partition à construire doit être fixé au départ.
A partir d’un ensemble de n individus, on cherche à constituer des classes
d’individus en nombre k fixé a priori. Une partition optimale peut être obtenue à
condition d’énumérer de façon exhaustive toutes les partions possibles, ce qui est
prohibitif du point de vue du temps de calcul.
Cette méthode de partitionnement est basée sur une distance ou un indice de
similarité entre objets à classer. Se retrouvent dans une même classe les objets qui
sont très proches les uns des autres en termes de distance ou d’indice de
similarité.
Algorithme k-means:
1) Choisir k objets au hasard : ils servent de centres des classes initiales.
2) Affecter chaque objet au centre le plus proche ; il en résulte une
partition en k classes.
3) Recalculer les centres de chacune de ces classes : chaque classe est
représentée par son centre qui, en général, n’est pas un point de
l’échantillon.
4) Répéter les pas 2 et 3 jusqu’à stabilité des centres (les centres ne
bougent plus).
Tout au long de l’algorithme, on mesure 2 composantes de l’inertie du nuage de
point de l’origine, l’inertie interclasse et inertie intra classe :
33
Au fur et à mesure que l’on déroule l’algorithme, l’inertie intra classe diminue (les
individus dans les classes sont de plus en plus homogènes), et donc, l’inertie inter
classe augmente (les groupes sont de plus en plus distincts).
Pour notre étude, nous avons décidé de choisir les k individus selon l’ACP et la CAH
réalisées auparavant. Sur le graphique des individus, nous distinguons 3 groupes,
nous avons donc choisi les 3 individus qui sont au centre de leur groupe respectif.
Ces individus (ici des villes) sont : Niederhergheim, Wuenheim et Guebwiller. Les
centres des classes initiales pour la classification par k-moyennes sont donc ces 3
individus.
II.4.2 – Résultats de la classification
Figure 6 :Diagramme du nombre de villes incluses dans chaque classe (K-moyennes)
Après avoir effectué la procédure fastclus sous SAS, on distingue 3 groupes
(clusters) peu homogènes : un groupe de 45 villes, un groupe de 258 villes et, un
groupe de 72 villes.
II.4.2.1 – Variables socio démographiques
34
Les différences :
Même si la classification n’a pas été effectuée avec les variables RD90PSDC,
RD99PSDC, RD90MEN, RD99MEN, RD99DENS et RL99, pour ne pas avoir un effet
taille, les 3 groupes se distinguent par le nombre d’habitants par ville. En effet, le
premier groupe est constitué de grandes villes (en moyenne, 9000 habitants), le
deuxième regroupe majoritairement des petites communes (700 habitants en
moyenne). Le troisième groupe, quant à lui, rassemble des communes de 1700
habitants en moyenne. Lorsque nous nous intéressons aux nombres de ménages,
nous observons également que le nombre moyen de ménages et le nombre moyen
de logements sont proportionnels au nombre moyen d’habitants. Ceci est
également vrai pour la densité de population. Dans le groupe des grandes villes, la
densité moyenne est de 674 habitants au km², alors que celle dans les petites
communes (deuxième groupe) est de 97 habitants au km².
Le nombre de résidences principales représente 9 logements sur 10 dans les trois
groupes. Nous pouvons tout de même mettre en exergue une proportion plus
élevée de logements en immeubles dans les villes, où le nombre d’habitants est
élevé, que dans les villes où la population est moins importante (36% contre 12%).
Les logements à titre locatif sont plus nombreux dans les grandes villes que dans
les petites communes (30% contre 12% et 20%). On retrouve plus de propriétaires
dans les petites communes (80% contre 64% et 71%). Les habitants des petites
communes sont majoritairement plus nombreux à avoir un logement individuel par
rapport aux habitants des grandes villes (85% contre 62%). Les ménages des
communes à faible population sont 15 % plus nombreux à posséder 2 voitures ou
plus, que les ménages du 1er et 3ème cluster.
Les similitudes :
Les classes d’âges sont représentées de la même façon dans les trois groupes, la
classification ne change rien. Également, la composition des ménages est
semblable dans les 3 clusters, ce sont les ménages de 2 personnes qui sont les plus
35
importants (30% des ménages dans les 3 clusters). Pour finir, il n’y pas de
différences quant à la répartition des CSP dans les trois classes.
II.4.2.2 – Variables de consommation
En s’intéressant aux variables liées à l’alimentation, nous pouvons remarquer que
le premier groupe se distingue des deux autres. En effet l’indice de consommation
est de 0.26 pour le premier groupe contre 5.4 et 3.89 pour le deuxième et
troisième groupe. La variance inter classe pour cette variable représente 94% de la
variance totale. Les classes se distinguent entre elles, et les individus à l’intérieur
des classes sont homogènes.
Les variables présentes dans la rubrique alimentation regroupent les achats
effectués pour l’alimentation à domicile (pain, pâtisserie, fruits et légumes,
viandes, volailles charcuterie, poissons, crustacés, Beurre …). Les individus des
classes 2 et 3 se différencient de la classe 1 pour les repas et consommations pris à
l’extérieur du domicile (indices :-4.192 et –3.63 contre 4.81). En effet, ces
individus consomment moins en alimentation à l’extérieur de leur domicile et plus
à l’intérieur.
36
Figure 7 :Croisement des différentes classes de villes pour les variables Alimentation et
Repas et consommation extérieurs
On observe également un fossé entre le cluster 2 et les clusters 1 et 3 pour
l’ensemble des variables relatives à l’équipement de la personne. Les habitudes
des habitants pour le prêt à porter, les sous vêtements, le tissu, les chaussures, la
parfumerie, la maroquinerie diffèrent selon si ils habitent dans les villes ou non. La
variance inter classe représente 71% de la variance totale.
Pour l’équipement de la maison, les oppositions sont plus dures à cerner, en effet
les oppositions diffèrent de la manière suivante :
Opposition entre les 3 classes pour les variables : énergie domestique (indices :
4.82, 76.747 et 36.75), art de la table (indices : -6.3, –15.987 et –3.13), bricolage,
peinture, sols et murs (indices : –6.12, 4.385 et 19.06) et produits de lavage et
entretien (indices : –2.72, –0.326 et 0.19).
Les classes 1 et 3 se distinguent de la 2ème classe pour les variables : meubles et
literie (indices : 25.91 et 28.97 contre 13.33), linge et maison (indices : 34.08 et
29.46 contre 22.151).
Pour les appareils d’équipement ménager, les clusters 1 et 2 s’opposent au cluster
3 (indices : 10.8 et 11.958 contre 34.14).
37
Figure 7 :Croisement des différentes classes de villes pour les variables Équipement de la
personne et Équipement de la maison
Du côté des loisirs (téléphonie, informatique, journaux, jeux, sports, camping,
plantes, animaux…), des produits de parapharmacie, de la santé et services,
l’esthétique et le nettoyage et blanchissage, les villes appartenant au premier et
troisième groupe se séparent du deuxième groupe. La part des variances inter
classes respectives représente plus de 80% des variances totales.
Pour conclure, nous pouvons admettre que même si la classification permet
d’observer des différences entre les trois classes par rapport aux variables socio
démographiques (surtout en nombre d’habitants), nous pouvons dire qu’elles n’ont
pas un rôle significatif majeur pour diviser la population en trois groupes. En effet,
pour une grande partie de ces variables, la variance intra classe est plus élevée que
la variance inter classe. Ceci étant, nous voyons tout de même que les grandes
villes (groupe 1) se caractérisent par un nombre d’immeubles et de locataires plus
important que dans les petites communes (groupe 2 et 3). Le nombre de
propriétaires dans les grandes villes est inférieur aux deux autres groupes. Les
habitants des petites villes possèdent plus de voitures que les urbains.
38
Pour les variables conso, on peut mettre en exergue une forte disparité des classes
pour chaque variable mais une homogénéité à l’intérieur de celles-ci (forte
variance inter classe et faible variance intra classe). La première classe se
distingue des deux autres pour la consommation alimentaire. Les habitants de ce
groupe mangent moins à l’intérieur de leur domicile et prennent plus de repas à
l’extérieur que les deux autres classes. Ils consomment plus en équipement de la
personne (prêt à porter, sous vêtements, tissus, chaussures…). Pour les loisirs, les
classes 1 et 3 se distinguent de la deuxième classe (petites communes).
Pour ce qui concerne les équipements pour la maison (énergie domestique,
bricolage, meubles, linges de maison, art de la table, appareils ménager…), le plus
grand indice de consommation appartient au groupe 3, c’est à dire les communes
de taille moyenne.
II.5 - Comparaison des méthodes de classification
II.5.1 – Avantages et inconvénients de la classification par K-moyennes
La classification par K-moyennes a l’avantage d’être facile à mettre en œuvre
(l’algorithme est simple), et le nombre de calculs à effectuer à chaque itération
est limité, d’où un coût en temps moindre. De plus, l’algorithme améliore à chaque
itération la qualité des classes (la variance intra-classe diminue). Enfin, le nombre
de classes est connu à l’avance, et défini par l’utilisateur.
Le grand inconvénient de cette méthode de classification est que le résultat final
dépend de la sélection des individus de départ, et il est lié au choix de la fonction
distance. Le fait que le nombre de classes doit être fixé à l’avance peut aussi être
un inconvénient, puisqu’il ne permet pas de déterminer, au vu des résultats, un
nombre de classes optimal.
II.5.2 – Avantages et inconvénients de la classification ascendante hiérarchique
39
L’avantage de la classification ascendante hiérarchique par rapport à la méthode
des k-moyennes est qu’on n’a pas besoin de fixer le nombre de classes que l’on
souhaite obtenir. On pourra le fixer de manière optimale plus tard, au moyen
d’indicateurs comme le R2 semi-partiel.
De plus, l’algorithme est précis, et les résultats sont facilement lisibles, grâce à
leur présentation sous forme de tableau ou de dendrogramme.
L’inconvénient de cette méthode est qu’elle est coûteuse au niveau du nombre de
calculs. En effet, il est de l’ordre de n3 (où n est le nombre d’individus de départ),
ce qui dépasse rapidement les capacités des machines les plus puissantes, quand on
travaille sur de grosses bases de données.
II.5.3 - Comparaison des résultats trois méthodes
On considérera ici l’ACP comme une méthode de classification puisqu’elle permet
de séparer des groupes de villes sur les axes factoriels.
Après mise en oeuvre et analyse des résultats des trois méthodes utilisées, on se
rend compte qu'elles n'induisent pas de différences notables d'interprétation. Il a
été alors décidé de ne pas choisir seulement une des trois méthodes pour
caractériser les différents groupes de villes, mais de s'appuyer sur les résultats des
trois méthodes. De plus, les méthodes de classification par K-moyennes et de
Classification Ascendante Hiérarchique ont donné lieu à des résultats exactement
identiques.
Le premier critère de différenciation des groupes que les différentes méthodes ont
distingué, est la taille des villes composant ces groupes. On observe la présence
d'un groupe de "grandes" villes, d'un groupe de villes "moyennes", et d'un groupe de
"petites" villes ; et cela même si la population moyenne dans chaque groupe diffère
suivant la méthode de classification utilisée.
La répartition des supermarchés et hypermarchés semble avoir un lien avec la taille
des villes, puisque le groupe des grandes villes rassemble la quasi-totalité des
40
hypermarchés du Haut-Rhin, et une grande majorité des villes qui le composent
bénéficient d'un supermarché. La proportion de supermarchés par rapport au
nombre de villes composant la classe des villes de taille moyenne est plus faible, et
peu de petites villes disposent d'un supermarché.
On s'aperçoit aussi qu'il n'y a pas de différence de répartition entre les groupes de
villes, en ce qui concerne l'âge et la CSP.
Les trois méthodes s'accordent pour montrer que les grandes villes ont un plus petit
indice de consommation que les autres groupes dans les postes d'alimentation et
d’énergie domestique, mais que cet indice est plus fort que celui des autres villes
dans les postes d'équipement de la personne, équipement de la maison, loisirs et
culture, santé et services, coiffure et esthétique, réparations (sauf automobiles).
La principale différence que l’on peut noter entre les trois méthodes de
classification est que l’ACP permet de dégager des groupes caractérisés (entre
autres) par la répartition du nombre de voitures par foyer ; alors que les deux
autres méthodes de classification ne mettent pas en évidence ce caractère.
41
III – Choix de la ville d’implantation de l’hypermarché
42
Maintenant que des groupes de villes ont été mis en évidence, on peut tenter de
déterminer quelle ville représenterait l’emplacement idéal pour un hypermarché.
On peut pour ce faire utiliser plusieurs méthodes.
III.1 – La régression logistique
La régression logistique est une technique statistique qui a pour objectif, à partir
d’un fichier d’observations, de produire un modèle permettant de prédire les
valeurs prises par une variable catégorielle, le plus souvent binaire, à partir d’une
série de variables explicatives continues et/ou binaires. On peut la mettre en
concurrence avec l’analyse factorielle discriminante pour trouver le meilleur
modèle, c'est-à-dire celui pour lequel le taux d’individus mal classés sera minimal.
On utilise la procédure logistic pour mettre en œuvre cette méthode sous SAS.
Pour débuter la régression logistique, nous avons sélectionné 1/3 des villes ne
possédant pas d’hypermarché (soit 122 villes) et les 9 villes possédant un
hypermarché. Nous avons donc un échantillon de 131 villes. A partir de cet
échantillon d’apprentissage, nous avons lancé la régression logistique grâce au
logiciel SAS. Nous avons observé que le modèle ne convergeait pas, ce qui signifie
que l’estimateur du maximum de vraisemblance n’existe pas. Cela est dû à la
redondance des variables, c’est-à-dire de la forte corrélation entre elles. Nous
avons donc supprimé les variables redondantes et relancé le modèle jusqu’à
convergence. Cependant, même après convergence, on obtient un mauvais modèle.
Les probabilités d’appartenance à la classe hypermarché (calculé grâce à la
formule P(Y=1|X=x) vu plus haut) étaient incohérentes car de nombreuses villes
ayant moins de 600 habitants avaient des probabilités proches de 1. De plus, dans
cette analyse nous avons constaté qu’il y a un nombre disproportionné entre les
villes possédant un hypermarché et les autres.
Classification Evènement Non évènement Total
Evènement 118 6 124
Non évènement 4 3 7
43
Total 122 9 131
Tableau 2 : Classements pour la variable hypermarché obtenus sous SAS (1)
Nous avons donc décidé de rajouter la variable population, et de compter autant
de fois une ville qu’elle contient d’hypermarchés. En effet, la variable population
est importante dans le choix de la ville où se situe un hypermarché et une ville
contenant plusieurs hypermarchés a plus d’importance dans le modèle. Nous avons
réinterprété les corrélations afin de supprimer les variables redondantes sur le
nouveau jeu de données. Puis nous avons relancé le modèle jusqu’à convergence et
nous l’avons analysé. On obtient de nouveau un mauvais modèle, car il y a un
mauvais classement.
Nous avons ensuite créé un nouvel échantillon avec toutes les villes possédant un
supermarché et toutes celles comprenant un hypermarché (avec doublons pour les
villes possédant plusieurs hypermarchés). Nous avons ensuite relancé la proc corr
pour supprimer les corrélations fortes et nous avons relancé le modèle jusqu’à
convergence. Nous obtenons donc un meilleur modèle avec des résultats cohérents.
Cependant les classements sont assez mauvais puisque seulement 4 villes possédant
un hypermarché sont bien classées.
Classification Evènement Non évènement Total
Evènement 4 46 50
Non évènement 8 6 14
Total 12 52 64
Tableau 3 : Classements pour la variable hypermarché obtenus sous SAS (2)
Grâce à ce modèle, nous avons pu calculer les probabilités d’appartenance à la
classe "hypermarché=1" (c'est-à-dire la probabilité d’avoir un hypermarché). On
obtient donc deux villes ayant de fortes probabilités : Ottmarsheim avec une
probabilité de 69.14% et Volgesheim avec une probabilité de 64.47%. Cependant,
ces villes ont respectivement une population de 1926 et 2382 habitants. Une ville
ayant également une forte probabilité est Colmar avec 52.84% et 65136 habitants.
44
III.2 - L’analyse factorielle discriminante
L’analyse factorielle discriminante se déroule en trois étapes : la première est la
sélection des variables discriminantes, c'est-à-dire celles qui vont jouer un rôle
important dans la construction du modèle. On réalise cela sur SAS en utilisant la
proc stepdisc. En second lieu, la discrimination est la création d’une fonction
discriminante, combinaison linéaire des variables explicatives qui sépare au mieux
les classes à expliquer (ici on tente d’expliquer la présence ou non d’un
hypermarché). La fonction peut être linéaire ou quadratique. La troisième étape
consiste à tenter de reconnaître la classe de chaque individu (ici les villes), à partir
du résultat qu’on obtient lorsqu’on lui applique la fonction déterminée en
deuxième étape. C’est la proc discrim qui permet d’obtenir les résultats de
l’analyse factorielle discriminante sous SAS.
L’idée de l’estimateur des k plus proches voisins consiste à considérer le volume
couvert par les k plus proches voisins d’un point donné, pour lequel on veut estimer
la densité. Le choix de la valeur de k se fait à la main, ou par validation croisée.
On classe chaque individu dans une classe i si parmi ses k plus proches voisins, le
nombre d’individus appartenant à la classe i est supérieur au nombre d’individus
appartenant à toutes les autres classes. Sur SAS, c’est aussi la procédure discrim
qui permet l’application de cette méthode.
Pour effectuer l’analyse factorielle discriminante (AFD), nous avons utilisé les
mêmes individus que lors de la dernière régression logistique (villes possédant un
supermarché ainsi que les villes ayant un hypermarché). Nous avons comparé trois
méthodes de l’AFD pour obtenir le meilleur modèle. Ces trois méthodes sont les
plus proches voisins, l’AFD linéaire et l’AFD quadratique. Pour chacune de ces
45
méthodes, nous avons lancé le modèle sur toutes les variables ainsi que sur les
variables sélectionnées par la procédure stepdisc qui sont RD99PSDC, RD99MEN6P,
CSP5P, RL99GRAP, Sante_et_Services.
III.2.1 - Méthode des plus proches voisins
On obtient donc (avec un nombre de voisins optimal égal à 12) les valeurs
suivantes pour toutes les variables :
Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans
hypermarché) égal à 3.85% et un taux de mal classés dans la population 1 (c’est-à-
dire avec hypermarché) égal à 16.67%, soit un total de 6.25% de mal classés.
Pour le jeu de données avec les variables de la stepdisc, on obtient :
Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans
hypermarché) égal à 5.77% et un taux de mal classés dans la population 1 (c’est-à-
dire avec hypermarché) égal à 75.00%, soit un total de 18.75% de mal classés.
III.2.2 - Méthode linéaire
On obtient les valeurs suivantes pour toutes les variables :
46
Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans
hypermarché) égal à 28.85% et un taux de mal classés dans la population 1 (c’est-à-
dire avec hypermarché) égal à 33.33%, soit un total de 29.69% de mal classés.
Pour le jeu de données avec les variables de la stepdisc, on obtient :
Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans
hypermarché) égal à 5.77% et un taux de mal classés dans la population 1 (c’est-à-
dire avec hypermarché) égal à 58.33%, soit un total de 15.63% de mal classés.
III.2.3 - Méthode quadratique
On obtient donc les valeurs suivantes pour toutes les variables :
Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans
hypermarché) égal à 0.00% et un taux de mal classés dans la population 1 (c’est-à-
dire avec hypermarché) égal à 58.33%, soit un total de 10.94% de mal classés.
Pour le jeu de données avec les variables de la stepdisc, on obtient :
47
Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans
hypermarché) égal à 7.69% et un taux de mal classés dans la population 1 (c’est-à-
dire avec hypermarché) égal à 75.00%, soit un total de 20.31% de mal classés.
Au vu des résultats, on observe que la meilleure méthode est celle des plus proches
voisins (taux de mauvais classement total le plus faible).
Ensuite, avec cette méthode, on calcule les distances de Mahalanobis sous SAS. On
observe ainsi que deux villes classés sans hypermarché (classe 0) sont, après la
procédure, reclassées dans la classe 1. Ce sont donc les deux villes potentiellement
capables d’accueillir un hypermarché.
Ces deux villes sont Volgelsheim et Colmar. Sur la table de sortie « result », on
observe que leurs probabilités d’appartenir à la classe 1 sont respectivement égale
à 61.54% et à 58.33%.
III.3 - Décision finale
Grâce à l’analyse factorielle discriminante, nous avons deux villes potentielles pour
l’implantation d’un hypermarché, Volgelsheim et Colmar. De plus, dans les
48
classifications et analyse des composantes principales, nous avions trois groupes.
Le premier contenait principalement les villes possédant un hypermarché, le
second regroupait les villes ayant principalement des supermarché et le troisième
comprenait les autres villes. Or, Colmar se situe dans le premier groupe pour
chacune des classifications, à l’inverse de Volgelsheim qui se situe dans le
deuxième groupe. On peut ainsi penser que Colmar est plus apte à recevoir un
hypermarché, étant donné que ses habitants ont un profil sensiblement identique à
ceux des villes possédant un hypermarché. De plus, Colmar est une ville importante
dans le Haut-Rhin, avec une population égale à 65136 habitants et pourtant ne
possédant pas d’hypermarché.
C’est pourquoi, au vu de notre étude, nous avons décidé que la ville la plus
susceptible d’avoir un hypermarché est Colmar.
III.4 - Partie client
Afin de répondre au problème, nous avons dans un premier temps classé les villes
du département du Haut-Rhin, dans trois groupes, selon des critères socio
démographiques et de consommation. Le premier groupe est caractérisé par une
forte consommation de produits de bien être (parfumerie, culture, coiffure,
loisirs…) par rapport aux deux autres groupes et à l’inverse, une consommation
moindre en ce qui concerne les produits d’alimentation. Sept des neuf villes du
Haut-Rhin possédant un hypermarché se retrouvent dans ce groupe. Un deuxième
groupe est caractérisé par des villes de taille moyenne possédant un supermarché.
Le dernier groupe représente les petites communes.
Dans un second temps, nous avons utilisé des méthodes statistiques discriminantes
pour déterminer la probabilité de présence d’un hypermarché, pour chaque ville.
Deux des villes possédant des supermarchés mais pas d’hypermarché ont une
probabilité de présence d’un hypermarché supérieure à celle de non présence d’un
hypermarché. Cela signifie que ce sont les deux villes potentiellement aptes à
recevoir un hypermarché. Ces deux villes sont Volgelsheim et Colmar.
49
Nous avons constaté que Colmar se trouvait dans le premier groupe dégagé dans la
première partie tandis que Volgelsheim se situait dans le deuxième groupe. Ainsi
nous préconisons d’implanter un hypermarché dans la ville de Colmar.
50
CONCLUSION
Nous avons vu dans cette étude que les villes du Haut-Rhin peuvent être séparées
en trois groupes, de caractéristiques différentes. En partant de ces
caractéristiques, couplées avec différentes méthodes statistiques de
discrimination, nous avons pu déterminer que la ville dans laquelle il serait optimal
d’implanter un hypermarché est la commune de Colmar.
Ce projet a été très bénéfique pour nous, car il nous a permis de travailler en
groupe, et de mettre en œuvre sur un exemple concret des méthodes statistiques
que nous n’avions utilisées jusqu’ici que sur des jeux de données petits et
« propres ». De plus, ce projet nous a permis de réaliser une étude complète à
partir d’une problématique réelle, chose importante dans notre formation
professionnalisante.
51
TABLE DES TABLEAUX
Tableau 1 : Statistiques descriptives de la population en 1999........................10 Tableau 2 : Classements pour la variable hypermarché obtenus sous SAS (1) .......43 Tableau 3 : Classements pour la variable hypermarché obtenus sous SAS (2) .......43
TABLE DES GRAPHIQUES
Figure 1 : Répartition de la population en 1999..........................................11 Figure 2 : Répartition de la population selon l’âge ......................................12 Figure 3 : Répartition de la population selon le nombre de personnes dans le ménage .........................................................................................13 Figure 4 : Répartition de la population selon la CSP.....................................13 Figure 5 : Indices de consommation par rapport à l’indice national ..................14 Figure 6 :Diagramme du nombre de villes incluses dans chaque classe (K-moyennes)...................................................................................................33 Figure 7 :Croisement des différentes classes de villes pour les variables Alimentation et Repas et consommation extérieurs .....................................36 Figure 7 :Croisement des différentes classes de villes pour les variables Équipement de la personne et Équipement de la maison ..............................................37