le multidimensional scaling et la cartographie des préférencescedric.cnam.fr/~saporta/mds.pdf ·...

38
Le Multidimensional Scaling et la cartographie des préférences Gilbert Saporta Conservatoire National des Arts et Métiers http://cedric.cnam.fr/~saporta Avril 2014

Upload: others

Post on 05-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

Le Multidimensional Scaling et la cartographie des préférences

Gilbert Saporta Conservatoire National des Arts et Métiers http://cedric.cnam.fr/~saporta Avril 2014

Page 2: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

Multidimensional scaling • Egalement appelé « positionnement

multidimensionnel », « analyse des proximités »

• Objectif: à partir d’un ou plusieurs tableaux de distances ou de dissimilarités entre n objets, reconstituer une image dans un espace euclidien

Page 3: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Exemple: reconstituer une carte connaissant le tableau des distances entre n villes de France

Desbois, 2005

Page 4: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

Page 5: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Mais aussi:

Page 6: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

1. Le cas « classique »: tableau de distances euclidiennes; principal coordinate analysis

• Axiomes:

( ) ( )( )12

0

0ij

ii

ij ji

ij ik kj

ij

ddd dd d d

d

==

≤ +

= i j i je - e 'M e - e

dissimilarité distance

Distance euclidienne

Page 7: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Rappels d’ACP – Tableau de données X – Facteurs principaux Vu=λu nV=X’X – Composantes principales c=Xu 1/n Wc= λc W=XX’ matrice nxn des produits

scalaires • Si on trouve W à partir de la matrice des

(carrés des) distances D, le problème est résolu

Page 8: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

La formule de Torgerson

On pose: d..2 n’est autre que deux fois l’inertie I

.

.

. .

2 2

1

2 2

1

2 2 2..

1 1

1

1

1 1

i

j

i j

n

ijj

n

ijin n

j j

d dn

d dn

d d dn n

=

=

= =

=

=

= =

∑ ∑

( ). . ..

2 2 2 212 i jij ijw d d d d= − − − +

Page 9: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Démonstration – Formule du triangle

( )

222

222

222 22 2 ... .

2 222 2 2.. ... .

2

12

1 1 1 1 02 2 2

1 1si les axes sont centrés sur g car ;

et 2 2

ij i j ij

ij ij i j

ij i i j i ij j

ij i jj j

i i j j

d e e w

w d e e

dw d e e d en n

w e en n

d de d e d

= + −

= − − −

= − − − = − − − =

= < >

= − = −

∑ ∑

∑ ∑

Page 10: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Matriciellement – Opérateur de centrage

– Double centrage en lignes et en colonnes

1n

= −A I 11'

12

= −W ADA

Page 11: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Les coordonnées sur les axes principaux sont données par les vecteurs propres de W

• Les vecteurs propres doivent être normalisés comme suit

• Le nombre de valeurs propres non nulles donne la dimension de l’espace

• Distance euclidienne si aucun λ négatif

2

1

1 n

ii

cn

λ=

=∑

Page 12: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

2. La méthode de la constante additive • Si d n’est pas euclidienne. En ajoutant c2 à

tous les carrés de distance, on peut la rendre euclidienne

( )

( )

2 2 2

2 2 2

2 2 2 2

2 2 2

2 2 2

2 2

et 0

001

2 200

( )

( 1)2 2

ij ij ii

d c

c

c

d c

c c cc c c cc c cc c c

puisque nc cn n

δ

δ δ= + =

= +

= − = − =

= − − − =

W W W

W A A A 11'- I A

11' I - A

W A I A A A

Page 13: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Les vecteurs propres de Wδ sont les mêmes que ceux de Wd car ils sont centrés.

• Leurs valeurs propres sont augmentées de c2/2

• Il suffit alors de prendre c2/2= |λmin| • Transforme directement une dissimilarité

(pas d’inégalité triangulaire) en une distance euclidienne

Page 14: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

F.Cailliez a résolu en 1983 le problème consistant à ajouter la plus petite constante à la distance d’origine : cette constante est la plus grande valeur propre de la matrice carrée suivante de taille 2n est la matrice de Torgerson où les carrés sont remplacés par les distances. Dans les deux cas, il ne faut pas que la constante soit trop grande

0 24

d

d

WI W

− −

dW

Page 15: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

3. Le MDS semi metrique • Rechercher une configuration de n points dans

un espace de dimension p fixée à l’avance, dont les interdistances δij soient proches d’une fonction monotone des dissimilarités dij

• La méthode de Kruskal de minimisation du STRESS

• f transformation monotone (on ne garde que l’information portée par l’ordre des dissimilarités)

( )

( )

2

,2

,

( )min

ij iji j

iji j

f dδ

δ

−∑

Page 16: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Algorithme: – On part d‘une configuration euclidienne. – On calcule les disparités f(dij)et le stress par

régression monotone – On modifie la configuration à l’aide d’une

méthode de gradient en déplaçant les points pour diminuer le stress

– Etc.

Page 17: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

La régression monotone simple

• Régression simple sur variable transformée

( )2

1min ( )

n

i iT iy T x

=

−∑

Si relation monotone T(x)=y

G.Saporta, avril 2014

Page 18: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

• Algorithme de Kruskal: • Si y2<y1 on pose T(x1)=T(x2)= (y1+y2)/2 et on

continue avec T(x3)=y3 si y3>(y1+y2)/2 • Sinon on pose T(x1)=T(x2)=T(x3)= (y1+y2+ y3)/3 • Etc.

• Présentation matricielle:

1 1

2 2

( )1 0 0 0( )1 1 0 0

1 1 1 0 . .1 1 1 1 ( )n n

b T xb T x

b T x

y e e

Régression multiple à coefficients positifs sauf la constante

12

ˆ j jj

b b=

= +∑y 1 z

• Un algorithme général de régression sous contraintes de positivité:

Régression descendante avec élimination des variables à coefficients négatifs et itération.

G.Saporta, avril 2014

Page 19: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Diagramme de Shepard

Desbois, 2005

Page 20: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Nécessite de connaitre p: solutions non emboitées

• Approximation en plus ou en moins alors qu’avec Torgerson approximation par en dessous

Page 21: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Possibilité de rajouter des variables explicatives (voir cartographie des préférences)

Kuhfeld, 2010

Page 22: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

3. Cas de q tableaux de distances • Le modèle INDSCAL (Individual Differences In

Scaling) – Configuration unique avec métriques diagonales

différentes – Passage aux produits scalaires

• Estimation alternée : on fixe m et a et on estime b, puis a à m et b fixés, puis m à a et b fixés etc.

( ) ( )2 2

1

rk k l lij l i j

ld m x x

=

≅ −∑

1

rk k l lij l i j

lw m a b ε

=

= +∑

Page 23: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Exemple (SensoMineR) • 10 different French wines evaluated by 11 panelists. Two data sets:

napping.don and napping.words. – 1) napping.don: panelists were asked to position the wines on a

tableclothe of dimension (60,40) – 2) napping.words: panelists were asked to describe each wine

using their own word list

Page 24: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

Page 25: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

Page 26: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Modèle IDIOSCAL (Individual Differences In Orientation and Scaling) – Métriques Mk quelconque – Solution analytique

– X s’obtient par une méthode classique de Torgerson sur W

1 1

1

1 1

1car on peut prendre

q q

k k

q

k

n n

n

= =

=

= = =

=

∑ ∑

k k

k k

k

W = XM X'

W W X M X' XX'

M I

( ) ( )'=

k k-1 -1

k k

W = XM X'

M X'X X W X X'X

Page 27: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

4. Cartographie des préférences

• Analyser les préférences des consommateurs

• Applications en marketing et analyse sensorielle: – Ex. : relier les préférences des consommateurs

aux caractéristiques physico-chimiques et/ou sensorielles d’un produit

– Visualiser ces relations sur une carte «facilement » lisible

Page 28: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• n produits, p consommateurs, q caractéristiques – Tableau X de notes (n,p) – Tableau Y de caractéristiques (n,q)

Exemple (cf SensoMineR) 16 cocktails, jugés par 100 consommateurs

et décrits par 13 variables sensorielles (fournies par des experts)

Page 29: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

4.1 Cartographie « interne » ou MDPREF – ACP de X avec projection en éléments

supplémentaires des colonnes de Y

Page 30: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

Page 31: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Avec classification des consommateurs

Page 32: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

4.2 Cartographie « externe » ou PREFMAP – ACP de Y (descripteurs en variables

actives) – Régression des préférences des

consommateurs sur les axes de l’ACP

http://math.agrocampus-ouest.fr/infoglueDeliverLive/digitalAssets/20286_preference.pdf

Page 33: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

Page 34: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

Page 35: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Modélisation des préférences de j expliquée par les deux premières composantes principales de Y – modèle linéaire ou vectoriel xj=m+ac1+bc2

Schlich, 2007

Page 36: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

– Modèle linéaire pas toujours adapté si le produit idéal est au milieu : ni trop ni trop peu sucré.

– modèles circulaires ou elliptiques « point idéal»

Page 37: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

• Cumul des préférences: pour chaque point on estime le pourcentage de consommateurs qui préférent ce point

Page 38: Le Multidimensional Scaling et la cartographie des préférencescedric.cnam.fr/~saporta/MDS.pdf · 2014. 4. 23. · – Tableau X de notes (n,p) – Tableau Y de caractéristiques

G.Saporta, avril 2014

Références • d’Aubigny G. (2009). The Analysis of Proximity Data, in Govaert

G. (Ed.) Data Analysis. Chapter 4, pp. 93-145. John Wiley and sons,

• Cailliez F. (1983): The Analytical Solution of the Additive Constant Problem ,Psychometrika, 48, 305-308

• Desbois D. (2005): Une introduction au positionnement multidimensionnel. Modulad, 32, 1-28

• Kruskal J.B., Wish M.: (1984) Multidimensional Scaling, Quantitative Applications in the Social Sciences, 11, Sage University Paper.

• Kuhfeld W. (2010): Marketing Research Methods in SAS, MR2010 report, SAS Institute

• Schlich,P, (2007): De la sensometrie à l’analyse des préférences, HDR, Univ.Bourgogne

• http://sensominer.free.fr