cours a données

62
Présentati Présentati on on théorique théorique Etude d’un cas Etude d’un cas individuelle mini individuelle mini projet projet Exemples Exemples d’application d’application Presentation intuitive Presentation intuitive Presentation Presentation deux deux Études AD Études AD Le Programme Analyse des données

Upload: youness-ouaddi

Post on 09-Feb-2016

33 views

Category:

Documents


0 download

DESCRIPTION

cours analyse de données

TRANSCRIPT

Page 1: cours A données

Présentation Présentation théoriquethéorique

Etude d’un casEtude d’un casindividuelle mini projetindividuelle mini projet

Exemples Exemples d’applicationd’application

Presentation intuitivePresentation intuitive Presentation deuxPresentation deuxÉtudes ADÉtudes AD

Le

Programme

Analyse des données

Page 2: cours A données

Analyse des données

Méthode d’analyse factorielle

Méthode de classification

Classification AscendanteHiérarchique

CAH

ClassificationDescendanteHiérarchique

CDH

AnalyseFactorielle

Des Correspondance

AFC

Analysediscriminante

(analyse discriminanteBarycentrique)

analysecanonique

Page 3: cours A données

1 - HISTORIQUE :1 - HISTORIQUE : Les méthodes d'analyse des données ont été Les méthodes d'analyse des données ont été

élaborées depuis les années 30 : H. HOTELLING élaborées depuis les années 30 : H. HOTELLING posait les fondements de l'analyse en composante posait les fondements de l'analyse en composante

principale et de l'analyse cononique. Jusqu'aux années principale et de l'analyse cononique. Jusqu'aux années 60, ces méthodes restaient inabordables pour les 60, ces méthodes restaient inabordables pour les

praticiens car elles nécessitent une masse praticiens car elles nécessitent une masse considérable de calculs. Le développement des considérable de calculs. Le développement des

ordinateurs a permis la vulgarisation des techniques ordinateurs a permis la vulgarisation des techniques statistiques d'analyse des données.statistiques d'analyse des données.

Une impulsion importante fut donnée par J.P. Une impulsion importante fut donnée par J.P. BENZECRI au laboratoire de statistique mathématique BENZECRI au laboratoire de statistique mathématique

à l'université de Paris.à l'université de Paris.- La statistique classique s'est axée sur l'étude d'un - La statistique classique s'est axée sur l'étude d'un

seul caractère ou variable mesurée.seul caractère ou variable mesurée.

Page 4: cours A données

2 - CLASSIFICATION DES 2 - CLASSIFICATION DES MÉTHODES D'ANALYSE DES MÉTHODES D'ANALYSE DES

DONNÉESDONNÉES : :• On peut classer les techniques d'analyse des données On peut classer les techniques d'analyse des données

suivant deux points de vue :suivant deux points de vue :• - Technique mathématique utilisée.- Technique mathématique utilisée.• - But poursuivi.- But poursuivi.• a) Les techniques d'analyse factorielle (linéaire) qui se a) Les techniques d'analyse factorielle (linéaire) qui se

ramènent toujours à raisonner dans un espace euclidien ramènent toujours à raisonner dans un espace euclidien et à diagonaliser une matrice carrée. Ces techniques et à diagonaliser une matrice carrée. Ces techniques reposent sur l'algèbre linéaire et la géométrie reposent sur l'algèbre linéaire et la géométrie euclidienne.euclidienne.

• b) Les techniques de classification qui font apparaître b) Les techniques de classification qui font apparaître des structures telles que des arbres ou des partitions à des structures telles que des arbres ou des partitions à partir de tableaux de distances. Ces techniques reposent partir de tableaux de distances. Ces techniques reposent sur la théorie des graphes et la combinatoire.sur la théorie des graphes et la combinatoire.

Page 5: cours A données

3 - DOMAINE D'APPLICATION3 - DOMAINE D'APPLICATION : :

• a) a) les tableaux de contingenceles tableaux de contingence croisant croisant l'ensemble des modalités du caractère l'ensemble des modalités du caractère qualitatif X avec l'ensemble J des qualitatif X avec l'ensemble J des modalités du caractère qualitatif Ymodalités du caractère qualitatif Y

Page 6: cours A données

Ou bien I ensemble de CSP Ou bien I ensemble de CSP catégories socioprofessionnelles J catégories socioprofessionnelles J

ensemble de causes de décès ensemble de causes de décès

Taille en m Taille en m Poids en kgPoids en kg

< 1,50 < 1,50 1,5-1,6 1,5-1,6 1,6-1,7 1,6-1,7 1,7-1,8 1,7-1,8 >1,8 >1,8

< 50 < 50 55 66 1010 2121 6650-6050-60 4545 6969 7878 2323 646460-7060-70 6161 5454 5454 6565 323270-80 70-80 3636 9393 2525 3939 9595>80kgs >80kgs 00 55 66 88 77

Page 7: cours A données

Les tableaux homogènes de Les tableaux homogènes de nombres positifsnombres positifs

• b) b) Les tableaux homogènes de nombres positifsLes tableaux homogènes de nombres positifs où où l'addition de deux lignes ou de deux colonnes a un sens.l'addition de deux lignes ou de deux colonnes a un sens.

• Exemple: Exemple: I ensemble d'entreprisesI ensemble d'entreprises• J ensemble de secteursJ ensemble de secteurs• k(i,j) : chiffre d'affaire de l'entreprise i dans le secteur j.k(i,j) : chiffre d'affaire de l'entreprise i dans le secteur j.• Additionner deux lignes revient à regrouper deux Additionner deux lignes revient à regrouper deux

entreprisesentreprises• Additionner deux colonnes revient à regrouper deux Additionner deux colonnes revient à regrouper deux

secteurs.secteurs.• Au lieu du chiffre d'affaire, on peut prendre le nombre de Au lieu du chiffre d'affaire, on peut prendre le nombre de

salariés de l'entreprise i dans le secteur j.salariés de l'entreprise i dans le secteur j.

Page 8: cours A données

• cc) tableaux de mensuration) tableaux de mensuration où I est un où I est un ensemble d'animaux et J un ensemble de ensemble d'animaux et J un ensemble de mensurationsmensurations

• k(i,j) = mensuration j pour l'animal ik(i,j) = mensuration j pour l'animal i• Éviter les redondances et les Éviter les redondances et les

combinaisons linéaires (ex mesure totale combinaisons linéaires (ex mesure totale et intermédiaires).et intermédiaires).

Page 9: cours A données

• dd) Les tableaux de teneur) Les tableaux de teneur où I est par où I est par exemple un ensemble de roches et J un exemple un ensemble de roches et J un ensemble d'éléments majeurs et où k(i,j) ensemble d'éléments majeurs et où k(i,j) désigne la teneur de l'élément j dans la désigne la teneur de l'élément j dans la roche i on a alors :roche i on a alors :

• ∑{k(i,j) /jЄJ} = 100 (1)(1)

Page 10: cours A données

Les tableaux de courbe Les tableaux de courbe

• e) e) Les tableaux de courbe Les tableaux de courbe ou encore de ou encore de particules d'air) et J un ensemble de classes particules d'air) et J un ensemble de classes granulométriques et où k(i;j) représente la granulométriques et où k(i;j) représente la fraction du sédiment, appartenant à la classe fraction du sédiment, appartenant à la classe granulométrique j. C'est un tableau qui vérifie granulométrique j. C'est un tableau qui vérifie aussi la relation (1) et rentre comme les aussi la relation (1) et rentre comme les tableaux de teneur dans la classe des tableaux tableaux de teneur dans la classe des tableaux de pourcentage.de pourcentage.

Page 11: cours A données

Les tableaux de courbesLes tableaux de courbes• Les tableaux de courbesLes tableaux de courbes, où I est un ensemble , où I est un ensemble

de courbes, J un ensemble d'abscisses de courbes, J un ensemble d'abscisses (utilisées pour discrétiser les courbes, si on a (utilisées pour discrétiser les courbes, si on a affaire a des courbes continues). Si on a un affaire a des courbes continues). Si on a un découpage de l'axe des abscisses avec un pas découpage de l'axe des abscisses avec un pas constant, k(i,j) est égal à la coordonnée de la constant, k(i,j) est égal à la coordonnée de la courbe i correspondant à l'abscisse j.courbe i correspondant à l'abscisse j.

• Sinon aj désignant l'abscisse associée à j, il faut Sinon aj désignant l'abscisse associée à j, il faut prendre pour k(i,j) la surface délimitée par la prendre pour k(i,j) la surface délimitée par la courbe et l'axe des abscisses.courbe et l'axe des abscisses.

Page 12: cours A données
Page 13: cours A données

• exemples :exemples :• - courbes de thermoluminescence d'une série de - courbes de thermoluminescence d'une série de

quartz l'axe des x correspond à des énergies ou des quartz l'axe des x correspond à des énergies ou des températures.températures.

• L'axe des y correspond à des énergies ou températures.L'axe des y correspond à des énergies ou températures.• - - Étude de la courbe de charge de la Étude de la courbe de charge de la

consommation électriqueconsommation électrique• l’axe des x correspond au temps de 0 heure à 24 heuresl’axe des x correspond au temps de 0 heure à 24 heures• l’axe des y correspond à la puissance consommée l’axe des y correspond à la puissance consommée

Page 14: cours A données

Les tableaux d'échange Les tableaux d'échange industrielindustriel

• tableau d'échange interindustriels (TEI) ou tableau de Leontief ou tableau d'échange interindustriels (TEI) ou tableau de Leontief ou tableau d'importation et d'exportation.tableau d'importation et d'exportation.

• Ces tableaux sont des tableaux carrés (I = J) en général non Ces tableaux sont des tableaux carrés (I = J) en général non symétriques car k(j,j') est différent de k(j',j). Car l’échange de j vers symétriques car k(j,j') est différent de k(j',j). Car l’échange de j vers j’ est diffèrent de j’ vers j.j’ est diffèrent de j’ vers j.

• Pour étudier de tels tableaux, on fait l'AFC du tableau accolé à son Pour étudier de tels tableaux, on fait l'AFC du tableau accolé à son transposé, de façon à ce que dans le cas des importations transposé, de façon à ce que dans le cas des importations exportations entre pays par exemple chaque pays soit caractérisé exportations entre pays par exemple chaque pays soit caractérisé par ses importations d'une part et ses exportations d'autre part. par ses importations d'une part et ses exportations d'autre part. Chaque pays serait alors décrit par son côté importateur et son côté Chaque pays serait alors décrit par son côté importateur et son côté exportateurexportateur

• k(j,j') désigne le montant des importations de j vers j' (égal au k(j,j') désigne le montant des importations de j vers j' (égal au montant des exportations de j' vers j).montant des exportations de j' vers j).

• Dans le cas de tableaux d'échange interindustriel k(j,j') désigne le Dans le cas de tableaux d'échange interindustriel k(j,j') désigne le montant des échanges de j vers j'. Ce tableau est le meilleur montant des échanges de j vers j'. Ce tableau est le meilleur indicateur du développement d'un pays, bien plus précis que le PIBindicateur du développement d'un pays, bien plus précis que le PIB

Page 15: cours A données

Les tableaux de notesLes tableaux de notes

• Les tableaux de notes où I est par Les tableaux de notes où I est par exemple un ensemble d'étudiants, J un exemple un ensemble d'étudiants, J un ensemble de matière k(i,j) étant la note de ensemble de matière k(i,j) étant la note de l'étudiant i dans la matière j l'étudiant i dans la matière j

• Dans le cas d'une sociomatrice I = J est Dans le cas d'une sociomatrice I = J est un ensemble d'élèves d'une même classe un ensemble d'élèves d'une même classe et k(i,j) est la note d'affinité ou de et k(i,j) est la note d'affinité ou de préférences donnée par l'étudiant i à préférences donnée par l'étudiant i à l'étudiant j.l'étudiant j.

Page 16: cours A données

Les tableaux de rangsLes tableaux de rangs

Les tableaux de rangs :Les tableaux de rangs :• Ce type de tableau peut être considéré comme Ce type de tableau peut être considéré comme

un cas particulier d'un tableau de notes, où en un cas particulier d'un tableau de notes, où en reprenant le cas d'un tableau croisant un reprenant le cas d'un tableau croisant un ensemble d'étudiants I avec un ensemble de ensemble d'étudiants I avec un ensemble de matières J. k (i,j) désigne le rang (et non plus la matières J. k (i,j) désigne le rang (et non plus la note) de l'étudiant i dans la matière j. Ce rang note) de l'étudiant i dans la matière j. Ce rang varie de 1 à card. J.varie de 1 à card. J.

Page 17: cours A données

Les tableaux 0 - 1Les tableaux 0 - 1 Les tableaux 0 - 1Les tableaux 0 - 1• I un ensemble de relevés, J un ensemble I un ensemble de relevés, J un ensemble

d'espèces d'espèces • on a k(i,j) = 1 si l'espèce j est présente dans le on a k(i,j) = 1 si l'espèce j est présente dans le

relevé i.relevé i. = 0 sinon.= 0 sinon.

• On peut remplacer le 1 correspondant à la On peut remplacer le 1 correspondant à la présence par un coefficient d'abondance présence par un coefficient d'abondance donnant l'importance de l'espèce j dans le relevé donnant l'importance de l'espèce j dans le relevé i.i.

Page 18: cours A données

Les tableaux disjonctifs Les tableaux disjonctifs completscomplets

• Les tableaux disjonctifs completsLes tableaux disjonctifs complets• Ce sont des tableaux de 0 et 1 particuliers où I Ce sont des tableaux de 0 et 1 particuliers où I

est un ensemble d'individus ( ou d'observations ) est un ensemble d'individus ( ou d'observations ) et où J = U { Jq / q Q}, Jq , étant l'ensemble de et où J = U { Jq / q Q}, Jq , étant l'ensemble de modalités d'un caractère qualitatif Xq (q Q) et Q modalités d'un caractère qualitatif Xq (q Q) et Q l'ensemble des caractères qualitatifs considérés l'ensemble des caractères qualitatifs considérés avec avec

• " i Œ I et " j Œ Jq:k (i,j) = 1 si i a pris la modalité " i Œ I et " j Œ Jq:k (i,j) = 1 si i a pris la modalité j de Jqj de Jq

• = o sinon= o sinon

Page 19: cours A données

Les tableaux de BURT et sous Les tableaux de BURT et sous tableaux de BURTtableaux de BURT

• Les tableaux de BURT et sous tableaux de BURTLes tableaux de BURT et sous tableaux de BURT : :• On reste dans les notations précédentes et l'on désigne On reste dans les notations précédentes et l'on désigne

par K et K' deux parties de Q et on pose :par K et K' deux parties de Q et on pose :• L = U { Jq / q Œ K }L = U { Jq / q Œ K } L' = U { Jq/q Œ L' = U { Jq/q Œ

K'}K'}• Le sous tableau de BURT CLL' est alors défini par Le sous tableau de BURT CLL' est alors défini par • CLL' (j,j') = nombre total d'individus ayant pris les CLL' (j,j') = nombre total d'individus ayant pris les

modalités j pour Jq et j' pour Jq'.modalités j pour Jq et j' pour Jq'.• Si K = K' et donc L = L' on dit que CLL est le tableau de Si K = K' et donc L = L' on dit que CLL est le tableau de

BURT associé aux variables Xq(q Œ k)BURT associé aux variables Xq(q Œ k)

Page 20: cours A données

TABLEAU DE TABLEAU DE CORRESPONDANCECORRESPONDANCE NOTION DE PROFILNOTION DE PROFIL

LES NUAGES N(I) ET LES NUAGES N(I) ET N(J)N(J)

Page 21: cours A données

• I - TABLEAU DE CORRESPONDANCE-NOTION DE I - TABLEAU DE CORRESPONDANCE-NOTION DE PROFILPROFIL

• 1 - Les tableau des données1 - Les tableau des données• Le tableau des données met en correspondance deux Le tableau des données met en correspondance deux

ensembles que l'on a coutume de noter I et J.ensembles que l'on a coutume de noter I et J.• Par exemple I est un ensemble de mots et J un Par exemple I est un ensemble de mots et J un

ensemble de textes.ensemble de textes.• Ex. le Coran traité par M. KHARCHAF Ex. le Coran traité par M. KHARCHAF • I est l'ensemble de mots du Coran (I est l'ensemble de mots du Coran (• et J est l'ensemble des Sourates ou des Roubaïates et J est l'ensemble des Sourates ou des Roubaïates

Page 22: cours A données

• On désigne généralement par I les On désigne généralement par I les lignes ou individus lignes ou individus

• et par J les colonnes ou variables.et par J les colonnes ou variables.• à la croisée de la ligne i et de la colonne j à la croisée de la ligne i et de la colonne j

on inscrit le nombre d'occurrences du on inscrit le nombre d'occurrences du vocable i dans la sourate j.vocable i dans la sourate j.

Page 23: cours A données

• 2) Les marges :2) Les marges :• Au tableau précédent, on adjoint une ligne Au tableau précédent, on adjoint une ligne

de marge dont le jème terme est la de marge dont le jème terme est la somme des nombres inscrits dans la jème somme des nombres inscrits dans la jème colonne ; colonne ;

• et une colonne de marge dont le ième et une colonne de marge dont le ième terme est la somme des nombres inscrits terme est la somme des nombres inscrits dans la ième ligne.dans la ième ligne.

Page 24: cours A données

• 3) Masse d'un élément de I ou de J3) Masse d'un élément de I ou de J• masse de i masse de i fi = k(i)/kfi = k(i)/k• masse de jmasse de j fj = k(j)/kfj = k(j)/k• La masse d'un élément i ou j mesure La masse d'un élément i ou j mesure

l'importance relative de cet élément.l'importance relative de cet élément.

Page 25: cours A données

éléments supplémentaireséléments supplémentairesCertains éléments de I ou de J peuvent perturber l'analyse pour Certains éléments de I ou de J peuvent perturber l'analyse pour

plusieurs raisons :plusieurs raisons :• La ligne i ou la colonne j comporte des erreurs, ou encore elles ont La ligne i ou la colonne j comporte des erreurs, ou encore elles ont

une particularité par rapport aux autres.une particularité par rapport aux autres.• Pour voir se situer ces éléments par rapport aux autres sans pour Pour voir se situer ces éléments par rapport aux autres sans pour

autant leur donner de part à la constitution des axes on les met en autant leur donner de part à la constitution des axes on les met en "élément supplémentaire ". Ces éléments supplémentaires figurent "élément supplémentaire ". Ces éléments supplémentaires figurent au tableau brut comme les autres éléments, mais on les exclut des au tableau brut comme les autres éléments, mais on les exclut des calculs des totaux de lignes et de colonnes, ainsi que de celui du calculs des totaux de lignes et de colonnes, ainsi que de celui du total général.total général.

• L'analyse est d'abord faite sans eux, en tenant compte L'analyse est d'abord faite sans eux, en tenant compte exclusivement des autres éléments de I et de J, dit éléments exclusivement des autres éléments de I et de J, dit éléments principaux. Puis on les inserre dans les résultats. Projection sur les principaux. Puis on les inserre dans les résultats. Projection sur les plans factoriels.plans factoriels.

• On peut dire que les éléments supplémentaires interviennent avec On peut dire que les éléments supplémentaires interviennent avec une masse nulle.une masse nulle.

Page 26: cours A données

• ) ) La notion de profilLa notion de profil : :• On note pour chaque ligne i son total k(i)On note pour chaque ligne i son total k(i)• de même pour chaque colonne j de même pour chaque colonne j

caractérisée par son total k(j) et son profilcaractérisée par son total k(j) et son profil

Page 27: cours A données

• 4) La notion de profil :4) La notion de profil :• On note pour cahque ligne i son total k(i)On note pour cahque ligne i son total k(i)• de même pour chaque colonne j de même pour chaque colonne j

caractèrisée par son total k(j) et son profilcaractèrisée par son total k(j) et son profil• k = ∑ ∑ k(i,j)k = ∑ ∑ k(i,j)• i ji j

Page 28: cours A données

f I j = f i

j / i I = k(ij) k(j)

/ i I

k = ∑ ∑ k(i,j) i j

fJ = fj = k(j)k

, j J profil de J sur la ligne de marge

fI = fi = k(i)k

, i I profil de I sur la colonne des marges

Page 29: cours A données

• Tous ces profils ont un total égal à 1Tous ces profils ont un total égal à 1• Ex : Ex : • ∑ ∑ {fij / j {fij / j ЄЄ J } = ∑ { k(ij) / k(i) } = k(i) / k(i) = 1 J } = ∑ { k(ij) / k(i) } = k(i) / k(i) = 1• jj• de même de même • ∑ ∑ fji = ∑{k(i,j)/k(j)  / i Є I} = (1 / k(j)) ∑{k(i,j) /iЄI}fji = ∑{k(i,j)/k(j)  / i Є I} = (1 / k(j)) ∑{k(i,j) /iЄI}• ii• • ∑ ∑ {fj j {fj j ЄЄ J} = ∑{ k(j)/k  / j J} = ∑{ k(j)/k  / j ЄЄ J} = (1 / k) * k = 1 J} = (1 / k) * k = 1• ∑ ∑ {fi i {fi i ЄЄ I} = ∑{ k(i)/k  / i I} = ∑{ k(i)/k  / i ЄЄ I} = (1 / k) * k = 1 I} = (1 / k) * k = 1

Page 30: cours A données

• d'une manière générale, on appelle profil sur J toute d'une manière générale, on appelle profil sur J toute suite de nombres positifs ou nuls indicés par J ayant suite de nombres positifs ou nuls indicés par J ayant pour somme 1.pour somme 1.

• Intérêt de la notion de profil par rapport à la ligne brute Intérêt de la notion de profil par rapport à la ligne brute des k(i,j)des k(i,j)

• ex : Considérons un tableau à 2 lignes i' et i"ex : Considérons un tableau à 2 lignes i' et i"• i'i' 4040 1515 2525 2020 1010 k(i)=110k(i)=110• i"i" 40xk40xk 15xk15xk 25xk25xk 20xk20xk 10xk10xk k(i") = k(i") =

110k110k• i' et i" sont proportionnelles i' et i" sont proportionnelles • quant aux profils quant aux profils

Page 31: cours A données

• On peut remarquer que fi' et fi" sont identiques. On peut remarquer que fi' et fi" sont identiques. Il est intéressant que 2 lignes proportionnelles Il est intéressant que 2 lignes proportionnelles soient représentées par le même profil. Ce qu'on soient représentées par le même profil. Ce qu'on compare en analyse des données, ce n'est pas compare en analyse des données, ce n'est pas la longueur, mais les proportionnalités. Donc 2 la longueur, mais les proportionnalités. Donc 2 lignes proportionnelles sont représentées par le lignes proportionnelles sont représentées par le même point.même point.

fJi' = 40

110, 15

110, 25110

, 20110

, 10110

fJi" = 40k

110k, 15k

110k, 25k110k

, 20k110k

, 10k110k

Page 32: cours A données

• 1 - Représentation spatiale des ensembles I et 1 - Représentation spatiale des ensembles I et JJ

• L'espace des profils sur J : Un point de cet L'espace des profils sur J : Un point de cet espace est un profil sur J, c.à.d. un ensemble espace est un profil sur J, c.à.d. un ensemble de nombres positifs ou nuls indicés par J et de de nombres positifs ou nuls indicés par J et de somme 1.somme 1.

• ΠJ = { Πj / j Є J } et ∑ { Πj / j Є J } =1ΠJ = { Πj / j Є J } et ∑ { Πj / j Є J } =1• Un profil Πj est défini par autant de paramètres Un profil Πj est défini par autant de paramètres

que de nombres dans J. Ces paramètres étant que de nombres dans J. Ces paramètres étant liés par la relation d'avoir somme 1. L'espace liés par la relation d'avoir somme 1. L'espace des profils sur J est un espace a (Card J - 1) des profils sur J est un espace a (Card J - 1) dimensions.dimensions.

Page 33: cours A données

• De même un profil sur I est un ensemble de De même un profil sur I est un ensemble de nombres réels positifs ou nuls indicés par I .nombres réels positifs ou nuls indicés par I .

• ΠΠI = { I = { ΠΠi / i i / i ЄЄ I } et ∑ { I } et ∑ { ΠΠi / i i / i ЄЄ I } =1 I } =1

• L'espace de tous les profils sur I est de L'espace de tous les profils sur I est de dimension (Card I-1).dimension (Card I-1).

• Nuage N(I) dans l'espace des profils sur J :Nuage N(I) dans l'espace des profils sur J :•• un élément du Nuage N(I) est un couple formé un élément du Nuage N(I) est un couple formé

d'un profil de ligne et de la masse de cette d'un profil de ligne et de la masse de cette ligne.ligne.

Page 34: cours A données

• Nuage N(J) dans l'espace des profils sur I :Nuage N(J) dans l'espace des profils sur I :

• couples formés d'un profil de colonne couples formés d'un profil de colonne et de sa masse. et de sa masse.

• 2) Le simplexe des profils2) Le simplexe des profils• Card J = 2Card J = 2• Π 1 ≥ 0Π 1 ≥ 0 Π 2 ≥ 0 Π 2 ≥ 0 Π 1+ Π 2 = 1 Π 1+ Π 2 = 1

N(J) = (fIj , fj) , j J

Page 35: cours A données

(0,1)

(1,0)

j(1 2)

1

• Π1 > 0 hachuresΠ1 > 0 hachures• Π2 > 0Π2 > 0• Π 1 + Π 2 = 1=> Π j se trouve sur le segment de Π 1 + Π 2 = 1=> Π j se trouve sur le segment de

droite qui joint le point (1,0) au point (0,1).droite qui joint le point (1,0) au point (0,1).• Cas où CardJ = 3Cas où CardJ = 3

Page 36: cours A données

(0,0,1)

0 (0,1,0)

(1,0,0)

1

2

3

• Π 1 > 0 Π J dans l'angle trièdre formé par les 3 Π 1 > 0 Π J dans l'angle trièdre formé par les 3 axes positifsaxes positifs

• Π 2 > 0 =>Π 2 > 0 => 0 Π 1, 0 Π 2, 0 Π 30 Π 1, 0 Π 2, 0 Π 3• Π 3 > 0Π 3 > 0• Π 1 + Π 2 + Π 3 = 1 => Π J sur la portion Π 1 + Π 2 + Π 3 = 1 => Π J sur la portion

triangulaire défini par les 3 sommets (1,0,0) triangulaire défini par les 3 sommets (1,0,0) (0,1,0) et (0,0,1)(0,1,0) et (0,0,1)

Page 37: cours A données

• Cl : on voit que si CardJ = 2 => le simplexe des Cl : on voit que si CardJ = 2 => le simplexe des profils est un segment .profils est un segment .

• CardJ = 3 , c'est une portion de plan. CardJ = 3 , c'est une portion de plan. • En général, on dit que c'est un simplexe à En général, on dit que c'est un simplexe à

CardJ sommetsCardJ sommets• Les sommets d'un simplexe représentent les Les sommets d'un simplexe représentent les

distributions pour lesquelles, il existe j tel quedistributions pour lesquelles, il existe j tel que• xj = 1xj = 1• xj' = 0xj' = 0 si j' ≠ jsi j' ≠ j• notion de fréquence.notion de fréquence.•

Page 38: cours A données

CHAPITRE IICHAPITRE II• MOYENNE ET CENTRE DE GRAVITEMOYENNE ET CENTRE DE GRAVITE

• DISPERSION ET INERTIEDISPERSION ET INERTIE

• DISTANCE EUCLILDIENNE ET DISTANCE EUCLILDIENNE ET

• DISTANCE DISTRIBUTIONNELLEDISTANCE DISTRIBUTIONNELLE• Le centre de gravité d'un système de points munis de masses est une Le centre de gravité d'un système de points munis de masses est une

généralisation spatiale de la notion de moyenne arithmétiquegénéralisation spatiale de la notion de moyenne arithmétique

Page 39: cours A données

I - CENTRE DE GRAVITEI - CENTRE DE GRAVITE• 1) Moyenne de nombres1) Moyenne de nombres• Soit une suite de n nombre x1, x2 ...xn affectés Soit une suite de n nombre x1, x2 ...xn affectés

des masses respectives m1, m2 ....mn, leur des masses respectives m1, m2 ....mn, leur moyenne arithmétique ou pondérée est moyenne arithmétique ou pondérée est

• m1x1+ m2 x2 +....mn xn/ m1+ m2 +...mn = m1x1+ m2 x2 +....mn xn/ m1+ m2 +...mn = • { mixi/ i = 1,2 ...n/ { mixi/ i = 1,2 ...n/ {mi/i = 1,x}{mi/i = 1,x}• 2) Centre de gravité des nuages N(I) et N(J)2) Centre de gravité des nuages N(I) et N(J)• son centre de gravité est un profil sur J . Soit son centre de gravité est un profil sur J . Soit

gJ son centre de gravité,sa jème coordonnée.gJ son centre de gravité,sa jème coordonnée.

Page 40: cours A données

• gj = ∑ {fi fij / i Є I} / ∑ {fi / i Є I}gj = ∑ {fi fij / i Є I} / ∑ {fi / i Є I}• =∑ {fi fij / i =∑ {fi fij / i ЄЄ I} /∑{(k(i)/k) * (k(i,j)/k(i)) / i I} /∑{(k(i)/k) * (k(i,j)/k(i)) / i ЄЄ I} I}• = ∑ k(i,j)/k / i = ∑ k(i,j)/k / i ЄЄ I } = k(j)/k = fj I } = k(j)/k = fj• gJ = fJgJ = fJ• • fJ est le centre de gravité du nuage N(I) qui est le fJ est le centre de gravité du nuage N(I) qui est le

profil de la ligne de marge. de même pour N(J)profil de la ligne de marge. de même pour N(J)• gi = ∑ {fj fji / j Є I} / ∑ {fj / j Є J}gi = ∑ {fj fji / j Є I} / ∑ {fj / j Є J}• = ∑ {fj fji /jЄJ}/∑ {(k(J)/k) * (k(i,j)/k(j)) /jЄ J}= ∑ {fj fji /jЄJ}/∑ {(k(J)/k) * (k(i,j)/k(j)) /jЄ J}• = ∑ k(i,j)/k / j = ∑ k(i,j)/k / j ЄЄ J } = k(i)/k = fi J } = k(i)/k = fi• fI le centre de gravité du nuage N(J) qui n'est autre fI le centre de gravité du nuage N(J) qui n'est autre

que le profil de la colonne des marges.que le profil de la colonne des marges.

Page 41: cours A données

I I - METRIQUE DU X2I I - METRIQUE DU X2• 1) définition générale :1) définition générale :• Supposons que l'on observe la distribution d'une Supposons que l'on observe la distribution d'une

population concrète d'effectif k selon un caractère I et population concrète d'effectif k selon un caractère I et notons f cette distribution. peut-on considérer la notons f cette distribution. peut-on considérer la population en question comme un échantillon population en question comme un échantillon provenant d'une population plus vaste dans laquelle, provenant d'une population plus vaste dans laquelle, la distribution selon I serait p?la distribution selon I serait p?

• Pour répondre à cette question, on calcule la quantité Pour répondre à cette question, on calcule la quantité • k ∑ (fi – pi)²/pi (1)k ∑ (fi – pi)²/pi (1)• i i • et on la compare à un X2 à Card I-1 degrés de liberté.et on la compare à un X2 à Card I-1 degrés de liberté.

Page 42: cours A données

• Si cette quantité prend une valeur qui n'a Si cette quantité prend une valeur qui n'a qu'une faible probabilité d'être dépassée par ce qu'une faible probabilité d'être dépassée par ce X2, on devra conclure que f s'écarte trop de p X2, on devra conclure que f s'écarte trop de p pour que l'on puisse conserver l'hypothèse que pour que l'on puisse conserver l'hypothèse que l'échantillon considéré provient d'une population l'échantillon considéré provient d'une population repartie selon p. Ce test est bien connu sous le repartie selon p. Ce test est bien connu sous le nom de "test du X2 "nom de "test du X2 "

• Ce résultat conduit à définir une distance entre Ce résultat conduit à définir une distance entre distributions à l'aide d'une métrique analogue à distributions à l'aide d'une métrique analogue à celle que l'on utilise pour le test du X2 .celle que l'on utilise pour le test du X2 .

• Si l'on considère 3 distribution p, q et r, le carré Si l'on considère 3 distribution p, q et r, le carré de la distance entre p et q calculée avec la de la distance entre p et q calculée avec la métrique du X2 centrés sur r est donnée par métrique du X2 centrés sur r est donnée par

Page 43: cours A données

• || p - q || r2 = ∑ (pi – qi)2/ri|| p - q || r2 = ∑ (pi – qi)2/ri• avec cette notation, la quantité (1) s'écrit avec cette notation, la quantité (1) s'écrit • k || f – p ||2p k || f – p ||2p • On voit qu'une métrique du X2 dépend de la On voit qu'une métrique du X2 dépend de la

distribution sur laquelle elle est centrée.distribution sur laquelle elle est centrée.• 2) Application à l'analyse des 2) Application à l'analyse des

correspondances :correspondances :• En analyse des correspondances, on utilisera En analyse des correspondances, on utilisera

pour calculer la distance entre et ,pour calculer la distance entre et ,• la métrique du X2 centrée sur fJla métrique du X2 centrée sur fJ

fJ centre de gravité de N(I) fJ centre de gravité de N(I)

iJf 'i

Jf

Page 44: cours A données

2 '( , ')J

i iJ J fd i i f f

' 21/ ( )i ij j jf f f

Page 45: cours A données

2 '( , ')I

j jI i fd j j f f

' 21/ ( )j ji i i

i

f f f

Page 46: cours A données

La métrique du X2 a de nombreuses La métrique du X2 a de nombreuses propriétés qui justifient à posteriori son propriétés qui justifient à posteriori son

choix.choix.Les points de N(I) représentent des Les points de N(I) représentent des

distributions .distributions .Il est naturel sur un ensemble de Il est naturel sur un ensemble de

distributions d'utiliser une métrique du distributions d'utiliser une métrique du X2 comme on le fait lors du test du X2 .X2 comme on le fait lors du test du X2 .Le centre de gravité représente donc la Le centre de gravité représente donc la

distribution moyenne par rapport aux distribution moyenne par rapport aux distributions . Il est donc naturel de distributions . Il est donc naturel de centrer la métrique du X2 à l'aide de centrer la métrique du X2 à l'aide de

cette distribution.cette distribution.

Page 47: cours A données

Le centre de gravité représente donc la Le centre de gravité représente donc la distribution moyenne par rapport aux distribution moyenne par rapport aux distributions . Il est donc naturel de distributions . Il est donc naturel de centrer la métrique du X2 à l'aide de centrer la métrique du X2 à l'aide de

cette distribution.cette distribution.

Page 48: cours A données

III - L'INERTIE D'UN NUAGE DE III - L'INERTIE D'UN NUAGE DE POINTSPOINTS

Distance du X2 sur N(J).Distance du X2 sur N(J).Elle est aussi appelée distance Elle est aussi appelée distance

distributionnelle.distributionnelle.

Page 49: cours A données

• on pose fij = k(i,j)/kon pose fij = k(i,j)/k• L'inertie du nuage N(I). où les points sont munis L'inertie du nuage N(I). où les points sont munis

des masse fi est ou fJ est le profil moyen de des masse fi est ou fJ est le profil moyen de N(I). Cette expression est analogue à celle de N(I). Cette expression est analogue à celle de l'inertie d'un corps en physique et identique à la l'inertie d'un corps en physique et identique à la variance en statistique. Si l'on choisit la variance en statistique. Si l'on choisit la métrique du X2 centrée sur fJ, l'inertie du métrique du X2 centrée sur fJ, l'inertie du nuage devientnuage devient

= 1

f i f j ( f i f J

i - f i f j ) 2 / i I,j J ∑ = ∑ ( ( f ij - f i f J ) 2

f i f J

Page 50: cours A données

Cette expression est nulle quant fij = fifj. Si le Cette expression est nulle quant fij = fifj. Si le tableau est égal au produit des marges, le tableau est égal au produit des marges, le nuage est concentré en un point.nuage est concentré en un point.

' 21/ ( )i ij j jf f f

= f i f j

( f J i - f J ) 2 / i I, j J ∑

f i || f J i - f J || f J 2 / i I ∑

Page 51: cours A données

IV - LES FORMULES DE TRANSITION EN IV - LES FORMULES DE TRANSITION EN ANALYSE DES CORRESPONDANCES :ANALYSE DES CORRESPONDANCES :

• Les axes sont repérés par l'indice Les axes sont repérés par l'indice a• . L'indice a = 1 étant attribué à l'axe qui . L'indice a = 1 étant attribué à l'axe qui

explique la plus grande inertie l’indice 2 à l’axe explique la plus grande inertie l’indice 2 à l’axe qui explique la plus grande inertie après le qui explique la plus grande inertie après le premier et ainsi de suite.premier et ainsi de suite.

• Nous appellerons Zi le point de projection de Nous appellerons Zi le point de projection de Xi sur l'axe a et nous noterons Fa (i) son Xi sur l'axe a et nous noterons Fa (i) son abscisseabscisse

Page 52: cours A données

Xi

ZiG

yj

R

jH G(j)

Page 53: cours A données

• Considérons le nuage N(J) des points Yj, et Considérons le nuage N(J) des points Yj, et notons H son centre de gravité. Nous noterons notons H son centre de gravité. Nous noterons la projection de Yj sur l'axe a et G a (j) son la projection de Yj sur l'axe a et G a (j) son abscisse.abscisse.

• Nous établirons les résultats suivants :Nous établirons les résultats suivants :• • • L'inertie expliquée par l'axe de rang a est la L'inertie expliquée par l'axe de rang a est la

même dans l'analyse directe et dans l'analyse même dans l'analyse directe et dans l'analyse duale. Nous noterons cette inertie la .duale. Nous noterons cette inertie la .

• • • La proportion d'inertie par un sous espace de La proportion d'inertie par un sous espace de dimension p :dimension p :

∑ - 1

/ ∑ = 1

K

Page 54: cours A données

• • • Il existe entre les Fl(i) et les Ga(j) les relations Il existe entre les Fl(i) et les Ga(j) les relations suivantes :suivantes :

F (i) = 1

f ij f i

∑ j

G (j)

G (j) = 1

f ij f j

∑ i

F (i)

Page 55: cours A données

CHAPITRE IIICHAPITRE III

L'ANALYSE FACTORIELLE D'UN NUAGEL'ANALYSE FACTORIELLE D'UN NUAGE

DE POINTS QUELCONQUESDE POINTS QUELCONQUES

Page 56: cours A données

I - RAPPEL D'ALGEBRE LINEAIRE :I - RAPPEL D'ALGEBRE LINEAIRE :

• 1) Dans tout espace euclidien il existe une 1) Dans tout espace euclidien il existe une transformation linéaire qui permet d'utiliser la métrique transformation linéaire qui permet d'utiliser la métrique euclidienne canonique.euclidienne canonique.

• Considérons un espace E a k dimensions sur le corps Considérons un espace E a k dimensions sur le corps R. Nous repérons les vecteurs et les opérateurs de E R. Nous repérons les vecteurs et les opérateurs de E sur la base canonique de Rh (base formée des sur la base canonique de Rh (base formée des vecteurs des Rh dont toutes les composantes sont vecteurs des Rh dont toutes les composantes sont nulles, sauf une qui est égal à 1).nulles, sauf une qui est égal à 1).Considérons dans E les 2 métriques suivantes, Considérons dans E les 2 métriques suivantes,

• ** l'une est la métrique euclidienne C, définie à partir l'une est la métrique euclidienne C, définie à partir du produit scalaire.du produit scalaire.

Page 57: cours A données

• (V1/V2) = V'1CV2(V1/V2) = V'1CV2• où V’1 est le vecteur transposé du vecteur où V’1 est le vecteur transposé du vecteur

colonne V1 et où est une forme bilinéaire colonne V1 et où est une forme bilinéaire symétrique définie positive (c'est à dire tq C = symétrique définie positive (c'est à dire tq C = C', que V'CV≥ 0 et V'CV = 0 ´ V = 0)C', que V'CV≥ 0 et V'CV = 0 ´ V = 0)

• * l'autre est la métrique euclidienne canonique, * l'autre est la métrique euclidienne canonique, définie à partir du produit scalairedéfinie à partir du produit scalaire

• C étant symétrique, il est possible de C étant symétrique, il est possible de former avec ces vecteurs propres une base de former avec ces vecteurs propres une base de E orthonormée au sens de la métrique E orthonormée au sens de la métrique canonique (cf2°).canonique (cf2°).

Page 58: cours A données

• Soit R l'opérateur orthogonal qui transforme les Soit R l'opérateur orthogonal qui transforme les vecteurs de la base canonique de Rh en ceux vecteurs de la base canonique de Rh en ceux de la base formée par les vecteurs propres de de la base formée par les vecteurs propres de C. Notons Ÿ la matrice diagonale des valeurs C. Notons Ÿ la matrice diagonale des valeurs propres de C (C étant définie positive). Si E est propres de C (C étant définie positive). Si E est repéré par rapport à la base des vecteurs repéré par rapport à la base des vecteurs propres de C, l'opérateur C s'écrit alors en propres de C, l'opérateur C s'écrit alors en utilisant la matrice Ÿutilisant la matrice Ÿ

• On vérifie que :On vérifie que :• C = R'Ÿ RC = R'Ÿ R

Page 59: cours A données
Page 60: cours A données
Page 61: cours A données
Page 62: cours A données