stas+ques cm4 afc / lda - sebastiencouette.files.wordpress.com · afc / lda a quoi servent ces...
TRANSCRIPT
CesanalysespermeBentuneréduc+ondedimensionalité,toutcommel’ACP.CeBeréduc+ondeladimensionaliténesefaitpasdansuncontexte«exploratoire»oùnoncontraintcommepourl’ACP,ellesefaitdansuncontexted’ordina+on.Celaimpliquequevousavezplusieursvariablesquan+ta+vesetdesgroupes.
AFC/LDA
AFC/LDA
Aquoiserventcesanalyses:
-AmeBreenévidencelesvariablesdiscriminantes
-Aprédirel’appartenanced’unsujetàungroupe
Exemples:QuellessontlesvariablesquipermeBentdedis+nguerlespoissonsd’unsiteAdeceuxd’unsiteB?
Peutonprédireuncancerdupoumonàpar+rdedonnéessurdespa+ents(nbdecigareBes,fréquencedetoux…)
AFC/LDA
2caspossibles
Variablesdiscrètes Variablescon+nues
ANALYSEFACTORIELLEDESCORRESPONDANCES
(AFC)
ANALYSEDISCRIMINANTE(LDA)
AFC
S’appliqueauxtableauxdecon+ngence,c.a.ddetableauxd’effec+fsquicon+ennentàl’intersec+ondelaligneietdelacolonnejdesindividuszij.Surcegenrededonnéesl’étudeclassiqueestderegarderladépendanceoul’indépendancede2variablesqualita+ves.C’estcequenousfaisonsavecletestdeChi2Dansnotrecasonimagineuntableauavecdenombreusesmodalitésdevariables.Ilestdoncnécessairederésumerl’informa+on
AFC
Dansletableaud’AFConappellera«individus»lesNmodalitésdelavariablesXet«variables»lesnmodalitésdelavariableY.Leszijsontappelésvaleurs
AFC
L’AFCestuneACPsurcetableau(ousatransforma+on).CeBeACPestdouble:UneACPdansl’espaceRndes«variables»(colonnes)danslequelonpeutreprésenterlenuagedesNpoints«individus»(lignes).Chaqueindividuapourcoordonnéesxij=
pijpi
AFC
L’AFCestuneACPsurcetableau(ousatransforma+on).CeBeACPestdouble:UneACPdansl’espaceRNdes«individus»(lignes)danslequelonpeutreprésenterlenuagedesnpoints«variables»(colonnes).Chaqueindividuapourcoordonnéesxij=
pijpj
AFC
Danscetespaceonpeutcalculer:Ladistanceentredeuxpoints(equivalentdeladistanceeuclidienned2)LecentredegravitédunuageLadistanceentre1pointetlecentredegravitéOnappelleiner+etotaleϕ2lasommedesdistancesentrechaquepointetsoncentroïde
AFC
Oncherchelesdirec+onsd’iner+emaximum
Onvadéfinirunensembledevecteurd’iner+emaximumorthogonaux
Puisonvatravaillersurlamatriced’iner+epourextrairelesvecteurspropres
Projec+ondespointssurcesnouveauxaxes
AFC
Danscetespaceonpeutcalculer:Ladistanceentredeuxpoints(equivalentdeladistanceeuclidienned2)LecentredegravitédunuageLadistanceentre1pointetlecentredegravitéOnappelleiner+etotaleϕ2lasommedesdistancesentrechaquepointetsoncentroïde
AFC
Oncherchelesdirec+onsd’iner+emaximum
Onvadéfinirunensembledevecteurd’iner+emaximumorthogonaux
Puisonvatravaillersurlamatriced’iner+epourextrairelesvecteurspropres
Projec+ondespointssurcesnouveauxaxes
AFC
Extensiondel’AFC
Projec+ondelignesetcolonnessupplémentaires,quinepar+cipentpasàlaconstruc+ondesaxes
LDAL’analysediscriminantes’appliqueanvariablesquan+ta+vescon+nuesetunevariablequalita+ve(classes).L’analysediscriminanteestuneméthodederéduc+ondeladimensionalité.Lebutestdeprojeterlesdonnéesdanunespaceàdimensionsréduitesetenmaximisantlasépara+ondesclasses.LaLDAestassezsimilaireàl’ACP.Enplusdetrouverlesaxesquimaximisentlavariance,ellecherchelesaxesquimaximisentlasépara+onentreclasses.
LDA
LaLDAen5étapes:-1:Calculdesdvecteursmoyenspourlesclasses-2:Calculdesmatricesdedispersion(variancesintraclasseet
interclasse)-3:calculdesvecteurspropres(e1,e2,…,ed)etdeleurs
valeurspropres(λ1,λ2,…,λd)-4:rangerlesvecteurspropresparvaleurspropres
décroissantes,choisirleskvecteurspropresaveclesplusgrandesvaleursproprespourcons+tuerlamatriceWàdxkdimensions(chaquecolonnereprésenteunvecteurpropre).
-5:U+liserladxkmatricepourprojeterlejeudedonnéesdanslenouveausousespace.Cecisefaitparleproduitmatriciel:
Y=XxW
Sinouspartonsd’unjeudedonnéesàddimensions,cejeudedonnéesseraprojetédansunsousespaceakdimensions(k<d)
LDAExemple:LesirisdeFisher3espècesIrissetosa(n=50)Irisversicolor(n=50)Irisvirginica(n=50)
Designparfaitementbalancé
4traits(variablesquan+ta+vescon+nues)Longueurdusépale(cm)Largeurdusépale(cm)Longueurdupétale(cm)Largeurdupétale(cm)
PeutontrouverdescaractèrespermeBantdedis+nguerlesespèces?
LDAExemple:LesirisdeFisher
Danscecasonvoitquelesvariablessurlespétalesontunpouvoirdiscriminantfort.Danslecasd’unfaiblenombredevariableonpeutfonc+onnerdeceBefaçon.
LDAExemple:LesirisdeFisherCondi+onsdevalidité:- Lesvariablessontnormalementdistribuées- Lesvariablessontsta+s+quementindépendantes- Lesmatricesdecovariancesonthomogènespourtoutesles
classes
CeciestimportantpourlaLDAcommeprédicteur,pourlaréduc+ondedimensionscescondi+onsnesontpasforcementtenuesd’êtrerespectées.
LDA
Etape2:Calculdesmatricesdedispersion(variancesintraclasseetinterclasse)
Lamatricededispersionintraclasses’écrit:
avec
Lamatricededispersioninterclasses’écrit:
LDA
Etape3:calculdesvecteurspropres(e1,e2,…,ed)etdeleursvaleurspropres(λ1,λ2,…,λd)
Apar+rdelamatricededispersion
Vecteurspropresquisontlesnouveauxaxesdevaria+on
ValeurspropresquisontlesIntensitésdesaxes
Cesvecteursdefinissentladirec+ondesnouveauxaxesmaisonttouslamêmevaleur:1
LDA
Etape4:Rangerlesvecteurspropresparvaleurspropresdécroissantes,choisirleskvecteurspropresaveclesplusgrandesvaleursproprespourcons+tuerlamatriceWàdxkdimensions(chaquecolonnereprésenteunvecteurpropre).
Lesvecteurspropresdéfinissentladirec+ondesnouveauxaxesmaisonttouslamêmevaleur:1Pourdéciderquelvecteurschoisirafinderéduireladimensionalité,onlesclasseparvaleurpropredécroissante.Lesvecteurspropresdontlesvaleurspropressontfaiblesportentpeud’informa+on
LDA
Etape5:U+liserladxkmatricepourprojeterlejeudedonnéesdanslenouveausousespace.Cecisefaitparleproduitmatriciel:
Y=XxW
Isotropiedanscenouvelespace
Pourconclure1varquan+
2ou
plusvarq
uali
ANOVAà2facteurs
Plusieursvariablesindépendantes
Plusieursv
ariablesdép
endantes
MANOVA
2varquan+
1varq
uali
ANCOVA