Download - Tecniche di proiezionedipbsf.uninsubria.it/qsar/education/Mat Didattico... · migliore approssimazione della configurazione reale dei dati. Le tecniche di proiezione si applicano

1

Tecniche di proiezioneTecniche di proiezione

Obiettivo delle tecniche di proiezioneObiettivo delle tecniche di proiezione è è trovare il miglior sottospaziotrovare il miglior sottospazio in in cui proiettarecui proiettare i i datidati. . Questo sottospazioQuesto sottospazio è è quello che dà origine alla quello che dà origine alla migliore approssimazione della configurazione reale dei datimigliore approssimazione della configurazione reale dei dati. .

Le tecniche di proiezione si applicanoLe tecniche di proiezione si applicano a a variabili numerichevariabili numeriche..

Lo Lo scatterplotscatterplot è è lo strumento più utilizzatolo strumento più utilizzato per per visualizzarevisualizzare la la configurazione dei daticonfigurazione dei dati..

Si parla di Si parla di spazio degli oggettispazio degli oggetti se i se i punti proiettati sono gli oggettipunti proiettati sono gli oggetti e e di di spazio delle variabilispazio delle variabili se i se i punti sono le variabilipunti sono le variabili. La prima . La prima rappresentazionerappresentazione è la è la più utilizzata dalle tecniche di analisi multivariatapiù utilizzata dalle tecniche di analisi multivariata. .

2

Definizione dello spazio degli oggettiDefinizione dello spazio degli oggetti

xx11

xx22

xx33

CC

xx11

xx22

xx33

Se xSe x11 ha ha una distribuzione normaleuna distribuzione normale, , alloraallorala la distanza tradistanza tra i due i due iperpianiiperpiani è circa 6 è circa 6 voltevolte la la sua deviazionesua deviazione standard.standard.

CentraturaCentratura

′ = −xij ij jx x

StandardizzazioneStandardizzazioneo o autoscalingautoscaling

′ =−

xijij j

j

x xs

La La correlazione tra variabilicorrelazione tra variabili influenza la forma influenza la forma dell’iperellissoidedell’iperellissoide. . Con Con variabili ortogonali si ottiene una ipersferavariabili ortogonali si ottiene una ipersfera..

3

Analisi delle componenti principaliAnalisi delle componenti principali (PCA)(PCA)XX2XX11= = altezzaaltezza 2

α

XX22= peso= peso TT1TT21

2Dati centratiDati centrati

TT11= = dimensione individuidimensione individui

TT22= forma = forma individuiindividui

XX11

t x x a x a x1 1 2 11 1 12 2= + = +cos sinα α combinazionecombinazione linearelineare (a(a1111 e ae a1212

hanno lo stesso segnohanno lo stesso segno))

t x x a x a x2 1 2 21 1 22 2= − + = +sin cosα α contrastocontrasto linearelineare (a(a2121 e ae a2222

hanno segno oppostohanno segno opposto))

4

Analisi delle componenti principaliAnalisi delle componenti principaliRiduzione della dimensionalità dello spazioRiduzione della dimensionalità dello spazio: :

poichèpoichè la la dispersione dei punti sudispersione dei punti su TT11 è è molto molto più grande di quella supiù grande di quella su TT22, , proiettandoproiettando i i punti punti susu TT11 si ottiene una buona approssimazionesi ottiene una buona approssimazione11--dimensionale della configurazione realedimensionale della configurazione reale 22--dimensionale dei puntidimensionale dei punti..

ProblemaProblema: : diversi valori didiversi valori di αα generanogeneranodiverse diverse variabilivariabili TT11, , qualequale αα sceglierescegliere??

Il migliore asseIl migliore asse TT11 èè quello che quello che determina ildetermina il minor minor spostamento dei punti spostamento dei punti dalla loro posizione originaledalla loro posizione originale (Pearson (Pearson 1901). 1901).

XX11

XX22

TT11TT22

αα

PPii

PPii’’

OO

11

2

1nP Pi i

i

n

−⋅ ′

=∑ b g 1

12

1nOPi

i

n

−⋅ ′

=∑ b g

varianza delle proiezioni lungovarianza delle proiezioni lungo TT11

11

0 11

2

1

2

1nt

nti

i

n

ii

n

−⋅ − =

−⋅

= =∑ ∑b g

minimizzareminimizzare:: massimizzaremassimizzare::

5

Analisi delle componenti principaliAnalisi delle componenti principali

Se Se lo spazio originalelo spazio originale è è definito dadefinito da pp variabilivariabili......

1. 1. si cerca il primo assesi cerca il primo asse TT11 caratterizzato dalla massima dispersione delle caratterizzato dalla massima dispersione delle proiezioni dei puntiproiezioni dei punti,,

2. 2. quindiquindi, , tra tutti gli assi ortogonalitra tutti gli assi ortogonali a Ta T11, , si cerca l’assesi cerca l’asse TT22 tale tale cheche i i punti punti proiettati abbiano massima dispersioneproiettati abbiano massima dispersione..

3. 3. Il terzo asseIl terzo asse TT33, , tra tutti gli assi ortogonali tra tutti gli assi ortogonali a Ta T11 e Te T22, è , è quelloquello a a massima massima varianza delle proiezionivarianza delle proiezioni, e , e così di seguitocosì di seguito..

Il processoIl processo continua continua finofino a a determinaredeterminare pp assi mutualmente ortogonaliassi mutualmente ortogonali. .

6

Analisi delle componenti principaliAnalisi delle componenti principaliL’analisi delle componenti principaliL’analisi delle componenti principali (PCA) è (PCA) è il processo che consente di il processo che consente di determinaredeterminare pp assi mutualmente ortogonaliassi mutualmente ortogonali. .

Ciascun asse definisce una nuova variabileCiascun asse definisce una nuova variabile: :

t x x xm m m mp pa a a= + + +1 1 2 2 L

I I coefficienti acoefficienti amjmj sono determinatisono determinati in in modomodo tale tale cheche::

1. la 1. la varianza divarianza di ttmm sia massimasia massima

2. 2. le variabilile variabili ttmm siano mutualmente ortogonali siano mutualmente ortogonali

amjj

p2

11

=∑ =3.3.

Le variabiliLe variabili ttmm così ottenute prendono il nome di così ottenute prendono il nome di componenti principalicomponenti principali((fattorifattori, , variabili latentivariabili latenti). ).

I I coefficienti acoefficienti amjmj delle componenti principali prendono il nome di delle componenti principali prendono il nome di loadingsloadings((standardizzatistandardizzati) e ) e vengono comunemente definitivengono comunemente definiti con con il simbolo il simbolo llmjmj..

7


Se Se si proiettanosi proiettano i i punti nello spazio definito dallepunti nello spazio definito dalle pp componenti principali componenti principali si ottienesi ottiene la la configurazione reale dei punticonfigurazione reale dei punti. Se . Se si desidera otteneresi desidera ottenere la la migliore rappresentazione di questa configurazionemigliore rappresentazione di questa configurazione in in uno spaziouno spazio a M a M dimensionidimensioni (M < (M < pp), ), occorre semplicemente proiettareoccorre semplicemente proiettare i i punti nello spazio punti nello spazio definito dalledefinito dalle prime M prime M componenti principalicomponenti principali..

Le coordinate dei punti rispetto alleLe coordinate dei punti rispetto alle prime M prime M componenti principali sonocomponenti principali sono::

t l x l x l xt l x l x l x

t l x l x l x

i1 11 i1 21 i2 p1 ip

i2 12 i1 22 i2 p2 ip

iM 1M i1 2M i2 pM ip

= + + +

= + + +

= + + +

K

K

L

K

Le coordinate degli oggetti rispetto alle componenti principali Le coordinate degli oggetti rispetto alle componenti principali prendono il prendono il nome dinome di scoresscores. .

T X L= ⋅(n, M)(n, M) (n, p) (p, M)(p, M)(n, p)

8


ATTENZIONE ...ATTENZIONE ...NonostanteNonostante la la configurazione dei punti nello spazio delleconfigurazione dei punti nello spazio delle prime M prime M componenti principali siacomponenti principali sia la la migliore approssimazione della configurazione migliore approssimazione della configurazione realereale, , occorre ricordare che si tratta comunque di un’approssimazioneoccorre ricordare che si tratta comunque di un’approssimazione!!

Il grado di approssimazione dipende dal grado di riduzione dellaIl grado di approssimazione dipende dal grado di riduzione delladimensionalità dello spaziodimensionalità dello spazio..

Se la Se la riduzione di dimensionalitàriduzione di dimensionalità è è grandegrande, è , è altaalta la la probabilità di probabilità di distorsione della configurazione dei puntidistorsione della configurazione dei punti. . Ciò significa che alcune Ciò significa che alcune relazioni tra gli oggetti osservate nello spaziorelazioni tra gli oggetti osservate nello spazio a M a M componenti principali componenti principali potrebbero differire da quelle nello spazio originalepotrebbero differire da quelle nello spazio originale..

9

Analisi delle componenti principaliAnalisi delle componenti principaliLaLa procedura matematicaprocedura matematica perper il calcolo delle componenti principali il calcolo delle componenti principali consiste nel calcolo degli autovaloriconsiste nel calcolo degli autovalori ee autovettoriautovettori associati della associati della matrice di matrice di covarianzacovarianza SS,, ottenuta dalla matrice dei datiottenuta dalla matrice dei dati XX..

Gli Gli autovaloriautovalori λλmm della matrice di covarianza vengono ordinatidella matrice di covarianza vengono ordinati inin senso senso decrescentedecrescente ee rappresentanorappresentano lala varianza delle proiezioni lungo le varianza delle proiezioni lungo le componenti principalicomponenti principali..

λm m imi

nVar t= =

=∑tb g 2

1

Gli Gli autovettoriautovettori llmm della matrice di covarianza sono vettoridella matrice di covarianza sono vettori aa lunghezza lunghezza unitaria che definiscono le direzioni delle componenti principalunitaria che definiscono le direzioni delle componenti principalii.. Gli Gli elementi degli autovettori sonoelementi degli autovettori sono ii coefficienti lcoefficienti ljmjm ((loadingsloadings)) delle delle combinazioni linearicombinazioni lineari ((componenti principalicomponenti principali).).

− ≤ ≤ + ∑ =1 1 12l ljm jmj

10


datidati

nn , , pp

XX

variabili xvariabili xjj

ogge

ttiog

getti

varianzevarianzecovarianzecovarianze

pp , , pp

SS

variabili xvariabili xjj

varia

bili

xva

riabi

li x jj ΛΛdiagdiag

autovaloriautovalori

pp , , pp

pcpc ttmm

pcpctt mm

loadingsloadings

pp ,, pp

LL

varia

bili

xva

riabi

li x jj

pcpc ttmm

scoresscores

nn , , pp

TT T X L= ⋅

ogge

ttiog

getti

pcpc ttmm

11


Matrice degli autovaloriMatrice degli autovalori ΛΛ

Λ ≡

λλ

λ

1

2

0 00 0

0 0

K

K

K K K K

K p

λm mVar= tb gλ λ λ1 2 0≥ ≥ ≥ ≥K p

λ jjtrace∑ = Sb g

λ jj∏ = det Sb g

LaLa matrice degli autovalorimatrice degli autovalori è laè la matrice di covarianza matrice di covarianza delle componenti principalidelle componenti principali..

12


L’analisi delle componenti principaliL’analisi delle componenti principali èè usatausata per:per:

-- visualizzarevisualizzare ii datidati ((configurazione degli oggetticonfigurazione degli oggetti) e) e osservare le osservare le relazioni internerelazioni interne ((individuazione di outliersindividuazione di outliers ee gruppigruppi, ...);, ...);

-- ridurreridurre lala dimensionalità dello spazio dei datidimensionalità dello spazio dei dati;;

-- sintetizzaresintetizzare lala descrizione dei datidescrizione dei dati ((eliminazione del rumoreeliminazione del rumore, ...);, ...);

-- valutare le correlazioni tra le variabilivalutare le correlazioni tra le variabili ee il ruolo che hanno nel il ruolo che hanno nel determinaredeterminare lala configurazione dei daticonfigurazione dei dati;;

-- ricercare proprietà principaliricercare proprietà principali;;

-- definire uno spazio ortogonaledefinire uno spazio ortogonale inin cui cercare modellicui cercare modelli per iper i datidati..

13


Scalatura delle variabiliScalatura delle variabili??

II risultati dell’analisi delle componenti principali sono fortemerisultati dell’analisi delle componenti principali sono fortemente nte influenzati dall’averinfluenzati dall’aver oo meno effettuatomeno effettuato lala scalatura delle variabiliscalatura delle variabili. .

Quando le variabiliQuando le variabili

-- rappresentano entitàrappresentano entità diverse (ex. peso ediverse (ex. peso e altezzaaltezza) )

-- sono espressesono espresse concon unità di misura differentiunità di misura differenti

-- hanno varianzehanno varianze nonnon confrontabiliconfrontabili ((ordini di grandezza diversiordini di grandezza diversi))

èè sempre consigliabile effettuare l’autoscalingsempre consigliabile effettuare l’autoscaling ((standardizzazionestandardizzazione))delle variabilidelle variabili primaprima delladella PCA.PCA.

InIn alternativa all’autoscaling si possono calcolare gli autovalorialternativa all’autoscaling si possono calcolare gli autovalori ee gli gli autovettori della matrice di correlazioneautovettori della matrice di correlazione CC..

14


ComeCome determinare il numero di componenti principali significativedeterminare il numero di componenti principali significative??

Effettuata l’analisi delle componenti principaliEffettuata l’analisi delle componenti principali,, occorre decidere quante occorre decidere quante componenti principali servonocomponenti principali servono perper ottenere unaottenere una ““buonabuona”” approssimazione approssimazione della configurazione reale dei datidella configurazione reale dei dati..

LaLa misura della bontà dimisura della bontà di taletale approssimazioneapprossimazione èè una qualche funzione una qualche funzione della varianza degli oggetti proiettati nello spazio delle compodella varianza degli oggetti proiettati nello spazio delle componentinenti,, cioè cioè degli autovalori associati alle componentidegli autovalori associati alle componenti..

15


trace trace mm

M

mm M

pSb g b g= = +

= = +∑ ∑Λ λ λ1 1

Varianza totaleVarianza totale::

Cum E Vm

m

M

mm

p. . .% = ⋅=

=

∑

∑

λ

λ

1

1

100

Valori di riferimentoValori di riferimento per E.V% per E.V% sonosono 75 75 -- 80%.80%.

RVm

m M

p

mm

p% = ⋅= +

=

∑

∑

λ

λ

1

1

100

Explained Variance % :Explained Variance % :

Residual Variance % :Residual Variance % :

La La quantità totale di informazionequantità totale di informazione è è costantecostante..

La La trasformazione operata dalletrasformazione operata dalle PC è solo PC è solo una rotazione del sistema di riferimentouna rotazione del sistema di riferimento..

16


EV

mm

p11

1

100% = ⋅

=∑

λ

λExplained Variance %Explained Variance % didi PC1 :PC1 :

Explained Variance %Explained Variance % didi PC1 + PC2 :PC1 + PC2 :

EV

mm

p1 21 2

1

100+

=

=+

⋅

∑b g%

λ λ

λ

17


ScreeScree PlotPlot

λλmm

44

33

22

11

mm00 11 22 33 44 55 66 77 88

18


Criterio dell’autovalore medioCriterio dell’autovalore medio

λλ

= =∑ mm

p

p1

LaLa componente principalecomponente principale ttmm èè significativasignificativa se: se: λ λm ≥

SeSe le componenti principali sono estratte dalla matrice di le componenti principali sono estratte dalla matrice di correlazionecorrelazione CC,, allora l’autovalore medioallora l’autovalore medio èè ugualeuguale a 1.a 1.

19


Interpretazione delle componenti principaliInterpretazione delle componenti principali

Poichè le componenti principali sono combinazioni lineari delle Poichè le componenti principali sono combinazioni lineari delle variabili originalivariabili originali,, il loro significato dipende dai loadings delle il loro significato dipende dai loadings delle variabili originalivariabili originali..

TuttaviaTuttavia,, poichèpoichè nonnon esiste un metodo matematicoesiste un metodo matematico per dareper dare un un significato fisico alle combinazioni linearisignificato fisico alle combinazioni lineari,, l’interpretazione tendel’interpretazione tende adadessere soggettivaessere soggettiva e none non sempre può essere realizzatasempre può essere realizzata..

Il Il grafico dei loadingsgrafico dei loadings èè lo strumento utilelo strumento utile perper interpretare le interpretare le componenti principalicomponenti principali..

20


EsempioEsempio 1: WINES1: WINES

38 campioni di vino descritti dal contenuto di 17 metalli

21

Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 1: WINES1: WINES

ID Cd Mo Mn Ni Cu Al Ba Cr Sr Pb1 .005 .044 1.51 .122 .83 .982 .387 .029 1.23 .5612 .055 .16 1.16 .149 .066 1.02 .312 .038 .975 .6973 .056 .146 1.1 .088 .643 1.29 .308 .035 1.14 .734 .063 .191 .959 .38 .133 1.05 .165 .036 .927 .7965 .011 .363 1.38 .16 .051 1.32 .38 .059 1.13 1.736 .05 .106 1.25 .114 .055 1.27 .275 .019 1.05 .4917 .025 .479 1.07 .168 .753 .715 .164 .062 .823 2.068 .024 .234 .906 .466 .102 .811 .271 .044 .963 1.099 .009 .058 1.84 .042 .17 1.8 .225 .022 1.13 .04810 .033 .074 1.28 .098 .053 1.35 .329 .03 1.07 .55211 .039 .071 1.19 .043 .163 .971 .105 .028 .491 .3112 .045 .147 2.76 .071 .074 .483 .301 .087 2.14 .54613 .06 .116 1.15 .055 .18 .912 .166 .041 .578 .51814 .067 .166 1.53 .041 .043 .512 .132 .026 .229 .69915 .077 .261 1.65 .073 .285 .596 .078 .063 .156 1.0216 .064 .191 1.78 .067 .552 .633 .085 .063 .192 .77717 .025 .009 1.57 .041 .081 .655 .072 .021 .172 .23218 .02 .027 1.74 .046 .153 1.15 .094 .021 .358 .02519 .034 .05 1.15 .058 .058 1.35 .294 .006 1.12 .20620 .013 .03 2.82 .058 .05 .623 .349 .082 2.91 .17121 .043 .268 2.32 .066 .314 .627 .099 .045 .36 1.2822 .061 .245 1.61 .07 .172 2.07 .071 .053 .186 1.1923 .047 .161 1.47 .154 .082 .546 .181 .06 .898 .74724 .048 .146 1.85 .092 .09 .889 .328 .1 1.32 .60425 .049 .155 1.73 .051 .158 .653 .081 .037 .164 .76726 .042 .126 1.7 .112 .21 .508 .299 .054 .995 .68627 .058 .184 1.28 .095 .058 1.3 .346 .037 1.17 1.2828 .065 .211 1.65 .102 .055 .308 .206 .028 .72 1.0229 .065 .129 1.56 .166 .151 .373 .281 .034 .889 .63830 .068 .166 3.14 .104 .053 .368 .292 .039 1.11 .83131 .067 .199 1.65 .119 .163 .447 .292 .058 .927 1.0232 .084 .266 1.28 .087 .071 1.14 .158 .049 .794 1.333 .069 .183 1.94 .07 .095 .465 .225 .037 1.19 .91534 .087 .208 1.76 .061 .099 .683 .087 .042 .168 1.3335 .074 .142 2.44 .051 .052 .737 .408 .022 1.16 .74536 .084 .171 1.85 .088 .038 1.21 .263 .072 1.35 .89937 .106 .307 1.15 .063 .051 .643 .29 .031 .885 1.6138 .102 .342 4.08 .065 .077 .752 .366 .048 1.08 1.77

ID B1 2.632 6.213 3.054 2.575 3.076 6.567 4.578 3.189 6.1310 3.311 6.5612 3.513 6.4314 7.2715 5.0416 5.5617 3.7918 4.2419 2.7120 3.5421 5.6822 4.4223 8.1124 6.4225 4.9126 6.9427 3.2928 6.1229 7.2830 4.7131 6.9732 3.7733 234 5.0435 3.9436 2.3837 4.438 3.37

Mg Si Na Ca P K Aroma128 17.3 66.8 80.5 150 1130 3.3193 19.7 53.3 75 118 1010 4.4127 15.8 35.4 91 161 1160 3.9112 13.4 27.5 93.6 120 924 3.9138 16.7 76.6 84.6 164 1090 5.6172 18.7 15.7 112 137 1290 4.6179 17.8 98.5 122 184 1170 4.8145 14.3 10.5 91.9 187 1020 5.3113 13 54.4 70.2 158 1240 4.3140 16.3 70.5 74.7 159 1100 4.3103 9.47 45.3 67.9 133 1090 5.1199 9.18 80.4 66.3 212 1470 3.3111 11.1 59.7 83.8 139 1120 5.9107 6 55.2 44.9 148 854 7.794.6 6.34 10.4 54.9 132 899 7.1110 6.96 13.6 64.1 167 976 5.575.9 6.4 11.6 48.1 132 995 6.380.9 7.92 38.9 57.6 136 876 5120 14.7 68.1 64.8 133 1050 4.6208 9.32 79.2 66.4 266 1430 3.498.4 9.11 19.5 64.3 176 945 6.487.6 7.62 11.6 70.6 156 820 5.5160 19.3 12.5 82.1 218 1220 4.7134 19.3 125 83.2 173 1810 4.186.5 6.46 11.5 53.9 172 1020 6129 43.6 45 85.9 165 1330 4.3145 16.7 65.8 72.8 175 1140 3.999.3 27.1 20.5 95.2 194 1260 5.1139 22.2 13.3 84.2 164 1200 3.9125 17.6 13.9 59.5 141 1030 4.5131 38.3 42.9 85.9 164 1390 5.2143 19.7 39.1 128 146 1230 4.2123 4.57 7.51 69.4 123 943 3.392.9 6.96 12 56.3 157 949 6.8143 6.75 36.8 67.6 81.9 1170 5130 6.18 101 64.4 98.6 1070 3.5151 17.4 7.25 103 177 1100 4.3145 5.33 33.1 58.3 117 1010 5.2

22


ID autovalore E.V.% C.E.V.% AEC KL KP BS MIF1 4.1785 24.6 24.6 * * * 20.233 0.009082 2.7468 16.2 40.7 * * * 14.350 0.008863 2.2098 13.0 53.7 * * * 11.409 0.008684 1.9349 11.4 65.1 * * * 9.448 0.008435 1.4355 8.4 73.6 * * 7.978 0.008276 1.0813 6.4 79.9 * * 6.801 0.008217 0.8527 5.0 84.9 * 5.821 0.008218 0.6082 3.6 88.5 * 4.981 0.008399 0.5129 3.0 91.5 * 4.245 0.00860

10 0.4287 2.5 94.1 3.592 0.0088111 0.3711 2.2 96.2 3.003 0.0088312 0.2542 1.5 97.7 2.469 0.0090113 0.1682 1.0 98.7 1.978 0.0094514 0.1151 0.7 99.4 1.526 0.0099815 0.0495 0.3 99.7 1.106 0.0131516 0.0333 0.2 99.9 0.714 0.0225417 0.0193 0.1 100.0 0.346 -

23


24


Matrice dei loadingsMatrice dei loadingsID Var. PC1 PC2 PC3 PC4 PC5 PC61 Cd 0.125 -0.285 0.351 0.055 -0.369 -0.2332 Mo -0.034 -0.546 0.150 -0.125 0.132 -0.0963 Mn -0.056 0.118 0.571 0.021 0.011 0.0724 Ni -0.109 -0.247 -0.268 -0.140 -0.107 0.5525 Cu -0.004 -0.122 -0.219 -0.065 0.496 -0.0616 Al 0.039 0.130 -0.278 -0.420 0.047 -0.3527 Ba -0.353 0.080 0.061 -0.229 -0.348 -0.0138 Cr -0.271 -0.118 0.266 0.101 0.394 -0.0879 Sr -0.415 0.187 0.134 -0.166 -0.085 0.16810 Pb -0.030 -0.537 0.168 -0.161 0.064 -0.09111 B 0.020 -0.034 -0.091 0.618 -0.052 -0.22412 Mg -0.405 -0.048 0.075 -0.084 -0.111 0.11513 Si -0.239 -0.142 -0.282 0.308 -0.276 -0.12314 Na -0.303 0.161 -0.019 -0.194 0.228 -0.43815 Ca -0.233 -0.333 -0.339 -0.022 -0.140 -0.11616 P -0.256 -0.024 -0.015 0.289 0.368 0.34217 K -0.403 0.097 -0.011 0.243 -0.029 -0.231

25


26


27


EsempioEsempio 2 : ALIMENTI2 : ALIMENTI

OggettiOggetti: 109: 109 VariabiliVariabili: 17: 17

IlIl data set èdata set è composto da alcuni campioni di fruttacomposto da alcuni campioni di frutta ee verduraverdura,, frescafresca eeconservataconservata, per i, per i quali sonoquali sono state definite estate definite e misuratemisurate 1717 variabilivariabili. .

28

Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 2: ALIMENTI2: ALIMENTI

ID Etichetta Definizione

1 P. Ed. (%) Parte edibile2 H2O Acqua3 Prot. Proteine4 Lip. Lipidi5 Glu-ava Glucidi disponibili6 Glu-ami Glucidi amido7 Glu-sol Glucidi solubili8 Glu-fib Glucidi fibra9 Kcal Kilocalorie10 Fe Ferro11 Ca Calcio12 P Fosforo13 Tia. Tiamina14 Rib. Riboflavina15 Niam. Niamicina16 Vit-A Vitamina A17 Vit-C Vitamina C

29

Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 2: ALIMENTI2: ALIMENTI

Name ID P.Ed. H2O Prot. Lip. Glu-ava Glu-ami Glu-sol Glu-fib Kcal Fe Ca P Tia. Rib. Niam. Vit-A Vit-C

Albicocche 1 94 86.3 0.4 0.1 6.8 0.0 6.8 0.6 28 0.5 16.0 16.0 0.0 0.0 0.5 360.0 13.0Amarene 2 85 84.2 0.8 0.0 10.2 0.0 10.2 1.0 41 0.4 15.0 17.0 0.0 0.1 0.4 24.0 7.0Ananas 3 57 86.4 0.5 0.0 10.0 0.0 10.0 0.4 40 0.5 17.0 8.0 0.1 0.0 0.2 7.0 17.0Arachidi crude 4 79 7.1 26.0 47.2 11.2 6.7 4.5 2.3 571 3.2 60.0 239.0 1.5 0.1 0.4 0.0 2.0Arance 5 80 87.2 0.7 0.2 7.8 0.0 7.8 0.6 34 0.2 49.0 22.0 0.1 0.1 0.2 71.0 50.0Arance succo 6 100 89.3 0.5 0.0 8.2 0.0 8.2 0.0 33 0.2 15.0 17.0 0.1 0.0 0.4 38.0 44.0Banane 7 65 76.8 1.2 0.3 15.5 2.4 12.8 0.5 66 0.8 7.0 28.0 0.1 0.1 0.7 45.0 16.0Castagne 8 69 41.0 3.5 1.8 42.4 34.3 8.1 1.0 189 1.2 38.0 89.0 0.2 0.4 1.4 0.0 18.2Ciliegie 9 86 86.2 0.8 0.1 9.0 0.0 9.0 1.0 38 0.6 30.0 18.0 0.0 0.0 0.5 19.0 11.0Cocomero 10 52 95.3 0.4 0.0 3.7 0.0 3.7 0.0 15 0.2 7.0 2.0 0.0 0.0 0.0 37.0 8.0Fichi 11 75 81.9 0.9 0.2 11.2 0.0 11.2 0.7 47 0.5 43.0 25.0 0.0 0.0 0.4 15.0 7.0Fichi d'India 12 64 83.2 0.8 0.0 13.0 1.6 13.0 0.3 53 0.4 30.0 25.0 0.0 0.0 0.4 10.0 2.0Fragole 13 94 90.5 0.9 0.4 5.3 0.0 5.3 0.6 27 0.8 35.0 28.0 0.0 0.0 0.5 0.0 54.0Lamponi 14 100 84.6 1.0 0.6 6.5 0.0 6.5 3.0 34 1.0 49.0 52.0 0.1 0.0 0.5 13.0 25.0Limoni 15 64 89.5 0.6 0.0 2.3 0.0 2.3 0.6 11 0.1 14.0 11.0 0.0 0.0 0.3 0.0 50.0Limoni succo 16 100 92.1 0.2 0.0 1.4 0.0 1.4 0.0 6 0.2 14.0 10.0 0.0 0.0 0.2 0.0 43.0

………………. ….. … … … … … … … … … … … … … … … … …

Sedano 97 80 88.3 2.3 0.2 2.4 0.2 2.2 0.8 20 0.5 31.0 45.0 0.1 0.2 0.2 207.0 32.0Sedano rapa 98 72 88.0 1.9 0.1 3.8 0.0 3.8 1.8 23 0.5 52.0 90.0 0.1 0.1 0.5 0.0 6.0Spinaci 99 83 90.1 3.4 0.7 3.0 2.4 0.4 0.5 31 2.9 78.0 62.0 0.1 0.4 0.4 485.0 54.0Tartufo nero 100 79 76.3 6.0 0.5 0.7 1.2 0.7 9.4 31 3.5 24.0 62.0 0.1 0.1 2.0 0.0 1.0Zucca gialla 101 81 94.6 1.1 0.1 3.5 1.0 2.5 1.3 18 0.9 20.0 40.0 0.0 0.0 0.5 599.0 9.0Zucchine 102 88 93.6 1.3 0.1 2.1 1.2 2.1 0.9 14 0.5 21.0 65.0 0.1 0.1 0.7 6.0 11.0Ceci 103 100 13.0 21.8 4.9 54.3 46.0 3.7 5.2 334 6.1 117.0 299.0 0.4 0.1 1.7 30.0 5.0Fagioli 104 100 10.7 23.6 2.5 51.7 43.2 4.0 5.0 311 6.7 137.0 437.0 0.4 0.2 2.3 3.0 3.0Fave sgusciate 105 100 13.3 27.2 3.0 55.3 45.4 4.9 1.5 342 5.0 90.0 420.0 0.5 0.3 2.6 10.0 4.0Lenticchie 106 100 11.6 25.0 2.5 54.0 46.5 2.4 3.9 325 5.1 127.0 347.0 0.6 0.2 1.8 10.0 3.0Lupini 107 76 69.0 16.4 2.4 7.2 6.0 0.5 3.6 114 5.5 45.0 100.0 0.1 0.0 0.2 12.6 3.8Lupini secchi 108 100 10.7 37.2 13.2 36.0 38.8 3.1 1.1 402 5.5 94.0 320.5 0.4 0.2 1.8 12.6 3.8Piselli 109 100 13.0 21.7 2.0 53.6 45.7 2.9 5.0 306 4.5 48.0 320.0 0.6 0.2 2.2 10.0 4.0

30

Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI

PC autovalore E.V.% C.E.V.% AEC CAEC1 6.9010 40.59 40.59 * *2 2.2290 13.11 53.71 * *3 2.0180 11.87 65.58 * *4 1.3320 7.84 73.41 * *5 0.9168 5.39 78.80 *6 0.8030 4.72 83.53 *7 0.6984 4.11 87.648 0.5680 3.34 90.989 0.4098 2.41 93.39

10 0.3694 2.17 95.5611 0.2792 1.64 97.2012 0.2440 1.44 98.6413 0.1623 0.95 99.5914 0.0603 0.35 99.9515 0.0071 0.04 99.9916 0.0016 0.01 10017 0.0001 0.00 100

31


32


Loading Plot of axes 1 and 2 (54% )

Vit-CVit-A

Niam.

Rib.

Tia.PCa

FeKcalGlu-fib

Glu-sol

Glu-ami

Glu-ava

Lip.

Prot. H2O

P.Ed.

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

axis 1 (41% )

axis

2 (1

3% )

33



PC1 (E.V.% 40.59): contiene essenzialmente informazione sul contPC1 (E.V.% 40.59): contiene essenzialmente informazione sul contenuto d'acqua enuto d'acqua degli alimenti; infatti, nel loading plot PC2 vs. PC1, si può osdegli alimenti; infatti, nel loading plot PC2 vs. PC1, si può osservare che la variabile servare che la variabile HH22O ha un loading in valore assoluto molto alto. Altre variabili iO ha un loading in valore assoluto molto alto. Altre variabili importanti nella prima mportanti nella prima componente principale ma inversamente correlate alla variabile Hcomponente principale ma inversamente correlate alla variabile H22O (influenza O (influenza opposta nel determinare la componente) sono: KCAL (kilocalorie),opposta nel determinare la componente) sono: KCAL (kilocalorie), P (contenuto di P (contenuto di fosforo), PROT (contenuto di proteine), FE (contenuto di ferro) fosforo), PROT (contenuto di proteine), FE (contenuto di ferro) e TIA (contenuto di e TIA (contenuto di tiamina).tiamina).

34



PC2 (E.V.% 13.11): contiene essenzialmente informazione sul contenuto di glucidi (solubili, GLU_SOL, e disponibili, GLU_AVA) e la parte edibile (EDIB) degli alimenti. Altre variabili influenti ma inversamente correlate ai glucidi e alla parte edibile sono: LIP (contenuto di lipidi), VIT_A e VIT_C (contenuto di vitamine) e RIB (contenuto di riboflavina). Quindi, la seconda componente principale sembra spiegare la separazione tra alimenti molto dolci, grande contenuto di zuccheri, ed alimenti a maggior contenuto di lipidi e vitamine.

35


Analisi delle correlazioni tra le variabiliAnalisi delle correlazioni tra le variabili

Analizzando i grafici dei loadings relativi alle componenti prinAnalizzando i grafici dei loadings relativi alle componenti principali significative, è cipali significative, è possibile studiare le correlazioni tra le variabili originali repossibile studiare le correlazioni tra le variabili originali relativamente lativamente all'informazione spiegata dalle componenti considerate. all'informazione spiegata dalle componenti considerate. Gruppi di variabili che compaiono vicine nello spazio delle compGruppi di variabili che compaiono vicine nello spazio delle componenti principali onenti principali considerate indicano che, limitatamente all'informazione portataconsiderate indicano che, limitatamente all'informazione portata da queste da queste componenti, esse portano un'informazione simile e sono quindi cocomponenti, esse portano un'informazione simile e sono quindi correlate.rrelate.

36


Analisi delle correlazioni tra le variabiliAnalisi delle correlazioni tra le variabili

Considerando le prime sei componenti principali, le correlazioniConsiderando le prime sei componenti principali, le correlazioni più più significative riscontrate riguardano i seguenti gruppi di variabsignificative riscontrate riguardano i seguenti gruppi di variabili:ili:

Correlazione diretta:Correlazione diretta:-- vitamina A e vitamina C vitamina A e vitamina C -- proteine, tiamina e fosforoproteine, tiamina e fosforo-- lipidi e Kcallipidi e Kcal

Correlazione inversa:Correlazione inversa:-- acqua e Kcaacqua e Kca

37


Analisi delle similarità/diversità dei campioniAnalisi delle similarità/diversità dei campioni

I grafici degli scores (score plots) consentono di analizzare ilI grafici degli scores (score plots) consentono di analizzare il comportamento dei comportamento dei campioni e in particolare le loro similarità/diversità e anche lcampioni e in particolare le loro similarità/diversità e anche l'eventuale presenza di 'eventuale presenza di campioni anomali.campioni anomali.Il grafico degli scores, relativo a due componenti principali, èIl grafico degli scores, relativo a due componenti principali, è un grafico in cui sono un grafico in cui sono visualizzate le proiezioni dei campioni nello spazio definito davisualizzate le proiezioni dei campioni nello spazio definito dalle due componenti lle due componenti considerate.considerate.

38


Score Plot of axes 1 and 2 (54% )

109

108107

106105104 103

102101

100

99

98 9796

95

94

93

92

91908988

87

86

8584 83828180

79

7877 76

75

74 73727170

6968676665

646362 61

605958

5756

55

5453

5251

50

49 48

4746

45

44

43

4241 40

39 38

37

36 353433

32

3130292827

26

2524232221

2019181716

1514 131211

1098 7 6

5

4

32

1

-6

-4

-2

0

2

4

6

-8 -6 -4 -2 0 2 4

axis 1 (41% )

axis

2 (1

3% )

Alimenti freschiAlimenti freschi

Alimenti conservatiAlimenti conservati

39


Analisi delle similarità/diversità dei campioniAnalisi delle similarità/diversità dei campioni

Spazio PC1 Spazio PC1 –– PC2 (C.V.% 53.71)PC2 (C.V.% 53.71)Si evidenzia una separazione tra gli Si evidenzia una separazione tra gli alimenti freschialimenti freschi e gli e gli alimenti conservatialimenti conservati, i primi , i primi caratterizzati soprattutto da un elevato contenuto d'acqua e vitcaratterizzati soprattutto da un elevato contenuto d'acqua e vitamine e i secondi da un amine e i secondi da un basso contenuto d'acqua.basso contenuto d'acqua.

Il gruppo di alimenti conservati mostra una evidente separazioneIl gruppo di alimenti conservati mostra una evidente separazione in sottogruppi al suo in sottogruppi al suo interno, in particolare si evidenziano i seguenti sottogruppi: interno, in particolare si evidenziano i seguenti sottogruppi: -- campioni n. 103, 104, 105, 106, 108, 109 (campioni n. 103, 104, 105, 106, 108, 109 (legumilegumi): basso contenuto di acqua, molto ): basso contenuto di acqua, molto calorici, alto contenuto di proteine, fosforo, ferro, tiamina;calorici, alto contenuto di proteine, fosforo, ferro, tiamina;-- campioni n. 33, 34, 35, 36, 44, 45 (campioni n. 33, 34, 35, 36, 44, 45 (frutta secca dolcefrutta secca dolce): alto contenuto di glucidi (solubili ): alto contenuto di glucidi (solubili e disponibili), grande parte edibile, basso contenuto di lipidi e disponibili), grande parte edibile, basso contenuto di lipidi e vitamine;e vitamine;-- campioni n. 4, 26, 32, 37, 38, 39, 43 (campioni n. 4, 26, 32, 37, 38, 39, 43 (frutta seccafrutta secca): basso contenuto di acqua, molto ): basso contenuto di acqua, molto calorici, alto contenuto di lipidi, vitamine, riboflavina, calcicalorici, alto contenuto di lipidi, vitamine, riboflavina, calcio, basso contenuto di glucidi e o, basso contenuto di glucidi e piccola parte edibile.piccola parte edibile.

40


Biplot on axes 1 and 2 (54% )

123

4

5678 9

101112

1314

1516

171819202122

2324

25

26

272829

3031

32

33

34 3536

37

3839

4041

42

43

44

45

4647

4849

50

5152

5354

55

56

57

5859

606162

6364

6566 676869

707172

7374

75

767778

798081 82

838485

86

87

88899091

92

93

94

9596

9798

99

100101

102

103104105106

107108

109 P.Ed.

H2OProt.

Lip.

Glu-ava

Glu-ami

Glu-sol

Glu-fibKcal Fe

CaP Tia.Rib.

Niam.

Vit-AVit-C

-6

-4

-2

0

2

4

6

-8 -6 -4 -2 0 2 4 6 8

axis 1 (41% )

axis

2 (1

3% )

41

Altre tecniche di proiezioneAltre tecniche di proiezione

L’analisi delle componenti principali è la tecnica più popolare L’analisi delle componenti principali è la tecnica più popolare perchè:perchè:

-- le pc sono facilmente calcolabili (esiste soluzione analitica);le pc sono facilmente calcolabili (esiste soluzione analitica);

-- le pc sono intuitive;le pc sono intuitive;

-- le pc hanno proprietà interessanti.le pc hanno proprietà interessanti.

Lo spazio definito dalle componenti principali minimizza la seguLo spazio definito dalle componenti principali minimizza la seguente ente quantità:quantità:

V d dst stts= −∑∑ 2 2$e j

è la distanza al quadrato tra i punti Pè la distanza al quadrato tra i punti Pss e Pe Ptt nello spazio originaledst2 nello spazio originale

$dst2 è la distanza al quadrato tra i punti P’è la distanza al quadrato tra i punti P’ss e P’e P’tt nello spazio delle pcnello spazio delle pc

… tuttavia, sotto il vincolo dell’ortogonalità delle componenti.… tuttavia, sotto il vincolo dell’ortogonalità delle componenti.

42


Rinunciando all’ortogonalità, si può cercare la rappresentazioneRinunciando all’ortogonalità, si può cercare la rappresentazione dei dati dei dati che riproduce al meglio le distanze reali tra tutte le coppie diche riproduce al meglio le distanze reali tra tutte le coppie di oggetti, cioè oggetti, cioè che minimizza:che minimizza:

L w d dst st stts* $= ⋅ −∑∑ e j2

NON NON -- LINEAR MAPPINGLINEAR MAPPING

E’ una tecnica di ottimizzazione che trova le coordinate degli oE’ una tecnica di ottimizzazione che trova le coordinate degli oggetti nel ggetti nel nuovo spazio mediante algoritmi numerici iterativi partendo da unuovo spazio mediante algoritmi numerici iterativi partendo da una na configurazione iniziale dei punti.configurazione iniziale dei punti.

Le nuove variabili non hanno alcun significato, servono solo perLe nuove variabili non hanno alcun significato, servono solo per la la visualizzazione grafica degli oggetti in uno spazio a poche dimevisualizzazione grafica degli oggetti in uno spazio a poche dimensioni. nsioni.

43


Poichè la PCA e il nonPoichè la PCA e il non--linear mapping possono essere applicati a variabili linear mapping possono essere applicati a variabili numeriche …..numeriche …..

…. cosa fare quando si hanno variabili categoriche?…. cosa fare quando si hanno variabili categoriche?

1.1. Se la variabile categorica è ordinale, può essere trasformata inSe la variabile categorica è ordinale, può essere trasformata invariabile numerica attribuendo dei punteggi alle categorie.variabile numerica attribuendo dei punteggi alle categorie.

2.2. Ciascuna categoria della variabile può essere sostituita con unaCiascuna categoria della variabile può essere sostituita con unavariabile binaria con valori 0 e 1.variabile binaria con valori 0 e 1.

3.3. Si calcola la dissimilarità tra tutte le coppie di oggetti e si Si calcola la dissimilarità tra tutte le coppie di oggetti e si cerca di cerca di costruire una configurazione di punti minimizzando le funzioni costruire una configurazione di punti minimizzando le funzioni VV o o LL* * dove la distanza Euclidea tra punti è sostituita dalla misura didove la distanza Euclidea tra punti è sostituita dalla misura didissimilarità tra i corrispondenti oggetti. dissimilarità tra i corrispondenti oggetti.

44


MATRICE DI DISSIMILARITA’MATRICE DI DISSIMILARITA’

matrice quadrata simmetrica (matrice quadrata simmetrica (nn, , nn))

00

0

12 1

2

d dd

n

n

K

K

K K

1.1. Può essere calcolata dalla matrice dei dati (Può essere calcolata dalla matrice dei dati (nn, , pp))

2.2. o essere essa stessa la matrice dei dati.o essere essa stessa la matrice dei dati.

45


Principal coordinate analysis (scaling metrico)Principal coordinate analysis (scaling metrico)

Tecnica utilizzata per cercare una rappresentazione geometrica dTecnica utilizzata per cercare una rappresentazione geometrica degli egli oggetti a partire dalla matrice di dissimilarità.oggetti a partire dalla matrice di dissimilarità.

Gli oggetti vengono rappresentati con dei punti e le distanze trGli oggetti vengono rappresentati con dei punti e le distanze tra punti a punti misurano la dissimilarità tra gli oggetti corrispondenti.misurano la dissimilarità tra gli oggetti corrispondenti.

Si calcolano gli autovalori e autovettori di una matrice Si calcolano gli autovalori e autovettori di una matrice FF ricavata dalla ricavata dalla matrice di dissimilarità. Le coordinate degli oggetti rispetto amatrice di dissimilarità. Le coordinate degli oggetti rispetto all’asse ll’asse jjsono date da: sono date da:

$x aj j j= ⋅λ

dove adove ajj sono gli elementi del jsono gli elementi del j--esimo autovettore e esimo autovettore e λλjj il corrispondente il corrispondente autovalore.autovalore.

46


Principal coordinate analysis (scaling metrico)Principal coordinate analysis (scaling metrico)

Gli assi che definiscono il sistema di riferimento non hanno alcGli assi che definiscono il sistema di riferimento non hanno alcun un significato.significato.

Le posizioni degli oggetti nello spazio sono strettamente dipendLe posizioni degli oggetti nello spazio sono strettamente dipendenti enti dai dati utilizzati.dai dati utilizzati.

Se la matrice di dissimilarità è calcolata usando la distanza EuSe la matrice di dissimilarità è calcolata usando la distanza Euclidea, clidea, allora il risultato della principal coordinate analysis è identiallora il risultato della principal coordinate analysis è identico a quello co a quello della principal component analysis applicata alla matrice dei dadella principal component analysis applicata alla matrice dei dati (ti (nn, , pp).).

47


Multidimensional Scaling (nonMultidimensional Scaling (non--metric)metric)

Tecnica basata sugli stessi principi della principal coordinate Tecnica basata sugli stessi principi della principal coordinate analysis, analysis, però finalizzata alla ricerca di una configurazione dei punti inperò finalizzata alla ricerca di una configurazione dei punti in cui le cui le distanze tra punti siano distanze tra punti siano monotonicamentemonotonicamente relazionate alle dissimilarità relazionate alle dissimilarità tra gli oggetti corrispondenti.tra gli oggetti corrispondenti.

Il punto di partenza è sempre la matrice di dissimilarità.Il punto di partenza è sempre la matrice di dissimilarità.

Si utilizzano algoritmi numerici iterativi a partire da una confSi utilizzano algoritmi numerici iterativi a partire da una configurazione igurazione iniziale arbitraria di punti.iniziale arbitraria di punti.

48


MATRICE DI INCIDENZAMATRICE DI INCIDENZA

Gli elementi di questa matrice sono dati dal numero di occorrenzGli elementi di questa matrice sono dati dal numero di occorrenze e congiunte di alcune variabili discrete.congiunte di alcune variabili discrete.

Tabella di contingenza (Tabella di contingenza (kk, , qq) relativa a 2 variabili discrete ) relativa a 2 variabili discrete K K con con kkcategorie e categorie e QQ con con qq categorie. Il singolo elemento ncategorie. Il singolo elemento nijij rappresenta il rappresenta il numero di volte che la categoria numero di volte che la categoria ii--esimaesima della variabile della variabile KK e la categoria e la categoria jj--esimaesima della variabile della variabile QQ sono osservate contemporaneamente in un sono osservate contemporaneamente in un campione di campione di nn oggetti.oggetti.

49


Analisi delle corrispondenzeAnalisi delle corrispondenze

Tecnica utilizzata per ottenere una rappresentazione grafica delTecnica utilizzata per ottenere una rappresentazione grafica delcontenuto di una matrice di incidenza.contenuto di una matrice di incidenza.

E’ una tecnica di ottimizzazione.E’ una tecnica di ottimizzazione.

L’idea è quella di definire un’opportuna scala di valori per le L’idea è quella di definire un’opportuna scala di valori per le variabili variabili categoriche in modo che possano essere proiettate. Viene assegnacategoriche in modo che possano essere proiettate. Viene assegnato to uno uno scorescore a ciascuna categoria di ogni variabile, tale a ciascuna categoria di ogni variabile, tale scorescore viene quindi viene quindi utilizzato come coordinata della categoria nella rappresentazionutilizzato come coordinata della categoria nella rappresentazione e grafica. grafica.

50

Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa

Supponiamo che sia data una matrice di dati (Supponiamo che sia data una matrice di dati (nn, , pp) ) in cui gli oggetti sono suddivisi in G gruppi diversi.in cui gli oggetti sono suddivisi in G gruppi diversi.

Matrice di dati con struttura di gruppoMatrice di dati con struttura di gruppo

nngg = numero di oggetti appartenenti al = numero di oggetti appartenenti al gg--esimoesimo gruppogruppo

n ngg

G=

=∑1

51


In una rappresentazione geometrica dei dati:In una rappresentazione geometrica dei dati:

-- gli oggetti sono rappresentati con dei punti;gli oggetti sono rappresentati con dei punti;

-- i gruppi di oggetti sono rappresentati con insiemi di punti;i gruppi di oggetti sono rappresentati con insiemi di punti;

-- le distanze tra gli insiemi di punti rappresentano le diversità le distanze tra gli insiemi di punti rappresentano le diversità tra i corrispondenti gruppi di oggetti.tra i corrispondenti gruppi di oggetti.

Matrice di dati con struttura di gruppoMatrice di dati con struttura di gruppo

Se Se pp > 3, allora occorre trovare una rappresentazione dei dati a > 3, allora occorre trovare una rappresentazione dei dati a poche dimensioni che approssimi al meglio le differenze tra gli poche dimensioni che approssimi al meglio le differenze tra gli insiemi di punti nella configurazione reale.insiemi di punti nella configurazione reale.

52



--1010

--99

--88

--77

--66

--55

--44

--33

--22

--11

3.83.8 4.24.2 4.64.6 5.05.0 5.45.4 5.85.8 6.26.2 6.66.6 7.07.0

Iris dataIris data

PC1PC1

PC2

PC2

150 iris150 iris

4 variabili:4 variabili:

-- lunghezza sepalilunghezza sepali

-- ampiezza sepaliampiezza sepali

-- lunghezza petalilunghezza petali

-- ampiezza petaliampiezza petali

3 gruppi:3 gruppi:

setosasetosaversicolorversicolor

virginica virginica

53


Analisi delle variabili canonicheAnalisi delle variabili canoniche

setosasetosaversicolorversicolor

virginica virginica Iris dataIris data

--33

--22

--11

00

11

22

33

--1010 --55 00 55 1010

CV1CV1C

V2C

V2

54



Obiettivo dell’analisi canonica è trovare la migliore rappresentObiettivo dell’analisi canonica è trovare la migliore rappresentazione azione dei dati per osservare le differenze tra i gruppi.dei dati per osservare le differenze tra i gruppi.

Alcuni principi dell’analisiAlcuni principi dell’analisi

Supponiamo di voler trovare la migliore rappresentazione a 1 dimSupponiamo di voler trovare la migliore rappresentazione a 1 dimensione, ensione, combinazione lineare delle variabili originali.combinazione lineare delle variabili originali.

ttigig è la coordinata dell’è la coordinata dell’ii--esimoesimo oggetto appartenente al oggetto appartenente al gg--esimoesimo gruppo lungo gruppo lungo il nuovo asse.il nuovo asse.

55


Media di gruppo :Media di gruppo : tn

tgg

igi

ng

= ⋅=∑1

1

tn

n tn

tn

tg gg

G

igi

n

g

G

ii

ng

= ⋅ ⋅ = ⋅ = ⋅= == =∑ ∑∑ ∑1 1 1

1 11 1

Media generalizzata :Media generalizzata :


56


BetweenBetween--group Sum of Squares :group Sum of Squares : SSB n t tg gg

Gab g d i= ⋅ −

=∑

2

1

SSW t tig gi

n

g

G g

ab g d i= −==∑∑

2

11

WithinWithin--group Sum of Squares :group Sum of Squares :


57


FSSB G

SSW n G=

−−

aab g b gb g b g

1

La migliore scelta di La migliore scelta di aa è quella che massimizza il rapporto :è quella che massimizza il rapporto :

aa definisce la direzione lungo la quale la varianza tra i gruppi definisce la direzione lungo la quale la varianza tra i gruppi relativamente alla varianza all’interno dei gruppi è massima.relativamente alla varianza all’interno dei gruppi è massima.


58


Le combinazioni lineari delle variabili originali trovate dall’aLe combinazioni lineari delle variabili originali trovate dall’analisi nalisi canonica si chiamano canonica si chiamano variabili canoniche (CV)variabili canoniche (CV)..

A differenza delle componenti principali, le variabili canonicheA differenza delle componenti principali, le variabili canoniche non non sono ortogonali. Quindi, l’analisi canonica introduce una sono ortogonali. Quindi, l’analisi canonica introduce una deformazione del sistema di riferimento originale.deformazione del sistema di riferimento originale.

Assunzione fondamentale dell’analisi canonica :Assunzione fondamentale dell’analisi canonica :

le matrici di covarianza dei singoli gruppi devono essere ugualile matrici di covarianza dei singoli gruppi devono essere uguali..


59


Variabili numericheVariabili numeriche

Variabili categoricheVariabili categoriche

matrice di similarità matrice di similarità (n, n)(n, n)

Principal Component AnalysisPrincipal Component Analysis

NonNon--linear mappinglinear mapping

Principal Coordinate Principal Coordinate AnalysisAnalysis

Multidimensional ScalingMultidimensional Scaling

matrice dei dati matrice dei dati (n, p)

matrice dei dati con matrice dei dati con struttura di classestruttura di classe

Canonical AnalysisCanonical Analysis

(n, p)

matrice di incidenza matrice di incidenza (k, q)

Correspondence Correspondence Analysis(k, q) Analysis

Download - Tecniche di proiezionedipbsf.uninsubria.it/qsar/education/Mat Didattico... · migliore approssimazione della configurazione reale dei dati. Le tecniche di proiezione si applicano

Top Related