1
Tecniche di proiezioneTecniche di proiezione
Obiettivo delle tecniche di proiezioneObiettivo delle tecniche di proiezione è è trovare il miglior sottospaziotrovare il miglior sottospazio in in cui proiettarecui proiettare i i datidati. . Questo sottospazioQuesto sottospazio è è quello che dà origine alla quello che dà origine alla migliore approssimazione della configurazione reale dei datimigliore approssimazione della configurazione reale dei dati. .
Le tecniche di proiezione si applicanoLe tecniche di proiezione si applicano a a variabili numerichevariabili numeriche..
Lo Lo scatterplotscatterplot è è lo strumento più utilizzatolo strumento più utilizzato per per visualizzarevisualizzare la la configurazione dei daticonfigurazione dei dati..
Si parla di Si parla di spazio degli oggettispazio degli oggetti se i se i punti proiettati sono gli oggettipunti proiettati sono gli oggetti e e di di spazio delle variabilispazio delle variabili se i se i punti sono le variabilipunti sono le variabili. La prima . La prima rappresentazionerappresentazione è la è la più utilizzata dalle tecniche di analisi multivariatapiù utilizzata dalle tecniche di analisi multivariata. .
2
Definizione dello spazio degli oggettiDefinizione dello spazio degli oggetti
xx11
xx22
xx33
CC
xx11
xx22
xx33
Se xSe x11 ha ha una distribuzione normaleuna distribuzione normale, , alloraallorala la distanza tradistanza tra i due i due iperpianiiperpiani è circa 6 è circa 6 voltevolte la la sua deviazionesua deviazione standard.standard.
CentraturaCentratura
′ = −xij ij jx x
StandardizzazioneStandardizzazioneo o autoscalingautoscaling
′ =−
xijij j
j
x xs
La La correlazione tra variabilicorrelazione tra variabili influenza la forma influenza la forma dell’iperellissoidedell’iperellissoide. . Con Con variabili ortogonali si ottiene una ipersferavariabili ortogonali si ottiene una ipersfera..
3
Analisi delle componenti principaliAnalisi delle componenti principali (PCA)(PCA)XX2XX11= = altezzaaltezza 2
α
XX22= peso= peso TT1TT21
2Dati centratiDati centrati
TT11= = dimensione individuidimensione individui
TT22= forma = forma individuiindividui
XX11
t x x a x a x1 1 2 11 1 12 2= + = +cos sinα α combinazionecombinazione linearelineare (a(a1111 e ae a1212
hanno lo stesso segnohanno lo stesso segno))
t x x a x a x2 1 2 21 1 22 2= − + = +sin cosα α contrastocontrasto linearelineare (a(a2121 e ae a2222
hanno segno oppostohanno segno opposto))
4
Analisi delle componenti principaliAnalisi delle componenti principaliRiduzione della dimensionalità dello spazioRiduzione della dimensionalità dello spazio: :
poichèpoichè la la dispersione dei punti sudispersione dei punti su TT11 è è molto molto più grande di quella supiù grande di quella su TT22, , proiettandoproiettando i i punti punti susu TT11 si ottiene una buona approssimazionesi ottiene una buona approssimazione11--dimensionale della configurazione realedimensionale della configurazione reale 22--dimensionale dei puntidimensionale dei punti..
ProblemaProblema: : diversi valori didiversi valori di αα generanogeneranodiverse diverse variabilivariabili TT11, , qualequale αα sceglierescegliere??
Il migliore asseIl migliore asse TT11 èè quello che quello che determina ildetermina il minor minor spostamento dei punti spostamento dei punti dalla loro posizione originaledalla loro posizione originale (Pearson (Pearson 1901). 1901).
XX11
XX22
TT11TT22
αα
PPii
PPii’’
OO
11
2
1nP Pi i
i
n
−⋅ ′
=∑ b g 1
12
1nOPi
i
n
−⋅ ′
=∑ b g
varianza delle proiezioni lungovarianza delle proiezioni lungo TT11
11
0 11
2
1
2
1nt
nti
i
n
ii
n
−⋅ − =
−⋅
= =∑ ∑b g
minimizzareminimizzare:: massimizzaremassimizzare::
5
Analisi delle componenti principaliAnalisi delle componenti principali
Se Se lo spazio originalelo spazio originale è è definito dadefinito da pp variabilivariabili......
1. 1. si cerca il primo assesi cerca il primo asse TT11 caratterizzato dalla massima dispersione delle caratterizzato dalla massima dispersione delle proiezioni dei puntiproiezioni dei punti,,
2. 2. quindiquindi, , tra tutti gli assi ortogonalitra tutti gli assi ortogonali a Ta T11, , si cerca l’assesi cerca l’asse TT22 tale tale cheche i i punti punti proiettati abbiano massima dispersioneproiettati abbiano massima dispersione..
3. 3. Il terzo asseIl terzo asse TT33, , tra tutti gli assi ortogonali tra tutti gli assi ortogonali a Ta T11 e Te T22, è , è quelloquello a a massima massima varianza delle proiezionivarianza delle proiezioni, e , e così di seguitocosì di seguito..
Il processoIl processo continua continua finofino a a determinaredeterminare pp assi mutualmente ortogonaliassi mutualmente ortogonali. .
6
Analisi delle componenti principaliAnalisi delle componenti principaliL’analisi delle componenti principaliL’analisi delle componenti principali (PCA) è (PCA) è il processo che consente di il processo che consente di determinaredeterminare pp assi mutualmente ortogonaliassi mutualmente ortogonali. .
Ciascun asse definisce una nuova variabileCiascun asse definisce una nuova variabile: :
t x x xm m m mp pa a a= + + +1 1 2 2 L
I I coefficienti acoefficienti amjmj sono determinatisono determinati in in modomodo tale tale cheche::
1. la 1. la varianza divarianza di ttmm sia massimasia massima
2. 2. le variabilile variabili ttmm siano mutualmente ortogonali siano mutualmente ortogonali
amjj
p2
11
=∑ =3.3.
Le variabiliLe variabili ttmm così ottenute prendono il nome di così ottenute prendono il nome di componenti principalicomponenti principali((fattorifattori, , variabili latentivariabili latenti). ).
I I coefficienti acoefficienti amjmj delle componenti principali prendono il nome di delle componenti principali prendono il nome di loadingsloadings((standardizzatistandardizzati) e ) e vengono comunemente definitivengono comunemente definiti con con il simbolo il simbolo llmjmj..
7
Analisi delle componenti principaliAnalisi delle componenti principali
Se Se si proiettanosi proiettano i i punti nello spazio definito dallepunti nello spazio definito dalle pp componenti principali componenti principali si ottienesi ottiene la la configurazione reale dei punticonfigurazione reale dei punti. Se . Se si desidera otteneresi desidera ottenere la la migliore rappresentazione di questa configurazionemigliore rappresentazione di questa configurazione in in uno spaziouno spazio a M a M dimensionidimensioni (M < (M < pp), ), occorre semplicemente proiettareoccorre semplicemente proiettare i i punti nello spazio punti nello spazio definito dalledefinito dalle prime M prime M componenti principalicomponenti principali..
Le coordinate dei punti rispetto alleLe coordinate dei punti rispetto alle prime M prime M componenti principali sonocomponenti principali sono::
t l x l x l xt l x l x l x
t l x l x l x
i1 11 i1 21 i2 p1 ip
i2 12 i1 22 i2 p2 ip
iM 1M i1 2M i2 pM ip
= + + +
= + + +
= + + +
K
K
L
K
Le coordinate degli oggetti rispetto alle componenti principali Le coordinate degli oggetti rispetto alle componenti principali prendono il prendono il nome dinome di scoresscores. .
T X L= ⋅(n, M)(n, M) (n, p) (p, M)(p, M)(n, p)
8
Analisi delle componenti principaliAnalisi delle componenti principali
ATTENZIONE ...ATTENZIONE ...NonostanteNonostante la la configurazione dei punti nello spazio delleconfigurazione dei punti nello spazio delle prime M prime M componenti principali siacomponenti principali sia la la migliore approssimazione della configurazione migliore approssimazione della configurazione realereale, , occorre ricordare che si tratta comunque di un’approssimazioneoccorre ricordare che si tratta comunque di un’approssimazione!!
Il grado di approssimazione dipende dal grado di riduzione dellaIl grado di approssimazione dipende dal grado di riduzione delladimensionalità dello spaziodimensionalità dello spazio..
Se la Se la riduzione di dimensionalitàriduzione di dimensionalità è è grandegrande, è , è altaalta la la probabilità di probabilità di distorsione della configurazione dei puntidistorsione della configurazione dei punti. . Ciò significa che alcune Ciò significa che alcune relazioni tra gli oggetti osservate nello spaziorelazioni tra gli oggetti osservate nello spazio a M a M componenti principali componenti principali potrebbero differire da quelle nello spazio originalepotrebbero differire da quelle nello spazio originale..
9
Analisi delle componenti principaliAnalisi delle componenti principaliLaLa procedura matematicaprocedura matematica perper il calcolo delle componenti principali il calcolo delle componenti principali consiste nel calcolo degli autovaloriconsiste nel calcolo degli autovalori ee autovettoriautovettori associati della associati della matrice di matrice di covarianzacovarianza SS,, ottenuta dalla matrice dei datiottenuta dalla matrice dei dati XX..
Gli Gli autovaloriautovalori λλmm della matrice di covarianza vengono ordinatidella matrice di covarianza vengono ordinati inin senso senso decrescentedecrescente ee rappresentanorappresentano lala varianza delle proiezioni lungo le varianza delle proiezioni lungo le componenti principalicomponenti principali..
λm m imi
nVar t= =
=∑tb g 2
1
Gli Gli autovettoriautovettori llmm della matrice di covarianza sono vettoridella matrice di covarianza sono vettori aa lunghezza lunghezza unitaria che definiscono le direzioni delle componenti principalunitaria che definiscono le direzioni delle componenti principalii.. Gli Gli elementi degli autovettori sonoelementi degli autovettori sono ii coefficienti lcoefficienti ljmjm ((loadingsloadings)) delle delle combinazioni linearicombinazioni lineari ((componenti principalicomponenti principali).).
− ≤ ≤ + ∑ =1 1 12l ljm jmj
10
Analisi delle componenti principaliAnalisi delle componenti principali
datidati
nn , , pp
XX
variabili xvariabili xjj
ogge
ttiog
getti
varianzevarianzecovarianzecovarianze
pp , , pp
SS
variabili xvariabili xjj
varia
bili
xva
riabi
li x jj ΛΛdiagdiag
autovaloriautovalori
pp , , pp
pcpc ttmm
pcpctt mm
loadingsloadings
pp ,, pp
LL
varia
bili
xva
riabi
li x jj
pcpc ttmm
scoresscores
nn , , pp
TT T X L= ⋅
ogge
ttiog
getti
pcpc ttmm
11
Analisi delle componenti principaliAnalisi delle componenti principali
Matrice degli autovaloriMatrice degli autovalori ΛΛ
Λ ≡
λλ
λ
1
2
0 00 0
0 0
K
K
K K K K
K p
λm mVar= tb gλ λ λ1 2 0≥ ≥ ≥ ≥K p
λ jjtrace∑ = Sb g
λ jj∏ = det Sb g
LaLa matrice degli autovalorimatrice degli autovalori è laè la matrice di covarianza matrice di covarianza delle componenti principalidelle componenti principali..
12
Analisi delle componenti principaliAnalisi delle componenti principali
L’analisi delle componenti principaliL’analisi delle componenti principali èè usatausata per:per:
-- visualizzarevisualizzare ii datidati ((configurazione degli oggetticonfigurazione degli oggetti) e) e osservare le osservare le relazioni internerelazioni interne ((individuazione di outliersindividuazione di outliers ee gruppigruppi, ...);, ...);
-- ridurreridurre lala dimensionalità dello spazio dei datidimensionalità dello spazio dei dati;;
-- sintetizzaresintetizzare lala descrizione dei datidescrizione dei dati ((eliminazione del rumoreeliminazione del rumore, ...);, ...);
-- valutare le correlazioni tra le variabilivalutare le correlazioni tra le variabili ee il ruolo che hanno nel il ruolo che hanno nel determinaredeterminare lala configurazione dei daticonfigurazione dei dati;;
-- ricercare proprietà principaliricercare proprietà principali;;
-- definire uno spazio ortogonaledefinire uno spazio ortogonale inin cui cercare modellicui cercare modelli per iper i datidati..
13
Analisi delle componenti principaliAnalisi delle componenti principali
Scalatura delle variabiliScalatura delle variabili??
II risultati dell’analisi delle componenti principali sono fortemerisultati dell’analisi delle componenti principali sono fortemente nte influenzati dall’averinfluenzati dall’aver oo meno effettuatomeno effettuato lala scalatura delle variabiliscalatura delle variabili. .
Quando le variabiliQuando le variabili
-- rappresentano entitàrappresentano entità diverse (ex. peso ediverse (ex. peso e altezzaaltezza) )
-- sono espressesono espresse concon unità di misura differentiunità di misura differenti
-- hanno varianzehanno varianze nonnon confrontabiliconfrontabili ((ordini di grandezza diversiordini di grandezza diversi))
èè sempre consigliabile effettuare l’autoscalingsempre consigliabile effettuare l’autoscaling ((standardizzazionestandardizzazione))delle variabilidelle variabili primaprima delladella PCA.PCA.
InIn alternativa all’autoscaling si possono calcolare gli autovalorialternativa all’autoscaling si possono calcolare gli autovalori ee gli gli autovettori della matrice di correlazioneautovettori della matrice di correlazione CC..
14
Analisi delle componenti principaliAnalisi delle componenti principali
ComeCome determinare il numero di componenti principali significativedeterminare il numero di componenti principali significative??
Effettuata l’analisi delle componenti principaliEffettuata l’analisi delle componenti principali,, occorre decidere quante occorre decidere quante componenti principali servonocomponenti principali servono perper ottenere unaottenere una ““buonabuona”” approssimazione approssimazione della configurazione reale dei datidella configurazione reale dei dati..
LaLa misura della bontà dimisura della bontà di taletale approssimazioneapprossimazione èè una qualche funzione una qualche funzione della varianza degli oggetti proiettati nello spazio delle compodella varianza degli oggetti proiettati nello spazio delle componentinenti,, cioè cioè degli autovalori associati alle componentidegli autovalori associati alle componenti..
15
Analisi delle componenti principaliAnalisi delle componenti principali
trace trace mm
M
mm M
pSb g b g= = +
= = +∑ ∑Λ λ λ1 1
Varianza totaleVarianza totale::
Cum E Vm
m
M
mm
p. . .% = ⋅=
=
∑
∑
λ
λ
1
1
100
Valori di riferimentoValori di riferimento per E.V% per E.V% sonosono 75 75 -- 80%.80%.
RVm
m M
p
mm
p% = ⋅= +
=
∑
∑
λ
λ
1
1
100
Explained Variance % :Explained Variance % :
Residual Variance % :Residual Variance % :
La La quantità totale di informazionequantità totale di informazione è è costantecostante..
La La trasformazione operata dalletrasformazione operata dalle PC è solo PC è solo una rotazione del sistema di riferimentouna rotazione del sistema di riferimento..
16
Analisi delle componenti principaliAnalisi delle componenti principali
EV
mm
p11
1
100% = ⋅
=∑
λ
λExplained Variance %Explained Variance % didi PC1 :PC1 :
Explained Variance %Explained Variance % didi PC1 + PC2 :PC1 + PC2 :
EV
mm
p1 21 2
1
100+
=
=+
⋅
∑b g%
λ λ
λ
17
Analisi delle componenti principaliAnalisi delle componenti principali
ScreeScree PlotPlot
λλmm
44
33
22
11
mm00 11 22 33 44 55 66 77 88
18
Analisi delle componenti principaliAnalisi delle componenti principali
Criterio dell’autovalore medioCriterio dell’autovalore medio
λλ
= =∑ mm
p
p1
LaLa componente principalecomponente principale ttmm èè significativasignificativa se: se: λ λm ≥
SeSe le componenti principali sono estratte dalla matrice di le componenti principali sono estratte dalla matrice di correlazionecorrelazione CC,, allora l’autovalore medioallora l’autovalore medio èè ugualeuguale a 1.a 1.
19
Analisi delle componenti principaliAnalisi delle componenti principali
Interpretazione delle componenti principaliInterpretazione delle componenti principali
Poichè le componenti principali sono combinazioni lineari delle Poichè le componenti principali sono combinazioni lineari delle variabili originalivariabili originali,, il loro significato dipende dai loadings delle il loro significato dipende dai loadings delle variabili originalivariabili originali..
TuttaviaTuttavia,, poichèpoichè nonnon esiste un metodo matematicoesiste un metodo matematico per dareper dare un un significato fisico alle combinazioni linearisignificato fisico alle combinazioni lineari,, l’interpretazione tendel’interpretazione tende adadessere soggettivaessere soggettiva e none non sempre può essere realizzatasempre può essere realizzata..
Il Il grafico dei loadingsgrafico dei loadings èè lo strumento utilelo strumento utile perper interpretare le interpretare le componenti principalicomponenti principali..
20
Analisi delle componenti principaliAnalisi delle componenti principali
EsempioEsempio 1: WINES1: WINES
38 campioni di vino descritti dal contenuto di 17 metalli
21
Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 1: WINES1: WINES
ID Cd Mo Mn Ni Cu Al Ba Cr Sr Pb1 .005 .044 1.51 .122 .83 .982 .387 .029 1.23 .5612 .055 .16 1.16 .149 .066 1.02 .312 .038 .975 .6973 .056 .146 1.1 .088 .643 1.29 .308 .035 1.14 .734 .063 .191 .959 .38 .133 1.05 .165 .036 .927 .7965 .011 .363 1.38 .16 .051 1.32 .38 .059 1.13 1.736 .05 .106 1.25 .114 .055 1.27 .275 .019 1.05 .4917 .025 .479 1.07 .168 .753 .715 .164 .062 .823 2.068 .024 .234 .906 .466 .102 .811 .271 .044 .963 1.099 .009 .058 1.84 .042 .17 1.8 .225 .022 1.13 .04810 .033 .074 1.28 .098 .053 1.35 .329 .03 1.07 .55211 .039 .071 1.19 .043 .163 .971 .105 .028 .491 .3112 .045 .147 2.76 .071 .074 .483 .301 .087 2.14 .54613 .06 .116 1.15 .055 .18 .912 .166 .041 .578 .51814 .067 .166 1.53 .041 .043 .512 .132 .026 .229 .69915 .077 .261 1.65 .073 .285 .596 .078 .063 .156 1.0216 .064 .191 1.78 .067 .552 .633 .085 .063 .192 .77717 .025 .009 1.57 .041 .081 .655 .072 .021 .172 .23218 .02 .027 1.74 .046 .153 1.15 .094 .021 .358 .02519 .034 .05 1.15 .058 .058 1.35 .294 .006 1.12 .20620 .013 .03 2.82 .058 .05 .623 .349 .082 2.91 .17121 .043 .268 2.32 .066 .314 .627 .099 .045 .36 1.2822 .061 .245 1.61 .07 .172 2.07 .071 .053 .186 1.1923 .047 .161 1.47 .154 .082 .546 .181 .06 .898 .74724 .048 .146 1.85 .092 .09 .889 .328 .1 1.32 .60425 .049 .155 1.73 .051 .158 .653 .081 .037 .164 .76726 .042 .126 1.7 .112 .21 .508 .299 .054 .995 .68627 .058 .184 1.28 .095 .058 1.3 .346 .037 1.17 1.2828 .065 .211 1.65 .102 .055 .308 .206 .028 .72 1.0229 .065 .129 1.56 .166 .151 .373 .281 .034 .889 .63830 .068 .166 3.14 .104 .053 .368 .292 .039 1.11 .83131 .067 .199 1.65 .119 .163 .447 .292 .058 .927 1.0232 .084 .266 1.28 .087 .071 1.14 .158 .049 .794 1.333 .069 .183 1.94 .07 .095 .465 .225 .037 1.19 .91534 .087 .208 1.76 .061 .099 .683 .087 .042 .168 1.3335 .074 .142 2.44 .051 .052 .737 .408 .022 1.16 .74536 .084 .171 1.85 .088 .038 1.21 .263 .072 1.35 .89937 .106 .307 1.15 .063 .051 .643 .29 .031 .885 1.6138 .102 .342 4.08 .065 .077 .752 .366 .048 1.08 1.77
ID B1 2.632 6.213 3.054 2.575 3.076 6.567 4.578 3.189 6.1310 3.311 6.5612 3.513 6.4314 7.2715 5.0416 5.5617 3.7918 4.2419 2.7120 3.5421 5.6822 4.4223 8.1124 6.4225 4.9126 6.9427 3.2928 6.1229 7.2830 4.7131 6.9732 3.7733 234 5.0435 3.9436 2.3837 4.438 3.37
Mg Si Na Ca P K Aroma128 17.3 66.8 80.5 150 1130 3.3193 19.7 53.3 75 118 1010 4.4127 15.8 35.4 91 161 1160 3.9112 13.4 27.5 93.6 120 924 3.9138 16.7 76.6 84.6 164 1090 5.6172 18.7 15.7 112 137 1290 4.6179 17.8 98.5 122 184 1170 4.8145 14.3 10.5 91.9 187 1020 5.3113 13 54.4 70.2 158 1240 4.3140 16.3 70.5 74.7 159 1100 4.3103 9.47 45.3 67.9 133 1090 5.1199 9.18 80.4 66.3 212 1470 3.3111 11.1 59.7 83.8 139 1120 5.9107 6 55.2 44.9 148 854 7.794.6 6.34 10.4 54.9 132 899 7.1110 6.96 13.6 64.1 167 976 5.575.9 6.4 11.6 48.1 132 995 6.380.9 7.92 38.9 57.6 136 876 5120 14.7 68.1 64.8 133 1050 4.6208 9.32 79.2 66.4 266 1430 3.498.4 9.11 19.5 64.3 176 945 6.487.6 7.62 11.6 70.6 156 820 5.5160 19.3 12.5 82.1 218 1220 4.7134 19.3 125 83.2 173 1810 4.186.5 6.46 11.5 53.9 172 1020 6129 43.6 45 85.9 165 1330 4.3145 16.7 65.8 72.8 175 1140 3.999.3 27.1 20.5 95.2 194 1260 5.1139 22.2 13.3 84.2 164 1200 3.9125 17.6 13.9 59.5 141 1030 4.5131 38.3 42.9 85.9 164 1390 5.2143 19.7 39.1 128 146 1230 4.2123 4.57 7.51 69.4 123 943 3.392.9 6.96 12 56.3 157 949 6.8143 6.75 36.8 67.6 81.9 1170 5130 6.18 101 64.4 98.6 1070 3.5151 17.4 7.25 103 177 1100 4.3145 5.33 33.1 58.3 117 1010 5.2
22
Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 1: WINES1: WINES
ID autovalore E.V.% C.E.V.% AEC KL KP BS MIF1 4.1785 24.6 24.6 * * * 20.233 0.009082 2.7468 16.2 40.7 * * * 14.350 0.008863 2.2098 13.0 53.7 * * * 11.409 0.008684 1.9349 11.4 65.1 * * * 9.448 0.008435 1.4355 8.4 73.6 * * 7.978 0.008276 1.0813 6.4 79.9 * * 6.801 0.008217 0.8527 5.0 84.9 * 5.821 0.008218 0.6082 3.6 88.5 * 4.981 0.008399 0.5129 3.0 91.5 * 4.245 0.00860
10 0.4287 2.5 94.1 3.592 0.0088111 0.3711 2.2 96.2 3.003 0.0088312 0.2542 1.5 97.7 2.469 0.0090113 0.1682 1.0 98.7 1.978 0.0094514 0.1151 0.7 99.4 1.526 0.0099815 0.0495 0.3 99.7 1.106 0.0131516 0.0333 0.2 99.9 0.714 0.0225417 0.0193 0.1 100.0 0.346 -
23
Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 1: WINES1: WINES
24
Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 1: WINES1: WINES
Matrice dei loadingsMatrice dei loadingsID Var. PC1 PC2 PC3 PC4 PC5 PC61 Cd 0.125 -0.285 0.351 0.055 -0.369 -0.2332 Mo -0.034 -0.546 0.150 -0.125 0.132 -0.0963 Mn -0.056 0.118 0.571 0.021 0.011 0.0724 Ni -0.109 -0.247 -0.268 -0.140 -0.107 0.5525 Cu -0.004 -0.122 -0.219 -0.065 0.496 -0.0616 Al 0.039 0.130 -0.278 -0.420 0.047 -0.3527 Ba -0.353 0.080 0.061 -0.229 -0.348 -0.0138 Cr -0.271 -0.118 0.266 0.101 0.394 -0.0879 Sr -0.415 0.187 0.134 -0.166 -0.085 0.16810 Pb -0.030 -0.537 0.168 -0.161 0.064 -0.09111 B 0.020 -0.034 -0.091 0.618 -0.052 -0.22412 Mg -0.405 -0.048 0.075 -0.084 -0.111 0.11513 Si -0.239 -0.142 -0.282 0.308 -0.276 -0.12314 Na -0.303 0.161 -0.019 -0.194 0.228 -0.43815 Ca -0.233 -0.333 -0.339 -0.022 -0.140 -0.11616 P -0.256 -0.024 -0.015 0.289 0.368 0.34217 K -0.403 0.097 -0.011 0.243 -0.029 -0.231
25
Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 1: WINES1: WINES
26
Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 1: WINES1: WINES
27
Analisi delle componenti principaliAnalisi delle componenti principali
EsempioEsempio 2 : ALIMENTI2 : ALIMENTI
OggettiOggetti: 109: 109 VariabiliVariabili: 17: 17
IlIl data set èdata set è composto da alcuni campioni di fruttacomposto da alcuni campioni di frutta ee verduraverdura,, frescafresca eeconservataconservata, per i, per i quali sonoquali sono state definite estate definite e misuratemisurate 1717 variabilivariabili. .
28
Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 2: ALIMENTI2: ALIMENTI
ID Etichetta Definizione
1 P. Ed. (%) Parte edibile2 H2O Acqua3 Prot. Proteine4 Lip. Lipidi5 Glu-ava Glucidi disponibili6 Glu-ami Glucidi amido7 Glu-sol Glucidi solubili8 Glu-fib Glucidi fibra9 Kcal Kilocalorie10 Fe Ferro11 Ca Calcio12 P Fosforo13 Tia. Tiamina14 Rib. Riboflavina15 Niam. Niamicina16 Vit-A Vitamina A17 Vit-C Vitamina C
29
Analisi delle componenti principaliAnalisi delle componenti principaliEsempioEsempio 2: ALIMENTI2: ALIMENTI
Name ID P.Ed. H2O Prot. Lip. Glu-ava Glu-ami Glu-sol Glu-fib Kcal Fe Ca P Tia. Rib. Niam. Vit-A Vit-C
Albicocche 1 94 86.3 0.4 0.1 6.8 0.0 6.8 0.6 28 0.5 16.0 16.0 0.0 0.0 0.5 360.0 13.0Amarene 2 85 84.2 0.8 0.0 10.2 0.0 10.2 1.0 41 0.4 15.0 17.0 0.0 0.1 0.4 24.0 7.0Ananas 3 57 86.4 0.5 0.0 10.0 0.0 10.0 0.4 40 0.5 17.0 8.0 0.1 0.0 0.2 7.0 17.0Arachidi crude 4 79 7.1 26.0 47.2 11.2 6.7 4.5 2.3 571 3.2 60.0 239.0 1.5 0.1 0.4 0.0 2.0Arance 5 80 87.2 0.7 0.2 7.8 0.0 7.8 0.6 34 0.2 49.0 22.0 0.1 0.1 0.2 71.0 50.0Arance succo 6 100 89.3 0.5 0.0 8.2 0.0 8.2 0.0 33 0.2 15.0 17.0 0.1 0.0 0.4 38.0 44.0Banane 7 65 76.8 1.2 0.3 15.5 2.4 12.8 0.5 66 0.8 7.0 28.0 0.1 0.1 0.7 45.0 16.0Castagne 8 69 41.0 3.5 1.8 42.4 34.3 8.1 1.0 189 1.2 38.0 89.0 0.2 0.4 1.4 0.0 18.2Ciliegie 9 86 86.2 0.8 0.1 9.0 0.0 9.0 1.0 38 0.6 30.0 18.0 0.0 0.0 0.5 19.0 11.0Cocomero 10 52 95.3 0.4 0.0 3.7 0.0 3.7 0.0 15 0.2 7.0 2.0 0.0 0.0 0.0 37.0 8.0Fichi 11 75 81.9 0.9 0.2 11.2 0.0 11.2 0.7 47 0.5 43.0 25.0 0.0 0.0 0.4 15.0 7.0Fichi d'India 12 64 83.2 0.8 0.0 13.0 1.6 13.0 0.3 53 0.4 30.0 25.0 0.0 0.0 0.4 10.0 2.0Fragole 13 94 90.5 0.9 0.4 5.3 0.0 5.3 0.6 27 0.8 35.0 28.0 0.0 0.0 0.5 0.0 54.0Lamponi 14 100 84.6 1.0 0.6 6.5 0.0 6.5 3.0 34 1.0 49.0 52.0 0.1 0.0 0.5 13.0 25.0Limoni 15 64 89.5 0.6 0.0 2.3 0.0 2.3 0.6 11 0.1 14.0 11.0 0.0 0.0 0.3 0.0 50.0Limoni succo 16 100 92.1 0.2 0.0 1.4 0.0 1.4 0.0 6 0.2 14.0 10.0 0.0 0.0 0.2 0.0 43.0
………………. ….. … … … … … … … … … … … … … … … … …
Sedano 97 80 88.3 2.3 0.2 2.4 0.2 2.2 0.8 20 0.5 31.0 45.0 0.1 0.2 0.2 207.0 32.0Sedano rapa 98 72 88.0 1.9 0.1 3.8 0.0 3.8 1.8 23 0.5 52.0 90.0 0.1 0.1 0.5 0.0 6.0Spinaci 99 83 90.1 3.4 0.7 3.0 2.4 0.4 0.5 31 2.9 78.0 62.0 0.1 0.4 0.4 485.0 54.0Tartufo nero 100 79 76.3 6.0 0.5 0.7 1.2 0.7 9.4 31 3.5 24.0 62.0 0.1 0.1 2.0 0.0 1.0Zucca gialla 101 81 94.6 1.1 0.1 3.5 1.0 2.5 1.3 18 0.9 20.0 40.0 0.0 0.0 0.5 599.0 9.0Zucchine 102 88 93.6 1.3 0.1 2.1 1.2 2.1 0.9 14 0.5 21.0 65.0 0.1 0.1 0.7 6.0 11.0Ceci 103 100 13.0 21.8 4.9 54.3 46.0 3.7 5.2 334 6.1 117.0 299.0 0.4 0.1 1.7 30.0 5.0Fagioli 104 100 10.7 23.6 2.5 51.7 43.2 4.0 5.0 311 6.7 137.0 437.0 0.4 0.2 2.3 3.0 3.0Fave sgusciate 105 100 13.3 27.2 3.0 55.3 45.4 4.9 1.5 342 5.0 90.0 420.0 0.5 0.3 2.6 10.0 4.0Lenticchie 106 100 11.6 25.0 2.5 54.0 46.5 2.4 3.9 325 5.1 127.0 347.0 0.6 0.2 1.8 10.0 3.0Lupini 107 76 69.0 16.4 2.4 7.2 6.0 0.5 3.6 114 5.5 45.0 100.0 0.1 0.0 0.2 12.6 3.8Lupini secchi 108 100 10.7 37.2 13.2 36.0 38.8 3.1 1.1 402 5.5 94.0 320.5 0.4 0.2 1.8 12.6 3.8Piselli 109 100 13.0 21.7 2.0 53.6 45.7 2.9 5.0 306 4.5 48.0 320.0 0.6 0.2 2.2 10.0 4.0
30
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
PC autovalore E.V.% C.E.V.% AEC CAEC1 6.9010 40.59 40.59 * *2 2.2290 13.11 53.71 * *3 2.0180 11.87 65.58 * *4 1.3320 7.84 73.41 * *5 0.9168 5.39 78.80 *6 0.8030 4.72 83.53 *7 0.6984 4.11 87.648 0.5680 3.34 90.989 0.4098 2.41 93.39
10 0.3694 2.17 95.5611 0.2792 1.64 97.2012 0.2440 1.44 98.6413 0.1623 0.95 99.5914 0.0603 0.35 99.9515 0.0071 0.04 99.9916 0.0016 0.01 10017 0.0001 0.00 100
31
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
32
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
Loading Plot of axes 1 and 2 (54% )
Vit-CVit-A
Niam.
Rib.
Tia.PCa
FeKcalGlu-fib
Glu-sol
Glu-ami
Glu-ava
Lip.
Prot. H2O
P.Ed.
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
axis 1 (41% )
axis
2 (1
3% )
33
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
Interpretazione delle componenti principaliInterpretazione delle componenti principali
PC1 (E.V.% 40.59): contiene essenzialmente informazione sul contPC1 (E.V.% 40.59): contiene essenzialmente informazione sul contenuto d'acqua enuto d'acqua degli alimenti; infatti, nel loading plot PC2 vs. PC1, si può osdegli alimenti; infatti, nel loading plot PC2 vs. PC1, si può osservare che la variabile servare che la variabile HH22O ha un loading in valore assoluto molto alto. Altre variabili iO ha un loading in valore assoluto molto alto. Altre variabili importanti nella prima mportanti nella prima componente principale ma inversamente correlate alla variabile Hcomponente principale ma inversamente correlate alla variabile H22O (influenza O (influenza opposta nel determinare la componente) sono: KCAL (kilocalorie),opposta nel determinare la componente) sono: KCAL (kilocalorie), P (contenuto di P (contenuto di fosforo), PROT (contenuto di proteine), FE (contenuto di ferro) fosforo), PROT (contenuto di proteine), FE (contenuto di ferro) e TIA (contenuto di e TIA (contenuto di tiamina).tiamina).
34
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
Interpretazione delle componenti principaliInterpretazione delle componenti principali
PC2 (E.V.% 13.11): contiene essenzialmente informazione sul contenuto di glucidi (solubili, GLU_SOL, e disponibili, GLU_AVA) e la parte edibile (EDIB) degli alimenti. Altre variabili influenti ma inversamente correlate ai glucidi e alla parte edibile sono: LIP (contenuto di lipidi), VIT_A e VIT_C (contenuto di vitamine) e RIB (contenuto di riboflavina). Quindi, la seconda componente principale sembra spiegare la separazione tra alimenti molto dolci, grande contenuto di zuccheri, ed alimenti a maggior contenuto di lipidi e vitamine.
35
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
Analisi delle correlazioni tra le variabiliAnalisi delle correlazioni tra le variabili
Analizzando i grafici dei loadings relativi alle componenti prinAnalizzando i grafici dei loadings relativi alle componenti principali significative, è cipali significative, è possibile studiare le correlazioni tra le variabili originali repossibile studiare le correlazioni tra le variabili originali relativamente lativamente all'informazione spiegata dalle componenti considerate. all'informazione spiegata dalle componenti considerate. Gruppi di variabili che compaiono vicine nello spazio delle compGruppi di variabili che compaiono vicine nello spazio delle componenti principali onenti principali considerate indicano che, limitatamente all'informazione portataconsiderate indicano che, limitatamente all'informazione portata da queste da queste componenti, esse portano un'informazione simile e sono quindi cocomponenti, esse portano un'informazione simile e sono quindi correlate.rrelate.
36
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
Analisi delle correlazioni tra le variabiliAnalisi delle correlazioni tra le variabili
Considerando le prime sei componenti principali, le correlazioniConsiderando le prime sei componenti principali, le correlazioni più più significative riscontrate riguardano i seguenti gruppi di variabsignificative riscontrate riguardano i seguenti gruppi di variabili:ili:
Correlazione diretta:Correlazione diretta:-- vitamina A e vitamina C vitamina A e vitamina C -- proteine, tiamina e fosforoproteine, tiamina e fosforo-- lipidi e Kcallipidi e Kcal
Correlazione inversa:Correlazione inversa:-- acqua e Kcaacqua e Kca
37
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
Analisi delle similarità/diversità dei campioniAnalisi delle similarità/diversità dei campioni
I grafici degli scores (score plots) consentono di analizzare ilI grafici degli scores (score plots) consentono di analizzare il comportamento dei comportamento dei campioni e in particolare le loro similarità/diversità e anche lcampioni e in particolare le loro similarità/diversità e anche l'eventuale presenza di 'eventuale presenza di campioni anomali.campioni anomali.Il grafico degli scores, relativo a due componenti principali, èIl grafico degli scores, relativo a due componenti principali, è un grafico in cui sono un grafico in cui sono visualizzate le proiezioni dei campioni nello spazio definito davisualizzate le proiezioni dei campioni nello spazio definito dalle due componenti lle due componenti considerate.considerate.
38
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
Score Plot of axes 1 and 2 (54% )
109
108107
106105104 103
102101
100
99
98 9796
95
94
93
92
91908988
87
86
8584 83828180
79
7877 76
75
74 73727170
6968676665
646362 61
605958
5756
55
5453
5251
50
49 48
4746
45
44
43
4241 40
39 38
37
36 353433
32
3130292827
26
2524232221
2019181716
1514 131211
1098 7 6
5
4
32
1
-6
-4
-2
0
2
4
6
-8 -6 -4 -2 0 2 4
axis 1 (41% )
axis
2 (1
3% )
Alimenti freschiAlimenti freschi
Alimenti conservatiAlimenti conservati
39
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
Analisi delle similarità/diversità dei campioniAnalisi delle similarità/diversità dei campioni
Spazio PC1 Spazio PC1 –– PC2 (C.V.% 53.71)PC2 (C.V.% 53.71)Si evidenzia una separazione tra gli Si evidenzia una separazione tra gli alimenti freschialimenti freschi e gli e gli alimenti conservatialimenti conservati, i primi , i primi caratterizzati soprattutto da un elevato contenuto d'acqua e vitcaratterizzati soprattutto da un elevato contenuto d'acqua e vitamine e i secondi da un amine e i secondi da un basso contenuto d'acqua.basso contenuto d'acqua.
Il gruppo di alimenti conservati mostra una evidente separazioneIl gruppo di alimenti conservati mostra una evidente separazione in sottogruppi al suo in sottogruppi al suo interno, in particolare si evidenziano i seguenti sottogruppi: interno, in particolare si evidenziano i seguenti sottogruppi: -- campioni n. 103, 104, 105, 106, 108, 109 (campioni n. 103, 104, 105, 106, 108, 109 (legumilegumi): basso contenuto di acqua, molto ): basso contenuto di acqua, molto calorici, alto contenuto di proteine, fosforo, ferro, tiamina;calorici, alto contenuto di proteine, fosforo, ferro, tiamina;-- campioni n. 33, 34, 35, 36, 44, 45 (campioni n. 33, 34, 35, 36, 44, 45 (frutta secca dolcefrutta secca dolce): alto contenuto di glucidi (solubili ): alto contenuto di glucidi (solubili e disponibili), grande parte edibile, basso contenuto di lipidi e disponibili), grande parte edibile, basso contenuto di lipidi e vitamine;e vitamine;-- campioni n. 4, 26, 32, 37, 38, 39, 43 (campioni n. 4, 26, 32, 37, 38, 39, 43 (frutta seccafrutta secca): basso contenuto di acqua, molto ): basso contenuto di acqua, molto calorici, alto contenuto di lipidi, vitamine, riboflavina, calcicalorici, alto contenuto di lipidi, vitamine, riboflavina, calcio, basso contenuto di glucidi e o, basso contenuto di glucidi e piccola parte edibile.piccola parte edibile.
40
Analisi delle componenti principaliAnalisi delle componenti principaliEsempio 2: ALIMENTIEsempio 2: ALIMENTI
Biplot on axes 1 and 2 (54% )
123
4
5678 9
101112
1314
1516
171819202122
2324
25
26
272829
3031
32
33
34 3536
37
3839
4041
42
43
44
45
4647
4849
50
5152
5354
55
56
57
5859
606162
6364
6566 676869
707172
7374
75
767778
798081 82
838485
86
87
88899091
92
93
94
9596
9798
99
100101
102
103104105106
107108
109 P.Ed.
H2OProt.
Lip.
Glu-ava
Glu-ami
Glu-sol
Glu-fibKcal Fe
CaP Tia.Rib.
Niam.
Vit-AVit-C
-6
-4
-2
0
2
4
6
-8 -6 -4 -2 0 2 4 6 8
axis 1 (41% )
axis
2 (1
3% )
41
Altre tecniche di proiezioneAltre tecniche di proiezione
L’analisi delle componenti principali è la tecnica più popolare L’analisi delle componenti principali è la tecnica più popolare perchè:perchè:
-- le pc sono facilmente calcolabili (esiste soluzione analitica);le pc sono facilmente calcolabili (esiste soluzione analitica);
-- le pc sono intuitive;le pc sono intuitive;
-- le pc hanno proprietà interessanti.le pc hanno proprietà interessanti.
Lo spazio definito dalle componenti principali minimizza la seguLo spazio definito dalle componenti principali minimizza la seguente ente quantità:quantità:
V d dst stts= −∑∑ 2 2$e j
è la distanza al quadrato tra i punti Pè la distanza al quadrato tra i punti Pss e Pe Ptt nello spazio originaledst2 nello spazio originale
$dst2 è la distanza al quadrato tra i punti P’è la distanza al quadrato tra i punti P’ss e P’e P’tt nello spazio delle pcnello spazio delle pc
… tuttavia, sotto il vincolo dell’ortogonalità delle componenti.… tuttavia, sotto il vincolo dell’ortogonalità delle componenti.
42
Altre tecniche di proiezioneAltre tecniche di proiezione
Rinunciando all’ortogonalità, si può cercare la rappresentazioneRinunciando all’ortogonalità, si può cercare la rappresentazione dei dati dei dati che riproduce al meglio le distanze reali tra tutte le coppie diche riproduce al meglio le distanze reali tra tutte le coppie di oggetti, cioè oggetti, cioè che minimizza:che minimizza:
L w d dst st stts* $= ⋅ −∑∑ e j2
NON NON -- LINEAR MAPPINGLINEAR MAPPING
E’ una tecnica di ottimizzazione che trova le coordinate degli oE’ una tecnica di ottimizzazione che trova le coordinate degli oggetti nel ggetti nel nuovo spazio mediante algoritmi numerici iterativi partendo da unuovo spazio mediante algoritmi numerici iterativi partendo da una na configurazione iniziale dei punti.configurazione iniziale dei punti.
Le nuove variabili non hanno alcun significato, servono solo perLe nuove variabili non hanno alcun significato, servono solo per la la visualizzazione grafica degli oggetti in uno spazio a poche dimevisualizzazione grafica degli oggetti in uno spazio a poche dimensioni. nsioni.
43
Altre tecniche di proiezioneAltre tecniche di proiezione
Poichè la PCA e il nonPoichè la PCA e il non--linear mapping possono essere applicati a variabili linear mapping possono essere applicati a variabili numeriche …..numeriche …..
…. cosa fare quando si hanno variabili categoriche?…. cosa fare quando si hanno variabili categoriche?
1.1. Se la variabile categorica è ordinale, può essere trasformata inSe la variabile categorica è ordinale, può essere trasformata invariabile numerica attribuendo dei punteggi alle categorie.variabile numerica attribuendo dei punteggi alle categorie.
2.2. Ciascuna categoria della variabile può essere sostituita con unaCiascuna categoria della variabile può essere sostituita con unavariabile binaria con valori 0 e 1.variabile binaria con valori 0 e 1.
3.3. Si calcola la dissimilarità tra tutte le coppie di oggetti e si Si calcola la dissimilarità tra tutte le coppie di oggetti e si cerca di cerca di costruire una configurazione di punti minimizzando le funzioni costruire una configurazione di punti minimizzando le funzioni VV o o LL* * dove la distanza Euclidea tra punti è sostituita dalla misura didove la distanza Euclidea tra punti è sostituita dalla misura didissimilarità tra i corrispondenti oggetti. dissimilarità tra i corrispondenti oggetti.
44
Altre tecniche di proiezioneAltre tecniche di proiezione
MATRICE DI DISSIMILARITA’MATRICE DI DISSIMILARITA’
matrice quadrata simmetrica (matrice quadrata simmetrica (nn, , nn))
00
0
12 1
2
d dd
n
n
K
K
K K
1.1. Può essere calcolata dalla matrice dei dati (Può essere calcolata dalla matrice dei dati (nn, , pp))
2.2. o essere essa stessa la matrice dei dati.o essere essa stessa la matrice dei dati.
45
Altre tecniche di proiezioneAltre tecniche di proiezione
Principal coordinate analysis (scaling metrico)Principal coordinate analysis (scaling metrico)
Tecnica utilizzata per cercare una rappresentazione geometrica dTecnica utilizzata per cercare una rappresentazione geometrica degli egli oggetti a partire dalla matrice di dissimilarità.oggetti a partire dalla matrice di dissimilarità.
Gli oggetti vengono rappresentati con dei punti e le distanze trGli oggetti vengono rappresentati con dei punti e le distanze tra punti a punti misurano la dissimilarità tra gli oggetti corrispondenti.misurano la dissimilarità tra gli oggetti corrispondenti.
Si calcolano gli autovalori e autovettori di una matrice Si calcolano gli autovalori e autovettori di una matrice FF ricavata dalla ricavata dalla matrice di dissimilarità. Le coordinate degli oggetti rispetto amatrice di dissimilarità. Le coordinate degli oggetti rispetto all’asse ll’asse jjsono date da: sono date da:
$x aj j j= ⋅λ
dove adove ajj sono gli elementi del jsono gli elementi del j--esimo autovettore e esimo autovettore e λλjj il corrispondente il corrispondente autovalore.autovalore.
46
Altre tecniche di proiezioneAltre tecniche di proiezione
Principal coordinate analysis (scaling metrico)Principal coordinate analysis (scaling metrico)
Gli assi che definiscono il sistema di riferimento non hanno alcGli assi che definiscono il sistema di riferimento non hanno alcun un significato.significato.
Le posizioni degli oggetti nello spazio sono strettamente dipendLe posizioni degli oggetti nello spazio sono strettamente dipendenti enti dai dati utilizzati.dai dati utilizzati.
Se la matrice di dissimilarità è calcolata usando la distanza EuSe la matrice di dissimilarità è calcolata usando la distanza Euclidea, clidea, allora il risultato della principal coordinate analysis è identiallora il risultato della principal coordinate analysis è identico a quello co a quello della principal component analysis applicata alla matrice dei dadella principal component analysis applicata alla matrice dei dati (ti (nn, , pp).).
47
Altre tecniche di proiezioneAltre tecniche di proiezione
Multidimensional Scaling (nonMultidimensional Scaling (non--metric)metric)
Tecnica basata sugli stessi principi della principal coordinate Tecnica basata sugli stessi principi della principal coordinate analysis, analysis, però finalizzata alla ricerca di una configurazione dei punti inperò finalizzata alla ricerca di una configurazione dei punti in cui le cui le distanze tra punti siano distanze tra punti siano monotonicamentemonotonicamente relazionate alle dissimilarità relazionate alle dissimilarità tra gli oggetti corrispondenti.tra gli oggetti corrispondenti.
Il punto di partenza è sempre la matrice di dissimilarità.Il punto di partenza è sempre la matrice di dissimilarità.
Si utilizzano algoritmi numerici iterativi a partire da una confSi utilizzano algoritmi numerici iterativi a partire da una configurazione igurazione iniziale arbitraria di punti.iniziale arbitraria di punti.
48
Altre tecniche di proiezioneAltre tecniche di proiezione
MATRICE DI INCIDENZAMATRICE DI INCIDENZA
Gli elementi di questa matrice sono dati dal numero di occorrenzGli elementi di questa matrice sono dati dal numero di occorrenze e congiunte di alcune variabili discrete.congiunte di alcune variabili discrete.
Tabella di contingenza (Tabella di contingenza (kk, , qq) relativa a 2 variabili discrete ) relativa a 2 variabili discrete K K con con kkcategorie e categorie e QQ con con qq categorie. Il singolo elemento ncategorie. Il singolo elemento nijij rappresenta il rappresenta il numero di volte che la categoria numero di volte che la categoria ii--esimaesima della variabile della variabile KK e la categoria e la categoria jj--esimaesima della variabile della variabile QQ sono osservate contemporaneamente in un sono osservate contemporaneamente in un campione di campione di nn oggetti.oggetti.
49
Altre tecniche di proiezioneAltre tecniche di proiezione
Analisi delle corrispondenzeAnalisi delle corrispondenze
Tecnica utilizzata per ottenere una rappresentazione grafica delTecnica utilizzata per ottenere una rappresentazione grafica delcontenuto di una matrice di incidenza.contenuto di una matrice di incidenza.
E’ una tecnica di ottimizzazione.E’ una tecnica di ottimizzazione.
L’idea è quella di definire un’opportuna scala di valori per le L’idea è quella di definire un’opportuna scala di valori per le variabili variabili categoriche in modo che possano essere proiettate. Viene assegnacategoriche in modo che possano essere proiettate. Viene assegnato to uno uno scorescore a ciascuna categoria di ogni variabile, tale a ciascuna categoria di ogni variabile, tale scorescore viene quindi viene quindi utilizzato come coordinata della categoria nella rappresentazionutilizzato come coordinata della categoria nella rappresentazione e grafica. grafica.
50
Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa
Supponiamo che sia data una matrice di dati (Supponiamo che sia data una matrice di dati (nn, , pp) ) in cui gli oggetti sono suddivisi in G gruppi diversi.in cui gli oggetti sono suddivisi in G gruppi diversi.
Matrice di dati con struttura di gruppoMatrice di dati con struttura di gruppo
nngg = numero di oggetti appartenenti al = numero di oggetti appartenenti al gg--esimoesimo gruppogruppo
n ngg
G=
=∑1
51
Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa
In una rappresentazione geometrica dei dati:In una rappresentazione geometrica dei dati:
-- gli oggetti sono rappresentati con dei punti;gli oggetti sono rappresentati con dei punti;
-- i gruppi di oggetti sono rappresentati con insiemi di punti;i gruppi di oggetti sono rappresentati con insiemi di punti;
-- le distanze tra gli insiemi di punti rappresentano le diversità le distanze tra gli insiemi di punti rappresentano le diversità tra i corrispondenti gruppi di oggetti.tra i corrispondenti gruppi di oggetti.
Matrice di dati con struttura di gruppoMatrice di dati con struttura di gruppo
Se Se pp > 3, allora occorre trovare una rappresentazione dei dati a > 3, allora occorre trovare una rappresentazione dei dati a poche dimensioni che approssimi al meglio le differenze tra gli poche dimensioni che approssimi al meglio le differenze tra gli insiemi di punti nella configurazione reale.insiemi di punti nella configurazione reale.
52
Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa
Analisi delle componenti principaliAnalisi delle componenti principali
--1010
--99
--88
--77
--66
--55
--44
--33
--22
--11
3.83.8 4.24.2 4.64.6 5.05.0 5.45.4 5.85.8 6.26.2 6.66.6 7.07.0
Iris dataIris data
PC1PC1
PC2
PC2
150 iris150 iris
4 variabili:4 variabili:
-- lunghezza sepalilunghezza sepali
-- ampiezza sepaliampiezza sepali
-- lunghezza petalilunghezza petali
-- ampiezza petaliampiezza petali
3 gruppi:3 gruppi:
setosasetosaversicolorversicolor
virginica virginica
53
Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa
Analisi delle variabili canonicheAnalisi delle variabili canoniche
setosasetosaversicolorversicolor
virginica virginica Iris dataIris data
--33
--22
--11
00
11
22
33
--1010 --55 00 55 1010
CV1CV1C
V2C
V2
54
Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa
Analisi delle variabili canonicheAnalisi delle variabili canoniche
Obiettivo dell’analisi canonica è trovare la migliore rappresentObiettivo dell’analisi canonica è trovare la migliore rappresentazione azione dei dati per osservare le differenze tra i gruppi.dei dati per osservare le differenze tra i gruppi.
Alcuni principi dell’analisiAlcuni principi dell’analisi
Supponiamo di voler trovare la migliore rappresentazione a 1 dimSupponiamo di voler trovare la migliore rappresentazione a 1 dimensione, ensione, combinazione lineare delle variabili originali.combinazione lineare delle variabili originali.
ttigig è la coordinata dell’è la coordinata dell’ii--esimoesimo oggetto appartenente al oggetto appartenente al gg--esimoesimo gruppo lungo gruppo lungo il nuovo asse.il nuovo asse.
55
Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa
Media di gruppo :Media di gruppo : tn
tgg
igi
ng
= ⋅=∑1
1
tn
n tn
tn
tg gg
G
igi
n
g
G
ii
ng
= ⋅ ⋅ = ⋅ = ⋅= == =∑ ∑∑ ∑1 1 1
1 11 1
Media generalizzata :Media generalizzata :
Analisi delle variabili canonicheAnalisi delle variabili canoniche
56
Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa
BetweenBetween--group Sum of Squares :group Sum of Squares : SSB n t tg gg
Gab g d i= ⋅ −
=∑
2
1
SSW t tig gi
n
g
G g
ab g d i= −==∑∑
2
11
WithinWithin--group Sum of Squares :group Sum of Squares :
Analisi delle variabili canonicheAnalisi delle variabili canoniche
57
Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa
FSSB G
SSW n G=
−−
aab g b gb g b g
1
La migliore scelta di La migliore scelta di aa è quella che massimizza il rapporto :è quella che massimizza il rapporto :
aa definisce la direzione lungo la quale la varianza tra i gruppi definisce la direzione lungo la quale la varianza tra i gruppi relativamente alla varianza all’interno dei gruppi è massima.relativamente alla varianza all’interno dei gruppi è massima.
Analisi delle variabili canonicheAnalisi delle variabili canoniche
58
Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa
Le combinazioni lineari delle variabili originali trovate dall’aLe combinazioni lineari delle variabili originali trovate dall’analisi nalisi canonica si chiamano canonica si chiamano variabili canoniche (CV)variabili canoniche (CV)..
A differenza delle componenti principali, le variabili canonicheA differenza delle componenti principali, le variabili canoniche non non sono ortogonali. Quindi, l’analisi canonica introduce una sono ortogonali. Quindi, l’analisi canonica introduce una deformazione del sistema di riferimento originale.deformazione del sistema di riferimento originale.
Assunzione fondamentale dell’analisi canonica :Assunzione fondamentale dell’analisi canonica :
le matrici di covarianza dei singoli gruppi devono essere ugualile matrici di covarianza dei singoli gruppi devono essere uguali..
Analisi delle variabili canonicheAnalisi delle variabili canoniche
59
Tecniche di proiezione per analisi esplorativaTecniche di proiezione per analisi esplorativa
Variabili numericheVariabili numeriche
Variabili categoricheVariabili categoriche
matrice di similarità matrice di similarità (n, n)(n, n)
Principal Component AnalysisPrincipal Component Analysis
NonNon--linear mappinglinear mapping
Principal Coordinate Principal Coordinate AnalysisAnalysis
Multidimensional ScalingMultidimensional Scaling
matrice dei dati matrice dei dati (n, p)
matrice dei dati con matrice dei dati con struttura di classestruttura di classe
Canonical AnalysisCanonical Analysis
(n, p)
matrice di incidenza matrice di incidenza (k, q)
Correspondence Correspondence Analysis(k, q) Analysis