análise de componentes principais (pca)
DESCRIPTION
Análise de Componentes Principais (PCA)TRANSCRIPT
-
Anlise de componentes principais (PCA)
-
Reduo de dados Sumarizar os dados que contm muitas variveis (p) por um conjunto menor de (k) variveis compostas derivadas a partir do conjunto original.
n
p
A n
k
X
-
Data Reduction Variao residual so informaes contidas em A que no esto presentes em X.
Compromisso entre: reduo do tamanho, representao mais compacta
supersimplificao: perda de informao relevante.
-
Anlise de componentes principais (PCA)
Provavelmente o mtodo multivariado mais usado e conhecido de reduo de dados
Inventado por Pearson (1901) e Hotelling (1933)
-
Principal Component Analysis (PCA)
usa uma conjunto de dados representado por uma matriz de n registros por p atributos, que podem estar correlacionados, e sumariza esse conjunto por eixos no correlacionados (componentes principais) que so uma combinao linear das p variveis originais
as primeiras k componentes contm a maior quantidade de variao dos dados
-
Raciocnio geomtrico da PCA Objetos so representados por uma nuvem de
n pontos em um espao multidimensional, com um eixo para cada uma dos p atributos
o centroide dos pontos definido pela mdia de cada atributo
a varincia de cada atributo mdia dos quadrados da diferena dos n pontos com relao a mdia de cada atributo
Vi =1
n 1 Xim X i( )2
m =1
n
-
Raciocnio geomtrico da PCA Grau com que cada varivel linearmente correlacionado representado pela sua covarincia.
Sum over all n objects
Value of variable j
in object m
Mean of variable j
Value of variable i
in object m
Mean of variable i
Covariance of variables i and j
-
Interpretao geomtrica da PCA O objetivo da PCA rotacionar rigidamente os eixos desse espao p-dimensional para nova posies (eixos principais) que tem a seguinte propriedade: Ordenado de tal maneira que o eixo principal 1 tem a maior varincia, o eixo 2 tem a prxima maior varincia, .... , e o ltimo eixo tem a menor varincia
Covarincia entre cada par de eixos zero (os eixos principais no so correlacionados).
-
2D Example of PCA variveis X1 and X2 tem covarincia positiva e cada
uma delas tm varincia similar.
-
Os dados so centralizados Cada varivel ajustada para ter mdia zero (subtraindo a mdia para cada valor).
-
Componentes principais so calculadas PC 1 tem a maior varincia possvel (9.88) PC 2 tem varincia de 3.03 PC 1 e PC 2 tem covarincia zero.
-
A medida dedissimilaridade usada na PCA a distncia euclidiana
PCA usa a distncia euclidiana calculada a partir dos p atributos como uma medida de dissimilaridade entre os n objetos
PCA calcula as k melhores possveis dimenses (k < p) representandos a distncia euclidiana entre os objetos
-
Generalizao para p-dimenses Na prtica, PCA no usada com somente 2 variables
A algebra para encontrar os eixos pode ser facilmente extendida para p variveis
PC 1 a direo de maior variao na nuvem p-dimensional de pontos
PC 2 est na direo da prxima maior varincia, condiciodicionada a zero covarinciancia com PC 1.
-
Generalizao para p-dimenses PC 3 est na direo da prxima maior covarincia, condidionada com zero covarincia entre PC 1 e PC 2
e assim por diante... at PC p
-
PC 1
PC 2
cada eixo principal uma combinao linear das variveis originais
PCj = ai1Y1 + ai2Y2 + ainYn aijs so os coeficiente para o fator i, multiplicado pela
dimenso da varivel j
-
PC 1
PC 2
os PC eixos so rotaes rgidas das variveis originais PC 1 simultaneamente a direo de maior varicia e
simultaneamente melhor reta ajustada que minimiza a distncia mdia entre os pontos e PC1
-
Generalizao para p-dimenses se tomarmos as primeiras k components, eles
definem um hiperplano k-dimensional que melhor se ajusta nuvem de pontos
Da varincia total dos p atributos: PCs 1 at k representam a proporo mximo possivel
de varincia que pode ser mostrada em k dimenses
-
Covariancia vs Correlao usar covarincia entre variveis somente faz sentido se elas esto representadas na mesma unidade
Mesmo assim, variveis com alta varincia vo dominar as componentes principais
Esses problemas so geralmente contornados normalizando os atributos
Mdia de i
Desvio padro de i
-
Covariance vs Correlation covariancias entre variveis normalizadas so correlaes correlaes
Depois da normalizao, cada varivel tem varincia 1
Correlaes tambm podem ser calculadas a paritr de varincias e covarincias:
Covariance of variables i and j
Variance of variable j Variance
of variable i
Correlation between variables i and j
-
Algebra do PCA O primeiro passo calcular a matriz de produto vetorial de varincias e covarincias (ou correlaes) entre cada par dos p atributos
Matriz quadrada e assimtrica Diagonais so covarincias, fora, covarincias.
X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384
X1 X2 X1 1.0000 0.5297 X2 0.5297 1.0000
Variance-covariance Matrix Correlation Matrix
-
Algebra da PCA Em notao matricial:
onde X a matriz n x p de dados, com cada varivel centralizada
X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384
X1 X2 X1 1.0000 0.5297 X2 0.5297 1.0000
Variance-covariance Matrix Correlation Matrix
-
Manipulao de Matrizes Transposio: inverte linhas e colunas
Multiplica as matrizes
X = 10 0 4 7 1 2
X = 10 7 0 1 4 2
-
Algebra do PCA Soma dos elementos diagonais da matriz de varincia-covarincia chamado trao
Ele representaa varincia total dos dados a distncia mdia quadrada entre cada ponto e o centro no espao p-dimensional.
X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384
X1 X2 X1 1.0000 0.5297 X2 0.5297 1.0000
Trace = 12.9091 Trace = 2.0000
-
Algebra do PCA Encontrar os eixos principais envolve encontrar os auto-vetores da matriz de produto vetorial (S)
The auto-valores de S so solues () da equao caracterstica
-
Algebra do PCA os auto-valores, 1, 2, ... p correspondem varincia representada em cada componete principal
A soma de todos os p auto-valores igual ao trao de S.
X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384
1 = 9.8783 2 = 3.0308
Note: 1+2 =12.9091 Trace = 12.9091
-
Algebra do PCA Cada auto-vetor consiste nos p valores que representam a contribuio de cada atributo para a componente principal
Autovetores so no correlacionaods (ortogonal) Seus produtos-internos so zero.
u1 u2 X1 0.7291 -0.6844 X2 0.6844 0.7291
Auto-vetores
0.7291*(-0.6844) + 0.6844*0.7291 = 0
-
Algebra do PCA As coordenadas de cada objeto i na kesimo eixo principal, chamada de escores na PC k, so computadas como
one Z a matriz n x k de PC escores, X a n x p matriz centralizada de daos e U a p x k matriz de autovetores.
-
Algebra da PCA variancia dos scores em cada PC proporcional ao auto-valor correspondente para aquele eixo
O autovalor representa a varincia mostrada (explicada or extraida) pelo eixo k
A soma dos primeiros k autovalores proporcional ao total de varincia explicada pelas primeiras k-dimenses da transformao
-
1 = 9.8783 2 = 3.0308 Trace = 12.9091
PC 1 mostra (explica) 9.8783/12.9091 = 76.5% of the total variance
-
Algebra da PCA A matriz do produto vetorial calculada usando as p componentes principais tem uma forma simples: Todos os elementos for a da diagonal tem valores zero
A diagonal contm os auto-valores. PC1 PC2
PC1 9.8783 0.0000 PC2 0.0000 3.0308 Variance-covariance Matrix
of the PC axes