Redução de dados • Sumarizar os dados que contém muitas variáveis (p) por um conjunto menor de (k) variáveis compostas derivadas a partir do conjunto original.
n
p
A n
k
X
Data Reduction • Variação “residual” são informações contidas em A que não estão presentes em X.
• Compromisso entre: – redução do tamanho, representação mais compacta
– supersimplificação: perda de informação relevante.
Análise de componentes principais (PCA)
• Provavelmente o método multivariado mais usado e conhecido de redução de dados
• Inventado por Pearson (1901) e Hotelling (1933)
Principal Component Analysis (PCA)
• usa uma conjunto de dados representado por uma matriz de n registros por p atributos, que podem estar correlacionados, e sumariza esse conjunto por eixos não correlacionados (componentes principais) que são uma combinação linear das p variáveis originais
• as primeiras k componentes contém a maior quantidade de variação dos dados
Raciocínio geométrico da PCA • Objetos são representados por uma nuvem de
n pontos em um espaço multidimensional, com um eixo para cada uma dos p atributos
• o centroide dos pontos é definido pela média de cada atributo
• a variância de cada atributo é média dos quadrados da diferença dos n pontos com relação a média de cada atributo
€
Vi =1
n −1Xim − X i( )2
m =1
n
∑
Raciocínio geométrico da PCA • Grau com que cada variável é linearmente correlacionado é representado pela sua covariância.
Sum over all n objects
Value of variable j
in object m
Mean of variable j
Value of variable i
in object m
Mean of variable i
Covariance of variables i and j
Interpretação geométrica da PCA • O objetivo da PCA é rotacionar rigidamente os eixos desse espaço p-dimensional para nova posições (eixos principais) que tem a seguinte propriedade: – Ordenado de tal maneira que o eixo principal 1 tem a maior variância, o eixo 2 tem a próxima maior variância, .... , e o último eixo tem a menor variância
– Covariância entre cada par de eixos é zero (os eixos principais não são correlacionados).
2D Example of PCA • variáveis X1 and X2 tem covariância positiva e cada
uma delas têm variância similar.
Os dados são centralizados • Cada variável é ajustada para ter média zero (subtraindo a média para cada valor).
Componentes principais são calculadas • PC 1 tem a maior variância possível (9.88) • PC 2 tem variância de 3.03 • PC 1 e PC 2 tem covariância zero.
A medida dedissimilaridade usada na PCA é a distância euclidiana
• PCA usa a distância euclidiana calculada a partir dos p atributos como uma medida de dissimilaridade entre os n objetos
• PCA calcula as k melhores possíveis dimensões (k < p) representandos a distância euclidiana entre os objetos
Generalização para p-dimensões • Na prática, PCA não é usada com somente 2 variables
• A algebra para encontrar os eixos pode ser facilmente extendida para p variáveis
• PC 1 é a direção de maior variação na nuvem p-dimensional de pontos
• PC 2 está na direção da próxima maior variância, condiciodicionada a zero covariânciancia com PC 1.
Generalização para p-dimensões • PC 3 está na direção da próxima maior covariância, condidionada com zero covariância entre PC 1 e PC 2
• e assim por diante... até PC p
PC 1
PC 2
• cada eixo principal é uma combinação linear das variáveis originais
• PCj = ai1Y1 + ai2Y2 + … ainYn • aij’s são os coeficiente para o fator i, multiplicado pela
dimensão da variável j
PC 1
PC 2
• os PC eixos são rotações rígidas das variáveis originais • PC 1 é simultaneamente a direção de maior variâcia e
simultaneamente melhor reta “ajustada” que minimiza a distância média entre os pontos e PC1
Generalização para p-dimensões • se tomarmos as primeiras k components, eles
definem um hiperplano k-dimensional que “melhor se ajusta” à nuvem de pontos
• Da variância total dos p atributos: – PCs 1 até k representam a proporção máximo possivel
de variância que pode ser mostrada em k dimensões
Covariancia vs Correlação • usar covariância entre variáveis somente faz sentido se elas estão representadas na mesma unidade
• Mesmo assim, variáveis com alta variância vão dominar as componentes principais
• Esses problemas são geralmente contornados normalizando os atributos
Média de i
Desvio padrão de i
Covariance vs Correlation • covariancias entre variáveis normalizadas são correlações correlações
• Depois da normalização, cada variável tem variância 1
• Correlações também podem ser calculadas a paritr de variâncias e covariâncias:
Covariance of variables i and j
Variance of variable j Variance
of variable i
Correlation between variables i and j
Algebra do PCA • O primeiro passo é calcular a matriz de produto vetorial de variâncias e covariâncias (ou correlações) entre cada par dos p atributos
• Matriz quadrada e assimétrica • Diagonais são covariâncias, fora, covariâncias.
X1 X2
X1 6.6707 3.4170 X2 3.4170 6.2384
X1 X2
X1 1.0000 0.5297 X2 0.5297 1.0000
Variance-covariance Matrix Correlation Matrix
Algebra da PCA • Em notação matricial:
• onde X é a matriz n x p de dados, com cada variável centralizada
X1 X2
X1 6.6707 3.4170 X2 3.4170 6.2384
X1 X2
X1 1.0000 0.5297 X2 0.5297 1.0000
Variance-covariance Matrix Correlation Matrix
Manipulação de Matrizes • Transposição: inverte linhas e colunas
• Multiplica as matrizes
X = 10 0 4 7 1 2
X’ = 10 7 0 1 4 2
Algebra do PCA • Soma dos elementos diagonais da matriz de variância-covariância é chamado traço
• Ele representaa variância total dos dados
• É a distância média quadrada entre cada ponto e o centro no espaço p-dimensional.
X1 X2
X1 6.6707 3.4170 X2 3.4170 6.2384
X1 X2
X1 1.0000 0.5297 X2 0.5297 1.0000
Trace = 12.9091 Trace = 2.0000
Algebra do PCA • Encontrar os eixos principais envolve encontrar os auto-vetores da matriz de produto vetorial (S)
• The auto-valores de S são soluções (λ) da equação característica
Algebra do PCA • os auto-valores, λ1, λ2, ... λp correspondem à variância representada em cada componete principal
• A soma de todos os p auto-valores é igual ao traço de S.
X1 X2
X1 6.6707 3.4170 X2 3.4170 6.2384
λ1 = 9.8783 λ2 = 3.0308
Note: λ1+λ2 =12.9091 Trace = 12.9091
Algebra do PCA • Cada auto-vetor consiste nos p valores que representam a contribuição de cada atributo para a componente principal
• Autovetores são não correlacionaods (ortogonal) – Seus produtos-internos são zero.
u1 u2
X1 0.7291 -0.6844
X2 0.6844 0.7291
Auto-vetores
0.7291*(-0.6844) + 0.6844*0.7291 = 0
Algebra do PCA • As coordenadas de cada objeto i na kesimo eixo principal, chamada de escores na PC k, são computadas como
• one Z é a matriz n x k de PC escores, X é a n x p matriz centralizada de daos e U é a p x k matriz de autovetores.
Algebra da PCA • variancia dos scores em cada PC é proporcional ao auto-valor correspondente para aquele eixo
• O autovalor representa a variância mostrada (“explicada” or “extraida”) pelo eixo k
• A soma dos primeiros k autovalores é proporcional ao total de variância explicada pelas primeiras k-dimensões da transformação
λ1 = 9.8783 λ2 = 3.0308 Trace = 12.9091
PC 1 mostra (“explica”) 9.8783/12.9091 = 76.5% of the total variance