análisis de componentes principales (pca)

16
A (PCA) A R-F I C D (A ) ..

Upload: others

Post on 04-Feb-2022

34 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análisis de componentes principales (PCA)

Análisis de componentes principales (PCA)Alan Reyes-FigueroaIntroducción a la Ciencia de Datos (Aula 08) 01.febrero.2021

Page 2: Análisis de componentes principales (PCA)

Ciencia de datos1. Métodos exploratorios y de visualización (30%)

Métodos exploratorios para datos multivariados: Visualización y resumen de la dependenciaentre variables. Métodos de proyección: Descomposición SVD. Componentes principales(PCA). Re-escalamiento multidimensional. Componentes independientes (ICA). Reducción dela dimensionalidad: Factoración de matrices no-negativas (NNMF). Variables latentes. Otrostópicos.

2. Aprendizaje no-supervisado (20%)Métodos de agrupamiento. k−medias, k−medianas, k−medoides. Métodos deagrupamiento jerárquico: dendrogramas. Agrupamiento espectral. El método EM.

3. Aprendizaje supervisado (50%)El clasificador bayesiano. Análisis discriminante. k−nearest neighbors. Regresión logística.Máquinas de soporte vectorial (SVM). Métodos kernel. Árboles de Decisión y random forests.Bagging y Boosting. Redes neuronales artificiales. Validación cruzada y selección demodelos.Mínimos cuadrados. Modelos de regresión lineal (generalizada). Selección de variables.Métodos de regularización: Ridge (L2), LASSO (L1), Elastic-net (L0). Criterios de selección demodelos: Mínimos cuadrados parciales. Métodos basados en mezclas. Funciones de baseradial (RBFs), mezclas Gaussianas (GMM). Estimaciones empíricas de distribuciones.

PCA | Alan Reyes-Figueroa Page 1

Page 3: Análisis de componentes principales (PCA)

Componentes principalesObjetivo: encontrar una estructura subyacente en los datos.• Proyectar a un subespacio adecuado.

PCA | Alan Reyes-Figueroa Page 2

Page 4: Análisis de componentes principales (PCA)

Componentes principalesEjemplo: Atletismo, pruebas de 100m y 200m.

Se observa ciertaestructura.

Karl Pearson (1901),describir con una recta.

Hotelling (1933), relaciónentre variables g(X1, X2),no confundir conregresión.

Incorporar incertidumbre.

PCA | Alan Reyes-Figueroa Page 3

Page 5: Análisis de componentes principales (PCA)

Componentes principalesEjemplo: Atletismo, pruebas de 100m y 200m.

Se observa ciertaestructura.

Karl Pearson (1901),describir con una recta.

Hotelling (1933), relaciónentre variables g(X1, X2),no confundir conregresión.

Incorporar incertidumbre.

PCA | Alan Reyes-Figueroa Page 4

Page 6: Análisis de componentes principales (PCA)

Componentes principalesEjemplo: Atletismo, pruebas de 100m y 200m.

Se observa ciertaestructura.

Karl Pearson (1901),describir con una recta.

Hotelling (1933), relaciónentre variables g(X1, X2).

No confundir conregresión.Incorporar incertidumbre.

PCA | Alan Reyes-Figueroa Page 5

Page 7: Análisis de componentes principales (PCA)

Componentes principalesEjemplo: Atletismo, pruebas de 100m y 200m.

Se observa ciertaestructura.

Karl Pearson (1901),describir con una recta.

Hotelling (1933), relaciónentre variables g(X1, X2).

No confundir conregresión,Incorporar incertidumbre.

PCA | Alan Reyes-Figueroa Page 6

Page 8: Análisis de componentes principales (PCA)

Componentes principalesEjemplo: Atletismo, pruebas de 100m, 200m y salto de longitud.

PCA | Alan Reyes-Figueroa Page 7

Page 9: Análisis de componentes principales (PCA)

Componentes principalesEjemplo: Compresión de imágenes digitales.

PCA | Alan Reyes-Figueroa Page 8

Page 10: Análisis de componentes principales (PCA)

Componentes principales

• Buscamos direcciones informativas(estructura)informativo = máxima variabilidad

• Buscamos minimizar el error dereconstrucción.

PCA | Alan Reyes-Figueroa Page 9

Page 11: Análisis de componentes principales (PCA)

Componentes principalesObs! Los dos enfoques anteriores son equivalentes.

Prueba:Denotemos X la v.a. que corresponde a los datos (X ∈ R2 en el ejemplo).Por simplicidad, supongamos que los datos xi están centrados (i.e.E(X) = 0).

MSS =1n

n∑i=1

||xi||2 =1n

n∑i=1

||(xi − xi) + xi||2

=1n

n∑i=1

||xi − xi||2 +1n

n∑i=1

||xi||2 = Reconstruction error + Var(X).

MSS es fija, luego minimizar el error de reconstrucción equivale amaximizar la varianza de los datos.PCA | Alan Reyes-Figueroa Page 10

Page 12: Análisis de componentes principales (PCA)

Componentes principales

Enfoque probabilístico:Matriz de datos

X =

x11 x12 . . . x1dx21 x22 . . . x2d... ... . . . ...xn1 xn2 . . . xnd

.

• Consideramos X = (X1, . . . , Xd) ∈ Rd como variable aleatoria, y losdatos xi = (xi1, . . . , xid) ∈ Rd, para i = 1, 2, . . . ,n como muestra de X.

• Supondremos que conocemos la ley PX.• Supondremos también que E(X) = 0 (los datos están centrados). En

consecuencia, Var(X) = XTX.

PCA | Alan Reyes-Figueroa Page 11

Page 13: Análisis de componentes principales (PCA)

Componentes principalesCaso particular 1D: (proyectamos a un subespacio 1-dimensional).

Suponga que proyectamos a un subespacio 〈`〉 ⇒ 〈`, X〉 = `TX.Buscamos maximizar

max||`||=1

Var(`TX) = max6=0

Var(`TX)

`T`= max

` 6=0

`TVar(X)`

`T`= max

`6=0

`T(XTX)`

`T`.

(cociente de Rayleigh).

PCA | Alan Reyes-Figueroa Page 12

Page 14: Análisis de componentes principales (PCA)

Componentes principales

Teorema (Teorema espectral / Descomposición espectral)Sea A ∈ Rd×d una matriz simétrica (operador auto-adjunto). Entonces, Aadmite una descomposición de la forma

A = UΛUT,

donde Λ = diag(λ1, λ2, . . . , λd) es la matriz diagonal formada por losautovalores λ1 ≥ λ2 ≥ . . . ≥ λd de A, y

U =

q1 q2 . . . qd

∈ Rd×d

es una matriz ortogonal cuyas columnas son los autovalores de A, con qiel autovalor correspondiente a λi, i = 1, 2, . . . ,d.PCA | Alan Reyes-Figueroa Page 13

Page 15: Análisis de componentes principales (PCA)

Componentes principales

Teorema (Teorema espectral / Descomposición espectral)En otras palabras, A puede escribirse como una suma de matrices derango 1

A =

q1 q2 . . . qd

λ1

λ2. . .

λd

qT1qT2. . .qTd

=

d∑i=1

λi qiqTi .

PCA | Alan Reyes-Figueroa Page 14

Page 16: Análisis de componentes principales (PCA)

Componentes principales

Comentario:Para 1 ≤ k ≤ d, la suma

Ak =k∑i=1

λi qiqTi ,

es una matriz de rango k siempre que los λi 6= 0 (ya que los qi sonindependientes).

Veremos más adelante, que esta es la mejor aproximación de rango k dela matriz A.

PCA | Alan Reyes-Figueroa Page 15