cimpa-ucr reducción de la dimensionalidad en análisis de …jrojo/pasi/lectures/costa...

23
Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Reducción de la Dimensionalidad en Análisis de Datos Javier Trejos – Coordinador Eduardo Piza, Alex Murillo, Mario Villalobos, Alejandra Jiménez CIMPA, Universidad de Costa Rica Instituto Tecnológico de Costa Rica

Upload: others

Post on 11-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

Reducción de la

Dimensionalidad en Análisis

de Datos

Javier Trejos – Coordinador

Eduardo Piza, Alex Murillo, Mario

Villalobos, Alejandra Jiménez

CIMPA, Universidad de Costa Rica

Instituto Tecnológico de Costa Rica

Page 2: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

Contenido – I Parte

1. Introduccion al Análisis Multidimensional

Lineal

2. Análisis en Componentes Principales

3. Análisis de Correspondencias

4. Clasificación Automática

5. Análisis Factorial Discriminante

6. Analisis de Tablas Múltiples

7. Esccalamiento Multidimensional

Page 3: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

Contenido – II Parte

1. Clasificación Numérica y Optimización

Combinatoria

2. Clasificación Binaria

3. Clasificación Bimodal

4. Esccalamiento Multidimensional

5. Regresión No Lineal

6. Selección de Variables en Regresión

Page 4: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR Tipos de técnicas multivariadas

• Técnicas Factoriales: tratan de reducir la dimensión del problema

encontrando variables sintéticas en las que se proyectan los

individuos o las variables

– Análisis en Componentes Principales (ACP)

– Análisis de Correspondencias (AFC) y (ACM)

– Escalamiento Multidimensional (MDS)

– Análisis de Tablas Múltiples (Statis)

• Técnicas de Clasificación: tratan de reducir la dimensión del

problema encontrando un número reducido de grupos homogéneos

– Clasificación Jerárquica (CAJA)

– Método de Nubes Dinámicas o k-means (MND)

• Técnicas Explicativas: para explicar el comportamiento de una

variable dependiente

– Regresión

– Discriminación (AFD)

Page 5: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

Los Principios del Análisis de

Datos según J.P Benzécri

1. La estadística no es probabilidad

2. El modelo debe seguir a los datos y no lo inverso

3. Procesar informaciones que conciernan al mayor número posible de dimensiones

4. El computador es indispensable

5. Abandonar técnicas pre-informáticas (técnicas, no ciencia)

Page 6: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR Ejemplo: Análisis en Componentes

Principales

• 1900: Pearson trabaja caso de dos variables

• 1933: Hotelling publica el caso general

• 1958: Libro de Anderson, usando v.a.

normales

• 1971: J.P. Pagès dicta curso en la

Universidad de Paris, sin ninguna

hipótesis de normalidad

Page 7: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

X: n individuos descritos por p variables cuantitativas.

X: matriz n x p

1 j p

1

i p

i

j

ii xxx KK1

n

Punto de Rp:

=

p

i

j

i

i

i

x

x

x

x

M

M

1

Espacios vectoriales asociados a

una tabla de datos

Page 8: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

E = Rp: espacio de individuos contiene los n puntos-individuos

{ }:,...,, 21 peee base canónica de E

∑=

=p

j

jj

ii exx1

E*: espacio dual de E (E*= {f: E→R/f lineal })

:,...,,**

2

*

1

peee base dual-canónica: ( )

=0

1*

kj eesi j = k

si j ≠ k

Espacios vectoriales asociados a

una tabla de datos

Page 9: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

1 j p

1

i

nj

n

j

i

j

x

x

x

M

M

1

Punto de Rn:

=

j

n

j

i

j

j

x

x

x

x

M

M

1

Espacio de variables

Page 10: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

F=Rn: espacio de variables

contiene los p puntos-variables

{ }:,...,,21 n

fff base canónica de F

∑=

=n

i

i

j

i

j

fxx1

F* : espacio dual de F

:,...,,**

2

*

1

nfff base dual-canónica

( )

==0

1*

ikkiff δ

si i=k

si i≠k

Espacio de variables

Page 11: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

Sea M matriz simétrica

definida

positiva

t

jiij MMmm == ,

00: =⇔=∀ xMxxxt

0: ≥∀ Mxxxt

M: p×p

• Producto interno en E

MyxyxEyxt

M=∈∀ ,:,

• Norma:

Mxxxxxt

MM== ,

• Distancia:

( )MM yxyxd −=,

Métricas

Page 12: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

• Isomorfismos: *: EEM →( )xMx a

con ( )( )M

yxyxM ,=

• Forma bilineal:

REEM →×:

( )M

yxyx ,, a

• Forma cuadrática:

REM →:

Mxxx ,a

Ej:

==

10

01pIM

==

2

´

2

21 1

1

0

0

px

x

DMσ

σ

σ

Métricas

Page 13: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

Pesos: 0>ip tq ∑=

=n

i

ip1

1

Sea ( )

nnn

i

p

p

p

pdiagD

×

==O

2

1 0

Métrica → prod. interno, norma, distancia, isomorfismo, f. bil...

• Tendencia central:

resumir x∈F en α∈R

o

x

n1α

n

n

=

1

1

1 M

Métrica de pesos en F

Page 14: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

xx

p

xp

D

Dxxn

i

i

n

i

ii

n

t

n

n

t

Dnn

Dn=====

=

=

111

1

1,1

1,

1

• Dispersión:

( ) ( )n

t

nD

n xxDxxxx 1112

−−=−

( ) ( ) 2

1

2

var x

n

i

ii xxxp σ==−=∑=

• Norma: ( )0=x x

n

i

ii

t

DxpDxxx σ=== ∑

=1

2

Métrica de pesos en F

Page 15: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

• Angulos: ( )0== yx

( )yx

n

iii

DD

DD

yxp

yx

yxyx

σσ

∑==

,,cos

( )( )yxr

yx

yx

,,cov

==σσ

θθθθ

x

Métrica de pesos en F

y

Page 16: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

• Varianza: Norma

(datos centrados)

( ) xn

diagxxn

xn

i

t

i

== ∑

=

11var

1

22

Dx=

con

=

10

010

001

1

OM

K

K

nD

=

nx

x

x M

1

Geometría de las variables

Page 17: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

• Correlación: Coseno

( )( )

( ) ( )yx

yxyxr

varvar

,cos, =

yx

yx

yx

Dyx

yx

yxn D

tii ,1

22===

αcos=

x

y

( ) 1, ≈yxr

x

y

( ) 0, ≈yxr

x

y

( ) 1, −≈yxr

Geometría de las variables

Page 18: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

Nubes de puntos

• N = (X,M,D) con:

– X: tabla de datos

– M: metrica en el espacio de individuos E

– D: metrica de pesos en el espacio de variables F

Page 19: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

( ) ( )∑=

−+=−=n

iMgM

iia agNIaxpNI1

22

Mínima para ga =

Centrar: 0→gg

o

( ) ∑=

=n

iM

ii xpNI1

2

( )∑=

==n

i

p

ii xxxpg1

1

,...,

Inercia

Page 20: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

( )

= ∑

=

n

iM

ii xptrazaNI1

2 ( )∑=

=n

i

i

t

ii Mxxtrazap1

( )∑=

=n

i

t

iii Mxxtrazap1

= ∑

=

n

i

t

iii Mxxptraza1

( )VMtraza=

( ) ( ) ∑=

==p

j

jVMtrazaNI1

λ con λj valor propio de VM

Obs: caso clásico (si M=Id)

( ) ( )∑=

=p

j

jxNI

1

var

dispersión

Inercia

Page 21: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

( ) ( )∑∑==

=

=

p

k

kjk

i

p

k

kk

ijij eexexexe1

*

1

**

j

i

p

k

jk

k

i xx∑=

==1

δ

( )

( )

j

j

nnj

jj

x

xxe

xxer

rMM

r

*

11

*

Hay una aplicación que asocia con **Ee j ∈ Fx

j ∈r

FEX →*: (tiene matriz X)

Aplicación lineal asociada a X

Page 22: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

( ) ∑∑==

==

=

n

h

j

iih

j

h

n

h

h

j

hi

j

ixxfxfxf

11

**

δ

( )i

p

i

p

i

ii

x

xxf

xxfr

rMM

r

)(*

11*

Hay una aplicación que asocia con **Ffi ∈ Exi ∈

r

EFXt →*: (tiene matriz Xt)

Aplicación lineal asociada a Xt

Page 23: CIMPA-UCR Reducción de la Dimensionalidad en Análisis de …jrojo/PASI/lectures/Costa rica/1_Introduccion.pdfReducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos

Reducción de la Dimensionalidad en Análisis de Datos

CIMPA-UCR

E = Rp: espacio de individuos

F = Rn: espacio de variables

M: métrica en E

D: métrica de pesos en F

X: tabla de datos centrados

E

E*

F*

F

Xt

X

M V W D

DXXVt= t

XMXW =

Nube de puntos:

( )DMXN ,,=

Esquema de dualidad