análisis miltivariado ejemplo motivadorcms.dm.uba.ar/academico/materias/2docuat2017/sem... · i=1...
Post on 28-Jul-2018
212 Views
Preview:
TRANSCRIPT
Características de la base • Base de datos numérica • 3265 individuos • 9 variables • 10 primeros casos:
• X1 250 243 232 234 227 219 235 232 216 260!• X2 488 511 452 503 461 449 483 465 442 506!• X3 518 568 509 518 525 479 532 528 473 558!• X4 858 856 788 730 779 732 779 788 737 842!• X5 664 723 652 612 626 603 644 696 646 783!• X6 775 859 711 712 692 702 746 786 713 869!• x7 !838 826 766 778 766 757 837 781 725 753!• x8 532 549 512 547 540 510 547 533 508 566!• X9 !338 359 311 323 331 309 315 328 292 315! …
…
…
Origen de los Datos: AnthroKids - Anthropometric
Data of Children
• Fuente: http://www.itl.nist.gov/iaui/ovrt/projects/anthrokids/ncontent.htm
10 primeros casos de la base
• FOOT.LENGTH 250 243 232 234 227 219 235 232 216 260!• KNEE.HEIGHT 488 511 452 503 461 449 483 465 442 506!• BUTTOCK.KNEE.LENGTH 518 568 509 518 525 479 532 528 473 558!• HIP.CIRCUMFERENCE 858 856 788 730 779 732 779 788 737 842!• WAIST.CIRCUMFERENCE 664 723 652 612 626 603 644 696 646 783!• CHEST.CIRCUMFERENCE 775 859 711 712 692 702 746 786 713 869!• ERECT.SITTING.HEIGHT 838 826 766 778 766 757 837 781 725 753!• HEAD.CIRCUMFERENCE 532 549 512 547 540 510 547 533 508 566!• SHOULDER.ELBOW.LENGTH 338 359 311 323 331 309 315 328 292 315!
Las 9 variables
…
…
…
La Maldición de la Dimensionalidad Distancia promedio (100 puntos) = 0.32
Distania promedio (100 puntos)= 0.51
Distania promedio (100 puntos)= 0.66
Problemas del Análisis Multivariado
Positivo • Tener muchas variables
provee mucha información relevante.
• Tener muchas observaciones (información) aumenta la potencia estadística.
Negativo • Tener muchas variables
dificulta el análisis (maldición de la dimensionalidad).
• Tener muchas observaciones produce la detección de patrones irrelevantes (rechazo todos los test)
Solución
NO • Eliminar observaciones. • Eliminar variables.
SI • Realizar un buen análisis
descriptivo de los datos. • No utilizar “test de
hipótesis” como única herramienta de análisis.
El Modelo Normal Multivariado
Vector de valuación
Matriz de Varianzas/Covarianzas
Dimensión (cantidad de variables)
Vector de medias X ~ N( µ , Σ )
Componentes Principales
• Técnica exploratoria que procura hallar aquellas combinaciones (lineales) de las variables originales que maximizan la varianza (información).
Finalidad de los Componentes Principales
• Hallar variables latentes (componentes o factores).
• Reducir la dimension del problema. • Eliminar redundancias de la información. • Obtener una representación gráfica de
información multidimensional.
La segunda componente
Sujeto a las restricciones
Componente
Tal que Autovector 2 (Loading 2)
Ortogonalidad
Propiedades de las componentes
λ1 ≥ λ2≥ … ≥ λν ≥ … ≥ λp
Componente generica
No correlacionados
Orden
Autovalor
Los scores
Y11
Y12
… Y1p
Yn1
Yn2
… Ynp
Y =
…
…
…
Y11
Y12
Origen de coordenadas
Espacio original
Espacio de las componentes
PCA con matriz de correlaciones
Xs = (X-µX)/σX
Ys = (Y-µY)/σY
V(Xs) = 1
V(Ys) = 1
Cov(Xs,Ys) = ρX,Y
PCA con matriz de correlaciones equivale a PCA con matriz de varianzas/covarianzas de las variables estandarizadas.
Matricialmente: Descomposición Espectral
S = V Λ V’ = λi vi vi’ i=1 p
Matriz de covarianzas
Matriz ortogonal de autovectores
Matriz diagonal de autovalores
Autovector i-esimo
Autovalor i-esimo
Matricialmente: Descomposición en Valores
Singulares (SVD)
(X*)’ = V Σ W’
Matriz de datos (centrada) traspuesta (p x n)
Matriz ortogonal de autovectores (p x p) Matriz diagonal de
autovalores (p x n)
Matriz de scores (n x n)
Ejemplo: AnthroKids - Anthropometric
Data of Children
• FOOT.LENGTH 250 243 232 234 227 219 235 232 216 260!• KNEE.HEIGHT 488 511 452 503 461 449 483 465 442 506!• BUTTOCK.KNEE.LENGTH 518 568 509 518 525 479 532 528 473 558!• HIP.CIRCUMFERENCE 858 856 788 730 779 732 779 788 737 842!• WAIST.CIRCUMFERENCE 664 723 652 612 626 603 644 696 646 783!• CHEST.CIRCUMFERENCE 775 859 711 712 692 702 746 786 713 869!• ERECT.SITTING.HEIGHT 838 826 766 778 766 757 837 781 725 753!• HEAD.CIRCUMFERENCE 532 549 512 547 540 510 547 533 508 566!• SHOULDER.ELBOW.LENGTH 338 359 311 323 331 309 315 328 292 315! …
…
…
Advertencia
• Componentes Principales, al igual que otros métodos multivariados basados en la matriz de varianzas/covarianzas, usan solo una pequeña parte de la información disponible.
top related