Download - Análisis de componentes Principales (ACP)
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
INTRODUCCIN............................................................................................................................. 2 OBJETIVOS ..................................................................................................................................... 2 ANLISISDELOSDATOS................................................................................................................ 3 TCNICAUTILIZADA....................................................................................................................... 6 CONCLUSIONESYRECOMENDACIONES...................................................................................... 12 ANEXOS ....................................................................................................................................... 13 FUENTEDECONSULTA ................................................................................................................ 13
Anlisis de componentes principales (ACP)
1
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
INTRODUCCINCuando se requiere estudiar un fenmeno social o fsico de forma estadstica es necesario no slo enfocar cada una de las variables a investigar de forma individual, ya que debido a las diferentes complejidades que puede presentar este fenmeno es necesario que el investigador realice un anlisis que considere grupos de variables para interpretar su comportamiento de forma conjunta, esta metodologa se denomina Anlisis Multivariado. Una de las tcnicas es el Anlisis de Componentes Principales (ACP), donde se asume las relaciones lineales entre las variables numricas. Una matriz de datos es un arreglo rectangular de nmeros dispuestos en n filas y p columnas que representan n observaciones de las p variables aleatorias observadas. Cuando el tamao de la poblacin investigada y el nmero de variables es muy grande se obtiene como resultado una matriz de datos de gran dimensin, lo que constituye un inconveniente que puede ser resuelto utilizando la Tcnica Multivariada Componentes Principales, cuyo objetivo es la reduccin e interpretacin de los datos. Una Componente Principal es una combinacin lineal de p variables aleatorias observadas que cumple con ciertas restricciones. Geomtricamente esta combinacin lineal constituye la eleccin de un nuevo sistema de coordenadas obtenido al rotar el sistema original, tal que los nuevos ejes representen la direccin de mxima variabilidad. El mtodo permite interpretar la estructura de varianzas-covarianzas de un conjunto de p variables, a travs de unas pocas q componentes principales formadas a partir de esas p variables, y de esta manera se logra la reduccin de datos, pasando de una matriz original de n observaciones de p variables aleatorias a otra de n observaciones de q componentes principales.
OBJETIVOSObjetivo principal Transformar un conjunto de n observaciones y p variables en un nuevo conjunto, con un nmero menor de variables dado por las componentes principales. Objetivos secundarios Conocer el porcentaje que representa las componentes principales ms representativas. Conseguir una representacin simplificada de los datos.
Anlisis de componentes principales (ACP)
2
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
ANLISISDELOSDATOSPlanteamiento del problema Disponemos de una poblacin de 100 individuos con la siguiente informacin (slo variables cuantitativas): Se requiere conocer la relacin existente entre la talla, peso, presin diastlica inicial, presin diastlica final, presin sistlica inicial, presin sistlica final, ndice de masa corporal, edad de cada uno de los individuos con la hipertensin, es decir, un estudio de los factores de riesgo en hipertensin arterial. El diseo es de tipo caso-control. Anlisis Descriptivo Se dispone de una base de datos, de la cual hemos sacado 8 variables cuantitativas y 3 variables cualitativas, de esta informacin se tomo 100 registros con las siguientes variables:Variable clave nombre f_nacim f_inclus genero Altura(X1) Peso(X2) Descripcin Clave de aleatorizacin Iniciales Fecha de nacimiento Fecha de inclusin Gnero Altura (cm) Peso en Kg. 0=Varn; 1=Mujer Codificacin
pad_ini(X3) Presin diastlica inicial pad_fin(X4) Presin diastlica final pas_ini(X5) Presin sistlica inicial pas_fin(X6) Presin sistlica final Imc(X7) Edad(X8) clasedad obesidad pam_ini pam_fin farmaco ndice de masa corporal Edad en aos Intervalos de edad Grado de obesidad Presin media inicial Presin media final Tratamiento aplicado 0=Placebo; 1=IECA; 2=Ca Antagonista + Diurtico 1=Muy bajo; 2=Normal; 3=Sobre peso; 4=Obeso
Anlisis de componentes principales (ACP)
3
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
Representacin Grfica Mediante histogramas representamos las variables individualmente.
Talla
Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar
167,78 107,83 0,23 -0,60 0,06 10,38
Peso
Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar
73,33 277,33 0,47 0,06 0,23 16,65
Presin diastlica inicial
Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar
88,42 64,35 0,00 -0,40 0,09 8,02
Anlisis de componentes principales (ACP)
4
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
Presin diastlica finalPromedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar 86,66 324,25 -0,16 -0,10 0,21 18,01
Presin sistlica inicial
Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar
152,52 228,90 0,12 0,45 0,10 15,13
Presin sistlica final
Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar
149,86 276,71 -0,06 -0,08 0,11 16,63
Edad
Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar
43,63 93,57 0,03 -1,22 0,22 9,67
Anlisis de componentes principales (ACP)
5
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
Anlisis Estadstico Buscaremos un sub-espacio menor que p que contenga la mayor cantidad posible de informacin de la nube primitiva, y que se ajuste a la nube de puntos y la deforme lo menos posible. Mediante el siguiente proceso obtenemos Matriz de datos centrados (Archivo AdjuntoHoja BBDDCuantif) con la que se desarrollarn el resto de clculos. A continuacin se detalla los siguientes estadsticos para las 8 variables cuantitativas:altura Media Error tpico Mediana Moda Desviacin estndar Varianza de la muestra Curtosis Coeficiente de asimetra Rango Mnimo Mximo Suma Cuenta 167,78 1,04 167,00 156,00 10,38 107,83 -0,60 0,23 48,00 146,00 194,00 100,00 peso 73,33 1,67 73,00 77,00 16,65 277,33 0,06 0,47 77,00 39,00 116,00 100,00 pad_ini 88,42 0,80 89,00 94,00 8,02 64,35 -0,40 0,00 38,00 70,00 108,00 100,00 pad_fin 86,66 1,80 87,00 102,00 18,01 324,25 -0,16 -0,10 93,00 42,00 135,00 100,00 pas_ini 152,52 1,51 152,00 162,00 15,13 228,90 0,45 0,12 84,00 108,00 192,00 100,00 pas_fin 149,86 1,66 151,50 157,00 16,63 276,71 -0,08 -0,06 79,00 114,00 193,00 100,00 imc 25,97 0,49 25,79 22,23 4,92 24,23 -0,83 -0,04 21,34 15,24 36,58 100,00 edad 43,63 0,97 43,50 57,00 9,67 93,57 -1,22 0,03 34,00 27,00 61,00 100,00
16778,00 7333,00 8842,00 8666,00 15252,00 14986,00 2596,85 4363,00
TCNICAUTILIZADAEl ACP consiste en la obtencin de los componentes o ejes principales, no correlacionados entre s. El clculo del primer componente, como una combinacin lineal de las p variables iniciales, se hace en base a la consecucin de la mxima varianza de los datos; as, el primer eje representa una proporcin de la varianza explicada de los individuos. Luego, el clculo del segundo eje, no correlacionado con el primero, es tambin una combinacin lineal de las variables y representa otra parte de la variacin explicada de los individuos. El proceso se desarrolla hasta conseguir el p-simo componente o eje. Cada uno de los componentes recoge una parte de la variacin de la nube original de los individuos. La mxima informacin posible contenida en una tabla de datos (variables medidas en escala de intervalo o de razn), usualmente, se presentan en forma grfica, en planos, formados con la combinacin de los primeros componentes principales. En estos planos se proyectan las nubes de puntos-variables o nubes de puntos-individuos con el fin de
Anlisis de componentes principales (ACP)
6
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
describir las interrelaciones existentes entre esas variables o entre los individuos y las variables. El primer plano del ACP est formado por los componentes, o ejes, 1 y 2. Cada componente debe ser interpretado de acuerdo a la importancia de las variables en cada uno de ellos. Proceso Obtenemos la matriz de Varianza-Covarianza:
Varianza-Covarianza(S) 3,29 16,60 10,49 -1,76 7,58 106,75 92,12 -1,88 92,12 274,56 -12,90 7,63 1,61 2,94 66,40 2,92 -1,88 -12,90 63,70 10,13 7,40 6,69 -4,37 0,09 3,29 7,63 10,13 321,00 191,25 264,57 2,41 -5,37 16,60 1,61 7,40 191,25 226,61 209,97 -4,26 9,84 10,49 2,94 6,69 264,57 209,97 273,94 -2,38 -0,66 -1,76 66,40 -4,37 2,41 -4,26 -2,38 23,99 -1,45 7,58 2,92 0,09 -5,37 9,84 -0,66 -1,45 92,63
Representando las varianzas su diagonal principal para cada variable y los dems valores son las covarianzas. La varianza total obtenida es: 1383,20 Calculamos los valores y vectores propios asociados a la matriz de Varianza-Covarianza
Valores Propios % de proporcionalidad 725,13 52,42 327,70 23,69 103,68 7,50 79,41 5,74 66,01 4,77 60,73 4,39 20,29 1,47 0,24 0,02
Seleccin de los valores propios principales
Anlisis de componentes principales (ACP)
7
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos Vectores propios 0,58 0,41 -0,17 -0,10 0,10 0,59 -0,27 0,41 0,29 -0,50 0,03 -0,05 -0,24 -0,17 -0,64 0,15
0,03 0,02 0,02 0,63 0,49 0,60 0,00 0,00
0,37 0,90 -0,05 -0,02 -0,01 -0,02 0,20 0,02
0,37 -0,13 0,04 -0,32 0,39 0,00 -0,17 0,75
0,37 -0,16 -0,79 0,24 -0,34 0,04 -0,17 0,07
0,03 -0,02 -0,05 0,45 0,39 -0,80 0,01 -0,03
0,29 -0,31 0,01 -0,01 -0,01 0,02 0,90 0,00
Cada uno de los vectores propios est normalizado. Adems existen 2 valores con mayor porcentaje respecto de la varianza total, anteriormente mencionada. Luego de analizar los valores propios hallamos dos componentes principales Z1 y Z2
La primera componente principal est mayormente representada por las variables X4 (Presin diastlica final), X5(Presin sistlica inicial) y X6(Presin sistlica final), por lo tanto los pacientes con mayor valor en estas variables su hipertensin arterial no est siguiendo el control necesario para que pueda evitarse su deceso. La segunda componente principal est mayormente relacionada con X2(Peso de los pacientes)
Estudio de los IndividuosAnlisis de componentes principales (ACP) 8
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
Las proyecciones de los individuos en la nueva base con su respectiva posicin.
El grfico nos indica que el porcentaje del peso influye en muchos de los pacientes al igual que el alto valor de cada una de las presiones tomadas, a priopi podemos ver quienes estn mejor agrupados con relacin a cada componente.
Anlisis de componentes principales (ACP)
9
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
Contribucin de cada individuo Primera Componente
La contribucin ms alta la tienen los individuos 88(7.2%) y 44(7.1%)
Anlisis de componentes principales (ACP)
10
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
Segunda Componente
La contribucin ms alta la tienen los individuos 19(6.1%), 39(6.6%), 70(6.1%)
Anlisis de componentes principales (ACP)
11
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
Estudio de las variables
El grfico muestra una estrecha relacin entre las variables peso, ndice de masa corporal, edad, estatura, con la segunda componente principal, mientras que las presiones (diastlica, sistlica) estn estrechamente relacionadas con la primera componente.
CONCLUSIONESYRECOMENDACIONESConclusiones Las componentes principales son combinaciones lineales de las variables originales. Los coeficientes de las combinaciones lineales son los elementos de los vectores caractersticos asociados a la matriz de covarianzas de las variables originales. Por tanto, la obtencin de componentes principales es un caso tpico de clculo de races y vectores caractersticos de una matriz simtrica. La primera componente se asocia al mayor valor propio asociada a la matriz de Varianza-Covarianza.
La segunda componente se asocia al siguiente valor propio mayor (descendente) asociado a la matriz de Varianza-Covarianza.
Anlisis de componentes principales (ACP)
12
Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos
Si se representan las variables originales, su proporcin de variabilidad total captada por una componente es igual a su valor propio dividido para el nmero de variables originales. Recomendaciones Se recomienda hacer una previa clasificacin del tipo de variable a usar (cuantitavas, cualitativas). Es necesario saber manejar software complementario para el anlisis de datos y comparacin de resultados, en este caso Complementos como: XLSTAT, Matrix
ANEXOSCD-ROM: Clculos, Tablas y grficas estn anexados en el que se adjunta al informe, desarrollados con la ayuda de Excel 2003, Matrix(componente para Excel) y XLSTAT
FUENTEDECONSULTA Pea D, (2002). Anlisis de datos multivariantes, Espaa. http://jjgibaja.wordpress.com/ http://cs.uns.edu.ar/~cic/dm2009/downloads/transparencias/01_dm.pdf
RESPONSABLE
Firma Quituisaca Samaniego Lilia
Anlisis de componentes principales (ACP)
13