componentes principales 1

36
COMPONENTES PRINCIPALES Si es posible describir con precisión los valores de p variables por un pequeño subconjunto r<p de ellas, se habrá reducido la dimensión a costa de una pequeña pérdida de información. Dadas n observaciones de p variables, se analiza si es posible representar adecuadamente esta información con un número menor de variables construidas como combinaciones lineales de las originales. Su utilidad es doble: 1. Permite r epr esentar en un e spa cio de dimensión pe queña, observaciones de un espacio general p-dimensional. Es el primer paso para identificar posibles variables latentes o no observadas, que están generando la variabilidad de los datos. 2. Permi te tr ansformar las variables originales, en general correlacionadas, en nuevas variables incorrelacionadas, facilitando la interpretación de los datos.  ANÁLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

Upload: todd-martinez

Post on 16-Oct-2015

14 views

Category:

Documents


0 download

TRANSCRIPT

  • COMPONENTES PRINCIPALES

    Si es posible describir con precisin los valores de p variables por un pequeo subconjunto r

  • 1.- PLANTEAMIENTO DEL PROBLEMA Supongamos que se dispone de los valores de p-variables en n elementos de una poblacin dispuestos en una matriz X de dimensiones np, donde las columnas contienen las variables y las filas los elementos. Supondremos en este captulo que previamente hemos restado a cada variable su media, de manera que las variables de la matriz X tienen media cero y su matriz de covarianzas vendr dada por 1/n XX. Ejemplo: Problema 1 El problema que se desea resolver es cmo encontrar un espacio de dimensin ms reducida que represente adecuadamente los datos. El problema puede abordarse desde tres perspectivas equivalentes.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • a) Enfoque descriptivo Se desea encontrar un subespacio de dimensin menor que p tal que al proyectar sobre l los puntos conserven su estructura con la menor distorsin posible. Consideremos el caso de dos dimensiones (p=2). El diagrama de dispersin y una recta, proporciona un buen resumen de los datos, ya que las proyecciones de los puntos sobre ella indican aproximadamente la situacin de los puntos en el plano.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • La representacin es buena porque la recta pasa cerca de todos los puntos y estos se deforman poco al proyectarlos. Esta propiedad puede concretarse exigiendo que las distancias entre los puntos originales y sus proyecciones sobre la recta sean lo ms pequeas posibles. Si consideramos un punto xi y una direccin a1=(a11,..., a1p), definida por un vector a1 de norma unidad, la proyeccin del punto xi sobre esta direccin es el escalar: y el vector que representa esta proyeccin ser zia1. Llamando ri a la distancia entre el punto xi, y su proyeccin sobre la direccin a1, este criterio implica: donde |u| es la norma euclidiana o mdulo del vector u

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • En la figura se muestra que al proyectar cada punto sobre la recta se forma un tringulo rectngulo donde la hipotenusa es la distancia al origen del punto al origen, (xixi)

    1/2, y los catetos la proyeccin del punto sobre la recta (zi) y la distancia entre el punto y su proyeccin (ri). Por Pitgoras: y sumando esta expresin para todos los puntos, se obtiene: Como el primer miembro es constante, minimizar La suma de las distancias a la recta de todos los puntos, es equivalente a maximizar. La suma al cuadrado de los valores de las proyecciones. Como las proyecciones zi son, variables de media cero, maximizar la suma de sus cuadrados equivale a maximizar su varianza

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • En el espacio de p-dimensiones, lo caracterstico de la nube de puntos son sus distancias relativas. Tratemos de encontrar un subespacio de dimensin 1, es decir, un recta tal que los puntos proyectados conserven lo ms posible sus distancias relativas. Si llamamos a los cuadrados de las distancias originales entre los puntos y a las distancias entre los puntos proyectados sobre una recta, deseamos que. sea mnima. Como la suma de las distancias originales es fija, minimizar D requiere maximizar , las distancias entre los puntos proyectados. Se demuestra que la direccin es la misma que proporciona una variable escalar de varianza mxima.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • b) Enfoque estadstico: Representar puntos p dimensionales con la mnima prdida de informacin en un espacio de dimensin uno es equivalente a sustituir las p variables originales por una nueva variable, z1, que resuma ptimamente la informacin. Esto supone que la nueva variable debe tener globalmente mxima correlacin con las originales o, en otros trminos, debe permitir prever las variables originales con la mxima precisin (utilizar la variable de mxima variabilidad). c) enfoque geomtrico Si consideramos la nube de puntos de la figura vemos que los puntos se sitan siguiendo una elipse y podemos describir su orientacin dando la direccin del eje mayor de la elipse y la posicin de los punto por su proyeccin sobre esta direccin. En varias dimensiones tendremos elipsoides y la mejor aproximacin a los datos es la proporcionada por el eje mayor del elipsoide. Considerar los ejes del elipsoide como nuevas variables originales supone pasar de variables correlacionadas a variables ortogonales

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • 2.- CALCULO DE LOS COMPONENTES 2.1 Clculo del primer componente Ser la combinacin lineal de las variables originales que tenga varianza mxima. Los valores de este primer componente en los n individuos se representarn por un vector z1, dado por Como las variables originales tienen media cero tambin z1 tendr media nula. Su varianza ser: S es la matriz de varianzas-covarianzas. Para maximizar la varianza sin limite aumentamos el mdulo del vector a1. Para que la maximizacin tenga solucin debemos imponer una restriccin al mdulo del vector a1, y, sin prdida de generalidad, impondremos que a1a1=1. Introduciremos esta restriccin mediante el multiplicador de Lagrange: y maximizaremos esta expresin

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • cuya solucin es: que implica que a1 es un vector propio de la matriz S, y su correspondiente valor propio. Para determinar qu valor propio de S es la solucin de la ecuacin tendremos en cuenta que, multiplicando por la izquierda por a1 esta ecuacin, y concluimos, que es la varianza de z1. Como esta es la cantidad que queremos maximizar, ser el mayor valor propio de la matriz S. Su vector asociado, a1, define los coeficientes de cada variable en el primer componente principal.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Problema 1.- Las observaciones corresponden a acciones que se cotizan en el mercado y las variables a tres medidas de rentabilidad de estas acciones durante un perodo de tiempo. Las variables son : X1 es la rentabilidad efectiva por dividendos, X2 es la proporcin de beneficios que va a dividendos y X3 el ratio entre precio por accin y beneficios.

    Obs. X1 X2 X3

    1 3.4 89.7 30.2

    2 5.1 55.7 9.9

    3 4.5 52.3 11.5

    4 3.5 47.0 11.2

    5 5.9 42.7 7.0

    6 5.1 30.6 6.9

    7 4.6 64.4 11.8

    8 5.0 51.0 9.6

    9 3.2 54.4 14.7

    10 3.4 45.7 13.2

    11 6.5 39.9 5.2

    12 4.4 40.3 13.7

    13 5.1 52.4 11.0

    14 5.8 43.9 8.0

    15 4.6 52.8 14.4

    16 7.2 65.8 7.8

    17 7.2 58.1 7.7

    18 4.4 58.5 12.1

    19 7.8 84.3 11.0

    20 16.0 96.5 6.0

    21 16.7 100.0 6.8

    22 15.2 92.3 5.2

    23 17.5 99.9 6.8

    24 16.2 93.5 6.1

    25 14.7 100.0 6.6

    26 15.3 99.9 5.9

    27 15.8 100.0 6.9

    28 18.3 96.3 5.7

    29 15.9 100.0 6.1

    30 16.1 92.5 6.1

    31 9.7 87.6 7.7

    32 6.9 53.6 6.6

    33 14.4 87.8 5.2

    34 14.9 34.5 4.69

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Las medidas de asimetra y kurtosis indican un alejamiento de la distribucin normal para las tres variables: las dos primeras tienen valores muy bajos de la kurtosis, lo que indica alta heterogeneidad, posiblemente por la presencia de dos grupos de datos distintos, y la tercera tiene alta kurtosis, lo que sugiere la presencia de valores atpicos.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Estas caractersticas son muy claras en los histogramas de las variables. La primera variable, rentabilidad efectiva por dividendos, x1, muestra dos grupos de acciones con comportamiento distinto.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • El histograma de la segunda variable, x2, proporcin de beneficios que va a dividendos, muestra tambin dos grupos de acciones.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Finalmente, la distribucin de la tercera variable es muy asimtrica, con un valor atpico muy destacado. La evidencia disponible indica que las acciones pueden probablemente dividirse en dos grupos ms homogneos. Sin embargo, vamos a ilustrar el anlisis de todos los datos. X3 el ratio entre precio por accin y beneficios.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • La matriz de varianzas y covarianzas de estas tres variables ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Como las dimensiones de las variables son distintas, no tiene sentido calcular medidas promedio. Los histogramas de las tres variables han mostrado una clara falta de normalidad. Una posibilidad, que estudiaremos con ms detalle en el captulo siguiente, es transformar las variables para facilitar su interpretacin. Tomando logaritmos, la matriz de covarianzas de las variables transformadas,

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Se observa que los logaritmos modifican mucho los resultados. Los datos ahora son ms homogneos y la variable de mayor varianza pasa a ser la primera, el logaritmo de la rentabilidad efectiva, mientras que la menor es la segunda, el logaritmo de la proporcin de beneficios que va a dividendos. La relacin entre el logaritmo del ratio precio/beneficios (X3) y la rentabilidad efectiva es negativa. Las otras relaciones son dbiles. Una ventaja adicional de los logaritmos es que hace las variables independientes de la escala de medida: Si multiplicamos las variables por una constante al tomar logaritmos esto es equivalente a sumar una cantidad y sumar una constante a los datos no altera su variabilidad. Por tanto, al tomar logaritmos en las variables las varianzas pueden compararse aunque los datos tengan distintas dimensiones. La varianza media de las tres variables es

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Clculo de los Autovalores: Para el clculo de los autovalores tenemos que calcular las races de la ecuacin:

    Las races del polinomio, obtenidas son 1=0.521, 2=0.113, 3=6.51103.

    El autovector asociado a 1 nos da los pesos de la primera componente principal. Para calcular el primer autovector resolvemos el sistema. que conduce a:

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • El sistema es compatible indeterminado. Para encontrar una de las infinitas soluciones tomemos la primera variable como parmetro, x, resolvamos el sistema en funcin de x. La solucin es, El valor de x se obtiene ahora imponiendo que el vector tenga norma unidad, con lo que resulta: el primer componente es

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Donde X1,X2 y X3 son las variables en logaritmos. Por ejemplo, el valor de esta nueva variable, la primera componente principal, para la primera observacin (la primera accin) es El primer componente principal puede aproximadamente escribirse. y utilizando la definicin de las variables originales este componente puede escribirse es decir

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Que indica que este primer componente depende bsicamente de la variable X1, la rentabilidad por dividendos. Llamando z1=logZ1 este primer componente puede escribirse tambin como que es, aproximadamente, de nuevo la variable x1, el cociente entre el precio de la accin y los dividendos recibidos. Esta variable es la que explica mejor la variabilidad conjunta de las acciones.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Problema 2.- La encuesta de presupuestos familiares en Espaa (EPF) presenta los gastos medios de las familias: X1=alimentacin, X2=vestido y calzado, X3=vivienda, X4=mobiliario domstico, X5=gastos sanitarios, X6=transportes, X7=enseanza y cultura, X8=turismo y ocio, X9=otros gastos, para 51 provincias. La matriz de covarianzas resume la variabilidad de estas 9 variables en los 51 elementos observados. Como las distribuciones de los gastos son muy asimtricas, las variables se han expresado en logaritmos. El vector propio asociado al mayor valor propio, 0,348, define la siguiente variable: z1 es una suma ponderada de todos los gastos con mayor peso en los gastos en enseanza y cultura (x7) y gastos sanitarios (x5). El menor peso lo tiene el gasto en alimentacin (x1). Si calculamos las coordenadas z1 para las provincias y las ordenamos por esta nueva variable las provincias quedan prcticamente ordenadas por su renta. La primera componente principal tiene pues en este caso una explicacin inmediata.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • 2.2 Clculo del segundo componente Vamos a obtener el mejor plano de proyeccin de las variables X. Lo calcularemos estableciendo como funcin objetivo que la suma de las varianzas de z1= Xa1 y z

    2= Xa2 sea mxima, donde a1 y a2 son los vectores que definen el plano. La funcin objetivo ser: ..(1) que incorpora las restricciones de que las direcciones deben de tener mdulo unitario (aiai) =1, i = 1, 2. Derivando e igualando a cero: La solucin de este sistema es:

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • que indica que a1 y a2 deben ser vectores propios de S. Tomando los vectores propios de norma uno y sustituyendo en (5.7), se obtiene que, en el mximo, la funcin objetivo es es claro que 1 y 2 deben ser los dos autovalores mayores de la matriz S y a1 y a2 sus correspondientes autovectores. Observemos que la covarianza entre z1 y z2, dada por a1Sa2 es cero ya que a1a2 = 0, y las variables z1 y z2 estarn correlacionadas. Puede demostrarse que si en lugar de maximizar la suma de varianzas, que es la traza de la matriz de covarianzas de la proyeccin, se maximiza la varianza generalizada (el determinante de la matriz de covarianzas) se obtiene el mismo resultado.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Problema 3 El segundo componente principal para las variables del EPF es el asociado al segundo valor propio mayor que es 0,032. El vector propio asociado a este valor propio define la nueva variable: Esta variable puede verse como la diferencia entre dos medias ponderadas de los gastos. La primera da sobre todo peso a otros gastos (x9), y transporte (x6). Este segundo componente va a separar a provincias que envan recursos a otras (alto valor de x9) y que tienen tambin altos gastos de transporte, respecto a las que transfieren relativamente poco y tienen altos gastos de educacin y sanidad.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • 2.3 En General El espacio de dimensin r que mejor representa a los puntos viene definido por los vectores propios asociados a los r mayores auto valores de S. Si la matriz X (S) tiene rango p, existen tantas componentes principales como variables que se obtendrn calculando los valores propios o races caractersticas, 1,..., p, de la matriz S de las variables, mediante: y sus vectores asociados son: Los i son reales, al ser la matriz S simtrica, y positivos, ya que S es definida positiva. Por ser S simtrica si j y h son dos races distintas sus vectores asociados son ortogonales. En efecto: y si jh, ahaj=ajah=0 y son ortogonales. Si S fuese semidefinida positiva de rango p
  • Sea Z la matriz cuyas columnas son los valores de las p componentes en los n individuos, estas nuevas variables estn relacionadas con las originales mediante: Z = XA donde AA = I. Calcular los componentes principales equivale a aplicar una transformacin ortogonal A a las variables X para obtener unas nuevas variables Z incorrelacionadas entre s. Esta operacin puede interpretarse como elegir unos nuevos ejes coordenados, que coincidan con los .ejes naturales. de los datos.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Problema 4 Los restantes valores propios de la matriz de covarianzas de los datos de la EPF son 0.027, 0.0175, 0.0126, 0.0107, 0.010, 0.0059, y 0.00526. A partir del tercero son muy pequeos y de valor similar. El tercer componente principal es. Puede interpretarse como la diferencia entre dos medias ponderadas. La primera da sobre todo peso a las variables 3, vivienda, 8, turismo y ocio, 1, alimentacin y 4, mobiliario domstico. La segunda a la 5, gastos sanitarios, y a la 7, enseanza y cultura.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Problema 5: La matriz de varianzas y covarianzas de nueve indicadores econmicos medidos en distintas empresas es. Las races caractersticas de esta matriz se presentan en Los vectores propios de los tres primeros componentes

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • 3. PROPIEDADES DE LOS COMPONENTES 1. La suma de las varianzas de los componentes es igual a la suma de las

    varianzas de las variables originales, y la varianza generalizada de los componentes es igual a la original, pero con distribucin distinta.

    Componentes principales conservan la Varianza generalizada, 2. La proporcin de variabilidad explicada por un componente es el

    cociente entre su varianza, el valor propio asociado al vector propio que lo define, y la suma de los valores propios de la matriz.

    3. Las covarianzas entre cada componente principal y las variables X vienen dadas por el producto de las coordenadas del vector propio que define el componente por el valor propio (donde ai es el vector de coeficientes de la componente zi).

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • Justificacin: Donde Z = XA y A contiene en columnas los vectores propios de S y D es la matriz diagonal de los valores propios. En consecuencia, la covarianza entre. 4. Las correlacin entre un componente principal y una variable X es

    proporcional al coeficiente de esa variable en la definicin del componente, y el coeficiente de proporcionalidad es el cociente entre la desviacin tpica del componente y la desviacin tpica de la variable.

    5. Las r componentes principales (r

  • 6. Si estandarizamos los componentes principales (Z), dividiendo cada uno por su desviacin tpica, se obtiene la estandarizacin multivariante de los datos originales.

    D1/2 matriz inversa de desviaciones tpicas de las componentes. La estandarizacin multivariante de una matriz de variables X de media cero es. y ambas variables estn incorreladas y tienen matriz de covarianzas identidad. Se diferencian en que unas pueden ser una rotacin de las otras, lo que es indiferente al tener todas las mismas varianzas. Por tanto, la estandarizacin multivariante puede interpretarse como :

    (1) obtener los componentes principales; (2) estandarizarlos para que tengan todos la misma varianza.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • La transformacin mediante componentes principales conduce a variables incorreladas pero con distinta varianza, puede interpretarse como rotar los ejes de la elipse que definen los puntos para que coincidan con sus ejes naturales. La estandarizacin multivariane produce variables incorreladas con varianza unidad, lo que supone buscar los ejes naturales y luego estandarizarlos.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • 5. Seleccin del nmero de componentes 1. Realizar un grfico de i frente a i. Seleccionar componentes hasta que

    los restantes tengan aproximadamente el mismo valor de i. La idea es buscar un codo en el grfico, es decir, un punto a partir del cual los valores propios son aproximada mente iguales.

    2. Seleccionar componentes hasta cubrir una proporcin determinada de varianza, como 80% o 90%. Debe aplicarse con cierto cuidado. Por ejemplo, es posible que un nico componente recoja el 90% de la variabilidad y sin embargo pueden existir otros componentes que sean muy adecuados para explicar la forma de las variables.

    3. Desechar los componentes asociados a valores propios inferiores a una cota, que suele fijarse como la varianza media Para la matriz de correlacin, el valor medio es 1, seleccionar los valores propios mayores a 1. (Regla arbitraria: una variable independiente del resto suele llevarse un componente principal y puede tener un valor propio mayor que la unidad. Sin embargo, si esta incorrelada con el resto puede ser una variable poco relevante para el anlisis).

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • ANLISIS NORMADO CON CORRELACIONES Los componentes principales normados se obtiene calculando los vectores y valores propios de la matriz correlacin R. Llamando Rp a las races caractersticas de esa matriz, que suponemos no singular, se verifica que: La proporcin de variacin explicada por Rp ser: Ejemplo 6: La matriz de correlacin de los nueve indicadores econmicos Los valores propios son:

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO

  • y los vectores propios asociados a los tres primeros valores propios son: Con la matriz de varianzas las variables con ms peso en el componente eran las que tenan una mayor varianza: la 2, luego la 3 y finalmente las 1,4,5 y 6 con un peso parecido. Al utilizar la matriz de correlaciones este efecto desaparece, y el peso de las variables est ms relacionado con las correlaciones. La proporcin de variabilidad explicada por el primer componente cambia mucho: de 878, 5/1441,8 = 60, 9% a 3.7/9 = 41% . El segundo componente cambia completamente: ahora est prcticamente asociado a las tres ltimas variables. La proporcin de variabilidad que explica ha aumentado considerablemente, del 196/1441,8 = 13, 6% a 2.72/9 = 30% . El tercer vector propio es tambin distinto en ambas matrices.

    ANLISIS MULTIVARIADO II LIC. NEL QUEZADA LUCIO