1 2. análisis de componentes principales objetivo: transformar un conjunto de variables en un nuevo...

1

2. Análisis de Componentes Principales

Objetivo: Transformar un conjunto de variables en un nuevo conjunto, componentes

principales, incorrelacionadas entre sí. Se consigue una representación simplificada, más sencilla y fácil de ver.

Metodología: Los datos se presentan en una tabla rectangular con n líneas (individuos) y p

columnas (variables) (matriz R, nxp). Puede ser disimétrica y con variables heterogéneas. Hay dos espacios:

Rp : n individuos con los valores que toman para cada una de las p variables.Rn : p variables para cada individuo.

Finalidad:

Buscar un subespacio Rq, q<p que contenga la mayor cantidad posible de información de la nube primitiva, y que mejor se ajuste a la nube de puntos y la deforme lo menos posible. El criterio de ajuste es el de mínimos cuadrados. Se obtendrán nuevas variables, combinaciones lineales de las variables originales llamadas factores o componentes.

2

Gráficamente:

ui es el vector unitario o propio y z i es la proyección de xi en Fi.

Como medida de la cantidad de información incorporada en una componente se utiliza su varianza. Cuanto mayor sea, mayor es la información incorporada a dicha componente. La primera componente será la de mayor varianza.

Para obtener los factores o componentes que diferencian al máximo a los individuos entre sí, medidos a través de caracteres métricos, la extracción se realiza sobre variables tipificadas, con matriz X, para evitar problemas de escala. La suma de las varianzas es igual a p, ya que la de cada una de ellas es igual a 1 y habrá tantas componentes como número de variables originales. Mientras más correlacionadas estén las variables originales entre sí, más alta será la variabilidad que se pueda explicar con menos componentes. Si existiera incorrelación, el ACP carecería de sentido, ya que las variables originales y las componentes o nuevas variables coincidirían.

3

MATRIZ DE DATOS

Cálculo de medias y desviaciones típicas

X: MATRIZ DE DATOS TIPIFICADOS

R =X´XMATRIZ DE CORRELACIONES

Diagonalización de R, cálculo de valores propios, varianza explicada y correlaciones

COMPONENTES PRINCIPALES

4

Resumen

Las componentes principales son combinaciones lineales de las variables originales.

Los coeficientes de las combinaciones lineales son los elementos de los vectores característicos asociados a la matriz de covarianzas de las variables originales. Por tanto, la obtención de componentes principales es un caso típico de cálculo de raíces y vectores característicos de una matriz simétrica.

La primera componente se asocia a la mayor raíz característica a que va asociada.

Si se tipifican las variables originales, su proporción de variabilidad total captada por una componente es igual a su raíz característica dividida por el número de variables originales.

La correlación entre una componente y una variable original se determina con la raíz característica de la componente y el correspondiente elemento del vector característico asociado, si las variables originales están tipificadas

5

Objetivo: Posicionamiento del producto turístico de Tenerife según nacionalidades.

Metodología:

Cuestionario: Fichero base turistas curso.sav. Caso de ACP: Se han elegido noches, nº visitas, nº

personas, gasto y edad Se crea una nueva variable: Gasto/persona/noche. Se obtienen las medianas por nacionalidad para las

variables.

CASO:Posicionamiento de turistas en Tenerife

6

Datos. Medianas

Nacionalidad Nº Noches

Nº visitas anteriores

Gasto noche/persona

Edad

Alemana 14,00 ,00 76,6290 42,00 Austriaca 7,00 ,00 35,7452 33,00 Belga 7,00 1,00 46,2028 35,00 Británica 14,00 2,00 37,5633 39,00 Española 7,00 ,00 85,8589 31,00 Europa exc 7,00 ,00 41,7811 24,50 Finlandesa 32,00 50,00 46,9541 73,00 Francesa 7,00 ,00 75,1265 38,00 Holandesa 14,00 ,00 18,9410 26,00 Italiana 7,00 ,00 72,9800 28,00 R. América 29,00 1,00 19,1990 22,50 R. Europa 7,00 ,00 89,0786 34,00 R. mundo 6,00 ,00 117,9486 30,00 Sueca 7,00 ,00 123,5552 30,00 Suiza 7,00 ,00 80,3639 37,00 Fuente: Encuesta a turistas. Base turistas.sav

Tabla de datos:Matriz con 15 filas, correspondientes a las nacionalidades, y 4 columnas, correspondientes a las 4 variables. Dentro, medianas

7

SPSS versión 17.0 para windowsAnalizar Reducción de Dimensiones Factor

8

Elección del numero de ejes

Criterio de la media aritmética:

Se seleccionan las componentes cuya varianza (valor propio) o inercia asociada a cada componente, exceda de la media de las raíces características. Por tanto, se debe verificar que

Si las variables originales están tipificadas, , por lo que la media de la inercia es igual a 1. Se retendrán los factores cuya inercia sea mayor que 1.

p

λλλ

p

1ii

h

pλp

1jj

9

Resultados ACP 1

Estadísticos descriptivos más importantes de las variables utilizadas

El perfil promedio de los turistas de la muestra tiene un estancia promedio de 11 o 12 días, han visitado con anterioridad la isla entre 3 y 4 ocasiones, el gasto persona/día de sus vacaciones ha sido de 64,53€, la edad es aproximadamente 35 años.

La variable con mayor grado de dispersión relativa es el nº de visitas anteriores (357%).

10

Resultados ACP 2

Matriz de coeficientes de correlación para todos los pares de variables originales.

Niveles de significación unilaterales de cada uno de los coeficientes.

Para un nivel del 5% de significación, resultaron significativos 4 de los 6 (67%), porcentaje de índices de correlación adecuado para el análisis.

11

Resultados ACP 3

La adecuación de los datos al análisis factorial de componentes principales se contrasta mediante KMO y prueba de Bartlett

12

Resultados ACP 4

KMO:

Estadístico de prueba de la hipótesis de que las correlaciones parciales entre las variables son pequeñas. Indica la proporción de varianza de las variables originales que es común, y que podría ser explicada por factores subyacentes. Valores cercanos a 1: un análisis factorial puede ser útil para los datos. Valores menores de 0,5: los resultados probablemente no sean muy útiles.

KMO = 0,6: Los datos muestran ser adecuados para el análisis ACP.

ji

2ij

ji

2ij

ji

2ij

ar

r

KMO rij : coeficiente de correlación lineal de Pearson entre las variables i,jaij: coeficiente de correlación parcial entre las variables i,j

Prueba de esferidad de Bartlett:Indica si la matriz de correlaciones es una matriz identidad, por lo que que las variables no están relacionadas Hay evidencia suficiente para rechazar que la matriz de correlaciones es una matriz identidad. Existe un cierto nivel de relación entre las variables.

13

Resultados ACP 5

Covarianzas y correlaciones parciales negativas. Índice de las correlaciones no debidas a los factores. Valores pequeños: las variables están relativamente libres de correlaciones no explicadas. La mayoría de los valores fuera de la diagonal principal deberían ser muy pequeños (próximos a cero). En nuestro caso, parece existir una parte importante de las correlaciones entre las variables que los factores extraídos no consiguen explicar.

Elementos de la diagonal principal de la matriz de correlación anti-imagen: medida de adecuación muestral para cada variable. Valores inferiores a 0,5: Las variables no se ajustan a la estructura de las otras. Deberíamos eliminarlas del análisis. En nuestro caso todas las variables presentan una medida de adecuación muestral superior a 0,5.

Matrices anti-imagen

,333 -,117 ,057 ,236

-,117 ,128 -,130 -,013

,057 -,130 ,184 -,047

,236 -,013 -,047 ,661

,617a -,567 ,229 ,503

-,567 ,556a -,850 -,043

,229 -,850 ,569a -,136

,503 -,043 -,136 ,513a

Nº Noches


Edad del turista

Gasto por persona y día

Nº Noches


Edad del turista


Covarianza anti-imagen

Correlación anti-imagen

Nº NochesNº visitasanteriores

Edad delturista

Gasto porpersona y día

Medida de adecuación muestrala.

14

Resultados ACP 6

Indican la cantidad de varianza de cada variable que es explicada. En el método de extracción Componentes Principales, las comunalidades iniciales son siempre 1.

Las comunalidades de la extracción son estimaciones de la varianza de cada variable que es explicada por los factores incluidos en la solución factorial.

Para todas las variables la cantidad de varianza explicada por los factores de la solución factorial es alta.

Todas las variables se ajustan bien a la solución factorial.

Comunalidades

1,000 ,835

1,000 ,954

1,000 ,918

1,000 ,926

Nº Noches


Edad del turista


Inicial Extracción

Método de extracción: Análisis de Componentes principales.

15

Resultados ACP 7

Las tres primeras columnas se refieren a la solución inicial, y hay tantos valores como componentes o factores posibles.

Total: Cantidad de varianza explicada por cada componente en las variables observadas.

“% de varianza”: Porcentaje de varianza explicada por las componentes.

“% de varianza acumulado”: Porcentaje acumulado de varianza explicada por la componente correspondiente y las anteriores.

En nuestro caso los dos primeros factores consiguen explicar prácticamente el 91% de la varianza de las variables originales, lo que indica un buen modelo factorial.

También se muestran las cantidades de varianza explicada por cada factor extraído una vez realizada la rotación de los mismos. En ese caso, el factor 1 explica más del 56% de la varianza, mientras que el segundo factor explica el 34.63%.

Varianza total explicada

2,511 62,772 62,772 2,511 62,772 62,772 2,248 56,190 56,190

1,122 28,047 90,819 1,122 28,047 90,819 1,385 34,628 90,819

,291 7,265 98,084

,077 1,916 100,000

Componente1

2

3

4

Total% de lavarianza % acumulado Total

% de lavarianza % acumulado Total

% de lavarianza % acumulado

Autovalores inicialesSumas de las saturaciones al cuadrado

de la extracciónSuma de las saturaciones al cuadrado

de la rotación


16

Resultados ACP 8

Matriz de casos

Cargas factoriales para cada variable sobre las componentes no rotadas. Cada valor representa la correlación entre la variable y la componente. Pueden ayudar a formular una interpretación de los factores.

La mayoría de las variables originales presentan una correlación alta con el primero de los factores, lo que dificulta la interpretación de los mismos.

Nacionalidad F1 F2

Alemana 0,142 0,380

Austriaca -0,201 -0,666

Belga -0,167 -0,331

Británica 0,309 -0,619

Española -0,505 0,466

Europa excomunista -0,471 -0,805

Finlandesa 3,374 0,988

Francesa -0,254 0,443

Holandesa -0,026 -1,534

Italiana -0,526 0,058

Resto América 0,524 -2,126

Resto Europa -0,436 0,643

Resto mundo -0,734 1,234

Sueca -0,720 1,335

Suiza -0,308 0,535

Matriz de componentesa

,943 ,254

,860 -,309

,848 ,447

-,404 ,873


Nº Noches

Edad del turista


1 2

Componente

Método de extracción: Análisis de componentes principales.

2 componentes extraídosa.

17

Resultados ACP 9Correlaciones reproducidas y residuos

Patrón predictivo de las relaciones. Si la solución es correcta, las correlaciones reproducidas están próximas a los valores observados, Los residuos indican la diferencia entre valores reproducidos y observados. La mayoría de estos valores deberán ser pequeños.

a. Hay 3 (50,0%) residuales no redundantes con valores absolutos mayores que 0,05. Los valores residuales son pequeños. La bondad del modelo factorial estimado es bastante alta

Correlaciones reproducidas

,835b ,733 ,591 -,617

,733 ,954b ,913 -,159

,591 ,913 ,918b ,047

-,617 -,159 ,047 ,926b

-,030 -,082 ,109

-,030 -,026 -,011

-,082 -,026 -,063

,109 -,011 -,063

Nº Noches


Edad del turista


Nº Noches


Edad del turista


Correlación reproducida

Residual a

Nº NochesNº visitasanteriores

Edad delturista

Gasto porpersona y día


Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 3 (50,0%)residuales no redundantes con valores absolutos mayores que 0,05.

a.

Comunalidades reproducidasb.

18

Resultados ACP 10

Valores utilizados para el cálculo de las puntuaciones para cada caso. Para cada nacionalidad, la puntuación factorial se calcula multiplicado los valores de la variable por los coeficientes de la puntuación factorial.

Matriz de coeficientes para el cálculo de laspuntuaciones en las componentes

,189 -,397

,437 ,040

,477 ,211

,194 ,771

Nº Noches


Edad del turista


1 2

Componente


Método de rotación: Normalización Varimax con Kaiser.

19

Gráfico ACP: Diagrama de dispersión

20

Rotación de los ejes: ProcedimientosObjetivo:Obtener nuevos factores más fáciles de interpretar. Cada variable original tendrá una correlación lo más próxima a 1 con uno de los factores y lo más próximas a 0 con el resto. Cada factor tendrá correlación alta con un grupo de variables y baja con el resto.

1. Rotación ortogonal: Queda preservada la incorrelación entre los factores.VARIMAX. Los ejes de los factores rotados se obtienen maximizando la suma de varianzas de las cargas factoriales al cuadrado dentro de cada factor. Problema: Las variables con mayores comunalidades tienen mayor influencia en la solución final. Para evitarlo: normalización de Kaiser: Cada carga factorial al cuadrado se divide por la comunalidad de la variable correspondiente (VARIMAX normalizado). Ventaja: queda inalterada tanto la varianza total explicada por los factores como la comunalidad de cada una de las variablesEQUAMAX y el QUARTIMAX

2. Rotación oblicua: Factores no incorrelacionados. Se compensarse si se consigue una asociación más nítida de cada variable con el factor correspondiente.

OBLIMIN: Se utilizan algoritmos para controlar el grado de no ortogonalidad. Tampoco se ve modificada la comunalidad en la rotación oblicua

21

Resultados Rotación VARIMAX 1

Las cargas factoriales quedan más repartidasPara la componente 1 las variables con mayores cargas factoriales son: “nº de visitas anteriores” (+), “edad del turista” (+) y “nº de noches” (+), aunque ésta última, también presenta una alta carga factorial con la componente 2.Con la componente 2 además de el “nº de noches” (-), se da una alta correlación con : “gasto por persona y día” (+).

Explicación:

Componente 1: Los turistas de más edad son los que más veces han repetido visita a Tenerife, y los que más alargan su estancia durante sus vacaciones.

Componente 2: Los que más gastan por persona y día son los que menor tiempo de estancia tienen.

Matriz de componentes rotadosa

,960 -,182

,958 ,033

,017 ,962

,640 -,652


Edad del turista


Nº Noches

1 2

Componente


Método de rotación: Normalización Varimax con Kaiser.

La rotación ha convergido en 3 iteraciones.a.

22

Resultados Rotación VARIMAX 2 Factor 1:

Cuadrante positivo:Nacionalidades: Finlandesa, Alemana y Británica.Nº visitas anteriores, edad, nº nochesCuadrante negativo:Nacionalidades: Resto

Factor 2: Cuadrante positivo:Nacionalidades: Alemana, Española, Francesa, Italiana, Resto de Europa, Resto del Mundo, Sueca y Suirza.Gasto noche personaCuadrante negativo:Nacionalidades: Resto.Nº noches

MATRIZ DE CASOS ROTADOS

Nacionalidad F1 F2

Alemana 0,293 0,280

Austriaca -0,471-

0,512

Belga -0,294-

0,226

Británica 0,008-

0,692

Española -0,252 0,640

Europa excomunista -0,775-

0,520

Finlandesa 3,467-

0,580

Francesa -0,036 0,510

Holandesa -0,691-

1,370

Italiana -0,449 0,281

Resto América -0,454-

2,142

Resto Europa -0,112 0,769

Resto mundo -0,123 1,430

Sueca -0,067 1,515

Suiza -0,044 0,616

23

Gráfico ACP rotado: Diagrama de dispersión

1 2. análisis de componentes principales objetivo: transformar un conjunto de variables en un nuevo...

Documents